Aprendizaje Por Refuerzo Marvin

Por: Marvin Agila J.

Presento algunas definiciones de personajes que exponen sus puntos de vista:

“Aprender es construir o modificar representaciones de aquello con lo que se está experimentando” [McCarthy]

“El aprendizaje denota cambios en el sistema que permiten que se realice la misma tarea más eficiente y eficazmente la próxima vez” [Simón]

“Aprender es hacer cambios útiles en nuestra mente” [Minsky]

Sistema que interactúa con un entorno o que lo observa.

Modificación del comportamiento del sistema o de su representación interna.

Mejora del sistema de acuerdo a algún criterio de evaluación

En este modelo de aprendizaje, los agentes aprenden comportamientos por medio de interacciones basadas en ensayo y error, dentro de un medio dinámico.

Los agentes reactivos y adaptativos cuentan con una descripción del estado actual y tienen que seleccionar la siguiente acción, de un conjunto de posibles acciones, que maximice un refuerzo escalar proporcionado después de realizar la acción elegida

Algunas de las características que proporciona el aprendizaje por refuerzo son:

El aprendizaje ocurre a través de la experimentación basada en prueba y error con el medio ambiente.

La retroalimentación es a base de un pago escalar.

En tareas de toma de decisiones secuenciales, el pago puede repartirse y retrasarse.

Se requiere poco o ningún conocimiento previo.

Es incremental y puede usarse en línea.

Puede usarse para aprender tareas reactivas.

Se puede usar en ambientes no determinísticos.

Cuando se usa con métodos de diferencia temporal es eficiente en aprender tareas de toma de decisiones secuenciales.

No solo el agente y su medio son los que interactúan en un RA, además de estos es posible identificar 4 subelementos principales que son:

una política

una función de recompensa

una función de valor

un modelo del medio

La política define la forma en la que un agente se comportará en un momento dado; es decir, es el mapeo de estados percibidos del medio hacia acciones a ser tomadas cuando se encuentra en alguno de ellos.

La función de recompensa define la meta; es decir, mapea cada estado percibido del medio a un número que indica la deseabilidad de dicho estado. Un agente que utiliza el aprendizaje por refuerzo tiene el objetivo de maximizar el total de la recompensa recibida a largo plazo.

La función de valor especifica lo que es bueno en el largo plazo; es decir, el valor de un estado es la suma total de las recompensas que un agente puede esperar acumular en el futuro, iniciando en dicho estado.

El modelo del medio permite simular el comportamiento del mismo. Por ejemplo, dado un estado y una acción, el modelo puede predecir el estado y recompensa resultantes.

Los algoritmos de aprendizaje por refuerzo están basados en:

Programación dinámica

Métodos Monte Carlo

Métodos de Diferencia temporal

Es un método de divide y vencerás. Son algoritmos que se utilizan para

calcular políticas óptimas dado un modelo perfecto del medio como en los Procesos de Decisión de Markov (PDM).

Los algoritmos en sí son limitados para el aprendizaje por refuerzo debido a que se necesita un modelo perfecto del medio.

Se aplica a problemas de optimización.

Caracterizar la estructura de una solución óptima.

Definir recursivamente los valores de una solución óptima.

Calcular el valor de una solución óptima del estilo bottom-up.

Construir una solución óptima a partir de la información.

Solucionar cada subproblema exactamente una sola vez.

Guarda soluciones parciales dentro de una tabla.

Tiene un menor costo de ejecución que los algoritmos recursivos.

Puede tomar ventaja del traslape de subproblemas.

La desventaja más notoria que se da a conocer en la ejecución de este algoritmo es en lo referente a la capacidad de almacenamiento de cada computador:

Necesita memoria para almacenar sus datos, por lo que para problemas grandes, es necesaria una gran cantidad de memoria.

Existe la posibilidad de traslapar problemas.

Podemos partir el problema en etapas:

Etapa 1: nodo AEtapa 2: nodos B, C y DEtapa 3: nodos E, F, y GEtapa 4: nodos H e IEtapa 5: nodo J

Nota: Los estados en cada etapa corresponden al nombre del nodo.

Etapa 5Donde proporciona la distancia más

corta del nodo S al destino J. Etapa 4

Durante esta etapa, no hay decisiones reales que hacer, simplemente se va al

estado destino, J. 34 Hf 44 If

Estos algoritmos no necesitan un modelo completo del medio.

Requieren de la experiencia: secuencias de estados-acciones y recompensas.

Aprenden una función de estado-valor dada una política.

Se utilizan en tareas episódicas.Al terminar un episodio se actualizan los

valores estimados y la política.

Un PDM se define por sus conjuntos de acciones y estados y por una dinámica del medio de un paso.

Dado un estado y acción, s y a, la probabilidad de un estado s´ es:

aassssP tttass ,Pr 1

Si no existen recompensas no pueden existir valores y el propósito de estimar valores es el de alcanzar mayor recompensa.

Sin embargo, cuando se realiza un proceso de proponer y evaluar decisiones, lo que utiliza el agente son los valores. Esto significa que un agente debe de buscar realizar las acciones que lo lleven a los estados con los valores más altos, no con la recompensa más alta, debido a que estas acciones obtienen la mayor recompensa en el largo plazo.

En procesos de toma de decisiones y planeación lo que interesa calcular son los valores. Sin embargo, este proceso es más difícil que asignar recompensas ya que estas se proporcionan inmediatamente por el medio y los valores se calculan y actualizan continuamente a partir de las secuencias de observaciones que realiza el agente durante su ejecución.

http://modelosrecuperacion.50webs.com/inferencia.htm

http://ficcte.unimoron.edu.ar/wicc/Trabajos/I%20-%20asi/627-wicc_2006_AEs_DM.pdf

http://72.14.205.104/search?q=cache:l8a142XMAVIJ:www.ica.luz.ve/~dfinol/webMEsta/06-Clasificacion%2520no%2520Supervisada.pdf+clasificacion+no+supervisada&hl=es&ct=clnk&cd=2&gl=ec

http://www.um.es/geograf/sig/teledet/clasific.html

Documents

Aprendizaje Por Refuerzo Marvin