Aprendizaje Por Refuerzo Marvin

  • View
    1.636

  • Download
    2

Embed Size (px)

DESCRIPTION

introduccion a aprendizaje por refuerzo

Text of Aprendizaje Por Refuerzo Marvin

  • 1. Por: Marvin Agila J .

2.

    • Presento algunas definiciones de personajes que exponen sus puntos de vista:
  • Aprender es construir o modificarrepresentaciones de aquello con lo que se est experimentando [McCarthy]
  • El aprendizaje denota cambios en el sistema que permiten que se realice la misma tarea ms eficiente y eficazmente la prxima vez [Simn]
  • Aprender es hacer cambios tiles en nuestra mente [Minsky]

3.

  • Sistema que interacta con un entorno o que lo observa.
  • Modificacin del comportamiento del sistema o de su representacin interna.
  • Mejora del sistema de acuerdo a algn criterio de evaluacin

4.

  • En este modelo de aprendizaje, los agentes aprenden comportamientos por medio de interacciones basadas en ensayo y error, dentro de un medio dinmico.
  • Los agentes reactivos y adaptativos cuentan con una descripcin del estado actual y tienen que seleccionar la siguiente accin, de un conjunto de posibles acciones, que maximice un refuerzo escalar proporcionado despus de realizar la accin elegida

5.

  • Algunas de las caractersticas que proporciona el aprendizaje por refuerzo son:
  • El aprendizaje ocurre a travs de la experimentacin basada en prueba y error con el medio ambiente.
  • La retroalimentacin es a base de un pago escalar.
  • En tareas de toma de decisiones secuenciales, el pago puede repartirse y retrasarse.

6.

  • Se requiere poco o ningn conocimiento previo.
  • Es incremental y puede usarse en lnea.
  • Puede usarse para aprender tareas reactivas.
  • Se puede usar en ambientes no determinsticos.
  • Cuando se usa con mtodos de diferencia temporal es eficiente en aprender tareas de toma de decisiones secuenciales.

7.

  • No solo el agente y su medio son los que interactanen un RA, adems de estos es posible identificar 4 subelementos principales que son:
    • una poltica
    • una funcin de recompensa
    • una funcin de valor
    • un modelo del medio

8.

  • Lapolticadefine la forma en la que un agente se comportar en un momento dado; es decir, es el mapeo de estados percibidos del medio hacia acciones a ser tomadas cuando se encuentra en alguno de ellos.
  • Lafuncin de recompensa define la meta; es decir, mapea cada estado percibido del medio a un nmero que indica la deseabilidad de dicho estado. Un agente que utiliza el aprendizaje por refuerzo tiene el objetivo de maximizar el total de la recompensa recibida a largo plazo .

9.

  • Lafuncin de valor especifica lo que es bueno en el largo plazo; es decir, elvalorde un estado es la suma total de las recompensas que un agente puede esperar acumular en el futuro, iniciando en dicho estado.
  • Elmodelo del medio permite simular el comportamiento del mismo. Por ejemplo, dado un estado y una accin, el modelo puede predecir el estado y recompensa resultantes.

10.

  • Los algoritmos de aprendizaje por refuerzo estn basados en:
    • Programacin dinmica
    • Mtodos Monte Carlo
    • Mtodos de Diferencia temporal

11.

  • Es un mtodo de divide y vencers.
  • Son algoritmos que se utilizan para calcular polticas ptimas dado un modelo perfecto del medio como en los Procesos de Decisin de Markov (PDM).
  • Los algoritmos en s sonlimitadospara el aprendizaje por refuerzo debido a que se necesita un modelo perfecto del medio.
  • Se aplica a problemas de optimizacin.

12.

  • Caracterizar la estructura de una solucin ptima.
  • Definir recursivamente los valores de una solucin ptima.
  • Calcular el valor de una solucin ptima del estilo bottom-up.
  • Construir una solucin ptima a partir de la informacin.

13.

    • Solucionar cada subproblema exactamente una sola vez.
    • Guarda soluciones parciales dentro de una tabla.
    • Tiene un menor costo de ejecucin que los algoritmos recursivos.
    • Puede tomar ventaja del traslape de subproblemas.

14.

  • La desventaja ms notoria que se da a conocer en la ejecucin de este algoritmo es en lo referente a la capacidad de almacenamiento de cada computador:
  • Necesita memoria para almacenar sus datos, por lo que para problemas grandes, es necesaria una gran cantidad de memoria.
  • Existe la posibilidad de traslapar problemas.

15. 16.

  • Podemos partir el problema en etapas:
    • Etapa 1: nodo A
    • Etapa 2: nodos B, C y D
    • Etapa 3: nodos E, F, y G
    • Etapa 4: nodos H e I
    • Etapa 5: nodo J
    • Nota:Los estados en cada etapa corresponden al nombre del nodo.

17.

  • Etapa 5
    • Dondeproporciona la distancia ms corta del nodo S al destino J.
  • Etapa 4
    • Durante esta etapa, no hay decisiones reales que hacer, simplemente se va al estado destino, J.

18.

  • Estos algoritmos no necesitan un modelo completo del medio.
  • Requieren de la experiencia: secuencias de estados-acciones y recompensas.
  • Aprenden una funcin de estado-valor dada una poltica.
  • Se utilizan en tareas episdicas.
  • Al terminar un episodio se actualizan los valores estimados y la poltica.

19.

  • Un PDM se define por sus conjuntos de acciones y estados y por una dinmica del medio de un paso.
  • Dado un estado y accin, s y a, la probabilidad de un estado s es:

20.

  • Si no existen recompensas no pueden existir valores y el propsito de estimar valores es el de alcanzar mayor recompensa.
  • Sin embargo, cuando se realiza un proceso de proponer y evaluar decisiones, lo que utiliza el agente son los valores. Esto significa que un agente debe de buscar realizar las acciones que lo lleven a los estados con los valores ms altos, no con la recompensa ms alta, debido a que estas acciones obtienen la mayor recompensa en el largo plazo.

21.

  • En procesos de toma de decisiones y planeacin lo que interesa calcular son los valores. Sin embargo, este proceso es ms difcil que asignar recompensas ya que estas se proporcionan inmediatamente por el medio y los valores se calculan y actualizan continuamente a partir de las secuencias de observaciones que realiza el agente durante su ejecucin.

22.

    • http://modelosrecuperacion.50webs.com/inferencia.htm
    • http://ficcte.unimoron.edu.ar/wicc/Trabajos/I%20-%20asi/627-wicc_2006_AEs_DM.pdf
    • http://72.14.205.104/search?q=cache:l8a142XMAVIJ:www.ica.luz.ve/~dfinol/webMEsta/06-Clasificacion%2520no%2520Supervisada.pdf+clasificacion+no+supervisada&hl=es&ct=clnk&cd=2&gl=ec
    • http://www.um.es/geograf/sig/teledet/clasific.html