106
ISCTE, 18 de Novembro 2008 1 Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning Jairo Avelar [email protected] Fábio Vitório [email protected] Ricardo Carvalho [email protected] Aprendizagem Automática - Prof. Doutor Luís Nunes quinta-feira, 10 de Janeiro de 2013

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

ISCTE, 18 de Novembro 20081

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Q-Learning e HQ-Learning

Jairo Avelar

[email protected]

Fábio Vitório

[email protected]

Ricardo Carvalho

[email protected] Automática - Prof. Doutor Luís Nunes

quinta-feira, 10 de Janeiro de 2013

Page 2: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning 2

Agenda

• 1. Contextualização• 2. Introdução• 3. Algoritmo de aprendizagem Q-Learning

• 3.1. Q- Learning Tradicional• 3.2. Q- Learning Hierárquico (HQ Learning)

• 4. Modus operandis• 5. Implementação• 6. Resultados• 7. Passos Futuros• 8. Conclusões • 9. Referências

quinta-feira, 10 de Janeiro de 2013

Page 3: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

1. Contextualização

3

in: http://en.wikipedia.org/wiki/Split_screen_(film)

quinta-feira, 10 de Janeiro de 2013

Page 4: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

1. Contextualização

• Reflexo Condicionado

• Ivan Pavlov (1849-1936)

3

in: http://en.wikipedia.org/wiki/Split_screen_(film)

quinta-feira, 10 de Janeiro de 2013

Page 5: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

1. Contextualização

• Reflexo Condicionado

• Ivan Pavlov (1849-1936)

• Uma das primeiras abordagens realmente objectivas e científicas no estudo da aprendizagem

3

in: http://en.wikipedia.org/wiki/Split_screen_(film)

quinta-feira, 10 de Janeiro de 2013

Page 6: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

1. Contextualização

4

quinta-feira, 10 de Janeiro de 2013

Page 7: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

1. Contextualização

4

quinta-feira, 10 de Janeiro de 2013

Page 8: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

5

quinta-feira, 10 de Janeiro de 2013

Page 9: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

5

quinta-feira, 10 de Janeiro de 2013

Page 10: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

• Aquisição de conceitos e de conhecimentos

5

quinta-feira, 10 de Janeiro de 2013

Page 11: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

• Aquisição de conceitos e de conhecimentos

• Tipicamente existe um objectivo específico bem definido

5

quinta-feira, 10 de Janeiro de 2013

Page 12: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

• Aquisição de conceitos e de conhecimentos

• Tipicamente existe um objectivo específico bem definido

• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)

5

quinta-feira, 10 de Janeiro de 2013

Page 13: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

• Aquisição de conceitos e de conhecimentos

• Tipicamente existe um objectivo específico bem definido

• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)

• Aprendizagem sem a presença de um “professor”

5

quinta-feira, 10 de Janeiro de 2013

Page 14: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

• Aquisição de conceitos e de conhecimentos

• Tipicamente existe um objectivo específico bem definido

• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)

• Aprendizagem sem a presença de um “professor”

• O Agente irá “explorar” o problema:

5

quinta-feira, 10 de Janeiro de 2013

Page 15: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

• Aquisição de conceitos e de conhecimentos

• Tipicamente existe um objectivo específico bem definido

• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)

• Aprendizagem sem a presença de um “professor”

• O Agente irá “explorar” o problema:

• Castigo

5

quinta-feira, 10 de Janeiro de 2013

Page 16: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução

• Aprendizagem por reforço

• Aquisição de conceitos e de conhecimentos

• Tipicamente existe um objectivo específico bem definido

• Agentes aprendem através de tentativa e erro quais as acções mais valiosas e em que situações (estados)

• Aprendizagem sem a presença de um “professor”

• O Agente irá “explorar” o problema:

• Castigo

• Recompensa

5

quinta-feira, 10 de Janeiro de 2013

Page 17: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução: O Problema

6

quinta-feira, 10 de Janeiro de 2013

Page 18: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução: O Problema

• O problema

6

quinta-feira, 10 de Janeiro de 2013

Page 19: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução: O Problema

• O problema

• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto

6

quinta-feira, 10 de Janeiro de 2013

Page 20: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução: O Problema

• O problema

• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto

• Labirinto

6

quinta-feira, 10 de Janeiro de 2013

Page 21: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução: O Problema

• O problema

• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto

• Labirinto

• vários tipos de sala

6

quinta-feira, 10 de Janeiro de 2013

Page 22: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

2. Introdução: O Problema

• O problema

• Encontrar o melhor caminho (solução) entre dois pontos num determinado labirinto

• Labirinto

• vários tipos de sala

• cada tipo de sala com obstáculos específicos

6

quinta-feira, 10 de Janeiro de 2013

Page 23: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

7

quinta-feira, 10 de Janeiro de 2013

Page 24: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

• 3.1 Q-Learning Tradicional

7

quinta-feira, 10 de Janeiro de 2013

Page 25: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

• 3.1 Q-Learning Tradicional

• Malcolm Watkins, 89

7

quinta-feira, 10 de Janeiro de 2013

Page 26: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

• 3.1 Q-Learning Tradicional

• Malcolm Watkins, 89

• 3.2. Q-Learning Hierárquico (Hi Q-Learning)

7

quinta-feira, 10 de Janeiro de 2013

Page 27: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

• 3.1 Q-Learning Tradicional

• Malcolm Watkins, 89

• 3.2. Q-Learning Hierárquico (Hi Q-Learning)

• 3 Abordagens diferentes:

7

quinta-feira, 10 de Janeiro de 2013

Page 28: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

• 3.1 Q-Learning Tradicional

• Malcolm Watkins, 89

• 3.2. Q-Learning Hierárquico (Hi Q-Learning)

• 3 Abordagens diferentes:

• Options (Sutton et all, 1999)

7

quinta-feira, 10 de Janeiro de 2013

Page 29: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

• 3.1 Q-Learning Tradicional

• Malcolm Watkins, 89

• 3.2. Q-Learning Hierárquico (Hi Q-Learning)

• 3 Abordagens diferentes:

• Options (Sutton et all, 1999)

• Hierarchies of Abstract Machines (Parr and Russell, 1998)

7

quinta-feira, 10 de Janeiro de 2013

Page 30: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3. Algoritmo de Aprendizagem Q-Learning

• 3.1 Q-Learning Tradicional

• Malcolm Watkins, 89

• 3.2. Q-Learning Hierárquico (Hi Q-Learning)

• 3 Abordagens diferentes:

• Options (Sutton et all, 1999)

• Hierarchies of Abstract Machines (Parr and Russell, 1998)

• MAXQ Value Function Decomposition (Dietterich, 2000)

7

quinta-feira, 10 de Janeiro de 2013

Page 31: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.1. Q-Learning Tradicional

8

quinta-feira, 10 de Janeiro de 2013

Page 32: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.1. Q-Learning Tradicional

• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.

8

quinta-feira, 10 de Janeiro de 2013

Page 33: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.1. Q-Learning Tradicional

• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.

8

quinta-feira, 10 de Janeiro de 2013

Page 34: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.1. Q-Learning Tradicional

• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.

α - Taxa de Aprendizagem

8

quinta-feira, 10 de Janeiro de 2013

Page 35: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.1. Q-Learning Tradicional

• Usa a função “Qualidade” em que o valor de Q é a recompensa imediata de executar a acção a no estado s.

α - Taxa de Aprendizagem

γ - Factor de Desconto da Recompensas

8

quinta-feira, 10 de Janeiro de 2013

Page 36: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

9

quinta-feira, 10 de Janeiro de 2013

Page 37: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Decomposição do “problema” em vários “sub problemas”

9

quinta-feira, 10 de Janeiro de 2013

Page 38: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Decomposição do “problema” em vários “sub problemas”

• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa

9

quinta-feira, 10 de Janeiro de 2013

Page 39: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Decomposição do “problema” em vários “sub problemas”

• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa

• Permite que a informação possa ser transferida entre problemas

9

quinta-feira, 10 de Janeiro de 2013

Page 40: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Decomposição do “problema” em vários “sub problemas”

• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa

• Permite que a informação possa ser transferida entre problemas

• Diferentes componentes de várias soluções possam ser usados para resolver problemas maiores e mais complicados.

9

quinta-feira, 10 de Janeiro de 2013

Page 41: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Decomposição do “problema” em vários “sub problemas”

• Permite o uso de conhecimento anterior para reduzir o espaço de pesquisa

• Permite que a informação possa ser transferida entre problemas

• Diferentes componentes de várias soluções possam ser usados para resolver problemas maiores e mais complicados.

• Abstracção temporal

9

quinta-feira, 10 de Janeiro de 2013

Page 42: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

10

quinta-feira, 10 de Janeiro de 2013

Page 43: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Abordagem escolhida: Options

10

quinta-feira, 10 de Janeiro de 2013

Page 44: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Abordagem escolhida: Options

• Transferência de conhecimento entre problemas

10

quinta-feira, 10 de Janeiro de 2013

Page 45: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

3.2. Q-Learning Hierárquico (Hi Q-Learning)

• Abordagem escolhida: Options

• Transferência de conhecimento entre problemas

• Uso de acções compostas: macros

10

quinta-feira, 10 de Janeiro de 2013

Page 46: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

11

quinta-feira, 10 de Janeiro de 2013

Page 47: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Estudos de papers sobre a RL/Q-Learning

11

quinta-feira, 10 de Janeiro de 2013

Page 48: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Estudos de papers sobre a RL/Q-Learning

• Parr, Ronald; Russell, Stuart: “Reinforcement leaning with Hierarchies of Machines”

• Sutton, Richard; Sigh, Satinder: Between MDPs and Semi-MDPs: A FRamework for Temporal Abstraction in Reinforcement Learning, University Colorado

11

quinta-feira, 10 de Janeiro de 2013

Page 49: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Estudos de papers sobre a RL/Q-Learning

• Parr, Ronald; Russell, Stuart: “Reinforcement leaning with Hierarchies of Machines”

• Sutton, Richard; Sigh, Satinder: Between MDPs and Semi-MDPs: A FRamework for Temporal Abstraction in Reinforcement Learning, University Colorado

• Barto, Andrew G; Mahadevan Sridhar; Recent Advances in Hierarchical Reinforcement Learning

11

quinta-feira, 10 de Janeiro de 2013

Page 50: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

12

quinta-feira, 10 de Janeiro de 2013

Page 51: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

12

quinta-feira, 10 de Janeiro de 2013

Page 52: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:

12

quinta-feira, 10 de Janeiro de 2013

Page 53: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:

• no número de estados usados

12

quinta-feira, 10 de Janeiro de 2013

Page 54: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:

• no número de estados usados

• número de iterações

12

quinta-feira, 10 de Janeiro de 2013

Page 55: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:

• no número de estados usados

• número de iterações

• tempo usado

12

quinta-feira, 10 de Janeiro de 2013

Page 56: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:

• no número de estados usados

• número de iterações

• tempo usado

• passos médios por iterações

12

quinta-feira, 10 de Janeiro de 2013

Page 57: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

4. Modus Operandis

• Implementação dos Algoritmos Q-Learning Tradicional e Q-Learning Hierárquico em Java

• Comparação dos 2 algoritmos na resolução do mesmo problema (labirinto) com base:

• no número de estados usados

• número de iterações

• tempo usado

• passos médios por iterações

• número de passos para caminho óptimo encontrado

12

quinta-feira, 10 de Janeiro de 2013

Page 58: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: Primeiros passos

13

quinta-feira, 10 de Janeiro de 2013

Page 59: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Tradicional

14

quinta-feira, 10 de Janeiro de 2013

Page 60: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Tradicional

14

quinta-feira, 10 de Janeiro de 2013

Page 61: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Hierárquico

15

quinta-feira, 10 de Janeiro de 2013

Page 62: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Hierárquico

15

quinta-feira, 10 de Janeiro de 2013

Page 63: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Hierárquico

16

quinta-feira, 10 de Janeiro de 2013

Page 64: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Hierárquico

16

quinta-feira, 10 de Janeiro de 2013

Page 65: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Tradicional

17

quinta-feira, 10 de Janeiro de 2013

Page 66: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Tradicional

17

quinta-feira, 10 de Janeiro de 2013

Page 67: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Hierárquico

18

quinta-feira, 10 de Janeiro de 2013

Page 68: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

5. Implementação: QLearning Hierárquico

18

quinta-feira, 10 de Janeiro de 2013

Page 69: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

19

quinta-feira, 10 de Janeiro de 2013

Page 70: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

19

quinta-feira, 10 de Janeiro de 2013

Page 71: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

19

1quinta-feira, 10 de Janeiro de 2013

Page 72: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

19

1 2quinta-feira, 10 de Janeiro de 2013

Page 73: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

20

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 74: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Carga CPU (CPU Load Average)

20

0

14,286

28,571

42,857

57,143

71,429

85,714

100,000

%

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 75: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Carga CPU (CPU Load Average)

20

0

14,286

28,571

42,857

57,143

71,429

85,714

100,000

%

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 76: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Carga CPU (CPU Load Average)

20

0

14,286

28,571

42,857

57,143

71,429

85,714

100,000

%

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 77: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

21

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 78: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Memória Usada

21

0

571,429

1 142,857

1 714,286

2 285,714

2 857,143

3 428,571

4 000,000Kilobytes

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 79: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Memória Usada

21

0

571,429

1 142,857

1 714,286

2 285,714

2 857,143

3 428,571

4 000,000Kilobytes

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 80: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Memória Usada

21

0

571,429

1 142,857

1 714,286

2 285,714

2 857,143

3 428,571

4 000,000Kilobytes

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 81: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

22

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 82: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Tempo usado

22

0

11,429

22,857

34,286

45,714

57,143

68,571

80,000

Segundos

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 83: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Tempo usado

22

0

11,429

22,857

34,286

45,714

57,143

68,571

80,000

Segundos

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 84: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Tempo usado

22

0

11,429

22,857

34,286

45,714

57,143

68,571

80,000

Segundos

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 85: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

23

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 86: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Passos médios por iteração

23

0

5 714,286

11 428,571

17 142,857

22 857,143

28 571,429

34 285,714

40 000,000

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 87: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Passos médios por iteração

23

0

5 714,286

11 428,571

17 142,857

22 857,143

28 571,429

34 285,714

40 000,000

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 88: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Passos médios por iteração

23

0

5 714,286

11 428,571

17 142,857

22 857,143

28 571,429

34 285,714

40 000,000

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 89: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados

24

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 90: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Número de passos para encontrar caminho óptimo encontrado

24

0

85,714

171,429

257,143

342,857

428,571

514,286

600,000

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 91: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Número de passos para encontrar caminho óptimo encontrado

24

0

85,714

171,429

257,143

342,857

428,571

514,286

600,000

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 92: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

6. Resultados• Número de passos para encontrar caminho óptimo encontrado

24

0

85,714

171,429

257,143

342,857

428,571

514,286

600,000

Labirinto 1Labirinto 2

QL TradicionalQL Hierárquico

quinta-feira, 10 de Janeiro de 2013

Page 93: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

25

quinta-feira, 10 de Janeiro de 2013

Page 94: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

• Detecção automatica de Options

25

quinta-feira, 10 de Janeiro de 2013

Page 95: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

• Detecção automatica de Options

• necessidade de detectar os subjectivos também

25

quinta-feira, 10 de Janeiro de 2013

Page 96: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

• Detecção automatica de Options

• necessidade de detectar os subjectivos também

• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”

25

quinta-feira, 10 de Janeiro de 2013

Page 97: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

• Detecção automatica de Options

• necessidade de detectar os subjectivos também

• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”

• Maron’s Diverse Density Algorithm, para detectar subgoals

25

quinta-feira, 10 de Janeiro de 2013

Page 98: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

• Detecção automatica de Options

• necessidade de detectar os subjectivos também

• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”

• Maron’s Diverse Density Algorithm, para detectar subgoals

• Lin’s Experience Replay Algorithm, para construir as options

25

quinta-feira, 10 de Janeiro de 2013

Page 99: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

• Detecção automatica de Options

• necessidade de detectar os subjectivos também

• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”

• Maron’s Diverse Density Algorithm, para detectar subgoals

• Lin’s Experience Replay Algorithm, para construir as options

• Tema é ainda alvo de muitos estudos e melhoramentos

25

quinta-feira, 10 de Janeiro de 2013

Page 100: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

7. Passos Futuros

• Detecção automatica de Options

• necessidade de detectar os subjectivos também

• Trabalho interessante de McGovern and Barto: “The most promising initial work in automated option discovery”

• Maron’s Diverse Density Algorithm, para detectar subgoals

• Lin’s Experience Replay Algorithm, para construir as options

• Tema é ainda alvo de muitos estudos e melhoramentos

• Delayed-Q learning

25

quinta-feira, 10 de Janeiro de 2013

Page 101: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

8. Conclusões

26

quinta-feira, 10 de Janeiro de 2013

Page 102: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

8. Conclusões

• Q-Learning é o algoritmo de Aprendizagem por Reforço mais conhecido

26

quinta-feira, 10 de Janeiro de 2013

Page 103: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

8. Conclusões

• Q-Learning é o algoritmo de Aprendizagem por Reforço mais conhecido

• Q-Learning Hierárquico provou ser mais eficiente sob o ponto de vista de várias prespectivas

26

quinta-feira, 10 de Janeiro de 2013

Page 104: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning

8. Conclusões

• Q-Learning é o algoritmo de Aprendizagem por Reforço mais conhecido

• Q-Learning Hierárquico provou ser mais eficiente sob o ponto de vista de várias prespectivas

• globalmente até 70% mais eficiente

26

quinta-feira, 10 de Janeiro de 2013

Page 105: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Obrigado pela vossa atenção!27

quinta-feira, 10 de Janeiro de 2013

Page 106: Aprendizagem por Reforço: Estudo comparativo dos Algoritmos

Aprendizagem por Reforço: Estudo comparativo dos Algoritmos Q-Learning e HQ-Learning 28

Referências

• Gasket Chis, Q- Learning in Continuous State and Action Spaces (http://axiom.anu.edu.au/~kambara/3-Results/Publications/99ai.kambara.pdf)

• Nascimento Júnior, Cairo Lúcio; Yoneyama, Takashi (2000), Inteligência Artificial em Controle e Automação, Editora Wdgard Blücher Ltda, Brasil

• Russell Stuart; Norvig Peter; Artificial Intelligence – A Modern Approach, Prentice Hall, 1995.

• Sutton, R. S. ; Barto, A. G.; Reinforcment Learning: An Introduction. MIT Press, Cambridge, Massachusetts, 1998.

• Imagem do diapositivo inicial:• Maze Craze: http://www.waukeganschools.org/students/MazeCraze

• Imagem de Ivan Pavlov:• www.cerebromente.org.br/n09/mente/pavlov.htm

quinta-feira, 10 de Janeiro de 2013