Page1
DAS-5341: Métodos de Diferença Temporal
Prof. Eduardo Camponogara
Page2
Aprendizagem por Diferença Temporal
• Diferença Temporal (TD) é uma combinação das idéias de Monte Carlo (MC) e programação dinâmica (DP)
– Como os métodos MC, métodos TD podem aprender diretamente a partir de experiência, não exigindo um modelo da dinâmica do ambiente
– Como os métodos DP, métodos TD atualizam as estimativas em parte com base em outras estimativas, sem aguardar o resultado final (e.g., o final de episódio).
Page3
Predição TD• Ambos os métodos MC e TD usam
experiência para resolver o problema da predição
– Métodos MC usam estimativas do retorno Rt, que segue um estado st, para calcular V(st)
V(st) V(st) + [Rt – V(st)], onde Rt é o retorno após o instante t
– Métodos TD não aguardam o término de um episódio, executando imediatamente a atualização após cada passo• V(st) V(st) + [rt+1 + V(st+1) – V(st)],
Page4
Predição TD• O alvo de MC é Rt, enquanto que o alvo de TD é rt+1 + V(st+1)
• Relembrando a notação passada, temos: V(s) = E{ Rt | st = s} (1)
= E{ krt+k+1 | st = s } (2) k = 0
= E{ rt+1 + krt+k+2 | st = s} (3) k = 0
= E{ rt+1 + V(st+1) | st = s} (4)
MC
DP
Page5
Predição TD• Em palavras gerais,
– métodos MC usam uma estimativa de (1) como alvo,
– enquanto que métodos DP utilizam uma estimativa de (4) como alvo
• Métodos TD usam uma estimativa de rt+1 e uma estimativa de V, dessa forma combinando os métodos MC e DP.
Page6
Predição TD -- Algoritmo• Inicialize V(s) arbitrariamente, onde é a
política a ser avaliada• Repita (para cada episódio)
– Inicialize s– Repita (para cada passo do episódio)
•a ação dada por para s• Implemente a ação a• Observe o retorno r e o próximo estado s’•V(s) V(s) + [r + V(s’) – V(s)],•s’ s
– Até que s seja terminal
Page7
Vantagens da Predição TD• Métodos TD podem aprender estimativas em
parte tomando como base outras estimativas– Esta abordagem é recomendável?– Que vantagens TD apresenta em
relação aos métodos MC e DP?
Page8
Vantagens da Predição TD• Aqui daremos repostas breves às
questões levantadas
• Obviamente, métodos TD têm vantagens sobre métodos DP– TD não necessita do modelo do ambiente,
seus ganhos e distribuições de probabilidades sobre as transições
Page9
Vantagens da Predição TD• Métodos TD têm vantagens sobre MC no
sentido de que TD é naturalmente implementado on-line, de uma forma totalmente incremental
– Com MC, temos que aguardar até o fim de um episódio, pois só no término sabemos o retorno
– Com TD, temos que aguardar apenas por um passo
– Algumas aplicações possuem longos episódios, tornando aprendizagem muito lenta
– Outras aplicações são tarefas contínuas
Page10
Observações Sobre Predição TD• O método TD têm embasamento técnico?
Page11
Observações Sobre Predição TD• O método TD têm embasamento técnico?
• Dada uma política fixa , o algoritmo TD descrito acima têm convergência comprovada para V
– Ele converge para a média de V quando o parâmetro de passo () é fixo, mas suficientemente pequeno
– Ele converge com probabilidade 1 se o passo decresce conforme as condições de aproximação estocástica
Page12
Observações Sobre Predição TD• Condições de Aproximação Estocástica
k(a) = e k(a)2 <
k = 1 k = 1
onde k(a) denota o passo usado para processar o retorno recebido após a k-ésima seleção da ação a
Page13
Observações Sobre Predição TD• As provas de convergência são aplicáveis
aos métodos baseados em tabelas, mas algumas delas podem ser aplicadas no caso geral de aproximação linear de funções
Page14
Otimalidade de TD(0)• Suponha que haja apenas uma
quantidade limitada de experiência, digamos 10 episódios ou 100 passos
– Neste caso, uma abordagem incremental padrão consiste em apresentar a experiência múltiplas vezes até que convergência seja atingida
Page15
Atualização Batch• Atualização Batch
– Seja V uma aproximação da função valor– Os incrementos especificados pelas equações
abaixo são computados para cada passo, mas a função valor é modificada apenas uma vez, utilizando a soma de todos os incrementos
V(st) V(st) + [Rt – V(st)] MC
V(st) V(st) + [rt+1 + V(st+1) - V(st)]TD
Page16
Atualização Batch – Observações1. Sob atualização batch, TD(0) converge
deterministicamente para uma função valor única, independentemente do parâmetro , desde que seja suficientemente pequeno
2. O método MC -constante também converge deterministicamente sob as condições acima, mas para uma função valor diferente
– O entendimento dessas observações irá nos ajudar a compreender as diferenças entre os métodos TD e MC
Page17
Exemplo: Navegação Aleatória
• Política a ser avaliada– Move para direita ou esquerda com a
mesma probabilidade (1/2)• Valor dos estados é:
– V(A) = 1/6, V(B) = 2/6, V(C) = 3/6, V(D) = 4/6, V(E) = 5/6
A B EDC0 0000 1
Page18
Navegação Aleatória (Random Walk)
• Sob treinamento batch, MC -constante converge para o valor de V(s) que é a média dos retornos obtidos após visitar cada estado s– Tais estimativas são ótimas, minimizando a
raiz quadrada do erro médio entre a estimativa e o valor real
• Na prática, entretanto, TD apresenta comportamento melhor do que MC.– Como é possível TD ser melhor do que o
método ótimo (MC)?
Page19
Exemplo• Estimando V(A) e V(B) a partir de
amostras de dados• Lista de episódios
– A,0,B,0 - B, 1– B, 1 - B, 1– B, 1 - B, 1– B, 1 - B, 0
• Dados os episódios acima, qual seria a predição ótima dos valores de V(A) e V(B)?– Qualquer um diria que V(B) = 6/8 = 3/4
Page20
Exemplo• O que podemos dizer a respeito de V(A)?
– Monte Carlo• V(A) = 0• A média do retorno obtido após visitar A
– Diferença Temporal• V(A) = 3/4• Usa uma aproximação do processo
Markoviano
A Br = 0
r = 175%
r = 025%
100%
Page21
Observações• O exemplo anterior ilustra a diferença geral
entre as estimativas encontradas por TD(0) batch e MC batch
– MC batch encontra estimativas que minimizam o erro médio da amostra
– TD batch busca estimativas que seriam exatamente corretas para o modelo mais provável (maximum-likelihood estimate) do processo Markoviano
Page22
Maximum-Likelihood Estimate• Em geral, a estimativa mais provável (maximum-
likelihood estimate) de um parâmetro é o valor cuja probabilidade de se observar os dados é a maior possível
• No caso em consideração, a estimativa mais provável é um modelo do processo Markoviano– Dado este modelo, podemos calcular a função
valor que seria correta caso o modelo fosse correto
– Esta propriedade é chamada de estimativa com equivalência certa (certainty-equivalence estimate)
Page23
SARSA: On-Policy TD Control• A partir de agora nos concentraremos no uso do
preditor TD em problemas de controle• Como nas situações anteriores, o ponto de
partida é iteração de política generalizada (GPI, Generalized Policy Iteration), entretanto aqui usamos métodos TD para avaliação de políticas
Page24
SARSA: On-Policy TD Control• Da mesma forma que em métodos MC, nos
deparamos com o problema de balancear exploração e ganhos. Novamente, as abordagens caem em duas categorias:
– On-policy: avaliação e melhoria de uma política que é utilizada para tomar decisões
– Off-policy: utiliza-se uma política para gerar o comportamento (behavior policy) que é utilizado para avaliar ou melhorar outra política (estimation policy)
Page25
SARSA: On-Policy TD Control• O primeiro passo é aprender a função
valor-ação (Q) em vez da função valor-estado (V).
– Devemos estimar Q(s, a) para a política comportamental corrente, para todo estado s e toda ação a
– Isso pode ser feito da mesma forma que no método TD anterior, usado para estimar V
Page26
Aprendendo Q(s,a)
Q(st,at) Q(st,at) + [rt+1 + Q(st+1,at+1) – Q(st,at)]
• A regra de atualização acima é executada a cada transição a partir de um estado não-terminal
• A regra usa cada um dos elementos da quíntupla de eventos <st, at, rt+1, st+1, at+1>, dando o nome SARSA ao método
st St+1rt+1 St+2
st+1,at+1st,at
rt+2
Page27
Sarsa -- Algoritmo• Inicialize Q(s,a) arbitrariamente• Repita (para cada episódio)
– Inicialize s– Escolha uma ação a partir de s usando uma
política derivada de Q (e.g., -greedy)– Repita (para cada passo do episódio)
• Tome a ação a, observe r, s’• Escolha uma ação a’ a partir de s’ usando
uma política derivada de Q (e.g., -greedy)
• Q(s, a) Q(s,a) + [r + Q(s’,a’) – Q(s,a)]
Page28
Convergência do Algoritmo• Sarsa converge com probabilidade de
100% para uma política ótima e uma função ação-valor ótima, desde que:
– todos os pares estado-ação sejam visitados um número infinito de vezes e
– a política converge no limite para a política gulosa (o que pode ser satisfeito, por exemplo, com uma política -greedy fazendo = 1/t)
Page29
Q-Learning Off-Policy TD Control• Um dos maiores avanços em aprendizagem por
reforço foi o desenvolvimento do algoritmo de controle TD off-policy, conhecido como Q-learning. Na forma mais simples, Q-learning com passo 1 é definido como:
Q(st,at) Q(st,at) + [rt+1 + Max Q(st+1,a) – Q(st,at)] a
• Neste caso, a função ação-valor, Q, diretamente aproxima Q*, a função ação-valor ótima, independentemente da política comportamental.
Page30
Q-learning• A regra de iteração que dá origem ao
algoritmo Q-learning simplificou significativamente a análise do algoritmo– Permitiu o desenvolvimento de provas de
convergência– A política tem um efeito sobre quais pares
estado-ação são visitados. Entretanto, só se espera que todos os pares sejam visitados continuamente para garantir convergência
– Q-learning converge com probabilidade 1 para a função ação-valor ótima, Q*.
Page31
Algoritmo Q-learning• Inicialize Q(s,a) arbitrariamente• Repita (para cada episódio)
– Inicialize s– Repita (para cada passo do episódio)
Escolha a a partir de s, usando política derivada de Q (e.g., -greedy)
Tome a ação a, observe r, s’Q(s,a) Q(s,a) + a[r + Maxa’Q(s’,a’) -
Q(s,a)]s s’
– Até que s seja um estado terminal
Page32
Jogos, Estados Posteriores e Casos Especiais
• Procuramos apresentar uma abordagem uniforme e ampla de classes de tarefas, mas sempre existem tarefas excepcionais, que são tratadas de uma forma específica
• No jogo da velha, por exemplo, a função valor avalia posições do tabuleiro após o agente executar seu movimento– Em jogos, tipicamente se conhece o efeito
imediato dos movimentos, mas não sabemos como que o oponente reagirá e as consequência a longo-prazo
Page33
Estados Posteriores• Vamos denotar por estados posteriores
os estados nos quais as nossas ações podem ser avaliadas
• Algoritmos mais eficientes podem ser projetados em termos de estados posteriores, em particular o jogo da velha– Um função ação-valor convencional
mapearia configurações do tabuleiro e movimentos para uma estimativa do valor
– Todavia, diferente pares configuração-movimento produzem o mesmo resultado, veja o exemplo a seguir
Page34
Estados Posteriores
+X
0 X +X 0X
X 0X
Page35
Estados Posteriores• Nos casos acima, os pares configuração-
movimento são distintos, mas produzem o mesmo estado posterior e, portanto, possuem o mesmo valor
– Uma função ação-valor convencional teria entradas separadas para estes pares, enquanto que uma função valor sobre estados posteriores automaticamente definiria ambos com o mesmo valor—conhecimento sobre um dos pares, seria imediatamente transferido para o outro
Page36
Estados Posteriores• Estados posteriores surgem em outros
domínios como, por exemplo, sistemas de fila
– Tarefas tais como designar cliente a um servidor, rejeitar clientes, ou descartar informação
– Os ganhos imediatos são conhecidos
– Quebre a dinâmica em ganhos imediatos (conhecidos) e desconhecidos (processo randômico que se refere à chegada e partida de clientes).
Page37
Tratamento Avançado• Artigos técnicos e livros
– Machine Learning Journal– Journal of Artificial Intelligence Research– D.P. Bertesekas, Neuro-Dynamic
Programming, Athena Scientific, 1996– D.P. Bertsekas, Dynamic Programming,
Athena Scientific, 1995
Page38
Fim• Obrigado pela participação!