GEF447 Robotique Capt Vincent Roberge Lecture 17 Apprentissage par renforcement 1

GEF447Robotique

Capt Vincent Roberge

Lecture 17Apprentissage par renforcement

• Avantages—Simple—Ne demande pas de connaissance du modèle—Configurable expérimentalement

• Désavantages— Environnement dynamique?— Modèle dynamique?— Problème de logique?— Jeux?

Plan de cours

• Définition apprentissage par renforcement

• 3 techniques de base— Programmation dynamique— Monte Carlo— Apprentissage temporel différentiel

• Application au suivi d’une ligne

• DEMO sur simulateur WEBOTS

Apprentissage par renforcement

• Inspiré de la psychologie du comportementalisme— Agent— Environnement— Prend des actions pour

maximiser le retour R

• Retour: somme des récompenses futures

• Apprend ou s’adapte en ligne

Exemple simple• Terrain 2D

• Frontière solide

• 4 mouvements possibles

• Vent vers le Nord

• Bût: trouver le chemin le plus court

3 techniques de bases• 1. Programmation dynamique

— Connaissance complète de l’environnement— Processus itératif hors-ligne— Évalue un état par rapport à l’état voisin

• 2. Monte Carlo— Aucune connaissance de l’environnement— Processus itératif en-ligne— Très grand nombre d’essais— Évalue un état d’après le résultat de plusieurs l’essais

• 3. Apprentissage temporel différentiel (TD-learning)— Aucune connaissance de l’environnement— Processus itératif en-ligne— Hybride de Programmation Dynamique et Monte Carlo— Essais + états voisins 7

Quelque définitions

• : état ou position• : action• : politique (action à prendre pour un état )• : probabilité de passer de à si on prend

l’action • : récompense si l’on passe de à en prenant

l’action • : retour ou somme des récompenses futures

Pour ce problème

1. Programmation dynamique

• Politique initialisée aléatoirement• Fonction valeur-état

• Connaissance complète de l’environnement— —

• Amélioration itérative de la politique

• Mettre à jour à politique est trivial• Mettre à jour :

État initiale

State-Value Fn and Final Policy

0 1 2 1 0

Passe 1- Valeur V

0 1 2 1 0

Passe 1- Valeur V

0 1 2 1 0

Passe 1- politique

0 1 2 1 0

Passe 2- Valeur V

0 1 2 1 0

Passe 2- politique

0 1 2 1 0

Passe 3- Valeur V

0 1 2 1 0

Passe 3- politique

0 1 2 1 0

Passe 4- Valeur V

0 1 2 1 0

Complexité- 7 passes- 0.76 sec

2. Monte Carlo• Et si on ne connaît par l’environnement ()

—On ne peut calculer —Expérimentation—Politique —Fonction valeur-état-action

La valeur de -2 est pour cet état et cette action. Une autre action aurait une valeur inférieure

2. Monte Carlo

• On utilise toujours un ajustement itératif de la politique

2. Monte Carlo

Complexité- 50 itérations- 100 essaies- 500 moves max- 2.01 sec

0 1 2 1 0

Programmation Dynamique

Monte CarloState-Value Fn and Final Policy

0 1 2 1 0-9

2. Monte Carlo

Complexité- 50 itérations- 10 000 essais- 500 moves max- 147 sec

0 1 2 1 0

0 1 2 1 0 -6

Programmation Dynamique

Monte Carlo

3. Apprentissage temporel différentiel TD-learning

• Lorsque vous conduisez votre voiture— Monte-Carlo: ajuste l’estimé lors de l’arrivée à la maison— TD-learning: ajuste l’estimé d’apès

– observation (récompense)– Estimé précédent

3. Apprentissage temporel différentiel

• Performance de TD-learning

Complexité- 100 essais- 752 steps- 0.052 sec

Exemple d’apprentissage par renforcement

http://www.youtube.com/watch?v=W_gxLKSsSIE

E-Puck

Webots• Environnement de développement

— Modéliser, — Programmer, et— Simuler des robots mobiles

Robot pour le suivi d’une ligne

• Ligne noire sur un fond blanc• Utilise la caméra VGA du robot e-puck• 8 états• 7 actions• Apprentissage en ligne utilisant TD-learning

États discrets

• Analyse de la vidéo (40x1)— Convertir en Gris

— Convertir en Noir et Black (seuil de “moyenne*0.8”)

— Calculer le centre de masse

• Déterminer l’état— Arrondir le centre de masse à l’état discret

S1 S2 S3 S4 S5 S6 S7 S8 S9

Actions possibles

Fonction valeur-état-action sauvegardée dans une matrice 9x7

Récompenses et autres paramètres

• Récompense

• Autre— Politique E-greedy ()

– Action aléatoire sélection permis les 2 voisins de l’action préférée

— Taux d’apprentissage — Facteur de dévaluation — Time step de la simulation = 64 ms— Matrice Q initialisé de façon optimiste à 10 + 0.01*rand()

• Simulateur Webots• http://www.youtube.com/watch?v=Yg1BgdtDcHI

Conclusion

• Apprentissage par renforcement— Agent— Environnement— Prend des actions pour

maximiser le retour R

• Avantages— Apprend l’environnement— Apprend le modèle du robot— Problèmes difficilement contrôlable— Problèmes de logique

Questions

GEF447 Robotique Capt Vincent Roberge Lecture 17 Apprentissage par renforcement 1

Documents

Resumenes Capt. 2,3,4

Fracturas capt. 41

Capt mp brasilia

Capt. Jasim

Grand chef autochtone KONDIARONK...Grand chef autochtone Marie Roberge Marie Roberge 7 KONDIARONK Grand chef autochtone Marie Roberge Éditions de l’Isatis 4829, avenue Victoria

ROBOTIQUE -ELE4203- Cours #1: Introduction à la matière et transformations homogènes Enseignant: Jean-Philippe Roberge Jean-Philippe Roberge - Août 2012

Introduction à lautomatisation -ELE3202- Cours #8: Le modèle détat Enseignant: Jean-Philippe Roberge Jean-Philippe Roberge - Mars 2011

DESARROLLO CAPT 1

La gestion des risques GEF492A 2014 Référence: [HvV] §8.3 Capt Vincent Roberge Collège Militaire Royal du Canada Génie électrique et génie informatique

cmmikolkata.comRajesh Tandon Capt. K .G. Ramakrishnan Capt. Kamal H. Chadha Philip Mathews Capt. Pramod Kumar Capt. Capt. Mallikharjuna Rao Ajjarapu Capt. Piyush Kumar Capt. J. S

ROBOTIQUE -ELE4203- Cours #2: Exercices & introduction à la cinématique directe Enseignant: Jean-Philippe Roberge Jean-Philippe Roberge - Septembre 2012

Aperçue du cours ROBOTIQUE. Personnel Instructeur Instructeur Capt Vincent Roberge Capt Vincent Roberge Bureau: 3211 Bureau: 3211 Tél: 6492 Tél: 6492

CAPT KOYAMA BIO21SEP15

Capt Razali

Capt. Lakshmi

Organisation d’équipes GEF492A 2012 Référence: [HvV §5.2] Capt Vincent Roberge Collège Militaire Royal du Canada Génie électrique et génie informatique

ROBOTIQUE -ELE4203- Cours #3: Cinématique directe: les paramètres de Denavit-Hartenberg Enseignant: Jean-Philippe Roberge Jean-Philippe Roberge - Septembre

© Capt. Yusuf ZOR BA 1 BA, Secondary Port Capt. Yusuf ZORBA

Comportement Réactif - Champs de potentiel Capt. Vincent Roberge 2009/2010

capt 3 mod