36
Приобретение согласованного поведения с использованием асинхронной стратегии обновления, которая дает возможность одновременного обучения в многообъектном окружении. Спец. семинар «Стохастические методы оптимизации в информатике 16 октября 200 Сафонова А.С

Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

  • Upload
    eliot

  • View
    69

  • Download
    0

Embed Size (px)

DESCRIPTION

Приобретение согласованного поведения с использованием асинхронной стратегии обновления, которая дает возможность одновременного обучения в многообъектном окружении. Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С. Чего мы хотим?. - PowerPoint PPT Presentation

Citation preview

Page 1: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Приобретение согласованного поведения с использованием асинхронной стратегии обновления, которая дает возможность одновременного обучения в многообъектном окружении.

Спец. семинар «Стохастические методы оптимизации в информатике»16 октября 2008Сафонова А.С.

Page 2: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Чего мы хотим?

Многообъектное согласованное поведение - одна из задач расширения способностей отдельного робота.

Позволяет увеличивать эффективность управления параллельными операциями

Позволяет сделать возможным выполнение задач, решение которых не может быть достигнуто одним роботом

Окружение быстро меняется и центральное управление множеством роботов оказывается слишком сложным.

Page 3: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Типичная схема многоэтапного обучения Объект овладевает стратегией для достижения цели, путем

изучения функции стоимости действий, основанной на награде, полученной в текущем состоянии при выбранном действии.

Предположение Маркова: переход из одного состояния в другое зависит только от пары: текущее состояние и выбранное действие

Реализация одновременного многоэтапного обучения в многообъектном окружении оказывается очень сложной по причине того, что процесс не является Марковским из-за изменений в окружении, вызванных процессом совместного обучения объектов

Page 4: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Метод глобального планирования Основная идея: ограничение количества

обучающихся объектов до одного и позволение остальным исполнять фиксированные стратегии, полученные на предыдущем этапе обучения

Недостатки: система нуждается в некотором централизованном управлении, которое выбирает обучающихся, но при этом необходима прямая связь между центральной системой и отдельными обучающимися объектами

Page 5: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Основная идея предлагаемого методаКаждый объект обладает одной стратегией и

одной функцией стоимости действия: Стратегия предназначена для исполнения

действия, основанного на функции стоимости действий, обновленной на предыдущем этапе

Функция стоимости действия предназначена для обучения, основанного на событиях, полученных методом ε -приближений

Page 6: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Многоэтапное обучение

Для чего применяют этот метод? метод обучения роботов с малыми или

отсутствующими априорными знаниями и более высокой способностью к реагирующему и адаптивному поведению

Page 7: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Взаимодействие с окружением в многоэтапном обучении

Здесь показана основная модель взаимодействия робота и окружения: робот и окружение смоделированы двумя синхронизированными конечными

автоматами, взаимодействующими в дискретные моменты времени циклического процесса.

робот распознает текущее состояние st S из окружения и выбирает действие at A.

на основе состояния и действия окружение переходит в новое состояние и генерирует награду rt , которая отправляется обратно роботу.

через эти взаимодействия робот обучается направленному поведению для достижения заданной цели.

окружение должно удовлетворять марковскому предположению

Page 8: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Q-обучение

Функция стоимости действия Q(s,a) показывает стоимость выбора действия a A в состоянии s S , и основана на функции награды r(s,a), заданной разработчиком. Она обновляется, как показано ниже, чтобы приблизить оптимальную функцию Q *(s,a).

Page 9: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

α и γ (между 0 и 1) обозначают скорость обучения и дисконтирующий множитель соответственно. Оба являются параметрами для управления процессом обучения. Если α больше, то обучение сходится быстро, но увеличивается возможность остановки в локальных максимумах. Иначе, обучение становится более консервативным и требует больше времени для сходимости. γ управляет тем, в какой степени награды в отдаленном будущем влияют на общую стоимость стратегии, что выполняется, когда γ немного меньше 1. Когда γ маленький, поведение, которому обучился робот, стремится к рефлексивности.

Q-обучение

Page 10: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Q-обучение

Оптимальная стратегия π* задается следующим образом:

Page 11: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Q-обучение

Построенная функция стоимости действий может быть приближена к оптимальной Q* независимо от стратегии исследования, выбранной во время процесса приближения. Это свойство называется типом «выключенной стратегии», согласно которому стратегия исследования, для определения пар состояние-действие, которые следует посетить, могут быть случайными, но требуется, чтобы все эти пары постоянно обновлялись.

Page 12: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Метод ε-приближений

Для чего? решить важную проблему компромисса

между использованием и исследованием, чтобы максимизировать общие награды

Основная идея: случайный выбор действия представлен с

вероятностью ε и оптимальное действие, основанное на текущей функции стоимости действия Q, выбирается с вероятностью (1- ε)

Page 13: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Метод ε-приближений

Обычно стоимости действий инициализируются пессимистично, то есть всеми нулями, и постепенно приближается к оптимальной Q* .

Page 14: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Проблема совместного обучения

В чем состоит проблема?Если Q-обучающиеся объекты многократно применят метод ε-приближений, то стратегии будут часто меняться, и таким образом марковское предположение больше не выполняется.

Это означает, что реализация совместного многоэтапного обучения в многообъектном окружении оказывается очень сложной из-за того, что процесс не является марковским, в результате изменений окружения, вызванных совместным процессом обучения объектов, за исключением тех случаев, когда исследуемая территория значительно ограничена. Для того чтобы обойти эту проблему, необходимо продумывать окружение, которое удовлетворяет предположению Маркова.

Page 15: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Проблема совместного обучения

Метод глобального планирования Ограничиваем количество обучающихся объектов до одного и

позволяем остальным исполнять фиксированные стратегии, полученные на предыдущем этапе обучения.

Центральная система управляет процессом обучения, переключая обучающиеся объекты, а кооперативное поведение достигается с использованием метода ε -приближений.

Метод был применен к одной кооперативной задаче в ситуации игры в футбол: согласование пасов и ударов, используя двух роботов на поле средних размеров Кубка Роботов.

Система требует явные каналы связи между центральной системой и отдельным обучающимся объектом.

С точки зрения автономности, менее централизованное управление - предпочтительнее.

Page 16: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Синхронное обучение, основанное на асинхронной стратегии обновления Каждый объект использует фиксированную стратегию πn

основанную на Qn-1 для выбора действия во время n-го этапа обучения, в то время как накапливаются n событий для обучения (чтобы обновить Q).

Если обучение индивидуального объекта сошлось, он обновляет стратегию πn+1 основанную на Qn.

Марковское окружение реализовано на применении фиксированной стратегии отдельно от других обучающихся объектов, которые также обладают фиксированной стратегией, основанной на такой же схеме.

Каждый объект имеет свое собственное граничное значение, чтобы независимо судить о сходимости обучения, следовательно, время обновления оказывается асинхронным.

Page 17: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Синхронное обучение, основанное на асинхронной стратегии обновления

Каждый объект вычисляет сумму оптимальной стоимости действия σQ, как показано ниже:

Затем ее производная сравнивается с предварительно заданным граничным значением ѲσQ. Если производная меньше, чем ѲσQ, то считается, что изучаемая функция Qn сошлась

Page 18: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Синхронное обучение, основанное на асинхронной стратегии обновления

В качестве первоначальной стоимости действий мы полагаем значения выше, чем награда (1.0). Это тип стратегии исследования оптимальной функции стоимости действий путем уменьшения стоимости действия, когда выбранное действие не оптимально в текущем состоянии.

Так как все объекты ведут себя согласно фиксированной стратегии πn, основанной на Qn-1, оптимистичная стратегия оказывается предпочтительнее благодаря результативности исследования.

Page 19: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Синхронное обучение, основанное на асинхронной стратегии обновления

Каждый объект выполняет следующий алгоритм:1. Подготавливает Qn и πn и инициализирует их оптимально.2. Анализирует состояния st S из окружения.3. Выбирает действия at A в текущем состоянии s согласно

стратегии πn.

Page 20: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Синхронное обучение, основанное на асинхронной стратегии обновления

5. Состояние переходит в следующее st+1 S после выполнения действия at.

6. Мгновенное получение награды rt+1 из окружения.

Обновляя функцию стоимости действий Qn, мы приближаем оптимальную функцию Q*.

Page 21: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Синхронное обучение, основанное на асинхронной стратегии обновления

6. Если Qn сходится, обновляем стратегию πn+1

7. Переход к шагу 2

Page 22: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Эксперименты

Предложенный метод был применен к ситуации игры в футбол, точнее к кооперативной задаче пасов и ударов, используя двух подвижных роботов на среднем поле Кубка Роботов. Успехом их кооперативного поведения является ситуация, в которой пасующий и бьющий способны получить награду за каждый этап обучения. В действительности, кооперативное поведение наиболее подходящее для достижения цели за ограниченное время.

Page 23: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Эксперименты. Начальные позиции в компьютерной модели.

Рисунок представляет игровое поле 8м на 4м, на котором 2 обучающихся робота (пасующий и бьющий) двигаются по кругу, а мяч находится в случайной «области мяча» (одна из десяти позиций внутри области). Скорость модели составляет 33мс, что соответствует частоте смены кадров. Объекты выполняют одни и те же действия до тех пор, пока не изменится состояние.

Page 24: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Эксперименты.

Подвижный робот, мяч и ворота.

На рисунке показаны мяч и настоящий неголономный робот, обладающий системой наблюдения всех направлений и ударным устройством.

Устройство робота

Page 25: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Эксперименты. Пространство состояний объекта.

Пространство состояний задается разбиением на части воспринимаемого поля в терминах ориентации (8 направлений) и расстояний (4), как показано на рисунке. Положение изучаемого объекта (противника, мяча или ворот противника) определяется сектором, в котором он находится. Если какой-то объект не наблюдается, он считается потерянным состоянием. Направление вперед предпочтительнее других, так как в этом случае ударное устройство работает хорошо. Итого, размерность пространства состояний равна 6 (три вида объектов, их направление и расстояние до них). Общее число состояний, включая потерянные, равно (8 * 4 + 1)3 = 35937. Пространство действий состоит из действий четырех видов: вперед, назад, поворот направо, поворот налево. Ударное устройство работает все время.

Page 26: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Эксперименты. Функции наград.

Функции наград определяются следующим образом: Для пасующего: награда 1 дается в случае успешной передачи паса бьющему.

Это происходит в состоянии s = {направление мяча, расстояние до мяча, направление ворот, расстояние до ворот, направление бьющего, расстояние до бьющего} = {0, 0, a, b, c, d} (где a = 0 или 1, c = 0 или 7, b и d произвольные). В этом случае делается движение вперед.

Для бьющего: награда 1 дается в случае попадания мяча в ворота противника. Это происходит в состоянии s = {направление мяча, расстояние до мяча, направление ворот, расстояние до ворот, направление бьющего, расстояние до бьющего} = {0, 0, a, b, c, d}

(где a = 0, остальные величины произвольны) Любая нестыковка пасующего и бьющего дает пасующему отрицательную

награду -1. В остальных случаях награда 0.

Параметры обучения α=0.2 и γ=0.9.

Page 27: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Результаты экспериментов.

Были протестированы 3 метода: Предложенный метод с оптимистичными

начальными значениями (1.0 ~ 1.0001) Метод глобального планирования с

пессимистичными начальными значениями (0.0)

Без планирования с пессимистичными начальными значениями (0.0)

Page 28: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Результаты экспериментов. Сравнение методов планирования.

Изменения скорости достижения успеха, при границе сходимости ѲσQ = 0.01.

Page 29: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Результаты экспериментов

Изменение σQ при оптимистичных начальных значениях.

Page 30: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Результаты экспериментов

Частота обновления при оптимистичных начальных значениях

Page 31: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Результаты экспериментов

Изменение σQ при пессимистичных начальных значениях.

Page 32: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Результаты экспериментов

Частота обновления при пессимистичных начальных значениях

Page 33: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Результаты экспериментов. Сравнение граничных значений.

Page 34: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Последовательность кооперативных действий реальных роботов.

Page 35: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Заключение

1. Без планирования: независимость от начальных значений.Кооперативное поведение не достигается из-за того, что окружение оказывается не марковским, что вызвано одновременным обучением.

2. Глобальное планирование: независимость от начальных значений.Кооперативное поведение достигается за счет того, что поддерживается марковское окружение.

3. Предложенный метод: коэффициент успеха зависит от начальных и граничных значений.

Page 36: Спец. семинар «Стохастические методы оптимизации в информатике» 16 октября 2008 Сафонова А.С

Список литературы [1] Richard S.Sutton and Andrew G.Barto: “Re-inforcement learning:An Introduction”, MITPress/Bradford Books, March

1998. [2] Peter Stone and Richard S.Sutton“Scaling Rein-forcement Learning toward RoboCup Soccer”,

18thInternationalConferenceonMachineLearning2001. [3] P.Stone: “Layered Learning”, Eleventh EuropeanConference on Machine Learning, 2000. [4] Yasuo Nagayuki,Shin Ishii, and Kenji Doya: “Multi-Agent Reinforcement Learning:An Approach Basedon the Other

Agent’s Internal Model”, Fourth Inter-national Conference on MultiAgent System(ICMAS)Los Alamitos:IEEE Computer Soceiety, pp.215-221,2000.

[5] T.Andou: “Refinement of Soccer Agent’s PositionsUsing Reinforcement Learning.H.Kitano(Ed.).”,RoboCup-97:Robot soccer World CupI,Springer,1998.

[6] M.Ohta: “Learning Cooperative Behaviors inRoboCup Agents.H.Kitano(Ed.).”, RoboCup-97:Robot Soccer World Cup I,Springer,1988.

[7] M.Tan: “Multi-agent reinforcement learn-ing:Independent vs. cooperative agents”, Proceedingsof the Tenth International Conference on MachineLearning, pp.330-337.

[8] M.L.Littman: “Markov games as a framework formulti-agent reinforcement learning”, In Proc.of the11th International Conference on Machine Learning,pp.157-163,1994

[9] M.Asada,E.Uchibe, and K.Hosoda: Cooperative Be-havior Acquistion for Mobile Robots in DynamicallyChanging Real World via Vision-Based Reinforce-ment Learning and Development. Artificial Intelli-gence, Vol.110,pp.275-292,1999.

[10] M.Asada,H.Kitano,I.Noda,and M.Veloso:”RoboCup:Today and tomorrow - what we havelearned”, Artificial Intelligence,pp.193-214,1999.

[11] C.J.C.H.,Watkins, and Dayan P: ”Technical note:Q-learning”, Machine Learning, Vol.8,pp.279-292,1992. [12] M.Asada,S.Noda,S.Tawaratsumida,and K.Hosoda:“Vision-Vased Reinforcement Learning for PurposiveBehavior

Acquistion”, Proc.of IEEE Int.Conf.onRobotics and Automation, pp.146-153,1995 [13] K.Yamazawa,Y.Yagi and M.Yachida: “Obstacleavoidance with omnidirectional image sensor hyper-omni vision”, In

Proc.of IEEE Int.Conf.on Roboticsand Automation, pp.1062-1067,1995.