Модели адаптивного поведения - задел исследований когнитивной эволюции

Редько В.Г.

Институт оптико-нейронных технологий РАН

Модели адаптивного поведения - задел исследований когнитивной эволюции

1. Предмет исследований

2. Почему важно исследовать когнитивную эволюцию. Как вести исследования

3. Каков задел этих исследований

4. Модель «Кузнечик» - возникновение целенаправленности

5. Проект «Мозг Анимата»

6. Проект программы исследований на ближайшие 20 лет (в порядке обсуждения)

Предмет исследованийАнализ процесса когнитивной эволюции

3 Млрд 1,5 Млрд 500 Млн 2,5 Тыс Простейшие Сложные Моллюски Человек однокле- однокле- точные точные

Логика

Условный рефлекс

Привыкание

Безусловный рефлекс

Время (лет назад)

Почему важно исследовать когнитивную эволюцию

1. Эта задача интересна с естественнонаучной точки зрения

2. Исследования когнитивной эволюции могут стать научной основой для разработок искусственного интеллекта

3. Эти исследования важны с философской, эпистемологической точки зрения – они могут способствовать прояснению проблемы применимости нашего человеческого мышления в познании природы

4. Эти исследования важны с социальной точки зрения – они должны способствовать развитию научного миропонимания, научной культуры человеческого сообщества

Тезис: моделирование когнитивной эволюции – направление главного

удара когнитивных наук

Аргументация:

• Интеллект, мышление, логика - основа когнитивных, познавательных способностей человека

• «Зри в корень» - надо разобраться, как эти способности произошли

• Наиболее естественный подход к анализу причин происхождения интеллекта - анализ когнитивной эволюции, эволюции познавательных свойств биологических организмов с помощью математических и компьютерных моделей

Как вести исследования

Проследить весь путь биологической эволюции от простейших до человека, анализируя c помощью математических и компьютерных моделей, как на этом пути возникали свойства познания закономерностей природы в результате развития систем управления адаптивным поведением организмов.

Важно исследовать именно функции поведения, архитектуры и принципы работы когнитивных «устройств», не акцентируя особое внимание на биологической элементной базе (молекулы, нейроны,…).

Разумно использовать задел направлений исследований «Искусственная жизнь» и, особенно, «Адаптивное поведение»

Искусственная Жизнь"жизнь, какой она могла бы в принципе быть"

Первая конференция: Лос-Аламос, 1987 г. (К. Лэнгтон).

Основная цель – понять и промоделировать формальные принципы организации биологической жизни.

К. Лэнгтон: “основное предположение искусственной жизни состоит в том, что «логическая форма» организма может быть отделена от материальной основы его конструкции”.

Сторонники направления "Искусственная жизнь" часто считают, что они исследуют более общие формы жизни, чем те, которые существуют на Земле. Т.е. изучается жизнь, какой она могла бы в принципе быть ("life-as-it-could-be"), а не обязательно та жизнь, какой мы ее знаем ("life-as-we-know-it").

Предшественники: автоматы М.Л. Цетлина, проект "Животное" М.М. Бонгарда

Адаптивное Поведение From Animal to Animat – модели адаптивного поведения

животного и робота Первая конференция: Париж, 1990 г. (Ж.-А. Мейер, С. Вильсон)

Основной подход – конструирование и исследование искусственных (в виде компьютерной программы или робота) "организмов" (аниматов, агентов), способных приспосабливаться к внешней среде.

ANIMAL + ROBOT = ANIMAT

Программа-минимум – исследовать архитектуры и принципы функционирования, которые позволяют животным или роботам жить и действовать в переменной внешней среде.

Программа-максимум – попытаться проанализировать эволюцию когнитивных способностей животных и эволюционное происхождение человеческого интеллекта.

Предшественник: книга Гаазе-Рапопорт М.Г., Поспелов Д.А. От амебы до робота: модели поведения. М.: Наука, 1987

Исследователи адаптивного поведения

AnimatLab

(Париж, руководитель – один из инициаторов анимат-подхода Ж.-А. Мейер)

Широкий спектр исследований адаптивных роботов и адаптивного поведения животных.

Подход AnimatLab предполагает, что система управления анимата может формироваться и модифицироваться посредством

1) обучения,

2) индивидуального развития (онтогенеза) и

3) эволюции.

http://animatlab.lip6.fr/index.en.html


Лаборатория искусственного интеллекта в университете Цюриха (руководитель Рольф Пфейфер)

Основной подход – познание природы интеллекта путем его создания ("understanding by building").

Подход включает в себя

1) построение моделей биологических систем,

2) исследование общих принципов естественного интеллекта животных и человека,

3) использование этих принципов при конструировании роботов и других искусственных интеллектуальных систем.

Pfeifer R., Scheier C., Understanding Intelligence. MIT Press, 1999.

http://www.ifi.unizh.ch/groups/ailab/


Лаборатория искусственной жизни и роботики в Институте когнитивных наук и технологий

(Рим, руководитель Стефано Нолфи)

Исследования в области эволюционной роботики и принципов формирования адаптивного поведения.

Nolfi S., Floreano D. Evolutionary Robotics: The Biology, Intelligence, and Technology of Self-Organizing Machines. Cambridge, MA: MIT Press/Bradford Books, 2000.

http://gral.ip.rm.cnr.it/


Лаборатория искусственного интеллекта в Массачусетском технологическом институте

(Родни Брукс)

Исследования широкого спектра интеллектуальных и адаптивных систем, включая создание интеллектуальных роботов.

Brooks R.A. Cambrian Intelligence: The Early History of the New AI. MIT Press, 1999.

http://www.ai.mit.edu/


В.А. Непомнящих. Моделирование спонтанной активности животных на основе анимат-подхода

А.А. Жданов. Схемы и модели автономного адаптивного управления на базе аппарата эмоций. Накопление знаний - одна главных компонент адаптивного управления

А.И. Самарин. Самообучающиеся роботы (с 1970-х годов)

К.В. Анохин. Нейробиологические подходы к исследованию аниматов

Л.А. Станкевич. Первые в России антропоморфные роботы. Нейрологические архитектуры систем управления гуманоидных роботов на базе когнитивных агентов

В.Г. Редько, М.С. Бурцев, О.П. Мосалов. Модели адаптивного поведения на базе эволюционных и нейросетевых подходов

Робот АРНЭ (Л.А.Станкевич, СПГТУ, ОАО «Новая ЭРА», С-Петербург)

Первый в России антропоморфный робот АРНЭ (Антропоморфный робот организации Новая ЭРА), 2003 г.

61 кг , 123 см.

Робот АРНЭ (Л.А.Станкевич, СПГТУ, ОАО «Новая ЭРА», С-Петербург)

Модель "Кузнечик". Эволюционное формирование целенаправленного адаптивного поведения

(М.С. Бурцев, Р.В. Гусарев, В.Г.Редько, 2000)

• Имеется популяция агентов (искусственных организмов), имеющих потребность энергии и потребность размножения.

• Популяция эволюционирует в одномерной клеточной среде, в клетках может вырастать трава (пища агентов).

• Каждый агент имеет внутренний энергетический ресурс R , который пополняется при съедании травы и уменьшается при выполнении каких-либо действий. Уменьшение ресурса до нуля приводит к смерти агента.

• Агенты могут скрещиваться, рождая новых агентов.

• Потребности характеризуется количественно мотивациями.

• Поведение агента управляется однослойной нейронной сетью.

• Действия агента: 1) "отдыхать", 2) двигаться (на одну клетку) вправо или влево, 3) прыгать через несколько клеток, 4) питаться, 5) скрещиваться.

• Веса синапсов нейронной сети, управляющей поведением агента, составляют геном агента.

Агенты в одномерной клеточной среде

Поле зрения агента

Агенты Трава

Мотивации агентов

1

R0R10

ME

MR

ME ,

MR

R

Нейронная сеть агента

Сенсорныесигналы извнешней ивнутренней

среды

Входы нейронной сети

Дейст-вия

агента

Слой нейронов

НС - система управления агента, 9 входов, 7 действий

63 веса синапсов - геном агента

Оптимизация нейронной сети - эволюционным путем

Результаты моделирования

1- агенты без мотиваций, 2 - агенты с мотивациями

Схема управления агента без мотиваций

ВИЖУЕДУ

ЕСТЬ1НЕ ВИЖУНИЧЕГО ОТДЫХАТЬ3

ВИЖУСОСЕДА

СКРЕЩИВАТЬСЯ

2

Схема управления агента c мотивациями

ВИЖУЕДУ

ЕСТЬ1

ВИЖУСОСЕДА

СКРЕЩИВАТЬСЯ

2НЕ ВИЖУНИЧЕГО

ОТДЫХАТЬ3

МАЛОРЕСУРСА

МНОГОРЕСУРСА

выполнять

1 + 3

выполнять

1 + 2 + 3

МОТИВАЦИИ

Выводы по модели "Кузнечик"

Мотивации играют важную роль в исследованных эволюционных процессах.

Популяция агентов с мотивациями имеет значительные эволюционные преимущества по сравнению с популяцией агентов без мотиваций.

Управление поведением агента без мотиваций можно рассматривать как набор простых инстинктов, а управление агентом с мотивациями – как иерархическую систему управления, состоящую из двух уровней: уровня простых инстинктов и метауровня, обусловленного мотивациями. Возникновение этого метауровня аналогично переходу от простых рефлексов к сложным.

Развитие модели "Кузнечик"Возникновение иерархии целей (М.С. Бурцев, 2002)

Простой анимат в 2D клеточной среде

Анимат

Действия анимата: двигаться вперед, поворачиваться направо или налево, есть, размножаться, бороться с другими аниматами.

Система управления анимата - однослойная нейронная сеть, оптимизируемая эволюционным методом.

Анимат в клеточной среде. Стрелка показывает направление вперед, кружки - поле зрения

анимата

Исходная структура целей

Эволюционно сформированная иерархия целей (М.С. Бурцев)

ПИТАНИЕ БОРЬБАПОИСК

количествоэнергии

ПОЛУЧЕНИЕЭНЕРГИИ

РАЗМНОЖЕНИЕ

мало много

объекты в поле зрения

нет

пища

агент

ВЫЖИВАНИЕ ВИДА

АГЕНТ

ПОПУЛЯЦИЯ

Проект "Мозг Анимата". Версия на основе адаптивных критиков

(В.Г. Редько, Д.В. Прохоров, К.В. Анохин, М.С. Бурцев, 2004)

Предшественники:

П. К. Анохин, М.М. Бонгард и др. (проект «Животное»), Е.А.Умрюхин, В.Б. Швырков

Данная версия - развитие первого варианта проекта «Мозг Анимата» (К.В. Анохин, М.С. Бурцев, И.Ю. Зарайская, А.О. Лукашев, В.Г. Редько, 2002)

Первая версия основывалась на нейросетях, обучаемых методом обратного распространения ошибки. Такие нейросети обеспечивали прогнозы результатов действий.

Функциональная система по П.К. Анохину

Мотивация

Память

Эфферентные возбуждения

Обратная афферентация

Программадействия

АкцепторрезультатадействияПринятие

решения

ОА

ПАРезультатдействия

Параметрырезультата

Действие

ОА

Афферентный синтез

Архитектура системы управления анимата

Выживание вида

ФС1

ФС1.1 ФС1.2

ФС1.1.1 ФС1.1.2

ФС2

ФС2.1 ФС2.2 ФС2.3

ФС2.1.1 ФС2.1.2 ФС2.2.1 ФС2.3.1

. . .

ФС1, ФС2, … соответствуют ведущим потребностям: питание, размножение, безопасность, накопление знаний

Нейросетевые адаптивные критики

Критики - ветвь обучения с подкреплением, один из методов приближенного динамического программирования

Критик – блок системы управления, который оценивает качество ее работы.

Понятие "критик" ввел Бернард Видроу, 1973. Он и его коллеги применили метод критиков к простой карточной игре и показали, что обучение с критиком позволяет найти оптимальную стратегию игры путём проб и ошибок, без использования учителя.

Теория адаптивных критиков была развита в работах Пола Вербоса, Ричарда Саттона, Эндрью Барто, Данила Прохорова, Дональда Вюнша.

Обучение с подкреплением

rt

St+1

rt+1

at

Анимат

Среда

St

Цель анимата – максимизировать суммарную награду

Σk rt+k+1 , получаемую за длительный период времени.

В процессе обучения анимат формирует политику (policy). Политика определяет выбор (детерминированный или вероятностный) действия в зависимости от ситуации.

Обучение с подкреплением может рассматриваться как развитие автоматной теории адаптации (М.Л. Цетлин и др.)

t = 1,2,… St – текущая ситуация, at – действие анимата,rt – подкрепление (положительное или отрицательное)

Схема V-критика

V(Spri(t+τ))

V(S(t))

S(t+τ)

Model

S(t)

ai(t)

Spri(t+ τ )

Critic

CriticV(S(t+τ))

S(t) - ситуация

Spri(t+τ) - прогноз

τ - шаг по времени

ai(t) - i-е действие

V(S) - оценка качества (оценка суммарной награды) ситуации S

Critic и Model - многослойные нейронные сети, блок Critic показан для двух последовательных тактов времени

Работа V-критика

V(Spri(t+τ))

V(S(t))

S(t+τ)

Model

S(t)

ai(t)

Spri(t+ τ )

Critic

CriticV(S(t+τ))

Задача V-критика - максимизировать суммарную награду:

0

)()(j

jj trtR , t = t0 , t1, t2 ,…

Модель делает прогноз следующего состояния Spri(t+) для

всех возможных действий ai , i =1,2,…, na . Каждое действие кодируется определенной комбинацией входов.

Критик делает оценку V (S) величины R(t) для текущего состояния S(t), для всех прогнозируемых состояний Spr

i(t+) и для следующего состояния S(t+).

V (S) - оценка качества ситуации S

Алгоритм V-критика

V(Spri(t+τ))

V(S(t))

S(t+τ)

Model

S(t)

ai(t)

Spri(t+ τ )

Critic

CriticV(S(t+τ))

1. Модель делает прогноз Spri(t+)

2. Критик оценивает V (S(t)), V (Spri(t+))

3. Применяется ε - жадное правило и выбирается действие ak:k = arg maxi{ V(Spr

i(t+))} с вероятностью 1- ε ,k выбирается произвольно с вероятностью ε.

4. Действие ak выполняется5. Оценивается подкрепление r(t). Происходит переход к следующему такту времени t+. Критик оценивает V (S(t+)).

6. Оценивается ошибка временной разности

δ(t) = r(t) + γV (S(t+)) - V (S(t)) .

7. Обучаются Модель и Критик

Обучение V-критикаОбучение проводится путем подстройки весов синапсов Модели и Критика градиентным методом

Обучение Модели (уточнение прогноза):

ΔWM = αM gradWM(Sprk(t+))T(S(t+)-Spr

k(t+)).

Обучение Критика (уточнение оценок качества ситуации):

ΔWC = αC δ(t) gradWС(V (t)) ,

WM , и WC - набор весов нейронных сетей Модели и Критика, αM , αC - параметры скоростей обучения.

Структура ФС

S(t+τ)

S(t)Адаптивный критик

Критик

Сравнение

Модель

Действие, ak(t)

Прогноз, Sprk(t+τ)

Принятиерешения

Результат, S(t+τ)

К субсистеме От субсистемы

От суперсистемы К суперсистеме

Активирующаякоманда Отчет

Работа ФС, обычный режим

В каждый момент времени активна только одна ФС.

Часть действий - команды активизации суб-систем.

1. ФС активизируется командой от супер-системы.

2. Работают Модель и Критик, выбирается действие.

3. Если действие - команда на эффекторы, то τ = τmin ,

если действие - команда суб-системе, то τ > τmin. .

4. Оценивается подкрепление r(t) , проводится обучение.

5. Посылается отчет суперсистеме о завершении работы.

Работа ФС, чрезвычайный режим Чрезвычайный режим осуществляется, если прогноз существенно отличается от результата:

|| Sprk(tj) - S(tj) || > Δ > 0.

В этом случае считаем, что резко увеличивается поисковая деятельность анимата: возрастает интенсивность случайного поиска в данной ФС и ее суб-системах. Кроме того, возможна генерация и отбор новых случайных функциональных систем (суб-систем данной ФС), аналогично селекции нейронных групп в теории нейродарвинизма Г. Эдельмана. Возвращение в обычный режим происходит после нахождения удачного решения.

Обучение в обычном режиме – тонкая настройка системы управления анимата, чрезвычайный режим – грубый поиск адекватного поведения в неожиданных ситуациях.

Надзор сверху

В данную схему управления поведением анимата несложно включить процедуру прерывания верхними уровнями работы нижних уровней иерархии функциональных систем, с помощью специальных связей между ФС.

Например, если в ФС1, отвечающую за безопасность, поступил сигнал, характеризующий серьезную опасность для жизни анимата, а анимат занимался поиском "пищи" в дереве решений, "возглавляемом" ФС2, то ФС1 имеет право прервать работу ФС2 и дать команду на избежание опасности.

Дилемма стабильности/пластичности

Если работа какой-либо ФС была надежно проверена, то естественно сделать копию данной ФС с нулевыми значениями параметров поиска и обучения ε , αM , αC и записать эту копию в долговременную память.

Долговременная версия ФС имеет приоритет перед кратковременной, но если прогнозы долговременной ФС начинают отличаться от результатов, то управление передается обратно кратковременной ФС.

Какова могла бы быть первая реализация «Мозга анимата»

Простой анимат в 2D клеточной среде (М.С. Бурцев)

Анимат

Действия анимата: двигаться вперед, поворачиваться направо или налево, есть, размножаться, бороться с другими аниматами.

Система управления анимата - однослойная нейронная сеть, оптимизируемая эволюционным методом.

Возникает естественная иерархия целей и подцелей.

Анимат в клеточной среде. Стрелка показывает направление вперед, кружки - поле зрения

анимата

Эволюционно сформированная иерархия целей (М.С. Бурцев)

ПИТАНИЕ БОРЬБАПОИСК

количествоэнергии

ПОЛУЧЕНИЕЭНЕРГИИ

РАЗМНОЖЕНИЕ

мало много

объекты в поле зрения

нет

пища

агент

ВЫЖИВАНИЕ ВИДА

АГЕНТ

ПОПУЛЯЦИЯ

План исследований на 2 года

Разработка схем и моделей адаптивного поведения на базе проекта «Мозг Анимата»

Анализ целостного адаптивного поведения простых агентов,

имеющих естественные потребности: питания, размножения, безопасности. Воспроизведение схем иерархического управления, полученных путем эволюционного моделирования М.С. Бурцевым.

Исследование принципов обучения анимата на основе адаптивных критиков с переключаемыми режимами а) грубого стохастического поиска и б) тонкой подстройки параметров системы управления анимата путем градиентной подстройки весов нейросетей.

Решение дилеммы «стабильность/пластичность» с помощью адаптивных критиков, ответственных за кратковременную и долговременную память.

Анализ «интеллектуальных изобретений» биологической эволюции (привыкание, условные рефлексы, …) на основе исследований проекта «Мозг анимата».

Контуры плана исследований на 20 лет Разработка схем и моделей адаптивного поведения на базе

проекта «Мозг Анимата»

Исследование перехода от физического уровня обработки информации в нервной системе животных к уровню обобщенных образов, уровню понятий (аналогов слов)

Исследование процессов формирования причинной связи в памяти животных. Например, связи между условным стимулом (УС) и следующим за ним безусловным стимулом (БС). Анализ роли прогнозов в адаптивном поведении

Исследование процессов формирования логических выводов в «сознании» животных.

{УС, УС --> БС} => БС – аналог modus ponens

Исследование коммуникаций, процессов возникновения языка

Литература

Редько В.Г. Эволюционная кибернетика. М.: Наука, 2001, 156 с.

Непомнящих В.А. Поиск общих принципов адаптивного поведения живых организмов и аниматов // Новости искусственного интеллекта. 2002. N. 2. С. 48-53.

Sutton R., Barto A. Reinforcement Learning: An Introduction. – Cambridge: MIT Press, 1998.

Learning and Approximate Dynamic Programming, IEEE Press, July, 2004.

Red'ko V.G. Evolution of cognition: Towards the theory of origin of human logic // Foundations of Science. 2000, Vol.5. N. 3. PP. 323-338.

Редько В.Г., Прохоров Д.В. Нейросетевые адаптивные критики // "Нейроинформатика-2004". Часть 2. С.77-84.

Некоторые ссылки

Сайт В.Г. Редько: http://www.keldysh.ru/pages/BioCyber/

Лекции «Эволюционная кибернетика» (1999): http://www.keldysh.ru/pages/BioCyber/Lectures.html

Сайт М.С. Бурцева: http://mbur.narod.ru/

Сайт Д.В. Прохорова: http://mywebpages.comcast.net/dvp/

Сайт Р. Саттона: http://www.cs.ualberta.ca/~sutton/sutton.html

Sutton R., Barto A. Reinforcement Learning: An Introduction:http://www.cs.ualberta.ca/~sutton/book/the-book.html

Подборка наших последних публикаций: http://wsni2003.narod.ru/RFFI/Project.htm

Данная презентация (800 Кбайт):

http://wsni2003.narod.ru/TMP/RedkoCog.ppt

http://wsni2003.narod.ru/TMP/RedkoCog.zip

Ассоциация Нейроинформатики

Ассоциация Нейроинформатики -- клуб ученых-нейросетевиков, в основном с физ.-мат. образованием.

Ежегодные конференции по Нейроинформатике в МИФИ

Семинар «Нейроинтеллект» на Национальных конференциях по Искусственному интеллекту (КИИ-2002, 2004).

Сборник «От моделей поведения к искусственному интеллекту» -- на базе круглых столов и рабочих совещаний Нейроинформатики-2002, 2003:

http://www.keldysh.ru/pages/BioCyber/RT/Papers.htmhttp://www.keldysh.ru/pages/BioCyber/Letters/Letters.htmhttp://wsni2003.narod.ruhttp://rtni2003.narod.ru

Documents

Модели адаптивного поведения - задел исследований когнитивной эволюции