24
Семплирование на основе марковских цепей Сухинов А.А, Сколковский институт науки и технологий

Семплирование на основе марковских цепей

Embed Size (px)

Citation preview

Семплирование на основемарковских цепей

Сухинов А.А,Сколковский институт науки и технологий

О чём пойдёт речь

Сем пли ро ва ние на ос но ве мар ков ских це пей (Markov Chain Monte Carlo, MCMC) — се мей ство ал го рит мов, поз во ляю щих по лу чать ста ти сти че ски ре пре зен та тив ные вы бор ки из не ко то ро го мно го мер но го рас пре де ле ния ве ро ят но стей . Они работают с функцией , как с «чёр ным ящи ком», за ча стую да же не тре буя нор ми ров ки этой функ ции.

Два вида математических моделей

Су ще ству ют два ос нов ных спо со ба пред став ле ния за ви си мо сти меж ду мно го мер ны ми ве ли чи на ми и :• Генеративная статистическая модель — плотность рас пре де

ле ния вероятностей

позволяющая получать «полные» экземпляры моделируемого явления.

• Дискриминативная статистическая модель — условная плотность распределения вероятностей

позволяющая получать распределение неизвестной величины при известной величине .

Дискриминативная модель

• Дис кри ми на тив ная мо дель мо жет быть по лу че на из ге не ра тив ной пу тём нор ми ров ки, ко то рая при во дит к вы бра сы ва нию из мо де ли боль шо го ко ли че ства ин фор ма ции:

• Имен но дис кри ми на тив ные мо де ли обыч но по лу ча ют ся в ре зуль та те ма шин но го обу че ния. При чём, ча ще все го, является причиной (гипотезой), а — наблюдаемым следствием.

Возможности примененияпроцедур семплирования

• По лу че ние ста ти сти че ски ре пре зен та тив ных эк зем пля ров яв ле ния из ге не ра тив ной мо де ли для рас чё та ста ти сти ки.

• Учёт известных данных для изучения распределения , так как представление функции может не допускать простой подстановки в неё следствия при неизвестной причине (например, байесовская сеть).

• Нахождение MAP-значений неизвестных параметров модели.

• Ре ше ние аб стракт ной за да чи мно го мер ной оп ти ми за ции — на хож де ние та ко го зна че ния , при котором функция до сти га ет зна че ния, близ ко го к мак си маль но му.

Модель — «чёрный ящик»?

• Для эффективной работы с моделями и их обыч но хра нят в ви де раз ре жен ных (ма ло ран го вых) пред став ле ний (байе сов ские и мар ков ские се ти, де ре вья ре ше ний, ней рон ные се ти с об щи ми па ра мет ра ми, тен зор ные по ез да и т.п.).

• Раз ре жен ные пред став ле ния поз во ля ют из бе жать «экс по не ци аль но го взры ва» при хра не нии та ких мо де лей, и поз во ля ют их па ра мет ри зо вать с ис поль зо ва ни ем ра зумно го ко ли че ства ис ход ных дан ных.

Модель — «чёрный ящик»?

• Сем пли ро ва ние на ос но ве мар ков ских це пей обыч но не ис поль зу ет ни ка ких пред по ло же ний о свой ствах и ст рук ту ре изу ча е мой функ ции (кро ме, быть мо жет, пред по ло же ния о её по ло жи тель но сти).

• Сле ду ет пом нить, что для раз лич ных раз ре жен ных пред став ле ний ста ти сти че ских мо де лей су ще ству ют бо лее эф фек тив ные ме то ды сем пли ро ва ния и оп ти ми за ции, чем сем пли ро ва ние на ос но ве мар ков ских це пей.

Свойства алгоритма семплирования

• Со от вет ствие вы да вае мых то чек за дан ной ста ти сти че ской мо де ли (Точ ное? При бли жён ное? Как быст ро схо дит ся? При ка ких усло ви ях?)– «Вре мя разо гре ва»: ак ту аль ная про бле ма при боль ших

раз мер но стях и/или об ла стях с ма лы ми ве ро ят но стя ми.• Скорость убывания зависимости семплов при

увеличении расстояния между ними в цепи.– Возможность изменения нескольких координат за один

шаг.– Возможность перехода к далёким точкам.

Цепь Маркова

• Множество состояний (воз мож но, бес ко неч ное, или да же не счёт ное).

• Между состояниями определены вероятности переходов такие, что для любого

Динамика марковской цепи

• Допустим, на шаге времени мы имеем распределение вероятностей на мно же стве со стоя ний .

• Тогда на шаге рас пре де ле ние ве ро ят но стей бу дет

Регулярная цепь

• Цепь называется регулярной, если существует такое число , что ровно за ша гов мо жет быть осу ществ лён пе ре ход меж ду лю бы ми дву мя со стоя ни я ми це пи.

• До ста точ ное усло вие ре гу ляр но сти: меж ду лю бы ми дву мя со стоя ни я ми су ще ству ет путь, и име ет ся воз мож ность пе ре хо да со стоя ния са мо го в се бя.

• На практике цепь может быть «слаборегулярной». Это когда ве ли ко, или ко гда ве ро ят но сти пе ре хо да меж ду лю бы ми дву мя со стоя ни я ми за ша гов близ ки к ну лю.

Стационарное распределение

• Это такое распределение вероятностей , ко то рое не ме ня ет ся от ша га к ша гу:

• Тео ре ма: ре гу ляр ная мар ков ская цепь име ет един ствен ное ста ци о нар ное рас пре де ле ние, ко то рое яв ля ет ся пре де лом:

для лю бо го на чаль но го рас пре де ле ния ве ро ят но стей .

Идея MCMC

Нуж но со ста вить та кую мар ков скую цепь, ста ци о нар ное рас пре де ле ние ко то рой со от вет ству ет тре бу е мо му рас пре де ле нию. Есть мно го спо со бов сде лать это.

«Разогрев» марковской цепи

• Семплирование мы начинаем с некоторого начального приближения , при этом .

• Семплы становятся репрезентативными (собираемая статистика является верной), только когда , то есть для достаточно больших .

• Это озна ча ет, что не сколь ко пер вых семплов (на при мер, 10000 штук) нуж но про пу стить, пре жде, чем на чать со би рать ста ти сти ку.

• Кста ти, вре мя разо гре ва це пи со от вет ству ет вре ме ни кор ре ля ции меж ду сем пла ми. По это му це пи с низ ким вре ме нем разо гре ва осо бен но по лез ны. Для «сла бо ре гу ляр ных» це пей эти вре ме на ве ли ки.

Детекция окончания разогрева

• Смот ря толь ко на по лу чае мые сем плы, это не воз мож но сде лать.

• Од на ко мож но с боль шой сте пе нью уве рен но сти утвер ждать, что разо грев на сту пил, ес ли вы чис ля е мая ста ти сти ка для не сколь ких це пей, за пу щен ных из раз лич ных на чаль ных со стоя ний, на чи на ет быть по хо жей.

• Во об ще, ис поль зо ва ние не сколь ких це пей вме сто од ной — хо ро шая идея (мень ше кор ре ля ция семплов).

Цепь Гиббса

• Это простейший вариант MCMC.• Да но мно го мер ное рас пре де ле ние ве ро ят

но стей , нуж но вы брать из не го ста ти сти че ски ре пре зен та тив ное мно же ство то чек .

Цепь Гиббса

• Алгоритм перехода из одного состояния в другое:

• Другими словами:– По оче ре ди за ме ня ем все ком по нен ты на шей пе ре

мен ной, поль зу ясь сем пли ро ва ни ем из од но мер но го рас пре де ле ния по ана ло гии с об нов ле ни ем пе ре мен ных в ите ра ци он ном ме то де Зей де ля.

– Ко гда все ком по нен ты за ме не ны, при ни ма ем мно го мер ную ве ли чи ну за но вый семпл.

Цепь Гиббса

• Преимущества:– Для многих разреженных представлений функции ал го

ритм за ме ны од ной ком по нен ты ока зы ва ет ся про стым.– Легко учесть из ве ст ные ком по нен ты: их про сто не сем

пли ру ем.• Недостатки:– Можно на рвать ся на сло бо ре гу ляр ную или во об ще не ре

гу ляр ную цепь, осо бен но при на ли чии ну лей сре ди зна че ний функ ции .

– С ро стом раз мер но сти за да чи кор ре ля ция меж ду сем пла ми воз рас та ет.

Алгоритм Метрополиса – Гастингса

• Мощ ный ал го ритм с боль шим про сто ром для твор че ства (по след нее свой ство мно гие от но сят к не до стат кам).

• Цепь Гибб са яв ля ет ся ча ст ным слу ча ем ал го рит ма Мет ро по ли са – Га стингса.

Алгоритм Метрополиса – Гастингса

Состоит из двух компонент:• Вы би ра е мая ис сле до ва те лем функ ция/ал го ритм пе

ре хо дов , из ко то рой лег ко про во дить сем пли ро ва ние (на при мер, нор маль ное рас пре де ле ние).

• Функция «применимости перехода» , зависящая от распределения вероятностей и функции переходов .

Функция может вообще не зависеть от (на при мер, рав но мер ное рас пре де ле ние на всём мно же стве до пу сти мых зна че ний).

Алгоритм Метрополиса – Гастингса

Алгоритм перехода от известного состояния к не ко то ро му но во му со стоя нию :• Выбрать возможное новое состояние , применив

алгоритм • Принять новое состояние с вероятностью : , или

же отклонить состояние с вероятностью : .

Важ но по ни мать, что в слу чае от кло не ния но во го ва ри ан та «по вто рён ный» семпл дол жен быть то же вклю чён в ста ти сти ку.

Алгоритм Метрополиса – Гастингса

Распространённая форма функции :

Как ви дим, нет не об хо ди мо сти в нор ми ров ке функ ций и , нуж на толь ко их по ло жи тель ность.

Простейший пример

Нужно генерировать одномерные семплы из отрезка , при чём ве ро ят ность вы бо ра долж на быть про пор цио наль на не ко то рой функ ции .

• Начинаем с произвольной точки, например .• Алгоритм перехода :– Генерируем случайную точку из рав но мер но го рас пре де

ле ния (для равномерного распределения ).– Если , то переходим к новой точке: .– Если же , то пе ре хо дим к но вой точ ке с ве ро ят но стью ,

или же остаёмся на старой точке: .

Имитация отжига

• Этот ме тод поз во ля ет пре вра тить ста ти сти че ское сем пли ро ва ние в ал го ритм оп ти ми за ции — на хож де ния «мак си му ма» функ ции

• Идея метода проста: на шаге мы заменяем функцию распределением вероятности , где — монотонно возрастающая функция.

• Идея в том, что рас пре де ле ние ве ро ят но стей на чи на ет ся с рав но мер но го, и по ме ре сем пли ро ва ния ста но вит ся всё бо лее «кон тра ст ным».

• В кон це кон цов от но ше ния ве ро ят но стей ста но вят ся столь ве ли ки, что ал го ритм сем пли ро ва ния «за кли ни ва ет» в ка кой-то точ ке, ко то рую мы при зна ём ис ко мым экс тре му мом.