34
Правдоподобие и баейсов подход как это работает? Тагир Самигуллин 2 октября 2014

Правдоподобие и баейсов подход – как это работает?

Embed Size (px)

DESCRIPTION

Правдоподобие и баейсов подход – как это работает?. Тагир Самигуллин 2 октября 2014. Модели эволюции нуклеотидных последовательностей. GTR. K2P. JC. Процесс замещения одного основания другим…. Модели семейства GTR. JC K2P K3P SYM F81 HKY85 TN93 GTR - PowerPoint PPT Presentation

Citation preview

Page 1: Правдоподобие и баейсов подход –  как это работает?

Правдоподобие и баейсов подход – как это работает?

Тагир Самигуллин2 октября 2014

Page 2: Правдоподобие и баейсов подход –  как это работает?

JC K2P GTR

Модели эволюции нуклеотидных последовательностей

Процесс замещения одного основания другим…

Page 3: Правдоподобие и баейсов подход –  как это работает?

Модели семейства GTR

JC K2P K3P SYM F81 HKY85 TN93 GTR

Частоты оснований равны + + + +

Частоты оснований не равны + + + +

Одна скорость замен + +

2 скорости замен + +(транзиции и трансверсии)

3 скорости замен + + (трансверсии и 2 типа транзиций)6 скоростей замен + +

Подразумевается, что:•Эволюция последовательностей – случайный процесс•Частоты оснований – постоянные•Замены происходят независимо друг от друга•Вероятности замен не меняются со временем (гомогенный эволюционный процесс)

Page 4: Правдоподобие и баейсов подход –  как это работает?

Модели для аминокислотных последовательностей

Матрица 20х20? => слишком много параметров для оптимизации, обычно недостаточно информации. К примеру, матрица скоростей модели GTR будет выглядеть так:

Можно использовать математические модели (z.B. модель Пуассона, что эквивалентно модели JC для белков). Можно использовать модели эволюции кодонов (матрица 61х61 !!!)

Чаще всего используются эмпирические матрицы

Page 5: Правдоподобие и баейсов подход –  как это работает?

Эмпирические матрицы : Дейхов (Dayhoff)Dayhoff et al. 1978:

Использованы последовательности ядерных водорастворимых белков, 72 белковых семейства, 1300 последовательности, 1572 замены. Поскольку сходство высоко (> 85%), сразу построено МР-дерево, реконструированы предковые последовательности, посчитаны замены:

Таксон

Предковая последовательность

затем матрица посчитанных замен преобразована в матрицу вероятностей

замен:

Page 6: Правдоподобие и баейсов подход –  как это работает?

значения умножены на 10 000

Значения в этой матрице справедливы для близкородственных белков (диагональ >> вне-диагональ) PAM1, что соответствует одной замене на 100 сайтов. Для отдаленных белков матрица преобразуется (возводится в степень): PAM10… PAM100 (D≈1) … PAM250…

Page 7: Правдоподобие и баейсов подход –  как это работает?

На сегодняшний день предложены и другие матрицы, получены они

•либо с использованием похожего подхода (дистанционное дерево) на бОльшем количестве данных (JTT-модель)

•либо с использованием похожего подхода (ML-дерево) на еще бОльшем количестве данных (WAG-модель, mtREV-модель)

•либо непосредственно из парных выравниваний (BLOSUM)

WWYIR CASILRKIYIYGPV GVSRLRTAYGGRKNRGWFYVR … CASILRHLYHRSPA … GVGSITKIYGGRKRNGWYYVR AAAVARHIYLRKTV GVGRLRKVHGSTKNRGWYFIR AASICRHLYIRSPA GIGSFEKIYGGRRRRG

block 1 block 2 block 3

BLOSUM: 2000 блоков из выравнивания 500 семейств родственных белков разного уровня сходства, от 45 до 90% (серия BLOSUM45…90)

Эмпирические матрицы : другие и BLOSUM

Page 8: Правдоподобие и баейсов подход –  как это работает?

Правдоподобие – вероятность данных для выбранной моделиМодель = дерево и модель эволюции признаковМодель эволюции признаков = состав …

Одна последовательность, один нуклеотид

АПравдоподобие = ? Для модели “100% А” = 1

Для модели “100% С” = 0

Для модели “ 30% А” = 0.3

Одна последовательность, два нуклеотида АC

Правдоподобие = ?

Для модели “4 равновероятных нуклеотида“ : ¼ x ¼ = 1/16

Для модели “40% A, 10% C“ : 0.4 x 0.1 = 0.04

Page 9: Правдоподобие и баейсов подход –  как это работает?

Модель эволюции признаков = состав и процесс

Данные:Две последовательности по одному нуклеотиду

АC

Модель:

A(0.25) C(0.25) A↔C = 0.4

Правдоподобие ветви между последовательностями:

0.25 x 0.4 = 0.1

состав

процесс

A C G T

A

C

G

T

A C G T

Данные:Две последовательности

по 4 нуклеотида

ССАTCCGT

Модель:Правдоподобие ветви

между последовательностями :

Page 10: Правдоподобие и баейсов подход –  как это работает?

Изменение длины ветви

Likelihood

Page 11: Правдоподобие и баейсов подход –  как это работает?

И, наконец, правдоподобие простейшего дерева:

Данные МодельДерево

Первый столбец данных:

Второй столбец данных:

Третий столбец данных:

Значение правдоподобия

Четвертый столбец данных:

Page 12: Правдоподобие и баейсов подход –  как это работает?

Модели эволюции нуклеотидных последовательностей еще раз…

вероятности замен

скорости замен

JC K2P GTR

… и нуклеотид-ный состав

Процесс замещения одного основания другим…

Page 13: Правдоподобие и баейсов подход –  как это работает?

Ключевое понятие – апостериорная вероятность

Pr (T,D) = Pr (D,T)

Pr(T) Pr(D|T) = Pr(D) Pr(T|D)

Pr(T|D) =Pr(T) Pr(D|T)

Pr(D)

априорная вероятностьдерева

правдоподобие

вероятность данных (маргинальная)апостериорная вероятность

совместная вероятность

маргинальная вероятность

топологии

дл

ины

ве

тве

й

Page 14: Правдоподобие и баейсов подход –  как это работает?

Распределение плотности апостериорной вероятности :

Марковская цепь Монте-Карло (МСМС)

Page 15: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

Начальная точка. Следущая точка выбирается случайно, переход на нее определяется следующим правилом: Если плотность её РР выше чем текущей позиции - шаг делается, если нет – делается с ненулевой вероятностью, которая пропорциональна отношению плотностей РРi+1 /РРi . Принципиально важна возможность перехода на более низкую позицию, иначе не удастся исследовать искомое распределение плотности РР!

Page 16: Правдоподобие и баейсов подход –  как это работает?

Пусть соотношение РРi+1 /РРi равно 0.8 и это число мы сравниваем со случайным числом от 0 до 1. Если это число меньше 0.8, шаг принимается. Интервал значений меньше 0.8 шире, чем больше 0.8 !

Марковская цепь Монте-Карло (МСМС)

Пусть соотношение РРi+1 /РРi равно 0.5. Интервалы равны, шансы 50/50. Если РРi+1 /РРi станет меньше 0.5, шаг будет чаще отвергаться, чем приниматься!

Page 17: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

Первый шаг : принимается с вероятностью 1

Page 18: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

Второй шаг : мог быть принят с вероятностью 0.144

Page 19: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

Третий шаг : принимается с вероятностью 0.123

Page 20: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

После 3 шагов имеем:

Page 21: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

После 10 000 шагов :

Page 22: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

Конечный результат : Чем выше плотность РР в некотором интервале, тем чаще он посещается!

Page 23: Правдоподобие и баейсов подход –  как это работает?

Марковская цепь Монте-Карло (МСМС)

Lewis, 2006

MCRobot

Page 24: Правдоподобие и баейсов подход –  как это работает?

Короткие ветви и байесовская филогения

Alfaro et al., 2003

Поддержка неверных узлов

Количество верных узлов

100 наборов, 1000 оснований, модель К2Р

Байесовский метод может присвоить коротким ветвям очень высокие значения апостериорной вероятности (коротким – это от 1,3-1,4 ожидаемых замен). Для парсимонии, например, для поддержки 95% требуется минимум 3 ожидаемых замены. Количество верно разрешенных узлов для байесовского метода выше, чем для парсимонии, но и очень короткие неверные ветви получают поддержку выше, чем дает метод максимальной экономии. Эта поддержка в некоторых случаях превышает 50%, то есть в 50% консенсусном дереве могут появиться неверные короткие ветви!

Page 25: Правдоподобие и баейсов подход –  как это работает?

…We then compare their [thirteen convergence diagnostics] performance in two simple models and conclude that all the methods can fail to detect the sorts of convergence failure they were designed to identify. Mary Kathryn Cowles and Bradley P. Carlin, 1996

How can we know that the chain we are sampling from has converged and mixes well? The disappointing answer is that it is impossible to know for certain.

JOHN P. HUELSENBECK et al., 2002

Конвергенция МСМС

Page 26: Правдоподобие и баейсов подход –  как это работает?

Конвергенция МСМС

Схождение (конвергенция) Марковских цепей очень важно для получения корректного результата. Однако, даже отсутствие видимых проблем с конвергенцией не гарантирует, что цепи сошлись, и это главный недостаток метода. Главное преимущество – в разумные сроки можно получить результат в виде топологии с поддержкой ветвей!

Nylander et al., 2008

Page 27: Правдоподобие и баейсов подход –  как это работает?

Высокие значения бутстрепа (>85%) часто интерпретируют как высокую достоверность узла, что не совсем верно даже несмотря на статистическую природу бутстрепа.

Строго говоря, бутстреп показывает, достаточно ли данных для поддержки узла, нет ли конфликта в данных. Даже полностью неверное дерево может иметь максимальную поддержку узлов!

Значения бутстреп-поддержки некоторой группы зависят в первую очередь от количества признаков, поддерживающих группу, и уровня поддержки альтернативной группировки.

Если трактовать бутстреп как показатель уровня достоверности, то BP 97% означает, что из неверных ветвей только 3% будут иметь такую же высокую поддержку.

Интерпретация бутстрепа

Page 28: Правдоподобие и баейсов подход –  как это работает?

“With four parameters I can fit an elephant, and with five I can make him wiggle his trunk.”

John von Neumann

y=ax+b y=ax6+bx5+cx4+dx3+ex2+fx+g

“Essentially, all models are wrong, but some are useful.” George Box ?

Очевидно, что более сложные модели лучше вписывются в данные и более правдоподобны. Однако усложнение модели должно быть оправдано соответствующим повышением правдоподобия, в противном случае выбирается более простая модель.

<=тенденция

или

все-нюансность=>

Page 29: Правдоподобие и баейсов подход –  как это работает?

Критерии для выбора модели AIC = Akaike Information criterion AIC = -2 lnL +2k, где k = число параметров модели

преимущество при ΔAIC > 10 сильное > 4 слабое

< 2 никакоеAICс= AIC с поправкой на малые наборы данных (n/k<40) n = длина выравнивания

BIC = Bayesian Information criterion BIC = -2 lnL +kln(n)

Модель с меньшим BIC предпочтительнее

Bayes factor , преимущество: 3 - 20 = есть 20 - 150 = сильное

150+ = очень сильное

DT (Decision Theory)

Page 30: Правдоподобие и баейсов подход –  как это работает?

Сравнение топологий

Если топология дерева не совпадает с имеющейся гипотезой, значит ли это, что данные отвергают

гипотезу?AU (Approximately Unbiased) test даст ответ

CONSEL, PAUP, …?

Page 31: Правдоподобие и баейсов подход –  как это работает?

6

А 2 7

Т

А

С

Принцип: В случае конфликта данных (наличие гомоплазий) выбирается гипотеза, которая поддерживается бОльшим количеством синапоморфий.

Следствие: Это приводит к уменьшению количества гомоплазий.

Словарик:Синапоморфия – мутация, унаследованная потомками от предкового таксона Аутапоморфия – мутация, характерная для таксонаГомоплазия – независимое появление одной и той же мутации у разных таксонов Симплезиоморфия – унаследованное потомками от предка «древнее» состояние признака

seq 1seq 2seq 3seq 4seq 5seq 6seq 7

23

СА

6 7

Т Т

Практический вывод: наилучшая реконструкция филогении (филогенетическое древо) — та, которая объясняет наблюдаемые состояния признаков наименьшим числом замен. Дерево, для которого число замен является наименьшим, называют максимально экономным (МР tree). Поиск такой топологии идет эвристическим путем.

Page 32: Правдоподобие и баейсов подход –  как это работает?

О признаках в методе МРПризнаки: •постоянные (инвариабельные)•изменчивые (вариабельные).Последние делятся на информативные и неинформативные.

seq 1seq 2seq 3seq 4seq 5seq 6seq 7

информ

ативный

неинформ

ативный

постоянный

A G A G

seq1 seq3seq2seq4

G G A Aseq1seq4seq2 seq3

дерево 1.1 дерево 1.2требует меньшего числа замен,т. е. более экономно, чем дерево 1.2Информативные признаки позволяют предпочесть одну топологию дерева другой.

T A T Tseq1seq4seq2 seq3

T Т А Tseq1seq3seq2 seq4

дерево 2.1

дерево 2.2

дерево 2.1 и дерево 2.2требуют одинаковогочисла замен

Page 33: Правдоподобие и баейсов подход –  как это работает?

Оценка длины дерева

3

1 1

Алгоритм СанковаПозволяет придать разным заменам разный вес:

Tv :Ts = 4 : 1

Для первой клетки: [1;12;2;12] + [8;4;9;6] = 5

Топология оптимальна?

2

1

С С G A AA

{С}{GA}

{A}

Алгоритм Фитча

Page 34: Правдоподобие и баейсов подход –  как это работает?

Напоследок о максимальной экономии:Метод максимальной экономии – реализация кладистического подхода в филогенетике. Используя эвристический алгоритм реконструкции, метод отбирает топологии, для которых количество синапоморфий максимально, такие топологии требуют минимального количества замен (принцип экономии). Количество равнооптимальных топологий может быть довольно большим.

Основные недостатки метода :• часть информации не используется (как неинформативные признаки) • не может использовать различные модели эволюции последовательностей• не учитывает возможности повторных замен • не учитывает гетерогенности скоростей накопления замен, предполагает равномерность

Лучше всего использовать в случаях, когда дивергенция последовательностей невелика.