30
Алгоритмы реконструкции филогенетических деревьев С.А.Спирин 21 февраля 2012 ФББ МГУ

Алгоритмы реконструкции филогенетических деревьев

Embed Size (px)

DESCRIPTION

Алгоритмы реконструкции филогенетических деревьев. С.А.Спирин 2 1 февраля 201 2 ФББ МГУ. Схема реконструкции филогении по последовательностям. Последовательности. Программы множественного выравнивания (Muscle, MAFFT, PROBCONS, ...). Оценка эволюционных расстояний. Выравнивание. - PowerPoint PPT Presentation

Citation preview

Page 1: Алгоритмы реконструкции филогенетических деревьев

Алгоритмы реконструкции филогенетических деревьев

С.А.Спирин21 февраля 2012

ФББ МГУ

Page 2: Алгоритмы реконструкции филогенетических деревьев

Схема реконструкции филогении по последовательностям

Последовательности

Выравнивание

Матрица расстояний

Дерево

Программы множественного выравнивания (Muscle, MAFFT, PROBCONS, ...)

Оценка эволюционных расстояний

Реконструкция филогении(UPGMA, Neighbor-Joining, Minimal Evolution, Fitch – Margoliash, Quartets, ...)

«Символьно-ориентированные» методы(максимальная экономия, наибольшее правдоподобие)

Page 3: Алгоритмы реконструкции филогенетических деревьев

Классификация методов

Методы, предполагающие молекулярные часы, строят укоренённые ультраметрические деревья.

Методы, не предполагающие молекулярные часы строят, как правило, неукоренённые деревья.

Название метода

Переборный / эвристический

Предполагает молекулярные часы

Символьно ориентированный

UPGMA Эвристический Да Нет

Neighbor-Joining

Эвристический Нет Нет

Наименьших квадратов

Переборный Может Нет

Фитча – Марголиаша

Переборный Может Нет

Минимальной эволюции

Переборный Может Нет

Максимальной экономии

Переборный Нет Да

Наибольшего правдоподобия

Переборный Может Да

Page 4: Алгоритмы реконструкции филогенетических деревьев

Переборные методы

Алгоритм, реализующий переборный метод, должен включать:

а) критерий сравнения деревьев (какая из двух топологий

лучше соответствует исходным данным?)

б) алгоритм поиска лучшего по критерию дерева.

Пример критерия (метод наименьших квадратов, OLS — ordinary least squares)

Пусть дана матрица расстояний и топология дерева;i, j — две последовательности, тогда мы имеем расстояние d(i,j)

из матрицы.

Приписав ветвям дерева длину, будем иметь расстояние d'(i,j) «по дереву».

Подберём длины ветвей так, чтобы сумма величин (d(i,j) – d'(i,j)

)2 (по всем

парам листьев i,j ) была наименьшей. Это наименьшее значение и будет критерием качества: будем считать ту топологию лучшей, для которой это значение получится меньшим.

Page 5: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева

Имеется единственная топология (неукоренённого) дерева с тремя листьями, три разных топологии деревьев с четырьмя листьями,15 топологий деревьев с пятью листьями,... ... ... ... ~ 2 млн. топологий деревьев с десятью листьями,... ... ... ...~ 8 трлн. топологий деревьев с 15 листьями,... ... ... ...

Триллионы проверок компьютер будет делать слишком долго.А ведь приходится строить деревья и с сотней листьев…

Page 6: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева

Все деревья перебрать, как правило, невозможно!

Число различных деревьев с N листьями равно:

(2N – 5)!! = 1∙3∙5∙ …∙ (2N – 5)

Это число очень быстро растёт.

Полный перебор возможен, если число

последовательностей не превышает 10–12.

Page 7: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева:«выращивание»

• Н ай дем лучш ее дерево для части п о следовательн о стей• Будем добавлять ли стья п о одн ом у, н аходя для н и х н аи лучш ее м е сто

?+ EA

D

C

B

A

A

A

D

B E

C

C

C

D

D

B

B

E

E

В сего 5 вари ан тов

Page 8: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева:«выращивание»

• Н ай дем л учш ее дерево для части п о следователь н о стей• Будем добавлять ли сть я п о одн ом у, н аходя для н и х н аи лучш ее м е сто

!+ EA

D

C

B

A

A

A

D

B E

C

C

C

D

D

B

E

E

Page 9: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева:«выращивание»

Д ерево с N л и сть ям и всегда и м еет 2 N – 3 ветви .П оэтом у, чтобы “ вы расти ть ” дерево с N л и сть ям и , н адо п р оан ал и зи ровать 3 + 5 + .. .+ (2N – 5 ) = (N – 3 )(N – 1 ) дер евь ев .Уж е дл я N = 10 это чи сл о м ен ь ш е чи сл а всех возм ож н ы х деревь ев в 321 75 р аз!

В ы ращ и ван и е н е гаран ти р ует н ахож ден и е “ л учш его ”дерева , н о п р и хор ош и х дан н ы х н е дол ж н о п ри води ть к бол ь ш и м ош и бк ам .

Page 10: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева:просмотр соседних деревьев

П о строи м сн ачала «черн овое» дерево , а затем п оп робуем его улучш и ть .

Ч ерн овое дерево м ож н о п о строи ть одн и м и з эври сти че ск и х м етодов и ли «вы расти ть » .

Улучш ать будем , п ро см атри вая «со седн и е» деревья .

Page 11: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева:просмотр соседних деревьев

Что такое «соседние деревья»

Page 12: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева:просмотр соседних деревьев

Что такое «соседние деревья»

Такая операция обычно называется “SPR” : Subtree Pruning and RegraftingВ пакете PHYLIP она называется “Global rearrangement”.

Page 13: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева:просмотр соседних деревьев

Ч то такое «соседние» деревья

М ож н о «схлоп н уть » од н у ветвь и зам ен и ть её д р угой

D

B E

CA

В п акете P H Y L IP это н азы вается “ L ocal rearrangem ent”

D

B E

CA

D

B E

C

A

Что такое «соседние деревья»

Такая операция обычно называется “NNI” : Nearest Neighbor Interchange.В пакете PHYLIP она называется “Local rearrangement”.

Page 14: Алгоритмы реконструкции филогенетических деревьев

Поиск лучшего дерева

А лгоритм поиска

С тр ои м ч ер н овое д ер ево (два вари ан та: эври сти ческ и й м етод и ли «вы ращ и ван и е» с и сп оль зован и ем к ри тери я к ачества).

А н али зи р уем сосед н и е д ер евь я ;если н аходи м среди соседей лучш ее, берём за осн ову его .

П овтор я ем п р ед ы д ущ и й п ун к т , п ок а тек ущ ее д ер ево н е ок аж ется луч ш е всех свои х сосед ей .

Page 15: Алгоритмы реконструкции филогенетических деревьев

Переборные методы

Алгоритм, реализующий переборный метод, должен включать:

а) критерий сравнения деревьев (какая из двух топологий

лучше соответствует исходным данным?)

б) алгоритм поиска лучшего по критерию дерева (на практике

сводится к поиску «достаточно качественного» дерева).

Как правило, название метода совпадает с названием критерия.

Page 16: Алгоритмы реконструкции филогенетических деревьев

Переборные методы

Максимальной экономии (или «бережливости», maximum parsimony, MP)

Наибольшего правдоподобия (maximum likelihood, ML) Наименьших квадратов (least squares, LS) Фитча – Марголиаша (Fitch – Margoliash, FM) Минимальной эволюции (minimal evolution, ME)

Все методы, кроме максимальной экономии, допускают предположение о молекулярных часах (но чаще используются без этого предположения!) и оценивают длины ветвей.

Методы MP и ML — символьно-ориентированные, LS, FM, ME и многие другие принимают на вход матрицу расстояний.

Все методы, кроме MP, выдают не только топологию, но и длины ветвей.

Page 17: Алгоритмы реконструкции филогенетических деревьев

Эвристические методы

UPGMA = «Unweighted pair group method with arithmetic mean»Строит укоренённое ультраметрическое деревоВидимо, реально лучший из методов, предполагающих молекулярные часы.

Neighbor-JoiningСтроит неукоренённое дерево. Если и уступает некоторым переборным алгоритмам, то не сильно.

Оба метода принимают на вход матрицу расстояний.

Page 18: Алгоритмы реконструкции филогенетических деревьев

UPGMA – схема алгоритма

Укоренённое дерево строится «снизу вверх» Найдём в матрице расстояний наименьший элемент. Объединим два ближайших листа в кластер (это – узел дерева,

соединённый ветвями с листьями, образовавшими его). Пересчитаем матрицу расстояний, рассматривая кластер как

новый лист. Расстоянием до кластера будем считать среднее арифметическое расстояний до его элементов (отсюда название метода).

Повторяем с начала, пока не останется всего два кластера.

К этому прибавляется способ вычисления длин ветвей.Результат — укоренённое ультраметрическое дерево с длинами ветвей.

Page 19: Алгоритмы реконструкции филогенетических деревьев

Neighbor-joining Выбираем пару последовательностей A,B , для которых наименьшее

значение имеет величина (n–2)d(A,B) – s(A) – s(B), где d — расстояние из входной матрицы, n — число последовательностей, а s(A) — сумма расстояний от A до всех остальных последовательностей. Объединяем пару в кластер, с которым далее обращаемся как с одной последовательностью.

A

B

Page 20: Алгоритмы реконструкции филогенетических деревьев

Neighbor-joining (продолжение)

Повторяем объединение, пока не останется три кластера.

A

B

В отличие от UPGMA, даже при ультраметрической матрице «соседи» не обязательно объединяются снизу вверх! Полученное методом Neighbor-joining дерево — неукоренённое!Метод «по ходу дела» оценивает длины ветвей.Хотя эти длины иногда получаются отрицательными!

Page 21: Алгоритмы реконструкции филогенетических деревьев

Укоренение

В среднюю точку:

HUMAN

MOUSE

PROW I MARPO

BRANA

VICFA

CAEEL

+

Находим на дереве самый длинный путь от листа к листу и за корень принимаем середину этого пути

Page 22: Алгоритмы реконструкции филогенетических деревьев

Укоренение Используя внешнюю группу

(«аутгруппу», outgroup):

H U M A N

M O U S E

P R O W I M A R P OB R A N A

V I C F A

C A E E L

В данном случае укоренено дерево четырёх растений, для чего пришлось построить дерево с участием внешней группы — трёх животных (в синем круге)

Page 23: Алгоритмы реконструкции филогенетических деревьев

Сравнение деревьев

К он сен сусн о е (н еб и н ар н ое) д ер ево

М ак си м аль н ое об щ ее п од д ер ево

Д ер ево и з ветвей , п од д ер ж ан н ы х б оль ш и н ством (m a jo rity-ru le tree)

М ер ы сход ства д ер евь ев ("р асстоя н и е")i . Д оля общ и х ветвейii . Р асстоян и е в "п ро стран стве ветвей "i i i . Д оля общ и х четверокiv. Д ли н а п ути в п ро стран стве деревь ев

Page 24: Алгоритмы реконструкции филогенетических деревьев

Результат одного из сравнений методов

Программы пакета PHYLIP neighbor (метод Neighbor-Joining) и protpars (метод максимальной экономии) были применены к 1189 выравниваниям. Каждое выравнивание включало 26 последовательностей белковых доменов, по одному из 26 видов грибов. Последовательности были выбраны из Pfam так, чтобы в большинстве случаев представлять ортологический ряд. Поэтому их филогения должна в большинстве случаев совпадать с филогенией соответствующих видов.

Для 431 случаев дерево, построенное программой neighbor, оказалось по всем мерам ближе к дереву видов, нежели дерево, построенное программой protpars. В 36 случаях наблюдалась обратная картина. Вероятность получить такое соотношение по случайным причинам – менее 10–86.

А вот при сравнении программ neighbor и fitch (метод Фитча – Марголиаша) соотношение получилось 65:55. Такой результат не позволяет сделать никаких выводов: вероятность получить такое или большее соотношение при «нулевой гипотезе» – равенстве методов – около 0,4.

Page 25: Алгоритмы реконструкции филогенетических деревьев

Бутстрэп-анализ

Из входного выравнивания делается много (например, 100) так наз. «бутстрэп-реплик».

Каждая бутстрэп-реплика получается в результате случайного удаления половины столбцов из выравнивания с заменой их копиями других (тоже случайно выбранных) столбцов.

Смысл в том, чтобы построить дерево по половине данных и затем сравнить результаты от по разному выбранных половин.

Page 26: Алгоритмы реконструкции филогенетических деревьев

Outline of the phylogenetic bootstrap procedure.

Stamatakis A , Izquierdo-Carrasco F Brief Bioinform 2011;12:270-279

Page 27: Алгоритмы реконструкции филогенетических деревьев

Бутстрэп-анализ

создаём из входного выравнивания 100 бутстрэп-реплик;

для каждой из реплик строим по дереву; из 100 деревьев строим дерево по методу

расширенного большинства («Extended majority-rule tree»).

Помимо того, что (как правило) возрастает качество реконструкции, есть возможность оценить достоверность каждой ветви по т.н. «бутстрэп-поддержке», то есть проценту деревьев, в которых встретилась данная ветвь.

Page 28: Алгоритмы реконструкции филогенетических деревьев

Бутстрэп-анализ(пример результата)

+------ RHIEC +-99.0-| +-90.2-| +------ AGRRK | | +100.0-| +------------- BRAJA | | | +-------------------- RHOS4 +-60.6-| | | +------ BURCA | | +-84.5-| +-73.0-| +--------82.6-| +------ RALPJ | | | | | +------------- NEIMA +-97.2-| | | | +---------------------------------- PSEAE | | | | +------ VIBCH +-89.0-| +-----------------------------82.0-| | | +------ VIBFM | | | | +------ PASMU +------| +-----------------------------------100.0-| | | +------ HAEIN | | | | +------ ECOLI | | +-76.7-| | +------------------------------------50.1-| +------ ERWCT | | | +------------- PROMH | +-------------------------------------------------------------- YERPE

Page 29: Алгоритмы реконструкции филогенетических деревьев

Пакет PHYLIP

Реализация методов UPGMA и Neighbor-Joining (программа neighbor), наименьших квадратов и Фитча – Марголиаша (fitch и kitsch), максимальной экономии (dnapars и protpars), наибольшего правдоподобия (dnaml, dnamlk, proml, promlk)

Оценка эволюционных расстояний: программы dnadist и protdist

Сравнение деревьев: consense, treedist, treedistpair Редактура (включая укоренение в среднюю точку):

retree Бутстрэп: seqboot Визуализация: drawtree, drawgram

Page 30: Алгоритмы реконструкции филогенетических деревьев

Пакет PHYLIP

Свободно распространяется, имеются версии для всех основных операционных систем. Доступен для скачивания на сайтеhttp://evolution.genetics.washington.edu/phylip.html

Имеется веб-интерфейс: http://bioweb2.pasteur.fr/phylogeny/intro-en.html

В пакет EMBOSS в качестве дополнения включены варианты всех программ пакета PHYLIP, снабженные интерфейсом в стиле EMBOSS (отличаются буквой f в начале, например fprotpars вместо protpars)