20
Филогенетические деревья

Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Embed Size (px)

Citation preview

Page 1: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Филогенетические деревья

Page 2: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

The time will come, I believe, though I shall not live tosee it, when we shall have fairly true genealogical treesof each great kingdom of Nature.

Charles Darwin

Page 3: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Описание структуры дерева (терминология)— точка разделения предковой последовательности (вида,

популяции) на две независимо эволюционирующие. Соответствует

внутренней вершине графа, изображающего эволюцию.

• Лист — реальный (современный) объект; внешняя вершина графа.

OTU : Operational Taxonomic Unit.

• Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.

• Корень (root) — гипотетический общий предок.

• Клада — группа организмов, которые являются потомками единственного

общего предка и всех потомков этого предка.

• Узел (node)

Page 4: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Топология дерева

=

Page 5: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Неукоренённое дерево следует понимать как

множество возможных укоренений

AA

B

C-

=

A

BC

D

E

- B

C

D

E

CAD

E

-B

D

E

Page 6: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Небинарное дерево следует понимать как

множество возможных бинарных «разрешений»

A

B

C

F

D

E

A

B

C

=FD

E

A

BC

E

D

F

Page 7: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Расстояния по дереву между листьями

D(MOUSE, CAEEL) = 6+31+92 = 129

Дерево с заданными длинами ветвейпорождает метрическое пространство,элементами которого являются листья.

Длины ветвей отражаютэволюционные расстояния междулистьями в данной модели дерева.

Эти расстояния могут численнозаметно отличаться от эволюционныхрасстояний междупоследовательностями,Определенными, например,по Джуксу – Кантору, или Кимура.

Page 8: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Скобочная формула

То же дерево, что и на предыдущем слайде, но

укоренено в среднюю точку, и часть ветвей обрезана.

Newick Standard:

((HUMAN:39, CAEEL:92):3.5, (VICFA:36, PROWI:47):49.5);

«The reason for the name is that the second and final session of the committee

met at Newick's restaurant in Dover, and we enjoyed the meal of lobsters.»Joseph Felsenstein http://evolution.genetics.washington.edu/phylip/newicktree.html

Page 9: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Основные критерии качества

• Минимальная эволюция

• Максимальное правдоподобие

• Соответствие расстояний по дереву заданной

матрице расстояний

• ...

Лучшее дерево — не обязательно «истинное» дерево

Page 10: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Минимальная эволюция

Лучшее дерево ─ дерево, в котором различия в данных объясняютсяминимальным числом элементарных эволюционных событий.

4 листа

Сайты:

Seq1

1 2 3 4 5

3 возможных топологии:

A1 T3 A1

C T T C

C2 A1

A T

C2

Seq2

Seq3

Seq4

a

a

a

a

a

c

t

g

g

g

a

a

a

g

g

g

g

c

a

a

Cайт 2 :C2

G1

G4 T3

A3 G1

G AA4 A3

A A

G4 G4

G2 G1

A AA4 A4

T3

G2

Cайт 3:

G2 A3

1. Найдем все информативные сайты.Информативный сайт ─ колонка выравнивания, символы в которой позволяют выбрать одну извозможных топологий, в данном примере сайт 3 ─ информативный, а сайт 2 ─ нет.

2. Для каждого из возможных деревьев определим минимальное число замен в каждоминформативном сайте и сложим эти числа.

3. Выберем дерево с наименьшим числом замен; возможно, что окажется несколькодеревьев с одинаковым числом замен.

Page 11: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Метод максимального правдоподобия

1 2 . ........... j ...............................NSeq1Seq2Seq3Seq4Seq5

Рассмотрим все варианты деревьев,первый, например,

max { Pr(D| t)},t T

Seq1Seq2

Seq3Seq4Seq5

где D – данные,T –множество всехвозможных деревьев,модель эволюциизадана и фиксирована

Какова вероятность L(j) того, что в рамках принятой эволюционной модели

(например, матрицы замен) и при данной эволюционной истории

(т.е. при данной топологии дерева) получится исходное выравнивание

в колонке j? Для полного выравнивания : L= L(1) x L(2) ..... x L(N)

Выбираем дерево, соответствующее максимальной вероятности или

наиболее правдоподобное.

Page 12: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Ультраметрические деревья

Если на дереве можно найти точку такую, что расстояния от нее до всехлистьев одинаковы, до дерево называется “ультраметрическим”.

Ультраметрическое дерево можно однозначно укоренить (в эту самуюточку).

Ультраметрическое пространство — особый случай метрическогопространства, в котором метрика удовлетворяет усиленному неравенствутреугольника: d(x, z) ≤ max( d(x, y), d(y, z) ).

Задача. Доказать равносильностьпредыдущих утверждений.

8 7

Содержательно ультраметрические деревьясоответствуют случаю, когда длины ветвейсуть время эволюции, и все последовательностисовременны (гипотеза молекулярных часов). 4

А

5

4 3 3

B C D E

Page 13: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Сколько существует различных укорененных инеукорененных дихотомических деревьев для m листьев?

Page 14: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

WPGMAWeighted Pair Group Method with Arithmetic Mean

(взвешенная попарная кластеризация)

Кластерный метод, в котором расстояние между кластерами вычисляется как среднееарифметическое расстояний между их элементами.

K

K

L

M

N

L

16

M

16

8

N

10

8

4

Шаг 1.1. Находим самые близкие объекты.2. Строим первый узел n1:

2

n1(M,n1) = d(N,n1) = d(M,N) / 2

3. Объединяем объекты и пересчитываемматрицу расстояний:

d(MN-K) = [d(M-K) + d(N-K)] / 2 = 13d(MN-L) = [d(M-L) + d(N-L)] / 2 = 8

2

4

2

2

7.25

K

K

L

MN

L

16

MN

13

8

Шаг 2.cм. шаг 1. 2

K

K

LMN

LMN

14,5

4

....3.25

2

2

2

Получаем укорененное ультраметрическое дерево

Page 15: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

UPGMAUnweighted Pair Group Method with Arithmetic Mean

(невзвешенная попарная кластеризация)

Кластерный метод, в котором расстояние между кластерами вычисляется как среднееарифметическое расстояний между их элементами.

K

K

L

M

N

L

16

M

16

8

N

10

8

4

Шаг 1.1. Находим самые близкие объекты.2. Строим первый узел n1:

2

n1(M,n1) = d(N,n1) = d(M,N) / 2

3. Объединяем объекты и пересчитываемматрицу расстояний:

d(MN-K) = [d(M-K) + d(N-K)] / 2 = 13

2

4

2

2

7

K

K

L

MN

L

16

MN

13

8

Шаг 2.

2

K

K

LMN

LMN

14

4

....3

2

2

2

Получаем укорененное ультраметрическое дерево

d(MNL-K) = [d(MN-K) * 2 + d(L-K) * 1] / 3 = 14

Шаг 3.

d(MN-L) = [d(M-L) + d(N-L)] / 2 = 8

Размер кластера(кол-во листьев)

Page 16: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Написать программу, реализующую алгоритмы WPGMA и UPGMA.

Page 17: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Гипотеза «молекулярных часов»(E.Zuckerkandl, L.Pauling, 1962)

За равное время во всех ветвях

накапливается равное число мутаций.

Если гипотеза молекулярных часов

принимается, число различий

между выровненными

последовательностями можно считать

примерно пропорциональным времени.

Отклонения от ультраметричности можно считать случайными.

Эволюция реконструируется в виде ультраметрического дерева.

Если данные таковы, что гипотеза молекулярных часов

не проходит, то реконструкция ультраметрического дерева

намного менее надёжна, чем реконструкция неультраметрического

Page 18: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

WPGMA

Если данные таковы, что гипотеза молекулярных часов не проходит, тореконструкция укорененного дерева намного менее надѐжна, чемреконструкция неукоренѐнного

«Реальное» дерево WPGMA

Page 19: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Neighbour joining, NJ

(метод ближайших соседей)

1. Рисуем «звездное» дерево с ветвями условной длины.

2. Рассмотрим все N(N-1)/2 пар листьев и соединимту пару, в которой листья близки друг к другу,но далеки ото всех остальных.A и B — такая пара последовательностей, для которыхминимальна величинаD(A, B) – M(A) – M(B),где D — расстояние из матрицы, а M — суммарное расстояние Aот A или B до всех остальных последовательностей, деленное на N-2.

3. Объединим А и В в кластер АВ и строим первыйUузел, расстояние до которого зависит от среднего

расстояния до других вершин :D(U, A)=0.5*(D(A, B) + М(A) – M(B)),D(U, В)=0.5*(D(A, B) + M(В) – M(А)),D(U, X)=0.5*(D(В, X) + D(A, X) – D(A, B))

4. Оставляем кластер АВ и удаляем А и В, после чего дерево стало меньше на 1 узел.5. Повторяем процедуру с п. 2 до тех пор, пока не останется 3 вершины

Получаем неукорененное дерево

B

Page 20: Алгоритмы в биоинформатике, осень 2016: Филогенетические деревья

Задача. Написать программу, реализующую алгоритм Neighbour-Joining.