32
Построение множественн ых выравниваний ФББ МГУ, 2014г. Аксянов Е.А.

Построение множественных выравниваний

Embed Size (px)

DESCRIPTION

Построение множественных выравниваний. ФББ МГУ, 2014г. Аксянов Е.А. Постановка биологической задачи Постановка математической задачи Почему задача не решается “ в лоб ” Понятие эвристического алгоритма Источники ошибок Построение множественного выравнивания снизу Современные программы - PowerPoint PPT Presentation

Citation preview

Page 1: Построение  множественных выравниваний

Построение множественных

выравниванийФББ МГУ, 2014г.

Аксянов Е.А.

Page 2: Построение  множественных выравниваний

Выравнивания – 2014 2

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 3: Построение  множественных выравниваний

Выравнивания – 2014 3

Биологическая задача• Дано: N последовательностей• Найти: правильное множественное

выравнивание, отражающее гомологию остатков

то есть

кластеры, где есть гомология между остатками

участки, где гомологии между остатками нет

Page 4: Построение  множественных выравниваний

Выравнивания – 2014 4

Биологическая задача

то есть нам надо1. Расставить в последовательностях гэпы2. Отметить участки гомологии

кластеры, где есть гомология между остатками

участки, где гомологии между остатками нет

Page 5: Построение  множественных выравниваний

Выравнивания – 2014 5

Разумеется,никакая программа

окончательного ответао гомологии остатков не даст

То есть никакая программа не может построить множественное

выравнивание

Page 6: Построение  множественных выравниваний

Выравнивания – 2014 6

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 7: Построение  множественных выравниваний

Выравнивания – 2014 7

Математическая задача• Дано: N последовательностей• Найти: множественное “выравнивание”, то

есть расставить гэпы• Как их правильно расставить?

Page 8: Построение  множественных выравниваний

Выравнивания – 2014 8

Математическая задача• Можно придумать очень много разных

“выравниваний”• Надо выбрать наилучшее• То есть, нужна некая мера качества

конкретного “выравнивания” (score)

• Надо выбрать выравнивание с наибольшим весом

Page 9: Построение  множественных выравниваний

Выравнивания – 2014 9

Математическая задача• Задание: придумать вес для множественного

выравнивания• Например: сумма весов всех парных

выравниваний, которые можно получить из множественного

Page 10: Построение  множественных выравниваний

Выравнивания – 2014 10

Математическая задача• Задание: придумать вес для множественного

выравнивания• Например: сумма весов всех парных

выравниваний, которые можно получить из множественного

Возможные выравнивания Score

S12

S13

S16

Page 11: Построение  множественных выравниваний

Выравнивания – 2014 11

Математическая задача• Задание: придумать вес для множественного

выравнивания• Например: сумма весов всех парных

выравниваний, которые можно получить из множественного

Score = S12 + S13 + … + S1N + S23 + S24 + … + SN-1N

Score =∑𝑖 , 𝑗

𝑆𝑖𝑗

Page 12: Построение  множественных выравниваний

Выравнивания – 2014 12

Математическая задача• Дано: N последовательностей• Найти: множественное “выравнивание” с

максимальным весом

Score =∑𝑖 , 𝑗

𝑆𝑖𝑗

Из опыта известно, что кластеры в таком выравнивании примерно

совпадают с участками гомологии

Page 13: Построение  множественных выравниваний

Выравнивания – 2014 13

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 14: Построение  множественных выравниваний

Выравнивания – 2014 14

Эвристические алгоритмы• Наивный алгоритм: перебрать все возможные

“выравнивания”, конечно, так не получится – их слишком много• Не получится даже применить алгоритм,

аналогичный алгоритмам парного выравнивания

для множественного выравнивания возможных вариантов сильно больше, чем для парного• Применяют, т.н. эвристические алгоритмы

Page 15: Построение  множественных выравниваний

Выравнивания – 2014 15

Эвристические алгоритмы• Эвристический алгоритм – такой алгоритм,

который не гарантирует получение точного решения математической задачи, зато работает достаточно быстро

• Их применяют, т.к. из опыта известно, что конкретный алгоритм дает неплохой результат

Примеры: PDBeFold, BLAST, Muscle

Page 16: Построение  множественных выравниваний

Выравнивания – 2014 16

Ошибки при построении множественного выравнивания

возникают так как

1. Математическая задача не эквивалентна биологической

2. Математическая задача решается не точно, а

приблизительно

Page 17: Построение  множественных выравниваний

Выравнивания – 2014 17

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 18: Построение  множественных выравниваний

Выравнивания – 2014 18

Построение множественного выравнивания

• Идея: соберем выравнивание из его частей Построим парное выравнивание последовательностей 1 и 2, например ANK-KG AQKTKA Построим парное выравнивание последовательностей 3 и 4, например AQRKA AQRKA

Page 19: Построение  множественных выравниваний

Выравнивания – 2014 19

Построение множественного выравнивания

И соберем их вместе ANK-KG AQKTKA A

AAQAQ

AQRKAAQRKA

AQRAQRAQR-KAQR-KAQR-KAAQR-KA

Требуется уметь выравнивать два выравнивания.Это вы попробуете сделать на практикуме

Page 20: Построение  множественных выравниваний

Выравнивания – 2014 20

Построение множественного выравнивания

ANK-KGAQKTKA AQRKA-AQRKA-

Выравнивание выравниваний – это способ расстановки гэпов (гэп всегда добавляется во все последовательности одного из исходных выравниваний). Два выравнивания можно выровнять многими способами, нам надо выбрать наилучший

ANK-KGAQKTKA AQR-KAAQR-KA

A-NK-KGA-QKTKA AQR--KAAQR--KA

Page 21: Построение  множественных выравниваний

Выравнивания – 2014 21

Построение множественного выравнивания

ANK-KGAQKTKA AQRKA-AQRKA-

Задание: придумать меру сходства между колонками в выравнивании.Например: Среднее значение в матрице BLOSUM62 для всех пар аминокислот в данной колонке (из разных исходных выравниваний)

ANK-KGAQKTKA AQR-KAAQR-KA

A-NK-KGA-QKTKA AQR--KAAQR--KA

Page 22: Построение  множественных выравниваний

Выравнивания – 2014 22

Построение множественного выравнивания

ANK-KGAQKTKA AQRKA-AQRKA-

Выравнивание можно рассматривать как “последовательность колонок”. Тогда все что нам нужно для выравнивания выравниваний – уметь оценить сходство между колонками. Далее можно применить те же методы, что и для построения парных выравниваний.

ANK-KGAQKTKA AQR-KAAQR-KA

A-NK-KGA-QKTKA AQR--KAAQR--KA

Page 23: Построение  множественных выравниваний

Выравнивания – 2014 23

Построение множественного выравнивания

Еще надо знать порядок объединения последовательностей в одно выравнивание.Например, даны последовательности:1 DDKKRAA2 DDKRRAA3 DDKRAA4 DDKKRRAA

1+2 DDKKRAA DDKRRAA

3+4 DDK--RAA DDKKRRAA

DDKK-RAA DDKR-RAA

+ = DDK--RAA DDKKRRAA

1+3 DDKKRAA DDK-RAA

2+4 DD-KRRAA DDKKRRAA

DD-KKRAA DD-K-RAA

+ = DD-KRRAA DDKKRRAA

Page 24: Построение  множественных выравниваний

Выравнивания – 2014 24

Построение множественного выравнивания

• Этап 1: Построение guide tree. Например, – построить все парные выравнивания,

оценить сходство всех пар последовательностей– объединять в дереве сначала близкие

последовательности, потом все более и более далекие

XP 803743.1 EDP32935.1 XP 764698.1 XP 001709567.1 EDS88818.1 XP 001710113.1 XP 001324059.1 AAC24668.2 2I1AA XP 820363.1

5

Page 25: Построение  множественных выравниваний

Выравнивания – 2014 25

Построение множественного выравнивания

• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания

XP 803743.1 EDP32935.1 XP 764698.1 XP 001709567.1 EDS88818.1 XP 001710113.1 XP 001324059.1 AAC24668.2 2I1AA XP 820363.1

5

Сначала строим парное выравнивание этих последовательностей

Затем добавляем эту

Потом парное выравнивание этих

И т.д.

Page 26: Построение  множественных выравниваний

Выравнивания – 2014 26

Построение множественного выравнивания

• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания

последовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно.

Вообще говоря, такой алгоритм вовсе не гарантирует решения математической задачи –

отыскания выравнивания с максимальным весом. Для улучшения выравнивания применяют оптимизацию.

Page 27: Построение  множественных выравниваний

Выравнивания – 2014 27

Построение множественного выравнивания

• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания

последовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно

• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей

Page 28: Построение  множественных выравниваний

Выравнивания – 2014 28

Построение множественного выравнивания

• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностейDD-KKRAADD-K-RAADD-KRRAADDKKRRAA

DD-KKRAADDKKRRAA

DD-K-RAADD-KRRAA

DD-KKRAADD-KRRAADDKKRRAA

DD-K-RAA

DD-KKRAADD-KRRAADDKKRRAA

DD--KRAA

DD-KKRAADD--KRAADD-KRRAADDKKRRAA !

DD-KKRAADDKKRRAA

DD-K-RAADD-KRRAA

Page 29: Построение  множественных выравниваний

Выравнивания – 2014 29

Построение множественного выравнивания

• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей

Конечно, оптимизация тоже не гарантирует решения математической задачи. Но из опыта известно, что результат получается лучше, чем без нее.

Page 30: Построение  множественных выравниваний

Выравнивания – 2014 30

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD

Page 31: Построение  множественных выравниваний

Выравнивания – 2014 31

Современные программы• ClustalW – устаревшая, не использует

оптимизацию

• ClustalO• Muscle• Mafft• T-coffee• отличаются деталями реализации,

все работают прилично

Page 32: Построение  множественных выравниваний

Выравнивания – 2014 32

• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания

снизу• Современные программы

• Pfam, CDD