Upload
stacy-gay
View
35
Download
1
Embed Size (px)
DESCRIPTION
Построение множественных выравниваний. ФББ МГУ, 2014г. Аксянов Е.А. Постановка биологической задачи Постановка математической задачи Почему задача не решается “ в лоб ” Понятие эвристического алгоритма Источники ошибок Построение множественного выравнивания снизу Современные программы - PowerPoint PPT Presentation
Citation preview
Построение множественных
выравниванийФББ МГУ, 2014г.
Аксянов Е.А.
Выравнивания – 2014 2
• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания
снизу• Современные программы
• Pfam, CDD
Выравнивания – 2014 3
Биологическая задача• Дано: N последовательностей• Найти: правильное множественное
выравнивание, отражающее гомологию остатков
то есть
кластеры, где есть гомология между остатками
участки, где гомологии между остатками нет
Выравнивания – 2014 4
Биологическая задача
то есть нам надо1. Расставить в последовательностях гэпы2. Отметить участки гомологии
кластеры, где есть гомология между остатками
участки, где гомологии между остатками нет
Выравнивания – 2014 5
Разумеется,никакая программа
окончательного ответао гомологии остатков не даст
То есть никакая программа не может построить множественное
выравнивание
Выравнивания – 2014 6
• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания
снизу• Современные программы
• Pfam, CDD
Выравнивания – 2014 7
Математическая задача• Дано: N последовательностей• Найти: множественное “выравнивание”, то
есть расставить гэпы• Как их правильно расставить?
Выравнивания – 2014 8
Математическая задача• Можно придумать очень много разных
“выравниваний”• Надо выбрать наилучшее• То есть, нужна некая мера качества
конкретного “выравнивания” (score)
• Надо выбрать выравнивание с наибольшим весом
Выравнивания – 2014 9
Математическая задача• Задание: придумать вес для множественного
выравнивания• Например: сумма весов всех парных
выравниваний, которые можно получить из множественного
Выравнивания – 2014 10
Математическая задача• Задание: придумать вес для множественного
выравнивания• Например: сумма весов всех парных
выравниваний, которые можно получить из множественного
Возможные выравнивания Score
S12
S13
S16
Выравнивания – 2014 11
Математическая задача• Задание: придумать вес для множественного
выравнивания• Например: сумма весов всех парных
выравниваний, которые можно получить из множественного
Score = S12 + S13 + … + S1N + S23 + S24 + … + SN-1N
Score =∑𝑖 , 𝑗
❑
𝑆𝑖𝑗
Выравнивания – 2014 12
Математическая задача• Дано: N последовательностей• Найти: множественное “выравнивание” с
максимальным весом
Score =∑𝑖 , 𝑗
❑
𝑆𝑖𝑗
Из опыта известно, что кластеры в таком выравнивании примерно
совпадают с участками гомологии
Выравнивания – 2014 13
• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания
снизу• Современные программы
• Pfam, CDD
Выравнивания – 2014 14
Эвристические алгоритмы• Наивный алгоритм: перебрать все возможные
“выравнивания”, конечно, так не получится – их слишком много• Не получится даже применить алгоритм,
аналогичный алгоритмам парного выравнивания
для множественного выравнивания возможных вариантов сильно больше, чем для парного• Применяют, т.н. эвристические алгоритмы
Выравнивания – 2014 15
Эвристические алгоритмы• Эвристический алгоритм – такой алгоритм,
который не гарантирует получение точного решения математической задачи, зато работает достаточно быстро
• Их применяют, т.к. из опыта известно, что конкретный алгоритм дает неплохой результат
Примеры: PDBeFold, BLAST, Muscle
Выравнивания – 2014 16
Ошибки при построении множественного выравнивания
возникают так как
1. Математическая задача не эквивалентна биологической
2. Математическая задача решается не точно, а
приблизительно
Выравнивания – 2014 17
• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания
снизу• Современные программы
• Pfam, CDD
Выравнивания – 2014 18
Построение множественного выравнивания
• Идея: соберем выравнивание из его частей Построим парное выравнивание последовательностей 1 и 2, например ANK-KG AQKTKA Построим парное выравнивание последовательностей 3 и 4, например AQRKA AQRKA
Выравнивания – 2014 19
Построение множественного выравнивания
И соберем их вместе ANK-KG AQKTKA A
AAQAQ
AQRKAAQRKA
AQRAQRAQR-KAQR-KAQR-KAAQR-KA
Требуется уметь выравнивать два выравнивания.Это вы попробуете сделать на практикуме
Выравнивания – 2014 20
Построение множественного выравнивания
ANK-KGAQKTKA AQRKA-AQRKA-
Выравнивание выравниваний – это способ расстановки гэпов (гэп всегда добавляется во все последовательности одного из исходных выравниваний). Два выравнивания можно выровнять многими способами, нам надо выбрать наилучший
ANK-KGAQKTKA AQR-KAAQR-KA
A-NK-KGA-QKTKA AQR--KAAQR--KA
Выравнивания – 2014 21
Построение множественного выравнивания
ANK-KGAQKTKA AQRKA-AQRKA-
Задание: придумать меру сходства между колонками в выравнивании.Например: Среднее значение в матрице BLOSUM62 для всех пар аминокислот в данной колонке (из разных исходных выравниваний)
ANK-KGAQKTKA AQR-KAAQR-KA
A-NK-KGA-QKTKA AQR--KAAQR--KA
Выравнивания – 2014 22
Построение множественного выравнивания
ANK-KGAQKTKA AQRKA-AQRKA-
Выравнивание можно рассматривать как “последовательность колонок”. Тогда все что нам нужно для выравнивания выравниваний – уметь оценить сходство между колонками. Далее можно применить те же методы, что и для построения парных выравниваний.
ANK-KGAQKTKA AQR-KAAQR-KA
A-NK-KGA-QKTKA AQR--KAAQR--KA
Выравнивания – 2014 23
Построение множественного выравнивания
Еще надо знать порядок объединения последовательностей в одно выравнивание.Например, даны последовательности:1 DDKKRAA2 DDKRRAA3 DDKRAA4 DDKKRRAA
1+2 DDKKRAA DDKRRAA
3+4 DDK--RAA DDKKRRAA
DDKK-RAA DDKR-RAA
+ = DDK--RAA DDKKRRAA
1+3 DDKKRAA DDK-RAA
2+4 DD-KRRAA DDKKRRAA
DD-KKRAA DD-K-RAA
+ = DD-KRRAA DDKKRRAA
Выравнивания – 2014 24
Построение множественного выравнивания
• Этап 1: Построение guide tree. Например, – построить все парные выравнивания,
оценить сходство всех пар последовательностей– объединять в дереве сначала близкие
последовательности, потом все более и более далекие
XP 803743.1 EDP32935.1 XP 764698.1 XP 001709567.1 EDS88818.1 XP 001710113.1 XP 001324059.1 AAC24668.2 2I1AA XP 820363.1
5
Выравнивания – 2014 25
Построение множественного выравнивания
• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания
XP 803743.1 EDP32935.1 XP 764698.1 XP 001709567.1 EDS88818.1 XP 001710113.1 XP 001324059.1 AAC24668.2 2I1AA XP 820363.1
5
Сначала строим парное выравнивание этих последовательностей
Затем добавляем эту
Потом парное выравнивание этих
И т.д.
Выравнивания – 2014 26
Построение множественного выравнивания
• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания
последовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно.
Вообще говоря, такой алгоритм вовсе не гарантирует решения математической задачи –
отыскания выравнивания с максимальным весом. Для улучшения выравнивания применяют оптимизацию.
Выравнивания – 2014 27
Построение множественного выравнивания
• Этап 1: Построить guide tree. • Этап 2: Построить и объединить выравнивания
последовательности остаются выровненными также, как в парных выравниваниях, что не всегда корректно
• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей
Выравнивания – 2014 28
Построение множественного выравнивания
• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностейDD-KKRAADD-K-RAADD-KRRAADDKKRRAA
DD-KKRAADDKKRRAA
DD-K-RAADD-KRRAA
DD-KKRAADD-KRRAADDKKRRAA
DD-K-RAA
DD-KKRAADD-KRRAADDKKRRAA
DD--KRAA
DD-KKRAADD--KRAADD-KRRAADDKKRRAA !
DD-KKRAADDKKRRAA
DD-K-RAADD-KRRAA
Выравнивания – 2014 29
Построение множественного выравнивания
• Этап 3: Оптимизацияперебирать различные разбиения последовательностей на две группы и строить выравнивание между этими двумя группами последовательностей
Конечно, оптимизация тоже не гарантирует решения математической задачи. Но из опыта известно, что результат получается лучше, чем без нее.
Выравнивания – 2014 30
• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания
снизу• Современные программы
• Pfam, CDD
Выравнивания – 2014 31
Современные программы• ClustalW – устаревшая, не использует
оптимизацию
• ClustalO• Muscle• Mafft• T-coffee• отличаются деталями реализации,
все работают прилично
Выравнивания – 2014 32
• Постановка биологической задачи• Постановка математической задачи• Почему задача не решается “в лоб”• Понятие эвристического алгоритма• Источники ошибок• Построение множественного выравнивания
снизу• Современные программы
• Pfam, CDD