39
Использование биоинформатики в практической молекулярной биологии И.И. Артамонова, ИОГен РАН

Использование биоинформатики в практической молекулярной биологии

  • Upload
    bracha

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

Использование биоинформатики в практической молекулярной биологии. И.И. Артамонова, ИОГен РАН. План. Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции. - PowerPoint PPT Presentation

Citation preview

Page 1: Использование биоинформатики в практической молекулярной биологии

Использование биоинформатики в

практической молекулярной биологии

И.И. Артамонова,

ИОГен РАН

Page 2: Использование биоинформатики в практической молекулярной биологии

План

Гомологи и сходство последовательностей

Что можно выяснить на основании множественного выравнивания гомологов

Филогенетический анализ и восстановлении эволюции

Page 3: Использование биоинформатики в практической молекулярной биологии

Почему нас интересует локальное сходство последовательностей?

Мы верим, что:1. функцию, структуру и многие другие

свойства белка/ДНК определяет последовательность;

2. родственные белки имеют похожие свойства

молекулы, похожие по последовательности, похожи и по свойствам

Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

Page 4: Использование биоинформатики в практической молекулярной биологии

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка)

Признаки гомологичности белков

• сходная 3D-структура • в той или иной степени похожая

аминокислотная последовательность• аналогичная функция • разные другие соображения…

Page 5: Использование биоинформатики в практической молекулярной биологии

Ортологи — последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию

Паралоги — последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

Page 6: Использование биоинформатики в практической молекулярной биологии

Средство поиска сходства - выравнивание

«Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные фрагменты оказались друг под другом.

домовойскупидом водомерка

лесовоз ---лесо---воз ледоход лед---оход---

Page 7: Использование биоинформатики в практической молекулярной биологии

Схожие 3D структуры

Вставка в «синей» последовательности

Page 8: Использование биоинформатики в практической молекулярной биологии

Как выровнять две последовательности?

Цель - максимальное количество совпадений

• Просто написать их друг под другом

• Двигать друг относительно друга

• Вставлять пробелы

лесовоз ---лесо---воз ледоход лед---оход---

Гэп – пропуск в

последовательности

Page 9: Использование биоинформатики в практической молекулярной биологии

Типы выравнивания

Локальное – поиск фрагментов наиболее похожих друг на друга

домовой домовой домовойскупидом водомерка водомерка

Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару

лесовоз ---лесо---воз ледоход лед---оход---?

Page 10: Использование биоинформатики в практической молекулярной биологии

Критерии качества выравнивания

Количество идентичных (похожих) аминокислот/нуклеотидов – Для белков – более 25% id при длине > 100 aa– Для ДНК – более 70% id при длине > 100 nt

Длина выравниванияВероятность наблюдать такое сходство

случайным образом– Зависит от базы данных

Score – общая мера сходства:– Зависит от программы

Page 11: Использование биоинформатики в практической молекулярной биологии

BLAST – Basic Local Alignment and Search Tool

Локальное выравниваниеГлавная задача – поиск похожих

последовательностей в базах данных (=> главное достоинство – скорость)

Очень неточно восстанавливает сходствоОсновная программа поиска по БДДля специализированных БД часто

предлагается на сайте БДДля поиска среди известных

последовательностей есть специальные сервера

Page 12: Использование биоинформатики в практической молекулярной биологии

Выбор параметров

• Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций)

• Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

Page 13: Использование биоинформатики в практической молекулярной биологии

Какие параметры менять? Фильтрация

• Low-complexity region – другой aa-состав

Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации

Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную

ДНК – геном-специфичные повторы!

Page 14: Использование биоинформатики в практической молекулярной биологии

Параметры выравнивания Матрица:BLOSUM для локального выравнивания обычно

лучше, чем PAM– Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80

вместо BLOSUM45 – более короткие выравнивания)– РАМ – чем ниже, тем строже

Штрафы за делеции:– Чем больше штраф за внесение, тем короче выравнивания– Меняете матрицу – надо менять и штраф– Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за

внесение делеции– Штраф за удлинение ~10 раз ниже, чем за внесение

Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение

Близкие гомологи – штрафы ближе друг к другу

Page 15: Использование биоинформатики в практической молекулярной биологии

Параметры output-формата

• Количество хитов

• Выбор базы данных (организм)

• Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные)

• Entrez query – ключевые слова (например, “protease AND human”)

Page 16: Использование биоинформатики в практической молекулярной биологии

Что такое множественное выравнивание?

Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом:

Гомологичные остатки один под другим Остатки в одинаковом пространственном

положении один под другим Остатки, имеющие одинаковую

функциональную нагрузку, один под другим Одинаковые или похожие остатки один под

другим

Page 17: Использование биоинформатики в практической молекулярной биологии

Какое выравнивание интереснее?

Page 18: Использование биоинформатики в практической молекулярной биологии

Какие бывают выравнивания?

локальные глобальныелокальныеглобальные

множественныепарные

Выравнивания

Page 19: Использование биоинформатики в практической молекулярной биологии

Зачем нужно множественное выравнивание?

Перенос аннотацииПредсказание функции каждого остатка

(например, выявление остатков, составляющих активный центр фермента)

Моделирование 3D – структурыРеконструкция эволюционной истории

последовательности (филогения)Выявление паттерна функциональных

семейств и сигналов в ДНКПостроение доменных профайловАккуратный дизайн праймеров для PCR

анализа

Page 20: Использование биоинформатики в практической молекулярной биологии

Как выбрать последовательности для множественного выравнивания?

Выравнивайте белки, а не ДНК, если есть выбор

Последовательностей лучше много, но не слишком (~ 10-15)

В выборке лучше избегать: слишком похожих последовательностей

(>90% id) слишком разных последовательностей

(<30% id c большинством) неполных последовательностей

(фрагментов) тандемных повторов

Page 21: Использование биоинформатики в практической молекулярной биологии

Изучая новую последовательность

Выборка на основе BLASTПодробно охарактеризованные

последовательности - аннотацияСовсем неохарактеризованные

(hypothetical proteins) – достаточный уровень разнообразия

Выравнивание по всей длине e-value – 10 -40 – 10 -6

Избегать partial sequences

Page 22: Использование биоинформатики в практической молекулярной биологии

Современные методы построения множественного выравнивания

(MSA, multiple sequence alignment):

Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, http://www.ebi.ac.uk/Tools/clustalw/index.html)

Muscle – быстрее и немного точнее, самый новый и довольно модный (http://phylogenomics.berkeley.edu/cgi-bin/muscle/input_muscle.py, http://www.ebi.ac.uk/Tools/muscle/index.html)

T-COFFEE – заметно точнее, но существенно медленнее(http://www.igs.cnrs-mrs.fr/Tcoffee/tcoffee_cgi/index.cgi)

Page 23: Использование биоинформатики в практической молекулярной биологии

TCoffee

Построение множественных выравниваний

Оценка достоверности существующего выравнивания

Использование 3-D структуры при построении выравнивания

Сравнение и комбинирование выравниваний

Page 24: Использование биоинформатики в практической молекулярной биологии

JalView – редактирование выравниваний

Другие программы для редактирования выравниваний (stand-alone):GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSEСписок - http://bioweb.pasteur.fr/cgi-bin/seqanal/review-edital.pl

Page 25: Использование биоинформатики в практической молекулярной биологии

Как “читать” множественное выравнивание?

Хорошее выравнивание – высоко-консервативные блоки, перемежающиеся блоками с инсерциями/делециями

ДНК – консервативные “островки”Качество – score, локально важно“consensus” – строка с символами “*”, “:”,

“.” – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно

Page 26: Использование биоинформатики в практической молекулярной биологии

Если консервативны только отдельные столбцы

W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой

G,P - фланкируют бета-стренды и альфа-спирали

С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между

H,S – каталитические центры протеазK, R, D, E – заряженные аминокислоты,

участвуют в связывании лигандовL – редко консервативны. Формируют leucine

zipper – белок-белковые взаимодействия

Page 27: Использование биоинформатики в практической молекулярной биологии

Что такое филогенетическое дерево?

• Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий.

• Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств

Page 28: Использование биоинформатики в практической молекулярной биологии

Зачем нужны филогенетические деревья?

Биологические задачи:

сравнение 3-х и более объектов (кто на кого более похож .... )

реконструкция эволюции (кто от кого, как и когда произошел…)

Page 29: Использование биоинформатики в практической молекулярной биологии

Основные терминыУзел (node) — точка разделения предковой последовательности(вида, популяции) на две независимо эволюционирующие.Соответствует внутренней вершине графа, изображающего эволюцию.Лист (leaf, OTU – оперативная таксономическая единица) — реальный (современный) объект; внешняя вершина графа.Ветвь (branch) — связь между узлами или между узлом и листом; ребро графа.Корень (root) — гипотетический общий предок.Клада (clade) - группа двух или более таксонов или последователь-ностей ДНК, которая включает как своего общего предка, так и всех его потомков.

Page 30: Использование биоинформатики в практической молекулярной биологии

Рутинная процедура, или как строят деревья?

Составление выборки последовательностей

Множественное выравнивание

Построение дерева фрагмент записи в виде скобочной формулы:

Визуализация и редактура дерева

(((((con101:38.51018,(f53969:28.26973,((f67220:8.39851,max4:27.50591):4.92893,con92:30.19677):13.62315):9.53075):25.83145,

Page 31: Использование биоинформатики в практической молекулярной биологии

(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей

(((C,D),E)),(A,B)); только топология

Скобочная формула (Newick format)

ABC

D

E

5.2 7.5

6.3

6.1

7.7

8.0

3.2

5.5

Page 32: Использование биоинформатики в практической молекулярной биологии

Как выбирать последовательности для дерева?

Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК)

Придерживайтесь небольшой выборки (< 50 последовательностей)

Избегайте:– фрагментов;– ксенологов;– рекомбинантных последовательностей;– многодоменных белков и повторов

Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)

Page 33: Использование биоинформатики в практической молекулярной биологии

Самое главное – хорошее выравнивание!

Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию

Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.

Page 34: Использование биоинформатики в практической молекулярной биологии

Основные алгоритмы построения филогенетических деревьев

Методы, основанные на оценке расстояний (матричные методы):Вычисляются эволюционные расстояния между всеми листьями(OTUs) и строится дерево, в которомрасстояния между вершинаминаилучшим образом соответствуютматрице попарных расстояний.• UPGMA • Neighbor-joining• Минимальная эволюция• Квартеты («топологический»)• ...

Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели

Максимальной экономии (бережливости),

maximal parsimony, MP Выбирается дерево с минимальным количеством

мутаций, необходимых для объяснения данных

Page 35: Использование биоинформатики в практической молекулярной биологии

Как понимать расстояние между объектами?

• Как время, в течение которого они эволюционировали• Как число «эволюционных событий» (мутаций)

В первом случае объекты образуют ультраметрическое пространство(если все объекты наблюдаются в одно время, что, как правило, верно)

Но время непосредственно измерить невозможно

Page 36: Использование биоинформатики в практической молекулярной биологии

Метод ближайших соседей (Neighbor-joining, NJ)

Строит неукоренённое дерево

Может работать с большим количеством данных

Достаточно быстрый

Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено.

Могут появиться ветви с длиной <0

Page 37: Использование биоинформатики в практической молекулярной биологии

Филограмма:Длина ребер пропорциональна эволюционному расстоянию между узлами.

Кладограмма: представлена только топология, длина ребер игнорируется.

Arabidopsis

Caenorhabditis

Drosophila

Anopheles

Tenebrio

Trout

Mus0.1 substitutions per site

Arabidopsis

Caenorhabditis

Drosophila

Anopheles

Tenebrio

Trout

Mus

Как можно нарисовать построенное дерево?

Page 38: Использование биоинформатики в практической молекулярной биологии

Достоверность топологии. Bootstraps

• Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний - случайный набор столбцов из исходного (выборка с возвращением!)• Построим N деревьев:на каждой внутренней ветви отметим долю случаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80% . Если меньше 50%, то не верим. В иных случаях – думаем…

Есть множественное выравнивание и построенное по нему дерево. Верим ли мы в топологию дерева?

Page 39: Использование биоинформатики в практической молекулярной биологии

MEGA: филогенетический анализ последовательностей

http://www.megasoftware.net/