20
Эволюция семейства белков Эволюционные домены и их выравнивание

Эволюция семейства белков

Embed Size (px)

DESCRIPTION

Эволюция семейства белков. Эволюционные домены и их выравнивание. Основные этапы биоинформатического анализа молекулярной эволюции. Выбор последовательностей и их выравнивание Построение/выбор эволюционной модели Реконструкция эволюции реконструкция филогенетического дерева - PowerPoint PPT Presentation

Citation preview

Page 1: Эволюция семейства белков

Эволюция семейства белков

Эволюционные домены и их выравнивание

Page 2: Эволюция семейства белков

Основные этапы биоинформатического анализа молекулярной эволюции

• Выбор последовательностей и их выравнивание• Построение/выбор эволюционной модели • Реконструкция эволюции

– реконструкция филогенетического дерева– оценка силы давления и направления отбора– сравнение скоростей эволюции– ...

• Оценка статистической значимости реконструкции

• ?

Весна, 2008, А.Б.Рахманинова

Page 3: Эволюция семейства белков

Что отображает выравнивание?(три возможных смысла)

1. Сопоставление остатков есть гипотеза об их общем происхождении.

2. Сопоставление есть гипотеза (или утверждение) об одинаковой или «гомологичной» (что бы это ни значило) функции остатков.

3. Сопоставление есть гипотеза или утверждение о сходном пространственном расположении остова цепи в районе данного остатка.

Разумеется, эти смыслы не взаимоисключающи!Известно, что пространственная структура консервативнее в эволюции, чем последовательность. Поэтому по наложению структур судят об общности происхождения.

Page 4: Эволюция семейства белков

При сравнении похожих структур белков, как правило, анализируется только положение атомов CA каждого из аминокислотных остатков.

Пример пространственного наложения структур двух родственных белков. Изображены только CA-атомы и условные линии, соединяющие их.

Пара сопоставленных остатков

Против этих остатков должны стоять гэпы.

Page 5: Эволюция семейства белков

Обычное дело…В истории многих белков имели место случаи рекомбинации:

FAS_PNECA

Q83I90 _TROW8

Page 6: Эволюция семейства белков

Домен белкаТри определения:•Функциональный домен: часть белка, которая, будучи получена в эксперименте отдельно от остального белка, сохраняет какую-либо из его функций.

•Структурный домен: часть белка, хорошо обособленная в пространстве от остальных частей (не формализовано!).

•Эволюционный домен: относительно консервативная часть последовательности, замеченная в перестановках с другими подобными частями.

Материал по эволюционным доменам самый большой, поскольку известных последовательностей во много раз больше, чем известных структур, и во много-много раз больше, чем результатов экспериментов по сохранению функции частью белка.Домены, выделенные по разным определениям, часто совпадают. Однако есть примеры, когда один эволюционный домен состоит из двух структурных и т.п.

Page 7: Эволюция семейства белков

Эволюционные домены

• 25 белков

• 9 белков

• 2 белка

• 12 белков

223 белка

243 белка

507 белков ЕС 2.5.1.15

ЕС 4.1.2.25

ЕС 2.7.6.3

Page 8: Эволюция семейства белков

Выравнивать имеет смысл последовательности (эволюционных) доменов

(а, вообще говоря, не полноразмерных белков)!

Тем самым, домен белка – основной объект науки о выравниваниях, эволюции, функциональной аннотации и т.п.

Page 9: Эволюция семейства белков

Программы множественного выравнивания

• ClustalW (можно считать устаревшей)• Muscle (существенно быстрее и чуть аккуратнее)• MAFFT (то же, имеет медленную и аккуратную опцию “einsi”)• T-COFFEE• PROBCONS• DI-ALIGN

Множественное выравнивание может породить специфическую информацию о домене. Эта информация может быть использована для поисков ортологичных белков в новых последовательностях.

Для поиска мотивов и доменов в новых последовательностях используют:

• паттерны

• профили PSSM

• профили HMM

Page 10: Эволюция семейства белков

Паттерн для цинкового пальцаProsite

Паттерн для цинкового пальца типа С2Н2:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

[a-zAZ] все возможные аминокислоты в данной позиции Х(2,4) любая аминокислота от 2 до 4 раз Х(3) любая аминокислота ровно 3 раза {P} любая аминокислота, кроме пролина

Page 11: Эволюция семейства белков

PSSM или PSWPSSM, или Position-Specific Scoring Matrix, тип матрицы, в которой вес замены аминокислотного остатка зависит от его положения в выравнивании.

Например, замена Tyr-Trp в позиции 5 не эквивалентна той же самой замене в позиции 10. Это является принципиальным отличием от PAM или BLOSUM.

В ячейках PSSM-матрицы стоят положительные или отрицательные целые числа. Положительные указывают, что аминокислота замещается чаще, чем можно ожидать в случайной модели. Отрицательные значения, соответственно, наоборот.

PSSM создаются при работе с PSI-BLAST.

Page 12: Эволюция семейства белков

Построение PSSM Позиция 1 2 3 4 5 6

Sequence 1 A T G T C G

Sequence 2 A A G A C T

Sequence 3 T A C T C A

Sequence 4 C G G A G G

Sequence 5 A A C C T G

Pos 1 2 3 4 5 6 Сред.частота

A 0.6 0.6 - 0.4 - 0.2 0.3

T 0.2 0.2 - 0.4 0.2 0.2 0.2

G - 0.2 0.6 - 0.2 0.6 0.27

C 0.2 - 0.4 0.2 0.6 - 0.23

Pos 1 2 3 4 5 6

A 2.0 2.0 - 1.33 - 0.67

T 1.0 1.0 - 2.0 1.0 1.0

G - 0.74 2.22 - 0.74 2.22

C 0.87 - 1.74 0.87 2.61 -

Pos 1 2 3 4 5 6

A 1.0 1.0 - 0.41 - -0.58

T 0.0 0.0 - 1.0 0.0 0.0

G - -0.43 1.15 - -0.43 1.15

C -0.2 - 0.8 -0.2 1.38 -

Наблюдаемые частоты по позициям

Нормализированные значения Переведённые в log2

Page 13: Эволюция семейства белков

Поиск AACTCG с PSSM Pos 1 2 3 4 5 6

A 1.0 1.0 - 0.41 - -0.58

T 0.0 0.0 - 1.0 0.0 0.0

G - -0.43 1.15 - -0.43 1.15

C -0.2 - 0.8 -0.2 1.38 -

•1.0+1.0+0.8+1.0+1.38+1.15 = 6.33•26.33 = ~80•Итак, соответствие между профилем и последовательностью AACTCG в 80 больше, чем между профилем и случайной последовательностью из 6 нуклеотидов

Page 14: Эволюция семейства белков

PSSM для С2Н2 из Prosite/GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=28;/DISJOINT: DEFINITION=PROTECT; N1=3; N2=26;/NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=-0.6689; R2=0.02078310; TEXT='-LogE';/CUT_OFF: LEVEL=0; SCORE=441; N_SCORE=8.5; MODE=1; TEXT='!';/CUT_OFF: LEVEL=-1; SCORE=344; N_SCORE=6.5; MODE=1; TEXT='?';/DEFAULT: D=-20; I=-20; B1=-50; E1=-50; MI=-105; MD=-105; IM=-105; DM=-105;

A B C D E F G H I K L M N P Q R S T V W Y Z/I: B1=0; BI=-105; BD=-105;............./M: SY='C'; M=-10,-20,118,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30;/M: SY='E'; M= -5, 3,-24, 3, 6,-22,-11, -6,-20, 1,-21,-14, 4, -1, 1, -3, 5, 2,-18,-29,-15, 3;/I: I=-12; MI=0; MD=-30; IM=0; DM=-30;/M: SY='E'; M= -9, -2,-26, 1, 14,-18,-17, -4,-13, -1,-11, -8, -5,-12, 4, -5, -5, -8,-12,-24, -9, 8;/M: SY='C'; M=-10,-20,119,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-29,-30;/M: SY='G'; M= -3, -1,-28, -1, -7,-28, 36,-11,-33,-11,-27,-18, 4,-15,-10,-12, 1,-13,-27,-24,-23, -9;/M: SY='K'; M=-10, -2,-28, -3, 8,-25,-19, -7,-26, 36,-24, -8, -1,-12, 10, 27, -9, -9,-18,-19, -8, 8;/M: SY='A'; M= 8, -7, -9,-11, -7,-17, -7,-14,-16, -6,-16,-11, -4,-15, -6, -5, 8, 4, -7,-27,-15, -7;/M: SY='F'; M=-19,-29,-19,-37,-28, 71,-29,-17, 0,-28, 9, 0,-20,-30,-36,-19,-19, -9, -1, 9, 31,-28;................/M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 99,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 20, 0;/M: SY='Q'; M=-10,-10,-25,-12, 1,-16,-22, -2, -6, 1, -3, 6, -9,-17, 13, 3, -9, -8, -9,-19, -4, 6;/M: SY='R'; M=-13, -8,-26, -9, 0,-19,-19, -4,-21, 20,-16, -6, -2,-17, 6, 35, -8, -7,-14,-21, -9, 0;/I: I=-12; MI=0; MD=-29; IM=0; DM=-29;/M: SY='V'; M= -3,-16,-17,-21,-17, -6,-25,-20, 11,-15, 2, 3,-12,-18,-14,-14, -2, 9, 13,-25, -7,-17;/M: SY='H'; M=-20, 0,-30, 0, 0,-20,-20, 97,-30,-10,-20, 0, 10,-20, 10, 0,-10,-20,-30,-30, 19, 0;.................../I: E1=0;

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Встречается в ProSite и PsiBlast

Page 15: Эволюция семейства белков

HMM Профиль

1

2

2’

3

3’

4

4’

5

P12

P23 P34

P45

P12’

P23’ P34’

P45’

Старт Финиш

Наблюдаемые состояния

Спрятанные состояния

HMM содержит предсказательную информацию о вставках и делециях раздельноХорошо подготовленная HMM может быть использована для поиска далеких гомологов. Может использоваться для классификации белков.Улучшенное предсказание генов и промоторов.Предсказание трансмембранных участков белков.Узнавание укладки белка.

HMMer (http://hmmer.wustl.edu/) набор программ для Linux

Page 16: Эволюция семейства белков

HMM ПрофильID SEQUENCE_PROFILE; MATRIX.AC ZZ99999;DT Tue Apr 21 21:25:58 2009DE Generated from MSF file: 'RT07.weighted.ali'.MA /GENERAL_SPEC: ALPHABET='ABCDEFGHIKLMNPQRSTVWYZ'; LENGTH=287;MA /DISJOINT: DEFINITION=PROTECT; N1=6; N2=282;MA /NORMALIZATION: MODE=1; FUNCTION=LINEAR; R1=0.0000000; R2=0.0100000; TEXT='No_units';MA /CUT_OFF: LEVEL=0; SCORE=850; N_SCORE=8.5; MODE=1; TEXT='!';MA /CUT_OFF: LEVEL=-1; SCORE=650; N_SCORE=6.5; MODE=1; TEXT='?';MA /DEFAULT: M0=-8; D=-20; I=-20; B1=*; E1=*; MI=-105; MD=-105; IM=-105; DM=-105;MA /I: B1=0; BI=-105; BD=-105;MA /M: SY='M'; M=-10,-20,-20,-30,-20,0,-20,0,20,-10,20,60,-20,-20,0,-10,-20,-10,10,-20,0,-10;MA /M: SY='G'; M=0,-10,-30,-10,-20,-30,70,-20,-40,-20,-30,-20,0,-20,-20,-20,0,-20,-30,-20,-30,-20;MA /M: SY='I';M=-10,-30,-30,-40,-30,0,-40,-30,50,-30,20,20,-20,-20,-20,-30,-20,-10,30,-20,0,-30;

/GENERAL_SPEC: Общие указания /DISJOINT: Описание разделителей. /NORMALIZATION: Значения для нормализации результатов выравнивания. /CUT_OFF: Рекомендуемые значения Cut-off. /DEFAULT: Значения по умолчанию для специфических позиций /I: Вставка в профиле. /M: Совпадение в профиле.

Page 17: Эволюция семейства белков

HMM ПрофильMA /CUT_OFF: LEVEL=0; SCORE=850; N_SCORE=8.5; MODE=1; TEXT='!';MA /CUT_OFF: LEVEL=-1; SCORE=650; N_SCORE=6.5; MODE=1; TEXT='?';MA /DEFAULT: M0=-8; D=-20; I=-20; B1=*; E1=*; MI=-105; MD=-105; IM=-105; DM=-105;MA /I: B1=0; BI=-105; BD=-105;MA /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30;MA /M: SY='E'; M=-6,0,-24,1,6,-23,-11,-3,-22,1,-21,-14,1,3,2,-3,1,-2,-20,-28,-15,3;MA /I: I=-5; MI=0; MD=-25; IM=0; DM=-25;MA /M: M=-10,-2,-25,-2,-1,-13,-14,-3,-10,-4,-10,-6,-3,-17,-3,-6,-7,-7,-10,-21,-3,-3; D=-5;MA /I: I=-5; MI=-25; IM=-25; DM=-25;MA /M: SY='C'; M=-10,-20,120,-30,-30,-20,-30,-30,-30,-30,-20,-20,-20,-40,-30,-30,-10,-10,-10,-50,-30,-30;MA /M: SY='G'; M=-7,3,-27,5,-1,-25,14,-6,-29,-5,-24,-16,5,-12,-4,-6,0,-9,-24,-25,-18,-3;MA /I: I=-5; MI=0; MD=-27; IM=0; DM=-27;MA /M: SY='K'; M=-10,-5,-27,-6,5,-19,-20,-6,-20,22,-18,-7,-4,-14,7,19,-8,-6,-15,-18,-6,5;MA /M: SY='S'; M=0,-7,-12,-10,-6,-14,-13,-11,-12,-5,-14,-8,-4,-14,-5,-4,5,5,-5,-27,-11,-6;MA /M: SY='F'; M=-16,-26,-16,-33,-26,56,-28,-15,-1,-25,7,0,-18,-28,-31,-18,-16,-7,-1,5,28,-26;..............MA /M: SY='H'; M=-20,0,-30,0,0,-20,-20,100,-30,-10,-20,0,10,-20,10,0,-10,-20,-30,-30,20,0;MA /M: SY='M'; M=-8,-15,-23,-18,-8,-9,-23,-8,4,-7,5,10,-13,-19,1,-5,-12,-7,0,-19,-3,-5;MA /M: SY='R'; M=-8,-5,-22,-7,0,-17,-18,-6,-16,10,-12,-5,-1,-17,3,17,-5,-5,-12,-23,-9,0;MA /M: SY='T'; M=-3,-8,-20,-12,-7,-10,-16,-13,-6,-4,-8,-4,-4,-16,-6,-3,2,6,-2,-24,-8,-7;MA /I: I=-5; MI=0; MD=-27; IM=0; DM=-27;MA /M: SY='H'; M=-18,-4,-3,-5,-5,-20,-22,77,-30,-14,-20,-4,5,-24,3,-5,-10,-18,-26,-34,11,-5;MA /I: E1=0; IE=-105; DE=-105;CC /GENERATED_BY="pfmake -m c2h2.fasta /usr/share/pftools23/blosum45.cmp";

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

Page 18: Эволюция семейства белков

Банки семейств белков• Pfam• ProSite

Структура Pfam:

• каждое Pfam-A семейство содержит курируемое (“seed”) выравнивание небольшого количества белков, ярких представителей семейства;

•коллекция HMM-профилей (каждый профиль характеризует «обобщённую последовательность» некоторого эволюционного домена);

• аннотации эволюционных доменов (собственные и взятые из InterPro);

•автоматические выравнивания (генерируются с помощью профилей; часто плохого качества – содержат очевидные неточности);

• интерфейс (средства поиска, средства сохранения выравниваний и т.д.)

http://pfam.sanger.ac.uk/

Page 19: Эволюция семейства белков

Банки семейств белков• Pfam• ProSite

Структура ProSite:

• коллекция белковых семейств и доменов;

• аннотации эволюционных доменов;

• функциональные участки, мотивы, подписи и профили;

• интерфейс (средства поиска, средства сохранения выравниваний и т.д.)

http://au.expasy.org/prosite/

Page 20: Эволюция семейства белков

HMM vs PSSM Считается, что НММ профили более точно находят далёкое сходство...????