24
Множественные выравнивания Профили

Алгоритмы в биоинформатике, осень 2016: Множественные выравнивания и профили

Embed Size (px)

Citation preview

Множественные выравнивания

Профили

Обобщение парного выравнивания

• Выравнивание 2-х последовательностей –двумерная матрица

• 3-х последовательностей – 3-х мерная.

A T _ G C G _A _ C G T _ AA T C A C _ A

• Задача: больше консервативных столбцов, лучшевыравнивание

Глобальное выравнивание 3-хпоследовательностей

начало

конец

3-D архитектура

(i-1,j-1,k-1) (i-1,j,k-1)

(i-1,j-1,k) (i-1,j,k)

(i,j,k-1)

(i,j-1,k-1)

(i,j-1,k) (i,j,k)

Алгоритм

si-1,j-1,k-1 + (vi, wj, uk) Нет гэпов

si-1,j-1,k + (vi, wj, _ )

si-1,j,k-1 + (vi, _, uk)Один гэп

si,j-1,k-1 + (_, wj, uk)

si-1,j,k + (vi, _ , _)

si,j-1,k + (_, wj, _) Два гэпа

si,j,k-1 + (_, _, uk)

• si,j,k = max

• (x, y, z) – запись в трехмерной матрице весов

Время работы алгоритма

• Для 3-х последовательностей длины n,время работы – 7n3; O(n3)

• Для k последовательностей - (2k-1)(nk);O(2knk)

Множественное выравнивание порождаетпарные выравнивания

x: AC-GCGG-Cy: AC-GC-GAGz: GCCGC-GAG

Порождает:

x: ACGCGG-C;

y: ACGC-GAC;

x: AC-GCGG-C;

z: GCCGC-GAG;

y: AC-GCGAG

z: GCCGCGAG

Обратная проблема

Имея 3 субъективных парных варнивания:

x: ACGCGG-C;

y: ACGC-GAC;

x: AC-GCGG-C;

z: GCCGC-GAG;

y: AC-GCGAG

z: GCCGCGAG

Хороший вариант

Плохой вариант

Выравнивание выравниваний

x GGGCACTGCAT

y GGTTACGTC--

z GGGAACTGCAG

w GGACGTACC--

v GGACCT-----

Alignment 1

Alignment 2

Описание выравнивания

GTCTGAGTCAGC

GTC[TA]G[AC] - профиль

G[5X][6X]

x

y

z

w

v

GGGCACTGCAT

GGTTACGTC--

GGGAACTGCAG

GGACGTACC--

GGACCT-----

GGACACAGCAT - консенсус

Частотный профиль – методы вычисления

1. Наивный метод

2. Метод Лапласа

3. Метод Байеса

4. Метод матриц замен

5. Метод общего предка

частота

Множественное выравнивание – жадныйалгоритм

u1= ACGTACGTACGT…

u2 = TTAATTAATTAA…

u3 = ACTACTACTACT…

u1= AC[GT]TAC[GT]TAC[GT]T…

u2 = TTAATTAATTAA…

…k-1

k

uk = CCGGCCGGCCGG

uk = CCGGCCGGCCGG…

Время работы алгоритма на k последовательностях длины n – O(n2k2)

Прогрессивное выравниваниеClustalW

• Прогрессивное выравнивание –жадный алгоритм с более «умным»способом выбора пар.

• Три шага

1.) Построить парные выравнивания

2.) Построить дерево-подсказку

3.) Прогрессивное выравнивание подереву-подсказке

Шаг 1: Парные Выравнивания

• Выравнивания пар порождают матрицу

identity

v1 v2 v3 v4

-

.17 -

.87 .28 -

.59 .33 .62 -

v1

v2

v3

v4

(.17 значит идентичны на 17 % )

Шаг 2: Дерево-подсказка

v1

v2

v3

v4

v1 v2 v3 v4

-

.17 -

.87 .28 -

.59 .33 .62 -

v1

v3

v4

v2

Далее вычислить:v1,3 = выравнивание (v1, v3)v1,3,4 = выравнивание ((v1,3),v4)v1,2,3,4 = выравнивание ((v1,3,4),v2)

Шаг 3: Прогрессивное выравнивание

• Выравниванием 2 наиболее близких

последовательности.

• Следуя дереву - подсказке,

довыравниваем следующую

последовательность к имеющемуся

выравниванию

FOS_RAT

FOS_MOUSE

FOS_CHICK

FOSB_MOUSE

FOSB_HUMAN

PEEMSVTS-LDLTGGLPEATTPESEEAFTLPLLNDPEPK-PSLEPVKNISNMELKAEPFD

PEEMSVAS-LDLTGGLPEASTPESEEAFTLPLLNDPEPK-PSLEPVKSISNVELKAEPFD

SEELAAATALDLG----APSPAAAEEAFALPLMTEAPPAVPPKEPSG--SGLELKAEPFD

PGPGPLAEVRDLPG-----STSAKEDGFGWLLPPPPPPP-----------------LPFQ

PGPGPLAEVRDLPG-----SAPAKEDGFSWLLPPPPPPP-----------------LPFQ

. . : ** . :.. *:.* * . * **:

Точки и звезды отображают насколько консервативны столбцы.

Множественные Выравнивания:Взвешивание

• Количество полных совпадений

• Сумма по парам (SP-Score)

• Энтропия

Количество полных совпадений

AAAAAAAATATC

Количество полных совпадений

AAAAAAAATATC

• Хорошо только для очень близких

последовательностей

Сумма по парам (SP-Score)

• Построим парное выравнивание помножественному

• Посчитаем веса всех этих парныхвыравниваний – s(ai, aj)

• Просуммируем: s(a1,…,ak) = Σi,j s (ai, aj)

Энтропия: ПримерЭнтропия столбца:

-( pA logpA + pC logpC + pG logpG + pT logpT)

A A A

A C C

•Столбец 1 = -[1*log(1) + 0*log0 + 0*log0 +0*log0]=0

•Столбец 2 = -[(1/4)*log(1/4) + (3/4)*log(3/4) + 0*log0 + 0*log0]= -[ (1/4)*(-2) + (3/4)*(-.415) ] = +0.811

A C G

A C T

•Столбец 3 = -[(1/4)*log(1/4)+(1/4)*log(1/4)+(1/4)*log(1/4)+(1/4)*log(1/4)] = 4* -[(1/4)*(-2)] = +2.0

•Энтропия выравнивания = 0 + 0.811 + 2.0 = +2.811