Upload
cs-center
View
51
Download
4
Embed Size (px)
Citation preview
Выравнивание последовательностей
Продолжение
Аминокислоты
Консервативность
Замены аминокислот, сохраняющиефизико-химические свойства белков.
– Полярные на полярные
• аспартат и глутамат
– Неполярные на неполярные
• аланин и валин
– Прочие похожие
• лейцин и изолейцин
Матрицы весов
Для ДНК составим (4+1) x(4+1) матрицу весов δ.
Для белков размер матрицы (20*+1)x(20*+1).
Дополнительные строка и столбец нужны длявключения gap символа.
Это упростит алгоритм следующим образом:
si-1,j-1 + δ (vi, wj)
si,j = max s i-1,j + δ (vi, -)
s i,j-1 + δ (-, wj)
Пример матрицы весов
A
A
R
N
K
5
-
-
-
R
-2
7
-
-
N
-1
-1
7
-
K
-1
3
0
6
• Несмотря на то, что R и K разные
аминокислоты, их пара имеет
положительный вес.
• Обе являются положительно
заряженными полярными
аминокислотами
-1 -1 -2 +5 +7 +3 = 11
Создание матриц весов
• Матрицы создаются на основеэкспериментальных данных.
• Выравнивания – представления белков,различающихся мутациями.
• Некоторые из этих мутаций менее пагубновлияют на функцию белка, и,соответственно, штраф δ(vi , wj), будетменьше прочих.
Типы матриц весов
• Матрицы замен аминокислот
– PAM
– BLOSUM
• ДНК матрицы
PAM
• Point Accepted Mutation (Dayhoff et al.)
• 1 PAM = PAM1 = 1% аминокислот мутировали.
– Однако, после 100 PAMов эволюции, не все остаткиизменятся
• Некоторые остатки мутируют несколько раз
• Некоторые остатки вернутся к начальномусостоянию
• Некоторые вообще не изменятся
PAMX
• PAMx = PAM1
• PAM250 = PAM1
• PAM250 широко используемая матрица:
Ala
Arg
Asn
Asp
Cys
Gln
...
Trp
Tyr
Val
A
R
N
D
C
Q
Ala
A
13
3
4
5
2
3
Arg
R
6
17
4
4
1
5
Asn
N
9
4
6
8
1
5
Asp
D
9
3
7
11
1
6
Cys
C
5
2
2
1
52
1
Gln
Q
8
5
5
7
1
10
Glu
E
9
3
6
10
1
7
Gly
G
12
2
4
5
2
3
His
H
6
6
6
6
2
7
Ile
I
8
3
3
3
2
2
Leu
L
6
2
2
2
1
3
Lys ...
K ...
7 ...
9
5
5
1
5
W
Y
V
0
1
7
2
1
4
0
2
4
0
1
4
0
3
4
0
1
4
0
1
4
0
1
4
1
3
5
0
2
4
1
2
15
0
1
10
x
250
BLOSUM
• Blocks Substitution Matrix
• Веса извлекаются из статистикивыравниваний родственных белков
– BLOSUM62 была создана на выборкепоследовательностей с min 62% identity
Матрица весов BLOSUM50
Выравнивание с матрицами весов
В задаче 2 вместо одинаковых весовсовпадения и несовпадения использоватьматрицу весов (достаточно матрицы(3+1)х(3+1)).
A R N K
A 5
-
-
-2
7
-
-1
-1
7
-1
3
0
Например: R
N
K - - - 6
Глобальное выравнивание
--T—-CC-C-AGT—-TATGT-CAGGGGACACG—A-GCATGCAGA-GAC| || | || | | | ||| || | | | | |||| |
AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATG—T-CAGAT--C
Локальное выравнивание
tccCAGTTATGTCAGgggacacgagcatgcagagac
||||||||||||
aattgccgccgtcgttttcagCAGTTATGTCAGatc
Локальное выравнивание
• Задача глобального выравнивания – найтинаиболее весомый путь между вершинами (0,0) и(n,m) графа.
• Задача локального выравнивания – найтинаиболее весомый путь среди всех путей междувершинами (i,j) и (i’, j’).
Решение – free ride
Yeah, a free ride!
Вершина
(0,0)
Алгоритм локальноговыравнивания (Смита-Ватермана)
Наибольшее значение si,j – лучший вес
локального выравнивания.
Рекурсия:0
si,j = max si-1,j-1 + δ (vi, wj)
s i-1,j + δ (vi, -)s i,j-1 + δ (-, wj)
Лишь одно отличие
от глобального
выравнивания.
Локальное выравнивание
В задаче 2 найти оптимальное выравнивание средивыравниваний всех возможных подслов двухпоследовательностей – локальное выравнивание.
Взвешивание делеций/вставок: простойподход.
• Фиксированный штраф σ за каждуюделецию/вставку:
– -σ за одну делецию,
– -2σ за две делеции подряд,
– -3σ за три делеции подряд, и т.д.
Афинный штраф за gap
• В природе, серии последовательных kделеций происходят чаще, чем kодиночных событий:
Более
предпочтительно
Обычное взвешивание
оценит эти два Менеевыравния одинаково предпочтительно
Афинный штраф за гэпы
– -ρ-σ за одну делецию 1 indel
– -ρ-2σ за две делеции 2 indels
– -ρ-3σ за три делеции 3 indels, etc.
Добавление ребер афинных штрафов.
Время работывозрастает до O(n3)
The 3-leveled Manhattan Grid
3-leveled Manhattan
ρδ
δ σ
δ
ρ
σ
δ
δ
Переключение между уровнями
• Уровни:
– Основной уровень для диагональных ребер
– Нижний уровень для горизонтальных ребер
– Верхний уровень для вертикальных ребер
• Штраф за переход с основного уровня на
верхний или нижний (с шагом) (-r- s)
• Штраф за проход по верхнему или нижнему
уровню (-s)
Алгоритм 3-х уровнего подхода
si,j =
max
si,j =
max
si,j =
max
s i-1,j - σ
s i-1,j –(ρ+σ)
s i,j-1 - σ
s i,j-1 –(ρ+σ)
si-1,j-1 + δ (vi, wj)
s i,j
s i,j
Продолжит гэп в w (делеция)
Начать гэп в w (делеция): с
середины
Продолжить гэп в v (вставка)
Начать гэп в v (вставка): с середины
Совпадение или несовпадение
Закончить делецию: сверху
Закончить вставку: снизу
Афинные гэпы
В выравнивании вместо штрафа за гэп -d использоватьштраф -p-ld (p и d задаются вами) для гэпа длины l.
начало
w1,1
w2,1
w1,2
wi,j
wi,j+1
wi+1,j
wi+1,j+1
wn-1,m
Время работы – O(n∙m)wn,m-1 wn,m
конецПамять – O(n∙m)
Можно ограничить область
Алгоритм Миллера-Маерс
0. Идем построчно, запоминаем тольковеса.
1. Проходим таблицу вверх и вниз досредней строчки вычисляямаксимальные веса для ячеек Sdown(xij)и Sup(xij).
2. Находим MAX(Sdown(xij) + Sup(xij)) повсем j – т.е. точку, через которуюпроходит максимальный путь.
3. Разбиваем таблицу на 2 подтаблицы,повторяем процедуру.
i
j
4. Время работы алгоритма
T=C*n2+C*n2/2+C*n2/4+…=C*n2(1+1/2+1/4+1/8+…)=2C*n2