55
Распознавание Распознавание регуляторных регуляторных сигналов сигналов Д. А. Равчеев, М. С. Гельфанд В. Ю. Макеев (некоторые слайды) Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2007 года) Осенний семестр 2008

Распознавание регуляторных сигналов

  • Upload
    geneva

  • View
    42

  • Download
    0

Embed Size (px)

DESCRIPTION

Распознавание регуляторных сигналов. Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2007 года) Осенний семестр 2008. Д. А. Равчеев, М. С. Гельфанд В. Ю. Макеев (некоторые слайды). Транскрипция и трансляция в прокариотах. Эукариоты. Прокариоты. - PowerPoint PPT Presentation

Citation preview

Page 1: Распознавание регуляторных сигналов

Распознавание Распознавание регуляторных сигналоврегуляторных сигналов

Распознавание Распознавание регуляторных сигналоврегуляторных сигналов

Д. А. Равчеев, М. С. ГельфандВ. Ю. Макеев (некоторые слайды)

Факультет биоинженерии и биоинформатики МГУ

2-й курс (набор 2007 года)

Осенний семестр 2008

Page 2: Распознавание регуляторных сигналов

Транскрипция и трансляция в прокариотах

Page 3: Распознавание регуляторных сигналов

ЭукариотыПрокариоты

1. Сопряжение транскрипции и трансляции

2. Котранскрипция нескольких генов (опероны)

1.Транскрипция

2. Процессинг пре-мРНК

3. Экспорт мРНК

4.Трансляция

(синтез пре-мРНК)

– кэпирование

– сплайсингсплайсинг

– полиаденилирование

Page 4: Распознавание регуляторных сигналов

Сплайсинг ( эукариоты )

Сборка сплайсосомы

Разрез на 5’ конце интрона, образование «аркана»

Разрез на 3’ конце интрона, соединение экзонов

Page 5: Распознавание регуляторных сигналов

Транскрипция в прокариотах :Инициация транскрипции

Направление транскрипции

Старт транскрипции

Промотор

Page 6: Распознавание регуляторных сигналов

Транскрипция в прокариотах :Регуляция транскрипции

РепрессияАктивация

Page 7: Распознавание регуляторных сигналов

Структура ДНК-связывающего домена

CI, фаг

Page 8: Распознавание регуляторных сигналов

Структура ДНК-связывающего домена

Cro, фаг

Page 9: Распознавание регуляторных сигналов

Белок-ДНКовые взаимодействия

CI Cro

Page 10: Распознавание регуляторных сигналов

Регуляция транскрипции у эукариот

Page 11: Распознавание регуляторных сигналов

Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях

Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований

Регуляция транскрипции у эукариот

Регуляторные модули ( В. Ю. Макеев )

Page 12: Распознавание регуляторных сигналов

Консенсус

Pattern (“образец” - консенсус с вырoжденными позициями)

Матрица частот, nucleotide frequency matrix

Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile

Логические правила

РНКовые сигналы – вторичная структура

Представление сигналов

Page 13: Распознавание регуляторных сигналов

Консенсус

CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC

ACGAAAACGTTTTCGT

Сайты связывания PurR E. coli

cvpApurMpurTpurLpurEpurCpurBpurHpurA1

purA2

guaBpurR1

purR2

consensus

Page 14: Распознавание регуляторных сигналов

Образец

cvpApurMpurTpurLpurEpurCpurBpurHpurA1

purA2

guaBpurR1

purR2

consensus

pattern

CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC

ACGAAAACGTTTTCGT

amGAAAaCGkTTwCwT

Сайты связывания PurR E. coli

Page 15: Распознавание регуляторных сигналов

Матрица частотСайты связывания PurR E. coli

a m G A A A a C G k T T w C w Tb

A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11

Информационное содержание :

I = j b f (b, j) [log f (b, j) / p (b)]

f (b, j) – частота нуклеотида b в позиции j

p (b) – частота нуклеотида в геноме

где

Page 16: Распознавание регуляторных сигналов

Диаграмма Лого ( Logo )

Сайты связывания PurR E. coli

I = j b f (b, j) [log f (b, j) / p (b)]

Page 17: Распознавание регуляторных сигналов

Позиционная весовая матрица(профиль )

a m G A A A a C G k T T w C w T j

A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11

A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2

C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4

G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2

T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9

W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]

Page 18: Распознавание регуляторных сигналов

A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2

C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4

G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2

T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9

Позиционная весовая матрица(профиль )

Термодинамическая мотивировка : свободная энергия

Предположение :независимость соседних позиций

Page 19: Распознавание регуляторных сигналов

Сравнение частотной и весовой матриц

 ... A ... A ... A ...... G ... G ... G ...... G ... G ... C ...... G ... C ... T ...

A 1 1 1C 0 1 1G 3 2 1T 0 0 1

Частоты

A 0,34 0,15 0,00C -0,76 0,15 0,00G 1,18 0,66 0,00T -0,76 -0,95 0,00

Веса

Page 20: Распознавание регуляторных сигналов

Начало:

Исправление ошибок

Проверка литературных данных

Удаление дубликатов

Составление выборки

GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи)

предсказанные сайты

Page 21: Распознавание регуляторных сигналов

Первоначальное выравнивание по биологическим признакам

Выделение сигнала в скользящем окне

Перевыраванивание

и т.д. пока не сойдётся

Перевыравнивание

промоторы : старт транскрипции

участки связывания рибосом : стартовый кодон

сайты сплайсинга : экзон-интронные границы

Page 22: Распознавание регуляторных сигналов

Начала генов Bacillus subtilis

Page 23: Распознавание регуляторных сигналов
Page 24: Распознавание регуляторных сигналов
Page 25: Распознавание регуляторных сигналов

Позиционное информационное содержание до и после перевыравнивания

после

до

Page 26: Распознавание регуляторных сигналов

ОптимизацияExpectation - Maximization

Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль)

Матрица частот

A 0,8 -0,3 -0,3 -0,3C -0,3 0,8 -0,3 -0,3G -0,3 -0,3 0,8 -0,3T -0,3 -0,3 -0,3 0,8

Матрица (профиль) весов

k-мер : ACGT

A 1 0 0 0C 0 1 0 0G 0 0 1 0T 0 0 0 1

Page 27: Распознавание регуляторных сигналов

ОптимизацияExpectation - Maximization

Для каждого профиля :

Повторять пока не сойдётся

найти наилучшего представителя в каждой последовательности

обновить профиль

Page 28: Распознавание регуляторных сигналов

http://meme.sdsc.edu/meme/meme.html

Page 29: Распознавание регуляторных сигналов

ОптимизацияExpectation - Maximization

Недостатки метода :

Алгоритм сходится, но не может покинуть область локального максимума

Поэтому если начальное приближение было плохим, он сойдётся к ерунде

Решение: стохастическая оптимизация

Page 30: Распознавание регуляторных сигналов

Имитация теплового отжига

Цель : максимизировать информационное содержание I

или любой другой функционал, измеряющий однородность множества сайтов

I = j b f (b, j) [log f (b, j) / p (b)]

Page 31: Распознавание регуляторных сигналов

Имитация теплового отжигаАлгоритм

A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A

B – сигнал, отличающийся от А выбором сайта в одной последовательности

I (B) – информационное содержание B

если I (B) I (A), B принимается если I (B) < I (A), B принимается с вероятностью

P = exp [ (I(B) – I(A)) / T ]

Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р 1).

Page 32: Распознавание регуляторных сигналов

Gibbs sampler

A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A

На каждом шаге в одной последовательности выбирается новый сайт с вероятностью

P ~ exp [ (I (Anew) ]

Для каждого потенциального сайта подсчитывается, сколько раз он был выбран.

Page 33: Распознавание регуляторных сигналов

Использование свойств сигнала

ДНК-связывающие белки и их сигналы

Кооперативные однородные

Палиндромы

Кооперативные неоднородные

Кассеты

Прямые повторы

Другие

РНК-сигналы

Page 34: Распознавание регуляторных сигналов

Распознавание сайтов :весовые матрицы (профили)

W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]

Позиционные веса нуклеотидов

Вес потенциального сайта (k-мера) b1…bk – сумма соответствующих позиционных весов :

S (b1…bk) = i=1…k W (bi , j)

Page 35: Распознавание регуляторных сигналов

Распознавание сайтов : весовые матрицы (профили)

GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT

A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2

C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4

G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2

T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9

carAEscherichia coli K-12

Вес данного потенциального сайта :

S = 21,2

Page 36: Распознавание регуляторных сигналов

Распределение весовсайтов связывания рибосом

сайтыне сайты

вес

Кол-во сайтов

Page 37: Распознавание регуляторных сигналов

Оценка качества алгоритмов

Чувствительность =правильно предсказанные

все правильные

Специфичность =правильно предсказанные

все предсказанные

Трудно составить тестирующую выборку:

— неизвестные сайты— активация в определенных условиях— неспецифическое связывание

Page 38: Распознавание регуляторных сигналов

Промоторы Escherichia coli K-12

Профиль предсказывает 1 сайт на 2000 нт

Чувствительность:

– 25% на всех промоторах

– 60% на конститутивных (неактивируемых) промоторах

Page 39: Распознавание регуляторных сигналов

Эукариотические промоторы

Случайные предсказания

Page 40: Распознавание регуляторных сигналов

Сайты связывания рибосом

Надежность предсказания зависит от информационного содержания

Информационное содержание

Пр

ави

льн

о п

редс

каз

анн

ые

стар

ты т

ран

сляц

ии

%)

Page 41: Распознавание регуляторных сигналов

0102030405060708090100110

3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

ПОРОГ

OV

UN

CRP (Escherichia coli)

%

OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных)

UN = 1 – чувствительность недопредсказание (% потерянных правильных)

Page 42: Распознавание регуляторных сигналов

gene complement(120178..121551) /note="b0112" /gene="aroP" CDS complement(120178..121551) /gene="aroP" /product="aromatic amino acid transport protein" protein_bind complement(121599..121617) /bound_moiety="TyrR documented site" protein_bind complement(121622..121640) /bound_moiety="TyrR documented site" protein_bind complement(121653..121664) /bound_moiety="PutA predicted site" promoter complement(121683..121711) /note="factor Sigma70; promoter aroP; documented +1 at 121671" protein_bind complement(121810..121823) /bound_moiety="OxyR predicted site" protein_bind complement(121813..121835) /bound_moiety="ArgR predicted site"

Запись GenBank для гена aroP E. coli

aroP TyrR TyrR PutA OxyR ArgR

promoter

Page 43: Распознавание регуляторных сигналов

Что же делать ?

Выход :

филогенетическое картирование (филогенетический футпринтинг) : “правильные” сайты консервативны

Page 44: Распознавание регуляторных сигналов

Консервативная область

purL

STY CAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCGG-TGATT---------TTATTTCT-- ECO CAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATGG-TGATT---------TTATTTCC-- YPK CAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGCGGCTGTTTCTGACTGAATTATTAATAA **** *** * ** * * * * ** ** ** ***** STY -----ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTTTCCCCCC-------------- ECY -----ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCC------------- YPK TAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGTTTTGCCCTGTTGTTGCGCCAAT ***************** *** ******** ******* ** ***** *** STY -----TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT ECO -----TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT YPK GAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGATTATGGAAATACTGCGT *** * ** ** **** ************ **** * ******** ******

PurR

Page 45: Распознавание регуляторных сигналов

Менее консервативная область

yjcD

STY AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG-- ECO AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA--- YPK AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACA *** * *** * *** ***** * * **** ** ************* ** * STY -CCACCC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G ECO -CCACCC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-A YPK TCTGCCCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATG * *** * *** * ** ** ****** ******** **** * *** STY -TTGTCGTAAATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATAC ECO ATTGTCGCAAACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCT YPK AGTCAGGGAGAGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGC * * * * * * ** * * * **** * * ** * * ** STY CGACGAATAATAAATTCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACT ECO TGACGAAAATTAAACTCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACT YPK TATTTTAAAATGA-CACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCT ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ * * * * * ******* * * ****** * ** *** * * ** * **

PurR

PurR

Page 46: Распознавание регуляторных сигналов

rbsD в энтеробактериях

RbsRSTY AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN GGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC ECO AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC YPE TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** STY ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG STM ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG YPE GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** *** **** * **** ** *********** ***** *** *

Page 47: Распознавание регуляторных сигналов

Сложная ситуациясайты консервативны …

GGTTGATCGATTCACC

YPK AGCCAACAAAAAATTTTTCTTGTTGGGTTGATCGATTCACCTGTCCATAGGTTATGGATCATTGTGCT PCA GCCATGAAATCAGTTTTTTTTCATAGGTTGATCGATTCACCTGTCCATGTTCATCAAAACGCTATGCT PLU TACCTAAGAAAAAAATAATGTGTTGGGTTGATCGATTCACCTTTCTATGTGTGCGAAAACATTGTGTT SMA CTCTTAAAAACCACTTTCTTCAGTGGGTTGATCGATTCACCTTTCCATTTTCCCCAGATCAGTGTGCT STY TCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTTTAAGTATGCCA ECO GTCTTAAAAAGTAAAAAAAATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGTTAAATATGCAA * * * **** ********* * *

Сайты связывания FruR перед ppsA

Page 48: Распознавание регуляторных сигналов

Сложная ситуация… но не на выравнивании

YPK TTGGGTTGATCGATTCACCTGTCCATAGGTTA--TGGATCATTGTGCTAGTCTGAAATGGCT-GAT--TTTTCAG PCA CGATATTGG--ATTTTTACCG-CGTTAAGCAA--TCATTCGCCATGA-AATCAGTTTTTTTT-CAT-AGGTTGAT PLU TGAAACCGA--GAGT---C-GATTTTCTGCAA--AGTATACCTAAGA-AAAAAATAATGTGT-TG---GGTTGAT SMA CGATTGGGAACGGTTCCCAGGCAAATCAGCCGGTTAGGACATTCTCTTAAAAACCACTTTCTTCAGTGGGTTGAT STY CTTGAAACGCAGTTTATGCCGGGAGTGATTAA--GGGAATGCCGTGCTATGCGCGGGTTTGCGCAACTACGTAAA ECO -TTATGGTTTCGTTTATACCGATGGTTTATGT--GGAAAT-TGTCGAAGAGAGCAGATTTGCGCAACGCTGGGAT * * * * YPK CGACGATAACGGTTGTCCGTACCCTACAGACTGTTCGTCACTCGTCGGCGATGT-AATAACTAATCGACGGTGTA PCA CGATTCACCTGTCCATGTTCATCAAAACGCT-ATGCTAACCTGATTGTGTTGA------------------GGCG PLU CGATTCACCTTTCTATGTGTGCGAAAACATT-GTGTTAGTCTATTTGTGACT-------------------GCTC SMA CGATTCACCTTTCCATTTTCCCCAGATCAGT-GTGCTAGTCTGATTCGGCTC--------CGTGTTAGCGGCGCC STY CAATCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTT-TAAGTAT-GCCAGG ECO CAGTCTTAAAAAGTAAAAAAATATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGT-TAAATAT-GCAAAG * YPK ATA-ACTAATCGGCG-------ATGTAATAACTAATCGACAATGTA-AAAGGATTGTT-TCGATGTCCAACAATG PCA ---ATTCTCAACCGAACTCT---TTCATACCCTAATTGT--ATGCAGAAAGGATTATTTTCGATGTCCAATAACG PLU ----TATGCAGTGCTAATTT---CCCGATTTGTACCCAA--ATGCTAAAAGGATTGTTTT-AATGCCCAATAATG SMA GTAAAGCAAGCGAATTAAATCCGTCTTTACCCTACTGAT--A-GCAATAAGGATTGTC-TCGATGTCCAACAATG STY ATA-AATACGCAACTATGTG-TTTCTTAAACTCGTTCATTTATCACAAAAGGATTGT--TCGATGTCCAACAATG ECO ATA-AATGCGCAGAAATGTG-TTTCTCAAAC-CGTTCATTTATCACAAAAGGATTGT—-TCGATGTCCAACAATG * ********* * *************

Page 49: Распознавание регуляторных сигналов

регулируется НЕ регулируется ?

Базовый геном

Метод проверки соответствия

Геномы родственных организмов

Page 50: Распознавание регуляторных сигналов

http://genome.lbl.gov/vista/rvista/submit.shtml

Page 51: Распознавание регуляторных сигналов

rVista

Матрицы TRANSFAQ (частотные)

или консенсус

Page 52: Распознавание регуляторных сигналов

rVista

all sites

aligned sites

conserved sites

CNS = conserved non-coding sequences

Page 53: Распознавание регуляторных сигналов

rVista

Conserved sites :располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н.

Aligned sites :ключевые позиции идентичны в обеих последовательностях

All sites :все сайты : conserved+aligned+все остальные предсказанные

Page 54: Распознавание регуляторных сигналов

rVista

Page 55: Распознавание регуляторных сигналов