Распознавание регуляторных сигналов

Preview:

DESCRIPTION

Распознавание регуляторных сигналов. Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2007 года) Осенний семестр 2008. Д. А. Равчеев, М. С. Гельфанд В. Ю. Макеев (некоторые слайды). Транскрипция и трансляция в прокариотах. Эукариоты. Прокариоты. - PowerPoint PPT Presentation

Citation preview

Распознавание Распознавание регуляторных сигналоврегуляторных сигналов

Распознавание Распознавание регуляторных сигналоврегуляторных сигналов

Д. А. Равчеев, М. С. ГельфандВ. Ю. Макеев (некоторые слайды)

Факультет биоинженерии и биоинформатики МГУ

2-й курс (набор 2007 года)

Осенний семестр 2008

Транскрипция и трансляция в прокариотах

ЭукариотыПрокариоты

1. Сопряжение транскрипции и трансляции

2. Котранскрипция нескольких генов (опероны)

1.Транскрипция

2. Процессинг пре-мРНК

3. Экспорт мРНК

4.Трансляция

(синтез пре-мРНК)

– кэпирование

– сплайсингсплайсинг

– полиаденилирование

Сплайсинг ( эукариоты )

Сборка сплайсосомы

Разрез на 5’ конце интрона, образование «аркана»

Разрез на 3’ конце интрона, соединение экзонов

Транскрипция в прокариотах :Инициация транскрипции

Направление транскрипции

Старт транскрипции

Промотор

Транскрипция в прокариотах :Регуляция транскрипции

РепрессияАктивация

Структура ДНК-связывающего домена

CI, фаг

Структура ДНК-связывающего домена

Cro, фаг

Белок-ДНКовые взаимодействия

CI Cro

Регуляция транскрипции у эукариот

Один и тот же ген может регулироваться несколькими регуляторными модулями, работающими в разных условиях

Расстояние от регуляторного модуля до кодирующих областей может достигать 100 000 пар оснований

Регуляция транскрипции у эукариот

Регуляторные модули ( В. Ю. Макеев )

Консенсус

Pattern (“образец” - консенсус с вырoжденными позициями)

Матрица частот, nucleotide frequency matrix

Позиционная весовая матрица (или профиль) positional weight matrix, PWM, profile

Логические правила

РНКовые сигналы – вторичная структура

Представление сигналов

Консенсус

CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC

ACGAAAACGTTTTCGT

Сайты связывания PurR E. coli

cvpApurMpurTpurLpurEpurCpurBpurHpurA1

purA2

guaBpurR1

purR2

consensus

Образец

cvpApurMpurTpurLpurEpurCpurBpurHpurA1

purA2

guaBpurR1

purR2

consensus

pattern

CCTACGCAAACGTTTTCTTTTTGTCTCGCAAACGTTTGCTTTCCCACACGCAAACGTTTTCGTTTATCCACGCAAACGGTTTCGTCAGGCCACGCAACCGTTTTCCTTGCGATACGCAAACGTGTGCGTCTGCCGACGCAATCGGTTACCTTGAGTTGCGCAAACGTTTTCGTTACTTGAGGAAAACGATTGGCTGAATTTAAGCAAACGGTGATTTTGATAGATGCAATCGGTTACGCTCTTAAAGGCAAACGTTTACCTTGCAACGAGCAAACGTTTCCACTAC

ACGAAAACGTTTTCGT

amGAAAaCGkTTwCwT

Сайты связывания PurR E. coli

Матрица частотСайты связывания PurR E. coli

a m G A A A a C G k T T w C w Tb

A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11

Информационное содержание :

I = j b f (b, j) [log f (b, j) / p (b)]

f (b, j) – частота нуклеотида b в позиции j

p (b) – частота нуклеотида в геноме

где

Диаграмма Лого ( Logo )

Сайты связывания PurR E. coli

I = j b f (b, j) [log f (b, j) / p (b)]

Позиционная весовая матрица(профиль )

a m G A A A a C G k T T w C w T j

A 10 2 0 1 13 13 10 0 0 1 0 0 4 0 1 0C 0 8 0 12 0 0 1 13 0 0 0 0 1 11 4 2G 2 2 13 0 0 0 0 0 13 4 1 1 3 1 5 0T 1 1 0 0 0 0 2 0 0 8 12 12 5 1 3 11

A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2

C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4

G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2

T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9

W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]

A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2

C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4

G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2

T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9

Позиционная весовая матрица(профиль )

Термодинамическая мотивировка : свободная энергия

Предположение :независимость соседних позиций

Сравнение частотной и весовой матриц

 ... A ... A ... A ...... G ... G ... G ...... G ... G ... C ...... G ... C ... T ...

A 1 1 1C 0 1 1G 3 2 1T 0 0 1

Частоты

A 0,34 0,15 0,00C -0,76 0,15 0,00G 1,18 0,66 0,00T -0,76 -0,95 0,00

Веса

Начало:

Исправление ошибок

Проверка литературных данных

Удаление дубликатов

Составление выборки

GenBank специализированные банки данных (EcoCyc, RegDB) литература (обзоры) литература (оригинальные статьи)

предсказанные сайты

Первоначальное выравнивание по биологическим признакам

Выделение сигнала в скользящем окне

Перевыраванивание

и т.д. пока не сойдётся

Перевыравнивание

промоторы : старт транскрипции

участки связывания рибосом : стартовый кодон

сайты сплайсинга : экзон-интронные границы

Начала генов Bacillus subtilis

Позиционное информационное содержание до и после перевыравнивания

после

до

ОптимизацияExpectation - Maximization

Породим начальное множество профилей (например, каждый из имеющихся k-меров породит один профиль)

Матрица частот

A 0,8 -0,3 -0,3 -0,3C -0,3 0,8 -0,3 -0,3G -0,3 -0,3 0,8 -0,3T -0,3 -0,3 -0,3 0,8

Матрица (профиль) весов

k-мер : ACGT

A 1 0 0 0C 0 1 0 0G 0 0 1 0T 0 0 0 1

ОптимизацияExpectation - Maximization

Для каждого профиля :

Повторять пока не сойдётся

найти наилучшего представителя в каждой последовательности

обновить профиль

http://meme.sdsc.edu/meme/meme.html

ОптимизацияExpectation - Maximization

Недостатки метода :

Алгоритм сходится, но не может покинуть область локального максимума

Поэтому если начальное приближение было плохим, он сойдётся к ерунде

Решение: стохастическая оптимизация

Имитация теплового отжига

Цель : максимизировать информационное содержание I

или любой другой функционал, измеряющий однородность множества сайтов

I = j b f (b, j) [log f (b, j) / p (b)]

Имитация теплового отжигаАлгоритм

A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A

B – сигнал, отличающийся от А выбором сайта в одной последовательности

I (B) – информационное содержание B

если I (B) I (A), B принимается если I (B) < I (A), B принимается с вероятностью

P = exp [ (I(B) – I(A)) / T ]

Температура T медленно снижается, первоначально она такова, что почти все изменения принимаются (Р 1).

Gibbs sampler

A – текущий сигнал (множество потенциальных сайтов)I (A) – информационное содержание A

На каждом шаге в одной последовательности выбирается новый сайт с вероятностью

P ~ exp [ (I (Anew) ]

Для каждого потенциального сайта подсчитывается, сколько раз он был выбран.

Использование свойств сигнала

ДНК-связывающие белки и их сигналы

Кооперативные однородные

Палиндромы

Кооперативные неоднородные

Кассеты

Прямые повторы

Другие

РНК-сигналы

Распознавание сайтов :весовые матрицы (профили)

W (b, j) = ln [N (b, j)+0,5] – 0,25 i ln [N (i, j)+0,5]

Позиционные веса нуклеотидов

Вес потенциального сайта (k-мера) b1…bk – сумма соответствующих позиционных весов :

S (b1…bk) = i=1…k W (bi , j)

Распознавание сайтов : весовые матрицы (профили)

GCAATCTTCTTGCTGCGCAAGCGTTTTCCAGAACAGGTTAGATGATCTTTTTGTCGCT

A 1,6 -0,2 -0,8 0,0 2,5 2,5 1,6 -0,8 -0,8 -0,4 -1,1 -1,1 0,3 -1,3 -0,8 -1,2

C -1,4 1,0 -0,8 2,1 -0,8 -0,8 -0,3 2,5 -0,8 -1,5 -1,1 -1,1 -0,8 1,8 0,3 0,4

G 0,2 -0,2 2,5 -1,1 -0,8 -0,8 -1,4 -0,8 2,5 0,7 0,0 0,0 0,0 -0,2 0,5 -1,2

T -0,3 -0,7 -0,8 -1,1 -0,8 -0,8 0,2 -0,8 -0,8 1,3 2,1 2,1 0,5 -0,2 0,0 1,9

carAEscherichia coli K-12

Вес данного потенциального сайта :

S = 21,2

Распределение весовсайтов связывания рибосом

сайтыне сайты

вес

Кол-во сайтов

Оценка качества алгоритмов

Чувствительность =правильно предсказанные

все правильные

Специфичность =правильно предсказанные

все предсказанные

Трудно составить тестирующую выборку:

— неизвестные сайты— активация в определенных условиях— неспецифическое связывание

Промоторы Escherichia coli K-12

Профиль предсказывает 1 сайт на 2000 нт

Чувствительность:

– 25% на всех промоторах

– 60% на конститутивных (неактивируемых) промоторах

Эукариотические промоторы

Случайные предсказания

Сайты связывания рибосом

Надежность предсказания зависит от информационного содержания

Информационное содержание

Пр

ави

льн

о п

редс

каз

анн

ые

стар

ты т

ран

сляц

ии

%)

0102030405060708090100110

3 3,2 3,4 3,6 3,8 4 4,2 4,4 4,6 4,8 5

ПОРОГ

OV

UN

CRP (Escherichia coli)

%

OV = 1 – специфичность перепредсказание (% лишних среди всех предсказанных)

UN = 1 – чувствительность недопредсказание (% потерянных правильных)

gene complement(120178..121551) /note="b0112" /gene="aroP" CDS complement(120178..121551) /gene="aroP" /product="aromatic amino acid transport protein" protein_bind complement(121599..121617) /bound_moiety="TyrR documented site" protein_bind complement(121622..121640) /bound_moiety="TyrR documented site" protein_bind complement(121653..121664) /bound_moiety="PutA predicted site" promoter complement(121683..121711) /note="factor Sigma70; promoter aroP; documented +1 at 121671" protein_bind complement(121810..121823) /bound_moiety="OxyR predicted site" protein_bind complement(121813..121835) /bound_moiety="ArgR predicted site"

Запись GenBank для гена aroP E. coli

aroP TyrR TyrR PutA OxyR ArgR

promoter

Что же делать ?

Выход :

филогенетическое картирование (филогенетический футпринтинг) : “правильные” сайты консервативны

Консервативная область

purL

STY CAACTT-ATT-CGCAACGATAGCCGCACC--GTATGACAAGAAAAAGCGG-TGATT---------TTATTTCT-- ECO CAACTT-ATT-ACAGCCATTGGCGGCACG--CGTTGCTAATTCACGATGG-TGATT---------TTATTTCC-- YPK CAACTTTATTGCGAGCTATTTGCTGAGTCTGCGTTACACACACATAGCGGCTGTTTCTGACTGAATTATTAATAA **** *** * ** * * * * ** ** ** ***** STY -----ACGCAAACGGTTTCGTCGGCGCGTCAGATTCTTTATAATGACGGCCGTTTCCCCCC-------------- ECY -----ACGCAAACGGTTTCGTCAGCGCATCAGATTCTTTATAATGACGCCCGTTTCCCCCCC------------- YPK TAGATACGCAAACGGTTTCGTCGGCGGCTCAGATTCACTATAATGGCGCGCGTTTTGCCCTGTTGTTGCGCCAAT ***************** *** ******** ******* ** ***** *** STY -----TTGCGCACACCAAA--------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT ECO -----TTGGGTACACCGAAA-------------GCTTAGAAGACGAGAGA--CTTA--TGATGGAAATTCTGCGT YPK GAATGTTGCGCCCAATGAAGTGCTGTTCCAGCCGCTTCGAAGACGAGAGAAACTTAGATTATGGAAATACTGCGT *** * ** ** **** ************ **** * ******** ******

PurR

Менее консервативная область

yjcD

STY AAA-GCATAAAAAGCGGCAAAGTTCAGTTGAAAAAGCGTTGATGATCGCTGGATAATCGTTTGCTTTTTTTTG-- ECO AAA-GAGAAAAAAGCAGCAAACTTCGGTTGAAAAAGCCGCTATGATCGCCGGATAATCGTTTGCTTTTTTTA--- YPK AAATGTATTAAATGTCGCATTCGGGTGTTGATTAGTCACCACTGATGGCTAGATAATCGTTTGCCTTAAATGACA *** * *** * *** ***** * * **** ** ************* ** * STY -CCACCC--------GTTTTGT--------ATACGTG----GAGCTAAACGTTTGCTTTTTTGCGGCGCCCCG-G ECO -CCACCC--------GTTTTGT--------ATGCGCG----GAGCTAAACGTTTGCTTTTTTGCGACGCAGCA-A YPK TCTGCCCTAAACTTCGATTTTTTTTCAGTCATGCGTTCTCCCAGCTAATCGTTTGCTATTTTTCCCCGCTCTATG * *** * *** * ** ** ****** ******** **** * *** STY -TTGTCGTAAATGTAGC----------ACAAGGA-GATAACGTTGCGCTGTTAGTGGATTACCTCCCACGTATAC ECO ATTGTCGCAAACCTGGA----------GCAGGAA-GATAACGTTTCGCTGGCAGGGGATTGTCCGCCACGCATCT YPK AGTCAGGGAGAGTTAGTGAGTTCATCGACAGGAACGGAAACGATTACGTAGAGAAGGGCGCTTGGCTTGGCATGC * * * * * * ** * * * **** * * ** * * ** STY CGACGAATAATAAATTCTCAGGGGATGTTTTCT-ATGTCT------ACGCCTTCAGCGCGTACCGGCGGTTCACT ECO TGACGAAAATTAAACTCTCAGGGGATGTTTTCTTATGTCT------ACGCCATCAGCGCGTACCGGCGGTTCACT YPK TATTTTAAAATGA-CACACAGGGGACATCACC--ATGTCTAGCAGCAACCCTCAAGCACAGCCAAAGGGCACGCT ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ * * * * * ******* * * ****** * ** *** * * ** * **

PurR

PurR

rbsD в энтеробактериях

RbsRSTY AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN AGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC SEN GGGGTTACACTGCGG-CCAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC ECO AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC YPE TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** STY ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG STM ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG SEN ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG YPE GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** *** **** * **** ** *********** ***** *** *

Сложная ситуациясайты консервативны …

GGTTGATCGATTCACC

YPK AGCCAACAAAAAATTTTTCTTGTTGGGTTGATCGATTCACCTGTCCATAGGTTATGGATCATTGTGCT PCA GCCATGAAATCAGTTTTTTTTCATAGGTTGATCGATTCACCTGTCCATGTTCATCAAAACGCTATGCT PLU TACCTAAGAAAAAAATAATGTGTTGGGTTGATCGATTCACCTTTCTATGTGTGCGAAAACATTGTGTT SMA CTCTTAAAAACCACTTTCTTCAGTGGGTTGATCGATTCACCTTTCCATTTTCCCCAGATCAGTGTGCT STY TCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTTTAAGTATGCCA ECO GTCTTAAAAAGTAAAAAAAATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGTTAAATATGCAA * * * **** ********* * *

Сайты связывания FruR перед ppsA

Сложная ситуация… но не на выравнивании

YPK TTGGGTTGATCGATTCACCTGTCCATAGGTTA--TGGATCATTGTGCTAGTCTGAAATGGCT-GAT--TTTTCAG PCA CGATATTGG--ATTTTTACCG-CGTTAAGCAA--TCATTCGCCATGA-AATCAGTTTTTTTT-CAT-AGGTTGAT PLU TGAAACCGA--GAGT---C-GATTTTCTGCAA--AGTATACCTAAGA-AAAAAATAATGTGT-TG---GGTTGAT SMA CGATTGGGAACGGTTCCCAGGCAAATCAGCCGGTTAGGACATTCTCTTAAAAACCACTTTCTTCAGTGGGTTGAT STY CTTGAAACGCAGTTTATGCCGGGAGTGATTAA--GGGAATGCCGTGCTATGCGCGGGTTTGCGCAACTACGTAAA ECO -TTATGGTTTCGTTTATACCGATGGTTTATGT--GGAAAT-TGTCGAAGAGAGCAGATTTGCGCAACGCTGGGAT * * * * YPK CGACGATAACGGTTGTCCGTACCCTACAGACTGTTCGTCACTCGTCGGCGATGT-AATAACTAATCGACGGTGTA PCA CGATTCACCTGTCCATGTTCATCAAAACGCT-ATGCTAACCTGATTGTGTTGA------------------GGCG PLU CGATTCACCTTTCTATGTGTGCGAAAACATT-GTGTTAGTCTATTTGTGACT-------------------GCTC SMA CGATTCACCTTTCCATTTTCCCCAGATCAGT-GTGCTAGTCTGATTCGGCTC--------CGTGTTAGCGGCGCC STY CAATCTGAAAAAATGAAAAAATAAATTTGCTTGAACGATTCACCGTTTTTTTCGCGGGTT-TAAGTAT-GCCAGG ECO CAGTCTTAAAAAGTAAAAAAATATATTTGCTTGAACGATTCACCGTTTTTTTCATCCGGT-TAAATAT-GCAAAG * YPK ATA-ACTAATCGGCG-------ATGTAATAACTAATCGACAATGTA-AAAGGATTGTT-TCGATGTCCAACAATG PCA ---ATTCTCAACCGAACTCT---TTCATACCCTAATTGT--ATGCAGAAAGGATTATTTTCGATGTCCAATAACG PLU ----TATGCAGTGCTAATTT---CCCGATTTGTACCCAA--ATGCTAAAAGGATTGTTTT-AATGCCCAATAATG SMA GTAAAGCAAGCGAATTAAATCCGTCTTTACCCTACTGAT--A-GCAATAAGGATTGTC-TCGATGTCCAACAATG STY ATA-AATACGCAACTATGTG-TTTCTTAAACTCGTTCATTTATCACAAAAGGATTGT--TCGATGTCCAACAATG ECO ATA-AATGCGCAGAAATGTG-TTTCTCAAAC-CGTTCATTTATCACAAAAGGATTGT—-TCGATGTCCAACAATG * ********* * *************

регулируется НЕ регулируется ?

Базовый геном

Метод проверки соответствия

Геномы родственных организмов

http://genome.lbl.gov/vista/rvista/submit.shtml

rVista

Матрицы TRANSFAQ (частотные)

или консенсус

rVista

all sites

aligned sites

conserved sites

CNS = conserved non-coding sequences

rVista

Conserved sites :располагаются в участках последовательности, консервативность которых не менее 80% в окне 24 п.н.

Aligned sites :ключевые позиции идентичны в обеих последовательностях

All sites :все сайты : conserved+aligned+все остальные предсказанные

rVista

Recommended