55
Распознавание генов Факультет биоинженерии и биоинформатики МГУ, второй набор, второй курс. Апрель 2005 М. Гельфанд (лекции) А. Неверов (задания) Е. Ермакова, Р.Нуртдинов (занятия) А. Казаков (примеры)

Распознавание генов

  • Upload
    arnon

  • View
    50

  • Download
    0

Embed Size (px)

DESCRIPTION

Распознавание генов. Факультет биоинженерии и биоинформатики МГУ, второй набор, второй курс. Апрель 2005 М. Гельфанд (лекции) А. Неверов (задания) Е. Ермакова, Р.Нуртдинов (занятия) А. Казаков (примеры). Распознавание генов. Поиск открытых рамок считывания - PowerPoint PPT Presentation

Citation preview

Page 1: Распознавание генов

Распознавание генов

Факультет биоинженерии и биоинформатики МГУ,

второй набор, второй курс.

Апрель 2005

М. Гельфанд (лекции)А. Неверов (задания)

Е. Ермакова, Р.Нуртдинов (занятия)А. Казаков (примеры)

Page 2: Распознавание генов

Распознавание генов

• Поиск открытых рамок считывания

• Использование статистики (отличия белок-кодирующих и некодирующих областей)

• Идентификация начал генов – участки связывания рибосом (прокариоты)

• Экзон-интронная структура (эукариоты)

• Сравнения с известными генами

• Геномные сравнения

Page 3: Распознавание генов

Вероятность открытой рамки считывания длины не меньше данной

0

0,0001

0,0002

0,0003

0,0004

0,0005

0,0006

0,0007

0,0008

150 200 250 300

Page 4: Распознавание генов

ORFы в геноме K. pneumoniae

Page 5: Распознавание генов

Перепред-сказание (E. coli)

Page 6: Распознавание генов

Сильное перепред-сказание

(Aeropyrum pernix)

Page 7: Распознавание генов

Поиск открытых рамок в

заданной последова-тельности

Page 8: Распознавание генов

Генетический код

TTT F TCT S TAT Y TGT C

TTC F TCC S TAC Y TGC C

TTA L TCA S TAA stop TGA stop

TTG L TCG S TAG stop TGG W

CTT L CCT P CAT H CGT R

CTC L CCC P CAC H CGC R

CTA L CCA P CAA Q CGA R

CTG L CCG P CAG Q CGG R

ATT I ACT T AAT N AGT S

ATC I ACC T AAC N AGC S

ATA I ACA T AAA K AGA R

ATG M/ start ACG T AAG K AGG R

GTT V GCT A GАT D GGT G

GTC V GCC A GАC D GGC G

GTA V GCA A GАA E GGA G

GTG V GCG A GАG E GGG G

Page 9: Распознавание генов

Codon usage (статистика употребления кодонов)

• частоты кодонов отличаются от частот триплетов в некодирующих областях– различия в частотах аминокислот в белках– различия в частотах синонимичных кодонов

• частоты синонимичных кодонов– специфичны для генома– коррелируют с концентрациями тРНК

Page 10: Распознавание генов

Ещё про codon usage

• различается у высоко- и низко-экспрессируемых генов (у высокоэкспрессируемых генов больше доля «оптимальных» кодонов) – прокариоты, дрожжи

• нестандартный у горизонтально перенесенных генов

• у фага T4 – близок к хозяйскому (E. coli) у ранних генов, специфический (соответствует своему набору тРНК) – у поздних

Page 11: Распознавание генов

Кодирующий потенциал

Функция, измеряющая, насколько участок генома похож на белок-кодирующий (и отличается от некодирующего) с точки зрения статистики

Можно вычислять кодирующий потенциал– скользящего окна (не слишком маленького!)– открытой рамки считывания

Нужна обучающая выборка генов (и межгенных промежутков) из данного организма

Page 12: Распознавание генов

E. coli. Окно 48 нт

Page 13: Распознавание генов

E. coli. Окно 96 нт

Page 14: Распознавание генов

Сравнение предсказаний при разной длине окон

Page 15: Распознавание генов

Gene-Mark

Page 16: Распознавание генов

Сигналы на границах генов

dnaN ACATTATCCGTTAGGAGGATAAAAATG

gyrA GTGATACTTCAGGGAGGTTTTTTAATG

serS TCAATAAAAAAAGGAGTGTTTCGCATG

bofA CAAGCGAAGGAGATGAGAAGATTCATG

csfB GCTAACTGTACGGAGGTGGAGAAGATG

xpaC ATAGACACAGGAGTCGATTATCTCATG

metS ACATTCTGATTAGGAGGTTTCAAGATG

gcaD AAAAGGGATATTGGAGGCCAATAAATG

spoVC TATGTGACTAAGGGAGGATTCGCCATG

ftsH GCTTACTGTGGGAGGAGGTAAGGAATG

pabB AAAGAAAATAGAGGAATGATACAAATG

rplJ CAAGAATCTACAGGAGGTGTAACCATG

tufA AAAGCTCTTAAGGAGGATTTTAGAATG

rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG

rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG

rplM AGATCATTTAGGAGGGGAAATTCAATG

Page 17: Распознавание генов

… после выравнивания

dnaN ACATTATCCGTTAGGAGGATAAAAATG

gyrA GTGATACTTCAGGGAGGTTTTTTAATG

serS TCAATAAAAAAAGGAGTGTTTCGCATG

bofA CAAGCGAAGGAGATGAGAAGATTCATG

csfB GCTAACTGTACGGAGGTGGAGAAGATG

xpaC ATAGACACAGGAGTCGATTATCTCATG

metS ACATTCTGATTAGGAGGTTTCAAGATG

gcaD AAAAGGGATATTGGAGGCCAATAAATG

spoVC TATGTGACTAAGGGAGGATTCGCCATG

ftsH GCTTACTGTGGGAGGAGGTAAGGAATG

pabB AAAGAAAATAGAGGAATGATACAAATG

rplJ CAAGAATCTACAGGAGGTGTAACCATG

tufA AAAGCTCTTAAGGAGGATTTTAGAATG

rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG

rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG

rplM AGATCATTTAGGAGGGGAAATTCAATG

cons. tacataaaggaggtttaaaaat

num. 0000000111111000000001

5755779156663678679890

Page 18: Распознавание генов

Участки связывания рибосом

Page 19: Распознавание генов

rbsD в E. coli

Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC

 

Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG

Page 20: Распознавание генов

rbsD в энтеробактериях

Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** *****  Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

Page 21: Распознавание генов

rbsD в энтеробактериях: ответ

Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCSen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCStm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGCEco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGCYpe TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** *****  Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGSen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGStm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTGEco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTGYpe GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

Page 22: Распознавание генов

Паттерн нуклеотидных заменв белок-кодирующих областях:

pdxB в энтеробактериях

Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTStm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTSen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATTEco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATTKpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATGYpe TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * *

 

Sty AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGGStm AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGSen AATTATCCTTTAAC----------CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGGEco ACGTATCCTTATAC----------CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGGKpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAGYpe ATGTTTCAGCAAATAT--------CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** **

 Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCStm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCSen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGCEco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGCKpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGTYpe CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** 123123123123123123123123123123123123123

Page 23: Распознавание генов

Белковое выравнивание (ribD)

Eco V_____QDEYYMARALKLAQRGRFTTHPNPNVGCVIVKDGEIVGEGYHQRAGEPHAEVHA QD +M RAL LA +G +TT PNP VGCV VK+GEIVGEG+H +AG+PHAE A Hin MLEFSSQDCVFMQRALDLAAKGQYTTTPNPSVGCVLVKNGEIVGEGFHFKAGQPHAERVA

Eco GCGCGCCTGGAGGACTAA----G----------CCGTGCAGGAC-GAGTATTACATGGCGCGGGCGCTAA

Hin GAAAAATTAAAGGATTAATTATGCTTGAATTTTCCTCACAAGATTGCGTATTT-ATGCAACGTGCCTTAG * * **** *** * ** ** ** * ***** *** ** ** **

Page 24: Распознавание генов

Множественное выравнивание

REC06584       109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECO04717      109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRECS04752      109 tttttatttcaggcaatcggggtgaat---------gtggcgcaggcggaagtgttgaatRTY01088        51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatRSY05814        51 tagcgcctgttttgatttatggtgaacggggttaatgtggcgcaggcggaagtgttgaatREO01497        66 atagcgcctgtttgatttcattgaattggggaaggcgtgtctacggcggaagtattgaatRYPK00397       45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYP04048        45 gccggcctgtgcagatctaatagttgggggaaaagtgtgtcgaccgcagcagtgataaacRYE04903        44 aaccggcctgtgcagatctcatagttggggaatagtgtgtcaaccgcagcagtgataaatRVFI01204        0 ........tattattgatgagttttttatgtccagcatgatcgcagagcaaccaatggaaREC06584            f  l  f  q  a  i  g  v  n  =  =  =  V  A  Q  A  E  V  L  N RECO04717           f  l  f  q  a  i  g  v  n  =  =  =  V  A  Q  A  E  V  L  N RECS04752           f  l  f  q  a  i  g  v  n  =  =  =  V  A  Q  A  E  V  L  N RTY01088            *  r  l  f  *  f  m  v  n  g  v  n  V  A  Q  A  E  V  L  N RSY05814            *  r  l  f  *  f  m  v  n  g  v  n  V  A  Q  A  E  V  L  N REO01497            i  a  p  v  *  f  h  *  i  g  e  g  V  S  T  A  E  V  L  N RYPK00397           a  g  l  c  r  s  n  s  w  g  k  s  V  S  T  A  A  V  I  N RYP04048            a  g  l  c  r  s  n  s  w  g  k  s  V  S  T  A  A  V  I  N RYE04903            n  r  p  v  q  i  s  *  l  g  n  s  V  S  T  A  A  V  I  N RVFI01204           .  .  .  i  i  d  e  f  f  m  s  s  M  I  A  E  Q  P  M  E 

Page 25: Распознавание генов

Распознавание генов в отсутствие обучающей выборки

«псевдообучающая выборка»:

• протяженные рамки считывания

• гены, предсказанные по сходству

Page 26: Распознавание генов

Репликация и статистика ДНК

• GC-сдвиг (G-C)/(G+C)• Направление транскрипции• DnaA сайты

Page 27: Распознавание генов

Эукариоты (человек)

• В среднем 9-10 экзонов (кодирующих) на ген

• Средняя длина (внутреннего) экзона 120-130 нуклеотидов

• Часто очень длинные интроны

Page 28: Распознавание генов

Длины экзонов: человек, нематода C. elegans, дрозофила

Page 29: Распознавание генов

Длины интронов

Page 30: Распознавание генов

Бета-глобин человека

Page 31: Распознавание генов

Хемотрипсин крысы

Page 32: Распознавание генов

… ничего … (28S рРНК человека)

Page 33: Распознавание генов

Статистические методы

• Скользящее окно не работает! (~ 1990)• Статистика кодирующих и некодирующих

областей + сайты сплайсинга – ещё одна вариация на тему динамического программирования

Page 34: Распознавание генов

Сайты сплайсингаDonor sitesgtgggatgatgtaagtattggggcggcccgtcaaaacaaggtaagaaatgaggtatgcctagctcccaaggtaggaggttgagtgttgtgagtggccaaggtatggtggatggaaattgctggaaaaagcgtaagtcactctaattttatctctcaaaaagtaagctttgtgagcatttcatcttcaagggtgagcatgtgtgttatgcttttcagaattgtaagagtacacattttaaggccagaaaaggtcagtactttctttcacactacctcacaggtatgaattttctagttcttatctttcaaggtagagtatatgaatgttacatgtggattcgtaagtattcaacacattcaaaaatatccagtaagcagttctgatgtttgccaggagccggtgaggggctggtgggctctaatggatgaggtgggtacttagggcttctgatttcaaaaagtaagttttccctggagaaaaatttgtagagtatccttgatttgacgaatcagacaatgggtaagtacatgcttgttcccgtctgttaaggtaggtataccccatcacaagttcaaaaaggttggtcacatgttcttgatattcggccaggtatgggtagtgtgctgagaacatatgcaggtaaacaacttaactcaaataaagaaagaggtgagagggtgttttaatttccagctccaggtaagccatctggaaagagcgtcttaacaggtaaatgccaccctttcccc

Acceptor sitesgtttcttcttacatttctaggactcaactattcacgtttttgccttccaggagacagagctttcaatatttattacccaggaccccaaatgtgttatttacatttttcaggaatggacaatttttctgcttctccaacagctatactaaattgttgtgttcacttcacagcatatatcgctccgttgttttatttcccagaatgattcaatggtttttcattgtttttagtggtgcaaaatctaacttcatttcctccaggacaaatatcgttttgttggtgttttatagctggccaactacatgtgttctcatttttaggaagtgatagctgttcttgttctcccttagcccaaagcagatgcctttcatttctattagctggaatctgctgttattaaaatttgacaggagaagctgattttttattcctacttccaggggactgctgtttgttgttgcttaactcagaaagaaataatacttaacatgatggtccagatataacaaacttgtgtttttgatactcagacctggctatttgatttattgattttctagattatttcaggtccttaatgtcctttgtaggtggttcttcgcattattctcaccttccaggctatcactaaatatctcttccctatttagatgtcatcgaaaggatatttataattttaggctgatcctgttttatcttttatattacaggttctgtaaattcatattcatttgttgcagaagtggaagc

Page 35: Распознавание генов

Распознавание сайтов сплайсинга

Page 36: Распознавание генов

Список потенциальных экзонов

Page 37: Распознавание генов

Граф динамического программирования

Page 38: Распознавание генов

Путь = экзон-интронная структура

Page 39: Распознавание генов

Gen-Scan

Page 40: Распознавание генов

Сравнительные методы

• BLASTN: ESTs и альтернативный сплайсинг

• BLASTX• BLASTX+статистика• Сравнение с известными белками • Геномные сравнения

– выравнивание ДНК– выравнивание белков

• All of the above and more…

Page 41: Распознавание генов

Семей-ство про-

грамм BLAST

Page 42: Распознавание генов

ESTs: короткие фрагменты (клонированной) мРНК

• Характерная длина ~300 нт• Ошибки секвенирования• Ошибки клонирования

– несплайсированный транскрипты– геномная ДНК

• Обогащение к 3’-концу (PolyA-праймеры)• Альтернативный сплайсинг: 30-50% генов

Page 43: Распознавание генов

Human Genome Browser – поиск

по имени гена

Page 44: Распознавание генов

Результат

Page 45: Распознавание генов

MAGE-C1

Page 46: Распознавание генов

Ещё о сравнении предсказаний

Page 47: Распознавание генов

Альтернативный сплайсинг генов человека

5% Sharp, 1994 (Nobel lecture)

35% Mironov-Fickett-Gelfand, 1999 (BGRS’98)

38% Brett-…-Bork, 2000 (ESTs/mRNA)

22% Croft et al., 2000 (ISIS database)

55% Kan et al., 2001 (11% AS patterns conserved in mouse ESTs)

42% Modrek et al., 2001 (HASDB)

~33% CELERA, 2001

59% Human Genome Consortium, 2001 28% Clark and Thanaraj, 2002

more?

Page 48: Распознавание генов

MAGE-A2

Page 49: Распознавание генов

GenomeScan=GenScan+BLASTX

Page 50: Распознавание генов

Сплайсированное выравнивание

Сравнение (формально транслированной) ДНК с аминокислотной последовательностью родственного белка.

• Динамическое программирование, дополнительная операция – интрон– Только на потенциальных сайтах сплайсинга– Небольшой штраф– Учёт особенностей экзон-интронной структуры

– минимальная длина интрона (зависит от генома)

Page 51: Распознавание генов

VISTA (human-dog-mouse)

Page 52: Распознавание генов

Сплайсированое выравнивание геномных последовательностей

Page 53: Распознавание генов

Другие возможности

Page 54: Распознавание генов

Человек-мышь

(мульти-генное

семейство)

Page 55: Распознавание генов

Ткане-специфич-

ная экспрессия