Upload
tierra
View
46
Download
0
Embed Size (px)
DESCRIPTION
Сравнительная геномика и функциональная аннотация генов и геномов 24. III .2009 , ИМБ. М.С.Гельфанд. Экспоненциальный рост объема данных. красный – статьи (PubMed) синий – последовательности (GenBank) зеленый – объем в нуклеотидах (GenBank). - PowerPoint PPT Presentation
Citation preview
Сравнительная геномика и
функциональная аннотация генов и
геномов
24.III.2009, ИМБ
М.С.Гельфанд
Экспоненциальный рост объема данных
красный – статьи (PubMed)синий – последовательности (GenBank)зеленый – объем в нуклеотидах
(GenBank)
100
1000
10000
100000
1000000
10000000
100000000
1000000000
10000000000
100000000000
1982 1987 1992 1997 2002 2007
из 18 миллионов ссылок, ~675 тыс. отвечают на “bioinformat* OR comput*”16 тыс. “bioinformat*”65 тыс. “bioinformat* OR computat*”
622 полных генома (прокариот)
3 3 6 6 719 25 30
4866
81
142
186
0
20
40
60
80
100
120
140
160
180
200
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
Цель аннотации
• Что– функция
• Когда– Регуляция
• Экспрессии• Время жизни
• Где– Локализация
• Внутри/снаружи• Органеллы и компартменты
• Как– Механизм
• Специфичность, регуляция
Поиск похожих последовательностей
с известными функциями
Characterizedexperimentally
“Hypothetical”
Function inferredby similarity only
“Conserved hypothetical”
How much do we know about the Escherichia coli proteome?
Перепредсказания
SOURCE Methanococcus jannaschii. ORGANISM Methanococcus jannaschii Archaea; Euryarchaeota; Methanococcales; Methanococcaceae; Methanococcus.
FEATURES Location/Qualifiers source 1..492 /organism="Methanococcus jannaschii" /db_xref="taxon:2190" Protein 1..492
/product="sodium-dependent noradrenaline transporter" CDS 1..492 /gene="MJ1319" /note="similar to EGAD:HI0736 percent identity: 38.5;
identified by sequence similarity; putative" /coded_by="U67572:71..1549" /transl_table=11
Now corrected: Hypothetical sodium-dependent transporter MJ1319.
Анекдоты
• C75604: Probable head morphogenesis protein,Deinococcus radiodurans
• Q8TID9: Benzodiazepine (valium) receptor TspO,Methanosarcina acetivorans
• NP_069403: DR-beta chain MHC class II,Archaeoglobus fulgidus
Ошибки в экспериментальных статьях
SwissProt:
DEFINITION Hypothetical 43.6 kDa protein.ACCESSION P48012
...
KEYWORDS Hypothetical protein.
SOURCE Debaryomyces occidentalis
ORGANISM Debaryomyces occidentalis
Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;
Saccharomycetales; Saccharomycetaceae; Debaryomyces.
[CAUTION] Was originally (Ref.1) thought to be 3-isopropylmalate dehydrogenase (LEU2).
PIR:DEFINITION 3-isopropylmalate dehydrogenase (EC 1.1.1.85)
- yeast(Schwanniomyces occidentalis).
ACCESSION S55845
KEYWORDS oxidoreductase.
SwissProt: DSDX_ECOLI
-!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to the wrong DNA strand and thought to be a D-serine deaminase activator, it was then resequenced by Ref.2 and still thought to be "dsdC", but this time to function as a D-serine permease. It is Ref.1 that showed that dsdC is another gene and that this sequence should be called dsdX. It should also be noted that the C-terminal part of dsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) and was thought to be a separate ORF (don't worry, we also had difficulties understanding what happened!).
SwissProt: DSDX_ECOLI
-!- CAUTION: An ORF called dsdC was originally (Ref.3) assigned to the wrong DNA strand and thought to be a D-serine deaminase activator, it was then resequenced by Ref.2 and still thought to be "dsdC", but this time to function as a D-serine permease. It is Ref.1 that showed that dsdC is another gene and that this sequence should be called dsdX. It should also be noted that the C-terminal part of dsdX (from 338 onward) was also sequenced (Ref.6 and Ref.7) and was thought to be a separate ORF (don't worry, we also had difficulties understanding what happened!).
Другие источники информации (для предсказания чего-то нового)
• Много геномов => можем использовать слабые соображения:– Ко-локализация (в геноме):
позиционные кластеры– Ко-локализация (геномах):
филогенетические паттерны
• «Омики»:– Транскриптомика– Протеомика– Интерактомика
STRING: trpB –
позицион-ные
кластеры
STRING: trpB –
филогене-
тические паттерны
STRING: trpB summary
Новый универсальный фактор транскрипции
Консервативный мотив перед генами рибонуклеотид-редуктаз (nrd) в бактериальных
геномах
Идентификация фактора транскрипции
• Филогенетический паттерн: список геномов, в которых присутствует/отсутствует обнаруженный сигнал=> единственный ген с таким паттерном – ybaD (COG1327)– “макроуровень” – большие таксоны– “микроуровень” – в «смешанных» таксонах:
• отсутствует в геномах паразитов в группах альфа- и гамма-протеобактерий
• отсутствует в Desulfovibrio spp. среди дельта-протеобактерий
• отсутствует в Nostoc sp. среди цианобактерий• отсутствует в Oenococcus и Leuconostoc среди Firmicutes• присутствует только в Treponema denticola среди
четырех спирохет
• COG1327: Гипотетический регулятор транскрипции, содержащий домены цинковая лента (ДНК- и РНК-связывающий) и АТФ-конус
Bork, Koonin:YbaD=RibX, регулятор биосинтеза рибофлавина?
Состав регулона
• ген nrdR иногда образует (потенциальные) опероны с генами nrd genes или с генами репликации dnaB, dnaI, polA
• потенциальные сайты связывания NrdR обнаружены перед другими генами, связанными с репликацией:– топоизомераза I– инициатор репликации dnaA– разделение (partitioning)
хромосом– ДНК-хеликаза II
– ре-утилизация (salvage) dNTP
dNTP
DNA RNA
dNDP NDP
dNM P NM P
NMP/dNMP kinase
dN kinase
PnuC-liketransporter
NDP/dNDP kinase
dN
dN
N
NTPRNR
Множественные сайты (гены nrd): FNR, DnaA, NrdR
Механизм регуляции
• репрессор – сайты перекрываются с промоторами
• кооперативное связывание:– >90% генов имеет парные сайты– расстояние между сайтами (центрами
палиндромов) равно целому числу витков спирали ДНК
• как правило (94%) 30-33 пн, в 84% случаев 31-32 пн – 3 витка
• в Vibrio spp. 21 пн (2 витка) • в некоторых фирмикутах 41-42 пн (4 витка)
Экспериментальное подтверждение
Транспортеры
• Два основных класса– АТФ-зависимые
• Трансмембранный белок (пермеаза)
• АТФаза• Субстрат-связывающий
(периплазматический) белок– Вторичные (симпортеры,
антипортеры)
• Сложный эксперимент (по сравнению с ферментами)
• Относительно легко идентифицировать
• Сложно предсказать специфичность
H+
Разнообразие специфичностей в семействе транспортеров никеля и
олигопептидов (субстрат-связывающий белок NikA)
Семейство транспортеров кофакторов PnuC
Функциональный анализ транспортеров
• Предсказание общей функции– гомология (сходство с известными
транспортерами)– анализ трансмембранных сегментов
• Отнесение к функциональной подсистеме (метаболическому пути)– ко-локализация– ко-регуляция
• Предсказание специфичности– анализ филогенетического профиля
• конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез)
• промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению»
• исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует
Биосинтез рибофлавина
ribAribA
ribA ribB
G TP cyclohydrolase II
ribD
ribD
ribG
ribG
P yrim id ine deam inase
3,4-D HB P synthase P yrim id ine reductase
ribHribH R ibo flavin synthase, -cha in
ribEribB
ypaA
R ibo flavin synthase, -chain
GTP
2,5-diam ino-6-hydroxy-4-(5`-phosphoribosylamino)pyrim idine
ribulose-5-phosphate
PENTOSE-PHOSPHATE PATHWAY
PU RINE BIO SYNTHESIS PATHWAY
3,4-dihydroxy-2-butanone-4-phosphate 5-am ino-6-(5`-phosphoribitylam ino)uracil
5-am ino-6-(5`-phosphoribosylamino)uracil
6,7-dimethyl-8-ribityllumazine
Riboflavin
5’-области генов синтеза рибофлавина 1 2 2’ 3 Add. 3’ Variable 4 4’ 5 5’ 1’
=========> ==> <== ===> -><- <=== -> <- ====> <==== ==> <== <========= BS TTGTATCTTCGGGG-CAGGGTGGAAATCCCGACCGGCGGT 21 AGCCCGTGAC-- 8 4 8 -----TGGATTCAGTTTAA-GCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAT BQ AGCATCCTTCGGGG-TCGGGTGAAATTCCCAACCGGCGGT 19 AGTCCGTGAC-- 8 5 8 -----TGGATCTAGTGAAACTCTAGGGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATATG BE TGCATCCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGATCCGGTGCGATTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGGATGCC HD TTTATCCTTCGGGG-CTGGGTGGAAATCCCGACCGGCGGT 19 AGTCCGTGAC-- 10 4 10 ----–TGGACCTGGTGAAAATCCGGGACCGACAGTGAA-AGTCTGGAT-GGGAGAAGGAAACG Bam TGTATCCTTCGGGG-CTGGGTGAAAATCCCGACCGGCGGT 23 AGCCCGTGAC-- 8 4 8 ----–TGGATTCAGTGAAAAGCTGAAGCCGACAGTGAA-AGTCTGGAT-GGGAGAAGGATGAG CA GATGTTCTTCAGGG-ATGGGTGAAATTCCCAATCGGCGGT 2 AGCCCGCAA--- 3 4 3 ------AGATCCGGTTAAACTCCGGGGCCGACAGTTAA-AGTCTGGAT-GAAAGAAGAAATAG DF CTTAATCTTCGGGG-TAGGGTGAAATTCCCAATCGGCGGT 2 AGCCCGCG---- 7 6 7 --------ATTTGGTTAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GGAAGAAGATATTT SA TAATTCTTTCGGGG-CAGGGTGAAATTCCCAACCGGCAGT 6 AGCCTGCGAC-- 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGTTAA-AGTCTGGAT-GGGAGAAAGAATGT LLX ATAAATCTTCAGGG-CAGGGTGTAATTCCCTACCGGCGGT 2 AGCCCGCGA--- 4 4 4 -----ATGATTCGGTGAAACTCCGAGGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAATA PN AACTATCTTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 2 AGCCCACGA--- 3 4 3 -----ATGATTTGGTGAAATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAAGATAAAA TM AAACGCTCTCGGGG-CAGGGTGGAATTCCCGACCGGCGGT 3 AGCCCGCGAG-- 5 4 5 ----–TTGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAGAGCGTGA DR GACCTCTTTCGGGG-CGGGGCGAAATTCCCCACCGGCGGT 15 AGCCCGCGAA-- 8 12 9 ----–CCGATGCCGCGCAACTCGGCAGCCGACGGTCAC-AGTCCGGAC-GAAAGAAGGAGGAG TQ CACCTCCTTCGGGG-CGGGGTGGAAGTCCCCACCGGCGGT 3 AGCCCGCGAA-- 5 4 5 -----CCGACCCGGTGGAATTCCGGGGCCGACGGTGAA-AGTCCGGAT-GGGAGAAGGAGGGC AO AATAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGCGGT 2 AGTCCGCGA--- 7 7 7 -----AGGAACCGGTGAGATTCCGGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGATGAAA DU TTTAATCTTCAGGG-CAGGGTGAAATTCCCGATCGGTGGT 2 AGTCCGCGA--- 13 4 12 -----AGGAACTAGTGAAATTCTAGTACCGACAGT-AT-AGTCTGGAT-GGAAGAAGAGCAGA CAU GAAGACCTTCGGGG-CAAGGTGAAATTCCTGATCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGACCCGGTGTGATTCCGGGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTCGGC FN TAAAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGTGGT 2 AGTCCACG---- 5 4 5 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GGGAGAAGAATTAG TFU ACGCGTGCTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT 3 AGTCCGCGAC-- 8 5 8 -----TGGAACCGGTGAAACTCCGGTACCGACGGTGAA-AGTCCGGAT-GGGAGGTAGTACGTG SX -AGCGCACTCCGGG-GTCGGTGAAAGTCCGAACCGGCGGT 3 AGTCCGCGAC-- 8 5 8 -----TTGACCAGGTGAAATTCCTGGACCGACGGTTAA-AGTCCGGAT-GGGAGGCAGTGCGCG BU GTGCGTCTTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT 30 AGCCCGCGAGCG 137 GTCAGCAGATCTGGTGAGAAGCCAGAGCCGACGGTTAG-AGTCCGGAT-GGAAGAAGATGTGC BPS GTGCGTCTTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 21 AGCCCGCGAGCG 8 4 8 GTCAGCAGATCTGGTCCGATGCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGATGTGC REU TTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 31 AGCCCGCGAGCG 7 5 7 GTCAGCAGATCTGGTGAGAGGCCAGGGCCGACGGTTAA-AGTCCGGAT-GAAAGAAGATGGGC RSO GTACGTCTTCAGGG-CGGGGTGGAATTCCCCACCGGCGGT 21 AGCCCGCGAGCG 11 3 11 GTCAGCAGATCCGGTGAGATGCCGGGGCCGACGGTCAG-AGTCCGGAT-GGAAGAAGATGTGC EC GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 17 AGCCCGCGAGCG 8 4 8 GACAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAG-AGTCCGGAT-GGGAGAGAGTAACG TY GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 67 AGCCCGCGAGCG 8 3 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGGGTAACG KP GCTTATTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 20 AGCCCGCGAGCG 8 4 8 GTCAGCAGATCCGGTGTAATTCCGGGGCCGACGGTTAA-AGTCCGGAT-GGGAGAGAGTAACG HI TCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 2 AGCCCACGAGCG 26 9 30 GTCAGCAGATTTGGTGAAATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAAAGAGAATAAAA VK GCGCATTCTCAGGG-CAGGGTGAAATTCCCTACCGGTGGT 14 AGCCCACGAGCG 11 9 11 GTCAGCAGATTTGGTGAGAATCCAAAGCCGACAGT-AT-AGTCTGGAT-GAAAGAGAATAAGC VC CAATATTCTCAGGG-CGGGGCGAAATTCCCCACCGGTGGT 13 AGCCCACGAGCG 5 4 5 GTCAGCAGATCTGGTGAGAAGCCAGGGCCGACGGTTAC-AGTCCGGAT-GAGAGAGAATGACA YP GCTTATTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 40 AGCCCGCGAGCG 16 6 16 GTCAGCAGACCCGGTGTAATTCCGGGGCCGACGGTTAT-AGTCCGGAT-GGGAGAGAGTAACG AB GCGCATTCTCAGGG-CAGGGTGAAAGTCCCTACCGGTGGT 25 AGCCCACGAGCG 16 4 27 GTCAGCAGATTTGGTGCGAATCCAAAGCCGACAGTGAC-AGTCTGGAT-GAAAGAGAATAAAA BP GTACGTCTTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 18 AGCCCGCGAGCG 10 4 10 GTCAGCAGACCTGGTGAGATGCCAGGGCCGACGGTCAT-AGTCCGGAT-GAGAGAAGATGTGC AC ACATCGCTTCAGGG-CGGGGCGTAATTCCCCACCGGCGGT 16 AGCCCGCGAGCA 10 3 11 ---CGCAGATCTGGTGTAAATCCAGAGCCGACGGT-AT-AGTCCGGAT-GAAAGAAGACGACG Spu AACAATTCTCAGGG-CGGGGTGAAACTCCCCACCGGCGGT 34 AGCCCGCGAGCG 6 6 6 GTCAGCAGATCTGGTG 52 TCCAGAGCCGACGGT 31 AGTCCGGAT-GGAAGAGAATGTAA PP GTCGGTCTTCAGGG-CGGGGTGTAAGTCCCCACCGGCGGT 13 AGCCCGCGAGCG 7 3 7 GTCAGCAGATCTGGTGCAACTCCAGAGCCGACGGTCAT-AGTCCGGAT-GAAAGAAGGCGTCA AU GGTTGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 17 AGCCCGCGAGCG 7 9 7 GTCAGCAGATCCGGTGAGAGGCCGGAGCCGACGGT-AT-AGTCCGGAT-GGAAGAGGACAAGG PU AAACGTTCTCAGGG-CGGGGTGCAATTCCCCACCGGCGGT 19 AGCCCGCGAGCG 19 4 18 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAC-AGTCCGGATGAAGAGAGAACGGGA PY TAACGTTCTCAGGG-CGGGGTGCAACTCCCCACCGGCGGT 19 AGCCCGCGAGCG 15 4 16 GTCAGCAGACCCGGTGTGATTCCGGGGCCGACGGTCAT-AGTCCGGATGAAGAGAGAGCGGGA PA TAACGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 19 AGCCCGCGAGCG 14 4 13 GTCAGCAGACCCGGTGCGATTCCGGGGCCGACGGTCAT-AGTCCGGATAAAGAGAGAACGGGA MLO TAAAGTTCTCAGGG-CGGGGTGAAAGTCCCCACCGGCGGT 16 AGCCCGCGAGCG 8 5 8 GTCAGCAGATCCGGTGTGATTCCGGAGCCGACGGTTAG-AGTCCGGAT-GAAAGAGGACGAAA SM AAGCGTTCTCAGGG-CGGGGTGAAATTCCCCACCGGCGGT 34 AGCCCGCGAGCG 8 3 8 GTCAGCAGATCCGGTCGAATTCCGGAGCCGACGGTTAT-AGTCCGGAT-GGAAGAGAGCAAGC BME GCTTGTTCTCGGGG-CGGGGTGAAACTCCCCACCGGCGGT 17 AGCCCGCGAGCG 10 15 10 GTCAGCAGATCCGGTGAGATGCCGGAGCCGACGGTTAA-AGTCCGGAT-GGAAGAGAGCGAAT BS ATCAATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT 18 AGCCCGCGA--- 5 4 5 -----AGGATTCGGTGAGATTCCGGAGCCGACAGT-AC-AGTCTGGAT-GGGAGAAGATGGAG BQ GTCTATCTTCGGGG-CAGGGTGAAAATCCCGACCGGCGGT 27 AGCCCGCGA—-- 3 5 3 -----AGGATTTGGTGTGATTCCAAAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG BE ATTCATCTTCGGGG-CAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCGA--- 3 4 3 -----AGGATCCGGTGCGAGTCCGGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGAAG CA AATGATCTTCAGGG-CAGGGTGAAATTCCCTACCGGCGGT 2 AGCCCGCGAG-- 3 4 3 ----TATGATCCGGTTTGATTCCGGAGCCGACAGT-AA-AGTCTGGAT-GAAAGAAGATATAT DF GAAGATCTTCGGGG-CAGGGTGAAATTCCCTACCGGCGGT 2 AGCCCGCG---- 6 4 6 -------GATTTGGTGAGATTCCAAAGCCGACAGT-AA-AGTCTGGAT-GAGAGAAGATATTT EF GTTCGTCTTCAGGGGCAGGGTGTAATTCCCGACCGGTGGT 3 AGTCCACGAC-- 5 3 5 ----ATTGAATTGGTGTAATTCCAATACCGACAGT-AT-AGTCTGGAT—-AAAGAAGATAGGG LLX AAATATCTTCAGGG-CACCGTGTAATTCGGGACCGGCGGT 21 ACTCCGCGAT-- 4 4 4 ----–TTGAAGCAGTGAGAATCTGCTAGCGACAGT-AA-AGTCTGGAT-GGAAGAAGATGAAC LO GTTCATCTTCGGGG-CAGGGTGCAATTCCCGACCGGTGGT 3 AGTCCACGAT-- 3 10 3 ----TTGACTCTGGTGTAATTCCAGGACCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGTTG PN AAGAGTCTTCAGGG-CAGGGTGAAATTCCCGACCGGCGGT 125 AGTCCGTG---- 3 4 3 -------GATGTGGTGAGATTCCACAACCGACAGT-AT-AGTCTGGAT-GGGAGAAGACGAAA ST AAGTGTCTTCAGGG-CAGGGTGTGATTCCCGACCGGCGGT 14 AGTCCGCG---- 3 4 3 -------GATGTGGTGTAACTCCACAACCGACAGT-AT-AGTCTGGAT-GAGAGAAGACCGGG MN AAGTGTCTTCAGGG-CAGGGTGAGATTCCCGACCGGCGGT 104 AGTCCGCG---- 3 4 3 -------GATGTGGTGAAATTCCACAACCGACAGT-AA-AGTCTGGAT-GGGAGAAGACTGAG SA ATTCATCTTCGGGG-TCGGGTGTAATTCCCAACCGGCAGT 6 AGCCTGCGAC-- 11 3 11 ----–CTGATCTAGTGAGATTCTAGAGCCGACAGT-AT-AGTCTGGAT-GGGAGAAGATGGAG AMI TCACAGTTTCAGGG-CGGGGTGCAATTCCCCACTGGCGGT 14 AGCCCGCGC--- 5 5 5 ------TGATCTGGTGCAAATCCAGAGCCAACGGT-AT-AGTCCGGAT-GGAAGAAACGGAGC DHA ACGAACCTTCGAGG-TAGGGTGAAATTCCCGACCGGCGGT 20 AGCCCGCAAC-- 11 4 11 --CGACTGACTTGGTGAGACTCCAAGGCCGACGGT-AT-AGTCCGGAT-GGGAGAAGGTACAA FN AATAATCTTCGGGG-CAGGGTGAAATTCCCGACCGGTGGT 2 AGTCCACG---- 4 6 4 -------GATTTGGTGAAATTCCAAAACCGACAGT-AG-AGTCTGGAT-GAGAGAAGAAAAGA GLU ---TGTTCTCAGGG-CGGGGCGAAATTCCCCACCGGCGGT 28 AGCCCGCGAGCG 10 4 10 GTCAGCAGATCCGGTTAAATTCCGGAGCCGACGGTCAT-AGTCCGGAT-GCAAGAGAACC---
RFN, вторичная структура
NNNNyYYUC
NNNNrRRAG
NgGGNcCC
rgGGxc
ARRgxuAG
GRCCYG
AcCG
AGCCRGY
GG YRCC
GRYBy CYRVrG N
YGNaA N U U x N
Nx
AGU
UrN A g
Y
variab lestem -loop
additionalstem -loop
3 4
2
1
5
5 ’ 3 ’
u K NRA
xK
*
****
Capitals: invariant (absolutely conserved) positions.
Lower case letters: strongly conserved positions.
Dashes and stars: obligatory and facultative base pairs
N: any nucleotide. X: any nucleotide or deletion
Регуляторный механизм
Transcription attenuation
Translation attenuation
YpaA/RibU: транспортёр рибофлавина
• 5 предсказанных ТМ-сегментов => потенциальный транспортёр
• регуляторный RFN-элемент => ко-регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника
• S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина
Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999)
Проверка:• генетический анализ
(Кренева и др., 2000)
• биохимический эксперимент (Burgess et al., 2006)
Биотиновый транспортер
BioY
• Идентификация:– ко-локализация– ко-регуляция– филогенетическ
ие паттерны
• Дополнительные компоненты– АТФаза(?) bioM – Пермеаза(?) bioN
Предсказание и подтверждение
Биосинтез тиамина
= thiN (confirmed)
(Gram-positive bacteria)
(Gram-negative bacteria)
Transport of HMPTransport of HET
yuaJ(=thiT): транспортер тиамина
• 6 предсказанных TM-сегментов• Регуляция РНК-переключателями THI • Streptococci: есть ThiT, нет тиаминового пути
• Регуляция РНК-переключателями THI• Никогда не встречается в геномах, не
имеющего тиаминового пути• Встречается только вместе с thiD и thiE• Иногда встречается в геномах без thiC
ykoFEDC: АТФ-зависимый транспортер
Co и Ni
• ко-локализация (хромосомные локусы)– транспортеры Ni –
с генами никель-зависимых ферментов
– транспортеры Co – с генами синтеза кобаламина
• ко-регуляция– транспортеры Ni –
фактор транскрипции NikR
– транспортеры Co – рибопереключатель В12
A
A
A
AA
AA
CGd
a
aa
a
a
ktk
h
CC
c
C
C
GG
G
GGG
G
GT
M
Y
K
y
c
c G
g
g G
G
G YG
tg
g
g
gN
RN
N
NN
r
r
r
g
g C
c
c T
C
C G
CC
a
ta N
B 12 box
P 0
5' 3'
P 1
P 4 V S
B I IB I
P 5 P 6
P 2
N
A dd- I
F acultative stem- loop
A dd- I I
The group
Bacillus/Clostridium
Other taxonomic groups
-proteobacteria
base stem
CGh
G
d
yc c
C C
P 3
Структура локусов
B12 riboswitch NikR binding sitegenes
Пять семейств транспортеров
Новое семейство транспортеров Co и Ni
NikM
CbiMNi2+
Co2+
+ CbiN
+ NikL, NikK
+ NikN
+ NikL
Дмитрий Родионов Thomas Eitinger
Предсказанные специфичности правильны
Co Co
Co
Ni
Ni
Ni
Структура: слишком много компонентов
Биотиновый
транспортер BioY
• АТФаза BioM ~ CbiO = NikO
• Пермеаза BioN ~ CbioQ = NikQ
Для транспорта достаточно компонент МN (АТФаза и пермеаза не обязательны – первый пример такого
транспортера)
cbiMNQO
cbiMNQ
cbiMN
cbiM
контроль
BioY тоже достаточно(даже в геномах, содержащих
BioMN; у BioMNY более крутая кинетика
Вершина айсберга?
Экспериментальные подтверждения
RibU: рибофлавин ThiT: тиамин FolT: фолат (ср. BioY)
Унивесальное
«заряжающее
устройство» +
специфи-ческие
компоненты
• Дмитрий Родионов– регуляция транскрипции– метаболическая реконструкция– идентификация транспортеров
• Алексей Витрещак– РНК-переключатели
• А.А. Миронов– программы
• Томас Хеббельн (Берлин) – Cо, Ni, биотин
• Андрей Остерман (Сан Диего) – рибофлавин
• Эндрю Хансон (Флорида) – тиамин• Дирк Слотблум (Гронинген) – фолат
• HHMI• РФФИ• «Молекулярная и клеточная биология»
(РАН)