55
Системная биология М.С.Гельфанд Учебно-научный центр «Биоинформатика» Институт проблем передачи информации РАН Международная школа «Биоинформатика, геномика, протеомика» Алма-Ата, Казахстан, апрель 2006

Системная биология

  • Upload
    ryder

  • View
    70

  • Download
    0

Embed Size (px)

DESCRIPTION

Системная биология. М.С.Гельфанд Учебно-научный центр «Биоинформатика» Институт проблем передачи информации РАН. Международная школа «Биоинформатика, геномика, протеомика» Алма-Ата, Казахстан, апрель 2006. Полные геномы. - PowerPoint PPT Presentation

Citation preview

Page 1: Системная биология

Системная биология

М.С.ГельфандУчебно-научный центр «Биоинформатика»

Институт проблем передачи информации РАН

Международная школа «Биоинформатика, геномика, протеомика»

Алма-Ата, Казахстан, апрель 2006

Page 2: Системная биология

Полные геномы

2

149

4

18

30

55

84

8

19

422

1

107

4321

15

0

10

20

30

40

50

60

70

80

90

1995 1996 1997 1998 1999 2000 2001 2002

•GOLD:361 полный геномВ процессе:

952 бактерий58 архей607 эукариот (в т.ч. EST)46 метагеномов

Page 3: Системная биология

46 метагеномов

• “complete”– Sargasso Sea 1600 Мб– Methane-oxidizing archaea from deep sea sediments 111 Мб– Minnesota Soil 100 Мб– Acid mine drainage (AMD) 75 Мб– Woolly mammoth 28 Мб– Whale falls 25 Мб– Antarctic Marine Bacterioplankton 12 Мб– Pleistocene Cave Bears 1 Мб– DOE Hanford Site

• “incomplete”, но с оценкой размера или опубликованые– Hawaii Ocean Times Series Station (HOT) 2000 Мб– Rice endophyte community 100 Мб– Poplar endophytic bacteria 37 Мб – Alaskan Soil 8 Мб– Pacific Beach Sand 3 Мб– Calyptogena magnifica symbiont 1.2 Мб– Biofilms in drinking-water networks

Page 4: Системная биология

Метагеномы в другом смысле

• Escherichia 5+32 + Shigella 6+5• Salmonella 5+18• Staphylococcus 17+9 (aureus 9+5)• Streptococcus 17+35

– S. pyogenes 7+7– S. pneumoniae ~7+7

• Bacillus anthracis+cereus+thuringiensis 7+22• Mycoplasma 12+16• Chlamydia 4+5 + Chlamydophyla 6+2

Page 5: Системная биология

Массовые негеномные данные

• (ко)-экспрессия• Белок-ДНКовые взаимодействия• Состав и концентрации белков• Белок-белковые взаимодействия• Одинарные и двойные мутанты

(жизнеспособность, фенотипы)• Всякие разные эксперименты (text mining)

• Много баз данных• Мало удобных средств анализа

Page 6: Системная биология

Задачи на ближайшее будущее

• Что делать с тысячами геномов?

• Что делать с метагеномами?

• Как разумно интегрировать разнообразные данные?

Page 7: Системная биология

Виды чипов (expression arrays)

• кДНКовые– ПЦР-амплификация известных генов– (можно сколь угодно либерально – брать все

сомнительные гены)– Надо учитывать альтернативный сплайсинг,

полиаденилирование, промоторы (трудно)– В зависимости от способа приготовления меченой

кДНК, можно предпочитать 3’-концы

• Выстилающие (tiling)– Весь геном – по ~30 нуклеотидов со сдвигом ~10

нуклеотидов…– … за исключением повторов, микросателлитов и т.п.

Page 8: Системная биология

Типичные задачи

• классификация измерений (например, диагностика)

• выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после)

• поиск групп ко-регулируемых генов

Page 9: Системная биология

базы данных результатов экспериментов по анализу экспрессии

• ArrayExpress http://www.ebi.ac.uk/microarray/ArrayExpress/arrayxpress.html

• Stanford Microarray Database http://genome-www5.stanford.edu/MicroArray/NDEV/index.shtml

• GEO (Gene Expression Omnibus) http://www.ncbi.nlm.nih.gov/geo/

• Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment)

Page 10: Системная биология

Развитие цветка резухи Таля

двойная кластериза

ция – на генах и на условиях

Page 11: Системная биология

Plasmodium – цикл

развития в эритроците [Bozdech et

al., 2003]

Page 12: Системная биология

белок-белковые взаимодействия

• комплексы – масс-спектрометрия

• дрожжевые двугибридные системы– GAL4– два домена: димеризационный (связывает

галактозу) и ДНК-связывающий– димер связывается с оператором– димеризационный и ДНК-связывающий

домены могут быть в разных белках (связь через тестируемые белки)

Page 13: Системная биология

ChIP-chip (chromatin immunoprecipitation)

Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences.

Page 14: Системная биология
Page 15: Системная биология

Что можно делать

• Частная биоинформатика– Функциональная аннотация– Метаболическая реконструкция– Анализ регуляторных систем

• Системная биология– Общие свойства систем: графы, сети, …

• Эволюция– Конкретных метаболических и

регуляторных подсистем– Моделирование сетей

Page 16: Системная биология

Haemophilus influenzae, 1995

Page 17: Системная биология

Vibrio cholerae, 2000

Page 18: Системная биология

Систематический анализ генов дрожжей [Kemmeren et al. 2005]

• Белок-белковые взаимодействия

• Корреляция профилей экспрессии

• Ко-локализация

• Сходство фенотипов

Page 19: Системная биология

KRE33 “killer toxin resistant”, no GO annotation

• 20 связанных генов

• 13: часть комплекса U3 snoRNP (процессинг рРНК)

• 4: метаболизм мРНК

Page 20: Системная биология

ASC1 (no annotation)

• 4 гена – процессинг рРНК• 6 факторов инициации

трансляции• Ydj1 и ZUO1 имеют домены,

гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой

• Предсказания: – Ydj1 – шаперон– ASC1 – “a role in stress-

induced misfolding”

• Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl

Page 21: Системная биология

Metabolic pathways

Page 22: Системная биология

STRING server (EMBL – Bork):

- positional clustering- fusions- phyletic patterns- co-expression- high-throughput experiments - text mining (Medline abstracts)- databases

Page 23: Системная биология

Functionally dependent genes tend to cluster on chromosomes in many different organisms

Page 24: Системная биология

More genomes (stronger links) => highly significant clustering

Page 25: Системная биология

Особенно в линейных путях (справа)

Page 26: Системная биология

Распределение уровней связи(бимодальное для изоферментов,

монотонное для субъединиц)

Page 27: Системная биология

Биосинтез ароматических аминокислот

• Синий: общие метаболиты

• Зеленый, желтый, красный: связи

Page 28: Системная биология

Путь синтеза ароматических

кислот и его окрестности с точки зрения

сравнительной геномики

Page 29: Системная биология

Метаболизм серосодержащих

аминокислот и геномные кластеры.

•Традиционные пути:

Слева и посередине: синтез цистеина

Справа: синтез метионина

Горизонтальный: one-carbon metabolism (частично)

Page 30: Системная биология

свойства сетей

• N = количество вершин• распределение степеней вершин

P(k) = вероятность того, что у случайно взятой вершины будет k ребер

• средняя длина пути между вершинами L• Коэффициент кластеризации – мера

связи между соседями данной вершины

Page 31: Системная биология

случайная сеть

• пуассоновское распределение P(k) = exp(-λ) λk / k!

• Теорема Эрдеша-Реньи: фазовый переход – возникновение гигантской компоненты

• средняя длина пути ~ log N

Page 32: Системная биология

scale-free network

• P(k) ~ k–γ – γ>3 – ничего особенного – 2<γ<3 – hubs, иерархия – γ=2 большой hub, соединенный с большой

долей вершин

• При γ<3 удаление случайной вершины не разрушает сеть, удаление hub’а – разрушает

• средняя длина пути (при 2<γ<3) ~ log log N

Page 33: Системная биология

Разные виды

графов

• Распреде-ление степеней вершин

• Коэффи-циент класте-ризации

L.Barabasi

Page 34: Системная биология

Yeast protein interaction network

• Data from the high-throughput two-hybrid experiment (T. Ito, et al. PNAS (2001) )• The full set containing 4549 interactions among 3278 yeast proteins• 87% nodes in the largest component• The highest connected protein interacts with 285 others!•Figure shows only nuclear proteins

Sergei Maslov’s web site

Page 35: Системная биология
Page 36: Системная биология

Гигантская компонента в графе белок-

белковых взаимодействий

в дрожжах

• Красный – летальная мутация

• Оранжевый – медленный рост

• Желтый – неизвестно

• Зеленый – нелетальная мутация

Page 37: Системная биология

Белок-белковые взаимодействия в дрожжах: P(k) и размеры связных

компонент

Page 38: Системная биология

Transcription regulatory network in baker’s yeast

Downloaded from the YPD database: 1276 regulations among 682 proteins by 125 transcription factors (10 regulated genes per TF)

Part of a bigger genetic regulatory network of 1772 regulations among 908 proteins

Positive to negative ratio 3:1

Broader distribution of out-degrees (up to 72) and more narrow of in-degrees (up to 21)

Page 39: Системная биология

регуляция транскрипции (дрожжи, ChIP-chip)

• A: in-degree (относительно регулируемых генов): гистограмма (в полулогарифмических координатах) количества промоторов с заданным числом регуляторов– экспоненциальное распределение (у большинства генов мало регуляторов). Пустые кружки – случайный граф

• В: out-degree (относительно факторов): гистограмма количества факторов, связывающих заданное количество промоторов – scale-free

Page 40: Системная биология

Transcription regulatory network in Homo Sapiens

Data courtesy of Ariadne Genomics obtained from the literature search: 1449 regulations among 689 proteins

Positive to negative ratio is 3:1 (again!)

Broader distribution of out-degrees (up to 95) and more narrow of in-degrees (up to 40)

Page 41: Системная биология

Transcription regulatory network in E. coli

Data (courtesy of Uri Alon) was curated from the Regulon database: 606 interactions between 424 operons (by 116 TFs)

Positive to negative ratio is 3:2 (different from eukaryots!)

Broader distribution of out-degrees (up to 85) and more narrow of in-degrees (only up to 6 !)

Page 42: Системная биология

зависимость физиологических и геномных свойств от топологии

• дрожжи:– ~10% genes with <5 links are essential– >60% genes with >15 links are essential

• гены с большим числом связей– с большей вероятностью имеют ортологов

в многоклеточных эукариотах– ближе к ортологам из C. elegans

Page 43: Системная биология

Статус гена в геноме

• PPI – количесто белок-белковых взаимодействий

• EL – уровень экспрессии• KE – летальность

нокаутов• ER – скорость эволюции• PGL – вероятность потери

в геноме• NP – количество

паралогов• GI – количество геномных

взимодействийЕ.В.Кунин

Page 44: Системная биология

party hubs и date hubs• Бимодальное

распределение корреляций уровня экспрессии– Красный: hubs– Голубой: non-hubs– Черный: случайный

граф

• Party hubs: сам и соседи ко-экспрессируются (комплексы)

• Date hub: нет корреляции в уровнях экспрессии (сигнальные пути)

Han et al., 2004

Page 45: Системная биология

Устойчивость к атаке

(распадение гигантской

компоненты)

основа сети – party hubs

• Красный: атака на party hubs

• Коричневый: атака на все хабы

• Голубой: атака на date hubs

• Зеленый: атака на случайные белки

Page 46: Системная биология

мотивы

• клики– много в графах белок-белковых

взаимодействий (масс-спек. анализ комплексов – по определению)

• подграфы фиксированной структуры, встречающиеся существенно чаще, чем в случайном графе (с теми же свойствами)

Page 47: Системная биология

Регуляторный каскад

• R – транскрипционная регуляция• Х – ко-экспрессия

Zhang et al. 2005

Page 48: Системная биология

• R – транскрипционная регуляция• Р – белок-белковое взаимодействие• Н – гомология

Page 49: Системная биология

Субъединицы факторов транскрипции

• R – транскрипционная регуляция• Р – белок-белковое взаимодействие• Н – гомология

Page 50: Системная биология

• R – транскрипционная регуляция• Р – белок-белковое взаимодействие• Х – ко-экспрессия• Н – гомология

Page 51: Системная биология

Регулоны

• R – транскрипционная регуляция• Р – белок-белковое взаимодействие• Х – ко-экспрессия• Н – гомология

Page 52: Системная биология

• Р – белок-белковое взаимодействие• Х – ко-экспрессия

Page 53: Системная биология

Ко-экспрессия в комплексах

• Р – белок-белковое взаимодействие• Х – ко-экспрессия

Page 54: Системная биология

• Почти все “bi-fan” мотивы связаны друг с другом

Регуляция транскрипции

в E.coli

Page 55: Системная биология

• Сергей Маслов Brookhaven Natl. Lab.• Леонид Мирный и Виктор Спирин, MIT• … авторы использованных работ

• РФФИ• РАН• HHMI• LICR