331
Реконструкция генома: пазл с миллиардом частей Филлип Компо и Павел Певзнер, Калифорнийский университет, Сан- Диего

Guests 2011-10-04-pevzner-assembly

Embed Size (px)

Citation preview

Page 1: Guests 2011-10-04-pevzner-assembly

Реконструкция генома:пазл с миллиардом частей

Филлип Компо и Павел Певзнер,Калифорнийский университет, Сан-Диего

Page 2: Guests 2011-10-04-pevzner-assembly

Вопрос Номер 1: Кто Эти Люди?

Page 3: Guests 2011-10-04-pevzner-assembly

Содержание

1. Введение в секвенирование генома

2. Задача о газете

3. ДНК-чипы: первая попытка секвенирования короткими ридами

4. Два математических обхода

5. Введение в теорию графов

6. Теорема Эйлера

7. Эйлеров цикл против гамильтонова цикла и алгоритмическая сложность

8. От Эйлера и Гамильтона — к сборке фрагментов

9. Де Брюйн и итоговое решение для сборки фрагментов

10. Обобщая сборку фрагментов

Page 4: Guests 2011-10-04-pevzner-assembly

Часть 1: Введение в секвенирование генома

Page 5: Guests 2011-10-04-pevzner-assembly

Что такое секвенирование генома?

• Геном можно рассматривать как книгу, написанную при помощи алфавита, содержащего лишь 4 буквы — это нуклеотиды: A, T, G и C.

• В человеческом геноме содержится около 3 миллиардов нуклеотидов.

• Секвенирование генома — процесс выявления последовательности нуклеотидов, составляющих геном.

...CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCGGGACTATTATCGACTACAGATAAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATATAGCCGAGCGGCTACGATGATGCTAGCTGTACAGCTGATGATCTAGCTATCGATGCGATCGATGCGCGAGTGCGATCGATCACTTCGAGCTAGCTGATCGATCGATGCTAGCTAGCTGACTGATCATGGCGTTAGCTAGCTAGCTGATCGTCGATCGTACGTAGCTGATTACGATCGTCCGATCGTGCTATGACGTACGAGGCGGCTACGTAGCATGCTAGCTGACTGATGTAGCTAGCTATACGATACTATATATTCGATCGATTTATTACCATGACTGACGCGCATCGCTGTACACGTACTAGCTGATCGATGCTAGTCGATCGATCGATCATGTTATATATCGCGGCGCATCGATCGACTGCTCGATTATCGATACGTCGATCGCTGTATATACGTCTTTATAGCTAGGAGCATAGCGACGCGCTATCGATCGATCGTCTAGTCGACTGATCGTACTAGCTGACGCTGACGACTAGCTAGCTATCGACGATCGTAGTGCGATTACTAGCTAGGATCCTACTGTACGTCAGTCAGTCTGATCGATAGCGAGGAAAGCGAGACTGATCGTTCTCTAGATGTAGCTGATGTGACTACTATACTACTGGCAGCGATCGGGA…

Page 6: Guests 2011-10-04-pevzner-assembly

Что такое секвенирование генома?

• Разные люди имеют слегка различные геномы: у всех людей общие 99.9% генетического кода.

• Разница в 0.1% касается роста, цвета глаз, склонности к высокому уровню холестерина и т. д.

CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCGGGACTATTATCGACTACAGATAAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGAT

CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACAACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCGTGACTATTATCGACTACAGATGAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGAT

Page 7: Guests 2011-10-04-pevzner-assembly

Видовое и индивидуальное секвенирование

• Видовое секвенирование: определить «общий геном» всего вида.

Page 8: Guests 2011-10-04-pevzner-assembly

Видовое и индивидуальное секвенирование

• Индивидуальное секвенирование: определить, насколько индивидуум отличается от вида.

Page 9: Guests 2011-10-04-pevzner-assembly

Видовое cеквенирование генома:

• Сравнить различные виды (например, человек и шимпанзе), чтобы понять, как функционируют их гены(например, какие геныважны для развитияголовного мозга).

• Выявить эволюционноеродство между видами.

• Определить генетический состав нашихэволюционных предков.

Зачем мы хотим секвенировать геном?

Page 10: Guests 2011-10-04-pevzner-assembly

Зачем мы хотим секвенировать геном?

Индивидуальное секвенирование генома:

• Открытие генетической основы многих заболеваний;

• Судебные исследования.

Пример: в 2010 г. 6-летний Николас Волкер стал первым человеком,которого удалось спасти благодаря секвенированию генома.

• Доктора не могли диагностировать его состояние, вызывавшее странные инфекции; он побывал в сотне врачебных кабинетов.

• Последовательность генома выявила редкуюмутацию в гене, ведущую к дефекту в егоиммунной системе.

• Это подтолкнуло врачей к использованиюболее глубокой иммунотерапии,что и спасло ребёнка.

Page 11: Guests 2011-10-04-pevzner-assembly

Краткая история секвенирования генома

• Конец 1970-х: Уолтер Гилберт и Фредерик Сэнгер развивают независимые методы секвенирования.

• 1980: Они получают Нобелевскую премию по химии.

• Однако их методы выявления последовательности были слишком дороги для больших геномов: при расходах в 1 доллар на нуклеотид расшифровка человеческого генома стоила бы 3 миллиарда долларов.

Уолтер Гилберт

Фредерик Сэнгер

Page 12: Guests 2011-10-04-pevzner-assembly

Краткая история секвенирования генома

• 1990: Общественный проект «Человеческий геном», возглавляемый Фрэнсисом Коллинзом, задаётся целью расшифровать человеческий геном.

• 1997: Крейг Вентер основывает частную фирму «Celera Genomics» с той же целью.

Фрэнсис Коллинз

Крейг Вентер

Page 13: Guests 2011-10-04-pevzner-assembly

Краткая история секвенирования генома

• 2000: Черновой вариант человеческого генома одновременно завершён (общественным) проектом «Человеческий геном» и (частной) Celera Genomics.

Page 14: Guests 2011-10-04-pevzner-assembly

Краткая история секвенирования генома

• 2000-е: расшифровывается всё большее число геномов млекопитающих.

Page 15: Guests 2011-10-04-pevzner-assembly

Начало персональной геномики

• 2000-е: Многие компании запускают проекты, ставящие целью на порядок уменьшить затраты на секвенирование.

• 2010: Рождается рынок приборов, секвенирующих геном:• Illumina уменьшает стоимость секвенирования индивидуального

человеческого генома с 3 миллиардов долларов до 10 тысяч.

• Complete Genomics строит в Кремниевой долине предприятие по секвенированию с производительностью сотни геномов в месяц.

• Пекинский институт по исследованию геномов заказывает сотни секвенирующих машин, становясь крупнейшим центром в мире.

• 23andMe предлагает частичное чтение последовательности генома за 499 долларов.

• Многие университеты вводят новые курсы, на которых студенты будут изучать свои собственные геномы.

Page 16: Guests 2011-10-04-pevzner-assembly

Будущее секвенировнания генома

• 2010-е?: Секвенирование генома будет, надеемся, продолжать развиваться.

• Секвенирование человеческого генома за 1000 долларов может стать реальностью уже в 2012 году.

• Вероятно, секвенирование индивидуального генома вскоре станет таким же рутинным делом, как рентгеновский снимок.

Page 17: Guests 2011-10-04-pevzner-assembly

Что делает секвенирование генома трудным?

• Когда мы читаем книгу, мы можем прочесть её всю по букве от начала до конца.

• Однако современные машины по расшифровке не могут прочесть весь геном нуклеотид за нуклеотидом от начала до конца. Они могут читать лишь короткие отрывки, вырезанные из генома.

• Поэтому мы можем идентифицировать очень короткие фрагменты ДНК (длиной примерно в 100 нуклеотидов), называемые риды (reads).

• Но у нас нет подсказки, из какой части генома данный рид!• Мы должны выяснить, как составить риды вместе, чтобы

получился геном.

Page 18: Guests 2011-10-04-pevzner-assembly

Часть 2: Задача о газете и секвенирование генома

Page 19: Guests 2011-10-04-pevzner-assembly

Задача о газете

Page 20: Guests 2011-10-04-pevzner-assembly

Задача о газете

Page 21: Guests 2011-10-04-pevzner-assembly

Задача о газете

Page 22: Guests 2011-10-04-pevzner-assembly

Задача о газете

Page 23: Guests 2011-10-04-pevzner-assembly

Задача о газете

Page 24: Guests 2011-10-04-pevzner-assembly

Задача о газете

Page 25: Guests 2011-10-04-pevzner-assembly

Задача о газете как «пазл с наложениями»

• Задача о газете — не то же самое,что обычный пазл:

• У нас есть множество копийодного и того же издания газеты.

• Некоторые листы газетыразлетелись на мелкие клочки.

• Мы должны использовать клочки бумаги, накладывающиеся друг на друга,чтобы восстановить, что говорилось в газете.

• Это даёт нам гигантский пазл с наложениями!

Page 26: Guests 2011-10-04-pevzner-assembly

• В задаче о газете на нас работают правила языка и здравый смысл (например, «убийство» и «подозреваемый» скорее встретятся в газете рядом друг с другом).

• Однако «язык» ДНК остаётся по большей части неясным.

Секвенирование сложнее задачи о газете

Page 27: Guests 2011-10-04-pevzner-assembly

Секвенирование сложнее задачи о газете

• В каждом геноме есть много повторяющихся подстрок (50% человеческого генома — повторения).

• Пример: GCTT встречается четыре раза в строке

AAGCTTCTATTGCTTAATTGGCTTGCTTCGCTTTG

• Аналогия: треугольный пазлсодержит множествоповторяющихся фигур.Это сильно затрудняет егорешение (даже с 16 кусочками).

Page 28: Guests 2011-10-04-pevzner-assembly

Секвенирование: лаборатория + вычисления

• Генерация ридов (лабораторная):Считать множество ридов из многих копий одного генома.

• Сборка фрагментов (вычислительная):Собрать геном из этих ридов с помощью эффективного алгоритма.

Page 29: Guests 2011-10-04-pevzner-assembly

Секвенирование генома: иллюстрация

Много копий генома

Page 30: Guests 2011-10-04-pevzner-assembly

Секвенирование генома: иллюстрация

Много копий генома

Чтение ридов

Page 31: Guests 2011-10-04-pevzner-assembly

Секвенирование генома: иллюстрация

Много копий генома

Риды

Чтение ридов

Page 32: Guests 2011-10-04-pevzner-assembly

Секвенирование генома: иллюстрация

Много копий генома

Риды

Чтение ридов

Сборка фрагментов

Page 33: Guests 2011-10-04-pevzner-assembly

Секвенирование генома: иллюстрация

Много копий генома

Риды

Собранный геном

…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…

Чтение ридов

Сборка фрагментов

Page 34: Guests 2011-10-04-pevzner-assembly

Часть 3: ДНК-чипы — первая попытка секвенирования

с помощью коротких ридов

Page 35: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: от идеи до новой индустрии

• 1989: Радое Дрманач, Андрей Мирзабеков и Эдвин Саутерн независимо друг от друга вводят понятие ДНК-чипов (матриц) для чтения ридов.

• Ключевая идея: считать все k-меры* генома в надежде, что из них может быть собран геном.

• 1989: журнал Science пишет: «Использование ДНК-матриц для определения последовательности было бы всего лишь заменой одной безнадежной задачи на другую.»

• 2000: Матрицы ‒ индустрия с миллиардами долларов.

Саутерн

Мирзабеков

Дрманач

k-мер: Строка длины k (над алфавитом из четырех нуклеотидов)

Page 36: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: реализация

1. Синтезировать все k-меры в каждой из 4k ячеек матрицы.

2. Покрыть матрицу многими копиями флуоресцентно помеченного фрагмента неизвестной ДНК.

3. ДНК гибридизирует с k-мером,если они дополняют друг друга.

4. Использовать спектроскоп, чтобыопределить, какие ячейкиизлучают свет — дополненияк этим ячейкам выявят k-мерынеизвестного фрагмента ДНК.Это и есть искомые риды!

Page 37: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: иллюстрация

Page 38: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: пример

• Прочитанные риды: AAA AGA CAA CGA GAA GGA TAA TGA

AAC AGC CAC CGC GAC GGC TAC TGC

AAG AGG CAG CGG GAG GGG TAG TGG

AAT AGT CAT CGT GAT GGT TAT TGT

ACA ATA CCA CTA GCA GTA TCA TTA

ACC ATC CCC CTC GCC GTC TCC TTC

ACG ATG CCG CTG GCG GTG TCG TTG

ACT ATT CCT CTT GCT GTT TCT TTT

Page 39: Guests 2011-10-04-pevzner-assembly

CAC CGC TGC

CAT

CCA GCA

GCC

ACG TTG

ATT

ДНК-чипы: пример

• Прочитанные риды:

CAT

Page 40: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: пример

• Прочитанные риды:

CAT|||

ATG

CAC CGC TGC

CAT

CCA GCA

GCC

ACG TTG

ATT

Page 41: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: пример

• Прочитанные риды:

CAT

ATG

CAC CGC TGC

CAT

CCA GCA

GCC

ACG TTG

ATT

Page 42: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: пример

• Прочитанные риды:

CAT

ATG

CAC CGC TGC

CAT

CCA GCA

GCC

ACG TTG

ATT

Page 43: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: пример

• Прочитанные риды:

CAT

ATG

CAC CGC TGC

CAT

CCA GCA

GCC

ACG TTG

ATT

Page 44: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: пример

• Прочитанные риды:

CAT

ATG

CAC CGC TGC

CAT

CCA GCA

GCC

ACG TTG

ATT

Page 45: Guests 2011-10-04-pevzner-assembly

ДНК-чипы: пример• Прочитанные риды:

• Значит, 3-мер ATG встречается где-тов геноме!

ATG

CAC CGC TGC

ATG

CCA GCA

GCC

ACG TTG

ATT

Page 46: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

• Прочитанные риды:

CAC GTGCGC GCG•CAT ATGTGC GCAACG CGTATT AATCCA TGGGCA TGCGCC GGCTTG CAA

CAC CGC TGC

ATG

CCA GCA

GCC

ACG TTG

ATT

Page 47: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

• Прочитанные риды:

• CACCGC GCG• CAT ATG

CAC CGC TGC

ATG

CCA GCA

GCC

ACG TTG

ATT

Page 48: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

• Прочитанные риды:

• CAC GTGCGC GCG• CAT ATG

GTG CGC TGC

ATG

CCA GCA

GCC

ACG TTG

ATT

Page 49: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG CGC TGC

ATG

CCA GCA

GCC

ACG TTG

ATT

• Прочитанные риды:

• CAC GTG• CGC• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA TGC• GCC GGC• TTG CAA

Page 50: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG TGC

ATG

CCA GCA

GCC

ACG TTG

ATT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA TGC• GCC GGC• TTG CAA

Page 51: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG TGC

ATG

CCA GCA

GCC

ACG TTG

ATT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC

Page 52: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

CCA GCA

GCC

ACG TTG

ATT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA

Page 53: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

CCA GCA

GCC

ACG TTG

ATT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG

Page 54: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

CCA GCA

GCC

CGT TTG

ATT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT

Page 55: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

CCA GCA

GCC

CGT TTG

ATT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT

Page 56: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

CCA GCA

GCC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT

Page 57: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

CCA GCA

GCC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA

Page 58: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

TGG GCA

GCC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG

Page 59: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

TGG GCA

GCC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA

Page 60: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

TGG TGC

GCC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA TGC

Page 61: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

TGG TGC

GCC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA TGC• GCC

Page 62: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

TGG TGC

GGC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA TGC• GCC GGC

Page 63: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

TGG TGC

GGC

CGT TTG

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA TGC• GCC GGC• TTG

Page 64: Guests 2011-10-04-pevzner-assembly

Красные 3-меры точно присутствуют в геноме

GTG GCG GCA

ATG

TGG TGC

GGC

CGT CAA

AAT

• Прочитанные риды:

• CAC GTG• CGC GCG• CAT ATG• TGC GCA• ACG CGT• ATT AAT• CCA TGG• GCA TGC• GCC GGC• TTG CAA

Page 65: Guests 2011-10-04-pevzner-assembly

От биологических данных к вычислительной задаче

GTG GCG GCA

ATG

TGG TGC

GGC

CGT CAA

AAT

• Цель: построитьнаиболее короткийгеном, содержащийвсе имеющиеся риды.

• Теперь этовычислительнаязадача!

Page 66: Guests 2011-10-04-pevzner-assembly

Часть 4: Два математических обхода

Page 67: Guests 2011-10-04-pevzner-assembly

Кенигсбергские мосты

• Жители Кенигсберга в Пруссии (ныне Калининград в России) любили гулять.

Page 68: Guests 2011-10-04-pevzner-assembly

Кенигсбергские мосты

• Можно ли пройти по городу, проходя по каждому мосту ровно один раз и вернуться туда, откуда начался путь?

Page 69: Guests 2011-10-04-pevzner-assembly

Кенигсбергские мосты

• 1735: Леонард Эйлер развивает подход к задаче для любого города, даже для города с миллионом островов.

• Мы вскоре обсудим метод Эйлера, а равно и то, какое он имеет отношение к секвенированию генома.

Леонард Эйлер

Page 70: Guests 2011-10-04-pevzner-assembly

Икосаэдрическая (Icosian) игра

• Проходит более столетия...

• 1857: Ирландский математик Уильям Гамильтон разрабатывает игру на доске с 20 «островами», соединёнными «мостами».

• Цель: найти путь, посещающий каждый остров ровно один раз и возвращающийся в начальную точку.

Уильям Гамильтон

Икосаэдрическая игра

Page 71: Guests 2011-10-04-pevzner-assembly

Похожие задачи с очень разными судьбами

• Эти две задачи формулируются в целом похоже:

• Найти путь, который проходит через каждый мост лишь один раз (Кёнигсбергие мосты)

• Найти путь, который проходит через каждый остров лишь один раз (Икосаэдрическая игра)

• Эйлер решил первую задачу (даже для города с миллионом мостов), но математики до сих пор не знают, как решить вторую задачу, даже для города с небольшим количеством островов.

• Однако причем же тут геномы?!

Page 72: Guests 2011-10-04-pevzner-assembly

Часть 5: Введение в теорию графов

Page 73: Guests 2011-10-04-pevzner-assembly

Графы

• Граф — это сеть из двух типов объектов:

• Вершины: каждая вершина представлена точкой.

• Рёбра: каждое ребро представлено отрезком, соединяющим две вершины.

• Теория графов может применятьсяк самым различным задачам:

• Транспортные сети;

• Эпидемиология;

• Компьютерные вирусы,распространяющиеся по интернету;

• И да… секвенирование генома!

Page 74: Guests 2011-10-04-pevzner-assembly

Граф Кенигсбергских мостов

• Для задачи о Кёнигсбергских мостах мы создаём граф:

• Вершины = 4 участка земли;

• Рёбра = 7 мостов, соединяющих участки земли.

Замечание: нам не нужно знать точное расположение вершин, как и форму мостов.

Page 75: Guests 2011-10-04-pevzner-assembly

Граф Икосаэдрической игры

• Для Икосаэдрической игры мы создаём граф:

• Вершины = острова;

• Рёбра = мосты, соединяющие острова.

Page 76: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Рассмотрим муравья, стоящего на вершине графа G.

• Муравей может ходить от вершины к вершиневдоль рёбер G.

• Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G.

Page 77: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Рассмотрим муравья, стоящего на вершине графа G.

• Муравей может ходить от вершины к вершиневдоль рёбер G.

• Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G.

“Here I go!”

Page 78: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Рассмотрим муравья, стоящего на вершине графа G.

• Муравей может ходить от вершины к вершиневдоль рёбер G.

• Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G.

“…He wakes up in the morning…”

Page 79: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Рассмотрим муравья, стоящего на вершине графа G.

• Муравей может ходить от вершины к вершиневдоль рёбер G.

• Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G.

“…goes to visit his mommy…”

Page 80: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Рассмотрим муравья, стоящего на вершине графа G.

• Муравей может ходить от вершины к вершиневдоль рёбер G.

• Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G.

“…when all the little ants are marching…”

Page 81: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Рассмотрим муравья, стоящего на вершине графа G.

• Муравей может ходить от вершины к вершиневдоль рёбер G.

• Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G.

“…they all do it the same way…”

Page 82: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Рассмотрим муравья, стоящего на вершине графа G.

• Муравей может ходить от вершины к вершиневдоль рёбер G.

• Если муравей вернётся туда, откуда он начал путь, последовательность его ходов сформирует цикл в графе G.

“Oh no! I’m back where I started!”

Page 83: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Два вопроса:

1. Существует ли в G цикл, в котором муравей проходит каждое ребро точно один раз?

2. Существует ли в G цикл, в котором муравей проходит каждую вершину точно один раз?

“???!!!”

Page 84: Guests 2011-10-04-pevzner-assembly

Эйлеров и Гамильтонов циклы

• Два вопроса:

1. Существует ли в G цикл, в котором муравей проходит каждое ребро точно один раз? Эйлеров цикл.

2. Существует ли в G цикл, в котором муравей проходит каждую вершину точно один раз? Гамильтонов цикл.

“I wish someone would name a cycle after me…I’m the one doing all the walking here!”

Page 85: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

Page 86: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Page 87: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл

1

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Page 88: Guests 2011-10-04-pevzner-assembly

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Эйлеров цикл

1

2

Page 89: Guests 2011-10-04-pevzner-assembly

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Эйлеров цикл

1

23

Page 90: Guests 2011-10-04-pevzner-assembly

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Эйлеров цикл

1

23

4

Page 91: Guests 2011-10-04-pevzner-assembly

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Эйлеров цикл

1

23

45

Page 92: Guests 2011-10-04-pevzner-assembly

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Эйлеров цикл

1

23

45

6

Page 93: Guests 2011-10-04-pevzner-assembly

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Эйлеров цикл

1

23

45

6

7

Page 94: Guests 2011-10-04-pevzner-assembly

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Эйлеров цикл

1

23

45

6

78

Page 95: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл

1

23

45

6

78

9

• Эйлеров цикл — это цикл, проходящий по каждому ребру ровно один раз.

• Граф, содержащий такой цикл, называется эйлеровым.

• Если бы было решение для задачи оКёнигсбергских мостах, то мы моглибы найти эйлеров цикл в этом графе.

• Однако такого цикла не существует.

• Если добавить два ребра, такой цикл появится, видите?

Page 96: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, называется гамильтоновым.

• Например, граф, соответствующий Икосаэдрической игре — гамильтонов.

• Это означает, что Икосаэдрическаяигра имеет решение!

Page 97: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1

Page 98: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 2

Page 99: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

Page 100: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

4

Page 101: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

Page 102: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

Page 103: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

Page 104: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

Page 105: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

Page 106: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

Page 107: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

Page 108: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

12

Page 109: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

Page 110: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

Page 111: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

15

Page 112: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

15

16

Page 113: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

15

1617

Page 114: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

15

1617

18

Page 115: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

15

1617

1819

Page 116: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

15

1617

1819

20

Page 117: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл

• Гамильтонов цикл — это цикл, проходящий через каждую вершину ровно один раз.

• Граф, содержащий такой цикл, — гамильтонов.

1 23

45

6

7

8

9

10

11

1213

14

15

1617

1819

20

Page 118: Guests 2011-10-04-pevzner-assembly

Поиск Эйлерова цикла и Гамильтонова цикла

• Если нам дан граф G, то возникают два вопроса насчёт G:

• Задача об эйлеровом цикле (ECP): найтиэйлеров цикл в G или доказать, что G — не эйлеров.

• Задача о гамильтоновом цикле (HCP): найти гамильтонов цикл в G или доказать, что G — не гамильтонов.

Page 119: Guests 2011-10-04-pevzner-assembly

Часть 6: Теорема Эйлера

Page 120: Guests 2011-10-04-pevzner-assembly

Теорема Эйлера

• А теперь посмотрим, как Эйлер решил задачу о Кёнигсбергских мостах.

• Вы можете предположить: он использовал теорию графов!

• Это не совсем корректно. Лучше было бы сказать: он изобрёл теорию графов!

Page 121: Guests 2011-10-04-pevzner-assembly

Ориентированные графы

• Ориентированный граф — граф, в котором каждое ребро имеет направление (представленное стрелкой).

• Возможно, проще представить ориентированные ребра как «мосты с односторонним движением».

Неориентированный граф Ориентированный граф

Page 122: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в ориентированном графе

• Эйлеров цикл в ориентированном графе ‒ это цикл, который проходит все рёбра в правильном направлении.

• Ориентированный граф ‒ эйлеров,если он содержит эйлеров цикл.

• Этот граф ‒ эйлеров? Почему?

Page 123: Guests 2011-10-04-pevzner-assembly

входящая степень(v) = число ребер, ведущих в вершину v.

исходящая степень(v) = число ребер, ведущих из вершины v.

• Если входящая степень(v) = исходящая степень(v)для каждой вершины v, тограф сбалансирован.

• Этот граф несбалансирован,т. к. у некоторых вершинне равны входящая иисходящая степени.

Сбалансированные графы

(1, 2)

(2, 1)

(1, 0)

(2, 1)

(1, 1)

(0, 2)(1, 1)

Page 124: Guests 2011-10-04-pevzner-assembly

входящая степень(v) = число ребер, ведущих к вершине v.

исходящая степень(v) = число ребер, ведущих из вершины v.

• Если входящая степень(v) = исходящая степень(v)для каждой вершины v, тограф сбалансирован.

• Добавлением несколькихребер, этот графможно сбалансировать.

Сбалансированные графы

(2, 2)

(2, 2)

(1, 1)

(2, 2)

(1, 1)

(2, 2)(1, 1)

Page 125: Guests 2011-10-04-pevzner-assembly

Теорема Эйлера

• Теорема Эйлера: ориентированный граф G эйлеровтогда и только тогда, когда G связен и сбалансирован.

• Граф — связный, если для каждой пары вершин муравей может пройти от одной вершины к другой.

(2, 2)

(2, 2)

(1, 1)

(2, 2)

(1, 1)

(2, 2)(1, 1)

Несвязный Связный+

Сбалансированный 

= Эйлеров

Page 126: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Eulerian Balanced

• Every time an Eulerian cycle passes through a vertex v, it must enter v by a new edge and exit v by a new edge.

• Therefore, indegree(v)=outdegree(v) for every vertex v

Page 127: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 128: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 129: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 130: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 131: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 132: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 133: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 134: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian• Put an ant in an arbitrary vertex v of the graph and

let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

Page 135: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian

• Where will the ant stop? Can it stop in a vertex w different from v?

• Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

3

2

4

6

5

1

7

Page 136: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian

• Where will the ant stop? Can it stop in a vertex w different from v?

• Since indegree(w)=outdegree(w), there exists an edge out of w that the ant has not traversed yet!

• Put an ant in an arbitrary vertex v of the graph and let him walk along edges in any legal direction. The ant is not allowed to walk along the previously traversed edges.

3

2

4

6

5

1

7

Page 137: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: Balanced Eulerian

• After this random walk, the ant cannot get stuck in an intermediate vertex and thus will return to the vertex where he started!

Page 138: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: The Second Ant

Has the ant traversed all edges? If YES, then G is Eulerian. If NO, then 1.remove edges traversed by the ant

Page 139: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: The Second Ant

Has the ant traversed all edges? If YES, then G is Eulerian. If NO, then 1.remove edges traversed by the ant2.let the second ant randomly walk in the resulting (smaller) balanced graph

Page 140: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: The Second Ant

Has the ant traversed all edges? If YES, then G is Eulerian. If NO, then 1.remove edges traversed by the ant2.let the second ant randomly walk in the resulting (smaller) balanced graph

Page 141: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: The Second Ant

Has the ant traversed all edges? If YES, then G is Eulerian. If NO, then 1.remove edges traversed by the ant2.let the second ant randomly walk in the resulting (smaller) balanced graph

Page 142: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: The Second Ant

Has the ant traversed all edges? If YES, then G is Eulerian. If NO, then 1.remove edges traversed by the ant2.let the second ant randomly walk in the resulting (smaller) balanced graph until it returns where it started

Page 143: Guests 2011-10-04-pevzner-assembly

Proof of Euler’s Theorem: The Second Ant

Has the ant traversed all edges? If YES, then G is Eulerian. If NO, then 1.remove edges traversed by the ant2.let the second ant randomly walk in the resulting (smaller) balanced graph3.It is important that the second ant starts in a vertex traversed by the first ant

Page 144: Guests 2011-10-04-pevzner-assembly

Can Red and Green Ants Combine Their Cycles Into a Single One?

Page 145: Guests 2011-10-04-pevzner-assembly

Changing the Starting Vertex of the Red Ant

Page 146: Guests 2011-10-04-pevzner-assembly

Now Red and Green Ant Start at the Same Vertex

Page 147: Guests 2011-10-04-pevzner-assembly

Since Red and Green Ants Now Start at the Same Vertex, Their Walks Can be Combined into a Single Superwalk!

If two ants still leave some edges non-traversed, bring in 3rd, 4th, 5th… ant

Page 148: Guests 2011-10-04-pevzner-assembly

Часть 7: Эйлеров цикл против гамильтонова цикла и

алгоритмическая сложность

Page 149: Guests 2011-10-04-pevzner-assembly

Решение задачи об эйлеровом цикле

• По теореме Эйлера для выяснения того, содержит ли связный граф G эйлеров цикл, нужно лишь выяснить, сбалансирован ли G.

• Так что мы просто подходим к каждой вершине и осуществляем эту простую проверку:

• Если каждая вершина сбалансирована, то G должен содержать эйлеров цикл.

• Если какая-то вершина не сбалансирована, то G не может содержать эйлеров цикл.

Page 150: Guests 2011-10-04-pevzner-assembly

Связный + Сбалансированный = Эйлеров

(1, 2)

(2, 1)

(1, 0)

(1, 1)

(0, 2)(1, 1)

• Вернёмся к ориентированному графу из примера.

• Здесь граф не сбалансирован, следовательно, не эйлеров.

(2, 1)

Page 151: Guests 2011-10-04-pevzner-assembly

• Вернёмся к ориентированному графу из примера.

• Здесь граф не сбалансирован, следовательно, не эйлеров.

• После добавления рёбер ибалансировки графа,эйлеров циклбудет существовать.

Связный + Сбалансированный = Эйлеров

(2, 2)

(2, 2)

(1, 1)

(1, 1)

(2, 2)(1, 1)

1

2

3

7

65

4

89

10

11

(2, 2)

Page 152: Guests 2011-10-04-pevzner-assembly

Поиск эффективного алгоритма решения HCP • Никто не знает столь же

эффективного теста дляопределения, гамильтонов ли граф.

• Конечно, мы можем исследоватьвсе возможные прохождениямуравья по графу.

• Однако этот грубый подход простонеэффективен: даже по графус 1000 вершин существуетбольше вариантов прохождений,чем атомов во вселенной!

Page 153: Guests 2011-10-04-pevzner-assembly

NP-полные задачи

• Задача о гамильтоновом цикле классифицируетсякак NP-полная.

• Изъясняясь непрофессиональным языком, это значит, что задача гамильтонова цикла относится к тысячам вычислительных задач, которые не могут быть решены быстро для больших входных данных.

• NP-полные проблемы эквивалентны друг другу: найдя эффективное решение для одной из них, вы получите эффективное решение для всех.

Page 154: Guests 2011-10-04-pevzner-assembly

NP-полные задачи

«Я не могу найти эффективного алгоритма, наверное, я просто слишком глуп.»

Из Гэри и Джонсон. Компьютеры и трудность. 1979

• Попытка решить любую NP-полную задачу сложна.

Page 155: Guests 2011-10-04-pevzner-assembly

NP-полные задачи

«Я не могу найти эффективного алгоритма, потому что такого алгоритма не может быть.»

• Попытка решить любую NP-полную задачу сложна.

• Остаётся надеяться, что мы терпим неудачу потому, что эффективного алгоритма для NP-полных задач —не существует.

Из Гэри и Джонсон. Компьютеры и трудность. 1979

Page 156: Guests 2011-10-04-pevzner-assembly

NP-полные задачи

«Я не могу найти эффективного алгоритма, но и все эти великие люди тоже не могут.»

• Попытка решить любую NP-полную задачу сложна.

• Остаётся надеяться, что мы терпим неудачу потому, что эффективного алгоритма для NP-полных задач —не существует.

• Текущее состояние дел — где-то посередине.

Из Гэри и Джонсон. Компьютеры и трудность. 1979

Page 157: Guests 2011-10-04-pevzner-assembly

NP-полнота задачи о гамильтоновом цикле

• Вопрос, могут ли NP-полные задачи (в т. ч. задачи гамильтонова цикла) быть эффективно решены, —одна из семи математических задач тысячелетия.

• Найдите эффективный алгоритм для задачи о гамильтоновом цикле или докажите, что такого алгоритма не существует, и вы получите миллион долларов.

• Однако если вы станете математиком,есть вероятность, что вы занимаетесьнаукой не ради $$$... недавноГригорий Перельман решил одну иззадач тысячелетия, ноотказался от премии.

Григорий Перельман, легенда

Page 158: Guests 2011-10-04-pevzner-assembly

Часть 8: От Эйлера и Гамильтона

к сборке фрагментов

Page 159: Guests 2011-10-04-pevzner-assembly

Несколько упрощений

1. Каждый k-мер, встречающийся в геноме, встречается хотя бы в одном риде.

2. Считывания безошибочны.

3. Каждый k-мер, встречающийся в геноме, встречается в нем ровно один раз.

4. Исследуемый геном — одна кольцевая хромосома.

В финальной части мы откажемся от этих предположений.

Page 160: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

GTGGCG GCA

ATG

TGG TGC

GGC

CGT CAA

AAT

Page 161: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

GTGGCG GCA

ATG

TGG TGC

GGC

CGT CAA

AAT

GTG

Page 162: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

GCG GCA

ATG

TGG TGC

GGC

CGT CAA

AAT

GTG GCG

Page 163: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

GCA

ATG

TGG TGC

GGC

CGT CAA

AAT

GTG GCGGCA

Page 164: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

ATG

TGG TGC

GGC

CGT CAA

AAT

GTG GCGGCAATG

Page 165: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

TGG TGC

GGC

CGT CAA

AAT

GTG GCGGCAATG TGG

Page 166: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

TGC

GGC

CGT CAA

AAT

GTG GCGGCAATG TGG TGC

Page 167: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

GGC

CGT CAA

AAT

GTG GCGGCAATG TGG TGCGGC

Page 168: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

CGT CAA

AAT

GTG GCGGCAATG TGG TGCGGCCGT

Page 169: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

CAA

AAT

GTG GCGGCAATG TGG TGCGGCCGT CAA

Page 170: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

AAT

GTG GCGGCAATG TGG TGCGGCCGT CAAAAT

Page 171: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 172: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создадим в графе H вершины,соответствующие всем k-мерам,найденным с помощью ДНК-чипа.

• Префикс — это первые k – 1 нуклеотидов k-мера (CAA)

• Суффикс — последние k – 1 нуклеотидов k-мера(CAA)

• Разные 3-меры могут иметь общий префикс/суффикс: ATG, TGA, CTG

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 173: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

Page 174: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

Page 175: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 176: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 177: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 178: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 179: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 180: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 181: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 182: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 183: Guests 2011-10-04-pevzner-assembly

Первый подход: граф H

• Создавая ребра графа H, соединим вершину v и вершину w ориентированным ребром,если суффикс v совпадает с префиксом w.

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 184: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 185: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 186: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 187: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 188: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 189: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 190: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 191: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 192: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 193: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 194: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 195: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 196: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

Page 197: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG

ATGГеном:

T

G

A

Page 198: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG

ATGGГеном:

T

G

G

A

Page 199: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC

ATGGCГеном:

T

G

G

C

A

Page 200: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG

ATGGCGГеном:

T

G

G

CG

A

Page 201: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT

ATGGCGTГеном:

T

G

G

CG

T

A

Page 202: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG

ATGGCGTG Геном:

T

G

G

CG

T

G

A

Page 203: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC

ATGGCGTGC Геном:

T

G

G

CG

T

G

C

A

Page 204: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA

ATGGCGTGCAГеном:

T

G

G

CG

T

G

C

AA

Page 205: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA CAA

ATGGCGTGCAAГеном:

AT

G

G

CG

T

G

C

A

Page 206: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT

ATGGCGTGCAATГеном:

AT

G

G

CG

T

G

C

A

Page 207: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGATGGCGTGCAATGГеном:

AT

G

G

CG

T

G

C

A

Page 208: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGATGGCGTGCAATGГеном:

AT

G

G

CG

T

G

C

A

Page 209: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGATGGCGTGCAATGГеном:

AT

G

G

CG

T

G

C

A

Page 210: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

Геном:

AT

G

G

CG

T

G

C

A

Page 211: Guests 2011-10-04-pevzner-assembly

Гамильтонов цикл в графе H

• В графе H есть гамильтонов цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

Геном:

AT

G

G

CG

T

G

C

A

Page 212: Guests 2011-10-04-pevzner-assembly

Проблема с графом H

• Итак, мы должны найтигамильтонов цикл в графе H, чтобынайти искомую последовательность.

• На этой идее базировался метод сборки человеческого генома из 50 миллионов (долгих и дорогих) ридов в 2000 г., но вычислительная нагрузка была непомерно высока: секвенирование человеческого генома заняло несколько компьютеро-месяцев (в круглосуточном режиме работы).

• С новейшими технологиями секвенируются миллиарды (коротких и недорогих) ридов: нужна новая идея.

Page 213: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 214: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 215: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TGTGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 216: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GCTGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 217: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 218: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 219: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CATGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 220: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAATTGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 221: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAATTGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 222: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAATTGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 223: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 224: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 225: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 226: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 227: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 228: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 229: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 230: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 231: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 232: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 233: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

GT

TG GC

CG

CAAT

GG

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 234: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 235: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 236: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

GTG

Page 237: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

GCGGTG

Page 238: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

GCGGTG

GCA

Page 239: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

GCGGTG

GCA

Page 240: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGGGCGGTG

GCA

Page 241: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGGGCGGTG

TGC GCA

Page 242: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGG GGCGCGGTG

TGC GCA

Page 243: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

Page 244: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAA

Page 245: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

Page 246: Guests 2011-10-04-pevzner-assembly

Второй подход: граф E

• Сформируем иной граф E следующим образом:

• Вершины = все префиксы и суффиксы всех k-меров.

• Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

Page 247: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

Page 248: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

Page 249: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

Page 250: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

Page 251: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

Page 252: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

Page 253: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

Page 254: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7

Page 255: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

Page 256: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

9

Page 257: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Page 258: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Page 259: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT

• Эта та же последовательность3-меров, что и в графе H!

Page 260: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT• Эта та же последовательность

3-меров, что и в графе H!• Значит, мы получим тот же геном.

Геном:

A TG

GCGT

G

CA

Page 261: Guests 2011-10-04-pevzner-assembly

Эйлеров цикл в графе E

• В графе E есть эйлеров цикл:

• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT• Эта та же последовательность

3-меров, что и в графе H!• Значит, мы получим тот же геном.

Геном:

A TG

GCGT

G

CA

Page 262: Guests 2011-10-04-pevzner-assembly

Анализ графа E

Хорошая новость: Теперь нам только остаётся найти эйлеров цикл в графе E, что можно сделать на этом компьютере.

Плохая новость:

1. Может существовать более чем один эйлеров цикл в E.

• Эту беду здесь обсуждать не будем, но это решаемо.

2. Как мы узнаем, что граф E имеет эйлеров цикл?

• По теореме Эйлера нам нужно лишь показать, что E — сбалансированный граф.

• Чтобы сделать это, нам нужен ещё один фрагмент математической истории…

Page 263: Guests 2011-10-04-pevzner-assembly

Часть 9: Де Брюйн исборка фрагментов

Page 264: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• 1946: голландский математик Николаас де Брюйн задаётся вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц?

• Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110).

Николаас де Брюйн

Page 265: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Де Брёйн ввёл специальный граф B(n, k):

• Вершины = все nk – 1 возможных (k – 1)-меров надn-буквенным алфавитом.

• Ребро идет из v в w,если есть k-мер, чейпрефикс = v, асуффикс = w.

• Справа приведен B(2, 4)

• Подразумеваетсяалфавит {0, 1}

Page 266: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• При любых n и k, B(n, k) является сблансированным и связным, а значит, эйлеровым.

• Почему? Потому чтовходящая и исходящаястепень каждой вершиныравняется n — размеруалфавита.

• Красные числапоказывают порядокрёбер в эйлеровом цикле.

Page 267: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 268: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 269: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 270: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 271: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 272: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 273: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 274: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 275: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 276: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 277: Guests 2011-10-04-pevzner-assembly

Вопрос Де Брюйна

• Рассмотренный нами граф E содержится в B(4, k).

• n = 4 — это количество возможных нуклеотидов.

• Граф E тоже должен бытьсбалансированным/эйлеровым!

• Входящая и исходящаястепени любой вершиныравны числу появленийсоответствующего(k – 1)-мерав геноме.

3

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGC GCA

CAAAAT

1

2

4

5

6

7 8

910

Геном:

Page 278: Guests 2011-10-04-pevzner-assembly

Часть 10: Обобщая сборку фрагментов

Page 279: Guests 2011-10-04-pevzner-assembly

Используемые упрощения

• Вспомним предположения, которые мы использовали:

1. Каждый k-мер, встречающийся в геноме, встречается хотя бы в одном риде.

2. Считывания безошибочны.

3. Каждый k-мер, встречающийся в геноме, встречается в нем ровно один раз.

4. Исследуемый геном — одна кольцевая хромосома.

• Наша цель — отринуть каждое из этих предположений и определить, как изменится задача.

Page 280: Guests 2011-10-04-pevzner-assembly

Упрощение 1: Чтение (почти) всех k-меров

• 100-нуклеотидные риды, сгенерированные по технологии Illumina, охватывают лишь небольшую часть 100-меров из генома, тем самым нарушая ключевое упрощение.

• Но если разбить эти риды на более короткие k-меры, тоk-меры, полученные в результате, зачастую будут представлять почти все k-меры из генома(при достаточно малом k).

• Например, современные сборщики часто разбивают100-нуклеотидное риды на 46 накладывающихся друг на друга 55-меров, а далее собирают полученные 55-меры, используя графы де Брюйна.

Page 281: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 282: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 283: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 284: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 285: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 286: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 287: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 288: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 289: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 290: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 291: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 292: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 293: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 294: Guests 2011-10-04-pevzner-assembly

• Пример: рассмотрим геном ATGCAAGCTAGCT и следующие риды длины 6:

• Далеко не все 6-меры генома прочитаны как риды, однако все 3-меры генома присутствуют в ридах как подстроки.

Упрощение 1: Чтение (почти) всех k-меров

ATGCAAGCTAGCT

ATGCAA CAAGCT CTAGCTATGC CT

Риды

Геном

Page 295: Guests 2011-10-04-pevzner-assembly

Упрощение 2: Ошибки в ридах

• Что случится с графом E, если в ридах будут ошибки?

• Пример: пусть граф E для генома ATGGCGTGCAATG выглядит следующим образом.

Page 296: Guests 2011-10-04-pevzner-assembly

Упрощение 2: Ошибки в ридах

• Что случится с графом E, если в ридах будут ошибки?

• Пример: пусть граф E для генома ATGGCGTGCAATG выглядит следующим образом.

• Если рид TGGCGTG будет ошибочно прочитан как TGGAGTG , то граф будет выглядеть по-другому.

• Это называется выступом (bulge) в графе E.

Page 297: Guests 2011-10-04-pevzner-assembly

Упрощение 2: Ошибки в ридах

• Большинство ридов в реальных данных содержат ошибки, что дает в итоге миллионы выступов в графе E.

• 2004: Певзнер и др. создали алгоритм удаления выступов.

Page 298: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пример: в геноме ACGTACGT только четыре различных3-мера — ACG, CGT, GTA, and TAC.

• Получается приведенный на рисунке граф E, а геном восстанавливается как ACGT.

• Иными словами,повторяющиеся k-мерыне представимы в графе!

AC CG

GTTA

TAC

ACG

CGT

GTA

Page 299: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Определим кратность k-мера как количество его появлений в геноме.

• Создадим новый граф E*, клонировав ребра графа E в соответствии с их кратностью.

• Эйлеров цикл в E* всё ещё даёт возможный геном.

Page 300: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 301: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 302: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 303: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 304: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 305: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 306: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 307: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 308: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 309: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 310: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 311: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 312: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 313: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 314: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 315: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 316: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Пусть кратности 3-меров в ридах таковы:

• Кратность 1: ATG, GGC, AAT, TGG, CAA, CAA, GCA• Кратность 2: GCG, CGT,GTG, TGC

• Е* сбалансирован, так каквходящие и исходящиестепени вершин равны

• Возможный геном:CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

ATGCGTGGCGTGCA

Page 317: Guests 2011-10-04-pevzner-assembly

Упрощение 3: Повторяющиеся k-меры

• Как определить кратность k-мера в геноме?

• Кратность k-мерапропорциональначастоте появленияэтого k-мера в ридах.

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

Page 318: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Геномы всех сложных организмов разбиты на определённое число линейных хромосом (46 у человека).

• Чтобы секвенироватьчеловеческий геном,генетики секвенироваливсе эти линейные хромосомы.

• Вопрос: как собратьлинейный сегмент ДНК?

Page 319: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пусть линейный сегмент ДНК — ATGCGTGGCGTGCA.

• Тогда 3-меры из этого сегмента ‒ те же самые, что и для кольцевого сегмента за исключением двух 3-меров:

Page 320: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пусть линейный сегмент ДНК — ATGCGTGGCGTGCA.

• Тогда 3-меры из этого сегмента ‒ те же самые, что и для кольцевого сегмента за исключением двух 3-меров:

• CAA

Page 321: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пусть линейный сегмент ДНК — ATGCGTGGCGTGCA.

• Тогда 3-меры из этого сегмента ‒ те же самые, что и для кольцевого сегмента за исключением двух 3-меров:

• CAA• AAT

Page 322: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E*.

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

Page 323: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E*.

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

CAAAAT

Page 324: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E*.

• А также вершины AA.

CAGC

CG

TG

GT

GG

AT

AA

ATG

TGG GGCGCG

CGT

GTG

TGCGCA

Page 325: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E*.

• А также вершины AA.

CAGC

CG

TG

GT

GG

ATATG

TGG GGCGCG

CGT

GTG

TGCGCA

Page 326: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Пропажа 3-меров CAA и AAT ведет к удалению соответствующих ребер графа E*.

• А также вершины AA.

• Итак, для сборки строкиATGCGTGGCGTGCA,надо найти путь вE*, которыйначинается в AT,заканчивается в CA и проходит по всем ребрам.

CAGC

CG

TG

GT

GG

ATATG

TGG GGCGCG

CGT

GTG

TGCGCA

Page 327: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Эйлеров путь в ориентированном графе G — это путь, проходящий по каждому ребру ровно один раз.

• Как эйлеров цикл, только необязательно стартовать и заканчивать путь в одной и той же вершине.

• К счастью, теорема Эйлера обобщается на этот случай.

• Вторая теорема Эйлера: связный ориентированный граф имеет эйлеров путь именно тогда, когда либо все вершины сбалансированы, либо ровно две вершины не сбалансированы на единицу.

Page 328: Guests 2011-10-04-pevzner-assembly

Упрощение 4: От кольцевых — к линейным

• Значит, граф E* должен содержать эйлеров путь, потому что AT и CA (концы нашего сегмента) — единственные две несбалансированные вершины.

• Выходит, мы разгадалинаш гигантский пазлв общем случае!

CAGC

CG

TG

GT

GG

ATATG

TGG GGCGCG

CGT

GTG

TGCGCA

Page 329: Guests 2011-10-04-pevzner-assembly

Что дальше?

Page 330: Guests 2011-10-04-pevzner-assembly

Персональная геномика: миллионы геномов

• Расшифровка персональногогенома началась с геномовнескольких учёных в 2009 г.,и вскоре затронет миллионыиндивидуумов.

• Тысячи геномов больных раком уже определены, и определениепоследовательности генома вскорестанет рутинной техникой в медицине.

• В сердце этого революционного процесса — биоинформатики, которые должны точно и эффективно анализировать всё возрастающие объемы данных.

10 учёных и предпринимателей, сделавших свои геномы досто-

янием общественности в 2009 г.

Page 331: Guests 2011-10-04-pevzner-assembly

Геном 10 тысяч и далее

• 2010: учёные запускаютамбициозный проект посеквенированию геномов10000 видов живых существ.

• 201x?: возможно, мы сможемвоссоздать «древо жизни» исобрать геномы предков,которые жили миллионы лет назад.

• 20xx?: возможно, всего лишь возможно, мы узнаем, почему у жирафов идёт рост шеи, а у людей — мозга.