21
Что такое биоинформатика? - математические методы компьютерного анализа в сравнительной геномике (геномная биоинформатика). - разработка алгоритмов и программ для предсказания пространственной структуры белков (структурная биоинформатика). - исследование стратегий, соответствующих вычислительных методологий, а также общее управление информационной сложности биологических систем.

2 встреча — Биоинформатика (А. Фединцев)

Embed Size (px)

DESCRIPTION

2 встреча Smolensk Computer Science Club Презентация Александра Фединцева про биоинформатику ВКонтакте: http://vk.com/scsc2 Видео: https://www.youtube.com/watch?v=b3TZEeeIQ1c

Citation preview

Page 1: 2 встреча — Биоинформатика (А. Фединцев)

Что такое биоинформатика?

- математические методы компьютерного анализа в сравнительной геномике

(геномная биоинформатика).- разработка алгоритмов и программ для предсказания пространственной структуры

белков (структурная биоинформатика).- исследование стратегий, соответствующих

вычислительных методологий, а также общее управление информационной

сложности биологических систем.

Page 2: 2 встреча — Биоинформатика (А. Фединцев)

ДНК

Page 3: 2 встреча — Биоинформатика (А. Фединцев)

Синтез белка

Page 4: 2 встреча — Биоинформатика (А. Фединцев)

Краткая история секвенирования генома

2000-е: расшифровывается всё большее число геномов млекопитающих.

Page 5: 2 встреча — Биоинформатика (А. Фединцев)

Секвенирование генома: иллюстрацияМного копий генома

Page 6: 2 встреча — Биоинформатика (А. Фединцев)

Секвенирование генома: иллюстрацияМного копий генома

Чтение ридов

Page 7: 2 встреча — Биоинформатика (А. Фединцев)

Секвенирование генома: иллюстрацияМного копий генома

Риды

Чтение ридов

Page 8: 2 встреча — Биоинформатика (А. Фединцев)

Секвенирование генома: иллюстрацияМного копий генома

Риды

Чтение ридов

Сборка фрагментов

Page 9: 2 встреча — Биоинформатика (А. Фединцев)

Секвенирование генома: иллюстрацияМного копий генома

Риды

Собранный геном

…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…

Чтение ридов

Сборка фрагментов

Page 10: 2 встреча — Биоинформатика (А. Фединцев)
Page 11: 2 встреча — Биоинформатика (А. Фединцев)

Секвенирование сложнее задачи о газете

• В каждом геноме есть много повторяющихся подстрок (50% человеческого генома — повторения).

• Пример: GCTT встречается четыре раза в строке

AAGCTTCTATTGCTTAATTGGCTTGCTTCGCTTTG

• Аналогия: треугольный пазлсодержит множествоповторяющихся фигур.Это сильно затрудняет егорешение (даже с 16 кусочками).

Page 12: 2 встреча — Биоинформатика (А. Фединцев)

ДНК-чипы: реализация 1. Синтезировать все k-меры в каждой из

4k ячеек матрицы. 2. Покрыть матрицу многими копиями

флуоресцентно помеченного фрагмента неизвестной ДНК.

3. ДНК гибридизирует с k-мером,если они дополняют друг друга.

4. Использовать спектроскоп, чтобыопределить, какие ячейкиизлучают свет — дополненияк этим ячейкам выявят k-мерынеизвестного фрагмента ДНК.Это и есть искомые риды!

Page 13: 2 встреча — Биоинформатика (А. Фединцев)

ДНК-чипы: иллюстрация

Page 14: 2 встреча — Биоинформатика (А. Фединцев)

ДНК-чипы: примерПрочитанные риды:

AAA AGA CAA CGA GAA GGA TAA TGA

AAC AGC CAC CGC GAC GGC TAC TGC

AAG AGG CAG CGG GAG GGG TAG TGG

AAT AGT CAT CGT GAT GGT TAT TGT

ACA ATA CCA CTA GCA GTA TCA TTA

ACC ATC CCC CTC GCC GTC TCC TTC

ACG ATG CCG CTG GCG GTG TCG TTG

ACT ATT CCT CTT GCT GTT TCT TTT

Page 15: 2 встреча — Биоинформатика (А. Фединцев)

Гамильтонов цикл в графе HВ графе H есть гамильтонов цикл:

ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG

Page 16: 2 встреча — Биоинформатика (А. Фединцев)

Гамильтонов цикл в графе HВ графе H есть гамильтонов цикл:• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG

ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGATGGCGTGCAATG

Геном:

AT

G

G

CG

T

G

C

A

Page 17: 2 встреча — Биоинформатика (А. Фединцев)

Второй подход: граф EСформируем иной граф E следующим образом:Вершины = все префиксы и суффиксы всех k-меров.Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

Page 18: 2 встреча — Биоинформатика (А. Фединцев)

Второй подход: граф EСформируем иной граф E следующим образом:

Вершины = все префиксы и суффиксы всех k-меров.Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.

CAGC

CG

TG

GT

GG

AT

AA

TGCGGCCGTCAAAAT

GTGGCGGCAATGTGG

Риды

ATG

TGGGGC

GCG

CGT

GTG

TGC GCA

CAAAAT

Page 19: 2 встреча — Биоинформатика (А. Фединцев)

Вопрос Де Брюйна1946: голландский математик Николаас де Брюйн задаётся вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц?

Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110).

Николаас де Брюйн

Page 20: 2 встреча — Биоинформатика (А. Фединцев)

Вопрос Де БрюйнаДе Брюйн ввёл специальный граф B(n, k):Вершины = все nk – 1 возможных (k – 1)-меров надn-буквенным алфавитом.Ребро идет из v в w,если есть k-мер, чейпрефикс = v, асуффикс = w.

Справа приведен B(2, 4)Подразумеваетсяалфавит {0, 1}

Page 21: 2 встреча — Биоинформатика (А. Фединцев)

Вопрос Де БрюйнаПри любых n и k, B(n, k) является сблансированным и связным, а значит, эйлеровым.Почему? Потому чтовходящая и исходящаястепень каждой вершиныравняется n — размеруалфавита.Красные числапоказывают порядокрёбер в эйлеровом цикле.