View
372
Download
0
Embed Size (px)
DESCRIPTION
2 встреча Smolensk Computer Science Club Презентация Александра Фединцева про биоинформатику ВКонтакте: http://vk.com/scsc2 Видео: https://www.youtube.com/watch?v=b3TZEeeIQ1c
Citation preview
Что такое биоинформатика?
- математические методы компьютерного анализа в сравнительной геномике
(геномная биоинформатика).- разработка алгоритмов и программ для предсказания пространственной структуры
белков (структурная биоинформатика).- исследование стратегий, соответствующих
вычислительных методологий, а также общее управление информационной
сложности биологических систем.
ДНК
Синтез белка
Краткая история секвенирования генома
2000-е: расшифровывается всё большее число геномов млекопитающих.
Секвенирование генома: иллюстрацияМного копий генома
Секвенирование генома: иллюстрацияМного копий генома
Чтение ридов
Секвенирование генома: иллюстрацияМного копий генома
Риды
Чтение ридов
Секвенирование генома: иллюстрацияМного копий генома
Риды
Чтение ридов
Сборка фрагментов
Секвенирование генома: иллюстрацияМного копий генома
Риды
Собранный геном
…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…
Чтение ридов
Сборка фрагментов
Секвенирование сложнее задачи о газете
• В каждом геноме есть много повторяющихся подстрок (50% человеческого генома — повторения).
• Пример: GCTT встречается четыре раза в строке
AAGCTTCTATTGCTTAATTGGCTTGCTTCGCTTTG
• Аналогия: треугольный пазлсодержит множествоповторяющихся фигур.Это сильно затрудняет егорешение (даже с 16 кусочками).
ДНК-чипы: реализация 1. Синтезировать все k-меры в каждой из
4k ячеек матрицы. 2. Покрыть матрицу многими копиями
флуоресцентно помеченного фрагмента неизвестной ДНК.
3. ДНК гибридизирует с k-мером,если они дополняют друг друга.
4. Использовать спектроскоп, чтобыопределить, какие ячейкиизлучают свет — дополненияк этим ячейкам выявят k-мерынеизвестного фрагмента ДНК.Это и есть искомые риды!
ДНК-чипы: иллюстрация
ДНК-чипы: примерПрочитанные риды:
AAA AGA CAA CGA GAA GGA TAA TGA
AAC AGC CAC CGC GAC GGC TAC TGC
AAG AGG CAG CGG GAG GGG TAG TGG
AAT AGT CAT CGT GAT GGT TAT TGT
ACA ATA CCA CTA GCA GTA TCA TTA
ACC ATC CCC CTC GCC GTC TCC TTC
ACG ATG CCG CTG GCG GTG TCG TTG
ACT ATT CCT CTT GCT GTT TCT TTT
Гамильтонов цикл в графе HВ графе H есть гамильтонов цикл:
ATG CGT GGC AAT GTG TGG TGC CAA GCA GCG
Гамильтонов цикл в графе HВ графе H есть гамильтонов цикл:• ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATG
ATG TGG GGC GCG CGT GTG TGC GCA CAA AAT ATGATGGCGTGCAATG
Геном:
AT
G
G
CG
T
G
C
A
Второй подход: граф EСформируем иной граф E следующим образом:Вершины = все префиксы и суффиксы всех k-меров.Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.
CAGC
CG
TG
GT
GG
AT
AA
TGCGGCCGTCAAAAT
GTGGCGGCAATGTGG
Риды
Второй подход: граф EСформируем иной граф E следующим образом:
Вершины = все префиксы и суффиксы всех k-меров.Соединим вершины v и wориентированным ребром,если есть k-мер, в которомпрефикс — это v, асуффикс — это w.
CAGC
CG
TG
GT
GG
AT
AA
TGCGGCCGTCAAAAT
GTGGCGGCAATGTGG
Риды
ATG
TGGGGC
GCG
CGT
GTG
TGC GCA
CAAAAT
Вопрос Де Брюйна1946: голландский математик Николаас де Брюйн задаётся вопросом: как создать циклическую строку минимальной длины, которая содержала бы любую строку длины k из нулей и единиц?
Например, k = 3. Круговая строка «00011101» содержит все 8 двоичных строк длины 3. (На иллюстрации — подстроки 000 и 110).
Николаас де Брюйн
Вопрос Де БрюйнаДе Брюйн ввёл специальный граф B(n, k):Вершины = все nk – 1 возможных (k – 1)-меров надn-буквенным алфавитом.Ребро идет из v в w,если есть k-мер, чейпрефикс = v, асуффикс = w.
Справа приведен B(2, 4)Подразумеваетсяалфавит {0, 1}
Вопрос Де БрюйнаПри любых n и k, B(n, k) является сблансированным и связным, а значит, эйлеровым.Почему? Потому чтовходящая и исходящаястепень каждой вершиныравняется n — размеруалфавита.Красные числапоказывают порядокрёбер в эйлеровом цикле.