Upload
anton-alexandrov
View
3.945
Download
0
Embed Size (px)
Citation preview
Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки геномаАлександров А. В., Казаков С. В.,
Мельников С. В., Сергушичев А. А., Федотов П. В., Царев Ф. Н., Шалыто А. А.
Лаборатория «Алгоритмы сборки геномных последовательностей»
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики
Казань, 2012
2
Секвенирование генома• Геном – строка над алфавитом {A, T, G, C}.• Секвенаторы первого поколения читают «длинные»
фрагментами (~1000 нуклеотидов).– Долго и дорого.
• Секвенаторы второго поколения читают «короткие» фрагменты.– Намного быстрее и дешевле.
• Необходимо покрыть геном чтениями несколько десятков раз.
ДНК
Фрагмент (~500 нуклеотидов)
Парные чтения (риды) (по ~100 нуклеотидов)
33
Алгоритм
Исправление ошибок
Сборка квази-
контигов
Начальная сборка
контигов
Микро-сборка
контигов
Граф де Брёйна
Граф перекрытий
Сборка скэффолдов
44
Исправление ошибок
• K-меры – подстроки длины k.• «Надежные» и «ненадежные» k-меры.• Исправить «ненадежные» k-меры на
«надежные».• Все k-меры не влезают в память.
• Разделить их на корзины согласно префиксам.
• Обрабатывать корзины отдельно.
55
Сборка квазиконтигов
??? GTCCATGC
ATGCATGCAGTG GTCCATGC
66
Граф де Брёйна
Граф де Брёйна для множества строк S:
● V =
● E =
7
Пример графа де Брёйна (1)
8
Пример графа де Брёйна (2)
AGT GTG
GTC TCA CAT ATC TCC
CCA
CAA
AACACA
CAC
CAGAGGGGAGAG
99
Сборка квазиконтигов
• Построим граф де Брёйна.
• Для каждой пары чтений (r1, r2) найдем путь от первого k-мера r1 до последнего k-мера r2.
• Длина пути должна укладываться в априорные границы.
• Путь должен быть единственным.
10
Пример графа де Брёйна (3)
11
Пример графа де Брёйна (4)
Уникальные пути преобразуются в квазиконтиги
1313
Сборка первых версий контигов
• Overlap– Суффиксный массив– Неточные перекрытия
• Layout– Граф перекрытий
• Consensus
14
Микросборка
• Есть парные чтения, концы которых расположены на разных контигах.
• Промежуток между контигами покрыт чтениями, парными к расположенным на обоих контигах.
15
Алгоритм микросборки
• Найдем позиции парных чтений в контигах (Bowtie).
• Найдем такие пары контигов, что их соединяет достаточно большое число чтений.
• Построим граф де Брёйна из парных чтений, как минимум одно из которых расположено в одном из этих контигов.
• Воспользуемся алгоритмом сборки квазиконтигов для заполнения промежутка.
16
Результаты
• Геном E. Coli – 4,5 миллионов нуклеотидов.
• Библиотека SRR001665, длина фрагмента – 200 нуклеотидов, длина чтений – 36 нуклеотидов, покрытие – 300.
• До микросборки – 525 контигов с N50 = 17804.
• После микросборки – 247 контигов с N50 = 53720.
• ABySS – 632 контига с N50 = 64280.
17
Интернет-сервис
• http://genome.ifmo.ru/cloud
18
Благодарности
• Академик РАН Скрябин К. Г., Центр «Биоинженерия» РАН.
• Докт. биол. наук Прохорчук Е. Б., Центр «Биоинженерия» РАН.
• Алексеев Д. Г., НИИ ФХМ.
1919
Вопросы?