19
Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома Александров А. В., Казаков С. В., Мельников С. В., Сергушичев А. А., Федотов П. В., Царев Ф. Н., Шалыто А. А. Лаборатория «Алгоритмы сборки геномных последовательностей» Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики Казань, 2012

Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

Embed Size (px)

Citation preview

Page 1: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки геномаАлександров А. В., Казаков С. В.,

Мельников С. В., Сергушичев А. А., Федотов П. В., Царев Ф. Н., Шалыто А. А.

Лаборатория «Алгоритмы сборки геномных последовательностей»

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

Казань, 2012

Page 2: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

2

Секвенирование генома• Геном – строка над алфавитом {A, T, G, C}.• Секвенаторы первого поколения читают «длинные»

фрагментами (~1000 нуклеотидов).– Долго и дорого.

• Секвенаторы второго поколения читают «короткие» фрагменты.– Намного быстрее и дешевле.

• Необходимо покрыть геном чтениями несколько десятков раз.

ДНК

Фрагмент (~500 нуклеотидов)

Парные чтения (риды) (по ~100 нуклеотидов)

Page 3: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

33

Алгоритм

Исправление ошибок

Сборка квази-

контигов

Начальная сборка

контигов

Микро-сборка

контигов

Граф де Брёйна

Граф перекрытий

Сборка скэффолдов

Page 4: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

44

Исправление ошибок

• K-меры – подстроки длины k.• «Надежные» и «ненадежные» k-меры.• Исправить «ненадежные» k-меры на

«надежные».• Все k-меры не влезают в память.

• Разделить их на корзины согласно префиксам.

• Обрабатывать корзины отдельно.

Page 5: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

55

Сборка квазиконтигов

??? GTCCATGC

ATGCATGCAGTG GTCCATGC

Page 6: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

66

Граф де Брёйна

Граф де Брёйна для множества строк S:

● V =

● E =

Page 7: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

7

Пример графа де Брёйна (1)

Page 8: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

8

Пример графа де Брёйна (2)

AGT GTG

GTC TCA CAT ATC TCC

CCA

CAA

AACACA

CAC

CAGAGGGGAGAG

Page 9: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

99

Сборка квазиконтигов

• Построим граф де Брёйна.

• Для каждой пары чтений (r1, r2) найдем путь от первого k-мера r1 до последнего k-мера r2.

• Длина пути должна укладываться в априорные границы.

• Путь должен быть единственным.

Page 10: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

10

Пример графа де Брёйна (3)

Page 11: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

11

Пример графа де Брёйна (4)

Page 12: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

Уникальные пути преобразуются в квазиконтиги

Page 13: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

1313

Сборка первых версий контигов

• Overlap– Суффиксный массив– Неточные перекрытия

• Layout– Граф перекрытий

• Consensus

Page 14: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

14

Микросборка

• Есть парные чтения, концы которых расположены на разных контигах.

• Промежуток между контигами покрыт чтениями, парными к расположенным на обоих контигах.

Page 15: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

15

Алгоритм микросборки

• Найдем позиции парных чтений в контигах (Bowtie).

• Найдем такие пары контигов, что их соединяет достаточно большое число чтений.

• Построим граф де Брёйна из парных чтений, как минимум одно из которых расположено в одном из этих контигов.

• Воспользуемся алгоритмом сборки квазиконтигов для заполнения промежутка.

Page 16: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

16

Результаты

• Геном E. Coli – 4,5 миллионов нуклеотидов.

• Библиотека SRR001665, длина фрагмента – 200 нуклеотидов, длина чтений – 36 нуклеотидов, покрытие – 300.

• До микросборки – 525 контигов с N50 = 17804.

• После микросборки – 247 контигов с N50 = 53720.

• ABySS – 632 контига с N50 = 64280.

Page 17: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

17

Интернет-сервис

• http://genome.ifmo.ru/cloud

Page 18: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

18

Благодарности

• Академик РАН Скрябин К. Г., Центр «Биоинженерия» РАН.

• Докт. биол. наук Прохорчук Е. Б., Центр «Биоинженерия» РАН.

• Алексеев Д. Г., НИИ ФХМ.

Page 19: Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки генома

1919

Вопросы?