Совместное применение графов де Брёйна, графов...

Preview:

Citation preview

Совместное применение графов де Брёйна, графов перекрытий и микросборки для de novo сборки геномаАлександров А. В., Казаков С. В.,

Мельников С. В., Сергушичев А. А., Федотов П. В., Царев Ф. Н., Шалыто А. А.

Лаборатория «Алгоритмы сборки геномных последовательностей»

Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

Казань, 2012

2

Секвенирование генома• Геном – строка над алфавитом {A, T, G, C}.• Секвенаторы первого поколения читают «длинные»

фрагментами (~1000 нуклеотидов).– Долго и дорого.

• Секвенаторы второго поколения читают «короткие» фрагменты.– Намного быстрее и дешевле.

• Необходимо покрыть геном чтениями несколько десятков раз.

ДНК

Фрагмент (~500 нуклеотидов)

Парные чтения (риды) (по ~100 нуклеотидов)

33

Алгоритм

Исправление ошибок

Сборка квази-

контигов

Начальная сборка

контигов

Микро-сборка

контигов

Граф де Брёйна

Граф перекрытий

Сборка скэффолдов

44

Исправление ошибок

• K-меры – подстроки длины k.• «Надежные» и «ненадежные» k-меры.• Исправить «ненадежные» k-меры на

«надежные».• Все k-меры не влезают в память.

• Разделить их на корзины согласно префиксам.

• Обрабатывать корзины отдельно.

55

Сборка квазиконтигов

??? GTCCATGC

ATGCATGCAGTG GTCCATGC

66

Граф де Брёйна

Граф де Брёйна для множества строк S:

● V =

● E =

7

Пример графа де Брёйна (1)

8

Пример графа де Брёйна (2)

AGT GTG

GTC TCA CAT ATC TCC

CCA

CAA

AACACA

CAC

CAGAGGGGAGAG

99

Сборка квазиконтигов

• Построим граф де Брёйна.

• Для каждой пары чтений (r1, r2) найдем путь от первого k-мера r1 до последнего k-мера r2.

• Длина пути должна укладываться в априорные границы.

• Путь должен быть единственным.

10

Пример графа де Брёйна (3)

11

Пример графа де Брёйна (4)

Уникальные пути преобразуются в квазиконтиги

1313

Сборка первых версий контигов

• Overlap– Суффиксный массив– Неточные перекрытия

• Layout– Граф перекрытий

• Consensus

14

Микросборка

• Есть парные чтения, концы которых расположены на разных контигах.

• Промежуток между контигами покрыт чтениями, парными к расположенным на обоих контигах.

15

Алгоритм микросборки

• Найдем позиции парных чтений в контигах (Bowtie).

• Найдем такие пары контигов, что их соединяет достаточно большое число чтений.

• Построим граф де Брёйна из парных чтений, как минимум одно из которых расположено в одном из этих контигов.

• Воспользуемся алгоритмом сборки квазиконтигов для заполнения промежутка.

16

Результаты

• Геном E. Coli – 4,5 миллионов нуклеотидов.

• Библиотека SRR001665, длина фрагмента – 200 нуклеотидов, длина чтений – 36 нуклеотидов, покрытие – 300.

• До микросборки – 525 контигов с N50 = 17804.

• После микросборки – 247 контигов с N50 = 53720.

• ABySS – 632 контига с N50 = 64280.

17

Интернет-сервис

• http://genome.ifmo.ru/cloud

18

Благодарности

• Академик РАН Скрябин К. Г., Центр «Биоинженерия» РАН.

• Докт. биол. наук Прохорчук Е. Б., Центр «Биоинженерия» РАН.

• Алексеев Д. Г., НИИ ФХМ.

1919

Вопросы?

Recommended