Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Сборка контигов геномной

последовательности на основе метода

максимального правдоподобия

Шагал А. А.

Научный руководитель к.т.н., доцент каф. КТ

Царев Ф. Н.

Университет ИТМО

16 июня 2014 г.

1/19


Геном

I Наследственная информация организма

I ДНК для большинства организмов, РНК для вирусов

I Двойная спиральI A - аденинI С - цитозинI T - тиминI G - гуанин

Исследование генома

I Чтение данных

I Сборка генома

I Анализ генома

2/19


Сборка генома

I Исправление ошибок

I Парные чтения - префикс и суффикс фрагмента генома

I Квазиконтиги - фрагменты генома

I Контиги - более длинные фрагменты генома

I Скэффолды

3/19


Overlap-Layout-Consensus

ATGCCATCAGGACTCCATCAGGACTAAC

center shift

C1

C2

CATCAGGACTCCATCAGGACTAAC

center shift

C1

C2

I Поиск перекрытий

I Удаление транзитивных перекрытий

I Построение графа перекрытий и его упрощение

I Вывод первого приближения контигов

I Микросборка

4/19


Граф перекрытий

I Вершины - квазиконтиги

I Ребра - перекрытия

I Размер перекрытия ∼ вес

ребра

I Цель: несколько простых

путей

I Проблема: развилки

AGCT

GCTTT

GCTA

TGC

31

3

1

1

2

5/19


Упрощение графа перекрытий

I Объединение схожих путей

I Удаление отростков

I Удаление не максимальных по весу ребер

Влияние ошибочных ребер

ошибочный путь

уменьшение средней длины

6/19


Упрощение графа перекрытий, продолжение

Оценка правдоподобия ребер

P(e) = 1− Pw(e)e - ребро

P(e) правдоподобие ребраPw(e) оценочная вероятность ребра оказаться ошибочным

A

B D

C

AC, AD, BC, BD

7/19


Постановка задачи

I Разработать метод тестирования путей на основе

статистических тестов

I Разработать статистики для статистических тестов

I Примененить методику тестированию путей для

распутывания графа перекрытий

8/19


Статистические тесты

Модель получения чтений

I Равномерно выбирается позиция

I Исходя из нормального распределения выбирается

длина фрагмента

Тестирование пути

I Нулевая гипотеза(H0) - путь существует в геномеI Статистика(f) - числовая функция от набора чтений иинформации о пути.

I Покрытие геномаI Нормальность распределения длин парных чтенийI Информация о позиции "сомнительного"фрагмента

I Пример: f(набор чтений + информация о пути) = длина

самого правого чтения.

9/19


Статистические тесты

путь+

информация о нем

набор чтений,скартировавшихся на путь

генератор+модель получения чтений+нулевая гипотеза

1000 * набор чтений

1000 * f(набор чтений)

value

value

p-value

статистика(f)

статистика(f)

Рис.: Анализ пути

10/19


Статистика №1

I fragmentlength - длина фрагмента из которого было

получено парное чтение.

I Короткий повтор ∼ fragmentlength

I Длинный повтор ≫ длина парного чтения(fragmentlength)

<fragmentlength<fragmentlength

>fragmentlength

Число чтений, таких, что левый конец слева от повтора,

правый справа

11/19


Статистика №2

покрытий чтениями

n

pos

короткий повтор

Минимальное покрытие

I Отсортировать покрытия

I Выделить 10% минимальных

I Взять среднее

12/19


Тестирование статистик

I 5 статистикI Среднее покрытиеI Минимальное покрытиеI Отклонение нормального распределенияI Минимальная длина фрагментаI Покрытие повтора

I ≥ 1 статистики срабатывает → отвергается нулевая

гипотеза

I E.coli, 4 типа путей, 10000 каждого типа, 5000нуклеотидов

I Правильные путиI Короткие повторыI Длинные повторыI Ошибки

13/19


Тестирование статистик, продолжение

I Правильные пути - 7% ошибок

I Короткие повторы - 10% ошибок

I Длинные повторы - 5% правильно

I Ошибки - 10% правильно

14/19


Запутанность

I V1,V2− наборы простых

путей, E набор путей

соединяющих V1 и V2

I Набор путей вида v1ieiv2i,

где

v1i ∈ V1; ei ∈ E; v2i ∈ V2

Поиск запутанностей:

I bfs от концов простых

путей

V2

E

V1

15/19


Общая схема решения

I Поиск запутанностей

I Картирование чтений на пути образующие запутанности

I Проведение статистических тестов

I Расспутывание запутанности

16/19


Результаты

Эксперименты по тестированию путей образующих

запутанности

I E.coli 500К квазиконтигов

I 30 запутанностей, 113 путей, 28 ошибочных

Результат: 90% ошибок найдено

17/19


Результаты, продолжение

ITMO Genome

Assembler

ITMO Genome Assembler

c оценкой правдоподобия

ребер

ITMO Genome Assembler с

применением методики

N50 13534 13614 15592

Суммарная длина

контигов4530812 4557888 4558125

Число контигов 572 579 561

Число ошибочных

контигов9 4 4

18/19


Заключение

I Разработана методика проведения статистических

тестов

I Предложен набор статистик основанных на модели

получения данных

I Предложенный подход улучшает качество сборки

Дальше:

I Разработка новых статистик

I Использование информации о повторах при генерации

наборов чтений

I Оптимизация производительности

19/19

Education

Сборка контигов геномной последовательности на основе метода максимального правдоподобия