19

Сборка контигов геномной последовательности на основе метода максимального правдоподобия

  • Upload
    -

  • View
    168

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Сборка контигов геномной

последовательности на основе метода

максимального правдоподобия

Шагал А. А.

Научный руководитель к.т.н., доцент каф. КТ

Царев Ф. Н.

Университет ИТМО

16 июня 2014 г.

1/19

Page 2: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Геном

I Наследственная информация организма

I ДНК для большинства организмов, РНК для вирусов

I Двойная спиральI A - аденинI С - цитозинI T - тиминI G - гуанин

Исследование генома

I Чтение данных

I Сборка генома

I Анализ генома

2/19

Page 3: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Сборка генома

I Исправление ошибок

I Парные чтения - префикс и суффикс фрагмента генома

I Квазиконтиги - фрагменты генома

I Контиги - более длинные фрагменты генома

I Скэффолды

3/19

Page 4: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Overlap-Layout-Consensus

ATGCCATCAGGACTCCATCAGGACTAAC

center shift

C1

C2

CATCAGGACTCCATCAGGACTAAC

center shift

C1

C2

I Поиск перекрытий

I Удаление транзитивных перекрытий

I Построение графа перекрытий и его упрощение

I Вывод первого приближения контигов

I Микросборка

4/19

Page 5: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Граф перекрытий

I Вершины - квазиконтиги

I Ребра - перекрытия

I Размер перекрытия ∼ вес

ребра

I Цель: несколько простых

путей

I Проблема: развилки

AGCT

GCTTT

GCTA

TGC

31

3

1

1

2

5/19

Page 6: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Упрощение графа перекрытий

I Объединение схожих путей

I Удаление отростков

I Удаление не максимальных по весу ребер

Влияние ошибочных ребер

ошибочный путь

уменьшение средней длины

6/19

Page 7: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Упрощение графа перекрытий, продолжение

Оценка правдоподобия ребер

P(e) = 1− Pw(e)e - ребро

P(e) правдоподобие ребраPw(e) оценочная вероятность ребра оказаться ошибочным

A

B D

C

AC, AD, BC, BD

7/19

Page 8: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Постановка задачи

I Разработать метод тестирования путей на основе

статистических тестов

I Разработать статистики для статистических тестов

I Примененить методику тестированию путей для

распутывания графа перекрытий

8/19

Page 9: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Статистические тесты

Модель получения чтений

I Равномерно выбирается позиция

I Исходя из нормального распределения выбирается

длина фрагмента

Тестирование пути

I Нулевая гипотеза(H0) - путь существует в геномеI Статистика(f) - числовая функция от набора чтений иинформации о пути.

I Покрытие геномаI Нормальность распределения длин парных чтенийI Информация о позиции "сомнительного"фрагмента

I Пример: f(набор чтений + информация о пути) = длина

самого правого чтения.

9/19

Page 10: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Статистические тесты

путь+

информация о нем

набор чтений,скартировавшихся на путь

генератор+модель получения чтений+нулевая гипотеза

1000 * набор чтений

1000 * f(набор чтений)

value

value

p-value

статистика(f)

статистика(f)

Рис.: Анализ пути

10/19

Page 11: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Статистика №1

I fragmentlength - длина фрагмента из которого было

получено парное чтение.

I Короткий повтор ∼ fragmentlength

I Длинный повтор ≫ длина парного чтения(fragmentlength)

<fragmentlength<fragmentlength

>fragmentlength

Число чтений, таких, что левый конец слева от повтора,

правый справа

11/19

Page 12: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Статистика №2

покрытий чтениями

n

pos

короткий повтор

Минимальное покрытие

I Отсортировать покрытия

I Выделить 10% минимальных

I Взять среднее

12/19

Page 13: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Тестирование статистик

I 5 статистикI Среднее покрытиеI Минимальное покрытиеI Отклонение нормального распределенияI Минимальная длина фрагментаI Покрытие повтора

I ≥ 1 статистики срабатывает → отвергается нулевая

гипотеза

I E.coli, 4 типа путей, 10000 каждого типа, 5000нуклеотидов

I Правильные путиI Короткие повторыI Длинные повторыI Ошибки

13/19

Page 14: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Тестирование статистик, продолжение

I Правильные пути - 7% ошибок

I Короткие повторы - 10% ошибок

I Длинные повторы - 5% правильно

I Ошибки - 10% правильно

14/19

Page 15: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Запутанность

I V1,V2− наборы простых

путей, E набор путей

соединяющих V1 и V2

I Набор путей вида v1ieiv2i,

где

v1i ∈ V1; ei ∈ E; v2i ∈ V2

Поиск запутанностей:

I bfs от концов простых

путей

V2

E

V1

15/19

Page 16: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Общая схема решения

I Поиск запутанностей

I Картирование чтений на пути образующие запутанности

I Проведение статистических тестов

I Расспутывание запутанности

16/19

Page 17: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Результаты

Эксперименты по тестированию путей образующих

запутанности

I E.coli 500К квазиконтигов

I 30 запутанностей, 113 путей, 28 ошибочных

Результат: 90% ошибок найдено

17/19

Page 18: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Результаты, продолжение

ITMO Genome

Assembler

ITMO Genome Assembler

c оценкой правдоподобия

ребер

ITMO Genome Assembler с

применением методики

N50 13534 13614 15592

Суммарная длина

контигов4530812 4557888 4558125

Число контигов 572 579 561

Число ошибочных

контигов9 4 4

18/19

Page 19: Сборка контигов геномной последовательности на основе метода максимального правдоподобия

Описание задачи Описание применяемого метода Заключение

Заключение

I Разработана методика проведения статистических

тестов

I Предложен набор статистик основанных на модели

получения данных

I Предложенный подход улучшает качество сборки

Дальше:

I Разработка новых статистик

I Использование информации о повторах при генерации

наборов чтений

I Оптимизация производительности

19/19