Upload
-
View
168
Download
0
Embed Size (px)
Citation preview
Описание задачи Описание применяемого метода Заключение
Сборка контигов геномной
последовательности на основе метода
максимального правдоподобия
Шагал А. А.
Научный руководитель к.т.н., доцент каф. КТ
Царев Ф. Н.
Университет ИТМО
16 июня 2014 г.
1/19
Описание задачи Описание применяемого метода Заключение
Геном
I Наследственная информация организма
I ДНК для большинства организмов, РНК для вирусов
I Двойная спиральI A - аденинI С - цитозинI T - тиминI G - гуанин
Исследование генома
I Чтение данных
I Сборка генома
I Анализ генома
2/19
Описание задачи Описание применяемого метода Заключение
Сборка генома
I Исправление ошибок
I Парные чтения - префикс и суффикс фрагмента генома
I Квазиконтиги - фрагменты генома
I Контиги - более длинные фрагменты генома
I Скэффолды
3/19
Описание задачи Описание применяемого метода Заключение
Overlap-Layout-Consensus
ATGCCATCAGGACTCCATCAGGACTAAC
center shift
C1
C2
CATCAGGACTCCATCAGGACTAAC
center shift
C1
C2
I Поиск перекрытий
I Удаление транзитивных перекрытий
I Построение графа перекрытий и его упрощение
I Вывод первого приближения контигов
I Микросборка
4/19
Описание задачи Описание применяемого метода Заключение
Граф перекрытий
I Вершины - квазиконтиги
I Ребра - перекрытия
I Размер перекрытия ∼ вес
ребра
I Цель: несколько простых
путей
I Проблема: развилки
AGCT
GCTTT
GCTA
TGC
31
3
1
1
2
5/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий
I Объединение схожих путей
I Удаление отростков
I Удаление не максимальных по весу ребер
Влияние ошибочных ребер
ошибочный путь
уменьшение средней длины
6/19
Описание задачи Описание применяемого метода Заключение
Упрощение графа перекрытий, продолжение
Оценка правдоподобия ребер
P(e) = 1− Pw(e)e - ребро
P(e) правдоподобие ребраPw(e) оценочная вероятность ребра оказаться ошибочным
A
B D
C
AC, AD, BC, BD
7/19
Описание задачи Описание применяемого метода Заключение
Постановка задачи
I Разработать метод тестирования путей на основе
статистических тестов
I Разработать статистики для статистических тестов
I Примененить методику тестированию путей для
распутывания графа перекрытий
8/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
Модель получения чтений
I Равномерно выбирается позиция
I Исходя из нормального распределения выбирается
длина фрагмента
Тестирование пути
I Нулевая гипотеза(H0) - путь существует в геномеI Статистика(f) - числовая функция от набора чтений иинформации о пути.
I Покрытие геномаI Нормальность распределения длин парных чтенийI Информация о позиции "сомнительного"фрагмента
I Пример: f(набор чтений + информация о пути) = длина
самого правого чтения.
9/19
Описание задачи Описание применяемого метода Заключение
Статистические тесты
путь+
информация о нем
набор чтений,скартировавшихся на путь
генератор+модель получения чтений+нулевая гипотеза
1000 * набор чтений
1000 * f(набор чтений)
value
value
p-value
статистика(f)
статистика(f)
Рис.: Анализ пути
10/19
Описание задачи Описание применяемого метода Заключение
Статистика №1
I fragmentlength - длина фрагмента из которого было
получено парное чтение.
I Короткий повтор ∼ fragmentlength
I Длинный повтор ≫ длина парного чтения(fragmentlength)
<fragmentlength<fragmentlength
>fragmentlength
Число чтений, таких, что левый конец слева от повтора,
правый справа
11/19
Описание задачи Описание применяемого метода Заключение
Статистика №2
покрытий чтениями
n
pos
короткий повтор
Минимальное покрытие
I Отсортировать покрытия
I Выделить 10% минимальных
I Взять среднее
12/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик
I 5 статистикI Среднее покрытиеI Минимальное покрытиеI Отклонение нормального распределенияI Минимальная длина фрагментаI Покрытие повтора
I ≥ 1 статистики срабатывает → отвергается нулевая
гипотеза
I E.coli, 4 типа путей, 10000 каждого типа, 5000нуклеотидов
I Правильные путиI Короткие повторыI Длинные повторыI Ошибки
13/19
Описание задачи Описание применяемого метода Заключение
Тестирование статистик, продолжение
I Правильные пути - 7% ошибок
I Короткие повторы - 10% ошибок
I Длинные повторы - 5% правильно
I Ошибки - 10% правильно
14/19
Описание задачи Описание применяемого метода Заключение
Запутанность
I V1,V2− наборы простых
путей, E набор путей
соединяющих V1 и V2
I Набор путей вида v1ieiv2i,
где
v1i ∈ V1; ei ∈ E; v2i ∈ V2
Поиск запутанностей:
I bfs от концов простых
путей
V2
E
V1
15/19
Описание задачи Описание применяемого метода Заключение
Общая схема решения
I Поиск запутанностей
I Картирование чтений на пути образующие запутанности
I Проведение статистических тестов
I Расспутывание запутанности
16/19
Описание задачи Описание применяемого метода Заключение
Результаты
Эксперименты по тестированию путей образующих
запутанности
I E.coli 500К квазиконтигов
I 30 запутанностей, 113 путей, 28 ошибочных
Результат: 90% ошибок найдено
17/19
Описание задачи Описание применяемого метода Заключение
Результаты, продолжение
ITMO Genome
Assembler
ITMO Genome Assembler
c оценкой правдоподобия
ребер
ITMO Genome Assembler с
применением методики
N50 13534 13614 15592
Суммарная длина
контигов4530812 4557888 4558125
Число контигов 572 579 561
Число ошибочных
контигов9 4 4
18/19
Описание задачи Описание применяемого метода Заключение
Заключение
I Разработана методика проведения статистических
тестов
I Предложен набор статистик основанных на модели
получения данных
I Предложенный подход улучшает качество сборки
Дальше:
I Разработка новых статистик
I Использование информации о повторах при генерации
наборов чтений
I Оптимизация производительности
19/19