16

"Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

  • Upload
    yandex

  • View
    2.727

  • Download
    8

Embed Size (px)

DESCRIPTION

В докладе речь пойдёт об алгоритмических задачах в области анализа генома человека, а также о том, почему для более эффективного их решения необходимы распределённые вычисления. Более подробно мы остановимся на подходах к решению задач сборки генома и выявления наследственных заболеваний. Затем я расскажу, как для решения этих задач используется платформа YT, и каковы её преимущества. Доклад будет интересен всем, кто хочет больше узнать о применении распределённых вычислений в биологии и об анализе генома в целом.

Citation preview

Page 1: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс
Page 2: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Биоиформатика с использованием YT

Колесниченко Игнат

Page 3: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

ДНК

Ген

Гомозиготы и гетерозиготы

Аллель

Терминология

3

Page 4: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Белок

Экзон

Мутация

Терминология

4

Page 5: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Задачи решаемые iBinom

Определение наследственных заболеваний:

– Поиск мутаций– Задача мать-плод– Trio-анализ– Подсчет количества хромосом

5

Page 6: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Поиск наследственных заболеваний

Секвенировение

Сборка генома

Поиск и анализ мутаций

6

Page 7: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Сборка геномаИсходные данные:

Длина генома человека примерно 3 млрд. нуклеотидов

На каждые 100-1000 символов прибор делает одну ошибку

Секвенирование делается с покрытием >30

Итого на входе 200 Гб данных.

Сборка De Novo - надо собрать одну последовательность.

7

Page 8: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Сборка генома

Геномы разных людей очень похожи

Сборка выравниванием

Виды отличий

– Точечные мутации– Инделы (вставки и удаления)– Транслокации (перестановки)

8

Page 9: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Сборка геномаАлгоритмическая постановка задачи:

Есть текст длины n (~3млрд) и много (~2млрд) коротких строк (длины 50-100), которые надо найти в тексте с учетом ошибок (замен, вставок и удалений).

Особенности:

– Много равноправных вхождений– Ошибки могут быть вызваны как мутациями, так и прибором – Необходимо учитывать качество

9

Page 10: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Сборка геномаРешения:

– SOAP, Bowtie, BWA – BLAT, SSAHA2

Особенности:

– Риды обрабатываются независимо– Длинные риды искать тяжелее и дольше– Многие не умеют находить инделы– Скорость работы 100Кб/с – 2Мб/с

10

Page 11: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Поиск точечных мутаций

Page 12: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Определение патогенности мутацииТребуется определить приведет ли мутация к заболеванию.

Две части:

– Мутация -> дисфункции белка– Дисфункция белка -> заболевание

Методы решения:

– Статистический– Физический

12

Page 13: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

YT + MapReduce

13

Риды

200 Gb

Выравнивание

Shuffle

200 Gb

Поиск мутаций+

аннотация

Мутации

10 Mb

Page 14: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Результаты

Время анализа генома сократилось с 80 часов до 40 минут

Экономное хранение данных благодаря Erasure Coding

Анализ очень дешевый по меркам рынка

14

Page 15: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

Спасибо за внимание!

Page 16: "Распределённые вычисления в биоинформатике на примере YT". Игнатий Колесниченко, Яндекс

16

Колесниченко ИгнатРазработчик YTОснователь  iBinom

+7-­‐903-­‐166-­‐51-­‐64

[email protected]@yandex-team.ru

© !!! «"#$%&'», 2013