19
Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom

Семинар ДНК 16/05/2014 iBinom

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Семинар ДНК 16/05/2014 iBinom

Обработка данных секвенирования следующего

поколения в один клик

Афанасьев Андрей,Генеральный директор iBinom

Page 2: Семинар ДНК 16/05/2014 iBinom

Проблемы текущих решений

• Сложная установка

• Сложная настройка

• Медленная работа

• Плохая воспроизводимость результатов

• Плохая визуализация результатов

Page 3: Семинар ДНК 16/05/2014 iBinom

Задача

Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей:

– Простой интерфейс

– Минимум настроек

– Высокая скорость работы и воспроизводимость результатов

– Высокая точность

Page 4: Семинар ДНК 16/05/2014 iBinom

Технические сложности

• Алгоритмическая сложность и ресурсоемкость (до 1000 CPU*h на анализ)

• Большой объем входных данных (1-500 Гб)

• Разные форматы данных FastQ (длины ридов, качество в phred33/phred64)

• Обеспечение безопасности передачи и хранения данных

Page 5: Семинар ДНК 16/05/2014 iBinom

Подход

• Фильтрация ридов по качеству

• Картирование

• Фильтрация по таргетным регионам

• Поиск SNP и коротких indel

• Аннотация

• Сортировка по патогенности и формирование отчета

Page 6: Семинар ДНК 16/05/2014 iBinom

Реализация

• Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce(неограниченная масштабируемость)

• Хранение данных в S3• Картирование BWA-MEM• Референс hg19 GRCh37.p13 assembly, ver. 73.37• Коллинг SamTools• Аннотация SnpEff• Собственная оценка патогенности –

ibinom score

Page 7: Семинар ДНК 16/05/2014 iBinom

Выравнивание(симулированные данные)

Total Correct Reads (%) Incorrectly Mapped Reads (%)

Unmapped Reads (%)

iBinom 7863529 101527 7

98.73% 1.27% 0.00%

Bowtie2 7670364 251234 41901

96.32% 3.15% 0.53%

Bwa 7363467 81561 518471

92.47% 1.02% 6.51%

Page 8: Семинар ДНК 16/05/2014 iBinom

Коллинг

Page 9: Семинар ДНК 16/05/2014 iBinom

Коллинг

Page 10: Семинар ДНК 16/05/2014 iBinom

iBinom Score

• Машинное обучение с помощью алгоритма градиентного бустинга

• Обучающая выборка:

– Патогенные: записи из dbsnp c clinvar clinicalsignificance = pathogenic

– Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях

Page 11: Семинар ДНК 16/05/2014 iBinom

iBinom Score

Точность: 93.44%

Полнота: 90.96%

F-measure: 92.18%

Обучение по базам и скорам:

1000genomes, ClinVar, dbSNP, dbNSFP, EnsemblProject, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.

Page 12: Семинар ДНК 16/05/2014 iBinom
Page 13: Семинар ДНК 16/05/2014 iBinom

Использование iBinom

1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace

2. Встроенный тримминг адаптеров

3. Можно объединять несколько файлов в один образец

4. Можно скачать vcf-файл (в формате v.4.1)

5. Для передачи используется шифрованное соединение https

Page 14: Семинар ДНК 16/05/2014 iBinom
Page 15: Семинар ДНК 16/05/2014 iBinom
Page 16: Семинар ДНК 16/05/2014 iBinom
Page 17: Семинар ДНК 16/05/2014 iBinom
Page 18: Семинар ДНК 16/05/2014 iBinom

Планы

1. Система подбора болезней(по симптомам, по списку генов, по списку болезней)

2. Ветвление пайплайна(например, выравнивание TMAP для IonTorrent)

3. Переделка и упрощение интерфейса программы

Page 19: Семинар ДНК 16/05/2014 iBinom

Приглашаем к сотрудничеству!

[email protected]