19
Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom

Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Embed Size (px)

Citation preview

Page 1: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Обработка данных секвенирования следующего

поколения в один клик

Афанасьев Андрей,Генеральный директор iBinom

Page 2: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Проблемы текущих решений

• Сложная установка

• Сложная настройка

• Медленная работа

• Плохая воспроизводимость результатов

• Плохая визуализация результатов

Page 3: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Задача

Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей:

– Простой интерфейс

– Минимум настроек

– Высокая скорость работы и воспроизводимость результатов

– Высокая точность

Page 4: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Технические сложности

• Алгоритмическая сложность и ресурсоемкость (до 1000 CPU*h на анализ)

• Большой объем входных данных (1-500 Гб)

• Разные форматы данных FastQ (длины ридов, качество в phred33/phred64)

• Обеспечение безопасности передачи и хранения данных

Page 5: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Подход

• Фильтрация ридов по качеству

• Картирование

• Фильтрация по таргетным регионам

• Поиск SNP и коротких indel

• Аннотация

• Сортировка по патогенности и формирование отчета

Page 6: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Реализация

• Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce(неограниченная масштабируемость)

• Хранение данных в S3• Картирование BWA-MEM• Референс hg19 GRCh37.p13 assembly, ver. 73.37• Коллинг SamTools• Аннотация SnpEff• Собственная оценка патогенности –

ibinom score

Page 7: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Выравнивание(симулированные данные)

Total Correct Reads (%) Incorrectly Mapped Reads (%)

Unmapped Reads (%)

iBinom 7863529 101527 7

98.73% 1.27% 0.00%

Bowtie2 7670364 251234 41901

96.32% 3.15% 0.53%

Bwa 7363467 81561 518471

92.47% 1.02% 6.51%

Page 8: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Коллинг

Page 9: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Коллинг

Page 10: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

iBinom Score

• Машинное обучение с помощью алгоритма градиентного бустинга

• Обучающая выборка:

– Патогенные: записи из dbsnp c clinvar clinicalsignificance = pathogenic

– Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях

Page 11: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

iBinom Score

Точность: 93.44%

Полнота: 90.96%

F-measure: 92.18%

Обучение по базам и скорам:

1000genomes, ClinVar, dbSNP, dbNSFP, EnsemblProject, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.

Page 12: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Page 13: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Использование iBinom

1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace

2. Встроенный тримминг адаптеров

3. Можно объединять несколько файлов в один образец

4. Можно скачать vcf-файл (в формате v.4.1)

5. Для передачи используется шифрованное соединение https

Page 14: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Page 15: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Page 16: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Page 17: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных
Page 18: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Планы

1. Система подбора болезней(по симптомам, по списку генов, по списку болезней)

2. Ветвление пайплайна(например, выравнивание TMAP для IonTorrent)

3. Продолжение исследований предиктивной аннотации

Page 19: Афанасьев А. iBinom - Облачный сервис для медицинского анализа геномных данных

Приглашаем к сотрудничеству!

[email protected]