63
Биоинформатика в сфере анализа данных секвенирования ДНК Панкратов Василий, Институт генетики и цитологии НАН Беларуси

“Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

Embed Size (px)

Citation preview

Page 1: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

Биоинформатикав сфере анализа данныхсеквенирования ДНК Панкратов Василий,

Институт генетики и цитологии НАН Беларуси

Page 2: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК

ПЛАН

Page 3: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК

ПЛАН

Page 4: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

КТО ТАКИЕ БИОИНФОРМАТИКИ?

Экспериментальные биологи

Био-информатики

Вычислительныебиологи

Page 5: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

5

ОБЛАСТИ ПРИМЕНЕНИЯ БИОИНФОРМАТИКИ

Page 6: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

АНАЛИЗ ИЗОБРАЖЕНИЙ

https://promo.gelifesciences.com

Page 7: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

МОДЕЛИРОВАНИЕ 3D СТРУКТУРЫ БЕЛКОВ

https://pdb101.rcsb.org/motm/14

Page 8: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

АНАЛИЗ ДАННЫХ СЕКВЕНИРОВАНИЯ ДНК

Page 9: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК

ПЛАН

Page 10: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЧТО ТАКОЕ ДНК?

https://commons.wikimedia.org/wiki/File:DNA_chemical_structure_2.svg

GC

Page 11: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ГЕНОМ ЧЕЛОВЕКА

Page 12: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

КАКОВА ФУНКЦИЯ ДНК?

Белки

Инструменты

ДНК (гены)Архив

информации

РНК

Переносчикинформации

Page 13: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК

ПЛАН

Page 14: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЧТО ТАКОЕ СЕКВЕНИРОВАНИЕ (SEQUENCING)?

AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGA

Page 15: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”
Page 16: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”
Page 17: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”
Page 18: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Диагностика заболеваний (в т.ч. пренатальная) •Подбор индивидуального лечения•Оценка риска развития заболеваний в будущем•Оценка предрасположенностей•Оценка риска развития заболеваний у детей

–«Подбор» детей и «дизайн» детей

ЗАЧЕМ СЕКВЕНИРОВАТЬ ГЕНОМЫ ЛЮДЕЙ?

Page 19: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Подбор лечения для конкретного варианта бактерии или вируса•Более «осмысленная» селекция и биотехнология сельско-хозяйственных организмов

ЗАЧЕМ СЕКВЕНИРОВАТЬ ДРУГИЕ ГЕНОМЫ?

Page 20: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Что такое биоинформатика?•Что такое ДНК?•Что такое секвенирование ДНК?•Биоинформатические задачи при секвенировании ДНК

ПЛАН

Page 21: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

СТОИМОСТЬ СЕКВЕНИРОВАНИЯ ГЕНОМА ЧЕЛОВЕКА

Page 22: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

СТОИМОСТЬ СЕКВЕНИРОВАНИЯ

http://www.businessinsider.com/super-cheap-genome-sequencing-by-2020-2014-10

Стоимость секвенирования

Стоимость хранения и обработки данных

Page 23: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАДАЧА 1 АНАЛИЗ ИСХОДНОГО СИГНАЛА

AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGA

Page 24: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ИСХОДНЫЙ СИГНАЛ (ILLUMINA)

Page 25: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ИСХОДНЫЙ СИГНАЛ (PACIFIC BIOSCIENCE)

Page 26: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ИСХОДНЫЙ СИГНАЛ (OXFORD NANOPORE)

Page 27: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT+SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50hhhhhhhhhhghhghhhhhfhhhhhfffffe`ee[`X]b[d[ed`[Y[^[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC+SRR566546.971 HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50hhhhgfhhcghghggfcffdhfehhhhcehdchhdhahehffffde`[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50TGCATGATCTTCAGTGCCAGGACCTTATCAAGCGGTTTGGTCCCTTTGTT+SRR566546.972 HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50dhhhgchhhghhhfhhhhhdhhhhehhghfhhhchfddffcffafhfghe

ФОРМАТ FASTQ

Page 28: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАДАЧА 2 СЖАТИЕ И ХРАНЕНИЕ ДАННЫХ

~ 108 записей

или~ 10-30 Гбайт

Page 29: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT+SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50hhhhhhhhhhghhghhhhhfhhhhhfffffe`ee[`X]b[d[ed`[Y[^[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50GATTTGTATGAAAGTATACAACTAAAACTGCAGGTGGATCAGAGTAAGTC+SRR566546.971 HWUSI-EAS1673_11067_FC7070M:4:1:2374:1108 length=50hhhhgfhhcghghggfcffdhfehhhhcehdchhdhahehffffde`[email protected] HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50TGCATGATCTTCAGTGCCAGGACCTTATCAAGCGGTTTGGTCCCTTTGTT+SRR566546.972 HWUSI-EAS1673_11067_FC7070M:4:1:2438:1109 length=50dhhhgchhhghhhfhhhhhdhhhhehhghfhhhchfddffcffafhfghe

ФОРМАТ FASTQ

Page 30: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGATCAGT+SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50hhhhhhhhhhghhghhhhhfhhhhhfffffe`ee[`X]b[d[ed`[Y[^Y

ПРОЧТЕНИЕ

Page 31: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Оценить общий результат•Убрать короткие/низкокачественные прочтения•Обрезать прочтения по концам

ЗАДАЧА 3 КОНТРОЛЬ КАЧЕСТВА И ФИЛЬТРАЦИЯ

Page 32: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАДАЧА 4.1 СБОРКА ГЕНОМА DE NOVO

AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT

ACTAGCGAGCT

CGGACTGACTG

GCATCGGACTG

ACGCCGCTGCA

GCCGCTGCATCAAGCTGCGA

GCGACGCCG

TGACTGCATCGATGCATCGACTA

CTGCATCGACTACCGACTACGACTAG

ACGACTAGCGAGCT

Page 33: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

СБОРКА ГЕНОМА DE NOVO

AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT

ACTAGCGAGCT CGGACTGACTG GCATCGGACTG ACGCCGCTGCA

GCCGCTGCATCAAGCTGCGA GCGACGCCG TGACTGCATCGA TGCATCGACTA

CTGCATCGACTAC CGACTACGACTAG

ACGACTAGCGAGCT

Page 34: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ТРУДНОСТИ СБОРКИ DE NOVO

Chaisson et al., 2015

Page 35: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАДАЧА 4.2 РЕ-СЕКВЕНИРОВАНИЕ

AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT

ACTAGCGAGCT CGGACTGACTG GCATCGGACTG ACGCCGGCA

GCCGGCATCAAGCTGCGA GCGACGCCG TGACTGCATCGG TGCATCGGCTA

CTGCATCGGCTAC CGGCTACGACTAG

ACGACTAGCGAGCT

Page 36: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

РЕ-СЕКВЕНИРОВАНИЕ

AAGCTGCGACGCCGCTGCATCGGACTGACTGCATCGACTACGACTAGCGAGCT

ACTAGCGAGCT CGGACTGACTG GCATCGGACTG ACGCCG--GCA

GCCG--GCATCAAGCTGCGA GCGACGCCG TGACTGCATCGG TGCATCGGCTA

CTGCATCGGCTAC CGGCTACGACTAG

ACGACTAGCGAGCT

Page 37: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ПОИСК ОТЛИЧИЙ (МУТАЦИЙ)

Page 38: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ФОРМАТ VCF

Page 39: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАДАЧА 5 ОЦЕНКА ПОКРЫТИЯ

70% с покрытием 5х

Page 40: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ТРУДНОСТИ ПРИ ОЦЕНКЕ ПОКРЫТИЯ

Page 41: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ТРУДНОСТИ ПРИ ОЦЕНКЕ ПОКРЫТИЯ

Page 42: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАДАЧА 6 ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

Page 43: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Проверить базы данных и статьи•Попробовать предсказать эффект мутации

– Укороченный белок– Замена аминокислоты в одной позиции белка– Изменение концентрации белка

КАК УЗНАТЬ ЭФФЕКТ МУТАЦИИ?

Page 44: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Мутация Х – Обычно безвредна– В сочетании с мутацией Y заболевание

развивается всегда– В сочетании с мутацией Z заболевание

развивается при определенных внешних воздействиях

ВЗАИМОДЕЙСТВИЕ МУТАЦИЙ

Page 45: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

•Перевод «сырого» сигнала в последовательность•Хранение исходных, промежуточных и конечных данных•Сборка геномов de novo и при ре-секвенировании•Оценка покрытия•Интерпретация – ответ на биологический вопрос•Создание единого удобного решения

БИОИНФОРМАТИЧЕСКИЕ ЗАДАЧИ

Page 46: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ДЕСЕРТ 1 БИОИНФОРМАТИЧЕСКИЕ ИГРУШКИ

http://phylo.cs.mcgill.ca/ https://fold.it/portal/

Page 47: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ДЕСЕРТ 2 ДНК-АРХИВ

Page 48: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

Биоинформатикав сфере анализа данныхсеквенирования ДНК Панкратов Василий,

Институт генетики и цитологии НАН Беларуси

Page 49: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ДЕСЕРТ 2 ДНК-АРХИВ

Page 50: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ПОСТРОЕНИЕ И АНАЛИЗ ГЕННЫХ СЕТЕЙ

Marbach et al., 2012

Page 51: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

БЕЛКИ

GSGAGA

Page 52: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

20 букв

Page 53: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

http://www.whrhs.org/Page/1051

Page 54: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ИСХОДНЫЙ СИГНАЛ (ION TORRENT)

Page 55: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАДАЧА 4.1 СБОРКА ГЕНОМА DE NOVO

Knudsen et al., 2010

Page 56: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

СБОРКА ГЕНОМА

Page 57: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

SAM ФОРМАТ

Page 58: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ВЫРАВНИВАНИЕ НА РЕФЕРЕНСНЫЙ ГЕНОМ

Page 59: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

РЕ-СЕКВЕНИРОВАНИЕ

Page 60: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

КАК

Заболевание Хромосома

Ген Мутации

Фенилкетонурия 12 PAH Множество

Муковисцедоз 7 CFTRДелеция 3

нуклеотидов

Серповидноклеточная анемия 11 HBB Замена 1

нуклеотида

Гемофилия Х F9 Множество

Page 61: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ПРЕЖДЕВРЕМЕННЫЙ СТОП КОДОН

US National Library of Medicine

Page 62: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

СДВИГ РАМКИ СЧИТЫВАНИЯ

US National Library of Medicine

Page 63: “Биоинформатика в сфере анализа данных секвенирования ДНК и РНК”

ЗАМЕНА АМИНОКИСЛОТЫ

US National Library of Medicine