58
DNA microarrays a NGS Základy bioinformatického spracovania dát Bratislava 10.-11. november 2015 Ľuboš Kľučár CC Attribution-ShareAlike License

DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

DNA microarrays a NGS

Základy bioinformatického spracovania dát

Bratislava 10.-11. november 2015 Ľuboš Kľučár CC Attribution-ShareAlike License

Page 2: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

NGS

Next Generation Sequencing

Page 3: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k
Page 4: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Sekvenovanie DNA

1. generácia

– Maxam-Gilbert

– Sanger

2. generácia (Next-generation Sequencing – NGS)

– masívne paralelné sekvenovanie

3. generácia

– sekvenovanie jednej molekuly DNA v reálnom čase

Page 5: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

2. generácia sekvenovania

• Roche/454 FLX

• Illumina GA

• SOLiD

• IonTorrent

Page 6: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

3. generácia sekvenovania

• Heliscope

• PacBio

Page 7: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Next-generation sequencing (NGS)

Výhody

– high-throughput

– nízka cena

– sekvenovanie de novo

Nevýhody

– nepresné sekvenovanie dlhých homopolymérnych úsekov

– náročnejšia analýza dát

Page 8: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Workflow NGS

• príprava DNA templátu (DNA knižnice)

• amplifikácia DNA knižnice

• sekvenovanie

Page 9: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Sanger NGS Výhody NGS

klonálna amplifikácia • nevyžaduje in vivo

klonovanie, transformáciu,

odpichovanie kolónií...

sekvenovania na čipoch • vyššia úroveň paralelizácie v

porovnaní s kapilárnym

sekvenovaním

Alex Sánchez, VHIR Vall d’Hebron Institut

de Recerca, 2011 http://www.slideshare.net/ueb52/introduction-to-next-

generation-sequencing-v2

Page 10: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

a. Emulsion PCR (emPCR) A reaction mixture consisting of an oil–aqueous emulsion is created to encapsulate bead–DNA complexes into single aqueous droplets. PCR amplification is performed within these droplets to create beads containing several thousand copies of the same template sequence. EmPCR beads can be chemically attached to a glass slide or deposited into PicoTiterPlate wells . b. Solid-phase amplification Composed of two basic steps: initial priming and extending of the single-stranded, single-molecule template, and bridge amplification of the immobilized template with immediately adjacent primers to form clusters.

NGS – clonal amplification

Page 11: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

NGS – imaging

Illumina

Helicos BioSciences

Page 12: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

SOLiD

Page 13: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ion Torrent - Process overview

Merriman B et al. Electrophoresis 33(23), 3397-417 (201). doi: 10.1002/elps.201200424

Page 14: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ion Torrent

JM Rothberg et al. Nature 475, 348-352 (2011) doi:10.1038/nature10242

Sensor, well and chip architecture.

Page 15: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ion Torrent

Wafer, die and chip packaging.

JM Rothberg et al. Nature 475, 348-352 (2011) doi:10.1038/nature10242

Page 16: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ion Torrent Moore's Law style scaling of successive chip generations

Merriman B et al. Electrophoresis 33(23), 3397-417 (201). doi: 10.1002/elps.201200424

Page 17: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ion PGM™ Sequencer

Page 18: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ion Torrent Single read accuracy

JM Rothberg et al. Nature 475, 348-352 (2011) doi:10.1038/nature10242

Page 19: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ion Torrent

Vibrio fisheri, E. coli, Rhodopseudomonas palustris and Homo sapiens

JM Rothberg et al. Nature 475, 348-352 (2011) doi:10.1038/nature10242

Page 20: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Porovnanie NGS technológií Generácia Technológia

Cena/ stroj

Cena/ beh

Cena/ Mb

Čas behu

Reads/ dĺžka

Reads/ počet

Objem Chybovosť

1. 3730XL 100k $ 100 $ 1 600 $ 2 h 800 60 kb substitúcie

0,1-1%

2.

454 FLX 500k $ 6 000 $ 7 $ 23 h 750 1 mil. 900 Mb indel 1%

HiSeq 2000 700k $ 24 000 $ 0,04 $ 11 dní 2 x 100 3 mld. 600 Gb substitúcie

>0,1%

SOLiD 5500 600k $ 10 000 $ 0,07 $ 14 dní 75 + 35 1,5 mld. 160 Gb indel

>0,01%

2. (desktop)

454 GS JR 100k $ 1 000 $ 22 $ 9 h 400 100 tis. 50 Mb indel 1%

MiSeq 120k $ 1 000 $ 1 $ 27 h 2 x 150 5 mil. 1 Gb substitúcie

>0,1%

IonTorrent

80k $

150k $

(314) 200 $ (316) 400 $ (318) 600 $ (P) 1 000 $

20 $ 4 $

0,6 $ 0,1 $

3 h

200

100

600 tis. 3 mil. 6 mil.

82 mil.

10 Mb 100 Mb

1 Gb 10 Gb

indel ~1%

3. PacBio RS 700k $ 300 $ 3-14 $ 1,5 h >1 000 50 tis. 100 Mb

indel ~15%

HeliScope 1M $ 0,5 $ 8 dní 55 1 mil. 35 Gb delécie

3%

Page 21: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Kontrola kvality

Page 22: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Posúdenie kvality – skóre Phred

Phred skóre (Phred-33 | Phred-64)

Pravdepodobnosť nesprávne priradenej bázy

Presnosť priradenia bázy

10 (+|J) 1 z 10 90%

20 (5|T) 1 zo 100 99%

30 (?|^) 1 z 1000 99,9%

40 (I|h) 1 z 10 000 99,99%

50 (S|r) 1 zo 100 000 99,999%

Phred skóre Q

• vlastnosť, ktorá má logaritmický vzťah k pravdepodobnosti P

nesprávneho priradenia bázy

• ASCII vyjadrenie pripočítaním 33 k Phred skóre

(Illumina pripočítava 64)

http://en.wikipedia.org/wiki/Phred_quality_score

Page 23: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Kódovanie kvality

SSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS.....................................................

..........................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX......................

...............................IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII......................

.................................JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ......................

LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLL....................................................

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~

| | | | | |

33 59 64 73 104 126

0........................26...31.......40

-5....0........9.............................40

0........9.............................40

3.....9.............................40

0........................26...31........41

S - Sanger Phred+33, raw reads typically (0, 40)

X - Solexa Solexa+64, raw reads typically (-5, 40)

I - Illumina 1.3+ Phred+64, raw reads typically (0, 40)

J - Illumina 1.5+ Phred+64, raw reads typically (3, 40)

with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (underline)

L - Illumina 1.8+ Phred+33, raw reads typically (0, 41)

@HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1

TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTGTTGGGGGAGACATTTTTGTGATTGCCTTGAT

+HWI-EAS209_0006_FC706VJ:5:58:5894:21141#ATCACG/1

efcfffffcfeefffcffffffddf`feed]`]_Ba_^__[YBBBBBBBBBBRTT\]][]dddd`ddd^dddadd^BBBBBBBBBBBBBBBBBBBBBBBB

http://en.wikipedia.org/wiki/Phred_quality_score

Page 24: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Distribúcia dát

0

1

2

3

4

5

6

7

8

9

10

1 2 3 4 5 6 7 8 9

76657216666758978554765664398473

12334445555566666666677777788899

12334445555566666666677777788899

12334445555566666666677777788899

12334445555566666666677777788899

2

4

6

8

↑ ↑↑ ↑↑ ↑↑ ↑

min q1 median q3 max

box and whiskers

Page 25: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Reads statistics 1. C T T G G G A A A T A A T T T A T A A T

8 8 8 8 8 8 8 4 4 4 4 4 3 3 3 3 3 1 1 1

2. C T T G G G A A A T A A T T T A T A A A

7 7 7 7 7 7 4 4 4 4 4 4 4 4 3 3 1 1 1 1

3. T A T A A C A A A A T C C T T T T T A T

9 9 9 8 8 8 8 7 8 8 7 7 7 4 5 4 3 1 2 2

4. T G T A T C A A A A C A G C T T G G G A

9 8 8 5 7 7 7 7 8 8 7 5 4 4 4 4 4 1 2 2

5. G T T A G T G T G T G T A T C A A A A C

7 7 7 7 7 7 7 6 6 6 4 4 3 3 4 4 4 2 2 2

6. A T C T G T T A G T G T G T G T A T C A

8 8 8 5 5 5 5 5 4 5 5 5 4 4 4 4 4 2 2 2

7. A T A A C A A A A T C C T T T T T A T A

8 8 8 8 8 8 8 5 5 5 5 5 4 4 4 4 4 2 2 2

8. T T A T C G A T T A A A G A T A G A A A

8 8 8 8 8 8 8 5 5 5 5 5 4 4 4 4 4 2 2 2

9. T A G A G T A T C T G T T A G T G T G T

5 6 5 6 5 6 6 5 4 5 5 5 4 4 3 4 4 2 2 2

10. T A G A G T A T C T G T T A G T G T G T

4 6 5 4 4 8 6 5 4 5 4 5 2 4 3 4 4 1 1 1

0

2

4

6

4 5 6 Mean sequence quality (Phered Score)

Per sequence quality scores

0

2

4

6

8

10

1 3 5 7 9 11 13 15 17 19

Position in read (bp)

Per base sequence quality

average 7 8 7 7 7 7 7 5 5 6 5 5 4 4 4 4 4 2 2 2

median 8 8 8 7 7 8 7 5 5 5 5 5 4 4 4 4 4 2 2 2

(per base)

average

(per sequence)

5

4

6

6

5

5

5

5

4

4

Page 26: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC

quality control tool for high throughput sequence data

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

http://www.youtube.com/watch?v=bz93ReOv87Y

Page 27: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Per base sequence quality

good sequence bad sequence

Page 28: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Per sequence quality scores

good sequence bad sequence

Page 29: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Per tile sequence quality

Page 30: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Per base sequence content

good sequence bad sequence

Page 31: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Per base GC content

good sequence bad sequence

Page 32: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Per sequence GC content

good sequence bad sequence

Page 33: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Per base N content

good sequence bad sequence

Page 34: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Sequence Length Distribution

good sequence bad sequence

Page 35: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Sequence Duplication Levels

good sequence bad sequence

Page 36: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Overrepresented sequences

good sequence bad sequence

No overrepresented sequences

Page 37: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

FastQC - Kmer Content

good sequence bad sequence

Page 38: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Štatistické parametre depth / depth of coverage /

coverage / read coverage

• (priemerný) počet nukleotidov ktorý prispel k získaniu sekvencie daného úseku (napr. 30x)

genome coverage

• podiel báz referenčného genómu, ktoré sú zachytené poskladanými kontigmi (napr. 99,9%)

N50

• dĺžka kontigu pre ktorý platí, že polovica kontigov ma takúto alebo väčšiu veľkosť (napr. 18 654 bp)

maximum / median / average contig size, number of contigs

• maximálna dĺžka, medián a priemerná dĺžka kontigov a ich počet

Page 39: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Chipster Open source platform for data analysis

http://http://chipster.csc.fi/

Page 40: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Galaxy Data intensive biology for everyone

http://galaxyproject.org/

Page 41: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

IGV Integrative Genomics Viewer

http://www.broadinstitute.org/igv/

Page 42: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Knižnice

Page 43: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Príprava knižnice sinlge-end + jednoduchšie

+ 100 ng–1 μg DNA

- nevhodné na spájanie kontigov

paired-end + presnejší alignment

+ repeaty

- 100 ng–1 μg

mate pair + de novo

+ genome finishing

+ structural variants detection

- 5-120 μg DNA

200-800 bp

2-20 Kbp

Page 44: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

mate pair knižnice

Berglund et al. Investigative Genetics 2011 2:23 doi:10.1186/2041-2223-2-23

Page 45: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Alignment a de novo assembly

Berglund et al. Investigative Genetics 2011 2:23 doi:10.1186/2041-2223-2-23

Alignment paired-end readov

De novo assembly

Page 46: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Multiplexing vzoriek (barcoding)

multiplex de-multiplex align

Illumina: An Introduction to Next-Generation Sequencing Technology.

+ až 120 rôznych vzoriek v jednom behu

Page 47: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

De novo assembly

.fastq

assembler

.fasta

Velvet (de Bruijn grafy)

Page 48: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Mapovanie

.fastq

aligner .sam

.bam

BWA

Bowtie

Page 49: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

SAM / BAM

SAM (Sequence Alignment Map format)

BAM (Binary Sequence Alignment) • binárna verzia formátu SAM

http://samtools.sourceforge.net/SAM1.pdf

SRR017937.312 16 chr20 43108717 37 76M * 0 0

TGAGCCTCCGGGCTATGTGTGCTCACTGACAGAAGACCTGGTCACCAAAGCCCGGGAAGAGCTGCAGGAAAAGCCG

?,@A=A<5=,@==A:BB@=B9(.;A@B;>@ABBB@@9BB@:@5<BBBB9)>BBB2<BBB@BBB?;;BABBBBBBB@

QNAME: Query name of the read

FLAG

RNAME: Reference sequence name

POS: Position of alignment in reference sequence

MAPQ: Mapping quality (Phred-scaled)

CIGAR: Specifics of the alignment against the reference

MRNM

MPOS

ISIZE

Page 50: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Detekcia variantov

.bam [pileup]

SAMTools

.bed

Rudy G: A Hitchhiker’s Guide to Next Generation Sequencing.

Štatistické predpoklady

• predpokladaný výskyt variantov je asi 1 na 1000 bp

• asi 85% variantov je už všeobecne známych

(dbSNP)

• pomer tranzícií/transverizií ma byť > 2 ak sú

varianty vysoko kvalitné (a pomer je ešte vyšší, ak

pochádzajú z kódujúcich oblastí)

Page 51: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Pileup

• prehľad alignmentu na každej pozícii

http://samtools.sourceforge.net/pileup.shtml

chr1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&

chr1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+

chr1 274 T 23 ,.$....,,.,.+1A,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6

chr1 275 A 23 ,$....,,.,-2AG,...,-2AG,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<

chr1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6<

ReferenceSeq [string] - name of the reference sequence

Coordinate [integer] - position in the reference sequence

ReferenceBase [A/C/G/T/N] - reference base at that position

#Reads [integer] - number of reads aligning to that base

ReadBases [variable length string, see below]

BaseQualities [variable length string, Phred encoded]

Page 52: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

BED

BED (Browser Extensible Display format) • definícia dát pre zobrazenie v prehliadači

http://www.ensembl.org/info/website/upload/bed.html

chr22 25043062 25043063 I 0 +

chr22 25745895 25745896 I 0 +

chr22 26769465 26769466 I 0 -

chr22 26886954 26886955 D 0 +

chrom - the name of the chromosome (e.g. chr3, chrY)

chromStart - the starting position of the feature in the chromosome (1=0)

chromEnd - the ending position of the feature in the chromosome

name - defines the name of the feature

score - a score between 0 and 1000 (e.g for coloring the feature)

strand - defines the strand - either '+' or '-'.

Page 53: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

RNA-seq

• štúdium úrovne expresie génov, detekcie nových génov a nekódujúcich RNA

• NGS alternatíva k DNA čipom

• nie je limitovaná iba pre známe gény

• poskytuje informácie o alternatívnom splicingu

• deteguje aj sekvenčné varianty

• minimálny alebo žiaden background

• nemá horný limit pre kvantifikáciu – rozsah 4 rády (v porovnaní s DNA čipmi - cca 2 rády)

Page 54: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

RNA-seq

A.

B.

Page 55: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

RNA-seq

FPKM

Fragments Per Kilobase of transcript per Million mapped reads

𝐹𝑃𝐾𝑀 =𝒕𝒐𝒕𝒂𝒍 𝒇𝒓𝒂𝒈𝒎𝒆𝒏𝒕𝒔

𝑒𝑥𝑜𝑛 𝑙𝑒𝑛𝑔𝑡ℎ 𝐾𝐵 ∗ 𝑚𝑎𝑝𝑝𝑒𝑑 𝑟𝑒𝑎𝑑𝑠 𝑚𝑖𝑙𝑙𝑖𝑜𝑛𝑠

RPKM

Reads Per Kilobase of transcript per Million mapped reads

𝑅𝑃𝐾𝑀 =𝒕𝒐𝒕𝒂𝒍 𝒆𝒙𝒐𝒏 𝒓𝒆𝒂𝒅𝒔

𝑒𝑥𝑜𝑛 𝑙𝑒𝑛𝑔𝑡ℎ 𝐾𝐵 ∗ 𝑚𝑎𝑝𝑝𝑒𝑑 𝑟𝑒𝑎𝑑𝑠 𝑚𝑖𝑙𝑙𝑖𝑜𝑛𝑠

Page 56: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Kvantifikácia

• Normalizácia

• RPKM (reads per kilobase per millions)

Vzorka 1

Vzorka 2

6 mil

8 mil

Gén A – 0,6 kb Gén B – 1,1 kb Gén C – 1,4 kb

RPKM=12/(0,6*6)=3,33 RPKM=24/(1,1*6)=3,64 RPKM=11/(1,4*6)=1,31

RPKM=19/(0,6*8)=3,96 RPKM=28/(1,1*8)=1,94 RPKM=16/(1,4*8)=1,43

12 readov 24 readov 11 readov

19 readov 28 readov 16 readov

Page 57: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

RNA-seq

Cufflinks

Cuffmerge

final transcriptome assembly .gtf

reads .fastq

TopHat

reads .fastq

mapped reads .bam

mapped reads .bam

mapped reads .bam

mapped reads .bam

Cuffdiff

differentialy expressed genes

condition A condition B reference genome

plný protokol

• pre genómy s horšie

preštudovaným

tranksriptómom (nové

genómy, onkogénne

genómy)

skrátený protokol

• dobre preštudované

genómy

• nekompletný alebo

nesprávne anotovaný

genóm zapríčiní

nepresné stanovenie

úrovne expresie génov

assembled transcripts .gtf

assembled transcripts .gtf

Tra

pnell

at

al. (

2012)

Natu

re

Pro

tocols

7(3

): 5

62-5

78.

Page 58: DNA microarrays a NGS · Porovnanie NGS technológií Generácia Techológia Cena/ stroj Cena/ beh Cena/ Mb Čas behu Reads/ dĺžka Reads/ počet Objem Chybovosť 1. 3730XL 100k

Ribo-seq

(Ribo-seq = Ribosome profiling) • využitie NGS na monitorovanie

translácie in vivo • na rozdiel od RNA-seq je zameraná

iba na mRNA momentálne naviazané na ribozómy - ktoré sa momentálne translatujú

Využitie: – identifikácia miesta počiatku

translácie – určenie miery proteosyntézy – predpoveď množstva proteínu

Ingolia, NT (2014) Nat Rev Genet. 15:205-213