48
Andrea Telatin Sequenziamento di Piccoli Genomi Andrea Telatin Sequenziamento di Piccoli Genomi Minicorsi NGS Bioinformatics Specialist de novo genome Sequenziamento di genomi batterici Ottobre 2014

Sequenziamento ed assemblaggio di genomi batterici

Embed Size (px)

Citation preview

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

de novo genomeSequenziamento di genomi batterici

Ottobre 2014

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Sequenziamento de novo

• “Piccoli genomi” in senso strettoGenomi procariotici fino a 10 Mb

• Genomi “abbastanza” piccoliEucariotici o procariotici < 40 Mb

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Today’s menu

• Gli step dell’analisi bioinformatica…

• …ed i formati dei files di output

• Disegno sperimentale

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Today’s menu

• Gli step dell’analisi bioinformatica…

• …ed i formati dei files di output

• Disegno sperimentale

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Come?Whole genome shotgun

L’assemblaggio de novo produce i contigs

Lo scaffolding produce scaffold, o addirittura i cromosomi

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Shotgun

ACGTACGTAGCTGACGA

AGCTGACGATCGATCGTAGCTAGCTA

ATCGTAGCTAGCTAGATTACA

AGATTACAGTCTACGTACTATCGA

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

ShotgunACGTACGTAGCTGACGAAGCTGACGATCGATCGTAGCT

AGCTA ATCGTAGCTAGCTAGATTACAAGATTACAGTCTACGTACTATCGA

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

ShotgunACGTACGTAGCTGACGAAGCTGACGATCGATCGTAGCT

AGCTA ATCGTAGCTAGCTAGATTACAAGATTACAGTCTACGTACTATCGA

contig

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Problema

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Problema

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Soluzione

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Soluzione

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Come usare i Mate PairValidazione ScaffoldingGap Filling

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Metrica

N50: lunghezza minima di un set di contigs contenenti metà assemblaggio

Generalmente un assemblaggio è molto frammentato

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

A cosa servono?

Con contig validi è possibile:

Cercare geni (gene prediction)

Lavorare con i geni (cloning, PCR)

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Che file ottengo?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Formato FASTQ@N2OAK:00951:07085 ATTCAATAAAATTTTATCATAAATACCGAAATCCATCTAAAATGGTACCCGCTACAACAAAAGTAGTCATGACATGTGCAGGCGTGAGTTTAAGTACGTCTAGTAAAAGCTGGACCAATGACGCAAATAAGTCCGCCTGCCACAAAAGCGATAAGATAATCCA + 5549:55555)555)5::99::29::6555*554:<<=BBB5;;7997=7<;;8885::::09;777<<<;::;:777<;<6;;;;;;;<5:6<</..8888:<<<<2;<991557:7;;?9:557/7<388;45505886::999/55555:5:;5505948 @N2OAK:01697:04302 TCAATAAAATTTTAGTACAATATGCTGCTTATCGGTTAACTCATCTACAAATAATTCTTCAAACTCTAATCGGAGCTTTTGATGGATGCGGGCTTCGATATTGTTTTAGCTCTTGAATCATAGCTGTTTTGGATGTCACTTTTATCACCTTCATAATTAAGATAACTTAAGTATAAAGCAACCTTTATATTAAAACAAGAAAAATCCCATC + 78808855)755)5888;=8===;;;<==8==<;6<9>7;;;<<<<<<<<7<<9=7<<6;;;4;<<<=9=<>;>B?<==4=<==8==<=<>8==9===<:;57777)5:8::>6;=9>=;>;<==?A==4=398<<<=>>>>*0/8;:5;8=;<<8;9>9===>9==7;6;<<;==8===9=6;:089..*.99...).7777(555(393 @N2OAK:03081:06574 CTCAATAAAATTTTATCAATTCGATATTGAAGACTGTTTCTGTGAACATATAACGCTTTTGCTGCCTTGGATGCGTTTAAATTACATTGCATATAGGTCATGAGAGTGCGATAAAACATCCCGGTCAAAGACCGCTTCTTTAAAAGCATCTGAAATAGCGTGAGAGAGTGCAGATGCATCATAACAAATGAACGATGGCAGGCATTGATAAAATGTGGAAGCCCCTGATCTAAGCTTTTCTCGCTT + :;;;57777)555)58994:7=>>===9==7<;<<===8<888=?7;::875/599:@=2<=@<<8<8=8<;;;;<=7<=7=288;;4:<777;::5:9:777:::<::787777)58555/57<=@B69991559599:3:::/5558;;<<=5::;;;;<<<<888;887;=;:;<9////)/7717::4::;::8<?>8<=>8;<====7>;;;7;08888)8:;;;<<8;??@>5=<;://)

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Input (sequenze FASTQ)

Tecnologia: Ion Proton

Sequenze: 1.462.220

Basi sequenziate: 247.13 Mbp

Lunghezza media read: 169 bp

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Output (FASTA contigs)>contig00001 length=381398 numreads=107891 TTTGGCGAACAGCCGGTCAATCTCTCCCGGCGTCGTTTCTGATTTCGGGCAGCGGTCTGG CGGGCGCGCTGGTGCTGGGCGTCGGGTTGCCGGTCGGACAGAGCCGCGCACAGTCCGCCG CGGCCGCAATGCCAGCCGGTACCCGGGTGCCAGCCTTTCTGGAAATACGCGCGGACAGCT CAGTGAAATTTCTGTCGCCCTTTATTGAAGGCGGGCAGGGGATTTTCACCGCCATGGCGC AGATTGTCGGTGAAGAACTGGACGCCGATCCGGCATCCTTCGTGGTGGAGAACGCGCCGC CTGGTTCGCAATATCAGGTAATGGATAACGGGATGCGCATCACCGGCGGAAGCCAGTCGG TGCGGACCAGCTATACCACCATGCGACGGCTCGGCGCGCTGGCACGACAGATGCTGATCG AGGCCGCTGCCGCTGAACTGGCGGTGCCGGTTACCAGCCTGCACACTGAGCCGGGACGGG TGATCCATGGCGAATCAGGgCGCTCATTACGCTATGGCGAACTGGCTGCGCGGGCGCGTG AGCTGCCGGTACCCTCAGTCGATTCGGTCAGCCTGAAAGATCCCGCTCACTTTCGCTGGA TTGGTAAGCCGGTTCAGCGACTGGATATGCATGAAAAATCGACCGGCAAGGCGATTTACA CCATCGACTGCCGGGTGGATAACATGCTGCACGCGGCGGTACAGCACGCGCCGCGACTCG GTCTGACGGTGGGTACGCTGCGCAATGCCGCACAGGTCAGCGCGATGAAAGGCGTGCATT CGGTTCATCAACTGCCTGGCGCCGTCGCGGTGGTGGCCGAACGCTGGTGGCAGGCGAAAC GTGCGGTTGAAACGCTGCAGGTTGAGTGGCTGGAGCCAGAGAAGCCAGACGGCAGCTATA TGCCCGCTGACTTCTCCTCTGATGCGTTCGCCGCCGTGCTGGCGCAGCAGCCTGGCGACG GGGAAAACGCTGAGGTTCGTGGCGACCTTCAGCACGGACTGGCTGAGGCGAAGAGCACCT TTAGCGCCCACTACCAGAGCCAGTATCTTAACCACGCCCAGCTTGAGCCGCCGTCCGCGC TGGCACGTTTTAATTCCGACGGCTCGCTGGAGTTGTGGATCCCCAATCAGGCACCGGAAA TGTTCCAGGCCGACGTGGCTAAGCGTACCGGCCTCAGCCcGGATAAGATCATTATCCATT CCCCGCTGCTGGGCGGATTTTTTGGCCGTCACTTCCTCTATGAGTCCGCGATGGTCTGGC CACAAGCCGTTCAGCTGGCCAGGGCGGTCGGgCGCCCCGTCAAACTGATCTGGAGTCGTG AAGAGGAGTTCCTGCGCGATACCCATCGCCCGATGGCCGCGGTGCGGTTTCGTGCCGGAC TGGATGCCGACGGCTACCCGCTGGCGCTGGAGGCGGTCAGCATCTGTGAAGGGCCGACCG AGGGGCTGGCCGGTCAGCACGGCGACACGCTGGATCCTACCGCGGTGGAAGGGTTATCGG GCAAAGCCTACGCCATTCCGCACGTTCGTATCGCGCAGATTTATCATAAAGGCCCGGTGC GGCTGGGTTACTGGCGATCGGTCGGCAATTCGATGAATGACTTTTTCTATGAATGCTTCC TCGATGAAATTGCCGAGCGGGGCAGGCTCGATCCGATGGCGCTCAGGCTGCATCTGCTGC

Output: contig, eventualmente in ordine di dimensione (decrescente)

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Output summaryFormato: FASTA contigs

Sequenze: 159

Totale basi: 4.97 Mbp (~70X)

Lunghezza media: 31.26 kb

N50: 103 kb

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Predizione genicaLa ricerca di regioni codificanti

Viene fatta con modelli matematici, generalmente con un training set

Ci fornisce le coordinate dei geni

Per i batteri Glimmer3

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Output di Glimmer3>contig00001 length=381398 numreads=107891 orf00001 381318 42 +1 2.14 orf00003 72 2207 +3 12.84 orf00004 2232 2882 +3 12.45 orf00006 3282 3569 +3 13.34 orf00007 3735 4952 +3 18.89 orf00008 5019 5966 +3 14.28 orf00009 6015 6500 +3 12.14 orf00011 6509 7258 +2 15.23 orf00012 7653 7772 +3 4.67 orf00013 7651 7310 -2 14.63 orf00014 8062 7892 -2 0.92 orf00015 9139 8321 -2 5.61 orf00017 10407 9196 -1 6.34 orf00021 11793 11419 -1 13.01 orf00022 12266 13387 +2 13.84 orf00023 13508 14086 +2 13.78 orf00024 14960 14073 -3 15.20 orf00025 15052 15366 +1 15.60 orf00026 15357 15746 +3 15.27 orf00028 15743 16279 +2 15.66

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Come si annotano? Un esempio

>contig00001 length=381398 numreads=107891 orf00001 381318 42 +1 2.14 orf00003 72 2207 +3 12.84 orf00004 2232 2882 +3 12.45 orf00006 3282 3569 +3 13.34 orf00007 3735 4952 +3 18.89 orf00008 5019 5966 +3 14.28 orf00009 6015 6500 +3 12.14 orf00011 6509 7258 +2 15.23 orf00012 7653 7772 +3 4.67 orf00013 7651 7310 -2 14.63 orf00014 8062 7892 -2 0.92 orf00015 9139 8321 -2 5.61 orf00017 10407 9196 -1 6.34 orf00021 11793 11419 -1 13.01 orf00022 12266 13387 +2 13.84 orf00023 13508 14086 +2 13.78 orf00024 14960 14073 -3 15.20 orf00025 15052 15366 +1 15.60 orf00026 15357 15746 +3 15.27 orf00028 15743 16279 +2 15.66

<Hit_num>1</Hit_num> <Hit_id>gnl|BL_ORD_ID|951553</Hit_id> <Hit_def> |27544250|dbj|BAC54899.1| aldehyde oxidase small subunit [Methylobacillus sp. KY4400] </Hit_def> <Hit_accession>951553</Hit_accession> <Hit_len>162</Hit_len> …

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Come si arriva fin qui?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

E se facciamo lo scaffolding?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Uno scaffold è una lista ordinata di contig

Non aggiunge sequenze nuove…

…ma permette di farlo (Gap Filling)

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014

Riassumendo

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014

Due esempi

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Organismo: microalga (~30Mb)

Obiettivo:studio metabolismo

Correva l’anno: 2009

Approccio misto:454 (shotgun)SOLiD (mate pair)

Contig 43 kb

Scaffolds1.01 Mb

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Organismo: batterio patogeno

Obiettivo:confronto con reference

Correva l’anno: 2014

Approccio: Illumina MiSeq (2x300)

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Organismo: batterio patogeno

Obiettivo:confronto con reference

Correva l’anno: 2014

Approccio: Illumina MiSeq (2x300)

Assemblaggio

Mapping su reference (regioni coperte)

Mapping su contig delle sequenze non mappate sul reference

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014

Regioni assenti nel reference

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014

Polimorfismi

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Unmapped

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014

Perché?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Perché?• Punto di partenza per approfondire

la biologia molecolare (disegno primer, ricerca di geni e promotori)

• Genomica comparata

• Cerco un gene (che non ho trovato)

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Lavorare con organismi modello rende la vita più semplice

MA

Sequenziare un genoma non ti mette automaticamente in questa situazione

Perché?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014

Quali aspettative?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS 14 novembre 2014

Quali aspettative?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Check listCosa voglio fare? (= che output)

Quando DNA serve?

Che tipi di librerie? Quale strumento?

Che analisi mi servono?Come gestirò l’output?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Domande?

Andrea TelatinBecoming a BioinformaticianAndrea TelatinSequenziamento di Piccoli Genomi

Minicorsi NGS Bioinformatics Specialist

Grazie dell’attenzione