Upload
phungnhi
View
218
Download
0
Embed Size (px)
Citation preview
History of DNA Sequencing
Avery: Proposes DNA as ‘Genetic Material’
Watson & Crick: Double Helix Structure of DNA
Holley: Sequences Yeast tRNAAla
1870
1953
1940
1965
1970
1977
1980
1990
2002
Miescher: Discovers DNA
Wu: Sequences λ Cohesive End DNA
Sanger: Dideoxy Chain Termination Gilbert: Chemical Degradation
Messing: M13 Cloning
Hood et al.: Partial Automation
• Cycle Sequencing • Improved Sequencing Enzymes • Improved Fluorescent Detection Schemes
1986
• Next Generation Sequencing • Improved enzymes and chemistry • New image processing
Adapted from Eric Green, NIH; Adapted from Messing & Llaca, PNAS (1998)
1
15
150
50,000
25,000
1,500
200,000
50,000,000
Efficiency (bp/person/year)
15,000
100,000,000,000 2009
2
3
ori
Ap
BamHI
Promotore/operatore
TerminatoreShine-Dalgarno
Evoluzione dei vettori d’espressione
lacI
oriC
TAG
M13
Denaturazione del vettore Utilizzo di un fago helper Per M13 e produzione della Forma a singolo filamento
(1) Produzione dello stampo a filamento singolo
Utilizzo della PCR
(PCR asimmetrica
Utilizzo di fagemidi
DNA sequencing by Capillary Electrophoresis (CE)
Resa: circa 100.000 pb/corsa
6
L’Algoritmo Phred e l’identificazione delle basi
1) I 4 tracciati fluorescenti sono fusi in un unico file
2) il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.
3) calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto
4) Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima
Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:
1) la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;
2) il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;
3) il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;
4) il n° di basi tra quella in esame e quella più vicina non identificata
valore di affidabilità: Phred-score
Phred-score = - 10 log10 P ( probabilità di errore)
Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!
Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score
Determinazione della qualità delle sequenze: algoritmo Phred
9
L’Algoritmo Phred e l’identificazione delle basi
1) I 4 tracciati fluorescenti sono fusi in un unico file
2) il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.
3) calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto
4) Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima
Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:
1) la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;
2) il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;
3) il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;
4) il n° di basi tra quella in esame e quella più vicina non identificata
valore di affidabilità: Phred-score
Phred-score = - 10 log10 P ( probabilità di errore)
Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!
Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score
Determinazione della qualità delle sequenze: algoritmo Phred
12
L’Algoritmo Phred e l’identificazione delle basi
1) I 4 tracciati fluorescenti sono fusi in un unico file
2) il computer calcola il punto dove si aspetta di trovare un picco, basandosi sulla distanza media dei picchi in certe parti della sequenza. La lettera N viene assegnata quando non è possibile individuare una base esatta.
3) calcola i valori massimi locali per ogni serie di tracciati e valuta se ogni picco cade nello spazio previsto
4) Per stabilire se un picco è reale viene indicato un valore soglia di altezza minima e massima
Le probabilità di errore (P) del programma Phred sono calcolate in base a 4 parametri:
1) la variazione di distanza del picco, al centro, in un intervallo di 7 picchi;
2) il rapporto fra il più alto e il più basso picco non identificato in un dato intervallo;
3) il rapporto fra il più alto e il più basso picco in un intervallo con tre picchi;
4) il n° di basi tra quella in esame e quella più vicina non identificata
valore di affidabilità: Phred-score
Phred-score = - 10 log10 P ( probabilità di errore)
Phred-score = 10 P=1/10 Phred-score = 20 P=1/100 Phred-score = 30 P=1/1000 ok!
Al termine dell’analisi, Phred genera un file in cui ad ogni base è assegnato il corrispondente Phred-score
Determinazione della qualità delle sequenze: algoritmo Phred
15
Next-gen sequencers
read length
base
s pe
r mac
hine
run
10 bp 1,000 bp 100 bp
1 Gb
100 Mb
10 Mb
10 Gb
AB/SOLiDv3, Illumina/GAII short-read sequencers
ABI capillary sequencer
454 GS FLX pyrosequencer
(100-500 Mb in 100-400 bp reads, 0.5-1M reads, 5-10 hours)
(10+Gb in 50-100 bp reads, >100M reads, 4-8 days)
1 Mb
(0.04-0.08 Mb in 450-800 bp reads, 96 reads, 1-3 hours)
100 Gb
From John McPherson, OICR
16
Pyrosequencing - Solid Phase
Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001
17
Pyrosequencing - Liquid Phase
Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001
18
Pyrogram
Ronaghi M. Pyrosequencing sheds light on DNA sequencing. Genome Res 2001
454 LifeSciences Sequencer
http://www.roche-applied-science.com/publications/multimedia/genome_sequencer/flx_multimedia/wbt.htm
http://www.genomesequencing.info/videos-illumina-solexa-sequencing-%5B77r5p8IBwJk%5D.cfm
21
http://media.invitrogen.com.edgesuite.net/ab/applications-technologies/solid/SOLiD_video_final.html
23
Sanger (old-gen) Sequencing
Now-Gen Sequencing
Whole Genome
Human (early drafts), model organisms, bacteria, viruses and mitochondria (chloroplast), low coverage
New human (!), individual genome, 1,000 normal, 25,000 cancer matched control pairs, rare-samples
RNA cDNA clones, ESTs, Full Length Insert cDNAs, other RNAs
RNA-Seq: Digitization of transcriptome, alternative splicing events, miRNA
Communities Environmental sampling, 16S RNA populations, ocean sampling,
Human microbiome, deep environmental sequencing, Bar-Seq
Other Epigenome, rearrangements, ChIP-Seq
APPLICAZIONI DELLE TECNICHE DI SEQUENZIAMENTO
Elenco dei siti che contengono informazioni sul Progetto Genoma Umano e sui frammenti di DNA sequenziati.
25
Sequenziamento: Applicazioni in ambito biomedico
Sequenziamento di genomi umani individuali a scopo preventivo o farmacoterapeutico.
Analisi dettagliata delle mutazioni presenti in cloni cancerosi
Associazione Genotipo-Fenotipo Profilo di espressione genica complessivo in vitro e in
situ a tutti gli stadi di sviluppo di un organismo multicellulare
Diversità Microbica (studi metagenomici) Eteroplasmia Mitocondriale
26
DNA from X tumor samples
PCR amplification with Y primer pairs Pooled with equal concentration
Pool PCR products
454 sequencing
SNP/Indel Detection Using ssahaSNP and BreakPointRead Reads with G12 mutation in KRAS Reads with 15 bp deletion in EGFR
454-based Mutation Detection
27
Solexa Approach to Exon Sequencing
Elute
gDNA Exon 1 Exon 2 Exon 3 Exon 4 Exon 5
Fragment and hybridize to Solexa capture array
454 Sequencing
Analyze
Exon sequences
Courtesy of R.A. Gibbs
28 Pink: 1 mutation Red: 2 mutations
Sam
ples
*Indels included
GBM (Glioblastoma multiforme): Somatic mutations
TP53
RB
1
PTE
N
PLA
G1
PD
GFR
A
ME
T
MD
M4
LRR
N2
KIT
FGFR
1
FBX
W7
EG
FR
CY
P27
B1
CH
IC2
CD
KN
2B
CD
KN
2A
CD
K6
CD
K4
BM
PR
1A
AS
XL1
(Shared 20 genes, 84 tumors; orthogonal validation pending)
Studio del trascrittoma e ricerca di splicing alternativi
Può essere usato per il sequenziamento massivo del trascrittoma, da cui dedurre la frequenza delle sequenze e quindi gli splicing alternativi
30
Analisi Metagenomica: una autostrada per la conoscenza di batteri che non sopravvivono in coltura.
Sequenziamento del tratto nucleotidico delle immunoglobuline (Ig) relativo al riarrangiamento della regione variabile CDR3, specifica di ogni clone tumorale: - da utilizzare nell’analisi in neoplasie linfoidi di tipo B; - per il monitoraggio della malattia minima residua; - come base per la produzione di vaccini anti-idiotipici paziente-specifici.
Software allinea sequenza con WT
Rileva Mutazioni
Accesso a Banca Dati
Singole o combinazioni di mutazioni in grado di dare resistenza ai farmaci
HIV
Monitoring Changes in Genomic DNA
• Identify mutations • Examine genomic instability such as in certain
cancers and tumors (gene amplifications, translocations, deletions)
• Identify polymorphisms (SNPs) • Diagnosis: chips have been designed to detect
mutations in p53, HIV, and the breast cancer gene BRCA-1
• Analizzare gli elementi che controllano l’espressione genica
Applications in Drug Discovery
• Drug Discovery – Identify appropriate molecular targets for therapeutic intervention
(small molecule / proteins) – Monitor changes in gene expression in response to drug treatments
(up / down regulation) – Analyze patient populations (SNPs) and response
• Targeted Drug Treatment – Pharmacogenomics: individualized treatments – Choosing drugs with the least probable side effects