35
enomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche e browsers - Confronti fra genomi - Variabilità genomica: banche dati mutazioni e SNP

Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Embed Size (px)

Citation preview

Page 1: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio- Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche e browsers - Confronti fra genomi- Variabilità genomica: banche dati mutazioni e SNP

Page 2: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Progetti di sequenziamento

Page 3: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Banche dati genomicheCromosoma n

ATCTACACTACTCTCTGGGGCTACA..........GCGTACTAGTTAGCTAGCTGATCGA| | | | | 1 10 20 143.456.710 143.456.720

Tipo Id Cromosoma

Inizio Fine Filamento

Gene AGS_23GH I 10012534 10018434 I

Gene FHD_34GH IV 10103466 10112347 II

Promotore

HHTRE_EE II 23423933 23424233 I

SNP A/G IX 34234723 - I

Esone GFDDD_22 II 267567545 267568667 II

Annotazioni

Page 4: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Visualizzazione annotazioni

10x

Page 5: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

10 Kb

200 bp

1 Mb

200 Mb

Browser genomici

Page 6: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Individuazione geni

Metodi sperimentali

Metodi bioinformatici

Metodi Estrinseci

Metodi Intrinseci

Confronto più genomi

Page 7: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

ATGCTACTACGGATAGTATAGATGA5’ 3’Promoter

Start codon

Struttura di un geneStop codon

Procarioti Eucariot

igene medio 30K =

5' UTR 750 bp +

6 esoni 150 bp +

5 introni 5000 bp +

3' UTR 450 bp

Page 8: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Metodi estrinseci

Uniprot

Allineamento

TrascritticDNA, EST

3' UTR5' UTRGenoma

Proteina

EST 3' UTR

cDNA 3' UTR5' UTR

Proteina Omologa

3' UTR5' UTRAltro Genoma

no 5', 3' e promotori

mancano esoni, diff.giunzioni

no promotori

manca regione 5'

Page 9: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Annotazione geni

Page 10: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Schemi di lettura

1'

2'

3'

senso

antisenso

6'

5'

4'

Page 11: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Schemi di lettura aperti

ATGTAA,TGA oTAG

ORF

Page 12: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Composizione di un genomaProcarioti Eucarioti

Dimensioni max 10M 10G

% Codificante 85% 1-3%

Geni con introni - 95%

Numero introni - 0-80

Lunghezza introni

- 3-100.00bp

Predizione 99% 50%

Page 13: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Metodi intrinseci- Individuazione di contenuto

- Individuazione di segnali

Page 14: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Contenuto regioni codificanti

Batterio shewanella

- Frequenze aminoacidiche- Frequenze dipeptidi- Preferenze per codoni diversi- Preferenza per G e C terminali in eucarioti superiori- Terza base tende ad essere la stessa

Page 15: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Frequenze esanucleotidi

InteroGenoma

RicercaEsanucleotide AAATGA

Sequenze codificanti

Sequenze nonCodificanti

1.01 Gb

10 Mb

1 Gb

10.000 Copie

500.000 Copie

Frequenza AAATGA = Copie/Totale Nucleotidi

fC0.1%

fN0.05%

Punteggio AAATGA= log (fC/fN) =

FrequenzaNon

Codificanti

+0.3

Frequenza

Codificanti

Page 16: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Punteggio di una posizioneRegione di 30 nucleotidi

ATGATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT AAATGA = +0.3 AATGAC = +2.1 ATGACT = -0.1 TGACTC = +1.5 GACTCT = ... ........................ CTAGCT = +0.2 TAGCTG = +3.1

PUNTEGGIO POSIZIONE "A" = MEDIA DEGLI ESANUCLEOTIDI = +1.9

TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "C" = +1.8

TCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGA punteggio "T" = +1.6

......

Page 17: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Ricerca regioni codificanti

+5

+4

+3

+2

+1

0

-1

-2

-3

-4

-5

Posizione

nella sequenza

Punteggio della posizione

Regione non codificante

Regione codificante

Regione non

codificante

? ?Regioni a punteggio

non significativo

Dove inizia e dove termina la regione codificante?

ATGTAGATCTAAATGACTCTCTGGGACTAGTTAGCTAGCTGATCGAATGATGTCTCGT

Page 18: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Esone Introne Esone

--gaggcatcag|GTttgtagac-----A-----tgtgtttcAG|tgcacccact--

--ccgccgctga|GTgagccgtg-----A-----tctattctAG|gacgcgcggg--

--tgtgaattag|GTaagaggtt-----A-----atatctacAG|atggagatca--

--ccatgaggag|GTgagtgcca-----A-----ttatttgcAG|gtatgagacg--

Sito donatore di splicing Sito accettore di splicing

Sito di ramificazione

99%

Siti di splicing

Page 19: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Segnali + contenuto

Introne

Esone

Introne

Fine esone Inizio esone

Regione non codificante

Regione codificante

Regione non codificante

Page 20: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Frame di lettura e esoniFine esone 1

...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGA-ATA-GCT-GCT-GAT-...

Introne Inizio esone 2

...-ACT-TAA-ATG-ACT-CTA-ATA-GCT-GCT-GAT-...

Splicing

Rna Maturo

...-ACT-TAA-ATG-ACT-CTGTGGGGATCGATCGAGCTAGAC-ATA-GCT-GCT-GAT-...

...-ACT-TAA-ATG-ACT-CTAC-ATA-GCT-GCT-GAT-...Giunzione scorretta

Esone falso

...-AGA-ACT-CTGTC..CCAGAC-ATA-...-GCG-GAGTG....CTAGA-ATA-CTG-...

Esone 1 Introne 1 Esone 2 Introne 2 Esone 3

...-AGA-ACT-CTA-ATA-CTG-...Rna Maturo

Frame shift

Page 21: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Costruzione modello gene

Page 22: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Costruzione modello gene

Page 23: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Costruzione modello gene

Page 24: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Costruzione modello gene

Page 25: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Costruzione modello gene

Page 26: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Difficoltà- Numero di esoni: Distrofina 79 in 2.3 Mb- Lunghezza introni: Distrofina più di 100Kb più del 99% del gene - Esoni corti: Solo 3bp in Arabidopsis.- Vicini a estremità: 1bp dall'inizio codoni start e stop interrotti- Geni sovrapposti: in 3'-UTR , ma anche in introni.- mRna policistronici anche in Eucarioti.- Introni in regioni non codificanti 5' e 3' UTR- Splicing alternativo 35-60% geni umani ha più di un prodotto- Siti splicing non canonici- Siti multipli inizio trascrizione- Siti alternativi inizio traduzione ACG Arabidopsis, CUG uomo

Page 27: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Prestazioni attuali

Previsione +ricerca mirata sta diventando alternativaa sequenziamento cloni cDNA random.

MR = Esoni Reali

S CC CP = Esoni Predetti

Sensitività = C/R 78 %

Selettività = C/P 81 %

Mancati = M/R 9%

Sbagliati = S/P 5%

Esoni Mancati

Esoni Sbagliati Esoni Corretti

Intero gene:Arabidopsis 50%-66%Mammiferi 15-20%

Page 28: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Allineamentidi 2genomi

Uomo-topo40% conservatosolo2% codificante

Page 29: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Allineamento con un genoma annotato

Page 30: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Allineamenti di due genomi non annotati

- Distinzione coding/ non-codingRapporto mut. sinonime e non

sinonimeIndels con cambio di frameO indels che recuperano il frame perso

Introne Esone Introne

Page 31: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Allineamenti multipli

Page 32: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Ricerca promotori

- Analisi del contenuto- Analisi dei segnali- Allineamento di più genomi

Page 33: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Analisi del Contenuto

- Isole CpG 300-3000bp : (70% p. umani ne contiene)- Previsioni di ripiegabilità, stabilità e curvatura del DNA- Diverse fequenze di parole nucleotidiche

Page 34: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Analisi dei Segnali - TATA box a -30 dal TSS - Banche dati promotori eucariotici - Overpredizione di 1000 volte dei TFBS

Page 35: Genomica e Bioinformatica - Sequenziamento genomi: Sequenziamento e assemblaggio - Annotazione genomi: Ricerca geni, promotori e altro - Banche dati genomiche

Allineamento di genomiAllineamento geni ortologhi (no paraloghi)