View
229
Download
0
Category
Preview:
Citation preview
Francesco PivaIstituto di Biologia e Genetica
Università Politecnica delle Marche
Introduzione alla bioinformatica
Novembre 2003
Obiettivi della bioinformatica
Banche dati: raccolta dati, ordinamento, correlare quelli che trattano i diversi aspetti di uno stesso tema, renderli fruibili in modo semplice, unificare le banche adti.
Ricerca dei geni in un genoma
Inferire la funzione delle proteine a partire dalla sequenza del gene, da qui la possibilità di creare nuove proteine con nuove funzioni
Prevedere lo splicing dell’mRNA a partire dalla sequenza del pre-mRNA, capire l’effetto delle mutazioni
Descrivere la rete genica di una cellula, chi attiva o reprime chi, da chi si fa attivare o reprimere. Prevedere al computer l’effetto di uno stimolo esogeno… sapere come compensarlo. Sapere che stimolo generare per produrre certi effetti
Capire l’evoluzione delle specie
Poter prevedere la ricombinazione nel DNA Francesco PivaIst Biologia e Genetica, Ancona
Metodi della bioinformatica
database
Risorse umane, formazione, mezzi
Teoria dell’informazione, studio dei linguaggi, ridondanza, entropia, correlazione…
Metodi statistici
Data mining
Reti neurali
Algoritmi matematici: FFT, Wavelet, ICA, PCA, teoria delle reti…
…Francesco PivaIst Biologia e Genetica, Ancona
cromosoma
mRNA
Cloni di cDNA
cDNA
Il trascrittoma: quanti e quali geni?
Quanti e quali geni sono contenuti in un genoma?
Quali geni sono espressi in un tessuto?
E in un tessuto patologico?
Cellule o tessuti
Sequenziamento…EST
Francesco PivaIst Biologia e Genetica, Ancona
TTTTTT
AAAAAA3’UTR5’UTR ESONE 1 ESONE 2
mRNA
TTTTTT
3’
GGGGGG
Rimozione dell’RNA e attacco di un poly (G) al cDNA
TTTTTTLe sequenze di cDNA ottenute dall’mRNA sono generalmentetronche
La costruzione del cDNA
Francesco PivaIst Biologia e Genetica, Ancona
AAAAAA 3’
TTTTTT 5’GGGGGG
CCCCCC
Produzione del cDNA complementare
Metilazione dei due cDNA per proteggere i siti di restrizione
CH3
AAAAAA
TTTTTTGGGGGG
CCCCCC
GAATTC
CTTAAG
GAATTC
CTTAAG
Aggiunta di siti di restrizione Eco RI
Francesco PivaIst Biologia e Genetica, Ancona
Digestione con Eco RI
AAAAAA
TTTTTTGGGGGG
CCCCCC
GAATTC
CTTAAG
GAATTC
CTTAAG
AAAAAA
TTTTTTGGGGGG
CCCCCC
AATTC
G
G
CTTAA
vector
Ligazione del cDNA nei plasmidi
Francesco PivaIst Biologia e Genetica, Ancona
La potenzialità di una libreria di cDNA è in relazione al numero di inserti di cDNA indipendenti che siamo riusciti a clonare.
Supponendo di prelevare un’aliquota di batteri trasformati, il titolo è dato dal numero di colonie per unità di volume di batteri ricombinanti
Francesco PivaIst Biologia e Genetica, Ancona
Come stimare la potenzialità di una libreria di cDNA?
Si potrebbe digerire il DNA plasmidico con enzimi di restrizione e analizzare i frammenti tagliati
3kb vettore
inserti
I cloni 7, 8, 9 e 13 non sono ricombinanti: quindi 4/16 = 25%
Esempio di una libreria:Titolo: 100 unità formanti colonia/microlitri% cloni non ricombinanti: 10%Volume totale di batteri trasformati: 1 mlPotenzialità: (100000 cloni totali – 10000 non ricombinanti) = 90000 inserti di cDNA
Calcolo delle probabilità applicato alle librerie di cDNA
Che probabilità abbiamo di trovare il clone A2B che ha frequenza dell’ 1% (f=0.01) in una libreria di 100 (N=100) cloni?
Dalla formula
Ricaviamo P = 63.4%)1ln(
)1ln(
f
PN
Quanti cloni devo sequenziare (N = ?) per essere abbastanza sicuro (99% P=0.99) di trovare il clone A2B che ha una frequenza dell’1% (f=0.01)?
Dalla stessa formula ricaviamo N = 458
Francesco PivaIst Biologia e Genetica, Ancona
Un caso reale
Quanti cloni devo sequenziare per avere il 99% delle probabilità di trovare un particolare clone di mio interesse?
In una cellula ho circa 500000 molecole di mRNA
quelli più abbondanti sono rappresentati in 10000 – 15000 copie per cellulaf=10000/500000 0.02
quelli mediamente abbondanti in 200 – 500 copie per cellulaf=500/500000 0.001
quelli rari in 1 – 15 per cellulaf=15/500000 0.000002
per gli abbondanti risulta… N=230 per i mediamente abbondanti… N=4600 per i rari… N=155000
Francesco PivaIst Biologia e Genetica, Ancona
Anziché mettersi a sequenziare in modo furioso, si può cercare di operare sulla libreria in modo di aumentare la probabilità di trovare il cDNA di interesse. Questo lo si può fare in vari metodi:
Metodo di arricchimento
Frazionamento in gel
Clonazione per sottrazione
Francesco PivaIst Biologia e Genetica, Ancona
Metodo di arricchimento
Per arricchire la libreria del cDNA di interesse si può
- selezionare in partenza le cellule o i tessuti più ricchi del trascritto- rimuovere dalla libreria le sequenze che non interessano- indurre o aumentare la trascrizione del particolare gene con stimoli specifici
Francesco PivaIst Biologia e Genetica, Ancona
Frazionamento in gel
Se si sa la lunghezza del cDNA che stiamo cercando, si possono selezionare su gel prima di legarli al vettore
Francesco PivaIst Biologia e Genetica, Ancona
Clonazione per sottrazione
Linea cellulare + Linea cellulare -
Sintesi del cDNA dall’mRNA
Eliminazione dell’mRNA
IbridazionemRNA non appaiaticDNA non
appaiati
Recupero del cDNA non appaiato tramite colonnine di idrossiapatite. Ottengo solo quello non comune alle due linee
mRNA
Francesco PivaIst Biologia e Genetica, Ancona
Tipo di cDNA
N°
di c
opie
Normalizzazione delle librerie di cDNA
Tipo di cDNAN
° di
cop
ie
Supponendo di avere il cDNA di 8 geni espressi con intensità diversa, mostriamo il grafico dell’abbondanza di copie di cDNA prima e dopo la normalizzazione della libreria
Si perdono le informazioni sul livello di espressione dei geni
Al fine di trovare con la stessa probabilità sia le sequenze abbondanti che quelle rare si attua una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il fatto che i cDNA più abbondanti, si appaiano o ibridizzano più rapidamente e possono essere rimossi dall’insieme di cDNA di partenza. In questo modo l’insieme rimanente si svuota delle sequenze più abbondanti ovvero si arricchisce di quelle più rare.
Francesco PivaIst Biologia e Genetica, Ancona
Generazione delle sequenze EST: etichette di sequenza espressa
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
cDNA clone
sequencing primers
3’ EST5’ EST
Francesco PivaIst Biologia e Genetica, Ancona
Scarsa qualità delle sequenze: errori dovuti ad un sequenziamento automatizzato, senza la supervisione di un operatore, sequenza a passaggio singolo. Quello che importa è determinare la presenza di un trascritto non la sua sequenza. In questo modo si perdono le informazioni sulle mutazioni.
>T27784 g609882 | T27784 CLONE_LIB: Human Endothelial cells. LEN: 337 b.p. FILE gbest3.seq 5-PRIME DEFN: EST16067 Homo sapiens cDNA 5' end AAGACCCCCGTCTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATATCTTTAAATATATATATATATTTNAAAGACCAATTTATGGGAGANTTGCACACAGATGTGAAATGAATGTAATCTAATAGANGCCTAATCAGCCCACCATGTTCTCCACTGAAAAATCCTCTTTCTTTGGGGTTTTTCTTTCTTTCTTTTTTGATTTTGCACTGGACGGTGACGTCAGCCATGTACAGGATCCACAGGGGTGGTGTCAAATGCTATTGAAATTNTGTTGAATTGTATACTTTTTCACTTTTTGATAATTAACCATGTAAAAAATG
Francesco PivaIst Biologia e Genetica, Ancona
Problemi con gli EST
Le sequenze provenienti dallo stesso trascritto vanno raggruppate ‘clustering’Questa operazione non è banale perchè bisogna tener conto dei seguenti problemi:
- presenza di polimorfismi, le mie EST potrebbero non allineare con la sequenza genomica poiché le EST sono del mio organismo, il genomico è di un organismo diverso da quello che sto studiando- un gene può avere anche centinaia di varianti di splicing- i geni paraloghi (fisicamente in posizioni cromosomiche diverse ma con trascritti quasi identici)- presenza negli EST di pezzi di vettore plasmidico- presenza di sequenze genomiche batteriche- presenza di sequenze ripetute come le Alu- artefatti dovuti al fatto che due inserti di cDNA entrano in tandem in un vettore plasmidico e io li leggo come un unico trascrittoIn generale questi problemi sono completamente superabili solo quando si conosce la sequenza genomica della specie che sto studiando
Francesco PivaIst Biologia e Genetica, Ancona
cDNA, EST e banche datidbEST (pronuncia ‘the best’)Divisione di GenBank che contiene tutte le sequenze EST, classificate per specie, tessuto, patologia…
Francesco PivaIst Biologia e Genetica, Ancona
dbEST release 103103 Summary by Organism - October 31, 2003
Number of public entries: 18,971,362
Homo sapiens (human) 5,427,521 Mus musculus + domesticus (mouse) 3,915,334 Rattus sp. (rat) 538,251 Triticum aestivum (wheat) 500,902 Ciona intestinalis 492,488 Gallus gallus (chicken) 451,565 Zea mays (maize) 383,759 Danio rerio (zebrafish) 362,445 Hordeum vulgare + subsp. vulgare (barley) 348,233 Xenopus laevis (African clawed frog) 344,747 Glycine max (soybean) 341,578 Bos taurus (cattle) 329,387 Drosophila melanogaster (fruit fly) 261,414 Oryza sativa (rice) 260,890 Saccharum officinarum 246,301 Caenorhabditis elegans (nematode) 215,200 Silurana tropicalis 209,240 Arabidopsis thaliana (thale cress) 190,732 Medicago truncatula (barrel medic) 187,763 Sus scrofa (pig) 171,920 Francesco Piva
Ist Biologia e Genetica, Ancona
1: BM055437 . ie94h04.y1 Melton...[gi:16813328] IDENTIFIERS
dbEST Id: 10156577 EST name: ie94h04.y1 GenBank Acc: BM055437 GenBank gi: 16813328
CLONE INFO Clone Id: IMAGE:5674615 (5') Source: University of Pennsylvania & Harvard University (HHMI) & Washington University (GSC) Other ESTs on clone:ie94h04.x1 DNA type: cDNA
PRIMERS PolyA Tail: Unknown
SEQUENCE GCCTCTTGGGAAGAACTGGATCAGGGAAGAGTACTTTGTTATCAGCTTTTTTGAGACTACTGAACACTGAAGGAGAAATCCAGATCGATGGTGTGTCTTGGGATTCAATA ACTTTGCAACAGTGGAGGAAAGCCTTTGGAGTGATACCACAGAAAGTATTTATTTTTTCTGGAACATTTAGAAAAAACTTGGATCCCTATGAACAGTGGAGTGATCAAGAA ATATGGAAAGTTGCAGATGAGGTTGGGCTCAGATCTGTGATAGAACAGTTTCCTGGGAAGCTTGACTTTGTCCTTGTGGATGGGGGCTGTGTCCTAAGCCATGGCCACA AGCAGTTGATGTGCTTGGCTAGATCTGTTCCAGTAAGGCGAAGATCTTGCTGCTTGATGAACCCAGTGCTCATTTGGATCCAGTAACATACCAAATAATTAGAAGAACTCT AAAACAAGCATTTGCTGATTGCACAGTAATTCTCTGTGAACACAGGATAGAAGCAATGCTGGAATGCCAACAATTTTTGGTCATAGAAGAGAACAAAGTGCGGCAGTACGATTCC Quality: High quality sequence stops at base: 429
Entry Created: Nov 8 2001 Last Updated: Mar 12 2002
COMMENTS Library was constructed by Dr. Douglas Melton DNA sequencing by: Washington University Genome Sequencing Center For information on obtaining a clone please contact: Juliana Brown (brown@fas.harvard.edu) This sequence now available from the IMAGE consortium, for clone orders contact: info@image.llnl.gov
PUTATIVE ID Assigned by submitter SW:CFTR_HUMAN P13569 CYSTIC FIBROSIS TRANSMEMBRANE CONDUCTANCE REGULATOR ;
LIBRARY Lib Name: Melton Normalized Human Islet 4 N4 - HIS 1 Organism: Homo sapiens Sex: Both Organ: Pancreas Tissue type: Islets of Langerhans Develop. stage: Adult Lab host: DH10B R. Site 1: Not 1 R. Site 2: Sal 1
Inserendo ‘homo sapiens’ e ‘CFTR’
Francesco PivaIst Biologia e Genetica, Ancona
Integrated Molecular Analysis of Genomes and their Expressions
Francesco PivaIst Biologia e Genetica, Ancona
Attenzione: la ricerca è ‘case sensitive’ quindi se digitate ‘cftr’ non trova nulla, si deve digitare ‘CFTR’ maiuscolo.
Francesco PivaIst Biologia e Genetica, Ancona
Geni noti in NCBI Reference Sequence
Geni non noti in NCBI Reference Sequence
In IMAGE si trovano due tipi di cluster di geni a seconda che corrispondano a geni già noti
Full:Cluster i cui cloni allineano pienamente con un gene noto
Predicted full:Cluster che contengono una ORF completa ma il cui gene è stato solo predetto sperimentalmente
Unknown:Cloni di cui non si sa se rappresentano l’intera ORF (perché è stato determinato un solo EST del clone)
Partial:Cloni che non rappresentano l’intera ORF (gli EST al 5’ e al 3’ non coprono l’intera regione del clone)
Empties:Cluster già noto ma di cui in questa libreria non ci sono cloni
Multi-member:Cluster contenente più cloni e il cui gene non è ne noto ne predetto
Singletons:Singolo clone che non si può raggruppare con altri già noti e contiene almeno 50 nucleotidi in cui non ci sono sequenze ripetute
Francesco PivaIst Biologia e Genetica, Ancona
descrizione del gene
Identificativo del cluster, attenzione perché può cambiare
Numero di cloni che coprono interamente la sequenza codificante, se ne esiste almeno uno allora abbiamo un ‘full cluster’
E’ possibile vedere gli allineamenti dei cloni che compongono il cluster
o quello delle singole sequenze EST
Francesco PivaIst Biologia e Genetica, Ancona
In questa schermata troviamo i dati sui cloni e sugli EST
Il bottone restituisce la descrizione del gene
Francesco PivaIst Biologia e Genetica, Ancona
clone
EST
Classificazione di un clone:predicted full, unknown, partial…
Provenienza del clone
Mammalian Gene Collection
Lunghezza del clone:dimensione determinata,se si conosce un solo EST si indica la lunghezza minima
chi ha verificato il clone
A volte è ambiguo stabilire a quale cluster appartiene un certo clone, il numero a fianco indica a quanti altri cluster (oltre a questo) appartiene questo clone
Bento SoaresColumbia UniversityLavora alla creazione di librerie di EST normalizzatebento-soares@uiowa.edu
Francesco PivaIst Biologia e Genetica, Ancona
http://merops.sanger.ac.uk/
Francesco PivaIst Biologia e Genetica, Ancona
Si possono fare ricerche per identificativo dell librera, tassuto, stadio di sviluppo…
Francesco PivaIst Biologia e Genetica, Ancona
o per patologia…
Francesco PivaIst Biologia e Genetica, Ancona
Identificato un gene, mostra la descrizione della proteina
gli allineamenti…
Francesco PivaIst Biologia e Genetica, Ancona
Gli omologhi
Francesco PivaIst Biologia e Genetica, Ancona
UniGeneSviluppato da NCBI, contiene i cluster corrispondenti ai geniGli EST sono stati filtrati, verificati con MegaBlast, tutti i cluster sono confrontati con i nuovi EST e verificati settimanalmenteNota: non fare riferimento agli ID (identificativi) dei cluster poiché possono cambiare settimanalmente
Francesco PivaIst Biologia e Genetica, Ancona
Francesco PivaIst Biologia e Genetica, Ancona
Dalla schermata precedente c’è un collegamento a questo sito
Vengono fornite le sequenze di 10 basi (etichette) in ordine di occorrenza decrescente nel cluster per il gene di interesse
STACKSviluppato dal South African National Bioinformatics Institute, contiene i dati sui cluster, il criterio di allineamento è un po diverso da quello di UniGene perché inizialmente si verifica se due EST sono parzialmente sovrapposti controllando se hanno parti in comune
Francesco PivaIst Biologia e Genetica, Ancona
TIGR
In generale i dati di clustering differiscono da una banca dati all’altra a causa dei diversi criteri adottati Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco PivaIst Biologia e Genetica, Ancona
ORF nelle tre fasi, nel filamento diretto e inverso
Zona e direzione in cui allineano gli EST
Per ciscun EST e possibile avere informazioni dal sito TIGR, da GenBank Nucleoride e da IMAGE Francesco Piva
Ist Biologia e Genetica, Ancona
Francesco PivaIst Biologia e Genetica, Ancona
Noi possiamo allineare i trascritti sul DNA genomico tramite programmi disponibili su siti internetQuesti programmi tengono conto che - il trascritto deve essere completamente contenuto nel DNA genomico- l’appaiamento potrebbe non essere perfetto- l’appaiamento può essere interrotto da introni
Francesco PivaIst Biologia e Genetica, Ancona
Francesco PivaIst Biologia e Genetica, Ancona
Francesco PivaIst Biologia e Genetica, Ancona
Francesco PivaIst Biologia e Genetica, Ancona
Predizione teorica dei geni in un genoma
metodi
Analisi discriminante lineare e quadratica
Modelli di Markov a variabili nascoste
Metodo del perceptron
Stima degli esameri codificanti
Metodo della matrice di pesi e del vettore di pesi
Decomposizione secondo le direzioni di massima dipendenza
Alberi di decisione
Reti neurali artificiali
Francesco PivaIst Biologia e Genetica, Ancona
Analisi discriminante lineare e quadratica
L’obiettivo di questo metodo è:
Identificare le variabili e le relazioni tra di esse che permettono di differenziare due o più gruppi di dati
Classificare nuovi casi nei gruppi ricavati (predittività)
Concentrazione di A
Con
cent
raz i
o ne
di B
Es: distinguere gli individui sani e malati in base alla misura della concentrazione di due enzimi.Con il metodo dei minimi quadrati si minimizza l’errore di classificazione e si ottiene una relazione lineare tra le due variabili
Concentrazione di A
Con
cent
raz i
o ne
di B
Nel caso del riconoscimento degli esoni in una sequenza di pre-mRNA, come variabili si sceglie la frequenza di certe triplette nei siti di splicing in 5’ e in 3’.
linearequadratico
Francesco PivaIst Biologia e Genetica, Ancona
Modelli di Markov a variabili nascoste
Un sistema viene descritto da una successione di stati discreti e dalla probabilità di transizione da uno stato all’altro
AA
C C
G
T
G
T
0,32
0,31
0,31
0,18
0,36
0,37
0,35
0,26 0,20
0,15
0,20
0,17
0,16
0,18
0,15
0,36
AC GT A
Data una sequenza esonica:…catga…
Possiamo rappresentarla come la successione di stati di un sistema e ricavare un modello descrittivo che a partire da un certo stato indichi la probabilità di transizione verso un altro stato.La parola nascosti indica che uno stato non può essere osservato
Gli schemi di transizione sono caratteristici delle zone codificanti e non.
Francesco PivaIst Biologia e Genetica, Ancona
Date le cinque sequenze sotto, cerchiamo di ricavare un modello di Markov
Si ricava questo modello
E.g. P(ACACATC) = (0.8 * 1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C
(S = logP(sequenza) - lunghezza(sequenza)*log0.25 )
Inserzione di uno stato (regioni altamente variabili)
Stati principali
Francesco PivaIst Biologia e Genetica, Ancona
L’attuale modello di predizione di un gene
Stati principali
Inserzione di uno stato (regioni altamente variabili)
Stati particolari (es: n)
- si possono rappresentare regole semplici- non si considera la frequenza dei dinucleotidi- non si considera la dipendenza (correlazione) fra i nucleotidi- in realtà ci vorrebbe un modello di Markov per gli esoni, uno per gli introni, uno per le regioni non tradotte
Francesco PivaIst Biologia e Genetica, Ancona
Perceprton
w1
w2
w3
wn
x1
x2
x3
xn
b
biasweightsinputs
non linearfunction
)(1
bfyn
iii xw
assoni sinapsi
dendritiassone
corpo
E’ un algoritmo realizzato con una rete neurale artificiale che realizza l’analisi discriminante lineare, questo prova iterativamente vari piani di separazione cercando ad ogni passo di minimizzare l’errore di discriminazione.
Francesco PivaIst Biologia e Genetica, Ancona
Stima degli esameri
Le sequenze vengono trattate come successioni di parole. Ciascuna parola è un insieme di basi, ad esempio sei simboli formano un esameroLa distinzione tra sequenze codificanti e non, si basa sulla frequenza con cui si trovano certi esameri
Alcune parole sono caratteristiche delle sequenze codificantiEs: CAGCAGAltre sono caratteristiche di quelle non codificantiEs: TAATAADall’osservazione dei geni si ricava un punteggio che viene assegnato ad ogni esamero.Il punteggio può essere positivo o negativo a seconda che sia indizio di una sequenza codificante o meno.
In fase di analisi, data una sequenza che potrebbe rappresentare un potenziale gene, si estraggono tutti gli esameri e si ricava un punteggio totale.
Francesco PivaIst Biologia e Genetica, Ancona
Metodo della marice di pesi
Questo metodo è usato per assegnare un punteggio ad un sito di DNA o RNA per indicare quanto questo sia affine a legare una proteina o altro
Punto debole: non si tiene conto delle correlazioni tra basi in diversa posizioneEs:
Punteggio (gtcacgt) = -0.21 -0.5 +0.73 +1.32 +0.94 +0.99 +0.27 = 3,54
GTCACGT
GTCACTT
Questi siti di legame differiscono solo per la sesta posizione. Non è detto che il punteggio in posizione 4 (A) dipenda solo dal nucleotide che si trova in quella posizione: potrebbe dipendere da quali altri nucleotidi sono presenti nelle vicinanze. In altre parole, a volte non vale la semplice proprietà additiva per calcolare l’affinità di legame
Il metodo del vettore dim pesi associa un punteggio ad un’intera parola anziché ad una singola base
Decomposizione secondo la direzione di massima dipendenza
Francesco PivaIst Biologia e Genetica, Ancona
Reti neurali artificiali
Francesco PivaIst Biologia e Genetica, Ancona
Recommended