Form di Nucleotide BLAST -...

Preview:

Citation preview

Informatica e Bioinformatica – A. A. 2013-2014 1

Esempio di utilizzo del programma BLAST

disponibile all’NCBI

www.ncbi.nlm.nih.gov/BLAST

Form di Nucleotide BLAST

Per un uso più avanzato, si possono

impostare parametri particolari (es.

cost to open gap, cost to extende

gap, penalty for mismatch ecc)

Informatica e Bioinformatica – A. A. 2013-2014 2

La risposta che si ottiene può essere

suddivisa in 4 parti:

1. dati generali

2. allineamento grafico

3. listato delle sequenze con

allineamento significativo

4. dettaglio degli allineamenti ottenuti

Sequenza query

1. dati generali 2. allineamento grafico

Significato delle colonne

Max score: punteggio dell’allineamento locale più significativo: punteggio alto elevata similarità

Total score: la somma dei punteggi di tutti gli allineamenti locali trovati tra la sequenza query e la sequenza del

database

Query coverage: percentuale della sequenza allineata

E value: esprime la probabilità che l’allineamento trovato sia casuale. Più basso è maggiore è la probabilità che

NON sia casuale. (dipende, oltre che dalla similarità, anche dalla numerosità delle sequenze in database)

Max Identit: percentuale di identità dell’allineamento locale più significativo TTTCTCGACTGCAGAGAAA

||||| ||| ||||||||

TTTCTAGACTGCAGAGAAA

Identità =82% (16 / 19)

Informatica e Bioinformatica – A. A. 2013-2014 3

Ricordate che BLAST è un programma di allineamenti locali, quindi, per ogni confronto tra la sequenza

query e una delle sequenza del database, potrebbero essere trovati più allineamenti differenti.

3. listato delle sequenze con allineamento significativo

Informatica e Bioinformatica – A. A. 2013-2014 4

4. dettaglio degli allineamenti ottenuti

......continua con i dettagli degli altri allineamenti .....

Informatica e Bioinformatica – A. A. 2013-2014 5

Risultato della ricerca (con la stessa sequenza nucleotidica) tramite BLASTX: ricerca di similarità

in una banca dati di sequenze proteiche a partire da una sequenza query di nucleotidi, dopo aver

tradotto automaticamente la query in aminoacidi utilizzando tutti i possibili frame di lettura.

Informatica e Bioinformatica – A. A. 2013-2014 6

Utilizziamo BL2SEQ con due sequenze nucleotidiche

ESEMPIO di BLAST 2 SEQUENCES

Informatica e Bioinformatica – A. A. 2013-2014 7

Form dell’NCBI nel quale immettere le due sequenze da confrontare

Visualizzazione

dei risultati:

dati generali

Informatica e Bioinformatica – A. A. 2013-2014 8

Zoom della regione di

gap tra le due sequenze

allineate

Informatica e Bioinformatica – A. A. 2013-2014 9

BLAT Blast-like alignment tool

Programma specializzato in allineamenti di sequenze su interi genomi e sviluppato

da J. Kent (Santa Cruz, CA).

Informatica e Bioinformatica – A. A. 2013-2014 10

BLAT Blast-like alignment tool

Proviamo a fornire a BLAT la sequenza di un mRNA e a vedere dove e come si allinea sul

genoma umano

Informatica e Bioinformatica – A. A. 2013-2014 11

RISULTATO di BLAT

Si può visualizzare il risultato dell’allineamento selezionando il link ipertestuale browser.

E si possono visualizzare i dettagli dell’allineamento selezionando il link ipertestuale details.

Informatica e Bioinformatica – A. A. 2013-2014 12

I dettagli riguardano sia la

sequenza di input (mRNA)

Informatica e Bioinformatica – A. A. 2013-2014 13

Che le regioni della sequenza genomica che si allineano con l’mRNA

In minuscolo e nero

la sequenza genomica

che non allinea:

INTRONE, oppure

regione intergenica.

Gli introni di solito

iniziano con GT e

finiscono con AG

In maiuscolo

la sequenza di

input (mRNA)

Informatica e Bioinformatica – A. A. 2013-2014 14

BLAT mantiene in memoria un indice di un intero genoma: il database target di BLAT non è un set di

sequenze GenBank, ma un indice derivato dall'assemblaggio dell'intero genoma.

BLAT per gli acidi nucleici è scritto per individuare velocemente sequenze di 40 basi o più e con il 95%

di similarità o più. Potrebbe non individuare allineamenti più divergenti o corti.

BLAT per proteine individua sequenze proteiche con più dell'80% di similarità alla query lunga almeno

20 aa.

In pratica, a causa del grado di divergenza tra sequenze nel corso dell'evoluzione:

DNA BLAT lavora bene su uomo ed i primati,

BLAT per proteine trova buoni match tra le proteine conservate di vertebrati terrestri

e anche organismi più distanti filogeneticamente.

Da un punto di vista pratico, BLAT ha diversi vantaggi rispetto a BLAST:

* velocità (no code, risposte in secondi) ma ha una minore specificità

* diverse modalità di ordinamento dell'output

* collegamento diretto nel UCSC Genome Browser

* dettaglio dei blocchi di allineamento nell'ordine naturale nel genomico

BLAT viene solitamente usato per cercare la collocazione di una sequenze nel genoma o per determinare

la struttura esonica di un mRNA.

BLAT contro BLAST