19
Ricerche con Laboratorio di Bioinformatica I Ricerche con BLAST (Laboratorio) Dott. Sergio Marin Vargas (2014 / 2015)

Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

  • Upload
    vanhanh

  • View
    219

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Ricerche con

Laboratorio di Bioinformatica I

Ricerche con BLAST

(Laboratorio)

Dott. Sergio Marin Vargas (2014 / 2015)

Page 2: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

NCBI BLASTBLAST: Basic Local Alignment Search Toolhttp://blast.ncbi.nlm.nih.gov/Blast.cgi

Page 3: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

NCBI Nucleotide BLAST (blastn)http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

Reset page

Sequenza

Databases

Optimizzazione:Modifiche all’algoritmo per ricercare sequenzenucleotidiche

Sequenza

Organismo

Page 4: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 1: “Jurassic” blastn

� Michael Crichton scrisse su “dinosauri e clonazione”. � Nel libro “Jurassic Park” (poi film “Lost World”), ha usato una

sequenza di incompleta di DNA di dinosauro, completata da alcuni esperti presso NCBI.

� È possibile recuperare tale sequenza dal sito di NCBI:

ftp.ncbi.nih.gov/pub/FieldGuide/lostworld.txt

� Usare BLASTN sul database “Nucleotide collection (nr/nt)” per � Usare BLASTN sul database “Nucleotide collection (nr/nt)” per identificare le fonti per il completamento della sequenza utilizzata.

� Resettare la pagina prima di impostare i parametri.� Incollare la sequenza nella finestra di BLASTN, selezionando

“Somewhat similar sequences (blastn)” nella sezione Program Selection.

� Indicare i due principali organismi che sono stati usati per creare la sequenza di dinosauro?

� Cliccare su “Taxonomy reports” per un quadro più completo (in particolare: cliccare su “Organism report”)

Page 5: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 1: “Jurassic” Blastn

Page 6: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 2: Ricerca di sequenza sconosciuta con blastn

� Vi viene sottoposta una sequenza dal significato sconosciuto:http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&Itemid=83

unknown_dna.fasta

� Vogliamo sapere se corrisponde a geni noti: � Resettare la pagina!� Utilizzare il database “refseq_rna”� Optimizzare per “Somewhat similar sequences (blastn)”� Scegliere l’opzione “Show results in a new window”.

� Con quale organismo è correlata la sequenza?� Quanti esoni dovrebbero esserci nella nostra sequenza?� Con riferimento alla prima sequenza con codice refseq

verificato (sono quelli che cominciano con NM, i codici XMsono predetti), quali sono le posizioni (i range) a cui corrisponde l’allineamento?

Page 7: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 2: Ricerca di sequenza sconosciuta con Blastn

Drosophila

Primo allineamento con sequenza verificata

Esoni

Page 8: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

NCBI Protein BLAST (blastp)http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastp&PAGE_TYPE=BlastSearch&BLAST_SPEC=&LINK_LOC=blasttab&LAST_PAGE=blastn#

Reset page

Databases

Sequenza

Databases

Algoritmi:Diversi algoritmi per ricercare sequenze proteiche

Organismo

Esclussione Modelli

Page 9: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 3: Sequenza corta con blastp� Utilizzando Blastp di NCBI eseguire una ricerca della la

seguente sequenza di 12 aminoacidi: PNLHGLFGRKTG

� Resettare l’interfaccia� Mettere la sequenza in formato FASTA. Dopo che eseguite

la ricerca i parametri saranno automaticamente adattati per la ricerca i parametri saranno automaticamente adattati per

sequenze corte.� Attivare l’opzione “Show results in a new window” per poter

confrontare con i parametri di default. � Osservare la sezione “search summary”:

� Qual è il valore di cut-off dell’e-value (Expect threshold)? � Come è cambiata la “word size”? � Qual è la matrice di punteggio? � Cambia la penalità per i gap ?� Perché sono variati i parametri rispetto al default?

Page 10: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 4: “Compositionaladjustment” di blastp

� Ricercare con BLASTP la sequenza “human insulin”(NP_000198.1). Realizzare la ricerca sul databaserefseq_protein e sull’organismo “Caenorhabditis elegans”,utilizzando la matrice BLOSUM 45 e con queste 5 opzioni delCompositional adjustments (rettifiche di composizione):1. Conditional compositional score matrix adjustment (Default

settings)

2. Aggiungere il filtro “low complexity regions”

3. No adjustment (con “Filter” low complexity regions)

4. No adjustment (senza “Filter” low complexity regions)

5. Composition-based statistics

6. Universal compositional score matrix adjustment

� Cercare di spiegare il motivo delle differenze osservabili neirisultati (numero di risultati o hit, scores, copertura, ecc.)

Page 11: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

NCBI Protein BLAST (PSI-BLAST)http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

Protein-protein

PSI-BLAST

PHI-BLAST

DELTA-BLAST

Page 12: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 5: BlastP e PSI-BLAST

� Ci sono globine nei funghi? Eseguire una ricerca con BlastP utilizzando la globina umana beta (NP_000509.1) come sequenza di query e i seguenti parametri:� Nel database nr� Limitando l’output a sequenze di “fungi (taxid: 4751)”

� Qual è la gamma di lunghezze approssimativa delle � Qual è la gamma di lunghezze approssimativa delle proteine fungine che hanno domini globinici?

� Eseguire nuovamente la ricerca con gli stessi parametri e la stessa sequenza, ma questo volta modificare l’algoritmo a PSI-BLAST e confrontare i due risultati.� Ci sono differenze ?� Perche ci sono o non ci sono differenze ?

Page 13: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 5: BlastP e PSI-BLAST

BlastPPSI-BLAST

Page 14: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 6: BlastP e PSI-BLAST

� Ripetere l’esercizio precedente con PSI-BLAST, quindi eseguire una ricerca utilizzando la globina umana beta (NP_000509.1) come sequenza di query e i seguenti parametri:� Nel database nr� Limitando l’output a sequenze di “fungi (taxid: 4751)”

Lanciare più iterazioni di PSI-BLAST (almeno 3) e � Lanciare più iterazioni di PSI-BLAST (almeno 3) e segnarsi i numeri di hits (risultati) approssimativamente.

� Che domini non-globina sono spesso presenti nelle globine fungine?

� Quanti risultati (con i valori di E sotto la soglia 0,005) ci sono dopo la prima iterazione?E dopo le diverse iterazioni?

Page 15: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 7: PSI-BLAST su proteina sconosciuta� Un campione biologico della specie Danio Rerio (zebrafish) ha rivelato la

presenza della sequenza proteica di origine sconosciuta riportata in:http://molsim.sci.univr.it/bioinfo/web/index.php?option=com_wrapper&view=wrapper&Itemid=83

unknown_protein.fasta

� Utilizzare PSI-BLAST con i seguenti parametri: RefSeq come database,escludendo i modelli dagli output, limitandosi all’organismo da dove èstato prelavato il campione, utilizzare PAM30 come matrice di score.stato prelavato il campione, utilizzare PAM30 come matrice di score.

� Di che tipo di proteina si tratta? (Guardare se ci sono domini conservati!)� Quanti hits aprossimativamente ci sono alla prima iterazione? Qual è l’hit

con score più basso? Segnarsi i codici RefSeq. Quanti hits hanno score>200?

� Alla seconda iterazione. Qual è l’hit con score minore? Confrontarlo conquello più basso dell’iterazione precedente? Quanti hits hanno score>200?

� Quante nuove hit compaiono alla terza iterazione?� A quale iterazione non vengono più aggiunti hits?

Page 16: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 8: PSI-BLAST e malaria� Il parassita della malaria Plasmodium vivax ha una famiglia

multigenica chiamata vir che è specifica per tale organismo.� Esistono tra 600-1000 copie di questi geni, e possono avere un

ruolo nel causare infezioni croniche attraverso variazioniantigeniche.

� Selezionare vir1 (XP_001612479.1) ed effettuare una ricerca� Selezionare vir1 (XP_001612479.1) ed effettuare una ricercaBLASTP nella banca dati “nr” (non ridondante).� Quanti hits aprossimativamente si trovano e con quale punteggio?

� Poi, per trovare le altre centinaia di sequenze, eseguire unaPSI-BLAST di ricerca con la stessa id.� Nella prima ricerca, quale è il numero approssimativo di proteine che

hanno un valore E inferiore a 0,002, e quanti hanno un punteggiosuperiore a 0,002?

� Qual è il punteggio della migliore nuova sequenza che viene aggiunto trala prima iterazione e la seconda iterazione di PSI-BLAST?

Page 17: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

NCBI BlastX

Sequenza

Codice Genetico

http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastx&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome

Databases

Confronta una sequenza nucleotidica (traducendola in tutti 6 possibili frame di lettura) ad un database di proteine.

Page 18: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 9: BLASTX

� Entrare in BLASTX di NCBI e copiare la sequenza di“dinosauro” "Lost World” come input.ftp.ncbi.nih.gov/pub/FieldGuide/lostworld.txt

� Assicuratevi di includere l'intera sequenza. Ricercare suldatabase “nr”. Escludere i modelli (XM/XP).

� Di quale proteina forma parte questa sequenza nucleotidica?� Di quale proteina forma parte questa sequenza nucleotidica?� Nella pagina dei risultati, guardare i risultati degli allineamenti.� La pagina risultante mostrerà la sequenza query scritta come

proteina (utilizzando le 20 lettere corrispondenti agliamminoacidi). Il Dr. Mark Boguski che ha creato la sequenzaha lasciato un messaggio nascosto nella sequenza query inposizioni corrispondenti ai 4 gap della sequenza allineata.Qual è il suo messaggio?

Page 19: Ricerche con BLAST (Laboratorio) - Bioinformaticsmolsim.sci.univr.it/2014_bioinfo1/04_Ricercche_con_Blast.pdf · Cercare di spiegare il motivo delle differenze osservabili nei risultati

Esercizio 9: BLASTX