Upload
raimondo-sartori
View
222
Download
2
Embed Size (px)
Citation preview
BioinformaticaBanche dati biologiche
Dr. Giuseppe Pigola – [email protected]
Banche dati biologiche Le banche dati sono dei contenitori costruiti per
immagazzinare grandi quantità di dati biologici in modo efficiente e razionale;
Le banche dati biologiche raccolgono informazioni e dati derivati da: Letteratura; Analisi di laboratorio (in vitro e in vivo); Analisi bioinformatiche (in silico).
Ogni banca dati è caratterizzata da un elemento biologico centrale che costituisce l’oggetto intorno al quale viene costruita la ENTRY principale della banca dati;
Bioinformatica2
Banche dati biologichie La maggior parte delle banche dati sono fruibili in
formato Flat-file: Ogni entry è memorizzata in un file di testo generalmente strutturato, contenente le informazioni;
Con il crescere dei dati si è reso necessario adottare DBMS;
Uso del web per accedere a informazioni tra loro correlate (cross-referencing) attraverso link ipertestuali;
Banche dati in formato XML;Bioinformatica3
Banche dati biologichie Ridondanze e Errori:
Errori durante l’estrazione delle sequenze; Algoritmi per la previsione di strutture imperfetti; Inserimento erroneo di duplicati nei DB; Diversi nomi per la stessa sequenza; Non vi è un’unica struttura per un gene (splicing
alternativi). Lo stesso gene può essere rappresentato da numerose sequenze nei vari DB;
NCBI accetta tutte le sequenze ma le eleva al rango di REFSEQ (sequenza di riferimento) e assegna un refseqID solo dopo numerosi controlli anche manuali;
Bioinformatica4
Banche dati primarie Sono banche dati di sequenze di acidi nucleici (DNA,
RNA): EMBL datalibrary (EMBL – European Molecular
Biology Laboratory - 1980); GenBank (NCBI – National Center for
Biotechnology Information - 1982); DDBJ (DNA Database of Japan - 1986).
Esiste un accordo tra le tre banche per cui l’inserimento di dati in una, comporta l’automatico inserimento nelle altre;
EMBL adotta un formato diverso dalle altre due;Bioinformatica5
NCBI - http://www.ncbi.nlm.nih.gov/
Bioinformatica6
NCBI – National Center for Biotechnology Information.Gestisce un gran numero di DB tra i quali:• Gene
Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link alle sequenze ed alla relative pubblicazioni scientifiche.
• NucleotideContiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno.
• ProteinHa la stessa struttura di Nucleotide ma è relativo alle sequenze aminoacidiche.
• PubmedE’ il database delle pubblicazioni scientifiche di carattere biologico e biomedico. Per ogni articolo è disponibile l’abstract. Pubmed Central contiene articoli completi scaricabili gratuitamente.
• TaxonomyContiene la classificazione dei vari organismi;
NCBI - http://www.ncbi.nlm.nih.gov/
Bioinformatica7
Esempio di entry in GenBank
• LOCUS: Entry name;
• ACCESSION: Accession Number;
• SOURCE: Organismo;
• REFERENCE;
NCBI - http://www.ncbi.nlm.nih.gov/
Bioinformatica8
Esempio di entry in GenBank
• FEATURES;
• ORIGIN;
EMBL - http://srs.ebi.ac.uk
Bioinformatica9
EMBL – European Molecular Biology LaboratoryAnche EMBL permette di accedere a numerosi DB. •EMBL DataLibrary
Contiene dati inerenti Geni e Sequenze Nucleotidiche;
•UniProtContiene dati proteici (gestito da un consorzio di cui fa parte EMBL);
• NCBISi appoggia anche a NCBI per ricercare informazioni relative a pubblicazioni (PUBMED) o malattie genetiche (OMIM);
EMBL - http://srs.ebi.ac.uk
Bioinformatica10
Esempio di entry in EMBL
• ID Entry name;
• AC Accession Number;
• OS Source Organism;
• OC Tassonomia;
• KW Parole Chiave;
• RA Autori;
• RT Titolo;
• DR Cross Reference;
EMBL - http://srs.ebi.ac.uk
Bioinformatica11
Esempio di entry in EMBL
• FT Features;
• SQ Sequenza;
DDBJ - http://www.ddbj.nig.ac.jp/
Bioinformatica12
DDBJ – DNA Data bank of Japan
Si tratta in pratica di una copia di NCBI;
Mette a disposizione tool per ricercare e analizzare dati molto simili a quelli che vedremo per Entrez;
Il formato adottato da DDBJ per i flat-file è identico a quello di NCBI;
Interrogazione di banche dati I sistemi più utilizzati per interrogare le banche dati
sono:
Entrez (Sviluppato da NCBI): Permette di accedere a numerose banche dati (anche contemporaneamente) attraverso una interfaccia web. Permette di effettuare ricerche testuali sui DB utilizzando
diverse sintassi per i vari DB.
SRS - Sequence Retrieval System (Sviluppato da EBI – European Bioinformatics Institute);
Anche DDBJ offre un metodo di ricerca e analisi dei dati via WEB (ma in pratica si tratta delle stesse cose che vedremo per Entrez e SRS);
Bioinformatica13
Entrez - http://www.ncbi.nlm.nih.gov/Entrez
Bioinformatica14
Entrez - http://www.ncbi.nlm.nih.gov/Entrez
Bioinformatica15
Ricerca in tutti i database
Risorse principali:
• Nucleotide;
• Protein;
•Genome;
• Gene;
• Taxonomy;
• Pubmed;
Entrez
Bioinformatica16
Cerchiamo informazioni relativamente al gene umano TP53
Clicchiamo in corrispondenza di Gene
Entrez
Bioinformatica17
Opzioni di filtraggio;
Ricerca di informazioni correlate;
Dettagli;
Etc;
La prima voce è quello che cerchiamo
Entrez
Bioinformatica18
Simbolo Ufficiale, Nome del Gene, Tipo di gene, Classificazione, breve Sommario
Entrez
Bioinformatica19
Taxonomy Browser: Classificazione dell’organismo
Entrez
Bioinformatica20
Classificazione dell’organismo
Gerarchia di classificazione
Entrez
Bioinformatica21
Database contenente la informazioni sulla sequenza (in questo caso HGNC)
Entrez
Bioinformatica22
Nome e simbolo del gene
Entrez
Bioinformatica23
ID unico fornito da dall’autorità HGNC: HUGO Gene Nomenclature Committee
Entrez
Bioinformatica24
Approved: Il gene ha un simbolo approvato da HGNC;Entry withdrawn: Il gene precedentemente approved non esiste più;Symbol withdrawn: - La entry, predentemente approvata è stata fusa con un’altra;
Entrez
Bioinformatica25
Indica la posizione del gene o la regione del cromosoma
Entrez
Bioinformatica26
Alias
Entrez
Bioinformatica27
Il Reference Sequence ID fornito da NCBI e Accession Numbers Per le sequenze di riferimento (Link rispettivamente a mRNA, CDS, etc.)
Entrez
Bioinformatica28
L’entry per TP53 sul DBGenBank (mRNA)
Locus:Nome identificativo;
Accession Number: ID;
Keywords: parole chiavi che identificano la funzione biologica;
Source Organism: Classificazione;
Reference: informazioni bibliografiche;
Entrez
Bioinformatica29
Features: Carateristiche della sequenza; Eventuali introni ed esoni, promotori, enanchers, etc…
Traduzione
Entrez
Bioinformatica30
Link alla Coding SequenceViene indicato anche il punto di inizio e di fine.
Entrez
Bioinformatica31
Sequenza dell’mRNA relativo al gene.
Entrez
Bioinformatica32
Salvare l’entry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni);
Modalità di visualizzazione
Entrez
Bioinformatica33
Alcuni formati standard delle sequenze. (A) FASTA, (B) GCG
Entrez
Bioinformatica34
Link ai relativi geni per gli organismi Mouse e Rattus Norvegicus
Entrez
Bioinformatica35
Link agli articoli correlati su Pubmed e CiteXplore
Entrez
Bioinformatica36
Entrez
Bioinformatica37
Entrez
Bioinformatica38
Ogni riga rappresenta una variante di splicing (le varianti differiscono nel numero e nelle dimensioni degli esoni, indicati da rettangolini, gli introni sono rappresentati dalle linee sottili).
Contesto genomico: Regione genomica di appartenenza e geni limitrofi.Le frecce indicano il filamento (destra: senso, sinistra: antisenso).
Sequenza genomica di riferimento con relativi link al FASTA o entry GenBank
Entrez
Bioinformatica39
Fenotipi patologici correlati al gene (malattie);
Sono forniti dei link a delle informazioni aggiuntive;
Entrez
Bioinformatica40
Interazioni con proteine coinvolte nell’HIV.
Interazioni note con altre proteine. Link a tali sequenze e pubblicazioni relative.
Entrez
Bioinformatica41
• Markers correlati;
• Variazioni del gene o malattie associate in varie popolazioni;
• Omologia (Ortologhi in altre specie);
• Pathways in cui il gene è coinvolto;
• Annotazioni ontologiche (Processi, funzioni e localizzazione cellulare);
Informazioni relative alla proteina(solo per geni codificanti proteine);
Entrez
Bioinformatica42
Qui troviamo I link alle sequenze nucleotidiche e proteiche relative al gene.
Diversi link per ogni variante di splicing.
Entrez
Bioinformatica43
Sequenze correlate (ad es precalcolate con BLAST) con link ai DB Nucleotide, Protein;
Link addizionali a sorgenti esterne;
Entrez
Bioinformatica44
Modalità di visualizzazione;
Salvare l’entry come file oppure in clipboard o collections (NCBI memorizza temporaneamente le informazioni);
Entrez
Bioinformatica45
Una Tabella con le informazioni sulla struttura del gene per ogni variante di splicing;
Entrez
Bioinformatica46
Link alla entry in Nucleotide del mRNA;
Posizionandoci con il mouse sul nome di una isoforma viene visualizzato un menu a tendina con informazioni e link;
Link alla entry in Protein della proteina relativa;
Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse codificanti o meno.
Bioinformatica47
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Metodi di ricerca: Simbolo o nome di un gene o proteina : Ad es. BAX;
Ricerca per Accession Number ad es. CAA79696, NP_778203, 263191547, BC043443, NM_002020 etc);
Ricerca per autore: Ad es. Smith JR (Cognome seguito dalle iniziali senza punti);
Ricercare una frase esatta: Ad es. "contactin associated protein";
Usare gli operatori booleani: AND, OR, NOT (ad es. contactin AND neurofascin);
Bioinformatica48
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Metodi di ricerca: Usare gli operatori booleani: AND, OR, NOT insieme alle parentesi
Bioinformatica49
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
g1p3 AND (response element OR promoter)
Di default viene applicato l’operatore AND:
Tp53 mouse
Usare Wild Cards “*” oppure “?”
Metodi di ricerca: Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Nucleotide
Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank,
DDBJ, etc;
Tipo di molecola: DNA,RNA,
mRNA, cRNA;
Localizzazione della sequenza:mitocondrio, nucleo, etc;
Escludere lavori incompleti; Escludere brevetti;
Bioinformatica50
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Metodi di ricerca: Usare i Limits: Field tags;
Bioinformatica51
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Selezionando ad esempio Organism possiamo usare nella ricerca il nome dell’organismo (ad es. “human, mouse, green plant, bacteria, drosophila similis”
Una volta fatta la ricerca possiamo filtrare ancora i dati utilizzando il menu sulla destra della pagina dei risultati;
Metodi di ricerca: Usare i Limits: Possono essere usati anche
direttamente nel campo di ricerca racchiusi tra [ ]
Bioinformatica52
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
[accession] Accession number;[all field];[author];[ecrno] EC/RN Number (enzyme commission number);[Gene Name] [Issue] [title] [journal] etc…Parametri pubblicazione;[Publication date] Data di Pubblicazione e eventuale Modifica;Lunghezza della sequenza;
Ricerca avanzata
Metodi di ricerca: Usare i Limits. Esempi:
Bioinformatica53
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Frogs AND 2010/06[Publication Date]
110:500[Sequence Length]
2009/3/1:2009/9/30[Publication Date]
NC_0000*[Accession] AND Human[Organism]
Metodi di ricerca: Advanced Search:
Bioinformatica54
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Metodi di ricerca: Advanced Search e History:
Bioinformatica55
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Nella pagina della ricerca avanzata è presente una History delle query fatte recentemente:
Ciascuna query ha un nome nel formato “#NUMERO”; E’ possibile riutilizzare query nella history e combinarle tra loro
usando gli operatori booleani;
DIVERSI TIPI DI ENTRY. mRNA (ad es. entry U90223);
DNA (ad es. Entry AF018430);
Le due entry si riferiscono a: mRNA relativo ad un gene con informazioni relative a , CDS e Proteina;
La seconda mostra come un gene si presenta effettivamente su un tratto di cromosoma (varianti di splicing, presenza di esoni introni etc etc);
Bioinformatica56
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
mRNA ENTRY: U90223
Bioinformatica57
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
DNA Entry: AF018430
Due varianti di splicing
Bioinformatica58
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
DNA Entry: AF018430
Bioinformatica59
Entrez - Nucleotide http://www.ncbi.nlm.nih.gov/nuccore
Prendi i nucleotidi da 1 a 1735 dalla entry AF018429.Aggiungi i nucleotidi da 1 a 1177 dalla entry AF018430.Aggiungi i nucleotidi da 1 a 45 dalla entry AF018431.Aggiungi i nucleotidi da 658 a 732 dalla entry AF018432.
Contiene le sequenze create dalla traduzione di sequenze nucleotidiche codificanti provenienti da GenBank, EMBL,DDBJ;
Le sequenze proteiche sono importate inoltre da db esterni quali Protein Information Resource (PIR), SWISS-PROT, Protein Research Foundation (PRF).
Le sequenze proteiche sono inoltre estratte da strutture provenienti da Protein Data Bank (PDB).
Bioinformatica60
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
Metodi di ricerca: Sono identici a quelli visti per Nucleotide;
Bioinformatica61
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
Metodi di ricerca: Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Protein
Data di pubblicazione; Data di Modifica; Db sorgente: EMBL,Genbank,
DDBJ, etc;
Escludere lavori incompleti, brevetti, etc.
Bioinformatica62
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
Metodi di ricerca: Usare i Limits: Possono essere usati anche
direttamente nel campo di ricerca racchiusi tra [ ]
Bioinformatica63
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
I tag sono identici a quelli visti per Nucleotide ad eccezione di alcuni come ad es:
[molecular weight]
Ricerca avanzata
La ricerca di tp53 nel db Protein.
Questa volta troviamo la sequenza proteica.
Bioinformatica64
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
La ricerca di tp53 nel db Protein.
Ma possiamo sempre risalire alla Coding Sequence
Bioinformatica65
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
Scegliendo come modalità di visualizzazione “FASTA” otteniamo:
Bioinformatica66
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
Possiamo cambiare l’intervallo da visualizzare
Scegliendo come modalità di visualizzazione “FASTA” otteniamo:
Bioinformatica67
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
Trovare regioni di similarità tra tp53 e altre sequenze (BLAST);
Trovare regioni conservate in tp53 (CD-search);
Scegliendo come modalità di visualizzazione “FASTA” otteniamo:
Bioinformatica68
Entrez - Protein http://www.ncbi.nlm.nih.gov/protein
Trovare pattern all’interno della sequenza
Tutto quanto detto vale anche per Nucleotide.
Contiene geni. Mantiene informazioni relativamente a nomenclatura, localizzazione cromosomica, prodotti dei geni, malattie etc.
Bioinformatica69
Entrez - Gene http://www.ncbi.nlm.nih.gov/gene
Metodi di ricerca: Sono identici a quelli visti per Nucleotide e Protein;
Bioinformatica70
Entrez - Genehttp://www.ncbi.nlm.nih.gov/gene
Metodi di ricerca: Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Gene
Search Field tags: Chromosome; Taxonomy ID; Gene Name; Gene Length; Disease/Phenotype; Etc…
Bioinformatica71
Entrez - Gene http://www.ncbi.nlm.nih.gov/gene
Metodi di ricerca: Usare i Limits: Organismo
Bioinformatica72
Entrez - Gene http://www.ncbi.nlm.nih.gov/gene
Metodi di ricerca: Usare i Limits: Opzioni e Date;
Bioinformatica73
Entrez - Gene http://www.ncbi.nlm.nih.gov/gene
Metodi di ricerca: Usare i Limits: Tassonomia;
Bioinformatica74
Entrez - Gene http://www.ncbi.nlm.nih.gov/gene
Metodi di ricerca: Usare i Limits: Possono essere usati anche
direttamente nel campo di ricerca racchiusi tra [ ]
Bioinformatica75
Entrez - Gene http://www.ncbi.nlm.nih.gov/gene
I tag sono identici a quelli visti per Nucleotide e Protein ad eccezione di alcuni come ad es:
[exon count][taxonomy ID][disease/phenotype][cromosome]
Ricerca avanzata
Esempi di Query:
Bioinformatica76
Entrez - Gene http://www.ncbi.nlm.nih.gov/gene
PubMed è un database di citazioni e abstract della letteratura biomedica.
Quando l’intero articolo è disponibile, vengono forniti link per la consultazione (Pubmed Central, la biblioteca nazionale degli USA).
Tutorial: http://www.nlm.nih.gov/bsd/disted/pubmedtutorial
Bioinformatica77
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
PubMed contiene al suo interno 4 database: MEDLINE
citazioni dal 1966 ad oggi; abstract; MESH; aggiornamento settimanale;
OLDMEDLINE con citazioni dal 1951 al 1965 , no abstract, no
MESH PREMEDLINE (In Process citations)
per citazioni non ancora indicizzate; no MeSH ; aggiornamento giornaliero
PUBLISHER SUPPLIED CITATIONS per citazioni ricevute via elettronica direttamente
dall’editore. Non ancora pubblicate in cartaceo.
Bioinformatica78
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Anche PubMed ha il suo formato Flat file:
[AU] campo autore
[TI] campo titolo
[TA] nome della rivista
[LA] lingua di pubblicazione dell’articolo
[MH] Mesh terms (soggetti)
[DP] data di pubblicazione(A/M/G)
[EDAT] data di inserimento nel pubmed (A/M/G)
[AB] abstract
Bioinformatica79
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Metodi di ricerca: Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Pubmed
Data di pubblicazione; Tipo di articolo; Linguaggio; Specie; Sesso;
Bioinformatica80
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Metodi di ricerca: Ricerca Avanzata;
[mesh] Medical Subject Headings (termini biomedici indicizzati in un vocabolario curato da NCBI). Usati per indicare un argomento.
Esempio: tutte le pubblicazioni di “smith” dal 2009 al 2010
Bioinformatica81
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Bioinformatica82
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Usare il tag MeSH - Medical Subject Headings.Dalla Pagina della ricerca avanzata è possibile accedere al vocabolario di termini medici utili alla ricerca.
Bioinformatica83
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Proviamo a ricercare nel DB di MeSH il termine “brain neoplasm”
Ci sono delle sottointestazioni relative al termine che possiamo selezionare
Bioinformatica84
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Il DB è organizzato ad albero. Possiamo selezionare un nodo e ricercare le eventuali sottocategorie correlate.
Bioinformatica85
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Infine possiamo aggiungere a “Search Builder” il relativo tag di ricerca oppure fare direttamente una ricerca su PubMed.
Bioinformatica86
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Anche il DB MeSH ha la sua ricerca avanzata di termini medici.
Metodi di ricerca. Esempi: Ricercare articoli scritti da “Bonnie W. Ramsey” riguardo
la terapia genica nella fibrosi cistica cystic fibrosis gene therapy ramsey bw
Quando si conosce solo il cognome di un autore si può usare il tag [au]: brody[au]
Da alcuni anni Pubmed sta inserendo anche i nomi completi degli autori;
Bioinformatica87
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Risultati di una ricerca:
Bioinformatica88
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
FiltriSend to
Display Settings
Risultati di una ricerca:
Bioinformatica89
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Metodi di ricerca. Single Citation Matcher.
Bioinformatica90
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Metodi di ricerca. Topic-Specific Queries.
Bioinformatica91
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Metodi di Ricerca. Clinical Query:
Bioinformatica92
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Metodi di Ricerca. Clinical Query:
Ricerca degli aspetti clinici della terapia genica nella fibrosi cistica, selezionare la categoria “Therapy”, lo scope “Narrow”, e la query: cystic fibrosis gene therapy
Ricerca di reviews su terapia inalatoria nella polmonite: inhalation therapy pneumonia
Per trovare informazioni su anemia falciforme, dalla pagina Clinical Queries scegliere “Genetic Counseling” dal menu “Topic” e immettere i termini di ricerca seguente nella casella di ricerca: sickle cell anemia
Bioinformatica93
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Catalogo Riviste. Pubmed mette a
disposizione anche un metodo di ricerca di riviste del settore;
Bioinformatica94
Entrez - Pubmed http://www.ncbi.nlm.nih.gov/pubmed
Esercitazione 1: Ricercare dalla pagina principale di Entrez il gene il cui
accession number è BC043443; Quanti risultati otteniamo nel db Gene? Quale è il nome ufficiale del gene? Gli altri possibili Nomi? In quale filamento del dna si trova? Quante varianti di Splicing? Sono tutte codificanti proteina? A quali malattie è associato? E’ coinvolto nel processo dell’apoptosi? Quanto è lunga la coding sequence della prima variante di
slicing?
Bioinformatica95
EntrezEsercitazioni
Esercitazione 1I: La citocromo c ossidasi (cox4) è un complesso multimerico
localizzato nella membrana mitocondriale interna che partecipa al trasporto degli elettroni nella catena respiratoria mitocondriale. Vogliamo selezionare il gene corrispondente alla subunità 4 umana presente nel cromosoma 16 e prendere poi la sequenza nucleotidica e la relativa traduzione proteica.
STEP 1: Da Entrez selezioniamo il DB Gene; STEP 2: Nel campo di ricerca digitiamo:(homo sapiens[Organism]) AND (16[Chromosome]) AND “cytochrome c oxidase” AND (“subunit
4” OR “subunit iv” OR “cox4”)
STEP 3: Il primo risultato ottenuto è quello che cercavamo (isoforma 1). Cliccliamo sulla sequenza e successivamente sul link “primary Source” e poi “Genbank”
STEP 4 : Recuperare la sequenza mRNA relativa. Recuperare la CDS in formato fasta e la relativa traduzione.
Bioinformatica96
EntrezEsercitazioni
Esercitazione III: Quale è la tassonomia di “drosophila melanogaster”? Suggerimento: Dalla pagina principale di Entrez digitare
drosophila melanogaster[organism] (o equivalentemente selezionando il DB taxonomy digitare drosophila melanogaster)
Bioinformatica97
EntrezEsercitazioni
Esercitazione IV: Utilizzando Entrez cercare il gene tp53 del cane (Canis
familiaris). Di che tipo di gene si tratta? In quale cromosoma si trova? Quale è il refSeq Status? Quante isoforme ci sono? In quale filamento si trova? (senso/antisenso) Ci sono geni omologhi in altri organismi? Quali?
Bioinformatica98
EntrezEsercitazioni
Esercitazione V: Dal DB Protein selezionare la proteina CAD99002. Quale è il nome della proteina? Quale è la lunghezza della proteina? Quale è la lunghezza della coding sequence?
Bioinformatica99
EntrezEsercitazioni
Esercitazione VI: Quante proteine umane sono presenti in banca dati? Quante di queste sono codificate dal genoma mitocontriale?
(suggerimento: usare limits dal db protein)
Bioinformatica100
EntrezEsercitazioni
Esercitazione VII: Quanti articoli ha pubblicato G. Pesole nel 2005? Quanti articoli in pubmed contengono la parola
“Bioinformatics”? Quanti articoli bioinformatici ha pubblicato Alfredo Ferro fino
ad oggi? Quanti di questi riguardano la backtranslation? (suggerimento: usare il nome completo)
Cercare articoli review sull’ischemia cerebrale (cerebral ischemia) come argomento principale riguardante la fascia di età fra i 45 e 64 anni. (sugg: guardate bene i limits).
Ricercare articoli sulla osteoporosi (osteoporosis) nelle donne.
Quale è il nome completo della rivista “Ann. Entomol. Soc. Am.”
Quale è il nome completo della rivista PNAS.Bioinformatica101
EntrezEsercitazioni
Esercitazione VIII: Trovare la tassonomia del pomodoro (tomato). Quale è il
nome scientifico? Trovare la tassonomia della vite (wine grape). Quale è il
nome scientifico?
Bioinformatica102
EntrezEsercitazioni
SRS - http://srs.ebi.ac.uk
Bioinformatica103
SRS - http://srs.ebi.ac.uk
Bioinformatica104
SRS (Sequence Retrieval System) è un sistema per la ricerca e l’estrazione di dati biologici via web;
SRS consente la navigazione attraverso varie banche dati sfruttando il cross-referencing;
La gran parte delle opzioni messe a disposizione da SRS sono uguali a quelle di Entrez;
Generalmente quando usiamo SRS e Entrez, il numero di sequenze che otteniamo attraverso i due sistemi è diverso a causa di un diverso aggiornamento delle banche dati utilizzate dai due sistemi di interrogazione;
SRS - http://srs.ebi.ac.uk
Bioinformatica105
Proviamo a ricercare il gene corrispondente alla subunità 4 umana di citocromo c ossidasi
Selezioniamo Library Page dalla home page di EMBL-EBI
SRS - http://srs.ebi.ac.uk
Bioinformatica106
Scegliamo il DB in cui effettuare la ricerca;
Possiamo scegliere tra:
Standard Query; Extended Query;
SRS - http://srs.ebi.ac.uk
Bioinformatica107
Dopo aver scelto EMBL come DB e standard query inseriamo nei campi di ricerca i termini da ricercare utilizzando (come per Entrez i tag appropriati)
SRS - http://srs.ebi.ac.uk
Bioinformatica108
I termini verranno correlati con un operatore AND
SRS - http://srs.ebi.ac.uk
Bioinformatica109
Query in formato testuale con operatori booleani e tag per restringere la ricerca.Ci sono alcune piccole differenze rispetto a Entrez: Ad esempio gli operatori booleani sono indicati con &, !, | etc.
SRS - http://srs.ebi.ac.uk
Bioinformatica110
Risultato della ricerca:Il primo record è “ipotetical”Il terzo Record è quello che cercavamo (isoforma 1);
SRS - http://srs.ebi.ac.uk
Bioinformatica111
E’ possibile selezionare una o più sequenze e richiamare su di essa un programma come ad es. BLAST, CLUSTALW, FASTA, Transeq (traduzione in aminoacidi), Backtranseq (backtranslation), etc etc.
SRS - http://srs.ebi.ac.uk
Bioinformatica112
Cliccando sul link relativo otteniamo la pagina contenente le informazioni;
E’ praticamente molto simile a quella di Entrez.
SRS - http://srs.ebi.ac.uk
Bioinformatica113
Tra le altre informazioni troviamo le Features della sequenza (Introni, esoni etc etc).
Traduzione
SRS - http://srs.ebi.ac.uk
Bioinformatica114
In fondo alla pagina troviamo anche la sequenza
SRS - http://srs.ebi.ac.uk
Bioinformatica115
Esercizio IRicercare in SRS tutte le sequenze nucleotidiche riguardanti i muscoli nell’uomo che si riferiscano a myosin oppure a telethonin ma non a skelectal.
SRS - http://srs.ebi.ac.uk
Bioinformatica116
Esercizio IIEffettuare tutte le ricerche fatte su entrez anche su srs.
DDBJ - http://www.ddbj.nig.ac.jp/
Bioinformatica117
DDBJ - http://www.ddbj.nig.ac.jp/searches-e.html
Bioinformatica118
Ricerca di sequenze:
Altre Banche dati SWISSPROT/UNIPROT (http://www.ebi.ac.uk/swissprot/access.html):
banca dati originale, sviluppata in Svizzera. E’ una banca dati altamente curata, con alto livello di annotazione
(descrizione della proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e post-trasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database, basso livello di ridondanza.
Questa banca dati fornisce entry flat-file che si differenziano da EMBL soprattutto per quanto riguarda le features che descrivono nelle proteine la presenza di aa modificati, regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi;
PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre minori vantaggi nel suo uso.
Bioinformatica119
UNIPROT
Bioinformatica120
UNIPROT Dal sito di EBI possiamo
accedere al DB UniProt tramite ricerca testuale o SRS;
Possiamo inoltre eseguire tools come BLAST, CLUSTALW su sequenze del DB;
Possaimo accedere a una libreria Java per l’accesso remoto al DB;
Bioinformatica121
UNIPROT - http://www.uniprot.org/uniprot/
Ricerca Testuale
Bioinformatica122
Tool: In questo caso stiamo effettuando una ricerca
UNIPROT - http://www.uniprot.org/uniprot/
Ricerca Testuale
Bioinformatica123
Ricerchiamo la proteina relativa a TP53 in Homo Sapiens
UNIPROT - http://www.uniprot.org/uniprot/
Ricerca Testuale
Bioinformatica124
Otteniamo una lista di entry: La prima è quello che cerchiamo.
Da notare l’Entry Name tipico di UniProt.
Cliccando sulla entry otteniamo numerose informazioni (in parte uguali a Entrez)
UNIPROT - http://www.uniprot.org/uniprot/
Bioinformatica125
Formato della Entry: XML, FASTA, TXT
Informazioni e Funzione
Ma c’e’ anche:• Bibliografia;• Le interazioni;• Ontologie;• Features: Binding
site, Motif,Siti attivi;
UNIPROT - http://www.uniprot.org/uniprot/
Bioinformatica126
TOOLS:
A questo punto possiamo ad esempio fare un BLAST sulla proteina.
UNIPROT - http://www.uniprot.org/uniprot/
Bioinformatica127
Otteniamo gli stessi risultati di BLAST su NCBI visualizzati in modo diverso.
UNIPROT - http://www.uniprot.org/uniprot/
Bioinformatica128
Possiamo allineare due o più sequenze anche mettendo solo l’identificativo
UNIPROT - http://www.uniprot.org/uniprot/
Bioinformatica129
Scaricare una o più entry
UNIPROT - http://www.uniprot.org/uniprot/
Bioinformatica130
Mappare uno o più ID di UniProt nell’ID di un altro DB (GenBank, PIR, PDB, etc. etc.)
Può essere molto utile ad esempio quando cerchiamo la struttura 3D di una proteina in PDB.
UNIPROT - http://www.uniprot.org/uniprot/
Ricerca Testuale Avanzata
Bioinformatica131
Ricerca avanzata con operatori booleani e tag per filtrare
(La sintassi è leggermente diversa da quella vista per Entrez e SRS).
UNIPROT - http://www.uniprot.org/uniprot/
Bioinformatica132
Esercitazione I: Ricercare la sequenza URIC_PAPHA. Quale è l’organismo? Quanto è lunga la sequenza? Quali sono i processi biologici in cui è coinvolta? Indicare la posizione nella proteina di Binding site.
PIR - http://pir.georgetown.edu
Bioinformatica133
PIR - http://pir.georgetown.edu
Clicchiamo su Search/Analysis – Text Search
Bioinformatica134
PIR - http://pir.georgetown.edu
In modo del tutto analogo agli altri tool possiamo effettuare una ricerca utilizzando operatori booleani e/o tag per il filtraggio.
Bioinformatica135
PIR - http://pir.georgetown.edu
Tool: BLAST; FASTA; Ricerca di pattern
in DB; NEEDLEMAN-
WUNSCH; CLUSTALW; T-Coffee; Muscle; Visualizzazione
grafica di domini;
Bioinformatica136