Upload
ezio-benedetti
View
223
Download
0
Embed Size (px)
Citation preview
Corso di Laurea Specialistica in InformaticaCorso di Laurea Specialistica in Informatica
BioinformaticaBioinformaticaA.A. 2010/2011A.A. 2010/2011
Prof. Alfredo FerroProf. Alfredo Ferro09/03/201109/03/2011
ContattiContatti
• Prof. Alfredo Ferro: [email protected]
• Dott. Giuseppe Pigola: [email protected]
• Dott. Alfredo Pulvirenti: [email protected]• Dott.ssa Rosalba Giugno: [email protected]
Orari di Ricevimento (per appuntamento)Orari di Ricevimento (per appuntamento)
• Prof. Alfredo FerroLunedì,Mercoledì,Venerdì 16.00 – 17.00Ufficio 324 – Blocco I, 2° PianoTel. 095 [email protected]
• Dott. Giuseppe Pigola Lunedì,Mercoledì,Venerdì 16.00 – 17.00
Ufficio 308- Blocco I , 2° PianoTel. 095 [email protected]
Orario lezioniOrario lezioni
• Lunedì,Mercoledì e Venerdì 17-19 – Aula 2
Modalità d'esameModalità d'esame
• Prova orale/laboratorio• Progetto
Testi consigliatiTesti consigliati
• Valle et al.Introduzione alla BioinformaticaZanichelli
• Jambeck, GibasDeveloping Bioinformatics Computer SkillsO'Reilly
• LewinIl Gene – Edizione CompattaZanichelli
Genomica e ProteomicaGenomica e Proteomica
• La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viventi. – In particolare si occupa della struttura, contenuto, funzione
ed evoluzione del genoma.
• La proteomica è una disciplina che studia il proteoma, il complemento tempo-specifico e cellulo-specifico del genoma.
• Il proteoma è l'insieme di tutte le proteine espresse in una cellula:– Dinamico nel tempo– Varia in risposta a fattori esterni– Differisce tra i diversi tipi cellulari di uno stesso organismo
Cos'è la Bioinformatica?Cos'è la Bioinformatica?
• E’ la disciplina che studia le interazioni fra Informatica e processi biologici. Essa viene anche chiamata Biologia Computazionale.
• Utilizza i metodi propri dell'informatica per la risoluzione di problemi biologici.
• La genomica e la proteomica sono basate sulla Bioinformatica, per l'elaborazione, l'interpretazione e la visualizzazione dell'enorme quantità di dati che producono.
• La nuova era è iniziata con il Progetto Genoma Umano e con la produzione della sequenza completa del DNA umano e di altri organismi.
La BioinformaticaLa Bioinformatica
• Necessità di interpretare la grande mole di dati collezionate dai biologi.
• DNA(memoria), RNA(comunicazione), Proteine(computazione-esecuzione) etc..
• Quali parti del DNA controllano certi processi?
• Qual è la funzione di certe proteine?
I principali tipi di datiI principali tipi di dati
• Biosequenze– DNA, RNA, Proteine
• Strutture– DNA, Secondaria dell'RNA, Secondaria e Terziaria
delle proteine
• Dati di interazione– DNA-Proteina, RNA-RNA, RNA-Proteina, Proteina-
Proteina
• Livelli di espressione– RNA (microarray)– Proteine (protein array)
Esempio 1Esempio 1
• In una sequenza proteica è possibile individuare regioni funzionalmente importanti.
• Ogni sequenza proteica è codificata da una sequenza genomica.
• Supponiamo che la regione X nel moscerino sia cruciale in una certa funzione.
• Domanda: esiste un analogo nell'uomo?• Risposta: effettuando una ricerca per
similarità della regione X nel genoma umano è possibile individuare dei geni candidati.
Esempio 2Esempio 2
• Tutte le cellule di un individuo contengono lo stesso DNA.
• Eppure un neurone è molto diverso da un globulo bianco!
• Che cosa li rende così diversi nella forma e nella funzione?
• Sebbene il DNA sia lo stesso, esso contiene delle regioni importanti in tutte le cellule ed altre specifiche per alcune di esse.
• Mediante un'analisi del trascrittoma (microarray) è possibile stabilire quali regioni del DNA contengono informazioni relative al funzionamento di ognuna delle due cellule.
Esempio 3: Eyless e Aniridia: wet-biologyEsempio 3: Eyless e Aniridia: wet-biology
• Eyless è un gene della Drosophila melanogaster (moscerino della frutta) la cui rimozione (wet biology) causa la generazione di mosche senza occhi.
• I biologi hanno anche identificato un gene umano Aniridia la cui mancanza o eccessiva mutazione, tale da non far funzionare la corrispondente proteina, causa il mancato sviluppo dell’iride negli occhi.
Eyless e Aniridia: BioinformaticaEyless e Aniridia: Bioinformatica
• Operiamo una query a NCBI dando come input a BLAST la biosequenza del gene Eyless e ricercando match con Aniridia.
• Il risultato mostra due regioni altamente simili. Il match è illustrato da una sequenza in mezzo alle due confrontate, contenente l’amminoacido nel caso di match perfetto, il segno + se c’è una similarità chimica (ad esempio D ed E sono acidi aspartico e glutammico), blank (cioè spazio vuoto) nel caso di NON MATCH.
QUERY BLAST EYLESS-ANIRIDIAQUERY BLAST EYLESS-ANIRIDIA
pir||A41644 homeotic protein aniridia - human Length = 447 Score = 256 bits (647), Expect = 5e-67 Identities = 128/146 (87%), Positives = 134/146 (91%), Gaps = 1/146 (0%) Query: 24 IERLPSLEDMAHKGHSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 83 I R P+ M + HSGVNQLGGVFV GRPLPDSTRQKIVELAHSGARPCDISRILQVSN Sbjct: 17 IPRPPARASMQNS-HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 75 Query: 84 GCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQEN 143 GCVSKILGRYYETGSIRPRAIGGSKPRVAT EVVSKI+QYKRECPSIFAWEIRDRLL E Sbjct: 76 GCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEG 135 Query: 144 VCTNDNIPSVSSINRVLRNLAAQKEQ 169 VCTNDNIPSVSSINRVLRNLA++K+Q Sbjct: 136 VCTNDNIPSVSSINRVLRNLASEKQQ 161 Score = 142 bits (354), Expect = 1e-32 Identities = 68/80 (85%), Positives = 74/80 (92%) Query: 398 TEDDQARLILKRKLQRNRTSFTNDQIDSLEKEFERTHYPDVFARERLAGKIGLPEARIQV 457 +++ Q RL LKRKLQRNRTSFT +QI++LEKEFERTHYPDVFARERLA KI LPEARIQV Sbjct: 222 SDEAQMRLQLKRKLQRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQV 281 Query: 458 WFSNRRAKWRREEKLRNQRR 477 WFSNRRAKWRREEKLRNQRR Sbjct: 282 WFSNRRAKWRREEKLRNQRR 301
Match Parziale e NON EsattoMatch Parziale e NON Esatto
• Eyless ed Aniridia hanno match significativi solo nelle posizioni 24-169 e 398-477 di Eyless con le posizioni 17-161 e 222-301 di Aniridia rispettivamente. Tutto il resto NON presenta match significativi.
• Tuttavia il match è significativo per cui possiamo dedurre proprietà dell’Aniridia da quelle del più conosciuto Eyeless (struttura, funzione,effetti sul fenotipo(caratteristiche visibili o misurabili) etc..)
Programma del corsoProgramma del corso
• Biologia molecolare: cellule, genomi ed evoluzione• Biologia molecolare: RNA e trascrizione• Biologia molecolare: La traduzione e le proteine• Basi di dati biologiche• Allineamento di sequenze• Gene prediction• Predizione della struttura secondaria dell’RNA• RNA non codificanti: miRNA e siRNA• Analisi del trascrittoma – Microarray• Systems Biology e Network biologiche• Sistemi per il mining di network biologiche• Il linguaggio Perl
Cellule, genomi e Dogma della Biologia Cellule, genomi e Dogma della Biologia MolecolareMolecolare
• La cellula• Il Genoma
– Geni, pseudogeni, ripetizioni
• Struttura dei geni• Il Dogma della Biologia Molecolare
– Trascrizione (DNA -> RNA)– Traduzione (RNA -> Proteine)
Basi di dati biologicheBasi di dati biologiche
• Dati biologici e loro formati– Sequenze biologiche
• Banche dati generiche– NCBI, EMBL, DDBJ
• NCBI– Entrez: Nucleotide, Protein, Gene
• EMBL– Ensembl!
Allineamento di sequenzeAllineamento di sequenze
• Omologia, similarità e distanza• Funzioni di scoring e matrici di sostituzione• Allineamento Pairwise: algoritmo di Needleman-Wunsch• Allineamento Pairwise locale: BLAST, Smith-Waterman• Allineamento Multiplo• Funzioni di scoring: sum-of-pairs, entropia, circular sum• Center star method• Profili• Allineamento progressivo: algoritmo di Feng-Doolittle• ClustalW• Metodi basati su consistenza: T-Coffee, ProbCons• Valutazione di allineamenti multipli• Motif finding
Il linguaggio PerlIl linguaggio Perl
• Perl– Il linguaggio di scripting più utilizzato in
Bioinformatica– Interpretato– Punto di forza: espressioni regolari– Linguaggio "colla": utile nell'automatizzazione di
esperimenti, test e nella conversione di formati
Gene predictionGene prediction
• Modelli di Markov Nascosti (HMM)• Metodi per la predizione di geni
– ORF– Modelli statistici– Individuazione di Esoni ed introni
• Tool per la predizione di geni– GenScan
Predizione della struttura secondaria Predizione della struttura secondaria dell’RNAdell’RNA
• Struttura secondaria dell’RNA• Rappresentazione di strutture secondarie• Metodi probabilistici per la predizione• Tool per la predizione della struttura dell’RNA
– MFold
Analisi del trascrittoma e MicroarrayAnalisi del trascrittoma e Microarray
• Microarray technology• Analisi di dati da microarray• Cenni su protein array
RNA non codificanti e miRNARNA non codificanti e miRNA
• I miRNA• Database di miRNA• Predizione di geni miRNA• Predizione di target per miRNA
– miRanda
• RNA interference e siRNA
Database specializzatiDatabase specializzati
• NCBI– Pubblicazioni scientifiche:Pubmed– Profili di espressione: GEO– Polimorfismi: dbSNP– Interrogazione del DB via script: EUtils
• Browser genomici– NCBI MapViewer– UCSC Genome Browser
• miRNA– miRBase, TarBase, miRò
• GO: Gene Ontology• Pathways
– KEGG, Pathway Commons
• Ensembl! BioMart
Network biologicheNetwork biologiche
• Teoria dei grafi• Misure di Centralità• Classificazione delle network• Clustering e metodi per l'identificazione dei clusters• Network scale-free e gerarchiche• Rilevamento della struttura modulare• Algoritmi tradizionali
– Single linkage clustering– Average linkage clustering
• Algoritmi basati su betweenness centrality (Girvan, Newman)
Sistemi per il mining di network biologicheSistemi per il mining di network biologiche
• Sistemi di visualizzazione di network– Cytoscape
• Ricerca – Netmatch
• Annotazione di network con miRNA– miRScape