Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011

Corso di Laurea Specialistica in InformaticaCorso di Laurea Specialistica in Informatica

BioinformaticaBioinformaticaA.A. 2010/2011A.A. 2010/2011

Prof. Alfredo FerroProf. Alfredo Ferro09/03/201109/03/2011

ContattiContatti

• Prof. Alfredo Ferro: [email protected]

• Dott. Giuseppe Pigola: [email protected]

• Dott. Alfredo Pulvirenti: [email protected]• Dott.ssa Rosalba Giugno: [email protected]

Orari di Ricevimento (per appuntamento)Orari di Ricevimento (per appuntamento)

• Prof. Alfredo FerroLunedì,Mercoledì,Venerdì 16.00 – 17.00Ufficio 324 – Blocco I, 2° PianoTel. 095 [email protected]

• Dott. Giuseppe Pigola Lunedì,Mercoledì,Venerdì 16.00 – 17.00

Ufficio 308- Blocco I , 2° PianoTel. 095 [email protected]

Orario lezioniOrario lezioni

• Lunedì,Mercoledì e Venerdì 17-19 – Aula 2

Modalità d'esameModalità d'esame

• Prova orale/laboratorio• Progetto

Testi consigliatiTesti consigliati

• Valle et al.Introduzione alla BioinformaticaZanichelli

• Jambeck, GibasDeveloping Bioinformatics Computer SkillsO'Reilly

• LewinIl Gene – Edizione CompattaZanichelli

Genomica e ProteomicaGenomica e Proteomica

• La genomica è una branca della biologia molecolare che si occupa dello studio del genoma degli organismi viventi. – In particolare si occupa della struttura, contenuto, funzione

ed evoluzione del genoma.

• La proteomica è una disciplina che studia il proteoma, il complemento tempo-specifico e cellulo-specifico del genoma.

• Il proteoma è l'insieme di tutte le proteine espresse in una cellula:– Dinamico nel tempo– Varia in risposta a fattori esterni– Differisce tra i diversi tipi cellulari di uno stesso organismo

Cos'è la Bioinformatica?Cos'è la Bioinformatica?

• E’ la disciplina che studia le interazioni fra Informatica e processi biologici. Essa viene anche chiamata Biologia Computazionale.

• Utilizza i metodi propri dell'informatica per la risoluzione di problemi biologici.

• La genomica e la proteomica sono basate sulla Bioinformatica, per l'elaborazione, l'interpretazione e la visualizzazione dell'enorme quantità di dati che producono.

• La nuova era è iniziata con il Progetto Genoma Umano e con la produzione della sequenza completa del DNA umano e di altri organismi.

La BioinformaticaLa Bioinformatica

• Necessità di interpretare la grande mole di dati collezionate dai biologi.

• DNA(memoria), RNA(comunicazione), Proteine(computazione-esecuzione) etc..

• Quali parti del DNA controllano certi processi?

• Qual è la funzione di certe proteine?

I principali tipi di datiI principali tipi di dati

• Biosequenze– DNA, RNA, Proteine

• Strutture– DNA, Secondaria dell'RNA, Secondaria e Terziaria

delle proteine

• Dati di interazione– DNA-Proteina, RNA-RNA, RNA-Proteina, Proteina-

Proteina

• Livelli di espressione– RNA (microarray)– Proteine (protein array)

Esempio 1Esempio 1

• In una sequenza proteica è possibile individuare regioni funzionalmente importanti.

• Ogni sequenza proteica è codificata da una sequenza genomica.

• Supponiamo che la regione X nel moscerino sia cruciale in una certa funzione.

• Domanda: esiste un analogo nell'uomo?• Risposta: effettuando una ricerca per

similarità della regione X nel genoma umano è possibile individuare dei geni candidati.

Esempio 2Esempio 2

• Tutte le cellule di un individuo contengono lo stesso DNA.

• Eppure un neurone è molto diverso da un globulo bianco!

• Che cosa li rende così diversi nella forma e nella funzione?

• Sebbene il DNA sia lo stesso, esso contiene delle regioni importanti in tutte le cellule ed altre specifiche per alcune di esse.

• Mediante un'analisi del trascrittoma (microarray) è possibile stabilire quali regioni del DNA contengono informazioni relative al funzionamento di ognuna delle due cellule.

Esempio 3: Eyless e Aniridia: wet-biologyEsempio 3: Eyless e Aniridia: wet-biology

• Eyless è un gene della Drosophila melanogaster (moscerino della frutta) la cui rimozione (wet biology) causa la generazione di mosche senza occhi.

• I biologi hanno anche identificato un gene umano Aniridia la cui mancanza o eccessiva mutazione, tale da non far funzionare la corrispondente proteina, causa il mancato sviluppo dell’iride negli occhi.

Eyless e Aniridia: BioinformaticaEyless e Aniridia: Bioinformatica

• Operiamo una query a NCBI dando come input a BLAST la biosequenza del gene Eyless e ricercando match con Aniridia.

• Il risultato mostra due regioni altamente simili. Il match è illustrato da una sequenza in mezzo alle due confrontate, contenente l’amminoacido nel caso di match perfetto, il segno + se c’è una similarità chimica (ad esempio D ed E sono acidi aspartico e glutammico), blank (cioè spazio vuoto) nel caso di NON MATCH.

QUERY BLAST EYLESS-ANIRIDIAQUERY BLAST EYLESS-ANIRIDIA

pir||A41644 homeotic protein aniridia - human Length = 447 Score = 256 bits (647), Expect = 5e-67 Identities = 128/146 (87%), Positives = 134/146 (91%), Gaps = 1/146 (0%) Query: 24 IERLPSLEDMAHKGHSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 83 I R P+ M + HSGVNQLGGVFV GRPLPDSTRQKIVELAHSGARPCDISRILQVSN Sbjct: 17 IPRPPARASMQNS-HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSN 75 Query: 84 GCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQEN 143 GCVSKILGRYYETGSIRPRAIGGSKPRVAT EVVSKI+QYKRECPSIFAWEIRDRLL E Sbjct: 76 GCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEG 135 Query: 144 VCTNDNIPSVSSINRVLRNLAAQKEQ 169 VCTNDNIPSVSSINRVLRNLA++K+Q Sbjct: 136 VCTNDNIPSVSSINRVLRNLASEKQQ 161 Score = 142 bits (354), Expect = 1e-32 Identities = 68/80 (85%), Positives = 74/80 (92%) Query: 398 TEDDQARLILKRKLQRNRTSFTNDQIDSLEKEFERTHYPDVFARERLAGKIGLPEARIQV 457 +++ Q RL LKRKLQRNRTSFT +QI++LEKEFERTHYPDVFARERLA KI LPEARIQV Sbjct: 222 SDEAQMRLQLKRKLQRNRTSFTQEQIEALEKEFERTHYPDVFARERLAAKIDLPEARIQV 281 Query: 458 WFSNRRAKWRREEKLRNQRR 477 WFSNRRAKWRREEKLRNQRR Sbjct: 282 WFSNRRAKWRREEKLRNQRR 301

Match Parziale e NON EsattoMatch Parziale e NON Esatto

• Eyless ed Aniridia hanno match significativi solo nelle posizioni 24-169 e 398-477 di Eyless con le posizioni 17-161 e 222-301 di Aniridia rispettivamente. Tutto il resto NON presenta match significativi.

• Tuttavia il match è significativo per cui possiamo dedurre proprietà dell’Aniridia da quelle del più conosciuto Eyeless (struttura, funzione,effetti sul fenotipo(caratteristiche visibili o misurabili) etc..)

Programma del corsoProgramma del corso

• Biologia molecolare: cellule, genomi ed evoluzione• Biologia molecolare: RNA e trascrizione• Biologia molecolare: La traduzione e le proteine• Basi di dati biologiche• Allineamento di sequenze• Gene prediction• Predizione della struttura secondaria dell’RNA• RNA non codificanti: miRNA e siRNA• Analisi del trascrittoma – Microarray• Systems Biology e Network biologiche• Sistemi per il mining di network biologiche• Il linguaggio Perl

Cellule, genomi e Dogma della Biologia Cellule, genomi e Dogma della Biologia MolecolareMolecolare

• La cellula• Il Genoma

– Geni, pseudogeni, ripetizioni

• Struttura dei geni• Il Dogma della Biologia Molecolare

– Trascrizione (DNA -> RNA)– Traduzione (RNA -> Proteine)

Basi di dati biologicheBasi di dati biologiche

• Dati biologici e loro formati– Sequenze biologiche

• Banche dati generiche– NCBI, EMBL, DDBJ

• NCBI– Entrez: Nucleotide, Protein, Gene

• EMBL– Ensembl!

Allineamento di sequenzeAllineamento di sequenze

• Omologia, similarità e distanza• Funzioni di scoring e matrici di sostituzione• Allineamento Pairwise: algoritmo di Needleman-Wunsch• Allineamento Pairwise locale: BLAST, Smith-Waterman• Allineamento Multiplo• Funzioni di scoring: sum-of-pairs, entropia, circular sum• Center star method• Profili• Allineamento progressivo: algoritmo di Feng-Doolittle• ClustalW• Metodi basati su consistenza: T-Coffee, ProbCons• Valutazione di allineamenti multipli• Motif finding

Il linguaggio PerlIl linguaggio Perl

• Perl– Il linguaggio di scripting più utilizzato in

Bioinformatica– Interpretato– Punto di forza: espressioni regolari– Linguaggio "colla": utile nell'automatizzazione di

esperimenti, test e nella conversione di formati

Gene predictionGene prediction

• Modelli di Markov Nascosti (HMM)• Metodi per la predizione di geni

– ORF– Modelli statistici– Individuazione di Esoni ed introni

• Tool per la predizione di geni– GenScan

Predizione della struttura secondaria Predizione della struttura secondaria dell’RNAdell’RNA

• Struttura secondaria dell’RNA• Rappresentazione di strutture secondarie• Metodi probabilistici per la predizione• Tool per la predizione della struttura dell’RNA

– MFold

Analisi del trascrittoma e MicroarrayAnalisi del trascrittoma e Microarray

• Microarray technology• Analisi di dati da microarray• Cenni su protein array

RNA non codificanti e miRNARNA non codificanti e miRNA

• I miRNA• Database di miRNA• Predizione di geni miRNA• Predizione di target per miRNA

– miRanda

• RNA interference e siRNA

Database specializzatiDatabase specializzati

• NCBI– Pubblicazioni scientifiche:Pubmed– Profili di espressione: GEO– Polimorfismi: dbSNP– Interrogazione del DB via script: EUtils

• Browser genomici– NCBI MapViewer– UCSC Genome Browser

• miRNA– miRBase, TarBase, miRò

• GO: Gene Ontology• Pathways

– KEGG, Pathway Commons

• Ensembl! BioMart

Network biologicheNetwork biologiche

• Teoria dei grafi• Misure di Centralità• Classificazione delle network• Clustering e metodi per l'identificazione dei clusters• Network scale-free e gerarchiche• Rilevamento della struttura modulare• Algoritmi tradizionali

– Single linkage clustering– Average linkage clustering

• Algoritmi basati su betweenness centrality (Girvan, Newman)

Sistemi per il mining di network biologicheSistemi per il mining di network biologiche

• Sistemi di visualizzazione di network– Cytoscape

• Ricerca – Netmatch

• Annotazione di network con miRNA– miRScape

Documents

Corso di Laurea Specialistica in Informatica Bioinformatica A.A. 2010/2011 Prof. Alfredo Ferro 09/03/2011