1
Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik
Uttendorf Seminar14. Februar 2006
Manfred Nölte
2
• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression
• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen
Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik
3
Genomics, Proteomics,Metabolomics – die „Omics Ära“
• Genomics– … befasst sich mit dem Genom (die Gesamtheit aller Gene) eines Organismus– Sequenzierungsprojekte, Genidentifikation, Genexpressions-Experimente– Der Mensch hat ca. 30.000 bis 40.000 Gene
• Proteomics– Das Proteom ist die Gesamtheit aller Proteine eines Organismus– Systematische Analyse aller Proteinsequenzen, Proteinexpressionsmustern und
Proteininteraktionen– Erkenntnis nach HUGO-Projekt: Viele Gene des Menschen werden in mehrere
RNA- und Proteinvarianten übersetzt.• Metabolomics
– Clustering zu Genexpressions-Daten und Einsatz von NMR– Identifikation und Analyse von metabolischen Netzwerken
• Systembiologie Physiomics
4
LebewesenGenomgröße
(in Basenpaaren)
Anzahl der Gene
Gendichte (Anzahl der Gene pro Mio. Basenpaare)
λ-Phage 5×104
Darmbakterium Escherichia coli
4,6×106 4.500 900
Backhefe Saccharomycescerevisiae
2×107 6.000 300
Fadenwurm Caenorhabditis elegans
8×107 19.000 200
Die Taufliegenart Drosophila melanogaster
2×108 13.500 70
Die Kugelfischart Fugurubripes
3,65×108
Mensch (Homo sapiens sapiens)
3×109 30.000 10
Molch 4×1010
Ackerschmalwand(Arabidopsis thaliana)
1×108 25.500 255
Quelle: http://de.wikipedia.org/wiki/Genom
5
Abtauchenin die Skalader Geneund Proteine
Quelle: www1.cs.columbia.edu
6
Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik
• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression
• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen
7
Aus: Folienserie des Fonds der chemischen Industrie
Zelle als Produktionsstätte
8
Bibliothek DNA
Auswahl des Buches
Buch
Lesen des Buches
Umsetzen des Wissens zum Bau der Maschine
Maschine
Gen (Abschnitt auf DNA)
Transkription, mRNA
Translation
Protein / Enzym
Transkriptionskontolle
Unternehmen Zelle
Management
Werkstrasse
Zellkern
Ribosomen
Ein Unternehmen will eine neue Maschine bauen
9
DNA StrukturWie kann in einem Molekül Information gespeichert sein?
Aus: Folienserie des Fonds der chemischen Industrie
10
• Ein Protein besteht aus einer Aminosäuresequenz.Es gibt 21 verschiedene Aminosäuren.
• Wieviel Basen benötigt man, um alle Aminosäuren kodieren zu können?– 3 Basen entsprechen 4³ = 64 Kombinationen (Codons, Triplets)
• Was kodieren die übrigen Codons/Triplets?– Es gibt Start- und Stopcodons und …– der Genetische Code ist degeneriert und fehlertolerant
Transkription - I
11
Der Genetische Code
Aus: Folienserie des Fonds der chemischen Industrie
12
Transkription
Aus: Folienserie des Fonds der chemischen Industrie
13
Transkription
Aus: Folienserie des Fonds der chemischen Industrie
14
Translation
Aus: Folienserie des Fonds der chemischen Industrie
15
Fehlertoleranz und ein fataler Fehler• Der Genetische Code ist fehlertolerant ausgelegt
– Durch den Austausch einer Base im Codon werden meistens Aminosäuren mit ähnlichen Eigenschaften kodiert
– Es gibt ca. 1018 mögliche Codes. In einer Stichprobe von 1 Mio. Codes war nur einer besser als der natürliche Genetische Code
• Eine seltene Ausnahme ist die Sichelzellenanämie– Hier wird durch den Austausch einer Base (GAG GUG) eine hydrophile
durch eine hydrophobe Aminosäure ersetzt– Da sich hydrophobe Aminosäuren
bei der dreidimensionalen Faltungzum Inneren des Proteins orientierenändert sich die Struktur drastisch
16
Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik
• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression
• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen
17
Wavelet-Algorithmen in der Bioinformatik
• Gemeinsamkeiten:– Die Verarbeitung von DNA- und Aminosäuresequenzen ist
Signalverarbeitung!– Die Algorithmen der Bioinformatik werden ebenso wie die Wavelet-
Algorithmen mit Hidden Markov Modellen oder Neuronalen Netzwerken kombiniert(u.a. Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden MarkovModels“, in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.)
• Diverse Fakten:– Die Diskrete Wavelet Transformation findet in der Molekularbiologie
Anwendung (weniger die CWT)– DNA- und Aminosäuresequenzen enthalten Informationen auf
verschiedenen Skalen
18
Anwendung von Waveletsin der Molekularbiologie
• Genomsequenz-Analyse (Gene Prediction)• Mustererkennung in Massespektren, DNA- und
Aminosäuresequenzen• Datenanalyse von DNA-Mikroarrays
– Bildverarbeitung (spot finding)– Verarbeitung von Gene Expression Data (Bsp.:
Oszillierende Gene der Hefe)• Proteinstrukturanalyse
– Primary sequence evolution– Secondary and tertiary structure determination– Refinement of X-ray crystallography– Drug design and visualization– Classification of proteins (using phase plots of
Morlet WT of the hydrohobic profiles)– Information on channels, pore and receptors
19
DocumentSegmentation
Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden Markov Models“,in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.
20
…
Quelle: http://de.wikipedia.org/wiki/Gen
DocumentSegmentation - II
21
Quelle: http://www.wellcome.ac.uk/en/genome/thegenome/hg02b001.html
Document Segmentation - III
22
Information auf verschiedenen Skalen
• … der DNA– Einzelne Basen– und Codons– Eigenschaften der Aminosäuren (z.B. Hydrophobizität, Größe, Polarität) – regulatorische Regionen und Gene– Gen-Duplikate und Gen-Cluster/-Gruppen
• Proteinen– Eigenschaften (z.B. hydrophil oder hydrophob) der Aminosäuren– Informationen zu Ionen-Kanälen und Rezeptoren oder zur Zellwand
• „Currently there is considerable inerest in integrating quantitative biologicalinformation at different size scales, from molecules to cells, tissues, organs and organisms.“
• „A hint at the potential of wavelets in modeling the scaling behavior of biologicalsystems comes from the results of wavelet-based modeling of physical systemsshowing scaling behavior in, for example, turbulence (Katul et al., 2000).“
Quelle: Pietro Liò. „Wavelet in bioinformatics and computational biology: state of the art and perspectives“, Bioinformatics, 2002.
23
Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik
• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression
• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen
24
Verarbeitung von Massespektren vonProteinen oder Hybridisierungen
• Peak-Identifikation
• „Denoising“
• Klassifikation von Spektren
• „Peaks oder Peak-Muster inMassespektren-Datenbanken suchen“
25
Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik
• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression
• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen
26
Mustererkennung in DNA-/Proteinsequenzen
• das transformierte Signalzu einer DNA-Sequenz:
A 1, C 2, G 3, T 4
• Predicting allergenic proteins using wavelet transform
• The hydrophobic cores of proteins predicted by waveletanalysis
• Locating probable genes using Fourier transform approach
20 40 60 80 100
1.5
2
2.5
3
3.5
4
27
Predicting allergenic proteins using wavelet transformKuo-Bin Li, Praveen Issac und Arun Krishnan, Bioinformatics 2004
• Ähnlichkeitsbasierte Ansätze konnten sich an die Sequenzeigenschaften gut adaptieren, hatten aber eine schlechte Vorhersagefähigkeit
• [Stadler und Stadler, 2003] Zu motivbasierten Ansätzen konnte durch Cross-Validation eine Verbesserung bzgl. der Vorhersagefähigkeit gezeigt werden
• In dem Ansatz von Kuo-Bin et. al wird eine Kombination dieser Verfahren beschrieben.
• Mit der Wavelet Methode konnten konservierte Motive auf verschiedenen Skalen erkannt werden
• Angewendet auf die Protein-Datenbank Swiss-Prot (135850 Proteine) wurden 2000 potentielle Allergene identifiziert
28
Sequenzähnlichkeit und motivbasierte Ansätze
• WHO und FAO haben eine Richtlinie zur Identifikation der Allerginizität von neuen Proteinen:– (neben Labortests) ein neues Protein ist potentiell allergen, wenn eine
Identität mit 6 aufeinander folgenden Aminosäuren mit bekannten Allergenen gefunden werden kann (viele falsch-positive Klassifikationen)
– oder mindestens 35% Sequenzähnlichkeit über einem Fenster von 80Aminosäuren existiert (zu stringent)
• motivbasierte Ansätze– Motive werden in Motivbeschreibungssprachen und HMM Profilen
formuliert.– [Stadler und Stadler, 2003] Mit dem Motiv-Identifikations-Tool MEME wurden
Proteinprofile aus einer Datenbank von bekannten Allergenen generiert. Zu neuen Proteinen wird ein Score berechnet, der die potentielleAllergenizität darstellt
29
Kombination der Ansätze Sequenzähnlichkeitund Motive mit der Wavelet Methode - I
• Voraussetzung 1: die Aminosäuresequenzen müssen aliniert in die WaveletAnalyse übergeben werden– …VAALNRRIQLLEEDLERSEER-RSLSDEERMDALENQ…
…VA-LNR—QLLE---LERSEER-RSLSDE-Q-DALENQ……---LNR—QLLE-D-LERSEERLRSLSDE-Q-DALENQ…
• Voraussetzung 2: die Aminosäuresequenzen müssen mit einem ClusteringVerfahren gruppiert werden, da die Wavelet Analyse so angesetzt wurde, dass in einer Gruppe von Aminosäuresequenzen alle ein oder mehrere Motive enthalten müssen.
• Aminosäuresequenzen werden in Zahlenreihen übersetzt– Bestimmung der Konsensussequenz aus dem Alignment (?)– Die Zahlenreihe wird aus Aminosäureeigenschaften wie hydrophobizität,
Elektronen-Ionen-Interaktionspotential, Polarität, isoelektrischer Punkt oder „accessible surface area“ gebildet
30
Kombination der Ansätze Sequenzähnlichkeitund Motive mit der Wavelet Methode - II
1. Berechne die paarweisen Distanzen für die bekannten Allergene (mit ClustalW)
2. Gruppiere diese Aminosäuresequenzen (Clustering mit PAM)
3. Generiere ein multiples Alignment für jedes dieser Cluster (mit T-Coffee oder ClustalW)
4. Identifiziere konservierte Motive für jedes Cluster mit der Wavelet Methode
5. Erzeuge ein HMM Profil für jedes identifizierte Motiv (mit HMMER)
6. Berechne einen Score für die Allerginizität für ein unbekanntes Protein (mit HMMER und BLASTP)