Download pdf - Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

1

Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik

Uttendorf Seminar14. Februar 2006

Manfred Nölte

2

• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression

• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen


3

Genomics, Proteomics,Metabolomics – die „Omics Ära“

• Genomics– … befasst sich mit dem Genom (die Gesamtheit aller Gene) eines Organismus– Sequenzierungsprojekte, Genidentifikation, Genexpressions-Experimente– Der Mensch hat ca. 30.000 bis 40.000 Gene

• Proteomics– Das Proteom ist die Gesamtheit aller Proteine eines Organismus– Systematische Analyse aller Proteinsequenzen, Proteinexpressionsmustern und

Proteininteraktionen– Erkenntnis nach HUGO-Projekt: Viele Gene des Menschen werden in mehrere

RNA- und Proteinvarianten übersetzt.• Metabolomics

– Clustering zu Genexpressions-Daten und Einsatz von NMR– Identifikation und Analyse von metabolischen Netzwerken

• Systembiologie Physiomics

4

LebewesenGenomgröße

(in Basenpaaren)

Anzahl der Gene

Gendichte (Anzahl der Gene pro Mio. Basenpaare)

λ-Phage 5×104

Darmbakterium Escherichia coli

4,6×106 4.500 900

Backhefe Saccharomycescerevisiae

2×107 6.000 300

Fadenwurm Caenorhabditis elegans

8×107 19.000 200

Die Taufliegenart Drosophila melanogaster

2×108 13.500 70

Die Kugelfischart Fugurubripes

3,65×108

Mensch (Homo sapiens sapiens)

3×109 30.000 10

Molch 4×1010

Ackerschmalwand(Arabidopsis thaliana)

1×108 25.500 255

Quelle: http://de.wikipedia.org/wiki/Genom

5

Abtauchenin die Skalader Geneund Proteine

Quelle: www1.cs.columbia.edu

6




7

Aus: Folienserie des Fonds der chemischen Industrie

Zelle als Produktionsstätte

8

Bibliothek DNA

Auswahl des Buches

Buch

Lesen des Buches

Umsetzen des Wissens zum Bau der Maschine

Maschine

Gen (Abschnitt auf DNA)

Transkription, mRNA

Translation

Protein / Enzym

Transkriptionskontolle

Unternehmen Zelle

Management

Werkstrasse

Zellkern

Ribosomen

Ein Unternehmen will eine neue Maschine bauen

9

DNA StrukturWie kann in einem Molekül Information gespeichert sein?


10

• Ein Protein besteht aus einer Aminosäuresequenz.Es gibt 21 verschiedene Aminosäuren.

• Wieviel Basen benötigt man, um alle Aminosäuren kodieren zu können?– 3 Basen entsprechen 4³ = 64 Kombinationen (Codons, Triplets)

• Was kodieren die übrigen Codons/Triplets?– Es gibt Start- und Stopcodons und …– der Genetische Code ist degeneriert und fehlertolerant

Transkription - I

11

Der Genetische Code


12

Transkription


13

Transkription


14

Translation


15

Fehlertoleranz und ein fataler Fehler• Der Genetische Code ist fehlertolerant ausgelegt

– Durch den Austausch einer Base im Codon werden meistens Aminosäuren mit ähnlichen Eigenschaften kodiert

– Es gibt ca. 1018 mögliche Codes. In einer Stichprobe von 1 Mio. Codes war nur einer besser als der natürliche Genetische Code

• Eine seltene Ausnahme ist die Sichelzellenanämie– Hier wird durch den Austausch einer Base (GAG GUG) eine hydrophile

durch eine hydrophobe Aminosäure ersetzt– Da sich hydrophobe Aminosäuren

bei der dreidimensionalen Faltungzum Inneren des Proteins orientierenändert sich die Struktur drastisch

16




17

Wavelet-Algorithmen in der Bioinformatik

• Gemeinsamkeiten:– Die Verarbeitung von DNA- und Aminosäuresequenzen ist

Signalverarbeitung!– Die Algorithmen der Bioinformatik werden ebenso wie die Wavelet-

Algorithmen mit Hidden Markov Modellen oder Neuronalen Netzwerken kombiniert(u.a. Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden MarkovModels“, in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.)

• Diverse Fakten:– Die Diskrete Wavelet Transformation findet in der Molekularbiologie

Anwendung (weniger die CWT)– DNA- und Aminosäuresequenzen enthalten Informationen auf

verschiedenen Skalen

18

Anwendung von Waveletsin der Molekularbiologie

• Genomsequenz-Analyse (Gene Prediction)• Mustererkennung in Massespektren, DNA- und

Aminosäuresequenzen• Datenanalyse von DNA-Mikroarrays

– Bildverarbeitung (spot finding)– Verarbeitung von Gene Expression Data (Bsp.:

Oszillierende Gene der Hefe)• Proteinstrukturanalyse

– Primary sequence evolution– Secondary and tertiary structure determination– Refinement of X-ray crystallography– Drug design and visualization– Classification of proteins (using phase plots of

Morlet WT of the hydrohobic profiles)– Information on channels, pore and receptors

19

DocumentSegmentation

Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden Markov Models“,in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.

20

…

Quelle: http://de.wikipedia.org/wiki/Gen

DocumentSegmentation - II

21

Quelle: http://www.wellcome.ac.uk/en/genome/thegenome/hg02b001.html

Document Segmentation - III

22

Information auf verschiedenen Skalen

• … der DNA– Einzelne Basen– und Codons– Eigenschaften der Aminosäuren (z.B. Hydrophobizität, Größe, Polarität) – regulatorische Regionen und Gene– Gen-Duplikate und Gen-Cluster/-Gruppen

• Proteinen– Eigenschaften (z.B. hydrophil oder hydrophob) der Aminosäuren– Informationen zu Ionen-Kanälen und Rezeptoren oder zur Zellwand

• „Currently there is considerable inerest in integrating quantitative biologicalinformation at different size scales, from molecules to cells, tissues, organs and organisms.“

• „A hint at the potential of wavelets in modeling the scaling behavior of biologicalsystems comes from the results of wavelet-based modeling of physical systemsshowing scaling behavior in, for example, turbulence (Katul et al., 2000).“

Quelle: Pietro Liò. „Wavelet in bioinformatics and computational biology: state of the art and perspectives“, Bioinformatics, 2002.

23




24

Verarbeitung von Massespektren vonProteinen oder Hybridisierungen

• Peak-Identifikation

• „Denoising“

• Klassifikation von Spektren

• „Peaks oder Peak-Muster inMassespektren-Datenbanken suchen“

25




26

Mustererkennung in DNA-/Proteinsequenzen

• das transformierte Signalzu einer DNA-Sequenz:

A 1, C 2, G 3, T 4

• Predicting allergenic proteins using wavelet transform

• The hydrophobic cores of proteins predicted by waveletanalysis

• Locating probable genes using Fourier transform approach

20 40 60 80 100

1.5

2

2.5

3

3.5

4

27

Predicting allergenic proteins using wavelet transformKuo-Bin Li, Praveen Issac und Arun Krishnan, Bioinformatics 2004

• Ähnlichkeitsbasierte Ansätze konnten sich an die Sequenzeigenschaften gut adaptieren, hatten aber eine schlechte Vorhersagefähigkeit

• [Stadler und Stadler, 2003] Zu motivbasierten Ansätzen konnte durch Cross-Validation eine Verbesserung bzgl. der Vorhersagefähigkeit gezeigt werden

• In dem Ansatz von Kuo-Bin et. al wird eine Kombination dieser Verfahren beschrieben.

• Mit der Wavelet Methode konnten konservierte Motive auf verschiedenen Skalen erkannt werden

• Angewendet auf die Protein-Datenbank Swiss-Prot (135850 Proteine) wurden 2000 potentielle Allergene identifiziert

28

Sequenzähnlichkeit und motivbasierte Ansätze

• WHO und FAO haben eine Richtlinie zur Identifikation der Allerginizität von neuen Proteinen:– (neben Labortests) ein neues Protein ist potentiell allergen, wenn eine

Identität mit 6 aufeinander folgenden Aminosäuren mit bekannten Allergenen gefunden werden kann (viele falsch-positive Klassifikationen)

– oder mindestens 35% Sequenzähnlichkeit über einem Fenster von 80Aminosäuren existiert (zu stringent)

• motivbasierte Ansätze– Motive werden in Motivbeschreibungssprachen und HMM Profilen

formuliert.– [Stadler und Stadler, 2003] Mit dem Motiv-Identifikations-Tool MEME wurden

Proteinprofile aus einer Datenbank von bekannten Allergenen generiert. Zu neuen Proteinen wird ein Score berechnet, der die potentielleAllergenizität darstellt

29

Kombination der Ansätze Sequenzähnlichkeitund Motive mit der Wavelet Methode - I

• Voraussetzung 1: die Aminosäuresequenzen müssen aliniert in die WaveletAnalyse übergeben werden– …VAALNRRIQLLEEDLERSEER-RSLSDEERMDALENQ…

…VA-LNR—QLLE---LERSEER-RSLSDE-Q-DALENQ……---LNR—QLLE-D-LERSEERLRSLSDE-Q-DALENQ…

• Voraussetzung 2: die Aminosäuresequenzen müssen mit einem ClusteringVerfahren gruppiert werden, da die Wavelet Analyse so angesetzt wurde, dass in einer Gruppe von Aminosäuresequenzen alle ein oder mehrere Motive enthalten müssen.

• Aminosäuresequenzen werden in Zahlenreihen übersetzt– Bestimmung der Konsensussequenz aus dem Alignment (?)– Die Zahlenreihe wird aus Aminosäureeigenschaften wie hydrophobizität,

Elektronen-Ionen-Interaktionspotential, Polarität, isoelektrischer Punkt oder „accessible surface area“ gebildet

30

Kombination der Ansätze Sequenzähnlichkeitund Motive mit der Wavelet Methode - II

1. Berechne die paarweisen Distanzen für die bekannten Allergene (mit ClustalW)

2. Gruppiere diese Aminosäuresequenzen (Clustering mit PAM)

3. Generiere ein multiples Alignment für jedes dieser Cluster (mit T-Coffee oder ClustalW)

4. Identifiziere konservierte Motive für jedes Cluster mit der Wavelet Methode

5. Erzeuge ein HMM Profil für jedes identifizierte Motiv (mit HMMER)

6. Berechne einen Score für die Allerginizität für ein unbekanntes Protein (mit HMMER und BLASTP)