30
1 Anwendung von Wavelet-Algorithmen in der Molekularbiologie und Bioinformatik Uttendorf Seminar 14. Februar 2006 Manfred Nölte

Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

  • Upload
    vuhuong

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

1

Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik

Uttendorf Seminar14. Februar 2006

Manfred Nölte

Page 2: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

2

• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression

• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen

Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik

Page 3: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

3

Genomics, Proteomics,Metabolomics – die „Omics Ära“

• Genomics– … befasst sich mit dem Genom (die Gesamtheit aller Gene) eines Organismus– Sequenzierungsprojekte, Genidentifikation, Genexpressions-Experimente– Der Mensch hat ca. 30.000 bis 40.000 Gene

• Proteomics– Das Proteom ist die Gesamtheit aller Proteine eines Organismus– Systematische Analyse aller Proteinsequenzen, Proteinexpressionsmustern und

Proteininteraktionen– Erkenntnis nach HUGO-Projekt: Viele Gene des Menschen werden in mehrere

RNA- und Proteinvarianten übersetzt.• Metabolomics

– Clustering zu Genexpressions-Daten und Einsatz von NMR– Identifikation und Analyse von metabolischen Netzwerken

• Systembiologie Physiomics

Page 4: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

4

LebewesenGenomgröße

(in Basenpaaren)

Anzahl der Gene

Gendichte (Anzahl der Gene pro Mio. Basenpaare)

λ-Phage 5×104

Darmbakterium Escherichia coli

4,6×106 4.500 900

Backhefe Saccharomycescerevisiae

2×107 6.000 300

Fadenwurm Caenorhabditis elegans

8×107 19.000 200

Die Taufliegenart Drosophila melanogaster

2×108 13.500 70

Die Kugelfischart Fugurubripes

3,65×108

Mensch (Homo sapiens sapiens)

3×109 30.000 10

Molch 4×1010

Ackerschmalwand(Arabidopsis thaliana)

1×108 25.500 255

Quelle: http://de.wikipedia.org/wiki/Genom

Page 5: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

5

Abtauchenin die Skalader Geneund Proteine

Quelle: www1.cs.columbia.edu

Page 6: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

6

Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik

• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression

• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen

Page 7: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

7

Aus: Folienserie des Fonds der chemischen Industrie

Zelle als Produktionsstätte

Page 8: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

8

Bibliothek DNA

Auswahl des Buches

Buch

Lesen des Buches

Umsetzen des Wissens zum Bau der Maschine

Maschine

Gen (Abschnitt auf DNA)

Transkription, mRNA

Translation

Protein / Enzym

Transkriptionskontolle

Unternehmen Zelle

Management

Werkstrasse

Zellkern

Ribosomen

Ein Unternehmen will eine neue Maschine bauen

Page 9: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

9

DNA StrukturWie kann in einem Molekül Information gespeichert sein?

Aus: Folienserie des Fonds der chemischen Industrie

Page 10: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

10

• Ein Protein besteht aus einer Aminosäuresequenz.Es gibt 21 verschiedene Aminosäuren.

• Wieviel Basen benötigt man, um alle Aminosäuren kodieren zu können?– 3 Basen entsprechen 4³ = 64 Kombinationen (Codons, Triplets)

• Was kodieren die übrigen Codons/Triplets?– Es gibt Start- und Stopcodons und …– der Genetische Code ist degeneriert und fehlertolerant

Transkription - I

Page 11: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

11

Der Genetische Code

Aus: Folienserie des Fonds der chemischen Industrie

Page 12: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

12

Transkription

Aus: Folienserie des Fonds der chemischen Industrie

Page 13: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

13

Transkription

Aus: Folienserie des Fonds der chemischen Industrie

Page 14: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

14

Translation

Aus: Folienserie des Fonds der chemischen Industrie

Page 15: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

15

Fehlertoleranz und ein fataler Fehler• Der Genetische Code ist fehlertolerant ausgelegt

– Durch den Austausch einer Base im Codon werden meistens Aminosäuren mit ähnlichen Eigenschaften kodiert

– Es gibt ca. 1018 mögliche Codes. In einer Stichprobe von 1 Mio. Codes war nur einer besser als der natürliche Genetische Code

• Eine seltene Ausnahme ist die Sichelzellenanämie– Hier wird durch den Austausch einer Base (GAG GUG) eine hydrophile

durch eine hydrophobe Aminosäure ersetzt– Da sich hydrophobe Aminosäuren

bei der dreidimensionalen Faltungzum Inneren des Proteins orientierenändert sich die Struktur drastisch

Page 16: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

16

Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik

• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression

• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen

Page 17: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

17

Wavelet-Algorithmen in der Bioinformatik

• Gemeinsamkeiten:– Die Verarbeitung von DNA- und Aminosäuresequenzen ist

Signalverarbeitung!– Die Algorithmen der Bioinformatik werden ebenso wie die Wavelet-

Algorithmen mit Hidden Markov Modellen oder Neuronalen Netzwerken kombiniert(u.a. Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden MarkovModels“, in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.)

• Diverse Fakten:– Die Diskrete Wavelet Transformation findet in der Molekularbiologie

Anwendung (weniger die CWT)– DNA- und Aminosäuresequenzen enthalten Informationen auf

verschiedenen Skalen

Page 18: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

18

Anwendung von Waveletsin der Molekularbiologie

• Genomsequenz-Analyse (Gene Prediction)• Mustererkennung in Massespektren, DNA- und

Aminosäuresequenzen• Datenanalyse von DNA-Mikroarrays

– Bildverarbeitung (spot finding)– Verarbeitung von Gene Expression Data (Bsp.:

Oszillierende Gene der Hefe)• Proteinstrukturanalyse

– Primary sequence evolution– Secondary and tertiary structure determination– Refinement of X-ray crystallography– Drug design and visualization– Classification of proteins (using phase plots of

Morlet WT of the hydrohobic profiles)– Information on channels, pore and receptors

Page 19: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

19

DocumentSegmentation

Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden Markov Models“,in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.

Page 20: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

20

Quelle: http://de.wikipedia.org/wiki/Gen

DocumentSegmentation - II

Page 21: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

21

Quelle: http://www.wellcome.ac.uk/en/genome/thegenome/hg02b001.html

Document Segmentation - III

Page 22: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

22

Information auf verschiedenen Skalen

• … der DNA– Einzelne Basen– und Codons– Eigenschaften der Aminosäuren (z.B. Hydrophobizität, Größe, Polarität) – regulatorische Regionen und Gene– Gen-Duplikate und Gen-Cluster/-Gruppen

• Proteinen– Eigenschaften (z.B. hydrophil oder hydrophob) der Aminosäuren– Informationen zu Ionen-Kanälen und Rezeptoren oder zur Zellwand

• „Currently there is considerable inerest in integrating quantitative biologicalinformation at different size scales, from molecules to cells, tissues, organs and organisms.“

• „A hint at the potential of wavelets in modeling the scaling behavior of biologicalsystems comes from the results of wavelet-based modeling of physical systemsshowing scaling behavior in, for example, turbulence (Katul et al., 2000).“

Quelle: Pietro Liò. „Wavelet in bioinformatics and computational biology: state of the art and perspectives“, Bioinformatics, 2002.

Page 23: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

23

Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik

• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression

• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen

Page 24: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

24

Verarbeitung von Massespektren vonProteinen oder Hybridisierungen

• Peak-Identifikation

• „Denoising“

• Klassifikation von Spektren

• „Peaks oder Peak-Muster inMassespektren-Datenbanken suchen“

Page 25: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

25

Anwendung von Wavelet-Algorithmenin der Molekularbiologie und Bioinformatik

• Einführung– Genomics, Proteomics, Metabolomics – die „Omics Ära“– Genexpression

• Wavelet-Algorithmen in der Bioinformatik– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen– Mustererkennung in DNA-/Proteinsequenzen

Page 26: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

26

Mustererkennung in DNA-/Proteinsequenzen

• das transformierte Signalzu einer DNA-Sequenz:

A 1, C 2, G 3, T 4

• Predicting allergenic proteins using wavelet transform

• The hydrophobic cores of proteins predicted by waveletanalysis

• Locating probable genes using Fourier transform approach

20 40 60 80 100

1.5

2

2.5

3

3.5

4

Page 27: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

27

Predicting allergenic proteins using wavelet transformKuo-Bin Li, Praveen Issac und Arun Krishnan, Bioinformatics 2004

• Ähnlichkeitsbasierte Ansätze konnten sich an die Sequenzeigenschaften gut adaptieren, hatten aber eine schlechte Vorhersagefähigkeit

• [Stadler und Stadler, 2003] Zu motivbasierten Ansätzen konnte durch Cross-Validation eine Verbesserung bzgl. der Vorhersagefähigkeit gezeigt werden

• In dem Ansatz von Kuo-Bin et. al wird eine Kombination dieser Verfahren beschrieben.

• Mit der Wavelet Methode konnten konservierte Motive auf verschiedenen Skalen erkannt werden

• Angewendet auf die Protein-Datenbank Swiss-Prot (135850 Proteine) wurden 2000 potentielle Allergene identifiziert

Page 28: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

28

Sequenzähnlichkeit und motivbasierte Ansätze

• WHO und FAO haben eine Richtlinie zur Identifikation der Allerginizität von neuen Proteinen:– (neben Labortests) ein neues Protein ist potentiell allergen, wenn eine

Identität mit 6 aufeinander folgenden Aminosäuren mit bekannten Allergenen gefunden werden kann (viele falsch-positive Klassifikationen)

– oder mindestens 35% Sequenzähnlichkeit über einem Fenster von 80Aminosäuren existiert (zu stringent)

• motivbasierte Ansätze– Motive werden in Motivbeschreibungssprachen und HMM Profilen

formuliert.– [Stadler und Stadler, 2003] Mit dem Motiv-Identifikations-Tool MEME wurden

Proteinprofile aus einer Datenbank von bekannten Allergenen generiert. Zu neuen Proteinen wird ein Score berechnet, der die potentielleAllergenizität darstellt

Page 29: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

29

Kombination der Ansätze Sequenzähnlichkeitund Motive mit der Wavelet Methode - I

• Voraussetzung 1: die Aminosäuresequenzen müssen aliniert in die WaveletAnalyse übergeben werden– …VAALNRRIQLLEEDLERSEER-RSLSDEERMDALENQ…

…VA-LNR—QLLE---LERSEER-RSLSDE-Q-DALENQ……---LNR—QLLE-D-LERSEERLRSLSDE-Q-DALENQ…

• Voraussetzung 2: die Aminosäuresequenzen müssen mit einem ClusteringVerfahren gruppiert werden, da die Wavelet Analyse so angesetzt wurde, dass in einer Gruppe von Aminosäuresequenzen alle ein oder mehrere Motive enthalten müssen.

• Aminosäuresequenzen werden in Zahlenreihen übersetzt– Bestimmung der Konsensussequenz aus dem Alignment (?)– Die Zahlenreihe wird aus Aminosäureeigenschaften wie hydrophobizität,

Elektronen-Ionen-Interaktionspotential, Polarität, isoelektrischer Punkt oder „accessible surface area“ gebildet

Page 30: Anwendung von Wavelet-Algorithmen in der Molekularbiologie ... · 2 • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen

30

Kombination der Ansätze Sequenzähnlichkeitund Motive mit der Wavelet Methode - II

1. Berechne die paarweisen Distanzen für die bekannten Allergene (mit ClustalW)

2. Gruppiere diese Aminosäuresequenzen (Clustering mit PAM)

3. Generiere ein multiples Alignment für jedes dieser Cluster (mit T-Coffee oder ClustalW)

4. Identifiziere konservierte Motive für jedes Cluster mit der Wavelet Methode

5. Erzeuge ein HMM Profil für jedes identifizierte Motiv (mit HMMER)

6. Berechne einen Score für die Allerginizität für ein unbekanntes Protein (mit HMMER und BLASTP)