37
1 GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003 Oleg Rempel und Sven Zöller Johann Wolfgang Goethe-Universität Frankfurt am Main

GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

  • Upload
    vanya

  • View
    38

  • Download
    0

Embed Size (px)

DESCRIPTION

Johann Wolfgang Goethe-Universität Frankfurt am Main. GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003 Oleg Rempel und Sven Zöller. Gliederung. 1 Einleitung 1.1  Exkurs ins menschlichen Genom 1.2  Human Genom Projekt - PowerPoint PPT Presentation

Citation preview

Page 1: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

1

GDV Proseminar

“Visualisierung in der Bioinformatik”

Genom – VisualisierungFfM., den 05.06.2003

Oleg Rempel und Sven Zöller

Johann Wolfgang Goethe-Universität Frankfurt am Main

Page 2: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

2

1 Einleitung1.1  Exkurs ins menschlichen Genom1.2  Human Genom Projekt

2 Graphisches Darstellen von Genomen2.1 Ziele2.2 Probleme

3 ProtAnnot und Neomorphic GeneViewer3.1 Hintergrund3.2  Semantisches Zooming3.3  Zweidimensionales Zooming3.4  Einzelne oder doppelte Reihenfolge der Genstruktur3.5  Umgang mit der Komplexität der Informationen3.6  Proteinvorhersage

4 Beispiel SeqVISTA4.1 Hintergrund4.2 SeqVISTA4.3 repetitive Elemente4.4 Proteinstruktur

5 Zusammenfassung

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Gliederung

Page 3: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

3

1 Einleitung

1.1 Exkurs ins menschliche Genom

Genom (Erbgut) ist die Gesamtheit der Erbinformation einer Zelle.

Die Erbinformation ist die in der DNA jeder Zelle gespeicherte

Information zur Ausbildung von Merkmalen.

Unter Merkmalen versteht man die Entwicklung, das Aussehen, das

Verhalten, die Gesundheit und die Neigung zu bestimmten

Krankheiten.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Genom als der Bauplan des Lebens

Page 4: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

4

1 Einleitung

1.1 Exkurs ins menschliche Genom

Jede Zelle des menschlichen Organismus besitzt das komplette Genom.

Das meiste menschliche Genom (99,9995%) befindet sich im Zellkern.

Rest (0,0005%) in Mitochondrien der Zelle.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Sitz des Genoms

Page 5: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

5

1 Einleitung1.1 Exkurs ins menschliche Genom

Erbsubstanz der Erbinformation ist die

DNA (DesoxyriboNucleid Acid).

Die DNA besteht aus Bausteinen

(Nukleotiden), die in zwei komplementär

angeordneten Strängen miteinander

Verknüpft sind.

Die beiden DNA-Stränge sind spiralförmig

um die eigene Achse gewunden, bilden so

genannte Doppelhelix.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

DNA

Page 6: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

6

1 Einleitung

1.1 Exkurs ins menschliche Genom

Die Doppelhelix ist durch mehrfaches Umwickeln sehr

dicht gepackt und bildet zusammen mit HistonProteinen

eine Chromatinfaser aus.

Die Chromatinfaser ist ihrerseits umgewickelt und

bildet Chromosomen aus.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Von Doppelhelix zu einem Chromosom

Page 7: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

7

1 Einleitung

1.1 Exkurs ins menschliche Genom

Bei einem Mensch gib es 23

Chromosomen, die normaler

Weise doppelt vertreten sind.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Chromosomen

Page 8: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

8

1 Einleitung

1.1 Exkurs ins menschliche Genom

Ein Chromosom ist ca. 1,4 μm

breit und ist unter dem

Mikroskop sichtbar.

Ein Chromosom kann mehrere

Gene enthalten.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Chromosomen

Page 9: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

9

1 Einleitung

1.1 Exkurs ins menschliche Genom

Gen ist ein bestimmter

proteinkodierender DNA

Abschnitt.

Im menschlichen Genom sind

ca. 27 000 – 30 000 Gene,

davon sind in Mitochondrien

13 Gene.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Gen

Page 10: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

10

1 Einleitung

1.1 Exkurs ins menschliche Genom

Es gibt 4 verschiedene Nukleotide in der DNA: A,C,G und T

Da jedes Nukleotid immer einen spezifischen Partner in dem zweiten

DNA-Strang hat, nennt man die beiden Partner ein Basenpaar.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Codierung

R

O-

O

P

NO

O

O

N

NH2

O

O-

O

P

N+

OO

O

NH

NH

N

NH2

O

O-

O

PR 3'3'

5' 5'

AC

Page 11: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

11

1 Einleitung1.1 Exkurs ins menschliche Genom

Die Abfolge der Besenpaaren kann bei der Expression in die Abfolge derAminosäuren eines Proteins übersetzt werden.

Drei Basen eines DNA-Stranges sind die kleinste Informationseinheit derDNA und wird als Codon oder Basentriplett bezeichnet.

Ein Codon kodiert eine bestimmte Aminosäure oder hat eine andere Funktion.

Es gibt 64 (43) mögliche Codons und nur 20 Aminosäuren die sie kodieren.Das erschwert die Entzifferung der Codierung.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Codierung

Page 12: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

12

1 Einleitung

1.1 Exkurs ins menschliche Genom

Die Abfolge der Nukleotiden in der DNA bezeichnet man als Sequenz.

Bei Menschen insgesamt: 3,2 Milliarden Besenpaaren,

nur 1- 5% davon stellen Gene dar.

In Mitochondrien: 16 kbp

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Sequenz

Page 13: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

13

1 Einleitung

1.1 Exkurs ins menschliche Genom

Man unterscheidet verschiedene Regionen der Sequenz:

Exon – die proteinkodierende Region

Intron – hat keine proteinkodierende Funktion.

Promotor – Region, wo die Transkription startet.

Terminator – Region, wo die Transkription endet.

ORF – offener Leseraster.

URF – nichtidentifizierter Leseraster

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Sequenz -Regionen

Page 14: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

14

1 Einleitung1.1 Exkurs ins menschliche Genom

>gi|16164037:211292-256037 Homo sapiens chromosome Y genomic contig

GTTTGTGGCCTGGTCGGCGTCCCGTAGGGCGCCCTCCCGCGCTAGGCCGGCCGGCGTGGCGCTCGGCGCCGAACAGGCCCCGAGGAGGCCGCAGTTAGGCCTAGTGATTATCCAGTTGCCCTGAGCGGCTGCGGAGGTGCGCTCCATAAGCGGGCAGGGTGGGAAAAGTTCGCCCGTTTGTCCGGAAGGCAGTTGATGGACCTGGGGTCGACACCACTGCGGACGCAGGGCACGGCACGGGGGCGAGAAGGCGAAGGCTGCAGGCGTGAGGTGAAGGCCGGAGGCCTGCTGGGCCTATTTTCGCTATGTAAATGTCCGCGAAGGGGAGGAGGGACGGGGGGGCAAGATGGCGGCTGCTAGGCGCCTGCTGCTGGGGAGTATTGAGAGTGTTGTCGGGAGGCGGAGCCGCCATCTTGAAGGCGGTATCTGGAAAAAAAATTCGGTTATGATCCTTGAGGCGGGGATGGGGAAAAGGACGGCGGCGGCGGCGGCAGCGCAGCCTCCGGCGCGACGGCGTGTCTGCGCAACAGGGCGTGCTCGTTCCCTTGGCGGCCCTTGCCTTTGTCGCCATATGCGCGCGTACGTTCCAGACGCCTGCGGCAGCGCCACCTTTCGGCCTTCCCCTCACAGCCCATCCTTGGCTGGGTGCAGTGTCGGCTACGCTTTAGGTGACATGCCGCAGGCGTCCGTTCGGGCGCCGGGGTCATTTCGCCCCTCAGCGCTCCCGGCTCTGTGCCCTTCCGAGAGTCTACAGCCACCCGTTTCAGCAGGTGGCAATTCGGGCATCTAGGCTCACGAGAGCACATAAATTCCAGAAAATTTTATTTTCCCCTAATTAAAGTCATTATGTGGCTGTTCGGGGACCTTCGATGCGCTTATTTTTCAACCATC………………

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Sequenz

Page 15: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

15

1 Einleitung

1.2 Human Genom Projekt

1986 – Aufruf des amerikanischen Krebsforschers Renato Dulbecco das komplette menschliche Genom zu entschlüsseln.

1987 – Amerikanische Kongress bewilligt 200 Millionen Dollar jährlich,

geplant sind 15 Jahre arbeit.

1997 – Start des Human Genom Projektes in Deutschland.

2000 – Erste Ergebnisse würden veröffentlicht.

2001 – Begann die zweite Phase des Projektes.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Daten

Page 16: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

16

1 Einleitung

1.2 Human Genom Projekt

Das Ziel des öffentlich finanzierten Humangenomprojektes ist,

aller Wissenschaftler mit einem öffentlichem Verzeichnis der Gensequenz

zu versorgen, und dadurch die biomedizinische Forschung zu

beschleunigen.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Ziel

Page 17: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

17

1 Einleitung

1.2 Human Genom Projekt

Im Jahre1991 wird HUGO (HUman Genom Organisation) gegründet, welche

die Durchführung des Projektes koordinieren soll.

Wenig später hat aber eine private US-Firma "Celera Genomics" des

Genforschers Craig Venter die Führung übernommen.

Die deutschen Firmen erhoffen bei der zweiten Phase des Projektes, wo es

hauptsächlich um die Erkennung der Genfunktionen geht, die Nase vorne zu

halten.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Firmen

Page 18: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

18

1 Einleitung

1.2 Human Genom Projekt

Obwohl in der Presse schon mehrmals verkündet wurde, dass das menschliche

Genom beinah vollständig entziffert ist und veröffentlicht wurde,

Wissenschaftler in der ganzen Welt arbeiten noch heftig daran.

Hauptgrunde dafür sind:

Die Funktion der meisten Genen ist noch unbekannt.

Viele Gene besitzen mehrere Funktionen.

Die entzifferten Gensequenz kann Fehler enthalten.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Ergebnisse

Page 19: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

19

2 Ziele und Probleme beim graphischen Darstellen von Genomen

2.1 Ziele

Wie in Humangenomprojekt ist auch hier das Hauptziel, aller Wissenschaftler mit

der öffentlichen Gensequenz zu versorgen.

Die entzifferten Daten sind da, aber die sind oft viel zu unübersichtig und

komplex, deshalb werden effektive Visualisierungswerkzeuge gebraucht,

welche die Wissenschaftler helfen damit zu arbeiten.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Die Bereitstellung der Sequenz

Page 20: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

20

2 Ziele und Probleme beim graphischen Darstellen von Genomen

2.1 Probleme

Ein nützlicher und effektiver Weg etwas unübersichtliches sichtbar zu machen ist

die grafische Darstellung.

Providerswerkzeuge:

Das LocusLink von NCBI und der Genomsuch-Browser von UCSC.

Beide arbeiten aber in sogenannten „Client-server model“

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Grafische Darstellung

Page 21: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

21

2 Ziele und Probleme beim graphischen Darstellen von Genomen

2.1 Probleme

Das „Client-server model“ erschwert viele Manipulationen.

Es wird versucht das Problem durch Java-Applets zu lösen, die von dem Server

runtergeladen werden können und in einer „Java vitrual machine“ auf dem PC des

Benutzers laufen und verändern werden können.

Aus Sicherheitsgründen sind die Java-Applets aber etwas problematisch,

da die sehr wohl Trojaner seien können.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Java-Applets

Page 22: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

22

3 ProtAnnot und Neomorphic GeneViewer

3.1 Hintergrund

Als Beispiele der alternativen Visualisierungstechnik werden hier als erstes

ein Prototyp des Protein-Domain-Viewer ProtAnnot

und Neomorphic GeneViewer, ein Genombrowser,

der zuerst für das Institut der Genomforschung (TIGR)

speziell für das Arabidopsis Genom geschrieben wurde.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

ProtAnnot und Neomorphic GeneViewer

Page 23: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

23

3 ProtAnnot und Neomorphic GeneViewer

3.2 Semantisches Zooming

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Semantisches Zooming

Page 24: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

24

3 ProtAnnot und Neomorphic GeneViewer

3.3 Zweidimensionales Zooming

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Zweidimensionales Zooming

Page 25: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

25

3 ProtAnnot und Neomorphic GeneViewer

3.4 Einzelne oder doppelte Reihenfolge der Genstruktur

Gen-Finder-Programme.

Sequenzen werden in zwei parallelen Reihen dargestellt und so verglichen.

Ca. 1/2 - 1/3 der menschlichen Genen enthalten mehrere Transkriptionsvarianten .

Erkennung oft nur von einer Transkriptionsvariante.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Doppelte Reihenfolge der Genstruktur

Page 26: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

26

3 ProtAnnot und Neomorphic GeneViewer

3.4 Einzelne oder doppelte Reihenfolge der Genstruktur

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Einzelne Reihenfolge der Genstruktur

Page 27: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

27

3 ProtAnnot und Neomorphic GeneViewer

3.5 Umgang mit der Komplexität der Informationen

EST’s (expressed sequence tags) von

SNURF-Gen, das in der Lage ist zwei

unterschiedliche Proteine zu kodieren.

RT-PCR

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Umgang mit der Komplexität der Informationen

Page 28: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

28

Page 29: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

29

3 ProtAnnot und Neomorphic GeneViewer

3.6 Proteinvorhersage

ARG1 (Arginase – Gen)

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Das alternative Splicing (oder Spleissen)

Page 30: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

30

3 ProtAnnot und Neomorphic GeneViewer

3.6 Proteinvorhersage

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Zwei Formen eines plasminogen Aktivators

Page 31: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

31

- alle gefundenen Geninformationen werden in Text basierenden Datenbanken gespeichert

- kein intuitives Verständnis über die komplexe Struktur von Genen möglich

- Datenbanken liefern graphische Darstellungen nur zu einer Fragestellung

- SeqVISTA übernimmt die Aufgabe der graphischen Visualisierung von verschiedenen Datenbankinformationen gleichzeitig

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Hintergrund44.1

Page 32: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

32

einfaches Verständnis durch dreigeteilten Bildschirm (tree panel, graphics panel und sequence panel)

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

SeqVISTA44.2

Page 33: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

33

Suchfunktionen innerhalb der Sequenz

- Start- und Endsequenz sind bekannt

- Sequenzfragment ist bekannt

- durch Markierung einer Region in der Sequenz

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

SeqVISTA44.2

Page 34: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

34

Vorteile von SeqVISTA im Bezug auf Datenimport

- Akzeptanz der wichtigsten Datenbankformate (GenBank flat file format [GBFF], GenBank HTML format, FASTA format und meta-based SeqVISTA format.)

- einfaches Laden der Sequenz durch Eingabe der GI oder durch Laden von der NCBI-Internetseite.

- durch Pluginentwicklung können externe Analyseprogramme SeqVISTA zur graphischen Visualisierung nutzen.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

SeqVISTA44.2

Page 35: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

35

Untersuchung der Lage und Eigenschaften repetitiver Elemente im Bezug zur Gesamtsequenz.

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

repetitive Elemente44.3

Page 36: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

36

PSIPRED berechnet wahrscheinliche sekundär Strukturen der Proteine anhand der Gensequenz

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Proteinstruktur44.4

Page 37: GDV Proseminar “Visualisierung in der Bioinformatik” Genom – Visualisierung FfM., den 05.06.2003

37

- komplexe Gensequenzen werden übersichtlich dargestellt

- Zugriff auf externe Programme zu vertiefenden Analysen

- Darstellung externer Ergebnisse

Proseminar „Visualisierung in der Bioinformatik“Genom – Visualisierung

Zusammenfassung5