41
Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Embed Size (px)

Citation preview

Page 1: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Vorhersage von Genstrukturen inder DNA - Sequenz

Seminar zur

Bioinformatik

Stephan Didas25. Januar 2002

Page 2: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Überblick

(1.) Motivation(2.) Biologische Grundlagen Aufbau der DNA, Transkription und Splicing

(3.) Grundlagen aus der Wahrscheinlichkeitstheorie Hidden Markov Modelle und Viterbi-Algorithmus

(4.) Die Funktionsweise von GENSCAN

1997 (Burge und Karlin)

(5.) Vergleich der Ergebnisse mit anderen Programmen

(6.) Zusammenfassung - Vor- und Nachteile

Page 3: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Motivation

Bisherige Vorträge: Überwiegend Sequenzierungstechniken

Ergebnis der Sequenzierung:String über dem Alphabet {A, C, G, T}(beim menschlichen Genom z.B. String mit 3 Milliarden Zeichen)

Neben Verbesserung der Sequenzdaten nächster Schritt:

Verständnis der Sprache dieses Strings(momentan noch in den Anfängen)

Konzentration der Erbinformation in den Genenca. 75% der DNA liegt zwischen Genenca. 24% innerhalb der Gene in Introns, die keine kodierende

Information enthaltennur etwa 1,1% der DNA bildet mit den Exons die eigentliche

Erbinformation

Page 4: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Motivation

Wichtiger Schritt auf dem Weg zum Verständnis:Finden möglichst vieler Gene und Aufklärung ihrer Struktur.

Lokalisieren von Genen mit Hilfe von biologischen Methoden sehr finanz- und zeitaufwändig.

SequenzdatenZiel daher:

Bestimmen potentieller Gene (Rechner)

Experimentelles Verifizieren der Ergebnisse

Rechnergestützte Genvorhersagen kein Ersatz für Experimente,sondern Lieferant von sinnvollen Parametern

Page 5: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Grundlagen aus der Biologie

Kodierende Information in Genen also nicht zusammenhängend(Bildung von Unterabschnitten, Exons und Introns)

Ende der 70er Jahre Entdeckung des Splicings:

Bei Hybridisierung von mRNA mit zugehöriger DNA bildensich Schleifen im Hybridmolekül aus.

Einfärbung der Chromosomen mit AT-bindendem Farbstoff:

Genom läßt sich in ISOCHOREN unterteilen (Chromosomenabschnittemit einheitlicher Basenzusammensetzung, die sich untereinander unterscheiden)

Ausbildung von hellen und dunklen Banden

Häufig erhöhte CG-Konzentration in Gebieten mit vielen Genen

Page 6: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Grundlagen aus der BiologieTranskription - Splicing - Translation

DNA

Promoter Exon 1 Intron Exon 2 Poly-A-Signal

ATG TGAGT AG

CAP PolyadenylatPrä-mRNA

Transkription

5´ 3´

mRNA

Splicing

Protein

Translation

Donorsplice site

Acceptor splice site

Page 7: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Grundlagen aus der Biologie

- durchschnittlich 10 Exons pro Gen, jedoch auch Gene mit 27 und mehr

- Exons unterteilt in Nukleotid-Triplets (Codons), die je eine Aminosäure kodieren

- Splicing sites an jeder Stelle in einem solchen Codon möglich

CCTGCCGTTGCGTCTCCGACGACAGGCATCTAATCATExon 1 Exon 2Intron

CCTGCCTGTCCGTCTCCGACGACGAGCATCTAATCATExon 1 Exon 2Intron

CCTGCCTGGTCGTCTCCGACGACGCAGATCTAATCATExon 1 Exon 2Intron

Page 8: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Vorgehensweisen zum Suchen neuer Gene

(2.) Gezielte Suche eines Gens zu bekanntem Protein / RNA

(3.) Durchsuchen neuer Sequenzdaten nach Genen

Protein

DNA-Sequenz

mRNA kodierende DNA

Potentiell kodierende Bereiche

Vorhersage über Peptid-Sequenz

Suche des zugehörigen Proteins

Technik: Spliced Alignment

Technik: Statistische Methoden,

Wahrscheinlichkeits-theoretische Modelle

(1.) Ähnlichkeitssuche in der DNA mit der Sequenz schon bekannter Gene

Auch mit Hilfe bekannter Sequenzen von anderen Organismen möglich

Page 9: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

-------TTGATAGTTGCAGAGTCAGGTTGATCGATGTGA DNA

Spliced AlignmentVoraussetzung: Protein oder mRNA bekannt,

Suche dazu gehörendes Gen in der DNA

ACGAGCCAAAG mRNA - Target-Sequenz

TGCTCGGTTTCkomplementärerStrang

--------TGC----TC-GGTT TC--

Kodierende Region

PotentiellkodierendeGebiete

Page 10: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Start-Codon Stop-Codon

Statistische Methoden zum Finden von Genen

Einfachste Methode: Suche von Open Reading Frames

..CAGACATGTCCCTGCCGTTGCCTCCGACGACGCTGTGACGGCGGGG..

Keine weiteren Stop-Codons

Open Reading Frame

3 von 64 möglichen Codons sind Stop-Codons

Bei zufälliger Verteilung ca. jedes 21. Codon in der Sequenz

Zahl von Codons für ein durchschnittliches Protein ca. 300

Lange ORF´s Kandidaten für Gene

Problem: Kurze Gene / Exons werden nicht gefunden!

Page 11: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Hidden Markov-Modelle - Einführung

Würfelspieler mit zwei WürfelnBeispiel:

NORMAL

Würfel 1: NORMAL, alle Zahlen gleich wahrscheinlichp (k) = 1/6 für alle k

GEZINKT

GEZINKT

GEZINKT

Würfel 2: GEZINKT, dieser Würfel hat keine 3, aber zweimal die 6p (3) = 0, p (6) = 1/3,

p (k) = 1/6 für k = 1, 2, 4, 5

Vor jedem Wurf kann sich der Würfelspieler entscheiden, ob er denWürfel wechselt oder behält. Er tut dies nach festen Wahrscheinlichkeiten:

A(NORMAL, NORMAL) = 1/3 A(NORMAL, GEZINKT) = 2/3A(GEZINKT, NORMAL) = 1/3 A(GEZINKT, GEZINKT) = 2/3

Außerdem kennt man die Wahrscheinlichkeiten dafür, mit welchem Würfel er anfängt: s (NORMAL) = 1/2, s (GEZINKT) = 1/2

Page 12: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Hidden Markov-Modelle - EinführungBei einer gegebenen Folge von gewürfelten Zahlen 14235662162534262 sind folgende Fragestellungen interessant:

(1.) Wie wahrscheinlich ist es, dass der Spieler nach den ersten k Würfen den NORMALEN/GEZINKTEN Würfel in der Hand hat?

Forward - Algorithmus

(2.) Wie wahrscheinlich ist es, dass der Spieler - mit dem NORMALEN/ GEZINKTEN Würfel beginnend - die restlichen Zahlen ab Stelle k würfelt?

Backward - Algorithmus

(3.) Wie wahrscheinlich ist es, dass die obige Folge zustande kommt, wenn der Spieler nach k Würfen den NORMALEN/GEZINKTEN Würfel hatte?

Forward - Backward - Formel

(4.) Welche Zahlen der Folge sind mit höchster Wahrscheinlichkeit mit welchem Würfel entstanden?

Viterbi - Algorithmus

Page 13: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Hidden Markov-ModelleMathematische Formulierung

Gegeben:

- endliche Zustandsmenge A = {A , ... A } (Würfel)1 N

- N N - Matrix T mit Übergangswahrscheinlichkeiten für die Zuständex

- Alphabet B = {B , ... , B } (Augenzahlen)1 M

- Wahrscheinlichkeitsverteilungen p ( j A) zur Erzeugung der Buchstaben in den verschiedenen Zuständen

j

- Wahrscheinlichkeiten s ( j) ( j A) für den Anfangszustand

Erzeugung von Zeichenfolgen:

Wahl des Start-Zustandes mit s

Wahl eines neuen Zustandes q mit T(Wechseln oder Behalten des Würfels)

Erzeugen eines Zeichens mit p (Würfeln)

qModell „Hidden“, falls

Zustandsfolge unbekannt.

Page 14: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Erzeugung des neuen Zeichens im Zustand q

Zustandswechsel von l nach q

Erzeugung der ersten j Zeichenmit letztem Zustand l

Hidden Markov-ModelleForward - Algorithmus

Gegeben: X = x ... x aus dem Alphabet des Markov-Modells1 L

Gesucht: Wahrscheinlichkeit für die Erzeugung des Präfixes x ... x mit Endzustand q (bezeichnet mit a (k) )

k1

q

Rekursionsformel: a (0) = s (q) Startzustand vor dem ersten Zeichenq

a ( j+1) = a ( j) T p (x )ql A

lq q j+1l

Summe: Wahrscheinlichkeiten für alle Pfade addieren

Page 15: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Hidden Markov-Modelle

Backward - Algorithmus: Analog dazu, berechnet die Wahrscheinlichkeit,vom Zustand q ausgehend den Suffix x ... x zu erzeugen (b (k) ).k +1 L q

Forward - Backward - Formel: Wahrscheinlichkeit der Zeichenfolge X unter der Annahme, dassder k-te Zustand q ist.

p (X | q = q) = k

p ( X )

a (k) b (k) q q

wobei p ( X ) = a (L)q A

q

Page 16: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Hidden Markov-ModelleViterbi- Algorithmus

Analog zum Forward - Algorithmus, jedoch statt Summe nur Betrachtung des optimalen Pfades:

c (0) = s (q)q

c ( j+1) = max c ( j) T p (x )q

l Al lq j+1q

Berechnung dieser Werte für alle q A und für j = 0 ... L liefert mit Back-Tracking den optimalen Pfad q ... q von Zuständen zur Erzeugung von X.

0 L

Laufzeit: L2 - Werte für alle L Zeichen berechnen

- Dabei für jeden Zustand q

ein Maximum über N Fälle bildenPlatzbedarf: N + L

N

Page 17: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Ein einfaches Modell für den Aufbau der DNA(Krogh et al.,1994)

Intergenetic

Start

Stop

Coding

Produzierte Basenoder Codons:

A, C, G, T

Start-CodonsATG oder GTG

Alle Codons außer den Stop-Codons

Stop-Codons TAA, TAG oder TGA

4 Zustände:

Verwendung zur Genvorhersagebei Escherichia Coli

Vorteil: Vorhersagen auch möglich, wenn mehrere / nur teilweise Gene in der Eingabe vorkommen

Für menschliche Gene Verfeinerung des Modellsnotwendig (Berücksichtigungdes Splicings)

Page 18: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Länge der einzelnen ZuständeState Length Distribution

Markov-Modell: Länge von Folgen des gleichen Zustandes geometrischverteilt.

ii iik-1

P(X = k ) = (1-T ) T

Für Introns tatsächlich annähernd geometrische Längenverteilung beobachtet (allerdings z.B. keine Introns mit weniger als 65 bp)

Bei Exons allerdings stark davon abweichende Beobachtungen:

Länge

Häufigkeit

Daher Übergang zum Hidden Semi-Markov-Modell

Page 19: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Hidden Semi-Markov-Modell

- Verallgemeinerung des Hidden Markov-Modells

- Für jeden Zustand gibt es eine Längenverteilung.

- Im Spezialfall der geometrischen Längenverteilung erhält man das bekannte Hidden Markov-Modell.

- Erzeugung von Sequenzen:

Wahl des Start-Zustandes mit s

Wahl eines neuen Zustandes q mit T(Wechseln oder Behalten des Würfels)

Erzeugen einer Zeichenkette der Länge l mit p (Würfeln)qq

Erzeugen der Länge l des Zustandesq- Problem: Laufzeit des Viterbi-Algorithmus erhöht sich auf

N L 2 3

Page 20: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Gen - Modell in GENSCAN

3´5´

Gen mit einem Exon auf dem + Strang

NN

5´UTR Exon 3´UTR Poly - APromoter

P+P+

N: intergenetisches Gebiet

F+F+ E +E +sngl T+T+

A+A+

Page 21: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

NNP+P+

F+F+ E +E +sngl T+T+

A+A+

Gen - Modell in GENSCAN

E +E + E +E + E +E +210

I +I + I +I + I +I +210

E +E +init E +E +term

Erweiterung fürMulti-Exon-Gene:

Indizes geben an, nachwelcher Base im letzten Codon des Exons das Splicing erfolgtÜbergänge von jedem

Exon in jedes Intronmöglich, vom Intron nurin zugehöriges Exon

Page 22: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Gen - Modell in GENSCAN

NNP+P+

F+F+ E +E +sngl T+T+

A+A+

E +E + E +E + E +E +210

I +I + I +I + I +I +210

E +E +init E +E +term

P-P- A-A-

Für den komplementären Strang gibt es eine Kopie jedes Zustandes (außer N) mit umgekehrten Pfeilrichtungen

Zustände mit geometrischer Längenverteilung (Typ D) wechseln sich mit solchen mit anderer Verteilung (Typ C - in Kreisen dargestellt) ab.

Insgesamt: 27 Zustände

Mit dieser Information kann die Laufzeit quadratisch in der Länge der Eingabe gemacht werden.

Page 23: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Erzeugung der Sequenzen in GENSCAN

Bisher wurde noch nichts darüber ausgesagt, wie in den einzelnen Zuständen die zugehörigen Sequenzen erzeugt werden.

Die biologische Relevanz der Ergebnisse hängt in erster Linie von den hier verwendeten Modellen und v.a. der Qualität der einbezogenen Daten ab.

Erzeugung einer Datenbank (Learning Set L)

- Ausgangspunkt: Bestehende Datenbanken menschlicher Gene mit einem und mehreren Exons- Bereinigen der Daten (Entfernen von als unsicher eingestuften Abschnitten)- Entfernen aller Gene mit zu großer Übereinstimmung zum GeneParser-Tet-Set (Damit spätere Tests mit dem Test-Set aussagekräftig bleiben.)

Insgesamt 2,58 Mbp an Daten in L, verteilt auf 142 Single-Exon-und 238 Multi-Exon-Gene mit 1492 Exons und 1254 Introns.

- Hinzunahme weiterer Daten über Promoter - Daten über kodierende Region aus cDNA - Sequenzen

Erweitertes Learning Set mit 3195 kb

Page 24: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Typ D - Zustände (nichtkodierende Bereiche wie z.B. Intergenetische Region, 5´oder 3´UTR und Introns)

Typ C - Zustände (Exons, Promoter und Poly-A-Signal)

Modelle zur Erzeugung der Sequenzen

Homogenes Markov-Modell 5. Ordnung(d.h. der neue Zustand hängt nicht nur vom letzten Zustand,sondern von den letzten fünf ab.)

Inhomogenes 3-periodisches Markov-Modell 5. Ordnung

Der neue Zustand hängt ab von den fünf letzten Zuständen und der Position in der Sequenz modulo 3 ab. (Modellieren von Triplets, also Codons im Exon)

Es existieren verschiedene Modelle für E , E und E .10 2

Page 25: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Modellierung von Signalsequenzen

Transkriptionssignale: Promoter, Poly-A-SignalSplicing - Signale: Donor-, Acceptor splice sites

- Aufgrund der Bedeutung der Signale als Markierung für Zustandsüber- gänge gute Modellierung sehr wichtig.

- Schwierigkeiten der Modellierung durch:(1.) Kürze der Signalsequenzen (somit hohe Bedeutung einzelner Zeichen)

(2.) Hohe wechselseitige Abhängigkeit nicht nur zwischen benachbarten Zeichen

Vielzahl verschiedener Modelle für Signale

Page 26: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Modelle für Signale in Genen

Betrachtet werden biologische Signalsequenzen wie z.B. Donor und Acceptor splice sites, Promoter oder Enhancer.

Einfachstes Modell: Weight Matrix Method (WMM)(Staden 1984)

Ausgangspunkt ist ein multiples Alignment von Signalsequenzen:

CAGGTAAGTCACGTTAGTACGGTATGTCGGGTAAAT---------CAGGTAAGT

Die relativen Häufigkeiten p der Basen j an der Stelle i bilden die (Position) Weight Matrix.

Das Produkt p dient als Schätzwert für die

Wahrscheinlichkeit der Erzeugung der SequenzX = x ... x .

(i)j

1 n

i = 1

n (i)xi

Zeichen der Sequenz werden als unabhängig angesehen.

Page 27: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Verallgemeinerung: Weight Array Method (WAM)

Übergang zu bedingten Wahrscheinlichkeiten für ein Nukleotid abhängig vom Vorgänger im String:

Erhalten dieser Koeffizienten durch die bedingten Häufigkeiten im multiplen Alignment

Verallgemeinern auf höhere Ordnungen möglich

Problem: Häufig nicht genügend Daten zur Berechnung vorhanden

Die Wahrscheinlichkeit zum Erzeugen von ist damitX = x ... x1 n

p (i-1, i)x , xi-1 i

p(X) = p x1

(1) .i=2

n

wobei die bedingte Wahrscheinlichkeit für Nukleotid x an der Stelle i unter der Voraussetzung von Nukleotid x an der Stelle i-1 bezeichnet

p (i-1, i)x , xi-1 i

i

i-1

Page 28: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Maximal Dependence Decomposition (MDD)Mit GENSCAN neu eingeführtes Signalmodell

Gegeben: multiples Alignment A von M Signalsequenzen der Länge k (M > 1000)

(1.) Bilden des Consensus-Pattern

(2.) Betrachte folgende ZufallsvariablenX : Nukleotid an Stelle j (A = 0, C = 1, G = 2, U = 3)C = 1, falls Nukleotid an Stelle i dem Consensus entspricht, 0 sonst

j

i

Keine signifikante Abhängigkeit Benutze WMM

Abhängigkeit zwischen benachbarten Positionen

Benutze WAM

Abhängigkeit nicht nur zwischen benachbarten Positionen

Benutze MDD

(3.) Untersuche die Abhängigkeit zwischen X und C mit Hilfe der - Statistik (Methode zum Test zweier Zufallsvariablen auf statistische Unabhängigkeit) Man errechnet dabei für alle i j den Wert (C , X ) und erhält eine k k - Tabelle. (C , X ) > Schranke X von C abhängig

2ij

ji2

x 2i j j i

Page 29: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

(1.) Berechne für alle i die Summe S = (C , X )

(Zeilensumme in der oben erstellten Tabelle) Maß für die Abhängigkeit aller weiteren Stellen von Stelle i

j = 1

k2

jii

(2.) Wähle Wert i so, dass S maximal ist (Stelle, von der die meisten anderen

Stellen abhängen, Maximal Dependence).

Zerlege die Menge A in die Teilmengen A (alle Sequenzen mit dem

Consensus-Symbol an Stelle i) sowie A (alle übrigen Sequenzen)

0 i0

1

2

Ergebnis: Baumstruktur

(3.) Wende auf die so erhaltenen Mengen rekursiv wieder die Punkte 1 und 2 an. (Berechnung der - Werte, Zeilensummen, weitere Zerlegung der Mengen)

Falls eine Teilmenge zu klein wird (weniger als 175 Sequenzen), rechne nur mit der übrigen weiter.

2

Maximal Dependence Decomposition

Page 30: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Beispiel:Alle Sequenzen (z.B. 1200)

G Stelle 4

- - - G (1100)

A, C, T

- - - [A|C|T](100)

Weniger als 175 WAMStelle 1

A - - G (600)

AC, G, T

[C|G|T] - - G (500)

... ...

Erzeugen einer Sequenz: Ablaufen eines Pfades, im Blatt evtl.noch anderes Modell (WAM oder WMM) anwenden

Consensus: ATCG

Maximal Dependence Decomposition

Page 31: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Sequenzen auf dem komplementären Strang

Die Hälfte des Zustandsmodells (mit - gekennzeichnete Zustände) bezieht sich auf den zur Eingabesequenz komplementären Strang.

Zur Erzeugung der entsprechenden Sequenzen:

(1.) Erzeugen der Sequenz für den korrespondierenden Zustand auf dem + Strang

(2.) Bilden des inversen Komplements dieser Sequenz

Beispiel: Stop-Codon

TAGKomplement

ATCRichtung

umkehrenCTA

Also: Wahrscheinlichkeit für CTA auf - Strang = Wahrscheinlichkeit für TAG auf + Strang im entspr. Zustand

Page 32: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Qualität der Ergebnisse

Übliche Maße für die Genauigkeit einer solchen Methode (auf Ebene derNukleotide):

Sensitivity: Sn = True Positives / Actual Positives

Specificity: Sp = True Positives / Predicted Positives

Vergleich der Genauigkeit der Ergebnisse mit einer Reihe weiterer Programme anhand des Burset/Guigó - Test-Set.

(Dieses besteht aus 570 Wirbeltiergenen mit bekannter Struktur.)

Actual Positive - Nukleotid liegt in kodierendem Gebiet

Predicted Positive - Programm sagt für das Nukleotid kodierendes Gebiet voraus

True Positive = Actual Positive und Predicted Positive

False Positive = Predicted Positive, aber nicht Actual Positive

Page 33: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

0

0,2

0,4

0,6

0,8

1

Sn Sp

GENSCAN FGENEH GeneID

Genie GenLang GeneParser2

GRAIL2 GenParser3 GeneID+

Vergleich mit weiteren Programmen

GeneParser3 und GeneID+ nutzen neben der Eingabesequenzauch Proteinhomologie-Informationen

GENSCAN überschreitet auch ohne diese Informationen die 90%-Marke

Page 34: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Vergleich mit weiteren Programmen

0

0,2

0,4

0,6

0,8

1

Sn Sp Avg. ME WE

GENSCAN FGENEH GeneID

Genie GenParser3 GeneID+

Ermitteln der Werte auf Ebene der Exons(True Positive = Exonbeginn und -ende exakt gefunden)

Missed Exons (ME) - Vorhandene Exons, die nicht mit einem vorhergesagten überlappenWrong Exons (WE) - Vorhergesagte Exons, die nicht mit einem vorhandenen überlappen

Page 35: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Abhängigkeit vom CG-Content der Eingabesequenz

0

0,2

0,4

0,6

0,8

1

Snpro

Nukl.

Sppro

Nukl.

Snpro

Exon

Sppro

Exon

ME WE

CG < 40% CG 40-50% CG 50-60% CG > 60%

Unterteilung des Burset/Guigó - Test-Sets nach CG-Content

Abhängigkeit vom CG-Content geringer als die Differenzen zwischen den verschiedenen Programmen

Page 36: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Praktische Bedeutung der Forward-Backward-Probability

Ermittlung der Forward-Backward-Probability p für 2678Exons des Test Sets

0.99 < p 971 98 %

0,95 < p <= 0,99 551 92 %

0,90 < p <= 0,95 263 88 %

0,75 < p <= 0,90 337 75 %

0,50 < p <= 0,75 362 54 %

0 <= p < 0,5 248 30 %

Anzahlder Exons

davon exakt richtigF-B-Probability

Hohe Forward-Backward-Probability und damit hoher Score-Wert kann als Maß für die Genauig-keit der vorhergesagten Exons genutzt werden.

Page 37: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Praktische Anwendung von GENSCAN

Organismus:- Vertebrate- Human- Maize

Schranke für die AusgabesuboptimalerExons

Ausgabe-optionen Sequenzeingabe

als Datei oderCut & Paste

GENSCAN Webserver: http://genes.mit.edu/GENSCAN.html

Mail-Server: [email protected]

Page 38: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Praktische Anwendung von GENSCAN

C+G - Content

Zugehörige Peptid-Sequenzen

Score (aus Forward-Backward-Probability)

Lage in der DNA-Sequenz

Typ des Genabschnitts (Initial, internal, terminal exon etc.)

DNA-Strang

Page 39: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Zusammenfassung

Vorteile des Ansatzes von GENSCAN:

- Verarbeitung von Eingabesequenzen mit mehreren oder nur teilweise vorhandenen Genen möglich

- Beachtung auch des komplementären Stranges

- Erzeugung der Sequenz nach empirisch gewonnenen Modellparametern

- Berücksichtigung des CG-Contents zur Auswahl der Sequenzwahrschein- lichkeiten

- Verbesserung des Signalmodells gegenüber vorherigen Programmen (Maximal Dependence Decomposition)

- Anhand der Forward-Backward-Probability kann die Güte der Vorhersage abgeschätzt werden.

Page 40: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

Nicht berücksichtigt werden:

- Gene, die keine Proteine (sondern z.B. tRNA oder rRNA) kodieren

- Überlappende Gene

- Introns außerhalb der Übersetzungseinheiten (z.B. in den 3´ oder 5´ UTRs)

- Bestimmte regulatorische Elemente (Enhancer etc.)

- Zu alternativem Splicing gehörende Signale

Zusammenfassung

Page 41: Vorhersage von Genstrukturen in der DNA - Sequenz Seminar zur Bioinformatik Stephan Didas 25. Januar 2002

QuellenVeröffentlichungen:

(1.) Chris Burge and Samuel Karlin Prediction of Complete Gene Structures in Human Genome DNA (1997) J. Mol. Biol. 268, 78-94 (2.) Chris Burge Identification of complete gene structures in human gemonic DNA (1997) PhD thesis. Stanford University (3.) James W. Fickett The gene identification problem: An overview for developers

GENSCAN - Webserver am MIT: http://genes.mit.edu/GENSCAN.html