Upload
frideric-wuebben
View
104
Download
1
Embed Size (px)
Citation preview
Vorhersage von Genstrukturen inder DNA - Sequenz
Seminar zur
Bioinformatik
Stephan Didas25. Januar 2002
Überblick
(1.) Motivation(2.) Biologische Grundlagen Aufbau der DNA, Transkription und Splicing
(3.) Grundlagen aus der Wahrscheinlichkeitstheorie Hidden Markov Modelle und Viterbi-Algorithmus
(4.) Die Funktionsweise von GENSCAN
1997 (Burge und Karlin)
(5.) Vergleich der Ergebnisse mit anderen Programmen
(6.) Zusammenfassung - Vor- und Nachteile
Motivation
Bisherige Vorträge: Überwiegend Sequenzierungstechniken
Ergebnis der Sequenzierung:String über dem Alphabet {A, C, G, T}(beim menschlichen Genom z.B. String mit 3 Milliarden Zeichen)
Neben Verbesserung der Sequenzdaten nächster Schritt:
Verständnis der Sprache dieses Strings(momentan noch in den Anfängen)
Konzentration der Erbinformation in den Genenca. 75% der DNA liegt zwischen Genenca. 24% innerhalb der Gene in Introns, die keine kodierende
Information enthaltennur etwa 1,1% der DNA bildet mit den Exons die eigentliche
Erbinformation
Motivation
Wichtiger Schritt auf dem Weg zum Verständnis:Finden möglichst vieler Gene und Aufklärung ihrer Struktur.
Lokalisieren von Genen mit Hilfe von biologischen Methoden sehr finanz- und zeitaufwändig.
SequenzdatenZiel daher:
Bestimmen potentieller Gene (Rechner)
Experimentelles Verifizieren der Ergebnisse
Rechnergestützte Genvorhersagen kein Ersatz für Experimente,sondern Lieferant von sinnvollen Parametern
Grundlagen aus der Biologie
Kodierende Information in Genen also nicht zusammenhängend(Bildung von Unterabschnitten, Exons und Introns)
Ende der 70er Jahre Entdeckung des Splicings:
Bei Hybridisierung von mRNA mit zugehöriger DNA bildensich Schleifen im Hybridmolekül aus.
Einfärbung der Chromosomen mit AT-bindendem Farbstoff:
Genom läßt sich in ISOCHOREN unterteilen (Chromosomenabschnittemit einheitlicher Basenzusammensetzung, die sich untereinander unterscheiden)
Ausbildung von hellen und dunklen Banden
Häufig erhöhte CG-Konzentration in Gebieten mit vielen Genen
Grundlagen aus der BiologieTranskription - Splicing - Translation
DNA
Promoter Exon 1 Intron Exon 2 Poly-A-Signal
ATG TGAGT AG
CAP PolyadenylatPrä-mRNA
Transkription
5´ 3´
mRNA
Splicing
Protein
Translation
Donorsplice site
Acceptor splice site
Grundlagen aus der Biologie
- durchschnittlich 10 Exons pro Gen, jedoch auch Gene mit 27 und mehr
- Exons unterteilt in Nukleotid-Triplets (Codons), die je eine Aminosäure kodieren
- Splicing sites an jeder Stelle in einem solchen Codon möglich
CCTGCCGTTGCGTCTCCGACGACAGGCATCTAATCATExon 1 Exon 2Intron
CCTGCCTGTCCGTCTCCGACGACGAGCATCTAATCATExon 1 Exon 2Intron
CCTGCCTGGTCGTCTCCGACGACGCAGATCTAATCATExon 1 Exon 2Intron
Vorgehensweisen zum Suchen neuer Gene
(2.) Gezielte Suche eines Gens zu bekanntem Protein / RNA
(3.) Durchsuchen neuer Sequenzdaten nach Genen
Protein
DNA-Sequenz
mRNA kodierende DNA
Potentiell kodierende Bereiche
Vorhersage über Peptid-Sequenz
Suche des zugehörigen Proteins
Technik: Spliced Alignment
Technik: Statistische Methoden,
Wahrscheinlichkeits-theoretische Modelle
(1.) Ähnlichkeitssuche in der DNA mit der Sequenz schon bekannter Gene
Auch mit Hilfe bekannter Sequenzen von anderen Organismen möglich
-------TTGATAGTTGCAGAGTCAGGTTGATCGATGTGA DNA
Spliced AlignmentVoraussetzung: Protein oder mRNA bekannt,
Suche dazu gehörendes Gen in der DNA
ACGAGCCAAAG mRNA - Target-Sequenz
TGCTCGGTTTCkomplementärerStrang
--------TGC----TC-GGTT TC--
Kodierende Region
PotentiellkodierendeGebiete
Start-Codon Stop-Codon
Statistische Methoden zum Finden von Genen
Einfachste Methode: Suche von Open Reading Frames
..CAGACATGTCCCTGCCGTTGCCTCCGACGACGCTGTGACGGCGGGG..
Keine weiteren Stop-Codons
Open Reading Frame
3 von 64 möglichen Codons sind Stop-Codons
Bei zufälliger Verteilung ca. jedes 21. Codon in der Sequenz
Zahl von Codons für ein durchschnittliches Protein ca. 300
Lange ORF´s Kandidaten für Gene
Problem: Kurze Gene / Exons werden nicht gefunden!
Hidden Markov-Modelle - Einführung
Würfelspieler mit zwei WürfelnBeispiel:
NORMAL
Würfel 1: NORMAL, alle Zahlen gleich wahrscheinlichp (k) = 1/6 für alle k
GEZINKT
GEZINKT
GEZINKT
Würfel 2: GEZINKT, dieser Würfel hat keine 3, aber zweimal die 6p (3) = 0, p (6) = 1/3,
p (k) = 1/6 für k = 1, 2, 4, 5
Vor jedem Wurf kann sich der Würfelspieler entscheiden, ob er denWürfel wechselt oder behält. Er tut dies nach festen Wahrscheinlichkeiten:
A(NORMAL, NORMAL) = 1/3 A(NORMAL, GEZINKT) = 2/3A(GEZINKT, NORMAL) = 1/3 A(GEZINKT, GEZINKT) = 2/3
Außerdem kennt man die Wahrscheinlichkeiten dafür, mit welchem Würfel er anfängt: s (NORMAL) = 1/2, s (GEZINKT) = 1/2
Hidden Markov-Modelle - EinführungBei einer gegebenen Folge von gewürfelten Zahlen 14235662162534262 sind folgende Fragestellungen interessant:
(1.) Wie wahrscheinlich ist es, dass der Spieler nach den ersten k Würfen den NORMALEN/GEZINKTEN Würfel in der Hand hat?
Forward - Algorithmus
(2.) Wie wahrscheinlich ist es, dass der Spieler - mit dem NORMALEN/ GEZINKTEN Würfel beginnend - die restlichen Zahlen ab Stelle k würfelt?
Backward - Algorithmus
(3.) Wie wahrscheinlich ist es, dass die obige Folge zustande kommt, wenn der Spieler nach k Würfen den NORMALEN/GEZINKTEN Würfel hatte?
Forward - Backward - Formel
(4.) Welche Zahlen der Folge sind mit höchster Wahrscheinlichkeit mit welchem Würfel entstanden?
Viterbi - Algorithmus
Hidden Markov-ModelleMathematische Formulierung
Gegeben:
- endliche Zustandsmenge A = {A , ... A } (Würfel)1 N
- N N - Matrix T mit Übergangswahrscheinlichkeiten für die Zuständex
- Alphabet B = {B , ... , B } (Augenzahlen)1 M
- Wahrscheinlichkeitsverteilungen p ( j A) zur Erzeugung der Buchstaben in den verschiedenen Zuständen
j
- Wahrscheinlichkeiten s ( j) ( j A) für den Anfangszustand
Erzeugung von Zeichenfolgen:
Wahl des Start-Zustandes mit s
Wahl eines neuen Zustandes q mit T(Wechseln oder Behalten des Würfels)
Erzeugen eines Zeichens mit p (Würfeln)
qModell „Hidden“, falls
Zustandsfolge unbekannt.
Erzeugung des neuen Zeichens im Zustand q
Zustandswechsel von l nach q
Erzeugung der ersten j Zeichenmit letztem Zustand l
Hidden Markov-ModelleForward - Algorithmus
Gegeben: X = x ... x aus dem Alphabet des Markov-Modells1 L
Gesucht: Wahrscheinlichkeit für die Erzeugung des Präfixes x ... x mit Endzustand q (bezeichnet mit a (k) )
k1
q
Rekursionsformel: a (0) = s (q) Startzustand vor dem ersten Zeichenq
a ( j+1) = a ( j) T p (x )ql A
lq q j+1l
Summe: Wahrscheinlichkeiten für alle Pfade addieren
Hidden Markov-Modelle
Backward - Algorithmus: Analog dazu, berechnet die Wahrscheinlichkeit,vom Zustand q ausgehend den Suffix x ... x zu erzeugen (b (k) ).k +1 L q
Forward - Backward - Formel: Wahrscheinlichkeit der Zeichenfolge X unter der Annahme, dassder k-te Zustand q ist.
p (X | q = q) = k
p ( X )
a (k) b (k) q q
wobei p ( X ) = a (L)q A
q
Hidden Markov-ModelleViterbi- Algorithmus
Analog zum Forward - Algorithmus, jedoch statt Summe nur Betrachtung des optimalen Pfades:
c (0) = s (q)q
c ( j+1) = max c ( j) T p (x )q
l Al lq j+1q
Berechnung dieser Werte für alle q A und für j = 0 ... L liefert mit Back-Tracking den optimalen Pfad q ... q von Zuständen zur Erzeugung von X.
0 L
Laufzeit: L2 - Werte für alle L Zeichen berechnen
- Dabei für jeden Zustand q
ein Maximum über N Fälle bildenPlatzbedarf: N + L
N
Ein einfaches Modell für den Aufbau der DNA(Krogh et al.,1994)
Intergenetic
Start
Stop
Coding
Produzierte Basenoder Codons:
A, C, G, T
Start-CodonsATG oder GTG
Alle Codons außer den Stop-Codons
Stop-Codons TAA, TAG oder TGA
4 Zustände:
Verwendung zur Genvorhersagebei Escherichia Coli
Vorteil: Vorhersagen auch möglich, wenn mehrere / nur teilweise Gene in der Eingabe vorkommen
Für menschliche Gene Verfeinerung des Modellsnotwendig (Berücksichtigungdes Splicings)
Länge der einzelnen ZuständeState Length Distribution
Markov-Modell: Länge von Folgen des gleichen Zustandes geometrischverteilt.
ii iik-1
P(X = k ) = (1-T ) T
Für Introns tatsächlich annähernd geometrische Längenverteilung beobachtet (allerdings z.B. keine Introns mit weniger als 65 bp)
Bei Exons allerdings stark davon abweichende Beobachtungen:
Länge
Häufigkeit
Daher Übergang zum Hidden Semi-Markov-Modell
Hidden Semi-Markov-Modell
- Verallgemeinerung des Hidden Markov-Modells
- Für jeden Zustand gibt es eine Längenverteilung.
- Im Spezialfall der geometrischen Längenverteilung erhält man das bekannte Hidden Markov-Modell.
- Erzeugung von Sequenzen:
Wahl des Start-Zustandes mit s
Wahl eines neuen Zustandes q mit T(Wechseln oder Behalten des Würfels)
Erzeugen einer Zeichenkette der Länge l mit p (Würfeln)qq
Erzeugen der Länge l des Zustandesq- Problem: Laufzeit des Viterbi-Algorithmus erhöht sich auf
N L 2 3
Gen - Modell in GENSCAN
3´5´
Gen mit einem Exon auf dem + Strang
NN
5´UTR Exon 3´UTR Poly - APromoter
P+P+
N: intergenetisches Gebiet
F+F+ E +E +sngl T+T+
A+A+
NNP+P+
F+F+ E +E +sngl T+T+
A+A+
Gen - Modell in GENSCAN
E +E + E +E + E +E +210
I +I + I +I + I +I +210
E +E +init E +E +term
Erweiterung fürMulti-Exon-Gene:
Indizes geben an, nachwelcher Base im letzten Codon des Exons das Splicing erfolgtÜbergänge von jedem
Exon in jedes Intronmöglich, vom Intron nurin zugehöriges Exon
Gen - Modell in GENSCAN
NNP+P+
F+F+ E +E +sngl T+T+
A+A+
E +E + E +E + E +E +210
I +I + I +I + I +I +210
E +E +init E +E +term
P-P- A-A-
Für den komplementären Strang gibt es eine Kopie jedes Zustandes (außer N) mit umgekehrten Pfeilrichtungen
Zustände mit geometrischer Längenverteilung (Typ D) wechseln sich mit solchen mit anderer Verteilung (Typ C - in Kreisen dargestellt) ab.
Insgesamt: 27 Zustände
Mit dieser Information kann die Laufzeit quadratisch in der Länge der Eingabe gemacht werden.
Erzeugung der Sequenzen in GENSCAN
Bisher wurde noch nichts darüber ausgesagt, wie in den einzelnen Zuständen die zugehörigen Sequenzen erzeugt werden.
Die biologische Relevanz der Ergebnisse hängt in erster Linie von den hier verwendeten Modellen und v.a. der Qualität der einbezogenen Daten ab.
Erzeugung einer Datenbank (Learning Set L)
- Ausgangspunkt: Bestehende Datenbanken menschlicher Gene mit einem und mehreren Exons- Bereinigen der Daten (Entfernen von als unsicher eingestuften Abschnitten)- Entfernen aller Gene mit zu großer Übereinstimmung zum GeneParser-Tet-Set (Damit spätere Tests mit dem Test-Set aussagekräftig bleiben.)
Insgesamt 2,58 Mbp an Daten in L, verteilt auf 142 Single-Exon-und 238 Multi-Exon-Gene mit 1492 Exons und 1254 Introns.
- Hinzunahme weiterer Daten über Promoter - Daten über kodierende Region aus cDNA - Sequenzen
Erweitertes Learning Set mit 3195 kb
Typ D - Zustände (nichtkodierende Bereiche wie z.B. Intergenetische Region, 5´oder 3´UTR und Introns)
Typ C - Zustände (Exons, Promoter und Poly-A-Signal)
Modelle zur Erzeugung der Sequenzen
Homogenes Markov-Modell 5. Ordnung(d.h. der neue Zustand hängt nicht nur vom letzten Zustand,sondern von den letzten fünf ab.)
Inhomogenes 3-periodisches Markov-Modell 5. Ordnung
Der neue Zustand hängt ab von den fünf letzten Zuständen und der Position in der Sequenz modulo 3 ab. (Modellieren von Triplets, also Codons im Exon)
Es existieren verschiedene Modelle für E , E und E .10 2
Modellierung von Signalsequenzen
Transkriptionssignale: Promoter, Poly-A-SignalSplicing - Signale: Donor-, Acceptor splice sites
- Aufgrund der Bedeutung der Signale als Markierung für Zustandsüber- gänge gute Modellierung sehr wichtig.
- Schwierigkeiten der Modellierung durch:(1.) Kürze der Signalsequenzen (somit hohe Bedeutung einzelner Zeichen)
(2.) Hohe wechselseitige Abhängigkeit nicht nur zwischen benachbarten Zeichen
Vielzahl verschiedener Modelle für Signale
Modelle für Signale in Genen
Betrachtet werden biologische Signalsequenzen wie z.B. Donor und Acceptor splice sites, Promoter oder Enhancer.
Einfachstes Modell: Weight Matrix Method (WMM)(Staden 1984)
Ausgangspunkt ist ein multiples Alignment von Signalsequenzen:
CAGGTAAGTCACGTTAGTACGGTATGTCGGGTAAAT---------CAGGTAAGT
Die relativen Häufigkeiten p der Basen j an der Stelle i bilden die (Position) Weight Matrix.
Das Produkt p dient als Schätzwert für die
Wahrscheinlichkeit der Erzeugung der SequenzX = x ... x .
(i)j
1 n
i = 1
n (i)xi
Zeichen der Sequenz werden als unabhängig angesehen.
Verallgemeinerung: Weight Array Method (WAM)
Übergang zu bedingten Wahrscheinlichkeiten für ein Nukleotid abhängig vom Vorgänger im String:
Erhalten dieser Koeffizienten durch die bedingten Häufigkeiten im multiplen Alignment
Verallgemeinern auf höhere Ordnungen möglich
Problem: Häufig nicht genügend Daten zur Berechnung vorhanden
Die Wahrscheinlichkeit zum Erzeugen von ist damitX = x ... x1 n
p (i-1, i)x , xi-1 i
p(X) = p x1
(1) .i=2
n
wobei die bedingte Wahrscheinlichkeit für Nukleotid x an der Stelle i unter der Voraussetzung von Nukleotid x an der Stelle i-1 bezeichnet
p (i-1, i)x , xi-1 i
i
i-1
Maximal Dependence Decomposition (MDD)Mit GENSCAN neu eingeführtes Signalmodell
Gegeben: multiples Alignment A von M Signalsequenzen der Länge k (M > 1000)
(1.) Bilden des Consensus-Pattern
(2.) Betrachte folgende ZufallsvariablenX : Nukleotid an Stelle j (A = 0, C = 1, G = 2, U = 3)C = 1, falls Nukleotid an Stelle i dem Consensus entspricht, 0 sonst
j
i
Keine signifikante Abhängigkeit Benutze WMM
Abhängigkeit zwischen benachbarten Positionen
Benutze WAM
Abhängigkeit nicht nur zwischen benachbarten Positionen
Benutze MDD
(3.) Untersuche die Abhängigkeit zwischen X und C mit Hilfe der - Statistik (Methode zum Test zweier Zufallsvariablen auf statistische Unabhängigkeit) Man errechnet dabei für alle i j den Wert (C , X ) und erhält eine k k - Tabelle. (C , X ) > Schranke X von C abhängig
2ij
ji2
x 2i j j i
(1.) Berechne für alle i die Summe S = (C , X )
(Zeilensumme in der oben erstellten Tabelle) Maß für die Abhängigkeit aller weiteren Stellen von Stelle i
j = 1
k2
jii
(2.) Wähle Wert i so, dass S maximal ist (Stelle, von der die meisten anderen
Stellen abhängen, Maximal Dependence).
Zerlege die Menge A in die Teilmengen A (alle Sequenzen mit dem
Consensus-Symbol an Stelle i) sowie A (alle übrigen Sequenzen)
0 i0
1
2
Ergebnis: Baumstruktur
(3.) Wende auf die so erhaltenen Mengen rekursiv wieder die Punkte 1 und 2 an. (Berechnung der - Werte, Zeilensummen, weitere Zerlegung der Mengen)
Falls eine Teilmenge zu klein wird (weniger als 175 Sequenzen), rechne nur mit der übrigen weiter.
2
Maximal Dependence Decomposition
Beispiel:Alle Sequenzen (z.B. 1200)
G Stelle 4
- - - G (1100)
A, C, T
- - - [A|C|T](100)
Weniger als 175 WAMStelle 1
A - - G (600)
AC, G, T
[C|G|T] - - G (500)
... ...
Erzeugen einer Sequenz: Ablaufen eines Pfades, im Blatt evtl.noch anderes Modell (WAM oder WMM) anwenden
Consensus: ATCG
Maximal Dependence Decomposition
Sequenzen auf dem komplementären Strang
Die Hälfte des Zustandsmodells (mit - gekennzeichnete Zustände) bezieht sich auf den zur Eingabesequenz komplementären Strang.
Zur Erzeugung der entsprechenden Sequenzen:
(1.) Erzeugen der Sequenz für den korrespondierenden Zustand auf dem + Strang
(2.) Bilden des inversen Komplements dieser Sequenz
Beispiel: Stop-Codon
TAGKomplement
ATCRichtung
umkehrenCTA
Also: Wahrscheinlichkeit für CTA auf - Strang = Wahrscheinlichkeit für TAG auf + Strang im entspr. Zustand
Qualität der Ergebnisse
Übliche Maße für die Genauigkeit einer solchen Methode (auf Ebene derNukleotide):
Sensitivity: Sn = True Positives / Actual Positives
Specificity: Sp = True Positives / Predicted Positives
Vergleich der Genauigkeit der Ergebnisse mit einer Reihe weiterer Programme anhand des Burset/Guigó - Test-Set.
(Dieses besteht aus 570 Wirbeltiergenen mit bekannter Struktur.)
Actual Positive - Nukleotid liegt in kodierendem Gebiet
Predicted Positive - Programm sagt für das Nukleotid kodierendes Gebiet voraus
True Positive = Actual Positive und Predicted Positive
False Positive = Predicted Positive, aber nicht Actual Positive
0
0,2
0,4
0,6
0,8
1
Sn Sp
GENSCAN FGENEH GeneID
Genie GenLang GeneParser2
GRAIL2 GenParser3 GeneID+
Vergleich mit weiteren Programmen
GeneParser3 und GeneID+ nutzen neben der Eingabesequenzauch Proteinhomologie-Informationen
GENSCAN überschreitet auch ohne diese Informationen die 90%-Marke
Vergleich mit weiteren Programmen
0
0,2
0,4
0,6
0,8
1
Sn Sp Avg. ME WE
GENSCAN FGENEH GeneID
Genie GenParser3 GeneID+
Ermitteln der Werte auf Ebene der Exons(True Positive = Exonbeginn und -ende exakt gefunden)
Missed Exons (ME) - Vorhandene Exons, die nicht mit einem vorhergesagten überlappenWrong Exons (WE) - Vorhergesagte Exons, die nicht mit einem vorhandenen überlappen
Abhängigkeit vom CG-Content der Eingabesequenz
0
0,2
0,4
0,6
0,8
1
Snpro
Nukl.
Sppro
Nukl.
Snpro
Exon
Sppro
Exon
ME WE
CG < 40% CG 40-50% CG 50-60% CG > 60%
Unterteilung des Burset/Guigó - Test-Sets nach CG-Content
Abhängigkeit vom CG-Content geringer als die Differenzen zwischen den verschiedenen Programmen
Praktische Bedeutung der Forward-Backward-Probability
Ermittlung der Forward-Backward-Probability p für 2678Exons des Test Sets
0.99 < p 971 98 %
0,95 < p <= 0,99 551 92 %
0,90 < p <= 0,95 263 88 %
0,75 < p <= 0,90 337 75 %
0,50 < p <= 0,75 362 54 %
0 <= p < 0,5 248 30 %
Anzahlder Exons
davon exakt richtigF-B-Probability
Hohe Forward-Backward-Probability und damit hoher Score-Wert kann als Maß für die Genauig-keit der vorhergesagten Exons genutzt werden.
Praktische Anwendung von GENSCAN
Organismus:- Vertebrate- Human- Maize
Schranke für die AusgabesuboptimalerExons
Ausgabe-optionen Sequenzeingabe
als Datei oderCut & Paste
GENSCAN Webserver: http://genes.mit.edu/GENSCAN.html
Mail-Server: [email protected]
Praktische Anwendung von GENSCAN
C+G - Content
Zugehörige Peptid-Sequenzen
Score (aus Forward-Backward-Probability)
Lage in der DNA-Sequenz
Typ des Genabschnitts (Initial, internal, terminal exon etc.)
DNA-Strang
Zusammenfassung
Vorteile des Ansatzes von GENSCAN:
- Verarbeitung von Eingabesequenzen mit mehreren oder nur teilweise vorhandenen Genen möglich
- Beachtung auch des komplementären Stranges
- Erzeugung der Sequenz nach empirisch gewonnenen Modellparametern
- Berücksichtigung des CG-Contents zur Auswahl der Sequenzwahrschein- lichkeiten
- Verbesserung des Signalmodells gegenüber vorherigen Programmen (Maximal Dependence Decomposition)
- Anhand der Forward-Backward-Probability kann die Güte der Vorhersage abgeschätzt werden.
Nicht berücksichtigt werden:
- Gene, die keine Proteine (sondern z.B. tRNA oder rRNA) kodieren
- Überlappende Gene
- Introns außerhalb der Übersetzungseinheiten (z.B. in den 3´ oder 5´ UTRs)
- Bestimmte regulatorische Elemente (Enhancer etc.)
- Zu alternativem Splicing gehörende Signale
Zusammenfassung
QuellenVeröffentlichungen:
(1.) Chris Burge and Samuel Karlin Prediction of Complete Gene Structures in Human Genome DNA (1997) J. Mol. Biol. 268, 78-94 (2.) Chris Burge Identification of complete gene structures in human gemonic DNA (1997) PhD thesis. Stanford University (3.) James W. Fickett The gene identification problem: An overview for developers
GENSCAN - Webserver am MIT: http://genes.mit.edu/GENSCAN.html