Click here to load reader
View
213
Download
0
Embed Size (px)
Vortrag zum SeminarAktuelle Themen der BioinformatikIdentifying Conserved Gene Clusters in the Presence of Homology FamiliesVon Florian Rrsch
InhaltEinleitungVom Wolf zum Gen-ClusterWissenschaftlicher NutzenModellbildungDer AlgorithmusLaufzeit und SpeicherplatzbedarfErgebnisse mit realen DatenInterpretation der ErgebnisseEine ImplementierungStatistische Signifikanz der ErgebnisseThemenverwandte Arbeiten
EinleitungIdentifying Conserved Gene Clusters in the Presence of Homology Families
Conserve = Konservieren, erhalten, bewahrenGen Cluster = Haufen, GruppierungHomology Familie = Gruppe von Genen mit gleicher Abstammung / hnlicher Funktion / hnlicher Struktur
Vom Wolf zum Gen-ClusterWas bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung aus biologischer Sicht?
Vom Wolf zum Gen-ClusterWas bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung?1. -> Steigerung der Transkriptionsgeschwindigkeit-> Effizienzgewinn -> Evolutionrer Vorteil2. -> Qualittssicherung
Wissenschaftlicher NutzenRekonstruktion der evolutionren GeschichteErforschung der Frage, ob aus der Genposition die Genfunktion abgeleitet werden kannWichtige Zielgruppen: Medizin, Pharmazie und Chemie
ModellbildungWahl der Gene eingeschrnkt auf Homologe-> unrelevante Genomabschnitte blasen die Algorithmenlaufzeit nicht unntig auf-> Cluster werden auf Basis von Homologen Beziehungen gefunden
Modellbildung (1)Definition eines Chromosoms: C = (, X) = Set (Menge) von homologen FamilienX = Geordnete Menge von Genen
Definition eines Gens:g = (p, f)p = Physikalische Position des Gens auf dem Chromosomf ( ) = Homologie-Familie, zu der das Gen gehrt
Modellbildung (2)Definition einer Subsequenz: Gegeben C= (, X), nennt man ein Paar ((X), X),wobei X X, eine Subsequenz
Definition eines Subchromosoms:C = (, X), falls X eine fortlaufende Teilmenge von X ist = Teilmenge der homologen FamilienX = Teilmenge der Gene
Modellbildung (3) Definition von Benachbarten Genen:Gegeben: 2 Gene gi, gj und Parameter gi, gj heien benachbart, wenn (gi, gj) < , fr einen Parameter > 0 = Anzahl unwichtiger Gene zwischen 2 Interessanten = Gaps
Modellbildung (3) Definition von Benachbarten Genen:Gegeben: 2 Gene gi, gj und Parameter gi, gj heien benachbart, wenn (gi, gj) , fr einen Parameter > 0 = Anzahl unwichtiger Gene zwischen 2 Interessanten
Definition eines -runs:C ist ein -run, wenn es in Bezug auf alle relevanten Gene eine maximale -Subsequenz ist
Modellbildung (4)Definition einer -chain: Gegeben ein Chromosom C = (, X), nennt man eine -chain, falls es eine -Subsequenz C gibt, so dass = (C) gilt. C bezeugt dann eine solche -chain.
Durch die Definition einer -chain wird versucht Abstand von der Definition eines Chromosoms durch Gene zu gewinnen und zu einer Definition des Chromosoms durch Homologe Familien zu gelangen.
Modellbildung (4)Definition einer -chain: Gruppen von homologen Familien, bei denen die darunter liegenden Gene die Delta-Regel erfllen.
Durch die Definition einer -chain wird versucht Abstand von der Definition eines Chromosoms durch Gene zu gewinnen und zu einer Definition des Chromosoms durch Homologe Familien zu gelangen.
Modellbildung (4)Definition eines -sets: Wenn ein Set (Menge) von Homologen Familien fr 2 (!!) Chromosome C und D ist, dann ist ein -set von C und D, wenn eine -chain von sowohl C, als auch D ist.
Modellbildung (4)Definition eines -sets: Wenn ein Set (Menge) von Homologen Familien fr 2 (!!) Chromosome C und D ist, dann ist ein -set von C und D, wenn eine -chain von sowohl C, als auch D ist.
Definition eines -teams:Ein -team ist ein maximales -set.
Der Algorithmus (1)Eingabe: 2 Chromosomen C und D
Der Algorithmus (1)Eingabe: 2 Chromosomen C und DDaraus resultierend: Das Alphabet (Die Menge der Homologie-Familien)Die Anzahl der Gene beider Chromosomen - m (fr C) und n (fr D) genannt. Nur relevante Gene werden gelistet.
Der Algorithmus (2)FINDTEAMS(C,D)//Globale Daten initialisierenglobaltime = 0For each f in stamp[f] = 0tempmarkf] = 0//Chromosom C in seine -runs zerlegenlocaltime = MARKCOMMONALPHABET(C,D)Crest = CrepeatCfirst = FINDFIRSTRUN(Crest,localtime)Crest = Crest CfirstFINDTEAMSRECURSE(B, Cfirst)until (Crest = )
Der Algorithmus (3)MARKCOMMONALPHABET(A,B)globaltime = globaltime + 1for each g in Asei f die Homologie-Familie von gtempmark[f] = globaltimeFor each g in Bsei f die Homologie-Familie von gif tempmark[f] = globaltime thenstamp[f] = globaltimeReturn globaltime
Der Algorithmus (4)FINDFIRSTRUN(A,timestamp)endrun = das 1. Gen in A mit stamp[f] >= timestampnextgene = das Gen in A nach endrunwhile(nextgene wohldefiniert und (endrun,nextgene) ) do Sei f die Homologie-Familie von nextgene //Wenn nextgene in common family ist, erweitere den run endrun = nextgene nextgene =das Gen in A nach nextgenReturn das Unterchromosom bis endrun (inklusive)
Der Algorithmus (5)FINDTEAMSRECURSE(A,B)localtime = MARKCOMMONALPHABET(A,B)Afirst = FINDFIRSTRUN(A,localtime)Arest = A - Afirstif Arest = thenREPORTTEAM(A,B)else repeatFINDTEAMSRECURSE(B,Afirst)Afirst = FINDFIRSTRUN(Arest,localtime)Arest = Arest - Afirstuntil (Arest = )FINDTEAMSRECURSE(B,Afirst)
Laufzeit und SpeicherplatzbedarfLaufzeit: = O(n+m)Speicherplatzbedarf O(n+m)
Damit der Speicherplatz linear bleibt muss explizit darauf geachtet werden, dass die Subprobleme whrend den Rekursionen nicht mehrmals abgearbeitet werdenKeine groen versteckten FaktorenLeider nicht sehr effizient bei Multigenomvergleichen
Ergebnisse mit realen Daten (1)- DatenwahlVersuch mit 2 prokaryotischen Genomen: E. Coli K12 und B. subtilisIn Schritt 1 wurden die orthologen Beziehungen gesucht -> Datenbank (NCBI)Die Proteine in den heruntergeladenen Dateien enthalten schon eine so genannten COG-NummerCOG = Cluster of orthologues Groups = Homologie-FamilieDie Datenbank enthlt zur Zeit ber 4800 COGs (identifiziert aus 43 kompletten Genomen)In Schritt 2 wurde der Algorithmus angewandt um alle -teams zu identifizieren
Ergebnisse mit realen Daten (2)- Datenwahl
Zeigt das prozentuale Verhltnis zwischen Genen, die zu einem COG gehren, allen Genen und solchen die zu einem COG gehren, welcher in beiden Genomen vorkommt
Ergebnisse mit realen Daten (3)- Datenwahl
Ergebnisse mit realen Daten (4)- DatenwahlWahl des -Parameters nicht so einfachBei zu groer Wahl zu viele Falsch-PositiveBei zu kleiner Wahl werden nicht alle Cluster gefunden
Ergebnisse mit realen Daten (5)- Datenwahl-Parameter wurde gebenchmarkt Bestimmung ber 4 bekannte Cluster:Ribosomalen Protein ClusterATP Synthase OperonTryptophan Biosynthese OperonABC Ribose-Transport OperonDie meisten Cluster konnten bei = 1900 bp rekonstruiert werden (150 Stck)
Ergebnisse mit realen Daten (5)Diese 150 identifizierten Teams (Cluster) wurden mit real bekannten Operonen (Cluster) verglichenRibosomale Teams und Teams der Kardinalitt 2 wurde nicht weiter betrachtet (biologisch uninteressant)Einteilung in 4 Gruppen: Exakte bereinstimmung mit einem bekannten OperonTeilweise bereinstimmungSolche, die vorhergesagte Operone treffenKeine bereinstimmung mit Operonen
Interpretation der ErgebnisseDie 10 exakten bereinstimmungen enthalten sehr zentrale Cluster (z.B. ATP Synthase) Ergebnisse der 2. Gruppe interessant:1. Mglichkeit: Fehlende oder falsche Zuordnungen von Genen zu COGs2. Mglichkeit: -Wert zu klein gewhlt3. Mglichkeit: Einige Operone sind nicht in beiden Organismen konserviert4. Mglichkeit: Zugeordnete Gene knnten noch nicht als zugehrig (zum Operon) entdeckt worden sein
Eine ImplementierungVorstellung einer Implementierung des Algorithmus, umgesetzt durch Michael GoldwasserVerwendet C++Kann frei ber die Internetseite http://euler.slu.edu/~goldwasser/homologyteams/ heruntergeladen werden
Statistische Signifikanz der ErgebnisseZiel: Ausschlieen der Null-Hypothese
n = Anzahl der Gene im Genom / Chromosomk = Anzahl der relevanten Gene, die einen Cluster bildend = Anzahl der irrelevanten Gene, die zwischen zwei relevanten Genen stehen drfen
Statistische Signifikanz der Ergebnisse (2)n! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren=> k! Permutationen k Gene anzuordnen
Statistische Signifikanz der Ergebnisse (2)n! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren=> k! Permutationen k Gene anzuordnen2. Anzahl Lcken im Cluster = i0 i (k-1)*d
Statistische Signifikanz der Ergebnisse (2)n! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren=> k! Permutationen k Gene anzuordnen
Anzahl Lcken im Cluster = i0 i (k-1)*dBsp: d = 2, k = 5i = 0 ergibt sich, wenn keine Lcken auftreteni = 8 ergibt sich, wenn zwischen 2 relevanten Genen immer genau d irrelevante Gene liegen
Statistische Signifikanz der Ergebnisse (3)- Anzahl Mglichkeiten einen k-Cluster mit i Lcken zu generieren sei s(k,d,i)- Fr s(k,d,i) gibt es keine einfache geschlossene Formel
Statistische Signifikanz der Ergebnisse (3)- Anzahl Mglichkeiten einen k-Cluster mit i Lcken zu generieren sei s(k,d,i)- Fr s(k,d,i) gibt es keine einfache geschlossene Formel
3. Der komplette Cluster wird im Genom plaziert- Gre des Clusters: k+i=> n-(k+i)+1 Mglichkeiten
Statistische Signifikanz der Ergebnisse (3)- Anzahl Mglichkeiten einen k-Cluster mit i Lcken zu generieren sei s(k,d,i)- Fr s(k,d,i) gibt es keine einfache geschlossene Formel
3. Der komplette Cluster wird im G