Transcript
Page 1: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Vortrag zum SeminarVortrag zum Seminar„„Aktuelle Themen der Aktuelle Themen der

Bioinformatik“Bioinformatik“

Identifying Conserved Gene Identifying Conserved Gene Clusters in the Presence of Clusters in the Presence of

Homology FamiliesHomology Families

Von Florian RörschVon Florian Rörsch

Page 2: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

InhaltInhalt EinleitungEinleitung Vom Wolf zum Gen-ClusterVom Wolf zum Gen-Cluster Wissenschaftlicher NutzenWissenschaftlicher Nutzen ModellbildungModellbildung Der AlgorithmusDer Algorithmus Laufzeit und SpeicherplatzbedarfLaufzeit und Speicherplatzbedarf Ergebnisse mit realen DatenErgebnisse mit realen Daten Interpretation der ErgebnisseInterpretation der Ergebnisse Eine ImplementierungEine Implementierung Statistische Signifikanz der ErgebnisseStatistische Signifikanz der Ergebnisse Themenverwandte ArbeitenThemenverwandte Arbeiten

Page 3: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

EinleitungEinleitung „„Identifying Identifying Conserved Gene ClustersConserved Gene Clusters

in the Presence of in the Presence of Homology FamiliesHomology Families““

„„ConserveConserve“ = Konservieren, erhalten, “ = Konservieren, erhalten, bewahrenbewahren

„„Gen ClusterGen Cluster“ = Haufen, Gruppierung“ = Haufen, Gruppierung „„Homology FamilieHomology Familie“ = Gruppe von “ = Gruppe von

Genen mit gleicher Abstammung / Genen mit gleicher Abstammung / ähnlicher Funktion / ähnlicher Strukturähnlicher Funktion / ähnlicher Struktur

Page 4: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Vom Wolf zum Gen-Vom Wolf zum Gen-ClusterCluster

Was bringt Gen-Clustering im Was bringt Gen-Clustering im Gegensatz zur randomisierten Gegensatz zur randomisierten Verteilung aus biologischer Sicht?Verteilung aus biologischer Sicht?

Page 5: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Vom Wolf zum Gen-Vom Wolf zum Gen-ClusterCluster

Was bringt Gen-Clustering im Was bringt Gen-Clustering im Gegensatz zur randomisierten Gegensatz zur randomisierten Verteilung?Verteilung?

1. -> Steigerung der 1. -> Steigerung der TranskriptionsgeschwindigkeitTranskriptionsgeschwindigkeit

-> Effizienzgewinn -> Evolutionärer -> Effizienzgewinn -> Evolutionärer VorteilVorteil

2. -> Qualitätssicherung2. -> Qualitätssicherung

Page 6: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Wissenschaftlicher Wissenschaftlicher NutzenNutzen

Rekonstruktion der evolutionären Rekonstruktion der evolutionären GeschichteGeschichte

Erforschung der Frage, ob aus der Erforschung der Frage, ob aus der Genposition die Genfunktion Genposition die Genfunktion abgeleitet werden kannabgeleitet werden kann

Wichtige Zielgruppen: Medizin, Wichtige Zielgruppen: Medizin, Pharmazie und ChemiePharmazie und Chemie

Page 7: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

ModellbildungModellbildung Wahl der Gene eingeschränkt auf Wahl der Gene eingeschränkt auf

HomologeHomologe-> unrelevante Genomabschnitte -> unrelevante Genomabschnitte

blasen die Algorithmenlaufzeit nicht blasen die Algorithmenlaufzeit nicht unnötig aufunnötig auf

-> Cluster werden auf Basis von -> Cluster werden auf Basis von Homologen Beziehungen gefundenHomologen Beziehungen gefunden

Page 8: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Modellbildung (1)Modellbildung (1) Definition eines „Definition eines „ChromosomsChromosoms“: “: CC = ( = (ΣΣ, X) , X) ΣΣ = Set (Menge) von homologen Familien = Set (Menge) von homologen FamilienXX = Geordnete Menge von Genen = Geordnete Menge von Genen

Definition eines „Definition eines „GensGens“:“:gg = (p, f) = (p, f)pp = Physikalische Position des Gens auf dem = Physikalische Position des Gens auf dem

ChromosomChromosomff ( (∈∈ ΣΣ) = Homologie-Familie, zu der das Gen ) = Homologie-Familie, zu der das Gen

gehörtgehört

Page 9: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Modellbildung (2)Modellbildung (2) Definition einer „Definition einer „SubsequenzSubsequenz“: “: Gegeben C= (Gegeben C= (ΣΣ, X), nennt man ein Paar , X), nennt man ein Paar

((ΣΣ(X‘), X‘),(X‘), X‘),wobei X‘ wobei X‘ ≤≤ X, eine X, eine SubsequenzSubsequenz

Definition eines „Definition eines „SubchromosomsSubchromosoms“:“:C‘ = (C‘ = (ΣΣ‘, X‘)‘, X‘), falls X‘ eine fortlaufende , falls X‘ eine fortlaufende

Teilmenge von X istTeilmenge von X istΣΣ‘‘ = Teilmenge der homologen Familien = Teilmenge der homologen FamilienX‘X‘ = Teilmenge der Gene = Teilmenge der Gene

Page 10: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Modellbildung (3)Modellbildung (3) Definition von „Definition von „Benachbarten GenenBenachbarten Genen“:“:Gegeben: 2 Gene gGegeben: 2 Gene gii, g, gjj und Parameter und Parameter δδggi, i, ggjj heißen benachbart, wenn heißen benachbart, wenn ΔΔ(g(gii, g, gjj) ) << δδ, , für einen Parameter für einen Parameter δδ > 0 > 0δδ = Anzahl „unwichtiger“ Gene zwischen 2 = Anzahl „unwichtiger“ Gene zwischen 2 „Interessanten“ = Gaps„Interessanten“ = Gaps

Page 11: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Modellbildung (3)Modellbildung (3) Definition von „Definition von „Benachbarten GenenBenachbarten Genen“:“:Gegeben: 2 Gene gGegeben: 2 Gene gii, g, gjj und Parameter und Parameter δδggi, i, ggjj heißen benachbart, wenn heißen benachbart, wenn ΔΔ(g(gii, g, gjj) ) ≤≤ δδ, für , für einen Parameter einen Parameter δδ > 0 > 0δδ = Anzahl „unwichtiger“ Gene zwischen 2 = Anzahl „unwichtiger“ Gene zwischen 2 „Interessanten“„Interessanten“

Definition eines „Definition eines „δδ-runs-runs“:“:C‘ ist ein C‘ ist ein δδ-run, wenn es in Bezug auf alle -run, wenn es in Bezug auf alle relevanten Gene eine maximale relevanten Gene eine maximale δδ-Subsequenz -Subsequenz istist

Page 12: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Modellbildung (4)Modellbildung (4)Definition einer „Definition einer „δδ-chain-chain“: “: Gruppen von homologen Familien, bei Gruppen von homologen Familien, bei denen die darunter liegenden Gene die denen die darunter liegenden Gene die Delta-Regel erfüllen.Delta-Regel erfüllen.

Durch die Definition einer δ-chain wird Durch die Definition einer δ-chain wird versucht Abstand von der Definition eines versucht Abstand von der Definition eines Chromosoms durch Gene zu gewinnen Chromosoms durch Gene zu gewinnen und zu einer Definition des Chromosoms und zu einer Definition des Chromosoms durch Homologe Familien zu gelangen.durch Homologe Familien zu gelangen.

Page 13: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Modellbildung (4)Modellbildung (4)Definition eines „Definition eines „δδ-sets-sets“: “: Wenn Wenn ΣΣ ein Set (Menge) von Homologen ein Set (Menge) von Homologen Familien für Familien für 2 (!!) Chromosome C und D ist, dann ist 2 (!!) Chromosome C und D ist, dann ist ΣΣ‘ ‘ ⊆ ⊆ ΣΣ ein ein δδ-set von C und D, wenn -set von C und D, wenn ΣΣ‘ eine ‘ eine δδ--chain von sowohl C, als auch D ist.chain von sowohl C, als auch D ist.

Page 14: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Modellbildung (4)Modellbildung (4)Definition eines „Definition eines „δδ-sets-sets“: “: Wenn Wenn ΣΣ ein Set (Menge) von Homologen ein Set (Menge) von Homologen Familien für Familien für 2 (!!) Chromosome C und D ist, dann ist 2 (!!) Chromosome C und D ist, dann ist ΣΣ‘ ‘ ⊆ ⊆ ΣΣ ein ein δδ-set von C und D, wenn -set von C und D, wenn ΣΣ‘ eine ‘ eine δδ--chain von sowohl C, als auch D ist.chain von sowohl C, als auch D ist.

Definition eines „Definition eines „δδ-teams-teams“:“:Ein Ein δδ-team -team ist ein maximales ist ein maximales δδ-set.-set.

Page 15: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Der Algorithmus (1)Der Algorithmus (1) Eingabe: 2 Chromosomen C und DEingabe: 2 Chromosomen C und D

Page 16: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Der Algorithmus (1)Der Algorithmus (1) Eingabe: 2 Chromosomen C und DEingabe: 2 Chromosomen C und D Daraus resultierend: Daraus resultierend: - Das Alphabet Das Alphabet ΣΣ (Die Menge der (Die Menge der

Homologie-Familien)Homologie-Familien)- Die Anzahl der Gene beider Die Anzahl der Gene beider

Chromosomen - m (für C) und n (für Chromosomen - m (für C) und n (für D) genannt. Nur relevante Gene D) genannt. Nur relevante Gene werden gelistet.werden gelistet.

Page 17: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Der Algorithmus (2)Der Algorithmus (2)FINDTEAMS(C,D)FINDTEAMS(C,D)//Globale Daten initialisieren//Globale Daten initialisierenglobaltime = 0globaltime = 0For each f in For each f in ΣΣ

stamp[f] = 0stamp[f] = 0tempmarkf] = 0tempmarkf] = 0

//Chromosom C in seine //Chromosom C in seine δδ-runs zerlegen-runs zerlegenlocaltime = localtime = MARKCOMMONALPHABET(C,D)MARKCOMMONALPHABET(C,D)Crest = CCrest = Crepeatrepeat

Cfirst = Cfirst = FINDFIRSTRUN(Crest,localtime)FINDFIRSTRUN(Crest,localtime)Crest = Crest – CfirstCrest = Crest – CfirstFINDTEAMSRECURSE(B, Cfirst)FINDTEAMSRECURSE(B, Cfirst)

until (Crest = until (Crest = Ø Ø))

Page 18: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Der Algorithmus (3)Der Algorithmus (3)MARKCOMMONALPHABET(A,B)MARKCOMMONALPHABET(A,B)globaltime = globaltime + 1globaltime = globaltime + 1for each g in Afor each g in A

sei f die Homologie-Familie von gsei f die Homologie-Familie von gtempmark[f] = globaltimetempmark[f] = globaltime

For each g in BFor each g in Bsei f die Homologie-Familie von gsei f die Homologie-Familie von gif tempmark[f] = globaltime thenif tempmark[f] = globaltime then

stamp[f] = globaltimestamp[f] = globaltimeReturn globaltimeReturn globaltime

Page 19: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Der Algorithmus (4)Der Algorithmus (4)FINDFIRSTRUN(A,timestamp)FINDFIRSTRUN(A,timestamp)endrun = das 1. Gen in A mit stamp[f] >= timestampendrun = das 1. Gen in A mit stamp[f] >= timestampnextgene = das Gen in A nach endrunnextgene = das Gen in A nach endrunwhile(nextgene wohldefiniert und while(nextgene wohldefiniert und

ΔΔ(endrun,nextgene) ≤ (endrun,nextgene) ≤ δδ) do) do Sei f die Homologie-Familie von nextgeneSei f die Homologie-Familie von nextgene //Wenn nextgene in common family ist, //Wenn nextgene in common family ist,

erweitere den runerweitere den run endrun = nextgeneendrun = nextgene nextgene =das Gen in A nach nextgennextgene =das Gen in A nach nextgenReturn das Unterchromosom bis endrun (inklusive)Return das Unterchromosom bis endrun (inklusive)

Page 20: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Der Algorithmus (5)Der Algorithmus (5)FINDTEAMSRECURSE(A,B)FINDTEAMSRECURSE(A,B)localtime = localtime = MARKCOMMONALPHABET(A,B)MARKCOMMONALPHABET(A,B)Afirst = Afirst = FINDFIRSTRUN(A,localtime)FINDFIRSTRUN(A,localtime)Arest = A - AfirstArest = A - Afirstif Arest = if Arest = Ø thenØ then

REPORTTEAM(A,B)REPORTTEAM(A,B)else else

repeatrepeat

FINDTEAMSRECURSE(B,Afirst)FINDTEAMSRECURSE(B,Afirst)Afirst = Afirst =

FINDFIRSTRUN(Arest,localtime)FINDFIRSTRUN(Arest,localtime)Arest = Arest - AfirstArest = Arest - Afirst

until (Arest = Ø)until (Arest = Ø)FINDTEAMSRECURSE(B,Afirst)FINDTEAMSRECURSE(B,Afirst)

Page 21: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Laufzeit und Laufzeit und SpeicherplatzbedarfSpeicherplatzbedarf

Laufzeit: = O(n+m)Laufzeit: = O(n+m) Speicherplatzbedarf O(n+m)Speicherplatzbedarf O(n+m)

Damit der Speicherplatz linear bleibt muss Damit der Speicherplatz linear bleibt muss explizit darauf geachtet werden, dass die explizit darauf geachtet werden, dass die Subprobleme während den Rekursionen nicht Subprobleme während den Rekursionen nicht mehrmals abgearbeitet werdenmehrmals abgearbeitet werden

Keine großen versteckten FaktorenKeine großen versteckten Faktoren Leider nicht sehr effizient bei Leider nicht sehr effizient bei

MultigenomvergleichenMultigenomvergleichen

Page 22: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Ergebnisse mit realen Ergebnisse mit realen Daten (1)Daten (1)

- Datenwahl- Datenwahl Versuch mit 2 prokaryotischen Genomen: Versuch mit 2 prokaryotischen Genomen:

E. Coli K12 E. Coli K12 und und B. subtilisB. subtilis In Schritt 1 wurden die orthologen In Schritt 1 wurden die orthologen

Beziehungen gesucht -> Datenbank (NCBI)Beziehungen gesucht -> Datenbank (NCBI) Die Proteine in den heruntergeladenen Dateien Die Proteine in den heruntergeladenen Dateien

enthalten schon eine so genannten COG-enthalten schon eine so genannten COG-NummerNummer

COG = Cluster of orthologues Groups = COG = Cluster of orthologues Groups = Homologie-FamilieHomologie-Familie

Die Datenbank enthält zur Zeit über 4800 COGs Die Datenbank enthält zur Zeit über 4800 COGs (identifiziert aus 43 kompletten Genomen)(identifiziert aus 43 kompletten Genomen)

In Schritt 2 wurde der Algorithmus In Schritt 2 wurde der Algorithmus angewandt um alle angewandt um alle δδ-teams zu identifizieren-teams zu identifizieren

Page 23: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Zeigt das prozentuale Verhältnis Zeigt das prozentuale Verhältnis zwischen Genen, die zu einem COG zwischen Genen, die zu einem COG gehören, allen Genen und solchen die zu gehören, allen Genen und solchen die zu einem COG gehören, welcher in beiden einem COG gehören, welcher in beiden Genomen vorkommtGenomen vorkommt

Ergebnisse mit realen Ergebnisse mit realen Daten (2)Daten (2)

- Datenwahl- Datenwahl

Page 24: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Ergebnisse mit realen Ergebnisse mit realen Daten (3)Daten (3)

- Datenwahl- Datenwahl

Page 25: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Ergebnisse mit realen Ergebnisse mit realen Daten (4)Daten (4)

- Datenwahl- Datenwahl Wahl des Wahl des δδ-Parameters nicht so -Parameters nicht so

einfacheinfach Bei zu großer Wahl zu viele Falsch-Bei zu großer Wahl zu viele Falsch-

PositivePositive Bei zu kleiner Wahl werden nicht alle Bei zu kleiner Wahl werden nicht alle

Cluster gefundenCluster gefunden

Page 26: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Ergebnisse mit realen Ergebnisse mit realen Daten (5)Daten (5)

- Datenwahl- Datenwahl δδ-Parameter wurde „gebenchmarkt“-Parameter wurde „gebenchmarkt“ Bestimmung über 4 bekannte Cluster:Bestimmung über 4 bekannte Cluster:

Ribosomalen Protein ClusterRibosomalen Protein Cluster ATP Synthase OperonATP Synthase Operon Tryptophan Biosynthese OperonTryptophan Biosynthese Operon ABC Ribose-Transport OperonABC Ribose-Transport Operon

Die meisten Cluster konnten bei Die meisten Cluster konnten bei δδ = = 1900 bp rekonstruiert werden (150 1900 bp rekonstruiert werden (150 Stück)Stück)

Page 27: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Ergebnisse mit realen Ergebnisse mit realen Daten (5)Daten (5)

Diese 150 identifizierten Teams (Cluster) wurden Diese 150 identifizierten Teams (Cluster) wurden mit real bekannten Operonen (Cluster) verglichenmit real bekannten Operonen (Cluster) verglichen

Ribosomale Teams und Teams der Kardinalität 2 Ribosomale Teams und Teams der Kardinalität 2 wurde nicht weiter betrachtet (biologisch wurde nicht weiter betrachtet (biologisch uninteressant)uninteressant)

Einteilung in 4 Gruppen: Einteilung in 4 Gruppen: Exakte Übereinstimmung mit einem bekannten OperonExakte Übereinstimmung mit einem bekannten Operon Teilweise ÜbereinstimmungTeilweise Übereinstimmung Solche, die vorhergesagte Operone treffenSolche, die vorhergesagte Operone treffen Keine Übereinstimmung mit OperonenKeine Übereinstimmung mit Operonen

Page 28: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Interpretation der Interpretation der ErgebnisseErgebnisse

Die 10 exakten Übereinstimmungen enthalten Die 10 exakten Übereinstimmungen enthalten sehr zentrale Cluster (z.B. ATP Synthase)sehr zentrale Cluster (z.B. ATP Synthase)

Ergebnisse der 2. Gruppe interessant:Ergebnisse der 2. Gruppe interessant: 1. Möglichkeit: Fehlende oder falsche Zuordnungen 1. Möglichkeit: Fehlende oder falsche Zuordnungen

von Genen zu COGsvon Genen zu COGs 2. Möglichkeit: 2. Möglichkeit: δδ-Wert zu klein gewählt-Wert zu klein gewählt 3. Möglichkeit: Einige Operone sind nicht in beiden 3. Möglichkeit: Einige Operone sind nicht in beiden

Organismen konserviertOrganismen konserviert 4. Möglichkeit: Zugeordnete Gene könnten noch 4. Möglichkeit: Zugeordnete Gene könnten noch

nicht als zugehörig (zum Operon) entdeckt worden nicht als zugehörig (zum Operon) entdeckt worden seinsein

Page 29: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Eine ImplementierungEine Implementierung Vorstellung einer Implementierung Vorstellung einer Implementierung

des Algorithmus, umgesetzt durch des Algorithmus, umgesetzt durch Michael GoldwasserMichael Goldwasser

Verwendet C++Verwendet C++ Kann frei über die Internetseite Kann frei über die Internetseite

http://euler.slu.edu/~goldwasser/homologhttp://euler.slu.edu/~goldwasser/homologyteams/yteams/ heruntergeladen werden heruntergeladen werden

Page 30: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der ErgebnisseErgebnisse

Ziel: Ausschließen der Null-HypotheseZiel: Ausschließen der Null-Hypothese

n = Anzahl der Gene im Genom / Chromosomn = Anzahl der Gene im Genom / Chromosom k = Anzahl der „relevanten“ Gene, die einen k = Anzahl der „relevanten“ Gene, die einen

Cluster bildenCluster bilden d = Anzahl der „irrelevanten“ Gene, die zwischen d = Anzahl der „irrelevanten“ Gene, die zwischen

zwei „relevanten“ Genen stehen dürfenzwei „relevanten“ Genen stehen dürfen

Page 31: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (2)Ergebnisse (2)

n! Permutationen um n Gene anzuordnenn! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren1. Schritt: k-Cluster generieren

=> k! Permutationen k Gene anzuordnen=> k! Permutationen k Gene anzuordnen

Page 32: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (2)Ergebnisse (2)

n! Permutationen um n Gene anzuordnenn! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren1. Schritt: k-Cluster generieren

=> k! Permutationen k Gene anzuordnen=> k! Permutationen k Gene anzuordnen2. Anzahl „Lücken“ im Cluster = i2. Anzahl „Lücken“ im Cluster = i

0 ≤ i ≤ (k-1)*d0 ≤ i ≤ (k-1)*d

Page 33: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (2)Ergebnisse (2)

n! Permutationen um n Gene anzuordnenn! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren1. Schritt: k-Cluster generieren

=> k! Permutationen k Gene anzuordnen=> k! Permutationen k Gene anzuordnen

Anzahl „Lücken“ im Cluster = iAnzahl „Lücken“ im Cluster = i0 ≤ i ≤ (k-1)*d0 ≤ i ≤ (k-1)*d

Bsp: d = 2, k = 5Bsp: d = 2, k = 5i = 0 ergibt sich, wenn keine Lücken auftreteni = 0 ergibt sich, wenn keine Lücken auftreten

<xxxxx><xxxxx>i = 8 ergibt sich, wenn zwischen 2 relevanten i = 8 ergibt sich, wenn zwischen 2 relevanten

Genen immer genau d irrelevante Gene liegenGenen immer genau d irrelevante Gene liegen<xx--xx--xx--xx--xx><xx--xx--xx--xx--xx>

Page 34: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (3)Ergebnisse (3)

- Anzahl Möglichkeiten einen k-Cluster mit i - Anzahl Möglichkeiten einen k-Cluster mit i Lücken zu generieren sei Lücken zu generieren sei s(k,d,i)s(k,d,i)- Für - Für s(k,d,i)s(k,d,i) gibt es keine einfache geschlossene gibt es keine einfache geschlossene FormelFormel

Page 35: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (3)Ergebnisse (3)

- Anzahl Möglichkeiten einen k-Cluster mit i - Anzahl Möglichkeiten einen k-Cluster mit i Lücken zu generieren sei Lücken zu generieren sei s(k,d,i)s(k,d,i)- Für - Für s(k,d,i)s(k,d,i) gibt es keine einfache geschlossene gibt es keine einfache geschlossene FormelFormel

3. Der komplette Cluster wird im Genom plaziert3. Der komplette Cluster wird im Genom plaziert- Größe des Clusters: k+i- Größe des Clusters: k+i=> n-(k+i)+1 Möglichkeiten=> n-(k+i)+1 Möglichkeiten

Page 36: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (3)Ergebnisse (3)

- Anzahl Möglichkeiten einen k-Cluster mit i - Anzahl Möglichkeiten einen k-Cluster mit i Lücken zu generieren sei Lücken zu generieren sei s(k,d,i)s(k,d,i)- Für - Für s(k,d,i)s(k,d,i) gibt es keine einfache geschlossene gibt es keine einfache geschlossene FormelFormel

3. Der komplette Cluster wird im Genom plaziert3. Der komplette Cluster wird im Genom plaziert- Größe des Clusters: k+i- Größe des Clusters: k+i=> n-(k+i)+1 Möglichkeiten=> n-(k+i)+1 Möglichkeiten

4. Restlichen Gene platzieren: (n-k)!4. Restlichen Gene platzieren: (n-k)!

Page 37: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (4)Ergebnisse (4)

Gesamtwahrscheinlichkeit:Gesamtwahrscheinlichkeit:

P(n,k,d) =P(n,k,d) =

!

)1(),,(!)!()1(

0

n

iknidkskkndk

i

Page 38: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (4)Ergebnisse (4)

Gesamtwahrscheinlichkeit:Gesamtwahrscheinlichkeit:

P(n,k,d) =P(n,k,d) =

= =

!

)1(),,(!)!()1(

0

n

iknidkskkndk

i

kn

iknidksdk

i

)1(

0

)1(),,(

Page 39: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (5)Ergebnisse (5)

Jetzt: Generelles ModellJetzt: Generelles Modell m = Anzahl Familien im Genomm = Anzahl Familien im Genom M = {fM = {f11,f,f22,…,f,…,fmm}} Jedes Gen gehört zu einer FamilieJedes Gen gehört zu einer Familie = Anzahl Gene, die zu Familie f= Anzahl Gene, die zu Familie fjj gehören gehören iijj = Index der Familie zu der das Gene j gehört = Index der Familie zu der das Gene j gehört Unterschied zum vorherigen Modell: Mehr Unterschied zum vorherigen Modell: Mehr

Varianten einen Cluster zu bildenVarianten einen Cluster zu bilden

j

Page 40: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Statistische Signifikanz der Statistische Signifikanz der Ergebnisse (6)Ergebnisse (6)

= Anzahl Möglichkeiten k Gene zu wählen

Neue Gesamtwahrscheinlichkeit:

Q(M,n,k,d) =

kiii ...21

k

j

ijdknP1

),,(

Page 41: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Approximation der Approximation der statistischen Signifikanzstatistischen Signifikanz

Clustergröße normalerweise < 10Clustergröße normalerweise < 10 δδ sehr klein: 1-3 sehr klein: 1-3 n = mehrere Tausend >> k, d, in = mehrere Tausend >> k, d, i

0 ≤ i ≤ (k-1)*d0 ≤ i ≤ (k-1)*d=> i kann vernachlässigt werden=> i kann vernachlässigt werdenAbsolute Anzahl Möglichkeiten Lücken in k Genen Absolute Anzahl Möglichkeiten Lücken in k Genen zu verteilen: (d+1)zu verteilen: (d+1)k-1k-1, da es d+1 Möglichkeiten gibt , da es d+1 Möglichkeiten gibt Lücken zwischen 2 „relevanten“ Lücken zwischen 2 „relevanten“ Genen zu verteilen Genen zu verteilen (0-Lücke,1-Lücke,…,d-Lücke)(0-Lücke,1-Lücke,…,d-Lücke)

=> P(n,k,d) => P(n,k,d) ≈ ≈

kndkn k 11)1(

Page 42: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Approximation der Approximation der statistischen Signifikanz (2)statistischen Signifikanz (2) Beispielparameter (aus E. Coli):Beispielparameter (aus E. Coli): n = 2000 (nur orthologe Gene!)n = 2000 (nur orthologe Gene!) δδ = 1900 bp ~ 1 Gen = 1900 bp ~ 1 Gen Produktterm aus Formel Q(M,n,k,d) Produktterm aus Formel Q(M,n,k,d)

ist ungefähr 2ist ungefähr 2kk

k=2 => Q(2) = 8*10k=2 => Q(2) = 8*10-3-3

k=3 => Q(3) = 4,8*10k=3 => Q(3) = 4,8*10-5-5

k=4 => Q(4) = 3,8*10k=4 => Q(4) = 3,8*10-7-7

Page 43: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Gefundene ClusterGefundene Cluster

Page 44: Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

Themenverwandte Themenverwandte ArbeitenArbeiten

Beal et al.Beal et al. Gleiche Zielsetzung leicht anderes Gleiche Zielsetzung leicht anderes

Modell (nur 1-zu-1 Beziehungen)Modell (nur 1-zu-1 Beziehungen)

Sankoff und TrinhSankoff und Trinh Chromosomal Breakpoint Reuse in Chromosomal Breakpoint Reuse in

Genome Sequence RearrangementGenome Sequence Rearrangement


Recommended