Click here to load reader

Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene Clusters in the Presence of Homology Families Von Florian Rörsch

  • View
    213

  • Download
    0

Embed Size (px)

Text of Vortrag zum Seminar „Aktuelle Themen der Bioinformatik“ Identifying Conserved Gene...

  • Vortrag zum SeminarAktuelle Themen der BioinformatikIdentifying Conserved Gene Clusters in the Presence of Homology FamiliesVon Florian Rrsch

  • InhaltEinleitungVom Wolf zum Gen-ClusterWissenschaftlicher NutzenModellbildungDer AlgorithmusLaufzeit und SpeicherplatzbedarfErgebnisse mit realen DatenInterpretation der ErgebnisseEine ImplementierungStatistische Signifikanz der ErgebnisseThemenverwandte Arbeiten

  • EinleitungIdentifying Conserved Gene Clusters in the Presence of Homology Families

    Conserve = Konservieren, erhalten, bewahrenGen Cluster = Haufen, GruppierungHomology Familie = Gruppe von Genen mit gleicher Abstammung / hnlicher Funktion / hnlicher Struktur

  • Vom Wolf zum Gen-ClusterWas bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung aus biologischer Sicht?

  • Vom Wolf zum Gen-ClusterWas bringt Gen-Clustering im Gegensatz zur randomisierten Verteilung?1. -> Steigerung der Transkriptionsgeschwindigkeit-> Effizienzgewinn -> Evolutionrer Vorteil2. -> Qualittssicherung

  • Wissenschaftlicher NutzenRekonstruktion der evolutionren GeschichteErforschung der Frage, ob aus der Genposition die Genfunktion abgeleitet werden kannWichtige Zielgruppen: Medizin, Pharmazie und Chemie

  • ModellbildungWahl der Gene eingeschrnkt auf Homologe-> unrelevante Genomabschnitte blasen die Algorithmenlaufzeit nicht unntig auf-> Cluster werden auf Basis von Homologen Beziehungen gefunden

  • Modellbildung (1)Definition eines Chromosoms: C = (, X) = Set (Menge) von homologen FamilienX = Geordnete Menge von Genen

    Definition eines Gens:g = (p, f)p = Physikalische Position des Gens auf dem Chromosomf ( ) = Homologie-Familie, zu der das Gen gehrt

  • Modellbildung (2)Definition einer Subsequenz: Gegeben C= (, X), nennt man ein Paar ((X), X),wobei X X, eine Subsequenz

    Definition eines Subchromosoms:C = (, X), falls X eine fortlaufende Teilmenge von X ist = Teilmenge der homologen FamilienX = Teilmenge der Gene

  • Modellbildung (3) Definition von Benachbarten Genen:Gegeben: 2 Gene gi, gj und Parameter gi, gj heien benachbart, wenn (gi, gj) < , fr einen Parameter > 0 = Anzahl unwichtiger Gene zwischen 2 Interessanten = Gaps

  • Modellbildung (3) Definition von Benachbarten Genen:Gegeben: 2 Gene gi, gj und Parameter gi, gj heien benachbart, wenn (gi, gj) , fr einen Parameter > 0 = Anzahl unwichtiger Gene zwischen 2 Interessanten

    Definition eines -runs:C ist ein -run, wenn es in Bezug auf alle relevanten Gene eine maximale -Subsequenz ist

  • Modellbildung (4)Definition einer -chain: Gegeben ein Chromosom C = (, X), nennt man eine -chain, falls es eine -Subsequenz C gibt, so dass = (C) gilt. C bezeugt dann eine solche -chain.

    Durch die Definition einer -chain wird versucht Abstand von der Definition eines Chromosoms durch Gene zu gewinnen und zu einer Definition des Chromosoms durch Homologe Familien zu gelangen.

  • Modellbildung (4)Definition einer -chain: Gruppen von homologen Familien, bei denen die darunter liegenden Gene die Delta-Regel erfllen.

    Durch die Definition einer -chain wird versucht Abstand von der Definition eines Chromosoms durch Gene zu gewinnen und zu einer Definition des Chromosoms durch Homologe Familien zu gelangen.

  • Modellbildung (4)Definition eines -sets: Wenn ein Set (Menge) von Homologen Familien fr 2 (!!) Chromosome C und D ist, dann ist ein -set von C und D, wenn eine -chain von sowohl C, als auch D ist.

  • Modellbildung (4)Definition eines -sets: Wenn ein Set (Menge) von Homologen Familien fr 2 (!!) Chromosome C und D ist, dann ist ein -set von C und D, wenn eine -chain von sowohl C, als auch D ist.

    Definition eines -teams:Ein -team ist ein maximales -set.

  • Der Algorithmus (1)Eingabe: 2 Chromosomen C und D

  • Der Algorithmus (1)Eingabe: 2 Chromosomen C und DDaraus resultierend: Das Alphabet (Die Menge der Homologie-Familien)Die Anzahl der Gene beider Chromosomen - m (fr C) und n (fr D) genannt. Nur relevante Gene werden gelistet.

  • Der Algorithmus (2)FINDTEAMS(C,D)//Globale Daten initialisierenglobaltime = 0For each f in stamp[f] = 0tempmarkf] = 0//Chromosom C in seine -runs zerlegenlocaltime = MARKCOMMONALPHABET(C,D)Crest = CrepeatCfirst = FINDFIRSTRUN(Crest,localtime)Crest = Crest CfirstFINDTEAMSRECURSE(B, Cfirst)until (Crest = )

  • Der Algorithmus (3)MARKCOMMONALPHABET(A,B)globaltime = globaltime + 1for each g in Asei f die Homologie-Familie von gtempmark[f] = globaltimeFor each g in Bsei f die Homologie-Familie von gif tempmark[f] = globaltime thenstamp[f] = globaltimeReturn globaltime

  • Der Algorithmus (4)FINDFIRSTRUN(A,timestamp)endrun = das 1. Gen in A mit stamp[f] >= timestampnextgene = das Gen in A nach endrunwhile(nextgene wohldefiniert und (endrun,nextgene) ) do Sei f die Homologie-Familie von nextgene //Wenn nextgene in common family ist, erweitere den run endrun = nextgene nextgene =das Gen in A nach nextgenReturn das Unterchromosom bis endrun (inklusive)

  • Der Algorithmus (5)FINDTEAMSRECURSE(A,B)localtime = MARKCOMMONALPHABET(A,B)Afirst = FINDFIRSTRUN(A,localtime)Arest = A - Afirstif Arest = thenREPORTTEAM(A,B)else repeatFINDTEAMSRECURSE(B,Afirst)Afirst = FINDFIRSTRUN(Arest,localtime)Arest = Arest - Afirstuntil (Arest = )FINDTEAMSRECURSE(B,Afirst)

  • Laufzeit und SpeicherplatzbedarfLaufzeit: = O(n+m)Speicherplatzbedarf O(n+m)

    Damit der Speicherplatz linear bleibt muss explizit darauf geachtet werden, dass die Subprobleme whrend den Rekursionen nicht mehrmals abgearbeitet werdenKeine groen versteckten FaktorenLeider nicht sehr effizient bei Multigenomvergleichen

  • Ergebnisse mit realen Daten (1)- DatenwahlVersuch mit 2 prokaryotischen Genomen: E. Coli K12 und B. subtilisIn Schritt 1 wurden die orthologen Beziehungen gesucht -> Datenbank (NCBI)Die Proteine in den heruntergeladenen Dateien enthalten schon eine so genannten COG-NummerCOG = Cluster of orthologues Groups = Homologie-FamilieDie Datenbank enthlt zur Zeit ber 4800 COGs (identifiziert aus 43 kompletten Genomen)In Schritt 2 wurde der Algorithmus angewandt um alle -teams zu identifizieren

  • Ergebnisse mit realen Daten (2)- Datenwahl

    Zeigt das prozentuale Verhltnis zwischen Genen, die zu einem COG gehren, allen Genen und solchen die zu einem COG gehren, welcher in beiden Genomen vorkommt

  • Ergebnisse mit realen Daten (3)- Datenwahl

  • Ergebnisse mit realen Daten (4)- DatenwahlWahl des -Parameters nicht so einfachBei zu groer Wahl zu viele Falsch-PositiveBei zu kleiner Wahl werden nicht alle Cluster gefunden

  • Ergebnisse mit realen Daten (5)- Datenwahl-Parameter wurde gebenchmarkt Bestimmung ber 4 bekannte Cluster:Ribosomalen Protein ClusterATP Synthase OperonTryptophan Biosynthese OperonABC Ribose-Transport OperonDie meisten Cluster konnten bei = 1900 bp rekonstruiert werden (150 Stck)

  • Ergebnisse mit realen Daten (5)Diese 150 identifizierten Teams (Cluster) wurden mit real bekannten Operonen (Cluster) verglichenRibosomale Teams und Teams der Kardinalitt 2 wurde nicht weiter betrachtet (biologisch uninteressant)Einteilung in 4 Gruppen: Exakte bereinstimmung mit einem bekannten OperonTeilweise bereinstimmungSolche, die vorhergesagte Operone treffenKeine bereinstimmung mit Operonen

  • Interpretation der ErgebnisseDie 10 exakten bereinstimmungen enthalten sehr zentrale Cluster (z.B. ATP Synthase) Ergebnisse der 2. Gruppe interessant:1. Mglichkeit: Fehlende oder falsche Zuordnungen von Genen zu COGs2. Mglichkeit: -Wert zu klein gewhlt3. Mglichkeit: Einige Operone sind nicht in beiden Organismen konserviert4. Mglichkeit: Zugeordnete Gene knnten noch nicht als zugehrig (zum Operon) entdeckt worden sein

  • Eine ImplementierungVorstellung einer Implementierung des Algorithmus, umgesetzt durch Michael GoldwasserVerwendet C++Kann frei ber die Internetseite http://euler.slu.edu/~goldwasser/homologyteams/ heruntergeladen werden

  • Statistische Signifikanz der ErgebnisseZiel: Ausschlieen der Null-Hypothese

    n = Anzahl der Gene im Genom / Chromosomk = Anzahl der relevanten Gene, die einen Cluster bildend = Anzahl der irrelevanten Gene, die zwischen zwei relevanten Genen stehen drfen

  • Statistische Signifikanz der Ergebnisse (2)n! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren=> k! Permutationen k Gene anzuordnen

  • Statistische Signifikanz der Ergebnisse (2)n! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren=> k! Permutationen k Gene anzuordnen2. Anzahl Lcken im Cluster = i0 i (k-1)*d

  • Statistische Signifikanz der Ergebnisse (2)n! Permutationen um n Gene anzuordnen1. Schritt: k-Cluster generieren=> k! Permutationen k Gene anzuordnen

    Anzahl Lcken im Cluster = i0 i (k-1)*dBsp: d = 2, k = 5i = 0 ergibt sich, wenn keine Lcken auftreteni = 8 ergibt sich, wenn zwischen 2 relevanten Genen immer genau d irrelevante Gene liegen

  • Statistische Signifikanz der Ergebnisse (3)- Anzahl Mglichkeiten einen k-Cluster mit i Lcken zu generieren sei s(k,d,i)- Fr s(k,d,i) gibt es keine einfache geschlossene Formel

  • Statistische Signifikanz der Ergebnisse (3)- Anzahl Mglichkeiten einen k-Cluster mit i Lcken zu generieren sei s(k,d,i)- Fr s(k,d,i) gibt es keine einfache geschlossene Formel

    3. Der komplette Cluster wird im Genom plaziert- Gre des Clusters: k+i=> n-(k+i)+1 Mglichkeiten

  • Statistische Signifikanz der Ergebnisse (3)- Anzahl Mglichkeiten einen k-Cluster mit i Lcken zu generieren sei s(k,d,i)- Fr s(k,d,i) gibt es keine einfache geschlossene Formel

    3. Der komplette Cluster wird im G

Search related