Click here to load reader

Predicting RNA Secondary Structures

  • View
    24

  • Download
    0

Embed Size (px)

DESCRIPTION

Predicting RNA Secondary Structures. with Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs. Predicting RNA Secondary Structures. Einleitung Ein approximativer Algorithmus für planare Sekundärstrukturen Ein approximativer Algorithmus für allgemeine Sekundärstrukturen - PowerPoint PPT Presentation

Text of Predicting RNA Secondary Structures

  • Predicting RNA Secondary Structureswith Arbitrary Pseudoknots by Maximizing the Number of Stacking Pairs

  • Predicting RNA Secondary StructuresEinleitungEin approximativer Algorithmus fr planare SekundrstrukturenEin approximativer Algorithmus fr allgemeine SekundrstrukturenNP-Vollstndigkeit

  • RNALineare Polymere, aufgebaut aus NukleotidenJeder Nukleotid aufgebaut aus Ribose, Phosphatrest und einer der 4 Basen Adenin, Guanin, Cytosin, UracilIm Gegensatz zur DNA einzelstrngigbildet ber Watson-Crick-Paarungen dreidimensionale Struktur aus

  • SekundrstrukturSei S=s1s2sn eine RNA-Sequenz aus n Basen. Eine Sekundrstruktur P ist eine Menge von Watson-Crick-Basenpaaren (si1,sj1),,(sip,sjp), so dass gilt sir+2 sjr fr alle r = 1,...,p, wobei keine Base gleichzeitig zu zwei Paaren gehren kann.

  • Hufigste RNA-StrukturenHairpin Loop Internal LoopMulti-branched LoopBulgeStacking Pair

  • Stacking PairVon zwei aufeinanderfolgenden Basenpaaren (si,sj) und (si+1,sj-1) gebildete Schleife mit i+4jEnthalten keine ungepaarten Basen, haben negative Freie Energie und stabilisieren die Sekundrstruktur q aufeinanderfolgende Stacking Pairs (si,sj), (si+1,sj-1); (si+1,sj-1), (si+2,sj-2)(si+q-1, sj-q+1),(si+q,sj-q ) von P werden durch (si,si+1,, si+q; sj-q ,, sj-1,sj) dargestellt.

  • Die Herausforderung: PseudoknotsSei S eine RNA-Sequenz. Ein Pseudoknot wird gebildet aus zwei berlappenden Basenpaaren (si,sj) und (sk, sl) der Form i
  • DefinitionenDer ungerichtete Graph G(P) einer gegebener Sekundrstruktur P sei derart aufgebaut, dass die Basen von S die Knoten in G(P) darstellen. (si,sj) ist eine Kante in G(P), wenn j = i+1 oder (si,sj) ein Basenpaar in P ist.Eine Sekundrstruktur P ist planar, wenn G(P) planar istEine Sekundrstruktur P enthlt einen interleaving block, wenn sie drei Stacking Pairs der Form (si,si+1;sj-1,sj), (si`, si+1;sj-1,sj), (si,si+1;sj-1,sj) enthlt, bei denen i
  • Nonplanare SekundrstrukturWenn eine Sekundrstruktur P einen Interleaving Block enthlt, ist sie nonplanar

  • BeweisAngenommen P enthlt einen interleaving block der o.B.d.A. von folgenden Stacking pairs gebildet wird (s1,s2;s7,s8), (s3,s4;s9,s10) und (s5,s6;s11,s12) Der Subgraph dieser Stacking Pairs kann nicht planar abgebildet werdenG(P) ist nicht planar P ist nicht planar

  • Predicting RNA Secondary StructuresEinleitungEin approximativer Algorithmus fr planare SekundrstrukturenEin approximativer Algorithmus fr allgemeine SekundrstrukturenNP-Vollstndigkeit

  • DefinitionenDie Stacking Pairs einer Sekundrstruktur P knnen in ein Rasterfeld eingebettet werdenDie Basen der dazugehrigen RNA-Sequenz werden nacheinander durch Gitterpunkte auf einer horizontalen Linie L des Feldes dargestelltEin Stacking Pair (si,si+1;sj-1,sj) wird in der Art dargestellt, dass die Punkte si bzw. si+1 mit sj bzw. sj-1 derart verbunden sind, dass sich beide Linien entweder unter oder oberhalb von L befinden

  • Stacking Pair - Einbettung

  • LemmaDie Einbettung E von Stacking Pairs einer planaren Sekundrstruktur P ist planar

    P planar => E planar wird bewiesen durch E planar => P planar

  • BeweisP hat keine planare Stacking-Pair-Einbettung => P enthlt einen interleaving block P enthlt einen interleaving block => P ist nonplanar

  • Algorithmus MaxSPV(i,j) (j i) sei die maximale Anzahl an Stacking Pairs, die von si...sj ohne Pseudoknots gebildet werden kann, wenn si und sj ein Watson-Crick-Paar bildenW(i,j) (j i) sei die maximale Anzahl an Stacking Pairs, die von si...sj ohne Pseudoknots gebildet werden kann.=> W(1,n) ist die maximale Anzahl an Stacking Pairs die von S ohne Pseudoknots gebildet werden kann.

  • Algorithmus MaxSPBasisFor j=i,i+1,i+2 oder i+3 (j n)V(i,j)=0 si,sj sind BasenpaareW(i,j)=0.

    WeiterfhrungFor j>i+3

  • MaxSP ist 1/2-approximativGegebene RNA-Sequenz SN* die maximale Anzahl an Stacking Pairs in einer planaren Sekundrstruktur, die von S geformt werden kannW die maximale Anzahl an Stacking Pairs in einer planaren Sekundrstruktur ohne Pseudoknots, die von S geformt werden kann

  • BeweisP* sei die planare Sekundrstruktur von S mit N* Stacking PairsP* ist planar => jede Stacking Pair-Einbettung von P* ist planarSei E eine Stacking Pair-Einbettung von P*, in der sich keine Linien berkreuzenSeien n1 und n2 die Anzahl der Stacking Pairs ober- bzw. unterhalb von LO.B.d.A n1 n2Sekundrstruktur P sei P*, jedoch ohne die Stacking Pairs unterhalb von L

    Da n1 n2, n1 N*/2, W n1 => W N*/2

  • Komplexitt und SpeicherplatzAlgorithmus MaxSP berechnet die maximale Anzahl an Stacking Pairs einer Sekundrstruktur S ohne Pseudoknots in Zeit O(n3) und mit Speicherplatz O(n).

  • BeweisEs werden jeweils O(n) Eintrge V(i,j) und W(i,j) gefllt.Das Fllen der W`s bentigt konstante Zeit, das der V`s hchstens O(n).

    => O(n) Eintrge in O(n3) Zeit

  • Predicting RNA Secondary StructuresEinleitungEin approximativer Algorithmus fr planare SekundrstrukturenEin approximativer Algorithmus fr allgemeine SekundrstrukturenNP-Vollstndigkeit

  • Algorithmus GreedySP()Sei S=s1s2...sn die Eingabesequenz und E die Menge der Basenpaare, die der Algorithmus ausgibt. Zu Beginn sind alle sj unmarkiert und E= GreedySP(S,i)//i 31. Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.

    2.For k=i-1 downto 2,Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen..

    3.Finde das am weitesten links liegende Stacking Pair SP, das von unmarkierten Basen gebildet wird. Nimm es zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.

  • Beweis zur ApproximationZu beweisen: GreedySP findet 1/3 der maximal mglichen Stacking Pairs

  • DefinitionenDie von GreedySP ermittelten SP`s werden nacheinender mit SP1, SP2,...,SPh bezeichnetFr jedes SPj = (sp,...sp+t;sq-t,...sq) werden die beiden Intervalle Ij und Jj fr die Indices [p...p+1] und [q-t...q] definiertSei F die Menge der Stacking Pairs einer optimalen Sekundrstruktur S mit der maximalen Anzahl an Stacking Pairs. Fr jedes berechnete SPj sei X = {(sk,sk+1;sw-1,sw) F|mindestens einer der Indices k, k+1, w-1, w liegt in } fr = Ij oder Jj.

  • DefinitionenFr jedes j sei undEs sei |SPj| die Anzahl der von SPj reprsentierten Stacking Pairs.Es seien |Ij| und |Jj| die Anzahlen der Indices im Intervall Ij und Jj

  • 2 TeilschritteSei N die von GreedySP(S,i) berechnete und N* die maximal mgliche Anzahl an Stacking Pairs in S. Folgend 2 Schritte mssen bewiesen werden:Wenn |SPj| 1/r * |(XIj XJj)| fr alle j=> N 1/r * N*Fr jedes von GreedySP(S,i) berechnete SPj gilt |SPj| 1/3 * |(XIj XJj)|

  • 1.SchrittLemma 1jh{ XIj XJj} = FBeweis durch WiderspruchStacking Pair(sk,sk+1;sw-1,sw) in F, aber in keinem der XIj, XJj=> keiner der Indices in einem XIj, XJj=>Widerspruch zu Schritt 3 des Algo`s

  • 1.SchrittAus der Definition der XIj und XJj folgt {XIk XJk} = {XIk XJk} Da N = j |SPj| folgt Wenn |SPj| 1/r * |(XIj XJj)| fr alle jN 1/r * | {XIk XJk}|

    Und somit N 1/r * N*

  • 2.SchrittZu beweisen war:Fr jedes von GreedySP(S,i) berechnete SPj gilt |SPj| 1/3 * |(XIj XJj)|

    Fallunterscheidung fr die 3 Schritte des Algorithmus

  • Fall 1SPj generiert von GreedySP(S,i) in Schritt 1Per Definition |XIj|, |XJj| i+2Behauptung: |XIj| i+1Beweis durch Widerspruch: -fr eine Zahl t hat F i+2 aufeinanderfolgende Stacking Pairs (sp-1,...,sp+i+1;st-i-1,...,st+1)-alle Basen vor der Wahl von SPj unmarkiert-in SPj wren nicht die i linkesten Stacking Pairs Widerspruch Somit: |SPj|/|XIj XJj| i/((i+1)+(i+2)) 1/3 (wenn i 3)

  • Fall 2SPj generiert von GreedySP(S,i) in Schritt 2. |SPj| =k 2; SPj = (sp,...,sp+k;sq-k,...,sq)Per Definition |XIj|, |XJj| i+2Behauptung: |XIj|, |XJj|, k+1Beweis: Wie in Fall 1 Widerspruch bei sp-1,...,sp+k+1;st-k-1,...,st+1Kann fr XIj und XJj bewiesen werden..Somit:|SPj|/|XIj XJj| k/((k+1)+(k+1)) 1/3 (wenn k 2)

  • Fall 3SPj generiert von GreedySP(S,i) in Schritt 3.Sei SPj = (sp,sp+1;sq-1,sq)Wie in Fall 2 kann bewiesen werden, dass |XIj|, |XJj| k+1Behauptung |XIj| 1Beweis: Einziger mglicher Fall mit |XIj| =2, wenn(sp-1,sp;sr-1,sr) und (sp,sp+1;st-1,st) beide zu XIj gehren wrden.SPj nicht linkestes Stacking Pair WiderspruchSomit: |SPj|/|XIj XJj| 1/(1+2) 1/3

  • Zeit und KomplexittBei gegebener RNA Sequenz S von Lnge n und einer Konstante k bentigt GreedySP(S,k) Zeit und Speicherplatz O(n).

  • Zeit und KomplexittFr jedes j mit 1 j k gibt nur 4j verschiedene Muster aus {A,G,C,U}Darstellbar durch k verkettete Listen mit je 4j IndicesO(n) Eintrge pro Liste => O(kn)Eintrge in allen Listenk-maliges Scannen der Sequenz, jeder Eintrag der Liste wird hchstens einmal besucht => O(kn) Zeit

  • FazitAlgorithmus GreedySP ist 1/3-approximativBercksichtigt PseudoknotsZeit O(n)Platz O(n)

  • AlternativenNussinov et al (1978) Freie Energie-Funktion, die minimiert wird, wenn die Sekundrstruktur die maximale Anzahl an komplementren Basenpaaren enthlt. Ohne Pseudoknots. (Zeit O(n3))Mfold : Berechnung ber stabile Strukturen(z. B. Helices)(Zeit O(n3))ohne Pseudoknots

  • AlternativenRivas, Eddy (1998) Algorithmus mit dynamischer Programmierung, handelt bestimmte Pseudoknots in O(n6)Zeit und O(n4) Spe