Transcript
Page 1: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 1

Predicting RNA Secondary Structures

with Arbitrary Pseudoknots by Maximizing the Number of Stacking

Pairs

Page 2: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 2

Predicting RNA Secondary Structures

• Einleitung

• Ein approximativer Algorithmus für planare Sekundärstrukturen

• Ein approximativer Algorithmus für allgemeine Sekundärstrukturen

• NP-Vollständigkeit

Page 3: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 3

RNA

• Lineare Polymere, aufgebaut aus Nukleotiden

• Jeder Nukleotid aufgebaut aus Ribose, Phosphatrest und einer der 4 Basen Adenin, Guanin, Cytosin, Uracil

• Im Gegensatz zur DNA einzelsträngig• bildet über Watson-Crick-Paarungen

dreidimensionale Struktur aus

Page 4: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 4

Sekundärstruktur

Sei S=s1s2…sn eine RNA-Sequenz aus n Basen.

Eine Sekundärstruktur P ist eine Menge von Watson-Crick-Basenpaaren (si1,sj1),…,(sip,sjp), so dass gilt sir+2 ≤ sjr für alle r = 1,...,p, wobei keine Base gleichzeitig zu zwei Paaren gehören kann.

jiS

Page 5: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 5

Häufigste RNA-Strukturen

• Hairpin Loop

• Internal Loop

• Multi-branched Loop

• Bulge

• Stacking Pair

Page 6: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 6

Stacking Pair• Von zwei aufeinanderfolgenden Basenpaaren

(si,sj) und (si+1,sj-1) gebildete Schleife mit i+4≤j• Enthalten keine ungepaarten Basen, haben

negative Freie Energie und stabilisieren die Sekundärstruktur

• q aufeinanderfolgende Stacking Pairs

(si,sj), (si+1,sj-1); (si+1,sj-1), (si+2,sj-2)…

(si+q-1, sj-q+1),(si+q,sj-q ) von P werden durch (si,si+1,…, si+q; sj-q ,…, sj-1,sj) dargestellt.

Page 7: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 7

Die Herausforderung: Pseudoknots

• Sei S eine RNA-Sequenz. Ein Pseudoknot wird gebildet aus zwei überlappenden Basenpaaren (si,sj) und (sk, sl) der Form i<k<j<l

• Pseudoknots machen die Bestimmung einer optimalen Sekundärstruktur NP-hart

Page 8: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 8

Definitionen• Der ungerichtete Graph G(P) einer gegebener

Sekundärstruktur P sei derart aufgebaut, dass die Basen von S die Knoten in G(P) darstellen. (si,sj) ist eine Kante in G(P), wenn j = i+1 oder (si,sj) ein Basenpaar in P ist.

• Eine Sekundärstruktur P ist planar, wenn G(P) planar ist• Eine Sekundärstruktur P enthält einen

„interleaving block“, wenn sie drei Stacking Pairs der Form (si,si+1;sj-1,sj), (si`, si+1;sj´-1,sj´), (si´´,si´´+1;sj´´-1,sj´´) enthält, bei denen i<i´<i´´<j<j´<j´´ ist.

Page 9: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 9

Nonplanare Sekundärstruktur

• Wenn eine Sekundärstruktur P einen „Interleaving Block“ enthält, ist sie nonplanar

Page 10: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 10

Beweis• Angenommen P enthält einen „interleaving block“ der

o.B.d.A. von folgenden Stacking pairs gebildet wird (s1,s2;s7,s8), (s3,s4;s9,s10) und (s5,s6;s11,s12)

• Der Subgraph dieser Stacking Pairs kann nicht planar abgebildet werden

• G(P) ist nicht planar P ist nicht planar

Page 11: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 11

Predicting RNA Secondary Structures

• Einleitung

• Ein approximativer Algorithmus für planare Sekundärstrukturen

• Ein approximativer Algorithmus für allgemeine Sekundärstrukturen

• NP-Vollständigkeit

Page 12: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 12

Definitionen

• Die Stacking Pairs einer Sekundärstruktur P können in ein Rasterfeld eingebettet werden

• Die Basen der dazugehörigen RNA-Sequenz werden nacheinander durch Gitterpunkte auf einer horizontalen Linie L des Feldes dargestellt

• Ein Stacking Pair (si,si+1;sj-1,sj) wird in der Art dargestellt, dass die Punkte si bzw. si+1 mit sj bzw. sj-1 derart verbunden sind, dass sich beide Linien entweder unter oder oberhalb von L befinden

Page 13: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 13

Stacking Pair - Einbettung

Page 14: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 14

Lemma

• Die Einbettung E von Stacking Pairs einer planaren Sekundärstruktur P ist planar

• P planar => E planar

wird bewiesen durch

⌐ E planar => ⌐ P planar

Page 15: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 15

Beweis• P hat keine planare Stacking-Pair-Einbettung => P enthält

einen „interleaving block“

• P enthält einen „interleaving block“ => P ist nonplanar

Page 16: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 16

Algorithmus MaxSP• V(i,j) (j ≥ i) sei die maximale Anzahl an Stacking

Pairs, die von si...sj ohne Pseudoknots gebildet werden kann, wenn si und sj ein Watson-Crick-Paar bilden

• W(i,j) (j ≥i) sei die maximale Anzahl an Stacking Pairs, die von si...sj ohne Pseudoknots gebildet werden kann.

• => W(1,n) ist die maximale Anzahl an Stacking Pairs die von S ohne Pseudoknots gebildet werden kann.

Page 17: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 17

Algorithmus MaxSP• Basis

For j=i,i+1,i+2 oder i+3 (j ≤ n)

V(i,j)=0 si,sj sind Basenpaare

W(i,j)=0.

• Weiterführung

For j>i+3

),1(),(max

e, Basenpaarsind und :),(max),(

1-jki jkWkiW

jijiVjiW

Basenpaare sind und :)1,1(

,Basenpaare sind 1-j und 1:1)1,1(max),(

jijiW

ijiVjiV

Page 18: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 18

MaxSP ist 1/2-approximativ

• Gegebene RNA-Sequenz S• N* die maximale Anzahl an Stacking Pairs

in einer planaren Sekundärstruktur, die von S geformt werden kann

• W die maximale Anzahl an Stacking Pairs in einer planaren Sekundärstruktur ohne Pseudoknots, die von S geformt werden kann

Page 19: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 19

Beweis• P* sei die planare Sekundärstruktur von S mit N* Stacking Pairs

• P* ist planar => jede Stacking Pair-Einbettung von P* ist planar

• Sei E eine Stacking Pair-Einbettung von P*, in der sich keine Linien überkreuzen

• Seien n1 und n2 die Anzahl der Stacking Pairs ober- bzw. unterhalb von L

• O.B.d.A n1 ≥ n2

• Sekundärstruktur P sei P*, jedoch ohne die Stacking Pairs unterhalb von L

• Da n1 ≥ n2, n1 ≥ N*/2, W ≥ n1 => W ≥ N*/2

Page 20: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 20

Komplexität und Speicherplatz

• Algorithmus MaxSP berechnet die maximale Anzahl an Stacking Pairs einer Sekundärstruktur S ohne Pseudoknots in Zeit O(n3) und mit Speicherplatz O(n²).

Page 21: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 21

Beweis

• Es werden jeweils O(n²) Einträge V(i,j) und W(i,j) gefüllt.

• Das Füllen der W`s benötigt konstante Zeit, das der V`s höchstens O(n).

• => O(n²) Einträge in O(n3) Zeit

Page 22: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 22

Predicting RNA Secondary Structures

• Einleitung

• Ein approximativer Algorithmus für planare Sekundärstrukturen

• Ein approximativer Algorithmus für allgemeine Sekundärstrukturen

• NP-Vollständigkeit

Page 23: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 23

Algorithmus GreedySP()• Sei S=s1s2...sn die Eingabesequenz und E die Menge der Basenpaare,

die der Algorithmus ausgibt. Zu Beginn sind alle sj unmarkiert und E= Ø

• GreedySP(S,i) //i ≥ 31. Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.

2.For k=i-1 downto 2,Finde die am weitesten links liegenden aufeinanderfolgenden i Stacking Pairs SP, die von unmarkierten Basen gebildet werden. Nimm SP zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen..

3.Finde das am weitesten links liegende Stacking Pair SP, das von unmarkierten Basen gebildet wird. Nimm es zu E hinzu und markiere diese Basen. Wiederhole bis Sequenz einmal durchlaufen.

Page 24: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 24

Beweis zur Approximation

• Zu beweisen:

GreedySP findet 1/3 der maximal möglichen Stacking Pairs

Page 25: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 25

Definitionen• Die von GreedySP ermittelten SP`s werden nacheinender

mit SP1, SP2,...,SPh bezeichnet• Für jedes SPj = (sp,...sp+t;sq-t,...sq) werden die beiden

Intervalle Ij und Jj für die Indices [p...p+1] und [q-t...q] definiert

• Sei F die Menge der Stacking Pairs einer optimalen Sekundärstruktur S mit der maximalen Anzahl an Stacking Pairs.

Für jedes berechnete SPj sei

Xß = {(sk,sk+1;sw-1,sw) F|mindestens einer der Indices k, k+1, w-1, w liegt in ß} für ß = Ij oder Jj.

Page 26: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 26

Definitionen

• Für jedes j sei

und

• Es sei |SPj| die Anzahl der von SPj repräsentierten Stacking Pairs.

• Es seien |Ij| und |Jj| die Anzahlen der Indices im Intervall Ij und Jj

}X {X - X X´ kJkIjkjIjI

jIkJkIjkjJjJ X-}X {X - X X´

Page 27: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 27

2 Teilschritte• Sei N die von GreedySP(S,i) berechnete und N*

die maximal mögliche Anzahl an Stacking Pairs in S.

• Folgend 2 Schritte müssen bewiesen werden:• Wenn |SPj| ≥ 1/r * |(X´Ij X´Jj)| für alle j

=> N ≥ 1/r * N*• Für jedes von GreedySP(S,i) berechnete SPj gilt

|SPj| ≥ 1/3 * |(X´Ij X´Jj)|

Page 28: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 28

1.Schritt

• Lemma 1≤j≤h{ XIj XJj} = F

• Beweis durch Widerspruch

Stacking Pair(sk,sk+1;sw-1,sw) in F, aber in keinem der XIj, XJj

=> keiner der Indices in einem XIj, XJj

=>Widerspruch zu Schritt 3 des Algo`s

Page 29: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 29

1.Schritt

• Aus der Definition der X´Ij und X´Jj folgt

{XIk XJk} = {X´Ik X´Jk}

• Da N = Σj |SPj| folgt

• Wenn |SPj| ≥ 1/r * |(X´Ij X´Jj)| für alle j

• N ≥ 1/r * | {XIk XJk}|

• Und somit N ≥ 1/r * N*

k k

k

Page 30: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 30

2.Schritt

• Zu beweisen war:• Für jedes von GreedySP(S,i) berechnete SPj gilt

|SPj| ≥ 1/3 * |(X´Ij X´Jj)|

• Fallunterscheidung für die 3 Schritte des Algorithmus

Page 31: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 31

Fall 1• SPj generiert von GreedySP(S,i) in Schritt 1• Per Definition |X´Ij|, |X´Jj| ≤ i+2• Behauptung: |X´Ij| ≤ i+1• Beweis durch Widerspruch:

-für eine Zahl t hat F i+2 aufeinanderfolgende Stacking Pairs (sp-1,...,sp+i+1;st-i-1,...,st+1)

-alle Basen vor der Wahl von SPj unmarkiert

-in SPj wären nicht die i linkesten Stacking Pairs Widerspruch

• Somit: |SPj|/|X´Ij X´Jj| ≥ i/((i+1)+(i+2)) ≥ 1/3 (wenn i ≥ 3)

Page 32: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 32

Fall 2• SPj generiert von GreedySP(S,i) in Schritt 2.

• |SPj| =k ≥ 2; SPj = (sp,...,sp+k;sq-k,...,sq)

• Per Definition |X´Ij|, |X´Jj| ≤ i+2

• Behauptung: |X´Ij|, |X´Jj|, ≤ k+1

• Beweis:

Wie in Fall 1 Widerspruch bei sp-1,...,sp+k+1;st-k-1,...,st+1

Kann für X´Ij und X´Jj bewiesen werden..

Somit:

• |SPj|/|X´Ij X´Jj| ≥ k/((k+1)+(k+1)) ≥ 1/3 (wenn k ≥ 2)

Page 33: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 33

Fall 3• SPj generiert von GreedySP(S,i) in Schritt 3.• Sei SPj = (sp,sp+1;sq-1,sq)• Wie in Fall 2 kann bewiesen werden, dass |X´Ij|, |X´Jj| ≤ k+1• Behauptung |X´Ij| ≤1• Beweis: Einziger möglicher Fall mit |X´Ij| =2, wenn

(sp-1,sp;sr-1,sr) und (sp,sp+1;st-1,st) beide zu X´Ij gehören würden.

SPj nicht linkestes Stacking Pair Widerspruch• Somit: |SPj|/|X´Ij X´Jj| ≥ 1/(1+2) ≥ 1/3

Page 34: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 34

Zeit und Komplexität

• Bei gegebener RNA Sequenz S von Länge n und einer Konstante k benötigt GreedySP(S,k) Zeit und Speicherplatz O(n).

Page 35: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 35

Zeit und Komplexität

• Für jedes j mit 1 ≤j ≤k gibt nur 4j verschiedene

Muster aus {A,G,C,U}• Darstellbar durch k verkettete Listen mit je 4j

Indices• O(n) Einträge pro Liste => O(kn)Einträge in allen

Listen• k-maliges Scannen der Sequenz, jeder Eintrag der

Liste wird höchstens einmal besucht => O(kn) Zeit

Page 36: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 36

Fazit

• Algorithmus GreedySP ist 1/3-approximativ

• Berücksichtigt Pseudoknots

• Zeit O(n)

• Platz O(n)

Page 37: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 37

Alternativen• Nussinov et al (1978) – Freie Energie-Funktion, die

minimiert wird, wenn die Sekundärstruktur die maximale Anzahl an komplementären Basenpaaren enthält. Ohne Pseudoknots.

(Zeit O(n3))• Mfold :

– Berechnung über stabile Strukturen(z. B. Helices)

– (Zeit O(n3))– ohne Pseudoknots

Page 38: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 38

Alternativen• Rivas, Eddy (1998) Algorithmus mit dynamischer

Programmierung, handelt bestimmte Pseudoknots in O(n6)Zeit und O(n4) Speicherplatz

• Stochastische kontextfreie Grammatiken• Genetische Algorithmen.

Fitnessfunktion: Selektion nach Länge der Helix oder nach freier

Energie.

Page 39: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 39

Predicting RNA Secondary Structures

• Einleitung

• Ein approximativer Algorithmus für planare Sekundärstrukturen

• Ein approximativer Algorithmus für allgemeine Sekundärstrukturen

• NP-Vollständigkeit

Page 40: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 40

NP-Vollständigkeit• Das Ermitteln einer planaren RNA-Sekundärstruktur mit der

maximalen Anzahl an Stacking Pairs ist NP-Vollständig.• Beweis durch Reduktion des Tripartite Matching Problems

auf unser Problem• Gegeben: 3 Knotenmengen mit Kardinalität n

Kantenmenge E als Teilmenge von X × Y × Z von Grösse m

• Konstruktion einer RNA-Sequenz SE und eines Integers h in polynomieller Zeit.

• E enthält perfektes Matching sp(SE) ≥ h• E enthält kein perfektes Matching sp(SE) < h

Page 41: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 41

Konstruktion der RNA-Sequenz SE

• X ={x1,...,xn}, Y={y1,...,yn}, Z={z1,...,zn}

• E=e1,...,em; ej = xpj, yqj, zrj

• RNA-Sequenz aufgebaut aus A, U, G, C

• Sei d = max {6n, 4(m+1)}+1

• Für k<d sei

δ(k) = UdAkGUdAd-k δ(k) =Ud-kAdGUkAd

π(k)=C2d+2kAGC4d-2k π (k)=G4d-2kAG2d+2k

Page 42: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 42

Kodierung der Knoten

• Für 1≤i≤n ‹xi›= δ(i) ‹yi›= δ(n+i) ‹zi›= δ(2n+i)

• Wobei ‹xi› ist die Kodierung für Knoten xi

• ‹xi› = δ(i) ‹yi› = δ(n+i) ‹zi› = δ(2n+i)

• Knotenmenge X =‹x1›G‹x2›G...G‹xn›

• X = ‹xn›G‹xn-1›G...G‹x1›

• X-xi = ‹x1›G...G‹xi-1›G‹xi+1›G...G‹xn›

• X-xi=‹xn›G...G‹xi+1›G‹xi-1›G...G‹x1›

Page 43: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 43

Kodierung der Kanten• Für jede Kante ej (1≤j≤m) sei

• Vj= π(j) Wj= π(m+1+j)

• Vj= π(j) Wj= π(m+1+j)

• ej=(xpj,yqj,zrj) = Sj =

AG Vj AG Wj AG X G Y G Z G (Z-zrj) G (Y-yqj) G (X-xpj) Vj A Wj

• Zusätzliche Sequenz Sm+1 =

AG Vm+1 AG Wm+1 AG Z G Y G X Vm+1 A Wm+1

• SE = Sm+1 Sm ... S1

• h = mσ + n(6d-4) + 12d-5 mit σ =3n(3d-2) + 6d - 1

Page 44: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 44

Komplexität

• SE besteht aus O((n+m)3) Basen und kann in Zeit O(SE) konstruiert werden

• Zu beweisen:

Genau dann, wenn E ein perfektes Matching enthält, ist sp(SE) ≥ h

Page 45: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 45

Definitionen

• Jedes Sj wird als Region bezeichnet

• Die Substrings U+A+ der δ(i), C+ der π und G+ der π werden als Fragmente bezeichnet

Page 46: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 46

Korrektheit des “Wenn”-Falles

• Wenn E ein perfektes Matching enthält, dann ist sp(SE) ≥ h

Page 47: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 47

Bildung von Stacking Pairs

• δ(i) oder δ(i) d-1

• δ(i) mit δ(i) 3d-2

• π(i) mit π(i) 6d-2

• Für jedes i ≠ j, π(i) mit π(i) 6d-3

Page 48: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 48

Definitionen

• Sei M ={ej1,ej2,...,ejn} ein perfektes Matching

• Definiert jn+1=m+1

Page 49: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 49

Vorgehen

• Durchlaufe Region für Region

• 3 Fälle zu Unterscheiden:

1. Fall: Sj, so dass ej M

2. Fall: Sj, so dass ej M

3. Fall: Sm+1

Page 50: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 50

Fall1

• ej = (xpj, yqj, zrj)

• 6d-2 Stacking Pairs zwischen Vj und Vj und Wj und Wj

• 3d-2 Stacking Pairs zwischen ‹xi› und ‹xi› für i ≠ pj, ‹yi› und ‹yi› für i ≠ qj, ‹zi› und ‹zi› für i ≠ rj,

• ‹xpj›, ‹yqj›, ‹zrj› jeweils d-1 Stacking Pairs

Page 51: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 51

Fall 1

• Stacking Pairs in Sj

2(6d-2) + 3(n-1)(3d-2) + 3(d-1) =

3n(3d-2) + 6d-1 = σ

• Es existieren (m-n) solcher Ecken

Page 52: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 52

Fall 2

• 6d-3 Stacking Pairs zwischen Wjk in Sjk und Wjk+1 in Sjk+1

• 6d-2 Stacking Pairs zwischen Vjk in Sjk und Vjk in Sjk

• 3d-2 Stacking Pairs zwischen ‹xi› in Sjk und ‹xi› in Sjk für alle i ≠ pj1,…, pjk (analog bei ‹yi› und ‹zi›)

• 3d-2 Stacking Pairs zwischen ‹xi› in Sjk und ‹xi› in Sjk+1 für alle i = pj1,…, pjk (analog bei ‹yi› und ‹zi›)

Page 53: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 53

Fall 2

• Stacking Pairs in Sj

6d-3 + 6d-2 + 3n(3d-2) = σ + 6d-4

• Es existieren n solcher Ecken

Page 54: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 54

Fall 3

• 6d-2 Stacking Pairs zwischen Vm+1 und Vm+1

• 6d-3 Stacking Pairs zwischen Wm+1 und Wm+1

• Anzahl solcher Stacking Pairs in Sm+1

12d-5

Page 55: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 55

Resultat

• E enthält perfektes Matching

Stacking Pairs in SE =

(m-n) σ + n(σ + 6d-4) + 12d – 5 = h

sp(SE) ≥ h

Page 56: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 56

Korrektheit des “Nur dann, wenn”-Falles

• Wenn E kein perfektes Matching enthält, dann ist sp(SE)<h

Page 57: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 57

Definitionen

• OPT : Sekundärstruktur von SE mit der maximalen Anzahl an Stacking Pairs

• #OPT = sp(SE)

• Konjugat: Für Substring H = s1,s2,...,sk ist das Konjugat Ĥ = ŝ1, ŝ2,..., ŝk mit

Â=U, Û=A, Ĉ=G, Ĝ=C

• 2-Substring: zwei adjazente Basen

Page 58: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 58

Vorkommen der verschiedenen 2-Substrings

Page 59: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 59

Fakten

• #OPT ≤ min {# AA, # UU} + min {# GG, # CC} + #UA/2 + #GC/2 = h + n +1 + (2m+2)

• Anzahl nichtgepaarter Substrings sei ◊

• #OPT ≤ min {# AA- ◊AA, # UU- ◊UU} +

min {# GG- ◊GG, # CC- ◊CC} +

(#UA- ◊UA)/2 + (#GC- ◊GC)/2

Page 60: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 60

Grundlage des Beweises

• SE enthält kein perfektes Matching

untere Schranke für die ◊-Werte ist so

hoch, daß sp(SE) < h

Page 61: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 61

Definitionen

• Offene Region: UU-,AA-, oder UA-Substrings innerhalb Sj sind mit Regionen außerhalb von Sj

verbunden ist. Sonst: Sj ist geschlossene Region

• Konjugierte Fragmente: F sei Fragment in SE

F´ ist kunjugiertes Fragment von F, wenn F´das Konjugat von F ist

• Begrenzungsfragmente:Vj oder Wj (für 1 ≤ j ≤ m+1)

Page 62: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 62

Weiteres Vorgehen

• Fallunterscheidungen: – Sm+1 ist geschlossene Region

– Sm+1 ist offene Region

• Anzahl offener Regionen < n+1

• Anzahl offener Regionen > n+1

• Anzahl offener Regionen = n+1

Page 63: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 63

Sm+1 ist geschlossene Region

• Sm+1 ist geschlossene Region#OPT < h

• Beweis: Sm+1 hat 3nd mehr AA- als UU-Substrings

◊AA ≥ 3nd #OPT < h + (n+1) + (2m+2) - 3nd < h

Page 64: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 64

Nichtgebundene CC`s und GG`s

• Sei α die Anzahl an Begrenzungsfragmenten , die nicht mit ihren konjugierenden Fragmenten verbunden sind

• ◊CC+ ◊GG ≥ α + (#GC – GC)

Page 65: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 65

◊CC+ ◊GG ≥ α + (#GC – GC)

• GC nur in Begrenzungsfragment F• GC gepaart linkestes CC nicht gepaart• (#GC- ◊GC) Begrenzungsfragmente, deren GC gepaart ist

Linkestes CC nicht gepaart+weiteres CC oder GG nicht gepaart

Anzahl ungepaarter CC und GG ≥ 2(#GC – GC)• α - (#GC- ◊GC) Begrenzungsfragmente, deren GC nicht

gepaart ist entweder ungepaartes CC oder GG Anzahl ungepaarter CC und GG ≥ α-(#GC – GC)

Page 66: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 66

Vj und Wj in offener Region

• Sj ist offene Region

es dürfen nicht beide Fragmente Vj und Wj mit ihren konjugierenden Fragmenten verbunden sein

• Grund: Interleaving Block unpolar

Page 67: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 67

Untere Grenze der ◊ -Werte

• Sei l ≥1 die Anzahl der offenen Regionen in OPT

1)Sm+1 ist offene Region ◊UU ≥ 3(m+1-l)d

2)max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2

3)l=n+1, Sm+1 ist offene Region, E hat kein perfektes Matching entweder

a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2

Page 68: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 68

Beweis von 1)

• Sj geschlossen (j ≠ m+1)

3d ungepaarte UU-Substrings• Da m+1-l geschlossene Regionen

3(m+1-l)d ungepaarte UU-Substrings

Sm+1 ist offene Region UU ≥ 3(m+1-l)d

Page 69: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 69

Beweis von 2)

• 2l Fragmente in Vj und Wj in l, die nicht mit ihren konjugierten Fragmenten verbunden sind

◊CC + ◊GG ≥ 2l + (#GC- ◊GC)

max {◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2

Page 70: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 70

Beweis von 3)

• m+1-l = m-n geschlossene Regionen

3(m-n)d ungepaarte UU-Substrings

Page 71: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 71

Beweis von 3)• n+1 offene Regionen bestehen aus Sm+1 und Sj1...Sjn

• In n Ecken kein perfektes Match in den n+1 Regionen von mind. einem xk mehr ‹xk› als ‹xk› mind. 2 Fragmente F in allen ‹xi› nicht gepaart

• Fall1: ungepaarter UU-Substring in F• Fall2: ungepaarter AA-Substring in F• Fall3: alle UU-und AA-Substrings gepaart UA-Substrings

der entsprechenden Fragmente ungepaart

a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder c) ◊ UA≥2

Page 72: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 72

Wenn E kein perfektes Matching enthält #OPT < h

1)l< n+1 ◊UU ≥ 3(m+1-l)d

#OPT = h + n + 1 + (2m+2) - 3(n+1-l)d

≤ h + n + 1+(2m+2) - 3d < h

2)l> n+1 max{◊CC, ◊GG} ≥ l + (#GC- ◊GC)/2

#OPT ≤ h + n + 1 – l < h, da l ≥ n+1

3)l=n+1 entweder a) ◊UU ≥3(m-n)d+1 b) ◊AA ≥1 oder

c) ◊UA ≥2

#OPT ≤ h + n – max{CC,GG}+(GC-GC)/2 < h, da l ≥ n+1

Page 73: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 73

Ergebnis

• E enthält perfektes Matching sp(SE) ≥ h

• E enthält kein perfektes Matching sp(SE) < h

• Wenn planare RNA-Sekundärstruktur über Stacking Pairs in polynomieller Zeit berechnet werden könnte, könnte man auch das Tripartite Matching Problem in polynomieller Zeit lösen Widerspruch

Page 74: Predicting RNA Secondary Structures

Martina Fröhlich - Aktuelle Themen der Bioinformatik 74

Quellen- Predicting RNA Secondary Structures with Arbitrary Pseudoknots by

Maximizing the Number of Stacking Pairs, Samuel Ieong, Ming-Yang Kao, Tak-Wah Lam, Wing-Kin Sung and Siu-Ming Yiu, published in Journal of Computational Biology, vol. 10. Number 6, 2003, pp. 981–995

- RNA Pseudoknot Prediction in Energy Based Models, Rune B. Lyngsø and Christian N. S. Pedersen, published in Journal of Computational Biology, vol. 7(3/4), pp. 409–428,

- www.bpc.mh-hannover.de/lehre/ skript/pdf/bioinformatik_2003_007.pdf