83
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός Παντελής Μπάγκος

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

  • Upload
    katina

  • View
    48

  • Download
    14

Embed Size (px)

DESCRIPTION

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός. Παντελής Μπάγκος. Δυναμικός Προγραμματισμός. Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές. Στοίχιση. Ολική Τοπική Ειδικές περιπτώσεις. Δυναμικός προγραμματισμός. - PowerPoint PPT Presentation

Citation preview

Page 1: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ

Δυναμικός Προγραμματισμός

Παντελής Μπάγκος

Page 2: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Δυναμικός Προγραμματισμός

• Στοίχιση (τοπική-ολική)

• RNA secondary structure prediction

• Διαμεμβρανικά τμήματα

• Hidden Markov Models

• Άλλες εφαρμογές

Page 3: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Στοίχιση

• Ολική

• Τοπική

• Ειδικές περιπτώσεις

Page 4: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Δυναμικός προγραμματισμός

Page 5: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Δυο περιπτώσεις στοιχίσεων

( 1, 1) ( , ),

( , ) max ( 1, ) ,

( , 1)

i jF i j s x y

F i j F i j d

F i j d

F(i,0)=-id,F(0,j)=-jd

( 1, 1) ( , ),

( 1, ) ,( , ) max

( , 1) ,

0

i jF i j s x y

F i j dF i j

F i j d

F(i,0)=0,F(0,j)=0

Page 6: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Ποινές για τα κενά (gap penalties)

gdg )(

egdg )1()(

Απλή ποινή για τα κενά:

Σύνθετη ποινή για τα κενά:

Page 7: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Παράδειγμα

CAGTATCGCAyAAGTTAGCAGx

ii

ii

ii yx

yxyxs

αν ,1

αν ,1),(

d=1

A A G T – T A G C A GC A G T A T C G C A -

Έστω δυο ακολουθίες:

Αν έχουμε για τα κενά:

Τότε η καλύτερη ολική στοίχιση θα είναι:

Page 8: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Ολική στοίχιση…

A A G T – T A G C A GC A G T A T C G C A -

Page 9: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Τοπική στοίχιση…

A G T – T A G C A A G T A T C G C A

Page 10: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Άλλοι αλγόριθμοι

• Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή)

• Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερηΈστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία:

και η αλληλουχία του υποκινητή είναι

GCCCGGAAGCATGATAGCTCGCGGTATGx

TATAATy

Page 11: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

συνέχεια…

( 1, 1) ( , ),

( , ) max ( 1, ) ,

( , 1)

i jF i j s x y

F i j F i j d

F i j d

F(i,0)=-id F(0,j)=0.

Page 12: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

C A T G A T

Και η ακολουθία του πιθανού υποκινητή είναι:

Page 13: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

RNA secondary structure prediction

Page 14: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Nussinov

Page 15: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 16: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Διαμεμβρανικά τμήματα

N

C

C

N

IN

OUT

IN

OUT

Page 17: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 18: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 19: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 20: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 21: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ ...

Εκτίμηση• Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας

ακολουθίας συμβόλων. P(x|θ)Αποκωδικοποίηση • Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την

οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων.

Εκπαίδευση • Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να

μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών

θML=argmaxP(x|θ)

),(maxarg*

xP

Page 22: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

... και οι απαντήσεις τους

Εκτίμηση• Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που

υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων).

Αποκωδικοποίηση • Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω

αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST).

Εκπαίδευση • Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική

περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).

Page 23: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Αλγόριθμος Forward

Page 24: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 25: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 26: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Αλγόριθμος Viterbi

Page 27: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Αποκωδικοποίηση forward

Page 28: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

“Εκ των υστέρων” αποκωδικοποίηση)|( xkP i Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα:

δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση

Κάνοντας χρήση των Forward και Backward:

Page 29: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Πλεονεκτήματα:

• στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες.

• όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ.

Μειονεκτήματα:

• Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).

Page 30: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Συνοπτικά ο αλγόριθμος

• Υπολογισμός των Α και Ε

• Υπολογισμός των ΕΜΠ

• Επανάληψη μέχρι να συγκλίνει

Page 31: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Ένα παράδειγμα...

Page 32: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

συνέχεια...

Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::

1 1 000.0.9090 0. 0.10100.10 0.900.10 0.90

Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::

ΑΑ ΤΤ G C G C0.0.7700 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525

1

0

1

0

Page 33: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

συνέχεια...

AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA111111111100000000000001111111111100000000000000111111110000000000001 AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA00000000000000001111111111111100000000000000000011111111111111

Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο:

Page 34: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

συνέχεια...

Page 35: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

συνέχεια...

Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν:

Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::

1 1 000.0.9898 0. 0.02020.0.0303 0.9 0.977

Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::

ΑΑ ΤΤ G C G C0.0.6060 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525

10

10

Page 36: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

συνέχεια...

Page 37: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Posterior-Viterbi decodingΟρίζονται οι επιτρεπτές μεταβάσεις:

Page 38: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Optimal Accuracy Posterior Decoding

Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι:

Συνολικά:

Page 39: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 40: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 41: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Άλλες εφαρμογές

• Fold recognition

• Threading

• Domain recognition

Page 42: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Fold recognition

Page 43: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Threading• Protein threading is the problem of aligning a protein sequence whose structure we

want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.

Page 44: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Domain recognition

Page 45: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 46: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Transformational Grammars

“Colourless green ideas sleep furiously”

Chomsky

Page 47: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 48: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

A transformational grammar consists of a number of symbols and a number of rewriting rules (productions) of the form:

a→b,

where a and b are both strings of symbols.

i.e.: C → cN, C → E

There are two types of symbols:

-abstract nonterminal symbols

-terminal (observable) symbols)

Page 49: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Production rules• Regular grammars: only productions of the form W →aW or

W →a• Context-free grammars: productions of the form W →β.

Left: just one non-terminal, right: any string• Context-sensitive grammars: productions of the form

α1Wα2 →a1βa2

• Unrestricted grammars: any production of the form α1Wα2 →γ

W: any non terminal, a: any terminal, α, γ: any string of nonterminals and/or terminals including null

stringβ: any string of nonterminals and/or terminals not including null

string

Page 50: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 51: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Regular Expressions

[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

Page 52: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Ισοδυναμία…

S → rW1|kW1

W1 → gW2

W2 → [afilmnqrstvwy]W3

W3 → [agsci]W4

W4 → fW5|yW5

W5 → lW6|iW6|vW6|aW6

W6 → [acdefghiklmnpqrstvwy]W7

W7 → f|y|m

[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

Page 53: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Stochastic Grammars?…the notion “probability of a sentence” is an entirely

useless one, under any known interpretation of this term.

— Noam Chomsky

(famed linguist)

Every time I fire a linguist, the performance of the

recognizer improves.

— Fred Jelinek

(former head of IBM speech recognition group)

Page 54: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

HMMs and Regular grammars

Page 55: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Modeling (allowed) transitions explicitly:

B → L | F | E

L → L | F | E

L → L | F | E

In the notation of the grammars, these are the nonterminal symbols

Modeling emission explicitly (no probab. here):

in state F: a | c | g | t

in state L: a | c | g | t

In the notation of the grammars, these are the terminal symbols

Page 56: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Όλα μαζί…

Together: Modelling each combination of state and transition explicitly:B → aL | cL | gL | tL | aF | cF | gF | tF | EL → aL | cL | gL | tL | aF | cF | gF | tF | EF → aL | cL | gL | tL | aF | cF | gF | tF | E

P( B → aL ) = P(B) * P(a|L)P( L → aF ) = P(F| L) *P(a|F)These are the – so called – rewriting rules

Page 57: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

That‘s all we need to define a stochastic regular grammar !

• Finite alphabet of terminal symbols

(a,c,g,t)

• Finite set of nonterminal symbols

(B,L,F,E)

• A set of rewriting rules

(B -> aF, L -> cF, ...)

• Probabilities

P(B->aL) …

Page 58: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Hidden states Non-terminals

Transition matrix Rewriting rules

Emission matrix Terminals

Probabilities Probabilities

Page 59: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Example: possible regular grammar

N → aF | cF | gF | tF | aL | cL | gL | tL | E

0,1 0,1 0,3 ...

B → aF | cF | gF | tF | aL | cL | gL | tL | E

0,2 0,1 0,2 ...

C → aF | cF | gF | tF | aL | cL | gL | tL | E

0,1 0,3 0,2 ...

An example derivation from the above grammar is:

B → aF → aaL → aacL → aactF → aactE

Finite State Automata: Meale, Moore

Page 60: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Αδυναμίες των Regular Grammars

• Regular language

a b a a a b

• Palindrome language

a a b b a a

• Copy language

a a b a a b

Page 61: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

•“ΝΙΨΟΝ ΑΝΟΜΗΜΑΤΑ ΜΗ ΜΟΝΑΝ ΟΨΙΝ.”

•“Doc, note. I dissent. A fast never prevents a fatness. I diet on cot.”

•RNA secondary structureaggccuaaauagaucuag...

((()))...(((())))....

Παλίνδρομες Γλώσσες

Page 62: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 63: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Context-free grammars

• Στο context-free grammar, στο αριστερό σκέλος πρέπει να έχουμε ένα και μόνο non-terminal, αλλά στο αριστερό οποιόνδήποτε συνδυασμό terminal και non-terminal

• S →aSa|bSb|aa|bb• S aSa aaSaa aabSbaa aabaabaa⇒ ⇒ ⇒ ⇒• To parsing γίνεται με τα Push-down

automata

Page 64: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Context-free grammars for RNA

Page 65: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 66: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Chomsky Normal form

• W1→W2W3 or W1→a

• Κάθε γραμματική μπορεί να πάρει τη μορφή αυτή

• Ιδιαίτερα χρήσιμη για τους αλγορίθμους

Page 67: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Stochastic Context-free grammars (SCFGs)

• Σε κάθε κανόνα ανατίθεται μια πιθανότητα• Βασικό πλεονέκτημα, η προφανής

επέκταση και εκλέπτυνση των αποτελεσμάτων (όπως για παράδειγμα από Regular expression σε ΗΜΜ)

• Παράδειγμα: Μπορεί να επιτρέπουμε (με διαφορετικές, και μικρές πιθανότητες) το «λαθεμένο» ζευγάρωμα G-U, C-A

Page 68: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Τα βασικά ερωτήματα σε ένα SCFG

1. Πως θα επιτύχουμε την καλύτερη στοίχιση μιας ακολουθίας με μια γραμματική (alignment-parsing problem)

2. Υπολογισμός της πιθανότητας μιας ακολουθίας δεδομένης μιας γραμματικής (scoring problem)

3. Εύρεση των καλύτερων παραμέτρων μιας γραμματικής αν υπάρχουν γνωστά παραδείγματα (training problem)

Page 69: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Οι απαντήσεις τους

1. Cocke-Younger-Kasami (CYK) algorithm ⇒Αντίστοιχος του Viterbi στα ΗΜΜ

2. Inside (outside) algorithm ⇒ Αντίστοιχος του Forward (Backward)

3. Inside-Outside algorithm ⇒ Αντίστοιχος του Baum-Welch (Forward-Backward)

Page 70: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Αντιστοιχίες…

Στόχος ΗΜΜ SCFG

Βέλτιστη στοίχιση Viterbi CYK

P(x|θ) Forward Inside

EM algorithm Baum-Welch Inside-Outside

Memory complexity

O(LM) O(L2M)

Time complexity O(LM2) O(L3M3)

Page 71: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Άλλες προσεγγίσεις

• Nusinov algorithm

Μεγιστοποιεί το σύνολο των ζευγαριών βάσεων

• Zuker algorithm

Μεγιστοποιεί μια συνάρτηση ενέργειας (ΔG), η οποία αποδίδει καλύτερα

Και οι δυο αλγόριθμοι, μπορούν να γραφούν σε μια ίσοδύναμη μορφη SCFG

Page 72: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Ειδικές περιπτώσεις

Page 73: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Περιπτώσεις pseudoknots

Απαιτούνται ειδικές τροποποιήσεις για να ενσωματωθούν σε ένα SCFG

Page 74: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Επεκτάσεις

• ΗΜΜ→profile HMM

• SCFG→Covariance Model (CM)

Eddy and Durbin, 1994

Page 75: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Τι γίνεται με τις πρωτεΐνες?

Page 76: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Παραλλαγές

• Ranked Node Rewriting Grammar (RNRG)

• Multi-Tape S-Attributed Grammars (MTSAG)

Page 77: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Ranked Node Rewriting Grammar (RNRG)

Page 78: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Ranked Node Rewriting Grammar (RNRG)

Page 79: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Multi-Tape S-Attributed Grammars (MTSAG)

Page 80: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 81: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
Page 82: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Αποτελέσματα

Prediction of Bacteriorhodopsin (1AP9)

QAQITGRPEWIWLALGTALMGLGTLYFLVKGMGVSDPDAKKFYAITTLVPAIAFTMYLSMLLGYGLTMVPFGGEQNPIYWARYADWLFTTPLLLLDLALLVDAD

.......TTHHHHHHHHHHHTTHHHHHHHHSS..S.HHHHHHHHHHHHTHHHHHHHHHHHHTT.....SSS.SSS....STTHHHHTTTHHHHTTTTSTTTT..

.........MMMMMMMMMMMMMMMMMMMMMMMMMM......PMMPMMPPMMPPMMPPMMPMMPMMPMMP........PPMPPMPPMPPMPPMMPPMPPMPP...

.........PMMPMMPMMPMMPMMPMMPPMMPMMP......PMMPMMPPMMPPMMPPMMPPMMPPMMPP........PPMPPMPPMPPMPPMPPMMPMMPP...

QGTILALVGADGIMIGTGLVGALTKVYSYRFVWWAISTAAMLYILYVLFFGFTSKAESMRPEVASTFKVLRNVTVVLWSAYPVVWLIGSEGAGIVPLNIETLLF

HHHHHHHHHHHHHHHHHHHHHHS..SSS.HHHHHHHHHHHHHHHHHHHTTTTTTT..TT.SHHHHTTHHHHHHHHHHHHHHHHHHTTTTSSSSSS.SHHHHHHH

PPMPPMPPMPPMPPMMPMMPMMP.....PMMPMMPMMPMMPMMPPMMPPMPP..........PPMMPMMPMMPMMPMMPPMMPPMMP......PPMMPPMMPPM

PMMPPMPPMPPMMPMMPMMPMMP.....PMMPMMPMMPMMPPMPPMMPPMMP..........PMMPMMPPMMPMMPPMMPPMPPMPP......MMMMMMMMMMM

MVLDVSAKVGFGLILLRSRAIFGEAEAPEPSAGDGAAATS

HHHHHHHTHHHHTTTT........................

MPPMPPMMPMMPMMPP........................

MMMMMMMMMMMMMMMM........................

P residues brought into conctact by the helix pairing

Mresidues exposed to the membrane environment

Page 83: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Software • INFERNAL

http://infernal.wustl.edu/

• RNACAD http://www.cse.ucsc.edu/~mpbrown/rnacad/

• CONUShttp://www.genetics.wustl.edu/eddy/people/robin/conus/

• PKNOTSftp://ftp.genetics.wustl.edu/pub/eddy/software/pknots.tar.gz

• mtsag2chttp://bioweb.pasteur.fr/docs/doc-gensoft/mtsag2c/

• RNAUIhttp://www.uga.edu/RNA-Informatics/software/rnaui0_2.tar