Upload
katina
View
48
Download
14
Embed Size (px)
DESCRIPTION
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός. Παντελής Μπάγκος. Δυναμικός Προγραμματισμός. Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές. Στοίχιση. Ολική Τοπική Ειδικές περιπτώσεις. Δυναμικός προγραμματισμός. - PowerPoint PPT Presentation
Citation preview
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ
Δυναμικός Προγραμματισμός
Παντελής Μπάγκος
Δυναμικός Προγραμματισμός
• Στοίχιση (τοπική-ολική)
• RNA secondary structure prediction
• Διαμεμβρανικά τμήματα
• Hidden Markov Models
• Άλλες εφαρμογές
Στοίχιση
• Ολική
• Τοπική
• Ειδικές περιπτώσεις
Δυναμικός προγραμματισμός
Δυο περιπτώσεις στοιχίσεων
( 1, 1) ( , ),
( , ) max ( 1, ) ,
( , 1)
i jF i j s x y
F i j F i j d
F i j d
F(i,0)=-id,F(0,j)=-jd
( 1, 1) ( , ),
( 1, ) ,( , ) max
( , 1) ,
0
i jF i j s x y
F i j dF i j
F i j d
F(i,0)=0,F(0,j)=0
Ποινές για τα κενά (gap penalties)
gdg )(
egdg )1()(
Απλή ποινή για τα κενά:
Σύνθετη ποινή για τα κενά:
Παράδειγμα
CAGTATCGCAyAAGTTAGCAGx
ii
ii
ii yx
yxyxs
αν ,1
αν ,1),(
d=1
A A G T – T A G C A GC A G T A T C G C A -
Έστω δυο ακολουθίες:
Αν έχουμε για τα κενά:
Τότε η καλύτερη ολική στοίχιση θα είναι:
Ολική στοίχιση…
A A G T – T A G C A GC A G T A T C G C A -
Τοπική στοίχιση…
A G T – T A G C A A G T A T C G C A
Άλλοι αλγόριθμοι
• Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή)
• Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερηΈστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία:
και η αλληλουχία του υποκινητή είναι
GCCCGGAAGCATGATAGCTCGCGGTATGx
TATAATy
συνέχεια…
( 1, 1) ( , ),
( , ) max ( 1, ) ,
( , 1)
i jF i j s x y
F i j F i j d
F i j d
F(i,0)=-id F(0,j)=0.
C A T G A T
Και η ακολουθία του πιθανού υποκινητή είναι:
RNA secondary structure prediction
Nussinov
Διαμεμβρανικά τμήματα
N
C
C
N
IN
OUT
IN
OUT
Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ ...
Εκτίμηση• Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας
ακολουθίας συμβόλων. P(x|θ)Αποκωδικοποίηση • Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την
οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων.
Εκπαίδευση • Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να
μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών
θML=argmaxP(x|θ)
),(maxarg*
xP
... και οι απαντήσεις τους
Εκτίμηση• Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που
υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων).
Αποκωδικοποίηση • Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω
αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST).
Εκπαίδευση • Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική
περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).
Αλγόριθμος Forward
Αλγόριθμος Viterbi
Αποκωδικοποίηση forward
“Εκ των υστέρων” αποκωδικοποίηση)|( xkP i Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα:
δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση
Κάνοντας χρήση των Forward και Backward:
Πλεονεκτήματα:
• στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες.
• όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ.
Μειονεκτήματα:
• Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).
Συνοπτικά ο αλγόριθμος
• Υπολογισμός των Α και Ε
• Υπολογισμός των ΕΜΠ
• Επανάληψη μέχρι να συγκλίνει
Ένα παράδειγμα...
συνέχεια...
Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::
1 1 000.0.9090 0. 0.10100.10 0.900.10 0.90
Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::
ΑΑ ΤΤ G C G C0.0.7700 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525
1
0
1
0
συνέχεια...
AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA111111111100000000000001111111111100000000000000111111110000000000001 AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA00000000000000001111111111111100000000000000000011111111111111
Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο:
συνέχεια...
συνέχεια...
Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν:
Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::
1 1 000.0.9898 0. 0.02020.0.0303 0.9 0.977
Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::
ΑΑ ΤΤ G C G C0.0.6060 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525
10
10
συνέχεια...
Posterior-Viterbi decodingΟρίζονται οι επιτρεπτές μεταβάσεις:
Optimal Accuracy Posterior Decoding
Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι:
Συνολικά:
Άλλες εφαρμογές
• Fold recognition
• Threading
• Domain recognition
Fold recognition
Threading• Protein threading is the problem of aligning a protein sequence whose structure we
want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.
Domain recognition
Transformational Grammars
“Colourless green ideas sleep furiously”
Chomsky
A transformational grammar consists of a number of symbols and a number of rewriting rules (productions) of the form:
a→b,
where a and b are both strings of symbols.
i.e.: C → cN, C → E
There are two types of symbols:
-abstract nonterminal symbols
-terminal (observable) symbols)
Production rules• Regular grammars: only productions of the form W →aW or
W →a• Context-free grammars: productions of the form W →β.
Left: just one non-terminal, right: any string• Context-sensitive grammars: productions of the form
α1Wα2 →a1βa2
• Unrestricted grammars: any production of the form α1Wα2 →γ
W: any non terminal, a: any terminal, α, γ: any string of nonterminals and/or terminals including null
stringβ: any string of nonterminals and/or terminals not including null
string
Regular Expressions
[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]
Ισοδυναμία…
S → rW1|kW1
W1 → gW2
W2 → [afilmnqrstvwy]W3
W3 → [agsci]W4
W4 → fW5|yW5
W5 → lW6|iW6|vW6|aW6
W6 → [acdefghiklmnpqrstvwy]W7
W7 → f|y|m
[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]
Stochastic Grammars?…the notion “probability of a sentence” is an entirely
useless one, under any known interpretation of this term.
— Noam Chomsky
(famed linguist)
Every time I fire a linguist, the performance of the
recognizer improves.
— Fred Jelinek
(former head of IBM speech recognition group)
HMMs and Regular grammars
Modeling (allowed) transitions explicitly:
B → L | F | E
L → L | F | E
L → L | F | E
In the notation of the grammars, these are the nonterminal symbols
Modeling emission explicitly (no probab. here):
in state F: a | c | g | t
in state L: a | c | g | t
In the notation of the grammars, these are the terminal symbols
Όλα μαζί…
Together: Modelling each combination of state and transition explicitly:B → aL | cL | gL | tL | aF | cF | gF | tF | EL → aL | cL | gL | tL | aF | cF | gF | tF | EF → aL | cL | gL | tL | aF | cF | gF | tF | E
P( B → aL ) = P(B) * P(a|L)P( L → aF ) = P(F| L) *P(a|F)These are the – so called – rewriting rules
That‘s all we need to define a stochastic regular grammar !
• Finite alphabet of terminal symbols
(a,c,g,t)
• Finite set of nonterminal symbols
(B,L,F,E)
• A set of rewriting rules
(B -> aF, L -> cF, ...)
• Probabilities
P(B->aL) …
Hidden states Non-terminals
Transition matrix Rewriting rules
Emission matrix Terminals
Probabilities Probabilities
Example: possible regular grammar
N → aF | cF | gF | tF | aL | cL | gL | tL | E
0,1 0,1 0,3 ...
B → aF | cF | gF | tF | aL | cL | gL | tL | E
0,2 0,1 0,2 ...
C → aF | cF | gF | tF | aL | cL | gL | tL | E
0,1 0,3 0,2 ...
An example derivation from the above grammar is:
B → aF → aaL → aacL → aactF → aactE
Finite State Automata: Meale, Moore
Αδυναμίες των Regular Grammars
• Regular language
a b a a a b
• Palindrome language
a a b b a a
• Copy language
a a b a a b
•“ΝΙΨΟΝ ΑΝΟΜΗΜΑΤΑ ΜΗ ΜΟΝΑΝ ΟΨΙΝ.”
•“Doc, note. I dissent. A fast never prevents a fatness. I diet on cot.”
•RNA secondary structureaggccuaaauagaucuag...
((()))...(((())))....
Παλίνδρομες Γλώσσες
Context-free grammars
• Στο context-free grammar, στο αριστερό σκέλος πρέπει να έχουμε ένα και μόνο non-terminal, αλλά στο αριστερό οποιόνδήποτε συνδυασμό terminal και non-terminal
• S →aSa|bSb|aa|bb• S aSa aaSaa aabSbaa aabaabaa⇒ ⇒ ⇒ ⇒• To parsing γίνεται με τα Push-down
automata
Context-free grammars for RNA
Chomsky Normal form
• W1→W2W3 or W1→a
• Κάθε γραμματική μπορεί να πάρει τη μορφή αυτή
• Ιδιαίτερα χρήσιμη για τους αλγορίθμους
Stochastic Context-free grammars (SCFGs)
• Σε κάθε κανόνα ανατίθεται μια πιθανότητα• Βασικό πλεονέκτημα, η προφανής
επέκταση και εκλέπτυνση των αποτελεσμάτων (όπως για παράδειγμα από Regular expression σε ΗΜΜ)
• Παράδειγμα: Μπορεί να επιτρέπουμε (με διαφορετικές, και μικρές πιθανότητες) το «λαθεμένο» ζευγάρωμα G-U, C-A
Τα βασικά ερωτήματα σε ένα SCFG
1. Πως θα επιτύχουμε την καλύτερη στοίχιση μιας ακολουθίας με μια γραμματική (alignment-parsing problem)
2. Υπολογισμός της πιθανότητας μιας ακολουθίας δεδομένης μιας γραμματικής (scoring problem)
3. Εύρεση των καλύτερων παραμέτρων μιας γραμματικής αν υπάρχουν γνωστά παραδείγματα (training problem)
Οι απαντήσεις τους
1. Cocke-Younger-Kasami (CYK) algorithm ⇒Αντίστοιχος του Viterbi στα ΗΜΜ
2. Inside (outside) algorithm ⇒ Αντίστοιχος του Forward (Backward)
3. Inside-Outside algorithm ⇒ Αντίστοιχος του Baum-Welch (Forward-Backward)
Αντιστοιχίες…
Στόχος ΗΜΜ SCFG
Βέλτιστη στοίχιση Viterbi CYK
P(x|θ) Forward Inside
EM algorithm Baum-Welch Inside-Outside
Memory complexity
O(LM) O(L2M)
Time complexity O(LM2) O(L3M3)
Άλλες προσεγγίσεις
• Nusinov algorithm
Μεγιστοποιεί το σύνολο των ζευγαριών βάσεων
• Zuker algorithm
Μεγιστοποιεί μια συνάρτηση ενέργειας (ΔG), η οποία αποδίδει καλύτερα
Και οι δυο αλγόριθμοι, μπορούν να γραφούν σε μια ίσοδύναμη μορφη SCFG
Ειδικές περιπτώσεις
Περιπτώσεις pseudoknots
Απαιτούνται ειδικές τροποποιήσεις για να ενσωματωθούν σε ένα SCFG
Επεκτάσεις
• ΗΜΜ→profile HMM
• SCFG→Covariance Model (CM)
Eddy and Durbin, 1994
Τι γίνεται με τις πρωτεΐνες?
Παραλλαγές
• Ranked Node Rewriting Grammar (RNRG)
• Multi-Tape S-Attributed Grammars (MTSAG)
Ranked Node Rewriting Grammar (RNRG)
Ranked Node Rewriting Grammar (RNRG)
Multi-Tape S-Attributed Grammars (MTSAG)
Αποτελέσματα
Prediction of Bacteriorhodopsin (1AP9)
QAQITGRPEWIWLALGTALMGLGTLYFLVKGMGVSDPDAKKFYAITTLVPAIAFTMYLSMLLGYGLTMVPFGGEQNPIYWARYADWLFTTPLLLLDLALLVDAD
.......TTHHHHHHHHHHHTTHHHHHHHHSS..S.HHHHHHHHHHHHTHHHHHHHHHHHHTT.....SSS.SSS....STTHHHHTTTHHHHTTTTSTTTT..
.........MMMMMMMMMMMMMMMMMMMMMMMMMM......PMMPMMPPMMPPMMPPMMPMMPMMPMMP........PPMPPMPPMPPMPPMMPPMPPMPP...
.........PMMPMMPMMPMMPMMPMMPPMMPMMP......PMMPMMPPMMPPMMPPMMPPMMPPMMPP........PPMPPMPPMPPMPPMPPMMPMMPP...
QGTILALVGADGIMIGTGLVGALTKVYSYRFVWWAISTAAMLYILYVLFFGFTSKAESMRPEVASTFKVLRNVTVVLWSAYPVVWLIGSEGAGIVPLNIETLLF
HHHHHHHHHHHHHHHHHHHHHHS..SSS.HHHHHHHHHHHHHHHHHHHTTTTTTT..TT.SHHHHTTHHHHHHHHHHHHHHHHHHTTTTSSSSSS.SHHHHHHH
PPMPPMPPMPPMPPMMPMMPMMP.....PMMPMMPMMPMMPMMPPMMPPMPP..........PPMMPMMPMMPMMPMMPPMMPPMMP......PPMMPPMMPPM
PMMPPMPPMPPMMPMMPMMPMMP.....PMMPMMPMMPMMPPMPPMMPPMMP..........PMMPMMPPMMPMMPPMMPPMPPMPP......MMMMMMMMMMM
MVLDVSAKVGFGLILLRSRAIFGEAEAPEPSAGDGAAATS
HHHHHHHTHHHHTTTT........................
MPPMPPMMPMMPMMPP........................
MMMMMMMMMMMMMMMM........................
P residues brought into conctact by the helix pairing
Mresidues exposed to the membrane environment
Software • INFERNAL
http://infernal.wustl.edu/
• RNACAD http://www.cse.ucsc.edu/~mpbrown/rnacad/
• CONUShttp://www.genetics.wustl.edu/eddy/people/robin/conus/
• PKNOTSftp://ftp.genetics.wustl.edu/pub/eddy/software/pknots.tar.gz
• mtsag2chttp://bioweb.pasteur.fr/docs/doc-gensoft/mtsag2c/
• RNAUIhttp://www.uga.edu/RNA-Informatics/software/rnaui0_2.tar