NP-completeness of the energy barrier problem without pseudoknots and temporary arcsJan Manuch, Chris Thachuk, Ladislav Stacho, Anne CondonNat Comput (2011) 10:391-405
Δαμιανός Μελίδης39745ο Έτος[email protected]
1
21/04/23
Εισαγωγή• Θα μετελήσουμε την υπολογιστική πολυπλοκότητα μιας «απλής» εκδοχής του προβλήματος
energy barrier στις διαμορφώσεις των DNA και RNA μακρομορίων.• Δηλαδή υπάρχει αποδοτικός αλγόριθμος ο οποίος να βρίσκει ποιό ενεργειακό κατώφλι πρέπει να
ξεπεραστεί απο το μακρομόριο, ώστε να προσαρμοστεί σε μια δοσμένη τελική (δευτεροταγή) δομή, δεδομένης μιας αρχικής;
• Θα αποδείξουμε πως αυτό το πρόβλημα είναι NP-πλήρες.
2
21/04/23
Γιατί; (Κινητοποίηση)• Η δευτεροταγής δομή και το μονοπάτι αναδίπλωσης είναι σημαντικά για την κατανόηση της
λειτουργίας του RNA στο κύτταρο.• Η γνώση ενεργειακών κατωφλίων σε ενδιάμεσες (αναδιπλωμένες) δομές απο την ανοιχτή
αλυσίδα στην τελική διπλωμένη διαμόρφωση είναι χρήσιμη στην κατανόηση της απόδοσης των αναδιπλώσεων και της δομής.
• Μέθοδοι προσομείωσης DNA και RNA μοναπατιών αναδίπλωσης χρησιμοποιούν πιθανοτικές μεθόδους υπολογισμού ενεργειακών κατωφλίων.
• Ευρετικές μέθοδοι υπολογισμού ενεργειακών κατωφλίων χρησιμοποιούνται για την οπτικοποίηση energy landscapes και την ανακάλυψη ιδιοτήτων διαταραγμένων συστημάτων.
3
21/04/23
Ορισμοί (Μοντέλο Ακμών)
• Δευτεροταγής Δομή T ενός RNA μακρομορίου μήκους n είναι ένα σύνολο απο ζεύγη βάσεων i.j, με 1 ≤ i < j ≤ n, ώστε▫ κάθε δείκτης i ή j να βρίσκεται το πολύ σε ένα ζεύγος βάσεων▫ Τα ζεύγη σχηματίζουν ένα ζεύγος βάσεων Watson-Crick (C-G, A-U ή A-T)
• Αντιστοιχίζουμε μια ακμή για κάθε ζεύγος βάσεων i.j.• Απλό μοντέλο ενέργειας για την δευτεροταγή δομή: κάθε ακμή συνεισφέρει ενέργεια -1
▫ Συμβολίζουμε την ενέργεια της δευτεροταγούς δομής T, ως E(T)
21/04/23
4
Ορισμοί (Μονοπάτι Αναδίπλωσης)
• Μονοπάτι αναδίπλωσης: μια ακολουθία απο δευτεροταγείς δομές (χωρίς διασταύρουμενες ακμές) του μακρομορίου, κάθε μια διαφέρει απο την προηγούμενη της λόγω προσθήκης ή διαγραφής μιας μόνο ακμής.
• Direct μονοπάτι αναδίπλωσης απο την I στην F: Μονοπάτι στο οποίο προστίθονται ακμές μόνο απο το |F-I| και αφαιρούνται μόνο απο το |I-F|.
• Pseudoknot-free δομή: Δομή η οποία δεν περιέχει διασταύρουμενες ακμές.• Band Ακμών: Σύνολο ένθετων ακμών, στο οποίο κάθε μια τέμνει το ίδιο σύνολο ακμών -> Χρήση
αθροιστικού βάρος για τέτοιου είδους ακμές Ii.• Transformation Sequence: Ακολουθία πράξεων ακμών οι οποίες ορίζουν μοναδικά ένα μονοπάτι
αναδίπλωσης.
21/04/23
5
Ορισμοί (Μοντέλο Ενέργειας)
• Το κατώφλι ενέργειας ενός direct pseudoknot-free μονοπατίου ( I = T0, T1, … , Tr = F) απο την αρχική δομή I στην τελική δομή F είναι η μεγαλύτερη διαφορά ενέργειας μεταξύ οποιαδήποτε ενδιάμεσης δομής και της αρχικής I, δηλαδή max( E(Ti) – E(I) ), 1 ≤ i ≤ r.
• Η διαφορά ενέργειας κάθε ενδιάμεσης διαμόρφωσης Ti ισούται με E(Ti) – E(I).• Διαμόρφωση: ένα σύνολο ακμών , με αθροιστικό βάρος.
• Ενέργεια διαμόρφωσης I: E(I) = - .
21/04/23
6
Ορισμοί (DPKF-EB + 3-Partition)
• DPKF-EB: Δεδομένων δύο pseudoknot-free διαμορφώσεων Ι= (αρχική) και F= (τελική) και ενός ακεραίου k, υπάρχει μια direct pseudoknot-free transformation sequence S, τέτοια ώστε το ενεργειακό της κατώφλι να είναι το πολύ k.
• 3-PARTITION: Δοσμένων 3n ακεραίων α1, ..., α3n, τέτοιων ώστε α1+ ...+ α3n = nA και για κάθε i A/4 < αi < A/2. Υπάρχει διαίρεση των ακεραίων {1, ..., 3n} σε ξένες τριάδες G1, G2, …, Gn, έτσι ώστε c(Gi) = για κάθε i = 1, …, n.
• Θεώρημα 1 (Garey and Johnson 1979): To 3-PARTITION πρόβλημα είναι NP-πλήρες ακόμα και αν το Α είναι πολυώνυμο του n.
• Θα αποδείξουμε πως το DPKF-EB είναι NP-πλήρες, χρησιμοποιώντας αναγωγή στο 3-PARTITION.
21/04/23
7
NP-πληρότητα (NP διαγνώστης)
• DPKF-EB ανήκει NP:▫ Έστω Μ αντιαιτιοκρατική μηχανή = ‘με εισόδους I, F δομές και κατώφλι κ 1. Διαλέγουμε μη-ντετερμινιστικά ένα μονοπάτι αναδίπλωσης απο την I στην F.2. Αν το κατώφλι ενέργειας ≤ κ, Αποδεχόμαστε αλλιώς Απορρίπτουμε’Η μηχανή εκτελείται σε γραμμικό χρόνο συναρτήσει των εισόδων
21/04/23
8
NP-πληρότητα (3-Partition => DPKF-EB 1/3)
• Θεωρούμε ένα στιγμιότυπο του 3-Partition με Α/2 > α1 ≥ ... ≥ α3n > Α/4, ώστε = nA και A να είναι πολυώνυμο του n.
• Για ένα στιγμιότυπο του DPKF-EB, ορίζω ως αρχική διαμόρφωση I το σύνολο των αθροιστικών ακμών { ; j = 1, …, 3n, i = 1, …, n} { ; j = 1, …, 3n, i = 1, …, n} { ; j = 1, …, 3n, i = 1, …, n} και τελική διαμόρφωση F { ; j = 1, …, 3n, i = 1, …, n} { ; j = 1, …, 3n, i = 1, …, n}
21/04/23
9
NP-πληρότητα (3-Partition => DPKF-EB 2/3)
Ιδέα: Πως μπορώ να οργανώσω τα αθροιστικά βάρη των ακμών της αρχικής και τελικής
δομής και την ακολουθία αφαιρέσεων ακμών της I και προσθέσεων της F, ώστε να βρω ένα μονοπάτι αναδίπλωσης το οποίο να μην ξεπερνά το δοσμένο κατώφλι ενέργειας;
• Ορισμός αθροιστικών βαρών:▫ = 4iaj, = k – (j-1)A – 4iaj, = k – jA, για κάθε i = 1, …, n και j = 1, …, 3n▫ = k – (7n - 4)A, = k – (6n + 8)nA – 4(n-1)iA, για κάθε i = 2, …, n▫ = k – (6n + 8)nA, για κάθε i = 1, …, n-1, = k▫ Και για το κατώφλι ισχύει k > 4( 5 + n + 1) A
• Ορισμός ακολουθίας προσθέσεων/αφαιρέσεων:▫ Αν το 3-Partition έχει ως αποδεκτό στιγμιότυπο το G1, …, Gn όπου Gi ={ ji,1, ji,2, ji,3} και
έστω f(j) = i αν j ανήκει στο Gi, για κάθε j = 1, …, 3n, τότε η επόμενη ακολουθία δεν ξεπερνά το k
21/04/23
10
NP-πληρότητα (3-Partition => DPKF-EB 3/3)
• Το διάγραμμα διαφοράς ενέργειας για την προηγούμενη ακολουθία είναι:
• Παράδειγμα: θέλουμε να χωρίσουμε το σύνολο {10,9,8,7,7,7} ώστε να λύνεται το 3-Partition πρόβλημα.
21/04/23
11
NP-πληρότητα (DPKF-EB => 3-Partition)
• Έστω πως υπάρχει ακολουθία S προσθέσεων και αφαιρέσων η οποία έχει pseudoknot–free ακμές και δεν ξεπερνά το κατώφλι ενέργειας k.
• Η υπακολουθία S+ προσθηκών ορίζει όλη την S.• Έστω το πρόθεμα της S+ πριν την προσθήκη της Tl , δηλαδή +Αj1,i1, +Αj2,i2, ..., +ΑjM,iM
• Χρησιμοποιούμε αυτό το πρόθεμα για να ορίσουμε μια λύση του προβλήματος 3-Partition όπου Gi
= {jl; il = i} για κάθε i = 1, …, n.• Απο τα λήμματα 2 και 6 τα Gi ή μια μικρή μετάθεση των στοιχείων τους ικανοποιεί το 3-Partition
πρόβλημα• Η αναγωγή είναι ανάλογη του αθροίσματος των βαρών όλων των ακμών της I και F, δηλαδή
( + + ( + + ) ) < n * 2k + 3 * 2k = O( k ) = O( A), αφού υποθέσαμε πως το Α
είναι πολυώνυμο του n.
Θεώρημα 2: Αφού το πρόβλημα DPKF-EB ανήκει στο NP και το 3-Partition ανάγεται σε πολυωνυιμκό χρόνο σε αυτό, το πρόβλημα είναι NP-πλήρες.
21/04/23
12
Συμπεράσματα• Αποδείχτηκε πως μόνο αν NP = P, υπάρχει πολυωνυμικός αλγόριθμος για τον υπολογισμό του
κατωφλίου ενέργειας των direct μονοπατιών αναδίπλωσης.▫ Μπορούμε να βρούμε αποδοτικό αλγόριθμο ο οποίος να δουλεύει καλά στις περισσότερες περιπτώσεις
• Υπάρχουν εκθετικά πολλά προθέματα της μορφής S+ που δεν ξεπερνούν το κατώφλι k, όμως μπορεί μόνο ένα να αντιστοιχεί σε αληθές στιγμιότυπο του 3-Partition, οπότε χρησιμοποιώντας μια τυχαία διαδικασία για την παραγωγή των ακολουθιών θα χρειαστούμε εκθετικό χρόνο αναζήτησης.
• Μελοντική Εργασία: Μελέτη του προβλήματος όταν το μονοπάτι αναδίπλωσης δεν είναι direct και σε αυτό υπάρχουν repeat και temporary ακμές.
21/04/23
13
Βίντεο (Folding Kinetics of a YES RNA logic gate in the OFF state)
21/04/23
14