58
1 Αντώνιος Δεληγιαννάκης Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες Προσέγγιση Δεδομένων με Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες Πολλαπλές Μετρήσιμες Ποσότητες Αντώνιος Δεληγιαννάκης Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland

Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Embed Size (px)

DESCRIPTION

Προσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες. Αντώνιος Δεληγιαννάκης Πανεπιστήμιο του Maryland. Διάγραμμα. Εισαγωγή Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures) Εφαρμογές προσέγγισης τέτοιων δεδομένων Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση Σχετική Έρευνα - PowerPoint PPT Presentation

Citation preview

1Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προσέγγιση Δεδομένων μεΠροσέγγιση Δεδομένων μεΠολλαπλές Μετρήσιμες Πολλαπλές Μετρήσιμες

ΠοσότητεςΠοσότητες

Αντώνιος ΔεληγιαννάκηςΑντώνιος ΔεληγιαννάκηςΠανεπιστήμιο του Maryland

2Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα

Εισαγωγή– Δεδομένα με πολλαπλές μετρήσιμες ποσότητες

(measures)

– Εφαρμογές προσέγγισης τέτοιων δεδομένων

– Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση

Σχετική Έρευνα– Wavelets (εκτενή περιγραφή)

Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα)

Προσέγγιση χρονοσειρών Συμπεράσματα

3Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Δεδομένα με Πολλαπλές Μετρήσιμες Δεδομένα με Πολλαπλές Μετρήσιμες ΠοσότητεςΠοσότητες

Συνήθως τα δεδομένα αποτελούνται από:– Διαστάσεις (dimensions)

• Περιγράφουν τις συλλεγόμενες ποσότητες

– Μετρήσιμες ποσότητες (measures)• Αριθμητικές τιμές

Δεδομένα Πωλήσεων Προϊόντων– Διαστάσεις: Προϊόν, Πελάτης, Ώρα Πώλησης

– Μετρήσιμες ποσότητες: Τιμή αγοράς/πώλησης, κόστη μεταφοράς/αποθήκευσης...

Συλλογή Δικτυακών Μετρήσεων– Διάσταση: Χρόνος Συλλογής

– Μετρήσιμες ποσότητες: Εισερχόμενα/εξερχόμενα πακέτα/bits, επιχειρούμενες συνδέσεις...

4Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ανάγκη Προσέγγισης ΔεδομένωνΑνάγκη Προσέγγισης Δεδομένων

Μέγεθος δεδομένων μπορεί να είναι σε GB/TB– Αργή απόκριση σε ερωτήσεις

Δεν χρειάζεται πάντα 100% ακρίβεια– Εξερευνητικές ερωτήσεις σε συστήματα εξόρυξης

δεδομένων

– Ερωτήσεις ομαδοποίησης (aggregate queries) σε συστήματα υποστήριξης αποφάσεων (DSS)

Προσέγγιση για λόγους συμπίεσης (εικόνες)– Συμπίεση χρήσιμη και στη μεταφορά δεδομένων

(δίκτυα αισθητήρων)

5Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προσέγγισης ΔεδομένωνΠροσέγγισης Δεδομένων Λύση: κατασκευή Συνόψεων Δεδομένων

– Μέγεθος σύνοψης << μέγεθος δεδομένων

– Γρήγορη απόκριση σε ερωτήσεις

Τύποι Συνόψεων– Ιστογράμματα, Wavelets, Δειγματοληψία, Σχέδια (sketches)

SQL Ερώτηση

Ακριβής Απάντηση

Συστήμα Συστήμα ΥποστήριξηΥποστήριξης ς ΑποφάσεωνΑποφάσεων

GB/TB

Σύνοψη Σύνοψη ΔεδομένωνΔεδομένων

“Μετασχηματισμένη” Ερώτηση

KB/MBΠροσεγγιστική Απάντηση

6Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Τι συμβαίνει στο πρόβλημα μας?Τι συμβαίνει στο πρόβλημα μας?

Δεδομένα είναι πλειάδες (tuples) με D+M πεδία– D διαστάσεις

– M μετρήσιμες ποσότητες

Μόνη εύκολα επεκτάσιμη μέθοδος: Δειγματοληψία Άλλες τεχνικές περισσότερο αυτόνομες

– Κατανομή συνολικού χώρου σύνοψης

– Κάθε μετρήσιμη ποσότητα προσεγγίζεται ξεχωριστά

• Διαφορετικοί κουβάδες (buckets) για τα ιστογράμματα

• Διαφορετικοί συντελεστές (coefficients) για τα wavelets

Λιγότερος χώρος για κάθε μετρήσιμη ποσότητα– Για T πλειάδες, και α% χώρο για σύνοψη

• wavelet συντελεστές για κάθε μετρήσιμη ποσότητα )1(100

)(

DM

MDaT

7Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μπορούμε να κάνουμε κάτι καλύτερο?Μπορούμε να κάνουμε κάτι καλύτερο?

Έξυπνη κατανομή χώρου– Διαφορετική δυσκολία προσέγγισης κάθε μετρήσιμης

ποσότητας

Εκμετάλλευση συσχετίσεων (correlation) μεταξύ ποσοτήτων– Ολικών ή σε ορισμένες περιοχές των δεδομένων

Εκμετάλλευση εξαρτήσεων στην αποθήκευση των συνόψεων– Πχ, κοινές συντεταγμένες συντελεστών στα wavelets

8Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα

Εισαγωγή– Δεδομένα με πολλαπλές μετρήσιμες ποσότητες (measures)

– Εφαρμογές προσέγγισης τέτοιων δεδομένων

– Προκλήσεις/Δυσκολίες για ακριβή προσέγγιση

Σχετική Έρευνα– Wavelets κατασκευή

– Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος

Προσέγγιση με Wavelets (πολυδιάστατα δεδομένα) Προσέγγιση χρονοσειρών Συμπεράσματα

9Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

WaveletsWavelets

Ιεραρχική ανάλυση συναρτήσεων/σημάτων Εφαρμογές σε:

– Επεξεργασία Εικόνων και Σημάτων (WALRUS: [NRS99])

– Εκτίμηση Επιλεκτικότητας (selectivity estimation) [MVW98]

– Ερωτήσεις Άθροισης Περιοχών (Range-Sum) σε κύβους δεδομένων [VWI98, VW99]

– Προσεγγιστική Επεξεργασία Ερωτήσεων [CGRS00]

10Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

WaveletsWavelets (συν.) (συν.)

Διεργασία 2 βημάτων– Ανάλυση δεδομένων και παραγωγή wavelet συντελεστών

– Επιλογή συντελεστών για αποθήκευση

Συντελεστές σώζονται ως πλειάδες με D+1 πεδία– D συντεταγμένες (1 για κάθε διάσταση)

– “Κανονικοποιημένη” τιμή συντελεστή

Συνήθης στόχος: Ελαχιστοποίηση μέσου τετραγωνικού σφάλματος

Πιθανοτικές Wavelet Συνόψεις με Εγγυήσεις Σφάλματος [GG02]

11Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Α. Ανάλυση με Α. Ανάλυση με Haar WaveletsHaar Wavelets WaveletsWavelets:: Ιεραρχική ανάλυση συναρτήσεων Haar waveletsHaar wavelets:: απλούστερη βάση των wavelets

– Αναδρομικός υπολογισμός μέσου όρου και μέσης διαφοράς μεταξύ ζευγών από τιμές

Ανάλυση Μέσοι Όροι Συντελεστές

[2, 8, 3, 3]

[5, ] [-3, ]

[4] [1]

----2

1

0

[5, 3] [-3, 0]

Συντεταγμένη Τιμή

-31

4

210

3 0

12Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Haar Wavelet Haar Wavelet ΣυντελεστέςΣυντελεστές Απεικόνιση στο Δέντρο Σφάλματος

(Error Tree) Συντελεστές συντελούν στην

εκτίμηση 2level δεδομένων

Ερωτήσεις Σημείων (point queries): – Συντελεστές σε μονοπάτι προς

δεδομένο Ερωτήσεις Εύρους (range queries):

– Συντελεστές σε μονοπάτι προς κάτω και άνω όρια του εύρους

Ανάλυση Μέσοι Όροι Συντελεστές

[2, 8, 3, 3]

[4] [1]

----2

1

0

[5, 3] [-3, 0]

Data 2 8 3 3

-+

+ +- --3

1

4

0

1

-3

8 = 4 + 1 – (-3)

4

1

4

13 = 3*4 +1*(2-1)

0-3

13Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ψευδοκώδικας ΑνάλυσηςΨευδοκώδικας Ανάλυσης

// Οι δείκτες start, end ορίζουν περιοχή με μέγεθος δύναμη του 2

Decompose(A, start, end) { // επιστρέφει το μέσο όρο της περιοχής

if (end-start > 1) { // Αναδρομή σε 2 υποπεριοχές

Avg1 = Decompose(A, start, (start+end)/2)

Avg2 = Decompose(A, (start+end)/2 + 1, end)

} else {

Avg1 = A[start];

Αvg2 = A[end];

}

πρόσθεσε το συντελεστή με τιμή: (Avg1 – Avg2) / 2;

return (Avg1 + Avg2) / 2

}

14Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πολλαπλές ΔιαστάσειςΠολλαπλές Διαστάσεις Ανάλυση επεκτείνεται εύκολα σε πολλαπλές διαστάσεις Σύνολο τιμών είναι το ND (αντί για Ν σε 1-D)

– N: μέγιστο πεδίο τιμών σε οποιαδήποτε διάσταση

Επεξεργασία περιοχών μεγέθους δύναμης του 2D (αντί για 2)– Αναδρομή σε 2D υποπεριοχές

Οι 2D τιμές/μέσοι όροι περιοχών παράγουν:– 1 μέσο όρο της περιοχής

– 2D-1 συντελεστές (αντί για 2-1 = 1)

Πολλές υποπεριοχές είναι κενές (αραιά δεδομένα)– Δεν χρειάζεται αναδρομή σε αυτές

Δεδομένα χρειάζονται ταξινόμηση με βάση σειρά “επεξεργασίας” των δεδομένων

15Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Δέντρο ΣφάλματοςΔέντρο Σφάλματος Κάθε κόμβος έχει 2D παιδιά Κάθε κόμβος περιέχει μέχρι 2D-1 συντελεστές

+-+-

-+ + -

+

-+ ++--

+- -+ ++--

+-

-+ ++--

+-

-+ ++--

+-

16Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Β. Επιλογή Συντελεστών για Β. Επιλογή Συντελεστών για ΑποθήκευσηΑποθήκευση

Επιλογή εξαρτάται από σφάλμα για ελαχιστοποίηση

Ελαχιστοποίηση συνολικού τετραγωνικού (L2) σφάλματος– Κανονικοποίηση

– Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών

– Αποδεδειγμένα βέλτιστη λύση

17Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ελαχιστοποίηση Μέγιστου Σχετικού Ελαχιστοποίηση Μέγιστου Σχετικού ΣφάλματοςΣφάλματος L2 σφάλμα ακατάλληλο για συστήματα

αποφάσεων– Πόσο ακριβής είναι η απάντηση που παίρνω?

Ελαχιστοποίηση μέγιστου σχετικού σφάλματος:

• di: πραγματική τιμή δεδομένου i

• di: εκτιμούμενη τιμή δεδομένου i

• s: λογικό όριο

Καμία γνωστή αποδοτική λύση

}}}|,|max{

||{maxmin{

^

sd

dd

i

ii

^

18Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις [Πιθανοτικές Συνόψεις [GGGG02]02]

Προσπάθεια αντιμετώπισης του προβλήματος

Πιθανότητα 0 yi 1 επιλογής κάθε μη-μηδενικού

συντελεστή ci

Συντελεστής γίνεται τυχαία μεταβλητή:

E[Ci] = yi ci/yi + (1-yi) 0 = ci (αμερόληπτος

εκτιμητής)

Var(i,yi) = Var[Ci] = ci2 (1-yi)/yi

i

ii

i

i

yόy

c

C

10

0 ci

|]σύνοψηςE[| iy

19Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις (συν.)Πιθανοτικές Συνόψεις (συν.)

Κάθε δεδομένο είναι γραμμικός συνδυασμός συντελεστών Αναμενόμενη τιμή = πραγματική

Στόχος: Δεδομένου ενός ορίου αποθήκευσης Β, βρες τα yi,

ώστε να ελαχιστοποιείται το:

Data2 8 3 3

-+

+ +- --3

1

4

0

1

-3

8 = 4 + 1 – (-3)

4

)(

^

),()(ij dάc

ji yjVardVar

}|,max{|

)(max)(max

^^

sd

dVardNSE

i

i

ii

i

20Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις (συν.)Πιθανοτικές Συνόψεις (συν.)

Στη βέλτιστη λύση: – max NSE μέσω δεξιού και αριστερού

υποδέντρου είναι ίσα

– Σε κάθε υποδέντρο, το max NSE συμβαίνει για τη μικρότερη τιμή

Λύση δυναμικού προγραμματισμού– Σε κάθε κόμβο, ψάξε όλους τους

τρόπους ανάθεσης χώρου

• yi: στον τρέχον κόμβο

• bL: στο αριστερό υπόδεντρο

• Β-bL-yi: στο δεξί υπόδεντρο

Αναθέσεις χώρου πολ/σια 1/q (q 10)

Data2 8 3 3

-+

+ +- --3

1

4

0

21Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Πιθανοτικές Συνόψεις (συν.)Πιθανοτικές Συνόψεις (συν.)

Πολυπλοκότητες (1-D) για μέγεθος πεδίου τιμών N, χώρο B: – O(NqB) χώρο

– Ο(Nq2Blog(qB)) χρόνο

– O(qBlogN) ελάχιστη μνήμη

Πολυπλοκότητες (πολυδιάστατα δεδομένα) για Nz κόμβους

του δέντρου σφάλματος με μη μηδενικούς συντελεστές, χώρο B:

– O(2DNzqB) χώρο

– Ο(2DNzqB(qlog(qB)+D2D)) χρόνο

– O(2DqBlogN) ελάχιστη μνήμη

Για B=Θ(Ν), πολυπλόκοτητες τουλάχιστον τετραγωνικές στο Ν

22Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα

Εισαγωγή Σχετική Έρευνα Προσέγγιση με Wavelets (πολυδιάστατα

δεδομένα)– Δεδομένα με πολλαπλές μετρήσιμες ποσότητες

• Ελαχιστοποίηση μέσου τετραγωνικού και σχετικού σφάλματος

• Βέλτιστοι και greedy αλγόριθμοι

Προσέγγιση χρονοσειρών Συμπεράσματα

23Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Α. Μέσο τετραγωνικό σφάλμα (1 Α. Μέσο τετραγωνικό σφάλμα (1 ποσότητα)ποσότητα)

Ελαχιστοποίση συνολικού τετραγωνικού (L2) σφάλματος– Κανονικοποίηση

– Επιλογή B μεγαλύτερων κανονικοποιημένων συντελεστών

– Αποδεδειγμένα βέλτιστη λύση

– Μέσο τετραγωνικό σφάλμα = άθροισμα τετραγώνου των συντελεστών που δεν επιλέγονται

Συντελεστές σώζονται ως πλειάδες με D+1 πεδία– D συντεταγμένες (1 για κάθε διάσταση)

– “Κανονικοποιημένη” τιμή συντελεστή

24Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Α. Μέσο τετραγωνικό σφάλμα Α. Μέσο τετραγωνικό σφάλμα (πολλές ποσότητες)(πολλές ποσότητες) Δύο υπάρχουσες τεχνικές:

– Ανεξάρτητη μέθοδος• Ξεχωριστή ανάλυση για κάθε ποσότητα

– Συνδυασμένη μέθοδος• Αντιμετωπίζει τις ποσότητες σαν πίνακες τιμών

• Κρατάει τους πίνακες με τις B μεγαλύτερες L2 νόρμες

25Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μειονεκτήματα Υπάρχουσων ΤεχνικώνΜειονεκτήματα Υπάρχουσων Τεχνικών

Ακραίες υποθέσεις αποθήκευσης συντελεστών Για κάθε συνδυασμό συντεταγμάνων

– Ανεξάρτητη μέθοδος αποθηκεύει μόνο ΜΙΑ τιμή συντελεστή (μίας ποσότητας)

• Κάποιες συντεταγμένες συντελεστών μπορεί να αποθηκευθούν πολλές φορές

– Συνδυασμένη μέθοδος αποθηκεύει ΟΛΕΣ τις τιμές (για όλες τις ποσότητες)

• Μπορεί να αποθηκεύσει “μη χρήσιμες” τιμές

Μειωμένη Εκμετάλλευση Χώρου από τις 2 μεθόδους

26Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ο Στόχος μαςΟ Στόχος μας

Προσαρμοζόμενη μέθοδος αποθήκευσης– Χωρίς προβλήματα Ανεξάρτητης/Συνδυασμένης μεθόδων

– Βελτίωση εκμετάλλευσης χώρου

– Δίκαιη κατανομή χώρου στις ποσότητες

Ιδέα: – Αποθήκευσε 1 ως M τιμές συντελεστών

– Ένα bitmap μπορεί να δείξει

• Πόσες τιμές συντελεστών έχουν αποθηκευτεί

• Ποιες τιμές συντελεστών έχουν αποθηκευτεί

101 1 2 0 100 5 917

Τιμές ΣυντελεστώνBitmap Συντεταγμένες

27Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Επεκταμένοι Επεκταμένοι Wavelet Wavelet ΣυντελεστέςΣυντελεστές

Ο Επεκταμένος Wavelet Συντελεστής είναι μία τριάδα <C, β, V>– Συντεταγμένες συντελεστή C

– Bitmap β

– Αποθηκευμένες τιμές συντελεστή V

Ποιές τιμές συντελεστών να αποθηκεύσουμε δεδομένου ενός ορίου αποθήκευσης B ?

28Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ορισμός ΠροβλήματοςΟρισμός Προβλήματος

Για ένα D-διάστατο σύνολο δεδομένων με M ποσότητες– Δεδομένου:

• Σύνολο βαρών για κάθε ποσότητα

• Σύνολο N αρχικούς Συνδυασμένους συντελεστές

• Όριο αποθήκευσης B

– Ελαχιστοποίησε το σταθμισμένο άθροισμα των τετραγωνικών σφαλμάτων για όλες τις ποσότητες

Οι αλγόριθμοί μας εφαρμόζονται στο τελικό στάδιο επιλογής συντελεστών

Καμία δέσμευση στον αλγόριθμο ανάλυσης

29Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Παρατηρήσεις για ΛύσηΠαρατηρήσεις για Λύση

Πρόβλημα παρόμοιο με το Knapsack Πρόβλημα– Όριο αποθήκευσης B

– Κάθε τιμή συντελεστή έχει:

• Σταθμισμένο όφελος = σταθμισμένο τετράγωνο τιμής

• Απαιτούμενο χώρο

Πρόβλημα: Μεταβλητός χώρος για τιμές συντελεστή:– Για κάθε συντελεστή, η πρώτη αποθηκευμένη τιμή

συντελεστή χρειάζεται και χώρο για την “κεφαλή” του επεκταμένου συντελεστή (bitmap + συντεταγμένες)

– Δεν συμβαίνει το ίδιο για τις υπόλοιπες τιμές του συντελεστή αυτού

001 1 2 0 100 5 917

Τιμές ΣυντελεστώνBitmap Συντεταγμένες

101 1 2 0 100 5 917

Τιμές ΣυντελεστώνBitmap Συντεταγμένες

30Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προτεινόμενες ΛύσειςΠροτεινόμενες Λύσεις

Αλγόριθμος Δυναμικού Προγραμματισμού– Χώρος: O(NMB), φραγμένο από O(N2M(D+M))

– Χρόνος: O(NMB), φραγμένο από O(N2M(D+M))

Greedy Αλγόριθμος (GreedyL2)– Επιλογή set τιμών για αποθήκευση με μέγιστο

όφελος/χώρο

– Χώρος: O(N(D+M)) : όμοια με μέγεθος εισόδου (input)

– Χρόνος: O((N+Β)Mlog(NM)), φραγμένο από O(NM2log(NM))

Αποδεδειγμένο κλάσμα προσέγγισης 2– Στα πειράματα, το κλάσμα των οφελών ήταν μεγαλύτερο

του 99.99%

31Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέσο Σταθμισμένο Τετραγωνικό Μέσο Σταθμισμένο Τετραγωνικό ΣφάλμαΣφάλμα vs. vs. Μέγεθος ΣύνοψηςΜέγεθος Σύνοψης

Σφάλματα μέχρι 29% κοντινότερου αντιπάλου

2-διάστατα συνθετικα δεδομένα.

6 Zipfian κατανομές– Διαφορετικά κέντρα,

μορφές Πυκνές περιοχές 5-10% δεδομένων σε

αραιές περιοχές

Τυχαίες ερωτήσεις εύρους, έμφαση σε πυκνές περιοχές

32Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέσα Σταθμισμένα Σφάλματα Μέσα Σταθμισμένα Σφάλματα vs. vs. ΜέγεθοςΜέγεθος

Σφάλματα μέχρι 65% και 69% κοντινότερου αντιπάλου

33Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ευαισθησία στην Απόκλιση Ευαισθησία στην Απόκλιση ((SkewSkew))

Οφέλη αυξάνουν για μέτρια προς μεγάλες αποκλίσεις δεδομένων– Μέχρι 3 φορές μικρότερα λάθη από τον κοντινότερο ανταγωνιστή

34Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

B. B. Μέγιστο Σχετικό Σφάλμα (1 Μέγιστο Σχετικό Σφάλμα (1 ποσότητα)ποσότητα) Πιθανότητα yi επιλογής συντελεστή ci

Eλαχιστοποίηση του:

Σε κάθε κόμβο, ψάξε όλους τους τρόπους ανάθεσης χώρου

– yi: στον τρέχον κόμβο

– bL: στο αριστερό υπόδεντρο

– Β-bL-yi: στο δεξί υπόδεντρο

Συνδυασμός λύσης με λύσεις υποδέντρων

)(

^

),()(ij dάc

ji yjVardVar

}|,max{|

)(max)(max

^^

sd

dVardNSE

i

i

ii

i

Data2 8 3 3

-+

+ +- --3

1

4

0

35Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέγιστο Σχετικό Σφάλμα (πολλές Μέγιστο Σχετικό Σφάλμα (πολλές ποσότητες)ποσότητες) Στόχοι:

– Ελαχιστοποίση μέγιστου σχετικού σφάλματος σε όλες τις ποσότητες

– Χρήση επεκταμένων συντελεστών για καλύτερη ακρίβεια

– Αλγόριθμοι πρακτικοί

• Χώρος

• Χρόνος

Greedy αλγόριθμός μας πολύ πιο αποδοτικός και για 1-Μ περίπτωση

36Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Χρήση Επεκταμένων ΣυντελεστώνΧρήση Επεκταμένων Συντελεστών

Περίπλοκη εξάρτηση χώρου

Βέλτιστη λύση: ανάθεση χώρου Bi < B σε κάθε

υποδέντρο:– Κράτα σύνολο μη συγκρίσιμων διανυσμάτων R[i,Bi]

– Η j συντεταγμένη είναι max NSE στο υποδέντρο του κόμβου i για την ποσότητα j, όταν αναθέτουμε χώρο Bi

– Αποτυγχάνει η αρχή της βελτιστοποίησης αλγορίθμων Δ.Π.

• Δεν μπορείς να κρατήσεις το διάνυσμα του R[i,Bi] με

την ελάχιστη max τιμή

M

jij

cjiji yHyECE

j 10|

))1(1(|][|

37Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Βέλτιστος ΑλγόριθμοςΒέλτιστος Αλγόριθμος

Αλγόριθμος βασίζεται σε “μερική ταξινόμηση” λύσεων– Απορίπτει μερικές λύσεις που δεν μπορεί να συμβάλουν

στη βέλτιστη ολική λύση

Πολυπλοκότητα χώρου/χρόνου απαγορευτική

38Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

GreedyGreedy Αλγόριθμος Αλγόριθμος: : ΣκέψειςΣκέψεις

Αρχικοποίησε ολές τις πιθανότητες επιλογής (ΠΕ) σε 0

Σε κάθε βήμα αύξησε ΠΕ ορισμένων τιμών συντελεστών– Έχει νόημα να αυξήσουμε ΠΕ από ποσότητα που δεν έχει το

max{max NSE} ?

– 1 ή πολλές ΠΕ μαζί?

– Πώς διαλέγουμε ποιές τιμές να επιλέξουμε στο βήμα αυτό?

Σκοπός: Σε κάθε βήμα αύξησε την πιθανότητα επιλογής ενός SET τιμών συντελεστών– Συντελεστές από ποσότητα με max {max NSE}

– Μεγιστοποίησε μείωση του max NSE / χώρος(SET)

39Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

GreedyGreedy Αλγόριθμος Αλγόριθμος::

3 στάδια αλγορίθμου :– Κάθε κόμβος (για κάθε ποσότητα) εκτιμάει το

max NSE δεδομένων κάτω από αυτόν

– Κάθε κόμβος (για κάθε ποσότητα) υπολογίζει το SET τιμών στο υποδέντρο του με τη μέγιστη μείωση του max NSE/χώρος(SET)

– Αύξηση πιθανότητας επιλογής των τιμών στο SET της ποσότητας με το max {max NSE}

40Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Στάδιο 1: Εκτίμηση Στάδιο 1: Εκτίμηση max NSE max NSE στο στο υπόδεντρουπόδεντρο Υπολογισμός σαν να είμασταν στη βέλτιστη

λύση στην τρέχουσα ανάθεση πιθανοτήτων επιλογής

Υπολογισμός από κάτω προς τα πάνω

2i

i

2i+1G = [15,20]

G = [18,19]

Var(i,yi) =

[0,2]

Niif

Niif

jiGjiNorm

ycVar

jiGjiNorm

ycVar

jiG ijij

ijij

0

],12[),12(

),(

],2[),2(

),(

max],[

Σωστό μόνο στη βέλτιστη

λύση

41Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Στάδιο Στάδιο 22: Υπολογισμός Υποψηφίων : Υπολογισμός Υποψηφίων SETSET Επιλογή Set(i,j):

cij

cij Set(k,j), k is index of subtree that determines P[i,j]

Set(2i,j) Set(2i+1,j)

Χώρος για αύξηση πιθανότητας επιλογής δyij:

Επιλογή λύσης με καλύτερο λόγο μείωσης P[i,j]/χώρου

jp

ipijijij yHyyECE ))1(1()|],[|(

)1

|],[|(],[),( q

ECEjispace kjiSetcj

kj

42Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Στάδιο Στάδιο 33: Αύξηση Πιθανοτήτων : Αύξηση Πιθανοτήτων ΕπιλογήςΕπιλογής Διάσχιση από πάνω προς τα κάτω Αν επιλογή Set(i,j):

cij, αύξησε πιθανότητα επιλογής του συντελεστή cij Set(k,j), αύξησε πιθανότητα επιλογής του

συντελεστή και προχώρησε στο σωστό υποδέντρο Set(2i,j) Set(2i+1,j), προχώρησε στα 2 υποδέντρα

Πολυπλοκότητες χαμηλές: Χώρος: Ο(ΝzΜ) Χρόνος: O((ΝzΜ + BMqlogN)D2D)

43Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Χρόνος ΕκτέλεσηςΧρόνος Εκτέλεσης

44Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Μέγιστο ΣφάλμαΜέγιστο Σφάλμα

45Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΔιάγραμμαΔιάγραμμα

Εισαγωγή Σχετική Έρευνα Προσέγγιση με Wavelets (πολυδιάστατα

δεδομένα) Προσέγγιση χρονοσειρών

– Γραμμικές Συσχετίσεις

– Προσέγγιση μέσω λεξικού

– Κατασκευή λεξικού

Συμπεράσματα

46Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Ορισμός ΠροβλήματοςΟρισμός Προβλήματος

Εμπνευσμένο από δίκτυα αισθητήρων– Κόμβοι παρατηρούν πολλαπλές ποσότητες– Απλή εφαρμογή σε προσέγγιση πολλαπλών

χρονοσειρών

Χρειάζεται να εκπέμψω NxM τιμές δεδομένων– N παρατηρούμενες ποσότητες με M τιμές η κάθε μία

Θέλω να καταναλώσω bandwidth (=συνολικές λέξεις που εκπέμπω) B << NxM

• Εδώ χρειάζεται η προσέγγιση

Ελαχιστοποίση ορισμένου μέτρου σφάλματος της συμπιεσμένης μορφής

47Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Λογική της Λύσης μαςΛογική της Λύσης μας

Πολλές συλλεγμένες τιμές μπορεί να είναι συσχετισμένες– Συσχετίσεις μεταξύ διαφορετικών ποσοτήτων

• Πχ: πίεση και υγρασία– Συσχετίσεις μεταξύ τιμών της ίδιας ποσότητας

• Πχ: περιοδικότητα, παρόμοιες τάσεις

Πώς να εκμεταλλευτούμε τις συσχετίσεις?

48Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Παράδειγμα Συσχετισμένων ΔεδομένωνΠαράδειγμα Συσχετισμένων Δεδομένων

49Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κύρια ΙδέαΚύρια Ιδέα

Δημιούργησε ένα λεξικό με χαρακτηριστικά των δεδομένων (κύριο σήμα)

Χώρισε δεδομένα σε διαστήματα– Μεταβλητός αριθμός/μήκος διαστημάτων

ανά ποσότητα– Κωδικοποίησε κάθε διάστημα μέσω του

λεξικού– Χρησιμοποίησε γραμμική παλινδρόμηση για

την κωδικοποίησηbXaY

50Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Σκίτσο της Τεχνικής μαςΣκίτσο της Τεχνικής μας

Total Size = B

51Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Αποφάσεις ΑλγορίθμουΑποφάσεις Αλγορίθμου

1. Χώρος για κύριο σήμα (λεξικό)– Περισσότερος χώρος για το κύριο σήμα σημαίνει

λιγότερος χώρος για την προσέγγιση!

2. Δημιούργησε/Ενημέρωσε το κύριο σήμα– Βρες χαρακτηριστικά τμήματα, αναγνώρισε

μεταβολές

3. Συμπίεσε δεδομένα μέσω του κύριου σήματος– Σπάσε δεδομένα σε διαστήματα μεταβλητού μεγέθους– Κωδικοποίησε κάθε διάστημα μέσω του κύριου

σήματος (εκμετάλλευση γραμμικών συσχετίσεων)

52Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κωδικοποιώντας κάθε Σήμα Κωδικοποιώντας κάθε Σήμα ΔεδομένωνΔεδομένων Κύριο Σήμα αποτελείται από

διαστήματα μεγέθους W Ολίσθησε διάστημα δεδομένων στο

κύριο σήμα– Κωδικοποίησε στη θέση με το μικρότερο

λάθος

W W W W W W W W W W

Base Signal

Data Interval

53Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Προσεγγίζοντας τα ΣήματαΠροσεγγίζοντας τα Σήματα

Δημιούργησε 1 διάστημα για κάθε ένα από τα N σήματα– Προσεγγισμένα διαστήματα χρειάζονται 4 τιμές

Όσο υπάρχει ακόμα χώρος– Διάσπασε το διάστημα με το μεγαλύτερο σφάλμα σε 2

κομμάτια– Κωδικοποίησε κάθε κομμάτι με τον προηγούμενο αλγόριθμο

Αλγόριθμος δίνει περισσότερο χώρο σε σήματα που είναι δυσκολότερο να προσεγγιστούνε

54Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κατασκευάζοντας το Κύριο ΣήμαΚατασκευάζοντας το Κύριο Σήμα

Υποψήφια Διαστήματα Βάσης (ΥΔΒ) Προσέγγισε κάθε ΥΔΒ με όλα τα άλλα

– Όφελος προσέγγισης είναι μείωση λάθους σε σύγκριση με απλή γραμμική παλινδρόμηση

Διάλεξε ΥΔΒ με μεγαλύτερο όφελος– Προσάρμοσε οφέλη των άλλων ΥΔΒ & επανέλαβε

Μην εισάγεις όλα τα ΥΔΒ!– Δυαδική έρευνα για πόσα ΥΔΒ θα βάλουμε

Αντικατέστησε διαστήματα Κύριου Σήματος με LFU

WMN

55Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Αποφασίζοντας το μέγεθος του κυρίου Αποφασίζοντας το μέγεθος του κυρίου σήματοςσήματος

56Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κάποια ΑποτελέσματαΚάποια Αποτελέσματα (SSE (SSE σφάλμασφάλμα))

Συμπίεση

Weather

Phone Stock Mixed

5% 1.89 1.63 1.38 2.79

10% 2.04 2.01 1.70 3.29

15% 2.46 2.12 2.00 4.35

20% 3.02 2.61 2.44 6.43

25% 3.74 2.93 2.50 11.22

30% 4.44 3.24 3.67 27.00Λόγος Σφάλματος της δεύτερης καλύτερης προσέγγισης προς το σφάλμα του αλγορίθμου μας

57Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

Κάποια αποτελέσματαΚάποια αποτελέσματα (SSRE (SSRE σφάλμασφάλμα))

Συμπίεση Phone Mixed

5% 9.78 186

10% 5.97 234

15% 4.31 284

20% 5.37 371

25% 5.21 1,034

30% 6.22 526

Λόγος Σφάλματος της δεύτερης καλύτερης προσέγγισης προς το σφάλμα του αλγορίθμου μας

58Αντώνιος ΔεληγιαννάκηςΠροσέγγιση Δεδομένων με Πολλαπλές Μετρήσιμες Ποσότητες

ΣυμπεράσματαΣυμπεράσματα

Δεδομένα με πολλαπλές ποσότητες δίνουν ευκαιρίες για καλύτερη προσέγγιση– Συσχετίσεις

– Δίκαιη κατανομή χώρου

– Εξαρτήσεις στην αποθήκευση

Εκμετάλλευση παραπάνω χαρακτηριστικών– Μπορεί να γίνει αποδοτικά

– Πολύ πιο ακριβείς συνόψεις από προηγούμενες τεχνικές