173

Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

Εισαγωγή στην Ανάκτηση και Εξόρυξη Μουσικής Πληροφορίας

Ιωάννης Καρύδης

Page 2: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

Εισαγωγή στην ανάκτηση και εξόρυξη μουσικής πληροφορίας

ΣυγγραφήΙωάννης Καρύδης

Κριτικός ΑναγνώστηςΣπυρίδων Σιούτας

Συντελεστές ΈκδοσηςΓΛΩΣΣΙΚΗ ΕΠΙΜΕΛΕΙΑ: Ι. ΚαρύδηςΓΡΑΦΙΣΤΙΚΗ ΕΠΙΜΕΛΕΙΑ: Ι. ΚαρύδηςΤΕΧΝΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ: Ι. ΚαρύδηςΜΕΤΑΤΡΟΠΗ ΣΕ HTML: Ι. Καρύδης

ISBN: 978-960-603-414-5

Copyright © ΣΕΑΒ, 2015

Το παρόν έργο αδειοδοτείται υπό τους όρους της άδειας Creative CommonsΑναφορά ∆ημιουργού - Μη Εμπορική Χρήση - Όχι Παράγωγα Έργα 3.0.Για να δείτε ένα αντίγραφο της άδειας αυτής επισκεφτείτε τον ιστότοπο

https://creativecommons.org/licenses/by-nc-nd/3.0/gr/

Σύνδεσμος Ελληνικών Ακαδημαϊκών ΒιβλιοθηκώνΕθνικό Μετσόβιο Πολυτεχνείο

Ηρώων Πολυτεχνείου 9, 15780 Ζωγράφου

http://www.kallipos.gr

Page 3: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ
Page 4: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

Συντομογραφίες

ΑΜΠΒΠ Ανάκτηση Μουσικής Πληροφορίας Βάσει ΠεριεχομένουΑΜΠ Ανάκτηση Μουσικής ΠληροφορίαςΕΜΠ Έρευνα Μουσικής ΠληροφορίαςΤΠΕ Τεχνολογίες Πληροφορικής και ΕπικοινωνίαςΜΜΕΠ Μεγίστου Μήκους Επαναλαμβανόμενα ΠροτύπαΣΜΣ Συνήθης Μουσική ΣημειογραφίαΕΠ Επαναλαμβανόμενα ΠρότυπαΑΑΔ Ασύρματο Ad-Hoc ΔίκτυοCMN Common Music Notation (Συνήθης μουσική σημειογραφία)CML Current Maximum Length (Τρέχον μέγιστο μήκος)MLQ Maximum Length Queue (Ουρά μέγιστου μήκους)ΙΤΥ Ιστογράμματα Τονικού ΎψουςΙΔΝ Ιστόγραμμα Διάρκειας ΝοτώνΕΨΣ Επίλυση Ψευδών Συναγερμών (false alarm resolution)QBH Query-By-Humming (Σιγό-τραγούδισμα σε μικρόφωνο)ΜΧΔ Μέθοδος Χωροταξικής ΔεικτοδότησηςDFT Μετασχηματισμός Discrete Fourier TransformMBR Minimum Bounding Rectangle (Ελάχιστο Περικλείον Ορθογώνιο)DTW Dynamic Time Warping (Μέθοδος δυναμικής χρόνο-στρέβλωσης)MH Mobile Hosts (Ασύρματοι ξενιστές)ΑΕΜΜ Αναπαράσταση Επερωτήματος με Μειούμενο ΜέγεθοςMANET Κινητό δίκτυο ad-hoc

III

Page 5: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ
Page 6: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΠΕΡΙΕΧΟΜΕΝΑ

1 ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ 11.1 ΕΙΣΑΓΩΓΗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 ΜΟΥΣΙΚΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑ . . . . . . . . . . . . . . . . . 6

1.2.1 Ορισμοί πολυπλοκότητας . . . . . . . . . . . . . . . . . 61.2.2 Μετατροπή μεταξύ επιπέδων πολυπλοκότητας . . . . . . 8

1.3 ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΗΣ ΜΟΥΣΙΚΗΣ . . . . . . . . . . . . . . . 81.3.1 Το εύρος των αναπαραστάσεων . . . . . . . . . . . . . . 81.3.2 Μετατροπές αναπαραστάσεων . . . . . . . . . . . . . . . 11

1.4 ΕΞΟΡΥΞΗ ΠΛΗΡΟΦΟΡΙΑΣ . . . . . . . . . . . . . . . . . . . 121.4.1 Εξόρυξη μουσικής πληροφορίας . . . . . . . . . . . . . 121.4.2 Προκλήσεις εξόρυξης μουσικής . . . . . . . . . . . . . . 14

1.5 ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ . . . . . . . . . . . . . . . . . . 151.5.1 Ανάκτηση πληροφορίας κειμένου . . . . . . . . . . . . . 161.5.2 Ανάκτηση πληροφορίας άλλων μορφών δεδομένων . . . . 17

2 ΝΟΜΙΚΑ ΘΕΜΑΤΑΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ 212.1 ΠΝΕΥΜΑΤΙΚΗ ΙΔΙΟΚΤΗΣΙΑ . . . . . . . . . . . . . . . . . . . 23

2.1.1 Βάσεων δεδομένων . . . . . . . . . . . . . . . . . . . . . 242.1.2 Μουσικών δεδομένων . . . . . . . . . . . . . . . . . . . 262.1.3 Ροών δεδομένων . . . . . . . . . . . . . . . . . . . . . . 27

2.2 Η ΥΠΟΣΤΗΡΙΞΗ ΤΗΣ ΕΥΛΟΓΗΣ ΠΑΡΑΒΙΑΣΗΣ . . . . . . . . 302.3 ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ . . . . . . . . . . . . . . . . . . . . . . . 332.3.1 Αποκτώντας Πρόσβαση σε Μουσικά Δεδομένα . . . . . . 342.3.2 Ψηφιοποίηση δεδομένων . . . . . . . . . . . . . . . . . . 352.3.3 Δημιουργία Προσωρινών & Μόνιμων Αντιγράφων . . . . 362.3.4 Μετατροπή Μορφής & Τομέα . . . . . . . . . . . . . . . 372.3.5 Οπτικοποίηση Δεδομένων . . . . . . . . . . . . . . . . . 402.3.6 Εξόρυξη Πληροφορίας & Γνώσης . . . . . . . . . . . . . 412.3.7 Εκτέλεση Μουσικών Δεδομένων . . . . . . . . . . . . . 412.3.8 Δημιουργία & Διάχυση Συνόλου Δεδομένων . . . . . . . 42

V

Page 7: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

VI ΠΕΡΙΕΧΟΜΕΝΑ

2.3.9 Δημοσίευση Αποτελεσμάτων Έρευνας . . . . . . . . . . 43

3 ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ 513.1 ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ . . . . . . . . . . . . . 51

3.1.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . 513.1.2 Σχετικές εργασίες . . . . . . . . . . . . . . . . . . . . . . 54

3.1.2.1 Εξόρυξη επαναλαμβανόμενων προτύπων και ανεύ-ρεση μουσικών θεμάτων . . . . . . . . . . . . . 54

3.1.2.2 Εξόρυξη μεγάλων στοιχειοσυνόλων . . . . . . 553.1.3 Υπόβαθρο και κίνητρα . . . . . . . . . . . . . . . . . . . 56

3.1.3.1 Ορισμοί . . . . . . . . . . . . . . . . . . . . . 563.1.3.2 Ο αλγόριθμος HLC . . . . . . . . . . . . . . . 583.1.3.3 Κίνητρα . . . . . . . . . . . . . . . . . . . . . 59

3.1.4 Ο αλγόριθμος M2P . . . . . . . . . . . . . . . . . . . . . 613.1.4.1 Περίγραμμα της μεθόδου . . . . . . . . . . . . 613.1.4.2 Περιγραφή του αλγορίθμου M2P . . . . . . . . 633.1.4.3 Παράδειγμα . . . . . . . . . . . . . . . . . . . 653.1.4.4 Αναπτύσσοντας βελτιστοποιήσεις . . . . . . . . 66

3.2 ΟΜΑΔΟΠΟΙΗΣΗ . . . . . . . . . . . . . . . . . . . . . . . . . 683.2.1 Κατά γένος . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.2.1.1 Σχετικές εργασίες . . . . . . . . . . . . . . . . 693.2.1.2 Προσθέτοντας τη διάρκεια . . . . . . . . . . . 713.2.1.3 Προσθέτοντας τα επαναλαμβανόμενα πρότυπα . 73

3.2.2 Κατά διάθεση . . . . . . . . . . . . . . . . . . . . . . . . 773.2.2.1 Σχετική έρευνα . . . . . . . . . . . . . . . . . 783.2.2.2 Εξαγωγή χαρακτηριστικών . . . . . . . . . . . 813.2.2.3 Πειραματικά αποτελέσματα . . . . . . . . . . . 84

4 ΑΝΑΚΤΗΣΗΜΟΥΣΙΚΗΣΠΛΗΡΟΦΟΡΙΑΣΣΕΕΞΕΙΔΙΚΕΥΜΕΝΑΠΕΡΙΒΑΛΛΟΝΤΑ 934.1 ΔΙΚΤΥΑ P2P . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.1.1 Σχετικές εργασίες . . . . . . . . . . . . . . . . . . . . . . 954.1.1.1 Σύνοψη υπαρκτών ομότιμων συστημάτων . . . 954.1.1.2 Μέθοδοι έρευνας σε μη δομημένα ομότιμα δίκτυα 964.1.1.3 Ανάκτηση μουσικής πληροφορίας σε ομότιμα

δίκτυα . . . . . . . . . . . . . . . . . . . . . . 974.1.2 Πρότυπο ομοιότητας βασισμένο στη DTW . . . . . . . . 984.1.3 Πλαίσιο αποτελεσματικής ανάκτησης . . . . . . . . . . . 102

4.1.3.1 Επισκόπηση . . . . . . . . . . . . . . . . . . . 1024.1.3.2 Μέθοδοι δειγματοληψίας και αναπαράστασης . 104

4.1.4 Αλγόριθμοι εύρεσης ομοιότητας . . . . . . . . . . . . . . 106

Page 8: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΠΕΡΙΕΧΟΜΕΝΑ VII

4.1.4.1 Ο αλγόριθμος BFSS . . . . . . . . . . . . . . . 1064.1.4.2 Ο αλγόριθμος >RESS . . . . . . . . . . . . . . 1074.1.4.3 Ο αλγόριθμος ISMS . . . . . . . . . . . . . . . 108

4.2 ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ . . . . . . . . . . . . . . . . . . . . . . . 1104.2.1 Η μουσική διάθεση υιοθετεί ένα νέο πρότυπο . . . . . . . 110

4.2.1.1 Απαιτήσεις που ορίζονται από το ασύρματο μέσο 1114.2.2 Γενικές γνώσεις και σχετικές εργασίες . . . . . . . . . . . 113

4.2.2.1 Ανεύρεση/Παροχή πληροφορίας σε ΑΑΔ . . . . 1144.2.3 Επισκόπηση της διαδικασίας ανεύρεσης . . . . . . . . . . 1164.2.4 Χαρακτηριστικά και δεικτοδότηση . . . . . . . . . . . . 119

4.2.4.1 Χαρακτηριστικά για ΑΜΠΒΠ . . . . . . . . . 1194.2.4.2 Δεικτοδότηση στους κόμβους . . . . . . . . . . 120

4.2.5 Αλγόριθμοι ανεύρεσης . . . . . . . . . . . . . . . . . . . 1214.2.5.1 Αλγόριθμος μέγιστης αναπαράστασης του επε-

ρωτήματος . . . . . . . . . . . . . . . . . . . . 1224.2.5.2 Αλγόριθμος μειούμενης αναπαράστασης επερω-

τήματος . . . . . . . . . . . . . . . . . . . . . 1244.2.6 Πολιτικές δρομολόγησης για τη φάση επιστροφής . . . . 127

4.2.6.1 Πολιτικές καθολικού και τοπικού απαριθμητή . 1284.2.6.2 Πολιτική κρίσιμης μάζας . . . . . . . . . . . . 130

4.3 ΡΟΕΣ ΠΛΗΡΟΦΟΡΙΑΣ . . . . . . . . . . . . . . . . . . . . . . 1324.3.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . 1324.3.2 Σχετικές εργασίες & προαπαιτούμενες γνώσεις . . . . . . 134

4.3.2.1 Ανάκτηση μουσικής πληροφορίας βάσει περιε-χόμενου . . . . . . . . . . . . . . . . . . . . . 134

4.3.2.2 Ροές πληροφορίας & συνεχούς επερώτησης . . 1344.3.3 Η μέθοδος CQiSM . . . . . . . . . . . . . . . . . . . . . 135

4.3.3.1 Αρχιτεκτονική . . . . . . . . . . . . . . . . . . 1354.3.3.2 Αυξητική εξαγωγή χαρακτηριστικών . . . . . . 1364.3.3.3 Εντοπισμός ορίων τραγουδιών . . . . . . . . . 1374.3.3.4 Συνολική αξιολόγηση πηγών . . . . . . . . . . 138

5 ΚΑΤΑΛΟΓΟΠΟΙΗΣΗΑΚΟΥΣΤΙΚΩΝΜΟΥΣΙΚΩΝΔΕΔΟΜΕΝΩΝ1475.1 ΕΙΣΑΓΩΓΗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1475.2 ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ . . . . . . . . . . . . . . . . . . . . . . . 149

5.2.1 Δεικτοδότηση σε συστήματα ΑΜΠΒΠ . . . . . . . . . . 1495.2.2 Δεικτοδότηση ομοιότητας πολυμεσικών δεδομένων . . . . 150

5.3 Ο ΑΛΓΟΡΙΘΜΟΣ MS-INDEX . . . . . . . . . . . . . . . . . . . 1515.3.1 Καθορισμός προβλήματος . . . . . . . . . . . . . . . . . 1515.3.2 Εξαγωγή χαρακτηριστικών . . . . . . . . . . . . . . . . . 1525.3.3 Δεικτοδότηση . . . . . . . . . . . . . . . . . . . . . . . . 153

Page 9: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

VIII ΠΕΡΙΕΧΟΜΕΝΑ

5.3.4 Έρευνα διαστήματος για ομοιότητα . . . . . . . . . . . . 1545.4 ΕΠΙΛΥΣΗ ΨΕΥΔΩΝ ΤΑΙΡΙΑΣΜΑΤΩΝ . . . . . . . . . . . . . . 1545.5 ΠΕΙΡΑΜΑΤΙΚΗ ΑΠΟΤΙΜΗΣΗ . . . . . . . . . . . . . . . . . . 157

5.5.1 Πειραματικό Περιβάλλον . . . . . . . . . . . . . . . . . 157

Page 10: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ

1.1 Σύγκριση όγκου δεδομένων που δημιουργούν διάφοροι τύποι συ-μπίεσης σε ποιότητα παρεμφερή ενός CD, για τρία λεπτά μουσι-κού αρχείου. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2 Χάρτης ανάκτησης μουσικής πληροφορίας. . . . . . . . . . . . . 51.3 Παραδείγματα (a) μονοφωνικής, (b) ομοφωνικής και (c) πολυφω-

νικής με διακριτές φωνές, ακολουθούμενη από την απεικόνισητύπου piano-roll η οποία δείχνει ευκρινώς την αλληλοεπικάλυψητων νοτών στην πολυφωνία. . . . . . . . . . . . . . . . . . . . . 7

1.4 Σχηματικές αναπαραστάσεις της μουσικής: (a) ακουστική, (b) συμ-βολική τύπου MIDI και (c) συμβολική τύπου δυτικής σημειογρα-φίας. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1 Βήματα εμπειρικού προσδιορισμού νομιμότητας χρήσης υλικούσύμφωνα με το δίκαιο πνευματικής ιδιοκτησίας του Η. Βασιλείου. 32

2.2 Βήματα εμπειρικού προσδιορισμού νομιμότητας χρήσης υλικούσύμφωνα με το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α. . . . 33

3.1 Ο συνολικός γράφος για το τρέχον παράδειγμα του HLC. . . . . . 603.2 Ο αλγόριθμος M2P. . . . . . . . . . . . . . . . . . . . . . . . . . 643.3 Ο γράφος Γ του παραδείγματος. . . . . . . . . . . . . . . . . . . 653.4 Παράδειγμα μονοπατιών που πηγάζουν από τους κόμβους A, B,

C, D, και E. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.5 Ακρίβεια για όλες τις μεθόδους σε (a) συμπτυγμένα και (b) εκτε-

ταμένα ΙΨΥ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.6 Ακρίβεια σταθμισμένου τονικού ύψους & διάρκειας (σε (a) συμ-

πτυγμένα και (b) εκτεταμένα ΙΨΥ . . . . . . . . . . . . . . . . . 743.7 Η μέθοδος εξαγωγής στατιστικών χαρακτηριστικών. . . . . . . . 753.8 Ακρίβεια της μεθόδου με τα ΕΠ και σύγκριση με τις περιπτώσεις

που δεν περιείχε πληροφορία ΕΠ ή δευτέρου επιπέδου εξαρτήσειςτονικού ύψους . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.9 Ακρίβεια διέγερσης και σθένους για όλους τους συνδυασμούς συ-νόλων δεδομένων πληροφορίας ακουστικής και στίχων. . . . . . . 85

IX

Page 11: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

X ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ

3.10 Ακρίβεια διέγερσης και σθένους για όλους τους συνδυασμούς συ-νόλων δεδομένων πληροφορίας ακουστικής, μορφολογικής και στί-χων. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.1 Ευθυγράμμιση χρονοσειρών με τις Ευκλείδεια και DTW αποστά-σεις. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.2 Σχηματική απεικόνιση των ακολουθιών U και L. . . . . . . . . . 1014.3 Παράδειγμα υπολογισμού του LB_Keogh. . . . . . . . . . . . . 1024.4 Ο αλγόριθμος BFSS. . . . . . . . . . . . . . . . . . . . . . . . . 1074.5 Ο αλγόριθμος >RESS. . . . . . . . . . . . . . . . . . . . . . . . 1084.6 Ο αλγόριθμος ISMS. . . . . . . . . . . . . . . . . . . . . . . . . 1094.7 Η διαδικασία ανεύρεσης. . . . . . . . . . . . . . . . . . . . . . . 1174.8 Η διαδικασία εξαγωγής των χαρακτηριστικών (a) και της έρευνας

της δενδρικής δομής δεικτοδότησης. . . . . . . . . . . . . . . . . 1224.9 Ο αλγόριθμος ML. . . . . . . . . . . . . . . . . . . . . . . . . . 1234.10 Η διαδικασία έρευνας. . . . . . . . . . . . . . . . . . . . . . . . 1264.11 Ο αλγόριθμος RT. . . . . . . . . . . . . . . . . . . . . . . . . . . 1284.12 Ένα παράδειγμα διάδοση σε ένα MANET: φάση (a) προώθησης

και (b) επιστροφής. . . . . . . . . . . . . . . . . . . . . . . . . . 1294.13 Παράδειγμα των σχετικών θέσεων των MH στις φάσεις προώθησης και

επιστροφής. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1314.14 Η αρχιτεκτονική της μεθόδου CQiSM . . . . . . . . . . . . . . . 1354.15 Τεμαχισμός τραγουδιών . . . . . . . . . . . . . . . . . . . . . . . 136

5.1 Παράδειγμα ανεύρεσης αποτελεσμάτων ομοιότητας σε υποακο-λουθίες. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

5.2 Τα δεδομένα: ο αρχικός (a) και ο μετασχηματισμένος (b) χώρος. . 1525.3 Ομαδοποίηση και δεικτοδότηση. . . . . . . . . . . . . . . . . . . 1535.4 Παράδειγμα μερικού ταιριάσματος χρησιμοποιώντας το σχήμα ανά-

στροφης εξέτασης σελίδων. . . . . . . . . . . . . . . . . . . . . . 1575.5 Ο αλγόριθμος επίλυσης των ψευδών ταιριασμάτων. . . . . . . . . 1595.6 Σχετικός χρόνος ανάκτησης για μεταβαλλόμενο μέγεθος επερω-

τήματος. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

Page 12: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΛΙΣΤΑ ΠΙΝΑΚΩΝ

1.1 Σύγχρονη έρευνα στην ΑΜΠ. . . . . . . . . . . . . . . . . . . . 51.2 Σύγκριση των αναπαραστάσεων της μουσικής. . . . . . . . . . . 101.3 Σύγκριση κειμένου και μουσικής. . . . . . . . . . . . . . . . . . 11

3.1 Συγχνότητα εμφάνισης ΕΠ. . . . . . . . . . . . . . . . . . . . . . 57

XI

Page 13: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

XII ΛΙΣΤΑ ΠΙΝΑΚΩΝ

Page 14: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΚΕΦΑΛΑΙΟ 1

Προκαταρκτικές έννοιες μουσικής

Περιεχόμενα1.1 ΕΙΣΑΓΩΓΗ . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 ΜΟΥΣΙΚΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑ . . . . . . . . . . . . . . 61.3 ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΗΣ ΜΟΥΣΙΚΗΣ . . . . . . . . . . . 81.4 ΕΞΟΡΥΞΗ ΠΛΗΡΟΦΟΡΙΑΣ . . . . . . . . . . . . . . . . 121.5 ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ . . . . . . . . . . . . . . . 15

1.1 ΕισαγωγήΗΈρευναΜουσικήςΠληροφορίας (ΕΜΠ), ή στηνΑγγλικήMusic Information

Research (MIR), είναι το ερευνητικό πεδίο που στοχεύει στην ανάπτυξη μεθόδωνκαι τεχνικών για όσο αφορά την ανάκτηση και εξόρυξη γνώσης από τη μουσικήπληροφορία. Καθώς αυτοί οι δύο στόχοι είναι ευρύτατοι, η ΕΜΠ είναι ένα πεδίοιδιαίτερα δια-επιστημονικό και αντλεί συνεισφορές από μια πληθώρα πεδίων όπωςη μουσικολογία, η ψυχολογία, η επεξεργασία σήματος, η ανάκτηση πληροφορίας,η μηχανική μάθηση, η διάδραση ανθρώπου-μηχανής κ.α.

Παρότι η ΕΜΠ ξεκίνησε στα τέλη της δεκαετίας 1960 [5], το πεδίο άρχισενα προσελκύει την προσοχή των ερευνητών και των συσχετισμένων βιομηχανιώνσχεδόν από το έτος 2000 όταν πλέον οι εξελίξεις της συμπίεσης ακουστικών αρ-χείων, της αποθήκευσης δεδομένων, της διαμεταγωγής των δικτύων και του διαδι-κτύου, της «πανταχού παρούσας» επεξεργαστικής ισχύος και της υιοθέτησης τωνΤεχνολογιών Πληροφορικής και Επικοινωνίας (ΤΠΕ) βρέθηκαν στο κατάλληλοεπίπεδο.

Στις μέρες μας (2015) όλες αυτές οι παράμετροι βρίσκονται σε επίπεδα όπου:

1

Page 15: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

• οι αλγόριθμοι συμπίεσης ακουστικών αρχείων επιτυγχάνουν οκτώ φορέςμείωση όγκου δεδομένων διατηρώντας ποιότητα ήχου παραπλήσια ενός CD(βλ. Σχήμα 1.1),

• το κόστος της τοπικής αποθήκευσης ανέρχεται σε περίπου 0.08 ευρώ ανάGibibyte ενώ με κόστος περίπου 60 δολάρια Η.Π.Α. (USD) για μια ετή-σια εγγραφή σε μια από τις πολλές υπηρεσίες συγχρονισμού αρχείων στοσύννεφο (cloud file-synchronisation services) είναι δυνατή η σχεδόν απε-ριόριστη αποθήκευση δεδομένων,

• η διαμεταγωγή της οικιακής πρόσβασης στο διαδίκτυο είναι ευρώς στα πλαί-σια των τεχνολογιώνADSL/VDSL ενώ η αντίστοιχη στις φορητές πλατφόρ-μες είναι εξίσου ιδιαίτερα αυξημένη με τη χρήση των τεχνολογιών 3G / 4G,

• τα φορητά συστήματα, όπως τα smartphones & tablets, διαθέτουν επεξερ-γαστή, αποθηκευτικό χώρο, ενεργειακά αποθέματα και ρυθμό υιοθέτησηςπου κάνει τις συσκευές αυτές πραγματικά «πανταχού παρούσες»,

• το λογισμικό συγγραφής και επεξεργασίας μουσικής μπορεί να υποστηρίξειτην επαγγελματικού επιπέδου (συν-)συγγραφή και επικοινωνία μουσικούπεριεχόμενου στη Συνήθη Μουσική Σημειογραφία (παρτιτούρα)

1

2

4

8

16

32

CD mp3 ogg wma aac

MB

yte

s

Compression type

Σχήμα 1.1: Σύγκριση όγκου δεδομένων που δημιουργούν διάφοροι τύποι συμπίεσης σεποιότητα παρεμφερή ενός CD, για τρία λεπτά μουσικού αρχείου.

Επιπλέον, από το έτος 2000, μια πληθώρα ακαδημαϊκών περιοδικών, συνε-δρίων και διαγωνισμών έχουν εμφανιστεί προωθώντας την έρευνα για θεωρίες,

Page 16: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.1. ΕΙΣΑΓΩΓΗ 3

μεθόδους και εφαρμογής του πεδίου της ΕΜΠ. Μερικά μόνο από τα γνωστότεραείναι το συνέδριο International Society for Music Information Retrieval1 και οδιαγωνισμός Music Information Retrieval Evaluation eXchange (MIREX)2.

Οι προαναφερθείσες εξελίξεις οδήγησαν στην υιοθέτηση ενός νέου μοντέλουδιάθεσης της μουσικής, αυτό της ψηφιοποιημένης μουσικής (είτε ως μεμονωμένααρχεία είτε ως ροή πληροφορίας) εν αντιθέσει με τα φυσικά μέσα (λ.χ. δίσκουςβινυλίου, CD, κ.λ.π.). Η ετήσια αναφορά3 της Διεθνούς Ομοσπονδίας Φωνογρα-φικής Βιομηχανίας (IFPI) υπολόγισε πως «τα έσοδα από τα ψηφιακά κανάλια αυ-ξήθηκαν κατά 6,9% το 2014 και αντιπροσωπεύουν πλέον το 46% των συνολικώνεμπορικών εσόδων της βιομηχανίας, στο ίδιο επίπεδο με τις φυσικές πωλήσεις γιαπρώτη φορά» καθώς επίσης και πως «τα παγκόσμια έσοδα από ροές που βασίζο-νται σε συνδρομή ή διαφημίσεις αντιπροσωπεύουν σήμερα το 32% των ψηφια-κών εσόδων, έναντι 14% για το 2011». Ακολούθως, δεν είναι διόλου παράδοξο ναυπάρχουν υπηρεσίες όπως οι iTunes, Spotify και Google PlayMusic, αναφέρονταςμόνο μερικούς από τους εμπλεκόμενους παίκτες της εν λόγω αγοράς, που παρέ-χουν ψηφιακά 43 εκατομμύρια4, 30 εκατομμύρια5 και 30 εκατομμύρια6 tracks,αντιστοιχα. Το νέο μοντέλο διάθεσης διευκόλυνε, εκτός της προαναφερθείσας αύ-ξησης χρήσης και εσόδων, την πειρατεία μουσικού περιεχόμενου. Η ευκολία τέ-λειας αντιγραφής που είναι εγγενής στο ψηφιακό περιεχόμενο, εν αντιθέσει με τιςδυσκολίες που παρουσιάζονται στην αντιγραφή ενός δίσκου βινυλίου λόγου χάρη,αλλά και η δυνατότητα διάθεσης σε παγκόσμιο επίπεδο μέσω του διαδικτύου τουαντιγραμμένου περιεχόμενου έδωσαν μια άνευ προηγουμένου ώθηση στην πα-ραβίαση πνευματικής ιδιοκτησίας των μουσικών περιεχομένων. Ακολούθως, τααποτελέσματα της ΕΜΠ επηρεάζουν ένα πολύ μεγάλο και ποικίλων χαρακτηρι-στικών εύρος χρηστών που κυμαίνεται από τους απλούς ακροατές στους επαγγελ-ματίες της μουσικής βιομηχανίας και τους εξειδικευμένους με μουσικές σπουδέςμε πολλούς τρόπους.

Η ψηφιοποίηση της μουσικής και η εξέλιξη των τεχνολογιών συμπίεσής τηςέδωσαν την δυνατότητα σε δεδομένα πολύ μεγάλου όγκου, όπως τα ακουστικάμουσικά δεδομένα, να είναι προσβάσιμα στο ευρύ κοινό. Παράλληλα, η μείωσητου κόστους των αποθηκευτικών μέσων και η αύξηση του χώρου αποθήκευσηςπου προσφέρουν οδήγησαν στη δημιουργία προσωπικών αλλά και εμπορικών μου-σικών βιβλιοθηκών.

1http://www.ismir.net/2http://www.music-ir.org/mirex/wiki/MIREX_HOME3http://www.ifpi.org/news/IFPI-publishes-Recording-Industry-in-Numbers-20154http://www.apple.com/itunes/music/5https://press.spotify.com/us/information/6http://time.com/3722188/google-play-music-uploads/

Page 17: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

Ο παγκόσμιος ιστός (WWW) χρησιμοποιείται, πλέον, για εμπορικούς, ψυχα-γωγικούς αλλά και εκπαιδευτικούς λόγους και τείνει να γίνει το πρωτεύον μέσοδιάδοσης πληροφορίας. Ένας από τους βασικούς τύπους δεδομένων που διακινού-νται μέσω του παγκόσμιου ιστού είναι και η ψηφιοποιημένη μουσική. Παρότι όχιπάντοτε νομότυπη, η διακίνηση μουσικής μέσω του παγκόσμιου ιστού γνώρισεμεγάλη ανάπτυξη τα τελευταία χρόνια. Πρόσφατα, οι νέες ευκαιρίες που προέκυ-ψαν από την ευκολία διακίνησης των ψηφιακών μουσικών δεδομένων, έγιναν ορα-τές και με νέα συστήματα προστασίας των πνευματικών δικαιωμάτων οδήγησανστην ανάπτυξη εμπορικών συστημάτων όπως τα iTunes (www.apple.com/itunes),iMusic (www.imusic.com) και Napster (www.napster.com) για τη διάθεση τηςμουσικής στους καταναλωτές, επηρεάζοντας σημαντικά το τρέχον πρότυπο διακί-νησης μουσικής.

Ωστόσο, τα πρώτα εργαλεία που παρουσιάστηκαν για να καλύψουν την ανά-γκη έρευνας στα δεδομένα αυτά, μετέφεραν επιτυχημένες μεθόδους από παρό-μοιους κλάδους ανάκτησης πληροφορίας (κείμενο, εικόνα, video), μη εξετάζο-ντας τα ιδιαίτερα χαρακτηριστικά των μουσικών δεδομένων. Στα συστήματα αυτά,χρησιμοποιήθηκαν κατά κόρον τα παραδοσιακά μεταδεδομένα των μουσικών δε-δομένων, όπως τίτλος, συνθέτης, εκτελεστής, γένος και ημερομηνία, παρότι πα-ρέχουν ελάχιστη περιγραφή όσο αφορά το περιεχόμενο του ίδιου του μουσικούαντικειμένου.

Καθώς οι προαναφερθείσες πληροφορίες δεν αποτελούν το μουσικό δεδομένοαλλά δευτερεύοντα περιγραφικά χαρακτηριστικά7, η Ανάκτηση Μουσικής Πλη-ροφορίας Βάσει Περιεχομένου (ΑΜΠΒΠ) γνώρισε σημαντική ανάπτυξη τα τελευ-ταία χρόνια. Λόγου χάριν, η ανάκτηση μουσικής πληροφορίας σιγο-τραγουδώνταςείναι η πιο φυσική και αυθόρμητη ΑΜΠΒΠ, ενώ η ανάκτηση μπορεί να γίνει καιμε ένα μουσικό κομμάτι σε αρχείο ή ακόμα και με τη χρήση ενός οργάνου για τηνεισαγωγή του επερωτήματος. Γενικότερα, η δράση ΑΜΠΒΠ απαιτεί ένα μουσικόκομμάτι ώστε να συγκρίνει το περιεχόμενο του με το περιεχόμενο των μουσικώνδεδομένων που υπάρχουν ήδη στη βάση δεδομένων.

Ακολούθως, η ΑνάκτησηΜουσικής Πληροφορίας (ΑΜΠ) μπορεί να χωριστείσε δυο μεγάλες κατηγορίες ανάλογα με το εάν βασίζεται στα μεταδεδομένα ή τοπεριεχόμενο των εξεταζόμενων μουσικών δεδομένων. Το Σχήμα 1.2 παρουσιά-ζει τις κατηγορίες και υποκατηγορίες στις οποίες χωρίζεται η ΑΜΠ. Η ΑΜΠΒΠχωρίζεται περαιτέρω ανάλογα με τον τύπο των δεδομένων (βλ. Ενότητα 1.3) πουεξετάζονται.

Παρότι η εξόρυξη και ανάκτηση μουσικής πληροφορίας έχει ξεκινήσει εδώ

7Οι συγγραφείς του [9] χαρακτηρίζουν τα μεταδεδομένα ως «μη εγγενή στοιχεία» του μουσικούδεδομένου.

Page 18: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.1. ΕΙΣΑΓΩΓΗ 5

µ

µ

µ

µ

µ µ

µ µ

µ µ

µ

µ

µ

µ

Σχήμα 1.2: Χάρτης ανάκτησης μουσικής πληροφορίας.

και σχεδόν 40 χρόνια [5] ως ερευνητικό πεδίο, βρίσκεται ακόμα σε πολύ πρώιμοστάδιο. Ωστόσο, η σύγχρονη έρευνα προσανατολίζεται κυρίως σε δύο μεγάλεςπεριοχές του εν λόγω θέματος ανάλογα με την θεώρηση του χρήστη αλλά και τοντύπο των δεδομένων που θα εξεταστούν (βλ. Πίνακα 1.1), παρότι μεταξύ των δύοκριτηρίων υπάρχει μια συνήθης συσχέτιση.

Συμβολική ΑκουστικήΜέθοδοι επεξεργασίας Συμβολοσειρών Σήματος

Απευθύνεται σε Χρήστες με μουσική παιδεία Ευρύ κοινόΜορφή επερωτήματος Όλα τα επίπεδα Σιγό-τραγούδισμα

ΜεταδεδομέναΤμήματα κομματιών

Διεπαφή Σημασιολογικά πλούσια Απλοϊκή

Πίνακας 1.1: Σύγχρονη έρευνα στην ΑΜΠ.

Η πρώτη περιοχή εστιάζει σε συμβολικά μουσικά δεδομένα, χρησιμοποιεί κυ-ρίως μεθόδους επεξεργασίας συμβολοσειρών και απευθύνεται πρωτίστως σε χρή-στες με μουσικολογική παιδεία. Η αναγκαιότητα που παρουσιάζεται στην περιοχήαυτή, συνοψίζεται στην εξόρυξη πολύτιμων πληροφοριών από τα μουσικά δεδο-μένα αυτά, τα οποία υφίστανται σε υψηλά δομημένη μορφή. Η πληροφορίες αυτές

Page 19: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

6 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

μπορούν να αποδειχθούν ιδιαίτερα χρήσιμες για διαδικασίες όπως η κατηγοριο-ποίηση και ο εντοπισμός προτύπων στα δεδομένα αυτά. Το πρότυπο χρήστη μεμουσική παιδεία απαιτεί σημασιολογικά πλούσιες μεθόδους καθορισμού του επε-ρωτήματος και ανάλογες διεπαφές.

Η δεύτερη περιοχή εστιάζει γύρω από τα ακουστικά μουσικά δεδομένα και τηνεπιθυμία των χρηστών να εντοπίζουν όμοια μουσικά δεδομένα, σε σχέση με έναεπερώτημα, από πολύ μεγάλες βάσεις. Η περιοχή αυτή υποστηρίζεται επίσης απότη βιομηχανία μουσικής που στη νέα αντιμετώπιση της για τη διάθεση της μουσι-κής, προωθεί τον Παγκόσμιο Ιστό, αλλά και από την ευκολία ψηφιοποίησης καιαποθήκευσης των μουσικών δεδομένων ακόμα και σε ιδιόκτητες ογκώδεις βάσεις.Ακολούθως, απαιτούνται νέες μέθοδοι ανεύρεσης της επιθυμητής μουσικής, μιαςκαι οι παραδοσιακές εξυπηρετούσαν το μοντέλο με τα δισκοπωλεία ή της μουσι-κής βιβλιοθήκης σε ράφια, αντίστοιχα. Ωστόσο, η περιοχή αυτή προσπαθώνταςνα προσεγγίσει το ευρύ κοινό, υποθέτει τους χρήστες χωρίς μουσικολογικές γνώ-σεις και αντιστοίχως χρησιμοποιεί για επερωτήματα τραγούδισμα σε μικρόφωνο,μεταδεδομένα ή τμήματα μουσικών αρχείων.

1.2 Μουσική πολυπλοκότηταΈνας πολύ σημαντικός παράγοντας για την περιγραφή αλλά και την κατηγο-

ριοποίηση της μουσικής είναι το πλήθος και ο τύπος των ταυτόχρονων γεγονότωνπου προκύπτουν ανά μονάδα χρόνου. Σε μουσικολογικούς όρους τα γεγονότα αυτάονομάζονται υφή (texture) της μουσικής. Σε αύξουσα σειρά πολυπλοκότητας αυτάείναι:

1. Μονοφωνία

2. Ομοφωνία

3. Πολυφωνία με διακριτές φωνές

4. Πολυφωνία χωρίς διακριτές φωνές

1.2.1 Ορισμοί πολυπλοκότηταςΌπως παρουσιάζεται στο Σχήμα 1.3a, η μονοφωνική μουσική έχει μόνο μια

νότα να ηχεί σε οποιαδήποτε χρονική στιγμή. Συνεπώς, καμία νότα δεν επιτρέπε-ται να ηχήσει, πριν η τρέχουσα ηχούσα πάψει. Στην ομοφωνική μουσική, πολλα-πλές ηχούσες νότες επιτρέπονται, ωστόσο, όλες οι νότες που ξεκινούν να ηχούνμαζί, οφείλουν να σταματούν και ταυτόχρονα, και όσες σταματούν μαζί οφείλουν

Page 20: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.2. ΜΟΥΣΙΚΗ ΠΟΛΥΠΛΟΚΟΤΗΤΑ 7

να έχουν ξεκινήσει ταυτόχρονα. Το Σχήμα 1.3b δείχνει ένα μεταβαλλόμενου πλή-θους σύνολο νοτών να ξεκινούν ταυτόχρονα, ενώ καμία νότα ενός συνόλου δενεπικαλύπτει τις νότες του επόμενου συνόλου (σπανίως μερική επικάλυψη επιτρέ-πεται).

(a)

(b)

(c)

Σχήμα 1.3: Παραδείγματα (a) μονοφωνικής, (b) ομοφωνικής και (c) πολυφωνικής με δια-κριτές φωνές, ακολουθούμενη από την απεικόνιση τύπου piano-roll η οποία δείχνει ευ-κρινώς την αλληλοεπικάλυψη των νοτών στην πολυφωνία.

Η πολυφωνία χαλαρώνει τον περιορισμό της ομοφωνικής μουσικής, επιτρέ-ποντας σε σύνολα νοτών να αλληλεπικαλύπτονται. Μια νότα μπορεί να ξεκινήσειπριν ή και ταυτόχρονα με μια άλλη και να τελειώσει πριν, την ίδια στιγμή ή καιμετά από την δεύτερη νότα. Επιπλέον, δεν υπάρχει περιορισμός στον αριθμό ήτύπο των επικαλύψεων που μπορούν να προκύψουν. Εντούτοις, η πολυφωνικήμουσική χωρίζεται ανάλογα με την ύπαρξη ή μη διακριτών φωνών. Στην πολυφω-νία με διακριτές φωνές (βλ. Σχήμα 1.3c), η μουσική πηγή χωρίζεται σε ένα πλήθοςδιακριτών φωνών, η κάθε μια από τις οποίες είναι μονοφωνική ή ομοφωνική. Οιφωνές μπορούν να χρησιμοποιούν το ίδιο όργανο (λ.χ., ένα κλειδοκύμβαλο) ή καιδιαφορετικά (λ.χ., μια φωνή για κιθάρα και η δεύτερη για το μεταλλόφωνο).

Στην πολυφωνία χωρίς διακριτές φωνές, παρότι οι αλληλεπικαλυπτόμενες φω-νές παραμένουν μονοφωνικές, δεν υπάρχει σαφής διαχωρισμός τους. Ακολούθως,δεν είναι ευδιάκριτη η αντιστοίχιση νοτών και φωνών.

Page 21: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

8 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

1.2.2 Μετατροπή μεταξύ επιπέδων πολυπλοκότητας

Η μετατροπή μεταξύ των επιπέδων πολυπλοκότητας πολύ σπάνια εμφανίζεταιστη σχετική βιβλιογραφία. Ειδικότερα, η μετατροπή από χαμηλή πολυπλοκότητα(μονοφωνία) σε υψηλότερη (πολυφωνία) δεν θεωρείται ως διαδικασία ανάκτησηςπληροφορίας [10]. Ωστόσο, περιορισμένη έρευνα υφίσταται στον χώρο αυτό [11].

Αντίθετα η μετατροπή προς μειωμένη μουσική πολυπλοκότητα αποτελεί έναενδιαφέρον πεδίο έρευνας. Διευθύνσεις της έρευνας αυτής είναι η ανάκτηση τηςπληροφορίας φωνών σε πολυφωνικά κομμάτια χωρίς διακριτές φωνές αλλά και ηεξαγωγή μελωδίας (μετατροπή από πολυφωνία ή ομοφωνία σε μονοφωνία). Επι-πλέον, οι μετατροπές αυτές μπορούν να θεωρηθούν ως μέθοδοι εξαγωγής χαρα-κτηριστικών.

1.3 Αναπαράσταση της μουσικής

Ημουσική πληροφορία μπορεί να αναπαρασταθεί με δυο μεθόδους: τη συμβο-λική αναπαράσταση (σε αρχεία τύπου MIDI, Humdrum, αλλά και τυπική σημειο-γραφία δυτικού τύπου) και την ακουστική αναπαράσταση (σε αρχεία τύπου wav,mp3, aac, κλπ.). Η ειδοποιός διαφορά τους βρίσκεται στο ότι η οικογένεια τωνσυμβολικών αναπαραστάσεων (εκτός των περιπτώσεων μεταφοράς ακουστικώνπηγών σε συμβολική καταγραφή) περιέχει στα αντικείμενα της πληροφορία τουτι θα πρέπει ένας μουσικός εκτελεστής να παίξει, ενώ οι ακουστικές αναπαραστά-σεις αποτελούνται από μια συγκεκριμένη καταγεγραμμένη εκτέλεση ενός μουσι-κού κομματιού. Τα μουσικά κομμάτια σε συμβολική μορφή έχουν την έννοια τηςπρόθεσης του συνθέτη προς τον εκτελεστή, ενώ τα ακουστικά κομμάτια έχουν τηνέννοια ενός στιγμιότυπου ή μιας έκφανσης της κατανόησης και της εκτέλεσης τουοργανοπαίκτη αλλά και των συνθηκών καταγραφής τους. Με άλλα λόγια, ο όροςμουσική συμπεριλαμβάνει τόσο τις οδηγίες του τι πρέπει να εκτελεστεί όσο καιτους ήχους που προκύπτουν.

1.3.1 Το εύρος των αναπαραστάσεων

Παρότι η ακουστική αναπαράσταση μεταφέρει καταφανώς, καθώς είναι ακου-στή, την πρόθεση του συνθέτη με πλήρη έκφραση, η δομή στη μορφή αυτή δενείναι ρητά δηλωμένη. Οι ρυθμικές μορφές, οι δομικές φράσεις αλλά και άλλα δο-μικά στοιχεία της μουσικής που θα μπορούσαν να χρησιμοποιηθούν για ΑΜΠΒΠδεν είναι έκδηλα και απαιτούν εντοπισμό. Η έλλειψη δομής είναι τέτοιας κλίμακαςόπου ακόμα και το τονικό ύψος αλλά και η χρονική διάρκεια των φθογγόσημων

Page 22: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.3. ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΗΣ ΜΟΥΣΙΚΗΣ 9

(νότες) απουσιάζουν. Το Σχήμα 1.4a δείχνει ένα παράδειγμα της κυματομορφήςενός ψηφιοποιημένου καταγεγραμμένου μουσικού κομματιού.

(a)

(b)

(b)

Σχήμα 1.4: Σχηματικές αναπαραστάσεις της μουσικής: (a) ακουστική, (b) συμβολική τύ-που MIDI και (c) συμβολική τύπου δυτικής σημειογραφίας.

Αντιδιαμετρικά βρίσκεται η τυπική σημειογραφία του δυτικού τύπου μουσι-κής, με συνηθέστερη απόδοση της το κείμενο με τα μέρη μουσικής συνθέσεωςγραμμένα σε πεντάγραμμο (παρτιτούρα) [10]. Στην αναπαράσταση αυτή, όλοι οισυμβολισμοί που περιλαμβάνονται στην δυτικού τύπου μουσική είναι ρητά δηλω-μένοι και δομημένοι, ενώ με τη χρήση εξειδικευμένου λογισμικού τα χαρακτηρι-στικά αυτά μπορούν να κωδικοποιηθούν σε αρχεία τύπου CMN (Common MusicNotation). Στο Σχήμα 1.4c παρουσιάζεται ένα δείγμα παρτιτούρας. Στο σημείοαυτό πρέπει να αναφερθεί ότι η μη-δυτικού τύπου μουσική παρουσιάζει σημαντι-κές διαφορές από την δυτικού τύπου μουσική, και στο παρόν δεν εξετάζεται, ενώεφεξής με τον όρο μουσική αναφερόμαστε στην δυτικού τύπου μουσική.

Ωστόσο, η συμβολική αναπαράσταση μπορεί να χωριστεί επίσης σε επιμέρουςτμήματα ανάλογα με το βαθμό δόμησης που παρουσιάζει, με κύρια υποκατηγορίατην αναπαράσταση μέσω χρονο-σημασμένων γεγονότων (μουσικά αρχεία τύπουMIDI). Τα αρχεία αυτά περιέχουν περιγραφείς επιπέδου γεγονότων οι οποίοι δη-λώνουν τους χρόνους (σε χιλιοστά του δευτερολέπτου) ήχησης και διάρκειες τωννοτών που εμφανίζονται σε ένα κομμάτι. Τα αρχεία MIDI περιέχουν περισσότερη

Page 23: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

10 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

δόμηση από τα ακουστικά καθώς το ακριβές τονικό ύψος και η διάρκεια των νοτώνείναι ρητά δηλωμένα. Αντίθετα, περιέχουν λιγότερη πληροφορία από τη δυτικούτύπου σημειογραφία καθώς η διαφορά ενός ημιτονίου με την ύφεση του επομέ-νου δεν είναι δυνατό να διαχωριστεί (τα εναρμόνια διαστήματα δεν μπορούν ναδιαχωριστούν). Στην αναπαράσταση αυτή έχουν τον ίδιο χαρακτηρισμό, ενώ πα-ρόμοια, δεν είναι δυνατό να διαχωριστούν μια νότα με διάρκεια ενός δευτέρου καιδυο δεμένες νότες (tied quarter notes) διάρκειας ενός τετάρτου. Καθώς η αναπα-ράσταση αυτή συνδέθηκε με το piano-roll του περασμένου αιώνα στο Σχήμα 1.4bπαρουσιάζεται με τη μορφή αυτή.

Οι αναπαραστάσεις μέσω χρονο-σημασμένων γεγονότων (MIDI) χωρίζονταιεπίσης σε δυο κατηγορίες ανάλογα με το εάν βασίζονται σε μια δεδομένη εκτέλεσηή σε μια παρτιτούρα, ενώ η διαφορά αυτή υποστηρίζεται από την προέλευση τουαρχείου MIDI. Οι συνηθέστερες πηγές είναι από μια παρτιτούρα ή η μετατροπήαπό μια εκτέλεση (μέσω ενός οργάνου που υποστηρίζει έξοδο MIDI ή από τηαναγνώριση νοτών από ακουστικό σήμα). Η διαφορά μεταξύ των δύο μεθόδωνέγκειται στο ότι το MIDI από μια παρτιτούρα έχει διάρκεια νοτών ακέραια πολ-λαπλάσια, ενώ στην περίπτωση MIDI από εκτέλεση οι νότες διαρκούν μη ακριβήπολλαπλάσια, δυσχεραίνοντας την αναγνώριση τους. Πρόκειται δηλαδή για δια-φορά κβαντισμένων και μη κβαντισμένων αρχείων MIDI.

Στον Πίνακα 1.2 παρουσιάζεται η συγκριτική απεικόνιση των αναπαραστά-σεων που ως τώρα εξετάστηκαν. Επιπλέον, δίνεται και ο βαθμός δυσκολίας μετα-τροπής από μορφή σε μορφή (όπως σχολιάζεται αναλυτικότερα στην Ενότητα 1.3.2)αλλά και ο απαιτούμενος σχετικός αποθηκευτικός χώρος για κάθε μια. Επιπλέον,στον Πίνακα 1.3 παρουσιάζεται η αναλογία κειμένου και μουσικής όσο αφορά τηνδόμη κάθε αναπαράστασης. Στην Ενότητα 1.5.1, θα δοθεί εκτενέστερη σύγκρισητης ανάκτησης πληροφορίας κειμένου και μουσικής.

MIDICD, MP3

(

)

-

, , .

,

, ,

-:

:

-

1012000

Πίνακας 1.2: Σύγκριση των αναπαραστάσεων της μουσικής.

Page 24: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.3. ΑΝΑΠΑΡΑΣΤΑΣΗ ΤΗΣ ΜΟΥΣΙΚΗΣ 11

µ

(HTML)

µ

µ

µ µ

( )

(MIDI)µ

(CD, mp3, aac)µ

µ

Πίνακας 1.3: Σύγκριση κειμένου και μουσικής.

1.3.2 Μετατροπές αναπαραστάσεων

Η μετατροπή μεταξύ αναπαραστάσεων μονοφωνικής μουσικής αποτελεί έναεύκολα αντιμετωπιζόμενο πρόβλημα. Αντίθετα, η μετατροπή μεταξύ αναπαραστά-σεων πολυφωνικής μουσικής μπορεί να κυμανθεί από πολύ απλό σε άλυτο πρό-βλημα, ιδιαίτερα χωρίς περιοριστικές υποθέσεις [6], ανάλογα με την διεύθυνσημετατροπής. Τα αρχεία τύπου CMN μπορούν πολύ εύκολα να μετατραπούν σεMIDI αντικαθιστώντας το τονικό ύψος και την διάρκεια των νοτών με το διακριτόαναγνωριστικό του τονικού ύψους και την χρονική διάρκεια της νότας σε χιλιο-στά του δευτερολέπτου. Όμοια εύκολη είναι και η μετατροπή MIDI σε ακουστικήμουσική8. Μουσικά όργανα που υποστηρίζουν τα αρχεία MIDI ή ένας Η/Υ μπο-ρούν να ηχήσουν τη νότα βάσει του διακριτικού της για το δεδομένο χρονικό τηςδιάστημα και να δημιουργήσουν μια μουσική εκτέλεση. Παρότι στις εκτελέσειςαυτές απουσιάζει η εκφραστική ικανότητα και το συναίσθημα του ανθρώπινουεκτελεστή, παραμένουν πιστές στην αρχική παρτιτούρα. Ωστόσο, η μετατροπήστην αντίθετη κατεύθυνση, δηλαδή από ακουστική μουσική σε MIDI ή από MIDIσε CMN, αποτελεί ένα ιδιαίτερα δύσκολο πρόβλημα. Η αναγνώριση ακουστικήςμουσικής, δηλαδή η μετατροπή ενός εκτελεσμένου μουσικού κομματιού σε ανα-παράσταση χρονο-σημασμένων γεγονότων, παραμένει, ακόμα και στις μέρες μας,ένα άλυτο πρόβλημα. Η μετατροπή MIDI σε CMN είναι σημαντικά ευκολότερααντιμετωπίσιμη, ωστόσο όχι χωρίς δυσκολία [3]. Όπως ήδη αναφέρθηκε, λόγωέλλειψης δομής στα αρχεία MIDI δεν είναι δυνατή η αναγνώριση εναρμόνιωννοτών διάρκειας ενός δευτέρου και δύο δεμένων νοτών ενός τετάρτου. Τέλος, ημετατροπή ακουστικής μουσικής σε CMN περιλαμβάνει τη δημιουργία ή εντοπι-σμό ρητής δομής παρά το γεγονός ότι αυτή δεν περιέχεται στην πηγή, εισάγονταςαβεβαιότητα για την ακρίβεια της προτεινόμενης δομής.

8Ο όρος «ακουστική μουσική» πηγάζει από τον Αγγλικό «acoustic music», ενώ δόκιμες εναλ-λακτικές του είναι επίσης και οι όροι «αρχεία ήχου» και «ακουστικά αρχεία»

Page 25: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

12 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

1.4 Εξόρυξη πληροφορίαςΕξόρυξη δεδομένων (data mining) ονομάζεται η διαδικασία εξαγωγής γνώσης

από μεγάλους όγκους δεδομένων. Στην ανάπτυξη της εξόρυξης δεδομένων κινη-τήριο χαρακτήρα είχε η πρόοδος στους τομείς της αυτόματης συλλογής δεδομένων(λ.χ., ακουστικά μουσικά δεδομένα, καταχώρηση επισκεπτών σε ιστοχώρους, αρ-χεία ηλεκτρονικών αγορών κ.α.), αλλά και, όπως στην ανάκτηση πληροφορίας,της ανάπτυξης μεγάλων βάσεων και της δημιουργίας αποθηκών δεδομένων (datawarehouses) με τη συγκέντρωση πληροφορίας από πολλές και ετερογενείς συλλο-γές. ʼμεση συνέπεια της ύπαρξης των συλλογών αυτών, είναι η αδύνατη ανάλυσητων μεγάλων όγκων δεδομένων που έχουν συλλεχθεί χωρίς την ανάπτυξη (ημι)-αυτόματων και αποδοτικών τεχνικών, όπως αυτές που περιλαμβάνει η εξόρυξηδεδομένων.

Από τα προαναφερθέντα προκύπτει ο ορισμός της Εξόρυξης Δεδομένων: «Ηεξαγωγή ενδιαφέρουσας, μη προφανούς, νέας και χρήσιμης πληροφορίας από με-γάλες βάσεις δεδομένων»[8].

1.4.1 Εξόρυξη μουσικής πληροφορίας

Ημουσική ανάλυση είναι σημαντικό τμήμα της έρευνας για τη μουσική γνώση.Ο στόχος της ανάλυσης των μουσικών δεδομένων είναι ο προσδιορισμός του στοι-χειώδους σημείου επαφής της ανθρώπινης κατανόησης και των μουσικών ήχων(μουσική αντιληπτικότητα) [1]. Η μουσική ανάλυση είναι η διαδικασία με τηνοποία ασχολούνται οι μουσικολόγοι και η οποία εφαρμόζεται σε ένα μουσικό κομ-μάτι, σε ένα τμήμα του ή ακόμα και σε μια συλλογή κομματιών. Το ερευνητικόπεδίο αυτό περικλείει το πεδίο της εξόρυξης μουσικής πληροφορίας (εφεξής μου-σική εξόρυξη), το οποίο ασχολείται με την θεωρία και τις μεθόδους ανεύρεσηςγνώσης από μουσικά κομμάτια και μπορεί να θεωρηθεί ως μια συλλογή (ημι-)αυτόματων μεθόδων ανάλυσης μουσικών δεδομένων.

Ακολουθώντας τη μεθοδολογία μουσικής εξόρυξης, οι αναλυτές μουσικής εξά-γουν9 επαναλαμβανόμενες δομές αλλά και την οργάνωση τους στα μουσικά κομ-μάτια, προσπαθώντας να κατανοήσουν το ύφος και την τεχνική των συνθετών [12].Ωστόσο, το μέγεθος και οι ιδιαιτερότητες των μουσικών δεδομένων μπορούν νααποβούν απαγορευτικοί παράγοντες για την προαναφερθείσα διαδικασία. Παρό-

9Οι συγγραφείς της εργασίας [12] παρουσιάζουν την ενδιαφέρουσα διαφοροποίηση μεταξύτης ανεύρεσης ενός προτύπου και της εξαγωγής του. Η ανεύρεση αναφέρεται στον εντοπισμότης τοπικής κανονικότητας (local regularities) στα δεδομένα. Η εξαγωγή, αναφέρεται επίσης σεεντοπισμό του ίδιου τύπου, αλλά ασχολείται επιπλέον και με τη ρητή διαθεσιμότητα των προτύπωνσε κάποια γλώσσα, κατά το τέλος της διαδικασίας εξόρυξης.

Page 26: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.4. ΕΞΟΡΥΞΗ ΠΛΗΡΟΦΟΡΙΑΣ 13

μοιες δυσκολίες, λ.χ., τις ογκώδεις βάσεις δεδομένων και το μεγάλο αριθμό δια-στάσεων των δεδομένων, αντιμετωπίζουν οι αναλυτές δεδομένων όταν προσπα-θούν να εντοπίσουν πρότυπα από βάσεις δεδομένων, δηλαδή ακριβώς τις αιτίεςπου οδήγησαν στην εξέλιξη της εξόρυξης-ανεύρεσης πληροφορίας από βάσεις δε-δομένων (knowledge discovery from databases - KDD). Εντούτοις, στην αναλογίαμεταξύ της μουσικής εξόρυξης και της εξόρυξης σε βάσεις δεδομένων, η μορφήτων μουσικών δεδομένων απαιτεί την ανάπτυξη ριζικά διαφορετικών μεθόδων.Στην συνέχεια της ενότητας αυτής, συνοψίζονται οι δυσκολίες και προκλήσειςπου παρουσιάζει η μουσική εξόρυξη.

Ένα κύριο σημείο στο οποίο η μουσική εξόρυξη διαφέρει από παρεμφερείς πε-ριοχές (λ.χ., εξόρυξη από βάσεις δεδομένων ή εξόρυξη από τον παγκόσμιο ιστό)είναι η εφαρμογή αλλά και οι ιδιαιτερότητες της μουσικής. Τα πρότυπα που εντο-πίστηκαν από σχεσιακές ή άλλων τύπων βάσεις, προτείνουν συνήθως μια δράση(actionable). Παραδείγματος χάριν, κανόνες συσχέτισης από δεδομένα καλαθιώναγορών μπορούν να αποτελέσουν ένδειξη για την πιθανή βελτίωση των πωλή-σεων, ενώ τα πρότυπα πρόσβασης των χρηστών που εξάγονται από αρχεία κα-ταγραφής ιστοσελίδων μπορούν να βοηθήσουν στην αναδιοργάνωση του ιστοχώ-ρου. Η προτεινόμενη δράση είναι λοιπόν συσχετισμένη με μιας μορφής «κέρδους»και προέρχεται από την αντίστοιχο εμπορικό πεδίο που εμπλέκεται στον τομέα.Ακολούθως προκύπτει το ερώτημα: «Ποια η χρησιμότητα των εξαγόμενων προ-τύπων από μουσικά δεδομένα;». Για την απάντηση στο ερώτημα αυτό, οφείλουμενα εξετάσουμε την τρέχουσα κατάσταση του εμπλεκόμενου εμπορίου, της «μου-σικής βιομηχανίας». Η επιρροή της μουσικής στους ανθρώπους αντικατοπτρίζεταιστα μουσικά αγαθά και υπηρεσίες που προσφέρονται στις μέρες μας. Τα ετήσιακέρδη της βιομηχανίας μουσικής υπολογίζονται σε αρκετά δισεκατομμύρια δολά-ρια [7]. Στα πλαίσια αυτά, το μουσικό περιεχόμενο αποτελεί πηγή οικονομικήςδραστηριότητας. Το γεγονός αυτό εντείνεται από την ευκολία που προσφέρει οπαγκόσμιος ιστός στη διάθεση του μουσικού περιεχομένου, με κατεξοχήν παρά-δειγμα την υπηρεσία Napster. Κατά συνέπεια, είναι ιδιαιτέρου ενδιαφέροντος ηαναγκαιότητα έρευνας βάσει περιεχομένου σε μουσικές συλλογές. Το αντίστοιχοερευνητικό πεδίο, όπως ήδη αναφέρθηκε στην Ενότητα 1.1 ονομάζεται ανάκτησημουσικής πληροφορίας βάσει περιεχομένου.

Ως εκ τούτου, είναι αναμενόμενο, η μουσική εξόρυξη να αποτελεί σημαντικόπαράγοντα του σχεδιασμού αποδοτικών συστημάτωνΑΜΠΒΠ. Στην πραγματικό-τητα, η ΑΜΠΒΠ επηρέασε ιδιαιτέρως τη διεύθυνση έρευνας της μουσικής εξόρυ-ξης, ορίζοντας τους στόχους προς επίτευξη. Η συνεισφορά της μουσικής εξόρυξηςστην ΑΜΠΒΠ γίνεται καλύτερα κατανοητή λαμβάνοντας υπόψη ότι τα εξαγόμεναπρότυπα περιγράφουν και αναπαριστούν το μουσικό περιεχόμενο σε διάφορα επί-πεδα αφαίρεσης (λ.χ., δημιουργώντας ταξινομίες). Η περιγραφή του μουσικού

Page 27: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

14 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

περιεχομένου με τις αναπαραστάσεις αυτές βοηθούν τους χρήστες στην διατύ-πωση επερωτημάτων με περιγραφείς περιεχομένου (λογικά ή συναισθηματικά),οι οποίοι δραστικά βελτιώνουν την αποδοτικότητα της ανάκτησης σε συστήματαΑΜΠΒΠ [7], σε σχέση με την απλοϊκή χρήση περιγραφέων κειμένου όπως ο τί-τλος ή το όνομα του συνθέτη (μεταδεδομένα). Επιπλέον, ο χρόνος έρευνας μειώ-νεται, εφόσον τα εξαγόμενα πρότυπα αποτελούν μια περισσότερο συμπιεσμένημορφή του μουσικού περιεχομένου. Τα πλεονεκτήματα από τις δυο προαναφερ-θείσες κατευθύνσεις είναι εμφανή σε μια πληθώρα εμπορικών εφαρμογών, από τιςμουσικές βιβλιοθήκες έως το προσανατολισμένο στο χρήστη ηλεκτρονικό εμπό-ριο μουσικής [12].

1.4.2 Προκλήσεις εξόρυξης μουσικήςΟι Byrd και Crawford [2] παρουσιάζουν ένα πλήθος αιτιολογιών για τις οποίες

είναι δύσκολη η διαχείριση μουσικών δεδομένων. Μερικοί από τους λόγους αυ-τούς επηρεάζουν επίσης και την μουσική εξόρυξη. Η κυριότερη δυσκολία πηγάζειαπό το γεγονός ότι ο διαχωρισμός του μουσικού κομματιού σε νοηματικές ενότη-τες, όπως οι φράσεις και τα μοτίβα δεν είναι εύκολα πραγματοποιήσιμος (όπως θαπαρουσιαστεί και στην Ενότητα 1.5.1). Για την εξαγωγή προτύπων είναι αναμε-νόμενο να απαιτείται η αναπαράσταση των μουσικών δεδομένων σε τέτοιες ενό-τητες, όπως και η εξόρυξη κειμένου χρησιμοποιεί τις λέξεις ως νοηματικές ενό-τητες για την ανεύρεση προτύπων. Παρότι ο βαθμός δυσκολίας αυξάνει για τηνακουστική μουσική, ο προσδιορισμός των βασικών ενοτήτων δεν είναι ούτε στησυμβολική αναπαράσταση εύκολος. Το πρόβλημα εντείνεται περαιτέρω από τηνύπαρξη αλληλοεπικάλυψης μεταξύ των μουσικών ενοτήτων, λόγω της πολυφω-νίας.

Η πολυφωνία, όπως ήδη παρουσιάστηκε στην Ενότητα 1.2, είναι πηγή περισ-σότερων δυσκολιών. Χάριν απλότητας, οι αρχικές έρευνες στον τομέα της μουσι-κής εξόρυξης ασχολήθηκαν με συμβολική μονοφωνική μουσική. Ωστόσο, η πολυ-φωνία είναι χαρακτηριστικό όλων σχεδόν των πραγματικών μουσικών κομματιών.Η δυσκολία που εισάγει έγκειται στο ότι απαιτείται να διαχωριστούν ταυτόχρονεςχωριστές φωνές, ώστε να αναγνωριστούν, όμοια όπως ξεχωρίζουν οι διάφορες πα-ράλληλες ομιλίες καλεσμένων σε μια συγκέντρωση. Το πρόβλημα αυτό θεωρείταιπολύ δύσκολο να επιλυθεί και επηρεάζει ιδιαίτερα την ποιότητα της ανάλυσης [2],καθώς οι μουσικές φράσεις μπορεί να ακουστούν μόνο σε λίγες περιπτώσεις ενώνα ενυπάρχουν, λ.χ., αναμεμειγμένες σε επαναλαμβανόμενες συγχορδίες, περισ-σότερες φορές.

Η επανάληψη εμφανίσεων σηματοδοτεί ένα πρότυπο σε σχεδόν όλα τα πεδίαεξόρυξης (βάσεων δεδομένων, ιστοσελίδων, κειμένου). Ωστόσο, σε όλα τα πεδία

Page 28: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.5. ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ 15

αυτά, τα πρότυπα επαναλαμβάνονται ακριβώς όμοια. Στην μουσική εξόρυξη, ηπροσήλωση σε ακριβείς επαναλήψεις δεν επαρκεί, καθώς παραλλαγές και καλ-λωπισμοί αποτελούν συνήθεις πρακτικές στα μουσικά δεδομένα [12]. Κατά συνέ-πεια, οι αλγόριθμοι ανεύρεσης μουσικών προτύπων οφείλουν να συμπεριλάβουνκαι την ιδιαιτερότητα αυτή.

Η ποιότητα των δεδομένων, είναι ένας παράγοντας που εξετάζεται από όλα ταπεδία εξόρυξης. Οι μέθοδοι καθαρισμού των δεδομένων χρησιμοποιούνται για τηναποφυγή ανακάλυψης προτύπων που δεν υφίστανται. Δεν είναι καθόλου παράξενοτο γεγονός ότι τα μουσικά δεδομένα είναι επιρρεπή σε «λάθη», καθώς δεν υπάρχειέλεγχος ποιότητας της κοινά διαθέσιμης μουσικής [2]. Ωστόσο, τα μουσικά δεδο-μένα παρουσιάζουν μια επιπλέον πηγή λαθών, η οποία είναι το αποτέλεσμα τωνδιαφορών όσο αφορά τα χαρακτηριστικά της εκάστοτε εκτέλεσης. Τα χαρακτηρι-στικά αυτά, όπως το κλειδί, ο ρυθμός, οι αυτοσχεδιασμοί ή και το ύφος, προκαλούνδιαφορετικά στιγμιότυπα πανομοιότυπων μουσικών παρτιτούρων. Ακολούθως οιπαράγοντες αυτοί πρέπει επίσης να εξεταστούν κατά την έρευνα για πρότυπα.

Τα προαναφερθέντα ζητήματα, αφορούν την αποδοτικότητα της διαδικασίαςμουσικής εξόρυξης. Μια ακόμα σημαντική πλευρά της διαδικασίας αυτής είναικαι οι επιδόσεις της. Οι μουσικές βάσεις δεδομένων τείνουν να είναι μεγάλες σεμέγεθος, εξαιτίας του μεγάλου αριθμού κομματιών που περιλαμβάνουν αλλά καιτου μεγάλου όγκου των κομματιών. Συνεπώς, η πρόκληση που παρουσιάζεται,είναι η ανάπτυξη κλιμακούμενων αλγορίθμων για τη μουσική εξόρυξη. Πολλέςαπό της ήδη υπαρκτές μεθόδους επηρεάστηκαν από μεθοδολογίες soft-computing(λ.χ., νευρωνικά δίκτυα, γενετικοί αλγόριθμοι, SVM), οι οποίες δεν παρουσιάζουνκαλή κλιμάκωση. Επιπλέον, οι αλγόριθμοι ανεύρεσης επαναλαμβανόμενων προ-τύπων περιορίζονται σε δεδομένα που βρίσκονται στην κύρια μνήμη. Ακολούθως,μια ακόμα πρόκληση είναι η ανάπτυξη αλγορίθμων για δεδομένα που βρίσκονταισε δευτερεύουσα μνήμη (δίσκοι).

Τέλος, πρέπει να αναφερθεί ότι, παρότι η χρήση γενικότερων γνώσεων στηδιαδικασία εξόρυξης θεωρείται σημαντική, παραμένει ασαφής. Στη μουσική εξό-ρυξη, η μουσικολογικές γνώσεις θεωρούνται εκ των ούκ άνευ. Απαιτείται, λοιπόν,η συστηματική ανάπτυξη μεθόδων για την ενσωμάτωση της γνώσης αυτής στηδιαδικασία της μουσικής εξόρυξης, εργασία που μοιάζει δύσκολη στην υλοποί-ηση της.

1.5 Ανάκτηση πληροφορίας

Το πρόβλημα της ανάκτησης πληροφορίας ορίζεται ως εξής: Στο χρήστη ενόςσυστήματος παρουσιάζεται η ανάγκη απόκτησης κάποιας πληροφορίας. Ο ίδιος

Page 29: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

16 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

χρήστης έχει πρόσβαση σε μια συλλογή από πληροφορίες ή δεδομένα, εκ τωνοποίων η επιθυμητή πληροφορία μπορεί να εκμαιευτεί. Ο στόχος ενός συστήμα-τος ανάκτησης πληροφορίας είναι το ταίριασμα της πληροφοριακής ανάγκης καιτων πληροφοριών που υπάρχουν στη δεδομένη συλλογή αλλά και η εξαγωγή τωνπληροφοριών που είναι σχετικές με την ανάγκη του χρήστη. Πέρα από την προ-σπάθεια ικανοποίησης της ανάγκης του χρήστη, μέθοδοι μέτρησης της ικανοποί-ησης της ανάγκης αυτής είναι επίσης επιθυμητοί.

Η πληροφοριακή ανάγκη στο προκείμενο αναφέρεται στη μουσική, ενώ ταδεδομένα στην αντίστοιχη συλλογή από όπου θα εξαχθούν είναι επίσης μουσικά.Παραδοσιακά, η ανάκτηση πληροφορίας προσανατολίστηκε στην ανάκτηση κει-μένου, ενώ όπως προαναφέρθηκε στην Ενότητα 1.3.1 υπάρχουν σαφείς διαφορέςμεταξύ των δεδομένων μουσικής και κειμένου.

1.5.1 Ανάκτηση πληροφορίας κειμένουΟ στόχος εδώ είναι η χρήση του περιεχομένου των μουσικών δεδομένων στον

κόσμο της ανάκτησης πληροφορίας. Στην ανάκτηση πληροφορίας κειμένου, μιασυνήθης αντιμετώπιση θεωρεί ότι ένα κείμενο είναι σχετικό με ένα επερώτημα,εάν το τελευταίο αναφέρεται σε παραπλήσιο θέμα με το κείμενο. Για τα κείμεναστα οποία τα συστήματα ανάκτησης πληροφορίας κειμένου λειτουργούν γίνε-ται συνήθως η υπόθεση ότι διαπραγματεύονται αντικειμενικά φαινόμενα. Καθώςπολλά συστήματα ανάκτησης πληροφορίας κειμένου αναπτύσσονται χρησιμοποιώ-ντας άρθρα εφημερίδων, εταιρικές και κρατικές αναφορές ή ακόμα και ιστοσελί-δες, η υπόθεση αυτή είναι συνήθως σωστή, εφόσον οι όροι που χρησιμοποιούνταιστα κείμενα αυτά είναι υψηλού σημασιολογικού περιεχομένου.

Η θεώρηση αυτή εξελίσσεται σε όφελος των συστημάτων ανάκτησης πληρο-φορίας κειμένου, ενώ, δυστυχώς, δεν μπορεί να εφαρμοστεί στα μουσικά δεδο-μένα. Οι νότες της μουσικής δεν φέρουν σημασιολογικό περιεχόμενο. Οι ακρο-ατές ενός κομματιού δεν ακούνε ένα κομμάτι που περιλαμβάνει την νότα ♯ καιάμεσα κάνουν την συσχέτιση ότι το κομμάτι αυτό διαπραγματεύεται την νότα ♯.Αντίθετα, οι αναγνώστες ενός κειμένου που περιλαμβάνει την λέξη «καρδιά» δια-βάζοντας την λέξη αυτή αντιλαμβάνονται ότι το κείμενο αυτό συσχετίζεται με τηνκαρδιά ή τουλάχιστο περιγράφει κάτι σχετικό με την καρδιά. Τα μουσικά κομμά-τια που περιλαμβάνουν την νόταDO♯ δεν συσχετίζονται άμεσα με την νότα αυτήκαι ακολούθως είναι άστοχη η σύγκριση μουσικών νοτών και λέξεων κειμένου.Οι νότες έχουν περισσότερα κοινά με τα γράμματα από ότι με της πλήρεις λέ-ξεις, παρότι παραμένει ακόμα και σήμερα μη πλήρως διασαφηνισμένη η εξαγωγήμουσικών «λέξεων» από ένα μουσικό κομμάτι.

Εκτός του προβλήματος του σημασιολογικού περιεχόμενου, υφίσταται και το

Page 30: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

1.5. ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ 17

πρόβλημα του μεγέθους του λεξιλογίου, καθώς τα ευμεγέθη λεξιλόγια προσφέ-ρουν υψηλότερη διακριτική ικανότητα από ότι τα μικρότερα. Τα λεξιλόγια τωνκειμένων είναι συνήθως μεγάλα και παρότι μεταβάλλονται από γλώσσα σε γλώσσαξεκινούν από 40,000 ή και περισσότερα λήμματα. Αντίθετα τα μουσικολογικό λε-ξιλόγια10 είναι κατά πολύ μικρότερο, με 128 διαθέσιμες διακριτές νότες (στηναναπαράσταση τύπου MIDI), μεταξύ των οποίων οι μισές περίπου δεν χρησιμο-ποιούνται σε κανένα μουσικό έργο. Κατά αντιστοιχία, σε χαμηλό επίπεδο δομής,τα κείμενα έχουν επίσης πολύ μικρό λεξιλόγιο: 26 γράμματα για την Αγγλικήγλώσσα και 24 και επιπλέον τα σημεία στίξης για την Ελληνική γλώσσα. Ωστόσο,για τα κείμενα υφίστανται αυτοματοποιημένες μέθοδοι ώστε η έρευνα να προω-θηθεί από τους χαρακτήρες στις λέξεις, επιτρέποντας στα συστήματα ανάκτησηςπληροφορίας να μην λειτουργούν σε επίπεδο χαρακτήρων. Με τη χρήση απλώνκανονικών εκφράσεων, δεδομένα κειμένου μετατρέπονται εύκολα από χαρακτή-ρες σε λέξεις που περιέχουν σημασιολογικό περιεχόμενο. Συνοπτικά, τα δεδομένακειμένου χαρακτηρίζονται από τα εξής τρία ακόλουθα χαρακτηριστικά: (i) Έναευμέγεθες λεξιλόγιο (ii) χαρακτηριστικών εύκολα εξαγώγιμων που (iii) φέρουνσημασιολογικό περιεχόμενο.

Ουσιαστικά, τα δεδομένα κειμένου παρουσιάζουν υψηλή συσχέτιση μεταξύσύνταξης και σημασιολογίας. Παρότι, το προτέρημα αυτό δεν επιλύει τις δυσκο-λίες της ανάκτησης πληροφορίας κειμένου, κάνει όμως την όλη διαδικασία σαφώςευκολότερη από ότι στην περίπτωση που οι εννοιολογικές μονάδες αυτές λείπουν.Στην μουσική, όπου λείπουν και το διαθέσιμο λεξιλόγιο είναι περιορισμένο καιδεν φέρει σημασιολογικό περιεχόμενο, η διαδικασία εξαγωγής ενότητες περιεχο-μένου είναι πολύ ασαφής [10].

Ωστόσο, παρά τις προαναφερθείσες δυσκολίες σε σχέση με το κείμενο, το αί-τημα των χρηστών για ανάκτηση πληροφορίας στη μουσική παραμένει και απαιτείικανοποίηση, ενώ, εμφανώς, η χρήση ήδη υπαρκτών μεθόδων για κείμενο δεν θαείναι αποδοτική. Παρότι η ανάκτηση μουσικής πληροφορίας είναι πεδίο στενάσυνδεδεμένο με την ανάκτηση πληροφορίας κειμένου, η διαφορά τους έγκειταιστο επιπλέον επίπεδο δυσκολίας που εισάγει η έλλειψη σημασιολογικού περιεχο-μένου.

1.5.2 Ανάκτηση πληροφορίας άλλων μορφών δεδομένων

Η μουσική δεν είναι η μόνη μορφή πληροφορίας η οποία αντιμετωπίζει τοπρόβλημα μη εμφανούς και εύκολης εξαγωγής σημασιολογικά σημαντικών όρων.Τα βασικά δεδομένα που αποτελούν τις εικόνες, τα εικονοστοιχεία (pixels), έχουν

10Τα μουσικά λεξικά είναι «σχετικά» καθώς δεν μπορεί να υπάρξει γενικό μουσικό λεξικό.

Page 31: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

18 ΚΕΦΑΛΑΙΟ 1. ΠΡΟΚΑΤΑΡΚΤΙΚΕΣ ΕΝΝΟΙΕΣ ΜΟΥΣΙΚΗΣ

ένα πολυπληθές λεξιλόγιο εκατομμυρίων διαφορετικών χρωμάτων τα οποία δενφέρουν σημασιολογικά σημαντικό περιεχόμενο. Το ίδιο ισχύει και για την κινού-μενη εικόνα με ήχο (video), το οποίο είναι μια ακολουθία χαρτών pixel στο χρόνο.Επίσης, το ακουστικό σήμα, τόσο το μουσικό όσο και το μη μουσικό, αντιμετω-πίζουν το ίδιο πρόβλημα.

Ένας ακόμα τομέας που υποφέρει από το ίδιο πρόβλημα της έλλειψης δια-θέσιμου σημασιολογικά σημαντικού περιεχόμενου είναι τα βιολογικά δεδομένα.Η τρέχουσα έρευνα εξορύσσει και ανακτά ακολουθίες γενετικού υλικού (DNA).Παρόμοια με τη μουσική, το DNA έχει ένα υπερβολικά μικρό λεξιλόγιο: C, G, Aκαι T (οι νουκλεοβάσεις Cytosine, Guanine, Adenine και Thymine). Το λεξιλόγιοαυτό μεμονωμένο φέρει ελάχιστη σημασιολογική πληροφορία για την συνολικήακολουθία DNA.

Είναι ιδιαίτερου ενδιαφέροντος ότι μερική από την ορολογία που χρησιμο-ποιείται για την περιγραφή της μουσικής βρίσκει εφαρμογή και στην περιγραφήτων ακολουθιών DNA. Ένα χαρακτηριστικό παράδειγμα είναι η χρήση του όρου«μοτίβο»11 DNA. «Στην γενετική, ένα ακολουθιακό μοτίβο είναι μια ακολουθίαπρότυπο αποτελούμενη από νουκλεοτίδια ή αμινο-οξέα, η οποία εμφανίζεται σεδιάφορα σημεία και είναι, ή υποτίθεται ότι έχει, βιολογική σημασία.» [4]. Σημα-ντικά τμήματα ενός μουσικού κομματιού τείνουν να επαναλαμβάνονται σε ένακομμάτι ή σε διάφορα μέρη της μουσικής σύνθεσης.

11Το μοτίβο είναι ένα σύντομο επαναλαμβανόμενο μελωδικό ή ρυθμικό σχήμα που είναι εύκολααναγνωρίσιμο (ένα μουσικό θέμα μπορεί να περιλαμβάνει αρκετά μοτίβα).

Page 32: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ

[1] I. Bent. Analysis, chapter Grove’s Dictionary of Music. Macmillan, London,1980.

[2] D. Byrd and T. Crawford. Problems of music information retrieval in the realworld. Information Processing and Management, 38(2):249−272, 2002.

[3] E. Cambouropoulos. Frommidi to traditional music notation. InProceedingsWorkshop on Articial Intelligence and Music (AAAI), 2000.

[4] Wikipedia: The Free Encyclopedia. Sequence motif.

[5] M. Kassler. Toward musical information retrieval. Perspectives of NewMusic, 4(2):59−67, 1966.

[6] A. Klapuri. Signal processing methods for the automatic transcription ofmusic. Ph.D. thesis, Tampere University of Technology, 2004.

[7] M. Leman. Musical audio mining. Dealing with the Data Flood: MiningData, Text and Multimedia, 2002.

[8] A. Nanopoulos. Data mining techniques for complex data structures. Ph.D.thesis, Aristotle Universtiy of Thessaloniki, 2002.

[9] B.C. O’Connor and R.B.Wyatt. Photo Provocations. Scarecrow Press, 2004.

[10] J. Pickens. Harmonic modeling for polyphonic music retrieval. Ph.D. thesis,Computer Science Department, University of Massachusetts Amherst, 2004.

[11] Harmonet Project. Harmonet project.

[12] P.-Y. Rolland and J.-G. Ganascia. Pattern detection and discovery: The caseof music data mining. In Proceedings Conference on Pattern Detection andDiscovery, pages 190−198, 2002.

19

Page 33: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

20 ΒΙΒΛΙΟΓΡΑΦΙΑ

Page 34: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΚΕΦΑΛΑΙΟ 2

Νομικά θέματα μουσικών δεδομένων

Περιεχόμενα

2.1 ΠΝΕΥΜΑΤΙΚΗ ΙΔΙΟΚΤΗΣΙΑ . . . . . . . . . . . . . . . 23

2.2 Η ΥΠΟΣΤΗΡΙΞΗ ΤΗΣ ΕΥΛΟΓΗΣ ΠΑΡΑΒΙΑΣΗΣ . . . . 30

2.3 ΒΑΣΙΚΕΣΔΡΑΣΕΙΣΕΡΕΥΝΑΣΜΟΥΣΙΚΗΣΠΛΗΡΟΦΟ-ΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ . . . . . . . . . . . . . . . . . 33

Όπως ήδη αναφέρθηκε στο Κεφάλαιο 1, η έρευνα μουσικής πληροφορίας είναιένα σχετικά νέο ερευνητικό πεδίο. Ωστόσο, στα έτη 2000-2014 ήδη έχει συνεισφέ-ρει πολύτιμες μεθόδους για την (α) ανάκτηση σχετικού με ερώτημα υποσυνόλουτραγουδιών από ένα σύνολο τραγουδιών της τάξης των δεκάδων εκατομμυρίωνκαι (β) την εξόρυξη νέας σημαντικής, μη προφανής και ιδιαίτερα δύσκολης γιαχειρωνακτική εξαγωγή μουσικής γνώσης.

Οι τελευταίες εξελίξεις στους Η/Υ και τις ψηφιακές τεχνολογίες προσφέρουναυξημένη επεξεργαστική ικανότητα, φθηνή αποθήκευση δεδομένων τάξης tebibyte,ευρέως διαθέσιμη δικτύωση υψηλής διαμεταγωγής όπως και νέες μεθόδους γιαυψηλή, σχεδόν μη απωλεστική συμπίεση μουσικών εγγραφών. Επιπλέον, η e-κοινωνική δικτύωση κατά Web 2.0 προσέφερε στους χρήστες την ευκαιρία ναεπεκτείνουν το εύρος του ρόλου τους από καταναλωτές σε παραγωγούς με τηναπλή ανάθεση ετικετών σε μουσικά δεδομένα [40].

Ακολούθως, ένα νέο παράδειγμα νόμιμης μουσικής διάθεσης έκανε την εμ-φάνισή του, η μεταφόρτωση μουσικής από το διαδίκτυο από υπηρεσίες όπως οιApple iTunes [33], Napster [36], Amazon [32] καθώς και πολλές άλλες. Οι εξελί-ξεις αυτές, προσφέρουν την πρωτοφανή δυνατότητα αναζήτησης, εξαγωγής γνώ-σης και ανάθεσης πληροφορίας χρήστη σε τεράστιες βάσεις δεδομένων μουσικής,όπως αυτές των διαδικτυακών υπηρεσιών που προαναφέρθηκαν, επιτρέποντας

21

Page 35: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

22 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

έτσι στους χρήστες φιλική και αποδοτική αλληλεπίδραση. Επιπλέον, οι τελικοίχρήστες μπορούν ήδη στις μέρες μας οι τελικοί χρήστες είναι σύνηθες να δια-θέτουν σημαντικού όγκου νόμιμες μουσικές συλλογές, η διαχείριση των οποίωνεπίσης επαφίεται στα ευρήματα της έρευνας μουσικής πληροφορίας.

Η έρευνα μουσικής πληροφορίας, στοχεύοντας την δημιουργία μεθόδων ανά-κτησης και εξόρυξης γνώσης από μουσικά δεδομένα για την περαιτέρω υποστή-ριξη των χρηστών μέσω των διαδικτυακών υπηρεσιών, βασίζεται σε ένα πλήθοςαιτημάτων. Στον πυρήνα των αιτημάτων αυτών βρίσκεται η ανάγκη για πειρα-ματισμό σε πραγματικά δεδομένα ώστε να παρουσιαστεί η απόδοση των νέωνμεθόδων και να συγκριθεί με ήδη υπάρχουσες ώστε να διαπιστωθεί η πρόοδος.Στην έρευνα μουσικής πληροφορίας η έννοια των μουσικών δεδομένων αναφέρε-ται σε ηχογραφήσεις, παρτιτούρες, περιγραφικά δεδομένα για τα μουσικά δεδο-μένα (αναφέρονται συνήθως ως μεταδεδομένα ή metadata) καθώς και δεδομέναπου αναφέρονται σε μουσικά δεδομένα συλλεγμένα από διαδικτυακές υπηρεσίεςκοινωνικής δικτύωσης. Η συνηθέστερη μορφή τέτοιων δεδομένων από διαδικτυα-κές υπηρεσίες κοινωνικής δικτύωσης είναι ετικέτες ελεύθερου κείμενου (γνωστέςκαι ως “tags”) τις οποίες οι χρήστες του κοινωνικού δικτύου αναθέτουν σε πλη-ροφορία σχετική με μουσική, δημιουργώντας έτσι μια συσχέτιση.

Τα μουσικά δεδομένα, στη μορφή ηχογράφησης, παρτιτούρας ή των στοίχωνμπορεί να προστατεύονται από νόμους για την πνευματική ιδιοκτησία. Στις περι-πτώσεις αυτές, η αναπαραγωγή, εκτέλεση και διαμοιρασμός τους, αναφέρονταςμόνο μερικές σχετικές δράσεις, συγκαταλέγονται στις δραστηριότητες που πα-ραμένουν αποκλειστικά στους ιδιοκτήτες των δικαιωμάτων τους. Το ενδιαφέρονείναι πως, ενώ το δίκαιο πνευματικής ιδιοκτησίας είναι σε γενικές γραμμές εθνι-κού χαρακτήρα [31], υφίστανται διεθνείς συμβάσεις πνευματικής ιδιοκτησίας πουσχηματίζουν ένα διεθνές «δίχτυ προστασίας» των δημιουργών και εκτός της δι-κής τους χώρας. Ακολούθως, βάσει της σύμβασης Berne [16], της σημαντικότε-ρης πολυεθνικής σύμβασης για τα πνευματικά δικαιώματα που παρέχει δεδομένηελάχιστη προστασία εντός των χωρών μελών της, τα έργα των δημιουργών προ-στατεύονται και σε άλλες χώρες σύμφωνα με τις σχετικές εθνικές διατάξεις περίπνευματικής ιδιοκτησίας (Άρθρο 5, [16]).

Στα πλαίσια της προστασίας πνευματικής ιδιοκτησίας, υφίστανται εξαιρέσειςυπερ των χρηστών έργων με κατοχυρωμένη πνευματική ιδιοκτησία οι οποίες πη-γάζουν από την ανάγκη για εξισορρόπηση μεταξύ των ιδιοκτητών των πνευματι-κών δικαιωμάτων και του κοινωνικού καλού [21]. Η σύμβαση Berne επιτρέπει σταμέλη της να παρέχουν εξαιρέσεις πνευματικής ιδιοκτησίας εφόσον συμμορφώνο-νται με το τέστ τριών βημάτων της (Άρθρο 9(2), [16]). Οι περισσότερες νομοθε-σίες παρέχουν διατάξεις που επιτρέπουν την, υπό προϋποθέσεις, χρήση πνευμα-τικά κατοχυρωμένου υλικού η οποία υπό άλλες συνθήκες θα θεωρείτο παράνομη.

Page 36: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.1. ΠΝΕΥΜΑΤΙΚΗ ΙΔΙΟΚΤΗΣΙΑ 23

Ή νομοθεσίες των ΗΠΑ και του Ηνωμένου Βασίλειου περιλαμβάνουν την υπε-ράσπιση “fair use” και “fair dealing” κατ’ αντιστοιχία όπου και οι δύο όροι έχουντην έννοια της «θεμιτής χρήσης».

Οι διαφορές πνευματικής ιδιοκτησίας που αφορούν θέματα δημόσιου διεθνούςδικαίου μπορεί να εξελιχθούν ιδιαίτερα επίπονες σε θέματα δικαιοδοσίας και εφαρ-μοστέου δικαίου. Σύμφωνα με τον Ευρωπαϊκό κανονισμό (EC) αρίθμ. 44/2001, ηκύρια αντιμετώπιση είναι ότι ένα πρόσωπο θα πρέπει να εναχθεί ενώπιον των δι-καστηρίων του κράτους - μέλους στο οποίο έχει την κατοικία του, ανεξάρτητα απότην ιθαγένειά του (Άρθρο 2, [27]). Ωστόσο, όταν πρόκειται για συμβάσεις, όπωςμια συμβατική άδεια παραχώρησης των πνευματικών δικαιωμάτων, τα δικαστή-ρια του τόπου εκπληρώσεως της εν λόγω υποχρέωσης πιθανώς να έχουν δικαιο-δοσία να εκδικάσουν την υπόθεση (Άρθρο 5(1)(a), [27]). Επιπλέον, λαμβάνονταςκατά νου ότι η παραβίαση των πνευματικών δικαιωμάτων μπορεί επίσης να είναιμια αδικοπραξία [21], σύμφωνα με τον προαναφερθέντα κανονισμό, ο παραβάτηςμπορεί να εναχθεί ενώπιον των δικαστηρίων του τόπου όπου συνέβη ή ενδέχεταινα συμβεί το ζημιογόνο γεγονός (Άρθρο 5(3), [27]). Γενικότερα, σε περίπτωσηαδικοπραξίας, το εφαρμοστέο δίκαιο θα μπορούσε πιθανότατα να είναι το δίκαιοτου τόπου όπου η παραβίαση πνευματικών δικαιωμάτων πραγματοποιήθηκε (lexloci delicti) [47].

Το παρόν κεφάλαιο θα επικεντρωθεί στα εξής πρόβλημα: οι ερευνητές μουσι-κής πληροφορίας χρειάζονται για τη δοκιμή των μεθόδων τους, πραγματικά μου-σικά δεδομένα. Έχοντας κατά νου ότι τα μουσικά δεδομένα διέπονται από πνευμα-τικά δικαιώματα και έτσι πολλά δικαιώματα που αφορούν στο χειρισμό αυτών τωνδεδομένων παραμένουν στους αντίστοιχους ιδιοκτήτες τους, οι ερευνητές χρειά-ζονται ειδικές νομικές γνώσεις προκειμένου να επιβεβαιώσουν εάν οι ερευνητικέςδράσεις τους απαιτούν την άδεια του ιδιοκτήτη των δικαιωμάτων. Αυξάνοντας τηνπολυπλοκότητα του προβλήματος, τα πνευματικά δικαιώματα εξαρτώνται από τοδίκαιο της εκάστοτε χώρας. Καθώς το θέμα υπό εξέταση είναι αρκετά εκτενές, τοπαρόν κεφάλαιο παρουσιάζει πληροφορίες μόνο σχετικά με το νομικό χαρακτήρατων ενεργειών των ερευνητών μουσικής πληροφορίας που αναφέρονται στη νο-μοθεσία περί πνευματικών δικαιωμάτων των ΗΠΑ και του Ηνωμένου Βασιλείου.

2.1 Πνευματική ιδιοκτησία

Η νομοθεσία περί πνευματικών δικαιωμάτων, η αιτιολόγησή της, τα δικαιώ-ματα που αποδίδονται - ηθικό δικαίωμα & οικονομικά πνευματικά δικαιώματα -εμπίπτουν στο πεδίο εφαρμογής του νόμου περί πνευματικής ιδιοκτησίας.

Τι είναι το δίκαιο πνευματικής ιδιοκτησίας, η δικαιολόγησή του και τα δικαιώ-

Page 37: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

24 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ματα που αποδίδει, τόσο ηθικά όσο και οικονομικά, εμπίπτει στο πεδίο εφαρμογήςτου δικαίου διανοητικής ιδιοκτησίας. Γενικά, είναι ένα δικαίωμα ιδιοκτησίας πουαποδίδεται σε ένα δημιουργό αυθεντικού έργου που στερεί από τους άλλους τηχρήση αυτής της δουλειάς, χωρίς τη συγκατάθεση του ιδιοκτήτη των δικαιωμά-των. Όπως αναφέρεται εμμέσως στην σύμβαση Berne, προστασία δεν χορηγείταιστις ιδέες, αλλά μόνο στην αρχική τους έκφραση (Άρθρο 2(1), [16]). Υπάρχουνδιάφορες αιτιολογίες όσο αφορά τη λογική στην οποία βασίζεται η χορήγηση τουδικαιώματος ιδιοκτησίας στον τομέα της διανοητικής ιδιοκτησίας, όπως το ότι θαπρέπει ο δημιουργός να κατέχει τους καρπούς της εργασίας του ή η ανάγκη ναδοθούν κίνητρα στους δημιουργούς προκειμένου να προκληθεί εμπλοκή τους σεδημιουργικές δράσεις [20].

Το δίκαιο πνευματικής ιδιοκτησίας αποδίδει στο δημιουργό ενός πρωτότυπουέργου μια δέσμη δικαιωμάτων, τόσο ηθικά όσο και οικονομικά. Τα ηθικά δικαιώ-ματα αναφέρονται στην ειδική προσωπική σχέση μεταξύ του έργου και του συγ-γραφέα και στις φιλικές προς τους συγγραφείς χώρες κατά το αστικό δίκαιο, όπωςλ.χ. η Γαλλία, δικαιολογούνται με βάση ότι το έργο αποτελεί το «πνευματικό τέ-κνο του συγγραφέα» [45]. Τα δικαιώματα αυτά περιλαμβάνουν, μεταξύ άλλων, τοδικαίωμα να αναγνωρίζεται ο συγγραφέας του έργου και το δικαίωμα αντίθεσης σεοποιαδήποτε υποτιμητική μεταχείριση ενός έργου ή μέρους αυτού (Άρθρο 6bis(1),[16]). Στις χώρες εθιμικού δικαίου, όπως οι ΗΠΑ και το Ηνωμένο Βασίλειο, τοεστιακό ενδιαφέρον αποδίδεται στα οικονομικά δικαιώματα που επιτρέπουν δη-μιουργούς να ελέγχουν την οικονομική χρήση των έργων τους [45, 29, 44].

2.1.1 Βάσεων δεδομένωνΤο δίκαιο πνευματικής ιδιοκτησίας των ΗΠΑ παρέχει προστασία στις βάσεις

δεδομένων, είτε πρόκειται για ηλεκτρονικές ή μη, ως λογοτεχνικά έργα και επί-σης, όπως αναφέρεται ρητά στη σχετική πράξη, σε συλλογές, ως κατηγορία πουσυμπεριλαμβάνει τις βάσεις δεδομένων (Ενότητες 101, 103, [17, 46]). Πνευματικάδικαιώματα ενυπάρχουν σε μια βάση δεδομένων όταν αυτή είναι το αποτέλεσμαπρωτότυπης επιλογής και διάταξης των σχετικών προϋπαρχόντων υλικών ή γεγο-νότων. Επαναλαμβάνοντας ότι η πρωτοτυπία απαιτεί το έργο που θα δημιουργηθείνα είναι ανεξάρτητο και να περιέχει μια «σπίθα δημιουργικότητας», πνευματικάδικαιώματα παραχωρούνται σε βάσεις δεδομένων δυνάμει των αποφάσεων για τηνεπιλογή, το συντονισμό και την οργάνωση των δεδομένων με ένα επαρκώς πρω-τότυπο τρόπο [1]. Τα περιεχόμενα της βάσης δεδομένων είναι πιθανώς ξεχωριστάέργα που φέρουν πνευματικά δικαιώματα ή απλά γεγονότα που δεν απολαμβάνουνπροστασία πνευματικών δικαιωμάτων (Ενότητα 103(b)[17]. Ωστόσο, τα δικαιώ-ματα πνευματικής ιδιοκτησίας σε μια βάση δεδομένων αφορούν μόνο την αρχική

Page 38: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.1. ΠΝΕΥΜΑΤΙΚΗ ΙΔΙΟΚΤΗΣΙΑ 25

επιλογή και διάταξη και όχι τα δεδομένα [46].Το δίκαιο πνευματικής ιδιοκτησίας του Ηνωμένου Βασιλείου εφαρμόζοντας

την οδηγία 96/9/EC σχετικά με τη νομική προστασία των βάσεων δεδομένων(στο εξής «οδηγία βάσεων δεδομένων») [2] μέσω του κανονισμού “Copyright andRights in Databases Regulations 1997” (στο εξής «κανονισμός βάσεων δεδομέ-νων») [3], ταξινομεί μια βάση δεδομένων ως έργο που επιδέχεται κατοχύρωσηςπνευματικών δικαιωμάτων στην κατηγορία των λογοτεχνικών έργων (Ενότητα3(1)(d), “Copyright, Designs and Patents Act” - CDPA [18]). Σύμφωνα με τονορισμό που προβλέπεται στην ενότητα 3Α(1) του CDPA η οποία είναι μια εφαρ-μογή του άρθρου 1(2) της «οδηγίας βάσεων δεδομένων», βάση δεδομένων «είναιμια συλλογή ανεξάρτητων έργων, δεδομένων ή άλλων στοιχείων, διατεταγμένωνκατά συστηματικό ή μεθοδικό τρόπο και μεμονωμένα προσιτών με ηλεκτρονικά ήάλλα μέσα». Για παράδειγμα, μια ειδησεογραφική ιστοσελίδα μπορεί να θεωρηθείως μια βάση δεδομένων [28], όπως επίσης και μια ιστοσελίδα κοινωνικής δικτύ-ωσης. Είναι προφανές πως στον παραπάνω ορισμό συμπεριλαμβάνονται τόσο οιηλεκτρονικές όσο και οι μη ηλεκτρονικές βάσεις δεδομένων. Ο όρος «ανεξάρτη-των έργων» αναφέρεται σε «εννοιολογική ή λογική ανεξαρτησία», που σημαίνειότι αυτά τα έργα μπορούν να διατηρούν την ίδια έννοια μέσα και έξω από τησυλλογή [19, 28]. Η συστηματική ή μεθοδική διάταξη αναφέρεται στην «εννοιο-λογική παρουσίαση του περιεχομένου στο χρήστη» [19, 4], ενώ οι μεμονωμένηπροσβασιμότητα σημαίνει ότι στη συλλογή του υλικού είναι δυνατή η αναζήτησηκαι τα περιεχόμενα μπορούν να προβληθούν ως μεμονωμένες οντότητες [19].

Μια βάση δεδομένων επιδέχεται προστασίας πνευματικών δικαιωμάτων (δι-καίωμα βάσης δεδομένων) μόνο για την επιλογή και τη διάταξη του περιεχομέ-νου, υπό την προϋπόθεση ότι αυτό είναι αποτέλεσμα προσωπικής πνευματικήςεργασίας του δημιουργού της (Ενότητα 3A(2), [18], ανεξάρτητα από το εάν επι-δέχονται προστασίας τα επιμέρους περιεχόμενά της [5, 6]. Ο κάτοχος των πνευμα-τικών δικαιωμάτων της βάσης δεδομένων έχει τα αποκλειστικά δικαιώματα πουπροβλέπονται στις Ενότητες 17-20 του CDPA καθώς επίσης και του δικαιώμα-τος της προσαρμογής όπως ειδικότερα επισημαίνεται στην Ενότητα 21(3)(a)(ac)[18],[21] και [19].

Επιπλέον, δυνάμει του sui generis δικαιώματος που θεσπίστηκε από την «οδη-γία βάσεων δεδομένων» [7], προστασία παρέχεται στο δημιουργό μιας βάσης δε-δομένων όχι με βάση την πρωτοτυπία στην επιλογή και τη διάταξη, αλλά λόγωτης σημαντικής επένδυσης που επιτελέστηκε για την απόκτηση, έλεγχο ή παρου-σίαση του περιεχομένου της βάσης δεδομένων [7]. Εδώ, πρέπει να τονιστεί πωςδεν έχει σημασία για την απόδοση του δικαιώματος της βάσης δεδομένων αν ηβάση δεδομένων έχει επίσης την προστασία των πνευματικών δικαιωμάτων ή τοπεριεχόμενο διακατέχεται από πνευματικά δικαιώματα per se [21]. Ο «κανονισμός

Page 39: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

26 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

βάσεων δεδομένων» παρέχει επεξηγήσεις σχετικά με το δικαίωμα ειδικής φύσηςβάσεων του κατασκευαστή βάσεων δεδομένων [8], ενώ σύμφωνα με τις ενότητέςτου 16(1) και (2), ο κατασκευαστής της βάσης δεδομένων έχει το δικαίωμα να πε-ριορίσει τους άλλους να εξάγουν και να επανα-χρησιμοποιήσουν ουσιώδη μέρητου περιεχομένου της βάσης δεδομένων καθώς επίσης και να μην πράξουν τα ίδιασε επουσιώδη μέρη της βάσης με επαναλαμβανόμενο και συστηματικό τρόπο.

2.1.2 Μουσικών δεδομένωνΌσο αφορά τη μουσική, η νομοθεσία των ΗΠΑ διακρίνει δύο διαφορετικούς

τύπους έργων που επιδέχονται κατοχύρωση πνευματικών δικαιωμάτων, (α) ταμουσικά έργα που αναφέρονται στη μουσική και τους στίχους (Ενότητα 102(a)(2),[17]) και (β) τις ηχογραφήσεις μουσικών έργων που αναφέρονται σε μια καταγε-γραμμένη έκδοση ενός μουσικού έργου (Ενότητα 102(a)(7), [17]).

Και οι δύο προαναφερθέντες τύποι έργων οφείλουν να καλύψουν το κριτή-ριο της πρωτοτυπίας για να μπορούν να επιδέχονται κατοχύρωση πνευματικώνδικαιωμάτων κατά το δίκαιο πνευματικής ιδιοκτησίας των ΗΠΑ. Συγκεκριμένα,το μουσικό έργο πρέπει να είναι πρωτότυπη έκφραση της μουσικής και των στί-χων (Ενότητα 102(a)(2), [17]). Το κριτήριο της πρωτοτυπίας απαιτεί κάθε έργονα έχει δημιουργηθεί ανεξάρτητα, δηλαδή να μην είναι αντικείμενο αντιγραφήςαπό άλλο δημιουργό και να διαθέτει μια μικρή ποσότητα της δημιουργικότητας[1]. Οι ηχογραφήσεις μουσικών έργων είναι εκ φύσεως πρωτότυπες εξαιτίας τωνδημιουργικών επιλογών που κάνουν κατά την ηχογράφηση οι εκτελεστές, οι μη-χανικοί του ήχου και οι παραγωγοί [24]. Επιπλέον, ένα πρωτότυπο μουσικό έργοπρέπει να είναι παγιωμένο, δηλαδή πρέπει να έχουν καταγραφεί οι νότες του ήνα έχει ηχογραφηθεί η εκτέλεσή του (Ενότητα 102(a), [17]). Μια ηχογράφησηενός μουσικού έργου καλύπτει εξ ορισμού το κριτήριο της παγίωσης εφόσον οιαποφάσεις που πάρθηκαν για την ηχογράφηση μπορούν να θεωρηθούν επαρκώςπρωτότυπες [24].

Λεπτομερέστερα, ο ιδιοκτήτης των δικαιωμάτων του μουσικού έργου έχει τααποκλειστικά οικονομικά δικαιώματα (1) για την αναπαραγωγή του προστατευό-μενου έργου σε αντίγραφα ή ηχητικές εγγραφές και να εγκρίνει τέτοιες αναπαρα-γωγές (Ενότητα 106(1), [17]), (2) να δημιουργήσει και να επιτρέψει τη δημιουργίατων παραγώγων έργων με βάση το κατοχυρωμένο έργο (Ενότητα 106(2), [17]),(3) να διανέμει αντίγραφα ή ηχητικές εγγραφές του προστατευόμενου έργου στοκοινό και να εγκρίνει τέτοιου είδους διανομές, με πώληση ή άλλη μεταβίβαση τηςκυριότητας ή με μίσθωση, εκμίσθωση ή δανεισμός (Ενότητα 106(3), [17]), (4)να εκτελεί δημοσίως το μουσικό έργο και να επιτρέπει τη δημόσια εκτέλεση τουέργου (Ενότητα 106(4), [17]), και (5) να παρουσιάζει δημοσίως το έργο και να

Page 40: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.1. ΠΝΕΥΜΑΤΙΚΗ ΙΔΙΟΚΤΗΣΙΑ 27

επιτρέπει σε άλλους να το πράξουν (Ενότητα 106(5), [17]). Όσο αφορά τις ηχη-τικές εγγραφές, στον ιδιοκτήτη των πνευματικών δικαιωμάτων επίσης χορηγείταιβάσει των προαναφερθέντων δικαιώματα που απορρέουν από τις περιπτώσεις (1),(2), (3) και σε αντίθεση με τις (4) και (5), μόνο το δικαίωμα να εκτελεί δημοσίωςτο έργο με τη βοήθεια της ψηφιακής μετάδοσης ήχου και να εξουσιοδοτεί άλλουςνα το πράξουν (Ενότητα 106(6), [17]).

Στη νομοθεσία του Ηνωμένου Βασιλείου, δικαιώματα πνευματικής ιδιοκτη-σίας αποδίδονται στον δημιουργό ενός πρωτότυπου μουσικού έργου, όπου το μου-σικό έργο ορίζεται ως έργο που περιέχει μουσική αλλά δεν περιέχει «λέξεις ήδράσεις που προορίζονται για τραγούδισμα, προφορά ή εκτέλεση με την μου-σική» (Ενότητα 3(1)(d), [18]). Ακολούθως, οι στίχοι ενός τραγουδιού επιδέχονταιπροστασίας πνευματικών δικαιωμάτων ξεχωριστά ως αντικείμενο λογοτεχνικούέργου. Όπως και στην νομοθεσία των ΗΠΑ, το κάθε έργο πρέπει να είναι κατα-γεγραμμένο, λ.χ. σε παρτιτούρα ή με όποια άλλη μέθοδο ώστε να υφίστανται ταπνευματικά δικαιώματα (Ενότητα 3(2), [18]). Το κριτήριο της πρωτοτυπίας στηνπροκείμενη περίπτωση απαιτεί το μουσικό έργο να είναι το αποτέλεσμα των δεξιο-τήτων, εργασίας και κρίσης του δημιουργού [9, 10, 11] και να μην είναι αντιγραμ-μένο από άλλο έργο, δηλαδή πρέπει να είναι ανεξάρτητη εργασία του δημιουργού[12]. Στην περίπτωση που το μουσικό έργο είναι ηχογραφημένο, η προστασία τωνπνευματικών δικαιωμάτων καλύπτει και τον παραγωγό της ηχογράφησης. Παρότι,στην περίπτωση της ηχογράφησης δεν απαιτείται το κριτήριο της πρωτοτυπίας,πνευματικά δικαιώματα δεν αποδίδονται για ηχογραφήσεις έργων που είναι απλέςαντιγραφές άλλων έργων (Ενότητα 1(1)(b), [18]).

Ο ιδιοκτήτης του πνευματικά κατοχυρωμένου έργου, άσχετα αν αυτό είναιμουσικό έργο (κατά τη νομοθεσία του Ηνωμένου Βασιλείου) ή ηχογράφηση, έχειτο αποκλειστικό δικαίωμα να κάνει και εξουσιοδοτεί άλλους να κάνουν τις ακό-λουθες πράξεις (Ενότητες 16(1)-(2), [18]): (1) αντιγραφή του έργου (Ενότητα16(1)(a), [18]), (2) διανομή αντιγράφων του έργου στο κοινό (Ενότητα 16(1)(b),[18]), (3) ενοικίαση ή δανεισμό του έργου στο κοινό (Ενότητα 16(1)(ba), [18]), (4)εκτέλεση και παρουσίαση του έργου στο κοινό (Ενότητα 16(1)(c), [18]), (5) ανα-κοίνωση του έργου στο κοινό (Ενότητα 16(1)(d), [18]), καθώς επίσης μόνο για τομουσικό έργο (6) να κάνει προσαρμογή του ή όποιο από τα παραπάνω δικαιώματασε σχέση με προσαρμογή του έργου (Ενότητα 16(1)(e), [18]).

2.1.3 Ροών δεδομένωνΗ πρόσβαση στο μουσικό περιεχόμενο αποτελεί ουσιώδη προϋπόθεση για την

έρευνα μουσικής πληροφορίας. Έτσι, η ενότητα αυτή περιέχει λεπτομέρειες όσοαφορά τη νομοθεσία για τις τεχνικές πρόσβασης στα μουσικά δεδομένα από ερευ-

Page 41: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

28 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

νητές του τομέα της μουσικής πληροφορίας με στόχο την εφαρμογή των μεθόδωντου ερευνητικού πεδίου στα δεδομένα αυτά.

YouTube Η πρόσβαση στις ροές δεδομένων (streaming data) της υπηρεσίας You-Tube υπονοεί εμμέσως την αποδοχή των Όρων της Υπηρεσίας (ΌτΥ, Termsof Service, ToS)1. Με στόχο την προστασία των δεδομένων που υπόκει-νται σε πνευματικά δικαιώματα, όπως εικόνες ή μουσική, που είναι διαθέ-σιμα στην ιστοσελίδα της υπηρεσίας, η YouTube διαθέτει αρκετές διατάξειςστους όρους που παρουσιάζουν κάτω από ποιες συνθήκες μπορεί κανείς ναέχει πρόσβαση και να χρησιμοποιήσει την υπηρεσία (για ορισμό της «υπη-ρεσίας» βλ. 1.1, ToS) και τα περιεχόμενά της, όπου το περιεχόμενο αναφέ-ρεται κυρίως σε υλικό που υπόκειται σε πνευματικά δικαιώματα (για ορισμότου «περιεχόμενου» βλ. 1.4, ToS).Ειδικότερα, οι χρήστες που μεταφορτώνουν τις πρωτότυπες εργασίες τουςστην υπηρεσία διατηρούν τα δικαιώματα ιδιοκτησίας στην εργασία τους(7.2, ToS), ενώ παρέχουν στους χρήστης της YouTube «παγκόσμια, μη απο-κλειστική, άνευ καταβολής δικαιωμάτων άδεια πρόσβασης στο περιεχόμενομέσω της υπηρεσίας, καθώς και άδεια χρήσης, αναπαραγωγής, αναδιανο-μής, δημιουργίας παράγωγων έργων, έκθεσης και παρουσίασης του εν λόγωπεριεχομένου, στο βαθμό που επιτρέπεται από τις λειτουργίες της υπηρεσίαςκαι σύμφωνα με τους όρους» (8.1.B, ToS). Επιπλέον, κάθε χρήστης συμ-φωνεί να μην «αντιγράφει, αναπαράγει, διανέμει, μεταδίδει, εκθέτει, πω-λεί, παρέχει άδεια χρήσης ή άλλως να εκμεταλλεύεται οποιοδήποτε περιε-χόμενο για άλλους σκοπούς χωρίς την προηγούμενη γραπτή συγκατάθεσητης YouTube ή των αντίστοιχων κατόχων άδειας χρήσης του περιεχομένου»(5.1.M, ToS). Ακόμα, όπου δεν παρέχεται η αντίστοιχη λειτουργικότητα απότην YouTube, δεν επιτρέπεται η διανομή οποιουδήποτε μέρους ή μερών τουπεριεχομένου σε οποιοδήποτε μέσο χωρίς την προηγούμενη γραπτή συγκα-τάθεση της YouTube (5.1.A, ToS). Τέλος, χρήση του περιεχόμενου πρέπεινα είναι προσωπική, μη εμπορική και αποκλειστικά για σκοπούς αναμετά-δοσης περιεχομένου μέσω ροών δεδομένων (5.1. L, ToS). Ακολούθως, είναιπροφανές πως ένας χρήστης της YouTube μπορεί να απολαύσει ένα μουσικόκομμάτι που παρέλαβε με ροή δεδομένων αλλά δεν μπορεί να δημιουργήσειαντίγραφό του σε έναν Η/Υ και να το διανείμει χωρίς τη συγκατάθεση τηςYouTube ή των αντίστοιχων κατόχων άδειας χρήσης του.Όσο αφορά τις υπηρεσίες της YouTube για προγραμματιστές2, το Πρωτό-κολλο Διεπαφής Εφαρμογών (ΠΔΕ, Application Protocol Interface - API)

1https://www.youtube.com/t/terms2https://developers.google.com/youtube/terms

Page 42: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.1. ΠΝΕΥΜΑΤΙΚΗ ΙΔΙΟΚΤΗΣΙΑ 29

παρέχει για υψηλού βαθμού τεκμηρίωσης μεθόδους προγραμματισμού Η/Υ,προκειμένου για τους προγραμματιστές να έχουν πρόσβαση σε συγκεκριμέ-νες λειτουργίες και το περιεχόμενο της YouTube. Έτσι, με τη χρήση τέτοιωνμεθόδων, εγγεγραμμένοι χρήστες μπορούν να έχουν άμεση πρόσβαση στοπλήρες μουσικό περιεχόμενο των βίντεο μέσω ροών δεδομένων έξω από τοσύνηθες περιβάλλον της παροχής περιεχομένου της YouTube, δηλαδή μιαςδιαδικτυακής διεπαφής - ιστοσελίδας. Επιπλέον, το πρωτόκολλο ροής δεδο-μένων RTSP που χρησιμοποιείται από τη YouTube σε τέτοιες περιπτώσειςείναι αρκετά σύνηθες και διαθέτει δημόσια διαθέσιμη τεκμηρίωση 3, αυξά-νοντας έτσι την ευκολία προσαρμοσμένης πρόσβαση στο περιεχόμενο πουπαρέχει η YouTube.

Σύμφωνα με τους όρους της υπηρεσίας που απευθύνονται ειδικώς στουςπρογραμματιστές, η χρήση των ΠΔΕ (API ToS), κάθε πνευματικό δικαί-ωμα στο περιεχόμενο της YouTube πρέπει να γίνεται σεβαστό, υποδηλώ-νοντας πως οι προγραμματιστές δεν πρέπει να προβούν, χωρίς την ανά-λογη έγκριση, σε δράσεις που παραβιάζουν τα αποκλειστικά πνευματικάδικαιώματα του ιδιοκτήτη ή προωθούν τέτοιες πράξεις (II. 12, API ToS).Για παράδειγμα, οι προγραμματιστές δεν επιτρέπεται να διευκολύνουν ήνα δημιουργήσουν λειτουργικότητα προσβάσιμη στους χρήστες που θα επι-τρέπει «την αποθήκευση αντιγράφων οπτικοακουστικού περιεχόμενου τηςYouTube» (II. 11, API ToS) ή «την πώληση, ενοικίαση, δανεισμό, μετά-δοση, επαναδιανομή ή την υπενοικίαση σε οποιοδήποτε τρίτο μέρος μέροςή όλο το ΠΔΕ της YouTube ή των δεδομένων του ΠΔΕ» (II. 4, API ToS).Η εμπορική εκμετάλλευση οποιουδήποτε οπτικοακουστικού περιεχόμενουτης YouTube μέσω πώλησης είναι επίσης απαγορευμένη εκτός της περίπτω-σης που έχει δοθεί ρητή έγγραφη έγκριση από την YouTube (I. 2, API ToS).

Εμφανώς, η πρόσβαση σε μουσικά δεδομένα μέσω της YouTube προσανα-τολίζεται, στα πλαίσια των τρεχόντων ΌτΥ, στη δυνατότητα ακρόασης κα-ταγεγραμμένων ήχων μουσικής σύνθεσης σε ιδιωτικό περιβάλλον (σπίτι),ενώ κάθε άλλη χρήση, λ.χ. η αναμετάδοση της ηχητικής καταγραφής, πιθα-νώς εμπίπτει σε παράνομη χρήση καταπάτησης πνευματικών δικαιωμάτωνεφόσον δεν υπάρχει πρότερη έγγραφη έγκριση της YouTube ή των δικαιο-πάροχών της.

Συνεργάτες ΠΔΕ iTunes Παρόμοια με το ΠΔΕ της YouTube, το ΠΔΕ συνερ-γατών της iTunes Affiliate4 προσφέρει τεκμηριωμένες προγραμματιστικές

3https://www.ietf.org/rfc/rfc2326.txt4https://www.apple.com/itunes/affiliates/resources/documentation/

Page 43: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

30 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

μεθόδους για την πρόσβαση στο περιεχόμενο της εν λόγω υπηρεσίας. Σεαυτή την περίπτωση, το παρεχόμενο περιεχόμενο είναι μια προεπισκόπηση30 δευτερολέπτων του πλήρους περιεχόμενου που παρέχεται από την επίπληρωμή υπηρεσία. Ο συνήθης τύπος αρχείου που παρέχεται από την υπη-ρεσία, m4a, είναι εξ αρχής σχεδιασμένος για διάθεση δίκτυα Η/Υ με μορφήροής σε οποιοδήποτε Η/Υ πελάτη που υποστηρίζει τον τύπο αυτό.

Ο κύριος στόχος της υπηρεσίας αυτής είναι η παροχή στους συνεργάτεςτης δυνατότητας για παροχή προωθητικού περιεχόμενου, λ.χ. προεπισκο-πήσεις τραγουδιών ή/και μουσικών video, ώστε να διαφημιστεί το ίδιο τοπεριεχόμενο. Μεταξύ των πολλών συνθηκών, που ισχύουν στις περιπτώσειςαυτές, όταν το «προωθητικό περιεχόμενο» αποτελείται από τραγούδια, επι-τρέπεται η διάθεσή του μόνο ως ροή και όχι ως αρχείο προς μεταφόρτωση,αποθήκευση, πρόχειρη αποθήκευση ή συγχρονισμό με video. Εμφανώς, ηεπιλογή του «προωθητικού περιεχόμενου» συνοδεύεται από ρητούς κανό-νες χρήσης.

2.2 Η υποστήριξη της εύλογης παραβίασης

Τα μουσικά έργα, στα πλαίσια της ΕΜΠ, γενικότερα αναφέρονται σε παρ-τιτούρες, ηχητικές καταγραφές μουσικής, στίχους, τα μεταδεδομένα των μουσι-κών κομματιών αλλά και εμμέσως στις ετικέτες που ανατίθενται/συσχετίζονταιμε μουσικά κομμάτια. Καθένα από αυτά τα στοιχεία προστατεύεται από το δίκαιοπνευματικής ιδιοκτησίας. Η χρήση οποιουδήποτε από αυτά στην ΕΜΠ θέτει τονερευνητή σε πιθανή καταπάτηση μέρους ή όλων των δικαιωμάτων που διαθέτει οκάτοχος των πνευματικών δικαιωμάτων. Ωστόσο, τα νομικά πλαίσια συνήθως δια-θέτουν εξαιρέσεις και περιορισμούς στο εύρος των δικαιωμάτων τον ιδιοκτητώντων πνευματικών δικαιωμάτων. Η υποβόσκουσα λογική των εξαιρέσεων και πε-ριορισμών αυτών είναι η υποστήριξη της ισορροπίας μεταξύ της ελεύθερης ροήςπληροφορίας στο ευρύ κοινό και του κινήτρου για παρακινήσει τους δημιουργούςστην εμπλοκή τους σε πνευματική δραστηριότητα.

Ακολούθως, οι εξαιρέσεις και περιορισμοί αυτοί μπορούν να χρησιμοποιηθούναπό τους παραβάτες ερευνητές ως υπεράσπιση όταν κλιθούν να απολογηθούν σεδικαστήριο για παραβίαση πνευματικών δικαιωμάτων. Η βασική ερώτηση πουαφορά τους ερευνητές της ΕΜΠ είναι λοιπόν εάν η χρήση των μουσικών δεδομέ-νων στα πλαίσια της έρευνάς τους καταπατά την προστασία πνευματικών δικαιω-μάτων που προσφέρεται στον ιδιοκτήτη τους. Στην περίπτωση αυτή το ενδιαφέρον

itunes-store-web-service-search-api.html

Page 44: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.2. Η ΥΠΟΣΤΗΡΙΞΗ ΤΗΣ ΕΥΛΟΓΗΣ ΠΑΡΑΒΙΑΣΗΣ 31

μεταφέρεται στο εάν η ερευνητική χρήση μπορεί να καταταχθεί στα πλαίσια τωνεξαιρέσεων και περιορισμών που παρέχονται από το δίκαιο πνευματικής ιδιοκτη-σίας και αν είναι κατά συνέπεια υποστηρίξιμη.

Το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α. περιλαμβάνει εξαιρέσεις, γνω-στές ως «δίκαιη χρήση» (“fair use”, Ενότητα 107 [17]), που επιτρέπουν τη λελο-γισμένη χρήση υλικού που υπόκειται σε πνευματικά δικαιώματα χωρίς την άδειατου ιδιοκτήτη των δικαιωμάτων [22]. Η αντίστοιχη έννοια της «δίκαιης χρήσης»στο δίκαιο του Η. Βασιλείου φέρει παρόμοιο τίτλο, “fair dealing”. Ακολούθως,και οι δύο εξαιρέσεις, “fair use” και “fair dealing”, χρησιμεύουν ως υπεράσπισησε περίπτωση κατηγοριών για καταπάτηση πνευματικών δικαιωμάτων.

Σύμφωνα με το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α, η εξαίρεση “fairuse” μπορεί να χρησιμοποιηθεί ως υπεράσπιση σε ευρή πλαίσιο περιστάσεωνόπως λ.χ. η κριτική, ο σχολιασμός και η έρευνα. Ωστόσο, δεν υπάρχει σαφής καικατά συνέπεια ασφαλής ορισμός του ποια χρήση μπορεί να θεωρηθεί πως εμπίπτειστην “fair use” και κάθε περίπτωση κρίνεται βάσει των δικών της χαρακτηριστι-κών [35]. Σύμφωνα με τον πρώτο παράγοντα που αναφέρει το εν λόγω δίκαιο, τοδικαστήριο κρίνει βάσει του στόχου και του χαρακτήρα της χρήσης. Ακολούθως,όσο περισσότερο μετασχηματιστικός είναι ο ρόλος της χρήσης, τόσο περισσό-τερο είναι πιθανό να μπορεί να καταταχθεί η χρήση στο πλαίσιο της “fair use”.Επιπλέον, όσο περισσότερο επιχειρηματικός είναι ο στόχος της χρήσης, τόσο λι-γότερο είναι πιθανό είναι να θεωρηθεί “fair use”. Φυσικά, στην κρίση συνήθωςσυνεισφέρουν παράγοντες όπως η φύση του υλικού με τα πνευματικά δικαιώματα,το εύρος και η σημαντικότητα του υλικού που χρησιμοποιήθηκε αλλά και οι συ-νέπειες στην πιθανή αγορά ή/και την αξία του υλικού. Εάν η χρήση οδηγεί σεανταγωνιστικό προϊόν ή μειώνει την αξία της αγοράς του υλικού καλύπτεται απόπνευματικά δικαιώματα και χρησιμοποιήθηκε, τότε είναι πολύ πιθανό η χρήση ναμη θεωρηθεί στα πλαίσια της “fair use”. Τέλος, όσο αφορά την ποσότητα και τηνποιότητα, του υλικού που χρησιμοποιήθηκε, δεν υπάρχουν σαφή πλαίσια που νακαθοδηγούν στο πόσο υλικό επιτρέπεται να χρησιμοποιηθεί.

Παρόμοια, η εξαίρεση “fair dealing” επιτρέπει μερικές χρήσεις υλικού πουυπόκειται σε πνευματικά δικαιώματα χωρίς την έγκριση του ιδιοκτήτη υπό προϋ-ποθέσεις. Αντίθετα με το νόμο των Η.Π.Α, η “fair dealing” επιτρέπεται για ρητάπροσδιορισμένες χρήσεις: την έρευνα ή ιδιωτική μελέτη (Ενότητα 29, [18]), κρι-τική ή ανασκόπηση (Ενότητα 30(1), [18]) και την αναφορά τρεχόντων νέων (Ενό-τητα 30(2), [18]). Στη συνέχεια, στη διαδικασία κρίσης για το εάν η χρήση “dealing”ήταν δίκαιη λαμβάνονται κατά νου πολλοί παράγοντες όπως η μέθοδος με τηνοποία αποκτήθηκε το υλικό, η ποσότητά του που χρησιμοποιήθηκε, η ύπαρξη ήμη οικονομικού κινήτρου αλλά και η προκατάληψη εναντίων του ιδιοκτήτη τωνδικαιωμάτων [23]. Απουσία ορισμού για την “fair dealing” στο εν λόγω δίκαιο οι

Page 45: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

32 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

προαναφερθέντες παράγοντες παρέχονται ενδεικτικά από τα δικαστήρια και δενπαρέχεται, από τα ίδια δικαστήρια, καμία διασφάλιση όσο αφορά του ποια χρήσημπορεί να καταταχθεί ως «δίκαιη». Ακολούθως, και πάλι, κάθε περίπτωση κρίνε-ται βάσει των δικών της χαρακτηριστικών και δεδομένων. Ενδεικτικό παράδειγμααποτελεί η παρουσίαση ακαδημαϊκών αποτελεσμάτων σε περιοδικό (ή συνέδριο):όταν περιλαμβάνει μέρη εργασίας άλλων ερευνητών με στόχο την κριτική τους(ακαδημαϊκή πρόοδος), τότε είναι προφανές πως η χρήση δεν μπορεί να θεωρηθείως “fair dealing” όταν ο όγκος του ξένου υλικού είναι δυσανάλογος των κριτικώνσχολίων [21]. Το δίκαιο του Η. Βασιλείου, συνδέει επίσης τη θεώρηση χρήσης ως“fair dealing” με την παροχή επαρκούς αναφοράς στην αρχική πηγή του χρησι-μοποιούμενου ξένου υλικού (Ενότητες 29(1),30(1)-(2),178, [18]). Όσο αφορά τηςηχητικές καταγραφές, το εν λόγω δίκαιο δεν παρέχει την “fair dealing” για ακα-δημαϊκή χρήση ή για ιδιωτική μελέτη, ενώ την παρέχει για κριτική, ανασκόπηση,και την αναφορά τρεχόντων νέων (Ενότητες 29(1),30(1)-(2), [18]).

Έναρξη

Δημόσιου

τομέα – νόμιμη

χρήση

Το έργο

προστατεύεται;

Η χρήση

καταπατά τα δικαιώματα

του ιδιοκτήτη;

Ναι Όχι

Νόμιμη

χρήση

Είναι η

Χρήση εντός ορίων

εξαίρεσης;

Όχι

Ναι

Μη νόμιμη

χρήση

Όχι

Είναι η

χρήση κατά το

“fair dealing”; Όχι

Μη νόμιμη

χρήση

Δεν υπάρχει

καταπάτηση

Ναι

Ναι

Σχήμα 2.1: Βήματα εμπειρικού προσδιορισμού νομιμότητας χρήσης υλικού σύμφωνα μετο δίκαιο πνευματικής ιδιοκτησίας του Η. Βασιλείου.

Τα Σχήματα 2.1 και 2.2 παρουσιάζουν διαγράμματα ροής με τα βήματα πουπρέπει να έχει κανείς κατά νου ώστε να κατηγοριοποιήσει τη χρήση υλικού πουυπόκειται σε πνευματικά δικαιώματα σύμφωνα με το δίκαιο πνευματικής ιδιοκτη-σίας του Η. Βασιλείου και των Η.Π.Α. αντίστοιχα. Παρά την ηθελημένη απλού-στευση των Σχημάτων 2.1 και 2.2, η διαδικασία που περιγράφουν παρουσιάζει

Page 46: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.3. ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ 33

Έναρξη

Δημόσιου τομέα

– νόμιμη χρήση

Το έργο

προστατεύεται;

Η χρήση

καταπατά τα δικαιώματα

του ιδιοκτήτη;

Ναι Όχι

Νόμιμη

χρήση

Είναι η

χρήση κατά το

“fair use”;

Όχι

Ναι

Μη νόμιμη

χρήση

Όχι Δεν υπάρχει

καταπάτηση

Ναι

Σχήμα 2.2: Βήματα εμπειρικού προσδιορισμού νομιμότητας χρήσης υλικού σύμφωνα μετο δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α.

αφηρημένα τη συνολική δράση που απαιτείται για τον προσδιορισμό της νόμι-μης χρήσης μουσικής πληροφορίας σύμφωνα με το αντίστοιχο δίκαιο πνευματικήςιδιοκτησίας. Στο πλαίσιο αναφοράς των Σχημάτων, οι ετικέτες «νόμιμη χρήση»αναφέρονται σε χρήση που έχει εγκριθεί από τον ιδιοκτήτη των πνευματικών δι-καιωμάτων ή μη παράνομη χρήση, «παράνομη χρήση» αναφέρονται σε χρήση πουπαραβιάζει τα πνευματικά δικαιώματα και «δημόσια» αναφέρονται σε υλικό πουδεν υπόκειται σε πνευματική ιδιοκτησία ή τα πνευματικά του δικαιώματα έχουνλήξει.

2.3 Βασικές δράσεις έρευνας μουσικής πληροφορίαςκαι η νομοθεσία

Κάθε δράση της ΕΜΠ, μπορεί να αναλυθεί σε ένα σύνολο στοιχειωδών διαδι-κασιών που λαμβάνουν χώρα κατά τη διάρκεια των δράσεων. Καθώς η νομοθεσίαπερί πνευματικής ιδιοκτησίας αναφέρεται μόνο σε γενικευμένες υψηλού επιπέδουδράσεις, στην Ενότητα αυτή κάθε μια από τις συνήθεις στοιχειώδεις διαδικασίεςπου συμβαίνουν κατά τη διάρκεια πολύπλοκων ΕΜΠ δράσεων αντιστοιχίζεται μεστοιχειώδεις υψηλού επιπέδου δράσεις όπως περιγράφονται στη νομοθεσία ώστενα είναι εφικτός ο σχολιασμός της νομιμότητας των δράσεων της ΕΜΠ.

Page 47: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

34 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

2.3.1 Αποκτώντας Πρόσβαση σε Μουσικά Δεδομένα

Μια από τις βασικότερες δραστηριότητες με την οποία σχεδόν όλες οι πολύ-πλοκες δράσεις της ΕΜΠ ξεκινούν είναι η πρόσβαση σε μουσικά δεδομένα σταοποία οι αλγόριθμοι θα εκτελεστούν. Τα δεδομένα αυτά, ακολουθώντας τη κατη-γοριοποίηση της Ενότητας 1.3 χωρίζονται στους εξής τύπους: καταγραφές ήχωνμουσικής εκτέλεσης (ηχογραφήσεις), συμβολικά δεδομένα συνήθως σε δυτικούτύπου μουσική σημειογραφία ή παρτιτούρα, στίχους μουσικών έργων και ετικέ-τες που έχουν ανατεθεί από χρήστες εικονικών κοινωνικών δικτύων σε μουσικήπληροφορία.

Τόσο το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α. όσο και του Η. Βασιλείουπροσφέρουν προστασία πνευματικής ιδιοκτησίας σε μουσική πληροφορία τύπουκαταγραφής εκτέλεσης, παρτιτούρας και στίχων εφόσον καλύπτεται η προαπαι-τούμενη προϋπόθεση όσο αφορά το επίπεδο πρωτοτυπίας σύμφωνα με τις διατά-ξεις των δικαίων (βλ. Ενότητα 2.1.2). Στους ιδιοκτήτες των πνευματικών δικαιω-μάτων του μουσικού υλικού παραχωρείται το αποκλειστικό δικαίωμα εκτέλεσηςή παραχώρησης τρίτων για εκτέλεση όλων των δραστηριοτήτων που προβλέπει ονόμος (Ενότητα 106, [17], Ενότητα 16, [18]). Η μη εγκεκριμένη εκτέλεση οποιασ-δήποτε αυτών των δραστηριοτήτων πιθανώς οδηγεί σε παραβίαση πνευματικώνδικαιωμάτων. Η πρόσβαση στα μουσικά δεδομένα δεν πρέπει να είναι αποτέλεσμαπαράνομων δραστηριοτήτων, όπως ο παράνομος διαμοιρασμός αρχείων σε ομό-τιμα δίκτυα. Η πρόσβαση σε μουσικά δεδομένα μέσω αγοράς τους ή ως δώρα απο-τελούν συνήθη παραδείγματα νόμιμης πρόσβασης που δεν καταπατούν τα πνευ-ματικά δικαιώματα του ιδιοκτήτη των δεδομένων. Όπως ήδη αναφέρθηκε στηνΕνότητα 2.2, η χρήση υλικού που υπόκειται σε πνευματικά δικαιώματα, παρότιαρχικά μπορεί να θεωρηθεί πως καταπατά την προστασία πνευματικών δικαιωμά-των που παρέχεται στον ιδιοκτήτη τους, είναι πιθανό να μπορεί να δικαιολογηθείυπό το πρίσμα των εξαιρέσεων της εύλογης παραβίασης “fair use/fair dealing”.Ωστόσο, η έρευνα που επαφίεται στις εξαιρέσεις αυτές για τη νόμιμη πρόσβασησε υλικό που υπόκειται σε πνευματικά δικαιώματα πρέπει να γίνεται με τη δέουσαεπιφυλακτικότητα.

Πρέπει να τονιστεί ότι τα έργα που υπόκειται σε πνευματικά δικαιώματα, προ-στατεύονται και στο διαδικτυακό κόσμο. Η μεταφόρτωση μουσικής πληροφορίαςαπό το διαδίκτυο χωρίς την άδεια του κατόχου των πνευματικών δικαιωμάτωνπολύ πιθανώς συνεπάγεται σε παράβαση, δεδομένου ότι ένα αντίγραφο ενός τρα-γουδιού είναι αποθηκευμένο σε μνήμη Η/Υ. Δεν θα πρέπει να θεωρείται δεδο-μένο ότι ένα έργο που διατίθεται στο διαδίκτυο παρέχεται με έμμεσα υπονοούμενηέγκριση χρήσης όσο αφορά τα πνευματικά δικαιώματα [41]. Τέλος, σύμφωνα τηνομοθεσία του Η. Βασιλείου, η μεταφορά μουσικών δεδομένων που αποκτήθηκαν

Page 48: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.3. ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ 35

νόμιμα σε άλλο αποθηκευτικό μέσο, ειδικότερα καταγραφών μουσικών εκτελέ-σεων, χωρίς έγκριση αποτελεί στη γενική περίπτωση παράβαση ενώ η μεταφοράαποθηκευτικού μέσου είναι νόμιμη όταν επιτρέπεται ρητά ή υπονοείται σαφώςστους όρους αγοράς [31, 25]. Κατά συνέπεια, η μη εξουσιοδοτημένη αντιγραφήενός αγορασμένου CD στο σκληρό δίσκο Η/Υ για τους σκοπούς της απόκτησηςψηφιοποιημένων μουσικών δεδομένων διέπεται από τους όρους που καθορίζονταιαπό τον κάτοχο των πνευματικών δικαιωμάτων, που συνήθως βρίσκονται στο κά-λυμμα ή την τυπωμένη πλευρά του CD. Σύμφωνα με την νομοθεσία τωνΗ.Π.Α., οικαταναλωτές επιτρέπεται, υπό ορισμένες προϋποθέσεις, να αντιγράψουν ηχογρα-φήσεις για προσωπική (μη εμπορική) χρήση, ενώ αυτή η διάταξη δεν εφαρμόζεταιόταν γίνεται χρήση ενός Η/Υ ή μιας συσκευής mp3 για την αντιγραφή (Ενότητα1008, Audio Home Recording Act [17], [35]).

2.3.2 Ψηφιοποίηση δεδομένωνΣε ορισμένες περιπτώσεις, τα δεδομένα που έχουν διαθέσιμα οι ερευνητές της

ΕΜΠ δεν είναι ψηφιακά και κατά συνέπεια απαιτούν ψηφιοποίηση για την περαι-τέρω επεξεργασία τους. Συνήθη παραδείγματα είναι η μετατροπή ηχογραφήσεωναναλογικής καταγραφής σε ψηφιακή και η μετατροπή έντυπων παρτιτούρων σεψηφιακά αρχεία που περιέχουν εντολές του τι πρέπει να εκτελεστεί. Όσο αφοράτα μεταδεδομένα και τους στίχους, η πληροφορία τους συνήθως απαιτεί χειρωνα-κτική εισαγωγή (δακτυλογράφηση) ή μεθόδους οπτικής αναγνώρισης χαρακτή-ρων για να μετατραπούν σε επεξεργάσιμο κείμενο. Τέλος, οι ετικέτες μπορούννα θεωρηθούν, για τη συντριπτική πλειονότητα των περιπτώσεων, ως πληροφο-ρία που προκύπτει από διαδικτυακές δραστηριότητες που είναι εγγενώς ψηφιακές,και ακολούθως δεν απαιτούν κάποια μετατροπή.

Νομοθεσία Η.Π.Α Το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α. αποδίδει στονιδιοκτήτη πνευματικών δικαιωμάτων το αποκλειστικό δικαίωμα αναπαρα-γωγής και έγκρισης αναπαραγωγής του προστατευόμενου υλικού (Ενότητα106(1), [17]). Η μη εγκεκριμένη αντιγραφή υλικού σε διαφορετικό μέσοόπως λ.χ. η ψηφιακή αντιγραφή ενός αναλογικού έργου αποτελεί καταπά-τηση του δικαιώματος αναπαραγωγής του ιδιοκτήτη των πνευματικών δι-καιωμάτων του έργου. Ακολούθως, η ψηφιοποίηση παρτιτούρας τραγου-διού με χρήση σαρωτή (scanner) αποτελεί αναπαραγωγή της παρτιτούραςπου υπόκειται σε πνευματικά δικαιώματα [43]. Όσο αφορά τις ηχογραφή-σεις, η αντιγραφή τους σε αρχεία ή η ψηφιοποίησή τους από αναλογικέςκαταγραφές, όπως λ.χ. η διαδικασία “ripping” ενός CD σε αρχεία mp3 [39],εμπεριέχει το δικαίωμα του ιδιοκτήτη των πνευματικών δικαιωμάτων να

Page 49: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

36 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ελέγχει την αναπαραγωγή του υλικού και να εγκρίνει ή όχι όποια αντιγραφήκαι ακολούθως απαιτεί έγκριση (Ενότητα 114(b), [17]). Εδώ πρέπει να τονι-στεί πως η ακρόαση μιας ηχογράφησης συνεπάγεται την αναπαραγωγή τουμουσικού έργου που περιέχει και κατά συνέπεια ίσως απαιτεί άδεια από τονιδιοκτήτη των πνευματικών δικαιωμάτων του έργου.

Νομοθεσία Η. Βασιλείου Το δίκαιο πνευματικής ιδιοκτησίας του Η. Βασιλείουθεωρεί επίσης πως η μετατροπή ενός έργου σε ψηφιακή μορφή αποτελείαναπαραγωγή του προστατευόμενου έργου και απουσία έγκρισης συνεπά-γεται παράβαση του δικαιώματος αναπαραγωγής του ιδιοκτήτη των πνευ-ματικών δικαιωμάτων [23]. Ακολούθως, η σάρωση μιας παρτιτούρας ή τωνστίχων και η αποθήκευσή τους σε ψηφιακά αρχεία αποτελεί αναπαραγωγή,κατά τα πνευματικά δικαιώματα, του μουσικού και λογοτεχνικού έργου αντί-στοιχα. Στο προκείμενο δίκαιο, η σάρωση καταπατά και τα δικαιώματα τουεκδότη στην τυπογραφική διάταξη της δημοσιευμένης μορφής του προστα-τευόμενου έργου [23]. Όσο αφορά της ηχογραφήσεις, η μετατροπή ενός CDσε αρχεία mp3 συνεπάγεται την αντιγραφή της ηχογράφησης και συνεπώςαπαιτεί έγκριση.

2.3.3 Δημιουργία Προσωρινών & Μόνιμων Αντιγράφων

Η διαδικασία δημιουργίας αντιγράφων εδώ χωρίζεται σε δύο διακριτές κατη-γορίες ανάλογα με το εάν αυτά προκύπτουν κατ’ επιθυμία του χρήστη ή εάν ηεν λόγω αντιγραφή είναι απαραίτητη για κάποια άλλη διαδικασία. Έτσι, τα αντί-γραφα που προκύπτουν ακούσια λόγω απαίτησης άλλων μεθόδων, όπως τα αντί-γραφα της κρυφής μνήμης (cache copies) αναφέρονται ως προσωρινά αντίγραφα.Αντίθετα, τα αντίγραφα που γίνονται με στόχο τη δημιουργία μιας βάσης δεδομέ-νων ή ενός συνόλου δεδομένων θεωρούνται ως μόνιμα αντίγραφα.

Νομοθεσία Η.Π.Α Το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α. απαγορεύειτη μη εγκεκριμένη αναπαραγωγή προστατευόμενων έργων (Ενότητα 106(1),[17]). Τα ακριβή ή έστω και «επαρκώς όμοια» αντίγραφα πιθανώς παραβιά-ζουν το δικαίωμα αναπαραγωγής του ιδιοκτήτη των πνευματικών δικαιωμά-των [38]. Ακολούθως, τα μόνιμα αντίγραφα μουσικών έργων και ηχογρα-φήσεων όπως οι φωτοτυπίες παρτιτούρας, τα αρχεία mp3 σε Η/Υ που περιέ-χουν μουσικά έργα και η αντιγραφήCD παραβιάζουν τα πνευματικά δικαιώ-ματα των αντίστοιχων πρωτότυπων έργων. Η ακρόαση μιας ηχογράφησηςσυνεπάγεται την αναπαραγωγή του μουσικού έργου που περιέχει. Συνεπώς,η αντιγραφή μιας ηχογράφησης επίσης απαιτεί άδεια από τον ιδιοκτήτη των

Page 50: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.3. ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ 37

πνευματικών δικαιωμάτων του μουσικού έργου εάν αυτό δεν ανήκει στο δη-μόσιο τομέα (public domain), δηλαδή να μην έχει λήξει η προστασία τωνδικαιωμάτων του δημιουργού [42]. Όσο αφορά τα προσωρινά αντίγραφαπροστατευόμενων έργων, όπως λ.χ. τα αντίγραφα που περιέχουν οι μνήμεςRAM ή/και cache, παραμένει ασαφές κατά πόσον το δικαίωμα αναπαρα-γωγής παραβιάζεται, αν και ορισμένα δικαστήρια των Η.Π.Α. θεωρούν ότιπράγματι υφίσταται παραβίαση [13, 35].

Νομοθεσία Η. Βασιλείου Ημη εγκεκριμένη αναπαραγωγή προστατευόμενου υλι-κού παραβιάζει το δικαίωμα αναπαραγωγής του ιδιοκτήτη των πνευματικώνδικαιωμάτων και κατά το δίκαιο πνευματικής ιδιοκτησίας του Η. Βασιλείου.Η δημιουργία μόνιμων, τυχαίων, προσωρινών ή μεταβατικών αντιγράφωνπροστατευόμενου έργου συνεπάγεται παραβίαση (Ενότητα 17(6), [18]). Συ-νεπώς, η αντιγραφή παρτιτούρας ή στίχων εντός τραγουδιού συνεπάγεται μεπαραβίαση πνευματικών δικαιωμάτων του μουσικού και λογοτεχνικού έρ-γου, αντίστοιχα. Επιπλέον, η αποθήκευση μερών μιας ηχογράφησης σε Η/Υπαραβιάζει το δικαίωμα αναπαραγωγής του παραγωγού ηχογράφησης, τουτραγουδοποιού και του στιχουργού. Όσο αφορά τη δημιουργία προσωρινώναντιγράφων τα οποία είναι μεταβατικά ή εκούσια, το δίκαιο πνευματικήςιδιοκτησίας του Η. Βασιλείου εφαρμόζει την ενότητα 28A του CDPA τηςΟδηγίας της Κοινωνίας της Πληροφορίας (Information Society Directive)της Ευρωπαϊκής Ένωσης (Άρθρα 2, 5(1), [14]), υποδεικνύοντας ότι ορισμέ-νες πράξεις προσωρινού χαρακτήρα μπορεί να μην αποτελούν παραβίασηυπό ορισμένες προϋποθέσεις. Οι προϋποθέσεις αυτές αναφέρονται στα με-ταβατικά ή εκούσια αντίγραφα η δημιουργία των οποίων είναι εγγενές μέροςτης τεχνολογικής διαδικασίας με μόνο στόχο τη μετάδοση σε δίκτυο αλλάκαι άλλες νόμιμες χρήσεις (Άρθρο 5(1), [14]). Ένα επεξηγηματικό παρά-δειγμα της εξαίρεσης των προσωρινών αρχείων είναι η περίπτωση των αρ-χείων cache που δημιουργούνται κατά τη διάρκεια νόμιμης ακρόασης μου-σικής σε μορφή ροής πληροφορίας. Αντίθετα, προσωρινά αντίγραφα πουδημιουργούνται στο αρχείο σελιδοποίησης του λειτουργικού συστήματοςκατά τη φόρτωση νομίμως αγορασμένης μουσικής ώστε να εφαρμοστούνμέθοδοι ΕΜΠ αποτελούν παράβαση όταν η εν λόγω χρήση είναι αντίθετημε τους όρους και συνθήκες της πώλησης [15, 37].

2.3.4 Μετατροπή Μορφής & Τομέα

Μια ιδιαίτερα συχνή διαδικασία της ΕΜΠ είναι η μετατροπή των μουσικών δε-δομένων από μια μορφή (format) σε άλλη καθώς από ένα τομέα (domain) σε άλλο.

Page 51: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

38 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ημετατροπή μορφής αναφέρεται στην περίπτωση που ένα δεδομένο αλλάζει εσω-τερική αναπαράσταση ενώ διατηρεί την αρχική του λειτουργία. Έτσι, όταν μετα-τρέπεται ένα ασυμπίεστο αρχείο (λ.χ. wav) ηχογράφησης σε συμπιεσμένη έκδοσηκατά τον αλγόριθμο mp3, τα περιεχόμενα του αρχείο αλλάζουν ωστόσο η αρχικήκαι τελική λειτουργία του αρχείου εξυπηρετούν την ίδια λειτουργία, την αναπα-ραγωγή ήχων μιας ηχογράφησης. Ακολουθώντας την ίδια κατηγοριοποίηση, κατάτη μετατροπή ενός αρχείου συμβολικής μουσικής πληροφορίας από μορφή kernσε midi, παρά την πιθανή απώλεια πληροφορίας λόγω της μετατροπής, το τελικόαρχείο midi εξακολουθεί να περιέχει συμβολική αναπαράσταση του μουσικού έρ-γου.

Στην περίπτωση της μετατροπής τομέα, το αρχικό μουσικό δεδομένο μετα-τρέπεται σε μια αναπαράσταση στόχο που, στη γενική περίπτωση, περιέχει μόνοχαρακτηριστικά στοιχεία του αρχικού δεδομένου και κατά συνέπεια έχει χάσει τηναρχική του λειτουργία. Παράδειγμα αποτελεί η διαδικασία εξαγωγής χαρακτηρι-στικών που χρησιμοποιείται ευρέως στην ΕΜΠ κατά την οποία μια ηχογράφησημετατρέπεται σε λ.χ. μια σειρά αριθμών που περιγράφουν ιδιότητες του σήματοςεισόδου όπως το φασματικό κέντρο (spectral centroid) και οι μηδενικές διασταυ-ρώσεις (zero crossings).

Μετατροπή Μορφής

Νομοθεσία Η.Π.Α Κατά το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α. ημετατροπή μορφής ηχογραφήσεων, λ.χ. από αρχείο mp3 σε wav, πε-ριλαμβάνει το δικαίωμα του ιδιοκτήτη όσο αφορά την αναπαραγωγή(Ενότητα 106(1), 114(b) [17]). Ακολούθως, η εκτέλεση τέτοιας δρά-σης υπόκειται σε έγκριση από τον ιδιοκτήτη των πνευματικών δικαιω-μάτων. Επιπλέον, το μουσικό έργο που περιέχεται στην ηχογράφησηεπίσης αναπαράγεται και κατά συνέπεια πιθανώς απαιτείται έγκρισηκαι από τον ιδιοκτήτη των πνευματικών δικαιωμάτων του μουσικούέργου (Ενότητα 106(1), [17]).

Νομοθεσία Η. Βασιλείου Στο δίκαιο πνευματικής ιδιοκτησίας του Η. Βα-σιλείου, η μετατροπή μορφής, όπως και στο δίκαιο πνευματικής ιδιο-κτησίας των Η.Π.Α., εμπλέκει το δικαίωμα αναπαραγωγής του μουσι-κού έργου και της ηχογράφησής του [23]. Συνεπώς, απαιτείται έγκρισηγια τέτοια δραστηριότητα.

Μετατροπή Τομέα

Νομοθεσία Η.Π.Α Κατά το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α. ημετατροπή τομέα, ακόμα κι όταν εκτελείται από ερευνητές της ΕΜΠ,

Page 52: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.3. ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ 39

είναι πιθανό να εμπίπτει στο δικαίωμα του ιδιοκτήτη για δημιουργίαπαράγωγων έργων (derivative works) όπως περιγράφεται στην Ενό-τητα 106(2), [17]. Σύμφωνα με τον ορισμό που παρέχει ο νόμος, ηευρεία ερμηνεία ενός παράγωγου έργου είναι το έργο εκείνο που προ-κύπτει από την αναδιατύπωση, μετατροπή ή προσαρμογή ενός αρχικούπροστατευόμενου έργου (Ενότητα 101, [17]).Δυστυχώς, το μέγιστο εύρος μεταβολών σε ένα προστατευόμενο έργοπου θα διατηρεί τη θεώρηση πως το τελικό έργο είναι «αναδιατυπω-μένο, μετασχηματισμένο ή προσαρμοσμένο» του αρχικού είναι αντι-κείμενο έντονης συζήτησης [35]. Ακολούθως, αν το αποτέλεσμα τηςμετατροπής τομέα μπορεί να θεωρηθεί ως παράγωγο έργο, τότε απαι-τείται η έγκριση του ιδιοκτήτη των πνευματικών δικαιωμάτων. Όσοαφορά των ιδιοκτήτη των πνευματικών δικαιωμάτων της ηχογράφη-σης, το δικαίωμα της προσαρμογής ορίζεται επακριβώς. Έτσι δεν απαι-τείται έγκριση από τον ιδιοκτήτη εκτός για την περίπτωση που δη-μιουργείται παράγωγο έργο στο οποίο «οι πραγματικοί ήχοι που περιέ-χονται στην ηχογράφηση αναδιατάσσονται, ανακατεύονται (remix), ήμε άλλο τρόπο αλλάζουν σε σειρά ή η ποιότητα» (Ενότητα 114(b),[17]). Συνεπώς, είναι απίθανο η μετατροπή τομέα να θεωρηθεί ως πα-ράγωγο έργο όσο αφορά τις ηχογραφήσεις.

Νομοθεσία Η. Βασιλείου Αντίθετα με το δίκαιο πνευματικής ιδιοκτησίαςτων Η.Π.Α. που παρέχει το δικαίωμα ελέγχου της δημιουργίας προ-σαρμογών και παράγωγων έργων [20]), το δίκαιο πνευματικής ιδιο-κτησίας του Η. Βασιλείου ρητά προσδιορίζει το περιεχόμενο του δι-καιώματος της προσαρμογής: χορηγεί στον ιδιοκτήτη των πνευματι-κών δικαιωμάτων το δικαίωμα να κάνει μια προσαρμογή του έργουκαθώς και να επιτρέψει σε τρίτους να κάνουν μια προσαρμογή (Ενό-τητες 16(1)(e), 16(2), [18]), όπου η προσαρμογή ενός μουσικού έργουαναφέρεται σε « αναδιάταξη ή μεταγραφή» ενός μουσικού έργου (Ενό-τητα 21(3)(b), [18]). Ο ιδιοκτήτης των πνευματικών δικαιωμάτων τωνηχογραφήσεων δε διαθέτει τέτοιο δικαίωμα. Εμφανώς, η μετατροπήτομέα είναι επίσης απίθανο να θεωρηθεί ως προσαρμογή προστατευό-μενου μουσικού έργου ή ηχογράφησης ώστε να απαιτεί την έγκρισητου ιδιοκτήτη των πνευματικών δικαιωμάτων.Ωστόσο πρέπει εδώ να σημειωθεί πως η ανάγκη ή έλλειψή της όσοαφορά την έγκριση του ιδιοκτήτη των πνευματικών δικαιωμάτων δενσυνεπάγεται πως η πρόσβαση στα προστατευόμενα έργα μπορεί ναέχει γίνει με παράνομο τρόπο. Επιπλέον, δεν πρέπει να αγνοηθεί το

Page 53: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

40 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

γεγονός ότι κάθε υπόθεση εξετάζεται βάσει των ιδίων πραγματικώνπεριστατικών και επί της ουσίας.

2.3.5 Οπτικοποίηση Δεδομένων

Η οπτικοποίηση των δεδομένων πηγάζει από τους βασικούς άξονες ανάκτη-σης πληροφορίας και εξόρυξης γνώσης της ΕΜΠ. Η οπτικοποίηση των δεδομένωνπροσφέρει μια μοναδική ευκαιρία στην ανάδειξη κρυμμένων προτύπων και πλη-ροφορίας συναφούς πλαισίου με οπτικό ερέθισμα και ταυτόχρονα επιτρέπει στουςχρήστες την αναζήτηση πληροφορίας με τρόπο ιδιαίτερα διαισθητικό. Στο παρόν,η οπτικοποίηση αναφέρεται σε ένα ευρύ πλαίσιο απεικόνισης πληροφορίας πουεκτείνεται από την παρουσίαση των περιεχομένων του μουσικού έργου, συμπερι-λαμβανομένων των ψηφιακών παρτιτούρων, έως τη δημιουργία διδιάστατων σχη-μάτων που περιγράφουν τις τιμές που προκύπτουν από δράσεις μετατροπής τομέαμιας ηχογράφησης όσο αφορά τη χρονική της διάσταση αλλά και τη δημιουργίασύννεφου συχνότερων ετικετών (tag cloud) που έχουν ανατεθεί σε μουσικό έργομε συσχέτιση μεγέθους γραμματοσειράς και συχνότητας εμφάνισης.

Στο δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α., ο ιδιοκτήτης των πνευμα-τικών δικαιωμάτων ενός έργου διατηρεί το δικαίωμα να παρουσιάζει δημόσιατο έργο αλλά και να εξουσιοδοτεί τρίτους να το παρουσιάζουν (Ενότητα 106(5),[17]). Η παρουσίαση ενός έργου αναφέρεται, μεταξύ άλλων, στην «παρουσίασηενός αντίγραφου του έργου είτε άμεσα με μορφή φίλμ, διαφανειών, εκπομπήςστην τηλεόραση είτε με όποια άλλη συσκευή ή μέθοδο επεξεργασίας»(Ενότητα101(17), [17]). Όμοια, το δίκαιο πνευματικής ιδιοκτησίας του Η. Βασιλείου, πα-ραχωρεί στον ιδιοκτήτη των πνευματικών δικαιωμάτων ενός έργου το δικαίωμανα εκτελεί, παρουσιάζει ή επιδεικνύει το έργο δημόσια αλλά και να εξουσιοδο-τεί τρίτους να κάνουν τα ίδια (Ενότητες 16(1)(c) & 16(2), [18]). Ακολούθως,οποιαδήποτε οπτική αναπαράσταση προστατευόμενου έργου στο κοινό απαιτείτην έγκριση του ιδιοκτήτη των δικαιωμάτων (Ενότητες 19(2)(b) & 16(2), [18]).Εδώ πρέπει να τονιστεί πως, και στις δύο περιπτώσεις, είναι ο δημόσιος χαρα-κτήρας της δράσης που προκαλεί την προστασία πνευματικών δικαιωμάτων ενώη αντίστοιχη πράξη για ιδιωτική χρήση δεν απαιτεί την αντίστοιχη έγκριση. Συ-νεπώς, οι δραστηριότητες της ΕΜΠ που εμπεριέχουν δημοσίευση, παρουσίασηή επίδειξη προστατευόμενων έργων όπως παρτιτούρες/ ή βάσεις δεδομένων (πουείναι προστατευμένες) απαιτούν έγκριση από τον ιδιοκτήτη των πνευματικών δι-καιωμάτων.

Page 54: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.3. ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ 41

2.3.6 Εξόρυξη Πληροφορίας & ΓνώσηςΗ δραστηριότητα αυτή αναφέρεται στην εφαρμογή μεθόδων και αλγορίθμων

στα μουσικά δεδομένα με στόχο την εξαγωγή συμπερασμάτων. Ο ορισμός της έχειαφεθεί οικειοθελώς γενικός ώστε να μπορεί να καλύψει ένα ευρύ φάσμα δραστη-ριοτήτων που, στα πλαίσια του δίκαιου πνευματικής ιδιοκτησίας, δεν εμπίπτουνσε κάποιο συνήθη περιορισμό. Τέτοιες δραστηριότητες θα μπορούσαν να είναι οπροσδιορισμός κοινά επαναλαμβανόμενων τμημάτων σε παρτιτούρες διαφορετι-κών συγγραφέων, τον υπολογισμό των φυσικών ιδιοτήτων ενός σήματος ηχογρά-φησης ή την αρίθμηση των εμφανίσεων συσχετισμένων ετικετών με ένα μουσικόέργο σε μια ιστοσελίδα εικονικής εικονικής δικτύωσης.

Σύμφωνα με το παραπάνω ορισμό, η δραστηριότητα της εξόρυξης πληροφο-ρίας και γνώσης είναι ιδιαίτερα απίθανο να προκαλέσει παραβίαση πνευματικώνδικαιωμάτων στα έργα στα οποία εφαρμόζεται, δεδομένου πως η πρόσβαση σταμουσικά έργα έγινε με νόμιμη διαδικασία. Ωστόσο, όπως έχει αναφερθεί πολλάκιςστο παρόν, κάθε περίπτωση κρίνεται βάσει των δικών της χαρακτηριστικών.

2.3.7 Εκτέλεση Μουσικών ΔεδομένωνΜια πολύ συνήθης δραστηριότητα που επιτελείται στα πλαίσια της ΕΜΠ εί-

ναι η δημιουργία των ήχων που περιέχει ένα μουσικό δεδομένο. Η δράση αυτήεπιτυγχάνεται με την εκτέλεση τόσο στην περίπτωση των ηχογραφήσεων όσο καιστην περίπτωση με τις παρτιτούρες. Μεταξύ άλλων λόγων, η δραστηριότητα αυτήείναι υψίστης σημασίας για την επιβεβαίωση της ισχύς των αποτελεσμάτων τωνδιαδικασιών της ΕΜΠ, με ενδεικτικό παράδειγμα την επιβεβαίωση των αποτελε-σμάτων εύρεσης ομοιότητας.

Νομοθεσία Η.Π.Α Ο ιδιοκτήτης των πνευματικών δικαιωμάτων κατά τωνΗ.Π.Α.διαθέτει το αποκλειστικό δικαίωμα για την εκτέλεση και την εξουσιοδότησηεκτέλεσης του έργου του στο κοινό (Ενότητα 106(4), [17]). Μια δημόσιαεκτέλεση προστατευόμενου έργου περιλαμβάνει έννοιες όπως παράθεση,εξιστόρηση, απόδοση, εκτέλεση, χορευτική εκτέλεση ή απόδοση παράστα-σης σε μέρος ανοικτό για το κοινό ή σε όποιο μέρος έχουν συγκεντρωθείεπαρκώς περισσότερα άτομα επιπλέον του συνήθους οικογενειακού κύκλουκαι των κοινωνικών γνωριμιών τους (Ενότητα 101(17), [17]). Από τον προ-αναφερθέντα ορισμό είναι προφανές πως για να μπορεί να στοιχειοθετηθείκαταπάτηση από μια εκτέλεση πρέπει να γίνεται σε ευρύ κοινό αντίθεταμε μια ιδιωτική. Έτσι, όταν ένα CD παίζει σε ένα κατάστημα, τότε το δι-καίωμα δημόσιας εκτέλεσης των μουσικών έργων που περιέχει καταπατά-ται. Αντίθετα, η εκτέλεση ενός προστατευόμενου τραγουδιού σε ένα ιδιω-

Page 55: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

42 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

τικό περιβάλλον ή το τραγούδισμα ενός κομματιού στο προσωπικό δωμάτιοαποτελούν μια ιδιωτική εκτέλεση [34]. Όσο αφορά το δικαίωμα δημόσιαςεκτέλεσης ηχογραφήσεων, αυτό αναφέρεται στις δημόσιες εκτελέσεις πουπροέρχονται από διανομή ψηφιακού ήχου (Ενότητα 106(6), [17]).

Νομοθεσία Η. Βασιλείου Το δίκαιο πνευματικής ιδιοκτησίας του Η. Βασιλείουπαρέχει στον ιδιοκτήτη των πνευματικών δικαιωμάτων το αποκλειστικό δι-καίωμα στην εκτέλεση και παρουσίαση του έργου αλλά και το δικαίωμανα εξουσιοδοτεί τρίτους για εκτέλεσης (Ενότητες 16(c) & 19, [18]). Ακο-λούθως, τόσο η μη εγκεκριμένη δημόσια εκτέλεση ενός τραγουδιού όσοκαι η δημόσια εκτέλεση μιας ηχογράφησης ισοδυναμούν με καταπάτησητων πνευματικών δικαιωμάτων του μουσικού έργου. Εδώ πρέπει να τονι-στεί πως όμοια με το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α., είναι οδημόσιος χαρακτήρας της εκτέλεσης που κάνει τη δραστηριότητα παράνομη[23]. Συνεπώς, εάν η εκτέλεση γίνεται στα πλαίσια ενός οικογενειακού περι-βάλλοντος είναι ιδιαίτερα απίθανο να μπορεί να θεωρηθεί ως παράβαση τουδικαιώματος δημόσιας εκτέλεσης. Με απλά λόγια, η έγκριση του ιδιοκτήτητων πνευματικών δικαιωμάτων δεν είναι απαραίτητη σε ιδιωτικές εκτελέ-σεις [26].

Σε ένα επεξηγηματικό παράδειγμα, ένας ερευνητής ΕΜΠ μπορεί να ακούσειένα νομίμως αγορασμένο ψηφιακό μουσικό αρχείο ώστε να επιβεβαιώσει πως οαλγόριθμος ομαδοποίησης συγκεντρώνει όμοια τραγούδια αλλά δεν μπορεί ναφτιάξει μια δημόσια διαθέσιμη ιστοσελίδα που θα κάνει το ίδιο με χρήση τεχνικώνcrowdsourcing.

2.3.8 Δημιουργία & Διάχυση Συνόλου ΔεδομένωνΗ δημιουργία συνόλου δεδομένων αναφέρεται στη διαδικασία επιλογής μου-

σικών δεδομένων. Είναι μια δραστηριότητα ιδιαίτερης σημασίας για την ΕΜΠκαθώς αναιρεί το πρόβλημα των ερευνητών για την επιστημονική σύγκριση καιαντιπαράθεση των μεθόδων τους. Έτσι, βάσει ενός κοινού σώματος μουσικών δε-δομένων κάθε ερευνητής μπορεί να δοκιμάσει τις μεθόδους του και να παράγειχρήσιμες συγκρίσεις.

Με δεδομένη τη δημιουργία συνόλου δεδομένων, η διάχυση του συνόλου τωνδεδομένων είναι εξίσου σημαντική καθώς ένα σύνολο δεδομένων που παραμέ-νει εκτός πρόσβασης των ερευνητών πλην του δημιουργού του αναιρεί τον προ-αναφερθέντα λόγο ύπαρξής του. Σε κάποιες περιπτώσεις οι ερευνητές που δη-μιούργησαν το σύνολο δεδομένων (λ.χ. uspop2002 [30]) επέλεξαν να μη συμπε-ριλάβουν, στο σύνολο αυτό, τις ηχογραφήσεις των μουσικών έργων και στη θέση

Page 56: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.3. ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ 43

τους να προσφέρουν τα αποτελέσματα υπολογισμών μετατροπής τομέα (domainconversion) όπως λ.χ. οι συντελεστές MFCC των ηχογραφήσεων. Ωστόσο, πρέ-πει να σημειωθεί πως σε περιπτώσεις, όπως λ.χ. ο μετασχηματισμός Fourier ήακόμα ο υπολογισμός των MFCC, οι μετατροπές τομέα προσφέρουν τη δυνατό-τητα επιστροφής στον αρχικό τομέα που περιέχει μουσικούς ήχους προς ακρόασηεις βάρος της απώλειας ποιότητας.

Δημιουργία συνόλου δεδομένων Οι ερευνητές της ΕΜΠ, όταν δημιουργούν ένασύνολο δεδομένων με τη μορφή μιας βάσης δεδομένων (ακολουθώντας τουςνομικούς ορισμούς για τη βάση δεδομένων όπως αναφέρονται στην Ενότητα2.1.1, πρέπει να λαμβάνουν υπόψη τους αν το υλικό που ενσωματώνεται στοσύνολο των δεδομένων προστατεύεται χωριστά από το νόμο περί πνευματι-κών δικαιωμάτων στις Η.Π.Α. και το Η. Βασίλειο αλλά και αν η δημιουργίατους παραβιάζει την προστασία πνευματικών δικαιωμάτων κάποιας άλληςβάσης δεδομένων όσο αφορά την επιλογή και διάταξη του υλικού που περιέ-χει (βλ. Ενότητα 2.1.1). Επιπλέον, δυνάμει του sui generis δικαιώματος πουπαρέχεται στις βάσεις δεδομένων από το δίκαιο του Η. Βασιλείου, οι ερευ-νητές ΕΜΠ, όταν δημιουργούν ένα σύνολο δεδομένων οφείλουν να απέχουναπό την εξαγωγή και επαναχρησιμοποίηση ουσιωδών μερών περιεχομένωνάλλων βάσεων δεδομένων καθώς και το ίδιο για επουσιώδη μέρη επανα-λαμβανόμενα (βλ. Ενότητα 2.1.1).

Διάχυση συνόλου δεδομένων Οι ερευνητές της ΕΜΠ, όταν εμπλέκονται στη δια-δικασία διάχυσης ενός συνόλου δεδομένων που αποτελείται από υλικό πουπροστατεύεται ξεχωριστά στο διαδίκτυο, λ.χ. παρτιτούρες μουσικών έργων,πρέπει να διαθέτουν έγκριση από τον ιδιοκτήτη των πνευματικών δικαιωμά-των καθώς η διάθεση προστατευόμενων έργων στο διαδίκτυο εμπίπτει σταδικαιώματα του ιδιοκτήτη για τα οποία μπορεί να εξουσιοδοτήσει τρίτουςκαι στα δύο δίκαια (Ενότητες 106(3), [17] και 20, [18]).

2.3.9 Δημοσίευση Αποτελεσμάτων ΈρευναςΚλείνοντας, η δημοσίευση αποτελεσμάτων έρευνας, μια sine qua non δραστη-

ριότητα της ερευνητικής διαδικασίας, επίσης εφαρμόζεται στα πλαίσια της ΕΜΠκαι των αποτελεσμάτων της. Παρότι η συνήθης διαδικασία περιλαμβάνει τη δη-μοσίευση των αποτελεσμάτων σε συνέδρια, ακαδημαϊκά περιοδικά και βιβλία, ηφύση του ερευνητικού αντικειμένου στην περίπτωση της ΕΜΠ κάνει τη χρήσηπολυμεσικών περιβαλλόντων για την παρουσίαση των αποτελεσμάτων ιδιαίτερααποδοτικότερη σε διάχυση. Έτσι, σε ένα απλοποιημένο παράδειγμα, η κατανόησηπου θα προκύψει από την παρουσίαση αποτελεσμάτων όσο αφορά τη μουσική

Page 57: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

44 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ομοιότητα με τη χρήση μιας ιστοσελίδας με συνδέσμους ακρόασης της επερώ-τησης και των αποτελεσμάτων της ξεπερνά κατά πολύ την απλή αναφορά μέσουβαθμού ομοιότητας ή ακρίβειας ανάκτησης.

Εδώ πρέπει να τονιστεί πως ερευνητικά αποτελέσματα με μορφή ακαδημαϊκώνάρθρων μπορούν να αναφέρονται και σε άλλα προστατευόμενα έργα για κριτικήή άλλους στόχους έρευνας. Η συμπερίληψη όλου ή μέρους των έργων αυτών σεάρθρα απαιτεί την τήρηση των αντίστοιχων πνευματικών δικαιωμάτων τους.

Νομοθεσία Η.Π.Α Σύμφωνα με το δίκαιο πνευματικής ιδιοκτησίας των Η.Π.Α.,η δημοσίευση ερευνητικών αποτελεσμάτων τα οποία περιέχουν μέρη πουπροστατεύονται από πνευματικά δικαιώματα πιθανώς συνεπάγεται καταπά-τηση των πνευματικών δικαιωμάτων του ιδιοκτήτη για αποκλειστική ανα-παραγωγή και δημόσια διανομή του έργου του αλλά και να εξουσιοδοτήσειτρίτους να κάνουν το ίδιο (Ενότητα 106(3), [17]). Η διάθεση ερευνητικώναποτελεσμάτων στο ευρύ κοινό (λ.χ. στο διαδίκτυο) αποτελεί επίσης κατα-πάτηση των πνευματικών δικαιωμάτων καθώς η μετάδοση προστατευόμε-νου υλικού στο διαδίκτυο καταπατά το δικαίωμα διανομής του ιδιοκτήτητων πνευματικών δικαιωμάτων. Επεξηγηματικό παράδειγμα αποτελεί η δη-μοσιοποίηση ή διάθεση στο διαδίκτυο αποτελεσμάτων της ΕΜΠ τα οποίαπεριέχουν μέρη παρτιτούρας ή ηχογραφήσεων. Η δράση αυτή πρέπει να γί-νεται με τη δέουσα προσοχή εξαιτίας των πνευματικών δικαιωμάτων τουιδιοκτήτη καθώς όπως ήδη αναφέρθηκε η επίκληση της εξαίρεσης “fair use”χρήζει ιδιαίτερης προσοχής.

Νομοθεσία Η. Βασιλείου Παρόμοια, κατά το δίκαιο πνευματικής ιδιοκτησίας τουΗ. Βασιλείου, ο ιδιοκτήτης των πνευματικών δικαιωμάτων χαίρει αποκλει-στικού δικαιώματος όσο αφορά την αναπαραγωγή και δημιουργία αντιγρά-φων του έργου του στο ευρύ κοινό αλλά και το δικαίωμα να εξουσιοδο-τεί τρίτους για το ίδιο (Ενότητες 16(1)(a)-(b),17,18 [18]). Υποθέτοντας πωςτα μέρη που περιλαμβάνονται στα ερευνητικά αποτελέσματα καταπατούντα δικαιώματα προστατευόμενων έργων, τότε η χρήση των αποτελεσμάτωναυτών και η διάθεσή τους σε δημόσια χρήση είναι προφανής καταπάτησητου δικαιώματος διανομής του ιδιοκτήτη των πνευματικών δικαιωμάτων. Ηδιάθεση αποτελεσμάτων που περιλαμβάνουν μέρη που καταπατούν πνευμα-τικά δικαιώματα σε ευρεία κλίμακα (λ.χ. στο διαδίκτυο) προκαλεί την πα-ραβίαση του δικαιώματος του ιδιοκτήτη επικοινωνίας του έργου στο κοινόκαι του δικαιώματος να εξουσιοδοτεί τρίτους να κάνουν το ίδιο (Ενότητες16(1)(d) & 20, [18]). Όπως προαναφέρθηκε, η υπεράσπιση βάσει της εξαί-ρεσης “fair dealing” δεν παρέχει με βεβαιότητα επεξήγηση όσο αφορά το σε

Page 58: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

2.3. ΒΑΣΙΚΕΣ ΔΡΑΣΕΙΣ ΕΡΕΥΝΑΣ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ Η ΝΟΜΟΘΕΣΙΑ 45

ποιες περιπτώσεις είναι επικαλέσιμη και κατά συνέπεια η χρήση της απαιτείιδιαίτερη προσοχή.

Page 59: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

46 ΚΕΦΑΛΑΙΟ 2. ΝΟΜΙΚΑ ΘΕΜΑΤΑ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Page 60: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ

[1] Feist Publications, Inc. v Rural Tel. Serv. Co., 499 U.S 340, 345, (1991).

[2] Directive 96/9/EC on the legal protection of databases, OJ L77 27/3/96pp.20-28.

[3] Copyright and Rights in Databases Regulations 1997, SI 1997/3032.

[4] Fixtures Marketing Ltd v Organismos prognostikon agonon podosfairou AEECJ [C-444/02].

[5] Article 5, WIPO Copyright Treaty, 20 December 1996, CRNR/DC/94.

[6] Article 10(2), Agreements on Trade-Related Aspects of Intellectual propertyRights, Marrakesh 15 April 1994, 33 I.L.M 1197.

[7] Chapter III, Directive 96/9/EC on the legal protection of databases, OJ L7727/3/96.

[8] Regulations 12-13, Directive 96/9/EC on the legal protection of databases,OJ L77 27/3/96.

[9] Walter v Lane AC 359 (1900).

[10] Cramp v Smythson AC 329 (1944).

[11] Ladbroke (Football) Ltd v William Hill (Football) Ltd 1 WLR 273 (1964).

[12] University of London Press v University Tutorial Press 2 Ch 601 (1916).

[13] MAI Sys. Corp. v Peak Computer, Inc., 991 F.2d 511, 518 (9th Cir. 1993).

[14] Directive 2001/29/EC on certain aspects of copyright and related rights inthe information society, OJ L167.

47

Page 61: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

48 ΒΙΒΛΙΟΓΡΑΦΙΑ

[15] Preamble of Article 33, Directive 2001/29/EC on certain aspects of copyrightand related rights in the information society, OJ L167.

[16] Berne Convention for the Protection of Literary and Artistic Works, 1886.Paris Act, 24 July 1971.

[17] Copyright Act, 1976. Pub. L. No. 94-553, 90 Stat. 254, codified in 17 U.S.C.

[18] Copyright, Designs and Patents Act, 1988.

[19] T. Aplin. Copyright law in the digital society: the challenges of multimedia.Hart, 2005.

[20] T. Aplin and J. Davis. Intellectual Property Law: Text, Cases, and Materials.Oxford University Press, 2009.

[21] D. I. Bainbridge. Intellectual Property. Pearson, 2010.

[22] H. Ball. The Law of Copyright and Literary Property. Albany, N.Y., Banksand Co.; Albany, N.Y., New York City, M. Bender & Co., 1944.

[23] L. Bently and B. Sherman. Intellectual Property Law. Oxford UniversityPress, 2004.

[24] M. W. Carroll. A primer on U.S. intellectual property rights applicableto music information retrieval systems. Intellectual Property Quarterly,2:313−328, 2003.

[25] G. P. Cornish. Copyright: Interpreting the Law for Libraries, Archives andInformation Services. Facet Publishing, 2004.

[26] W. Cornish and D. Llewelyn. Intellectual Property: Patents, Copyright,Trade Marks and Allied Rights. Sweet & Maxwell, 2003.

[27] European Council. Council regulation (ec) no 44/2001 of 22 december 2000on jurisdiction and the recognition and enforcement of judgments in civil andcommercial matter, 2000.

[28] E. Derclaye. What is a database? a critical analysis of the definitionof a database in the european database directive and suggestions foran international definition. Journal of World Intellectual Property,5(2):981−1011, 2002.

Page 62: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ 49

[29] G. Dworkin. The moral right of the author: Moral rights and the commonlaw countries. Journal of Law and the Arts, 19:229−251, 1995.

[30] D. Ellis, A. Berenzweig, and B.Whitman. The “uspop2002” PopMusic dataset. Visited on June 25th, 2010.

[31] M. Flint. A User’s Guide to Copyright. Tottel Publishing, 2006.

[32] Amazon Inc. Amazon. Visited on June 15th, 2011.

[33] Apple Inc. iTunes. Visited on June 15th, 2011.

[34] A. Kohn and B. Kohn. Kohn on Music Licensing. Aspen Publishers, 2002.

[35] M. LaFrance. Copyright Law in a Nutshell. Thomson West, 2008.

[36] Napster LLC. Napster. Visited on June 15th, 2011.

[37] D. Loundy. Revising the copyright law for electronic publishing. JohnMarshall, Journal of Computer and Infromational Law, (14):1−46, 1995.

[38] J. M. Mohler. Toward a better understanding of substantial similarityin copyright infringement cases. University of Cincinnati Law Review,68:971−994, 2000.

[39] D. J. Moser. Moser on Music Copyright. Thomson Course Technology PTR,2007.

[40] U.-M. Mutanen. On museums and web 2.0, 2006.

[41] P. Pedley. Essential Law for Information Professionals. Facet Publishing,2003.

[42] R. A. Reese. Copyright and internet music transmissions: Existing law,major controversies, possible solutions. University of Miami Law Review,55:237−274, 2000.

[43] C. Simpson. Copyright for Administrators. Linworth Books, 2008.

[44] I. A. Stamatoudi. Moral rights of authors in england: themissing emphasis onthe role of creators. Intellectual Property Quarterly, pages 478−513, 1997.

[45] C. Swack. Safeguarding artistic creation and the cultural heritage: Acomparison of droit moral between france and the united states. Journalof Law and the Arts, 22:361−401, 1988.

Page 63: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

50 ΒΙΒΛΙΟΓΡΑΦΙΑ

[46] N. Thakur. Database protection in the european union and the united states:the european database directive as an optimum global model? IntellectualProperty Quarterly, 100:100−133, 2001.

[47] P. K. Yu. Conflict of Laws Issues in International Copyright Cases, 2001.Visited on November 20th, 2010.

Page 64: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΚΕΦΑΛΑΙΟ 3

Εξόρυξη γνώσης από μουσικήπληροφορία

Περιεχόμενα

3.1 ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ . . . . . . . . . . 51

3.2 ΟΜΑΔΟΠΟΙΗΣΗ . . . . . . . . . . . . . . . . . . . . . . . 68

3.1 Επαναλαμβανόμενα πρότυπα

3.1.1 ΕισαγωγήΈνας χαρακτηριστικός τύπος αναπαράστασης μουσικών δεδομένων βασίζε-

ται στη χρήση επαναλαμβανόμενων προτύπων (ΕΠ) που ενυπάρχουν στα μουσικάδεδομένα, δηλαδή, τμήματα του μουσικού αντικειμένου, τα οποία επαναλαμβάνο-νται. Στην αναπαράσταση αυτή, ένα επαναλαμβανόμενο πρότυπο αντιστοιχεί σεένα μοτίβο, δηλαδή σε ένα ελάχιστου μήκους πρότυπο που είναι νοηματικά ανε-ξάρτητο και πλήρες σε ένα μουσικό αντικείμενο. Τα επαναλαμβανόμενα πρότυπααποτελούν μια χρήσιμη αναπαράσταση ενός μουσικού αντικειμένου. Η χρήσητους (με την έννοια των μοτίβων) υπήρξε εκτεταμένη στο ρου της ιστορίας τηςμουσικής [4] αλλά και στη σύγχρονη μουσική έρευνα [3], καθώς αποτελούν μιασυμπυκνωμένη μορφή για τη δεικτοδότηση των αρχικών μορφών (λ.χ., ασυμπίε-στο ακουστικό σήμα, αρχεία τύπουMIDI, κτλ.). Το γεγονός αυτό οφείλεται στο ότιτο συνολικό μέγεθος όλων των επαναλαμβανόμενων προτύπων είναι μικρότεροαπό ότι το μέγεθος του μουσικού αντικειμένου. Συνεπώς, τα επαναλαμβανόμεναπρότυπα ικανοποιούν τα αιτήματα σημασιολογίας και απόδοσης που απαιτεί η

51

Page 65: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

52 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

ανάκτηση μουσικής πληροφορίας βάσει περιεχόμενου [14, 50]. Εξαιτίας των προ-αναφερθέντων, τα επαναλαμβανόμενα πρότυπα έχουν ήδη χρησιμοποιηθεί για τηδεικτοδότηση μουσικών ακολουθιών στην ανάκτηση μουσικής πληροφορίας [14].Επιπλέον, τα πρότυπα αυτά παρέχουν ένα σημείο αναφοράς για την ανεύρεσητων μουσικών θεμάτων [32, 49]. Ένα μουσικό θέμα (ιδιαιτέρως στην κλασικήδυτικού τύπου μουσική) είναι το τμήμα εκείνο της μελωδίας, το οποίο ο συνθέ-της χρησιμοποιεί ως εναρκτήριο σημείο για περαιτέρω ανάπτυξη, και το οποίοπιθανώς επαναλαμβάνεται με τη μορφή παραλλαγών1 [49]. Τέλος, τα επαναλαμ-βανόμενα πρότυπα έχουν θεωρηθεί ως χαρακτηριστικές υπογραφές των μουσικώναντικειμένων, με την έννοια ποσοτικών μέτρων για τη διαπίστωση της μουσικήςομοιότητας [11].

Για το πρόβλημα της αποδοτικής ανεύρεσης επαναλαμβανόμενων προτύπων,στη σύγχρονη βιβλιογραφία παρουσιάζονται διάφορες τεχνικές εξόρυξης δεδομέ-νων [14, 23, 32, 49]. Καθώς η άμεση χρήση των επαναλαμβανόμενων προτύπωνεμφανίζει πολλαπλές δυσκολίες, πρωτίστως λόγω του αυξημένου πλήθους τους,το επίκεντρο έχει εστιαστεί στα λεγόμενα μη-τετριμμένα επαναλαμβανόμενα πρό-τυπα [14, 32, 20]. Μολοντούτο, το πλήθος των μη-τετριμμένων επαναλαμβανό-μενων προτύπων μπορεί επίσης να είναι αρκετά μεγάλο ώστε να δυσκολεύει τηεξέταση τους δια χειρός από αναλυτές. Για παράδειγμα, μουσικά αντικείμενα μεμέγεθος παραπλήσιο των 1000 νοτών μπορούν να περιέχουν αρκετές δεκάδες μη-τετριμμένων επαναλαμβανόμενων προτύπων [14], ενώ οι αριθμοί αυτοί αυξάνουνγια μεγαλύτερα μουσικά κομμάτια. Το γεγονός αυτό μπορεί έχει επιπτώσεις καιστην ικανότητα των μη-τετριμμένων επαναλαμβανόμενων προτύπων να καταδει-κνύουν τα μουσικά θέματα, καθώς αρκετά από τα πρότυπα είναι πιθανώς ψεύτικακαι άσχετα με τα μουσικά θέματα. Κατά συνέπεια, η τρέχουσα έρευνα αναγνώ-ρισε ότι μεταξύ των μη-τετριμμένων επαναλαμβανόμενων προτύπων, τα μέγιστασε μήκος είναι τα πρότυπα που μπορούν να χαρακτηριστούν ως χαρακτηριστικέςσυμβολοσειρές μελωδίας και είναι αυτά που συνήθως οδηγούν στα μουσικά θέ-ματα [32]. Το εύρημα αυτό εξετάζεται περαιτέρω στην [14], όπου εμφανίζονταιενδείξεις ότι τα Μεγίστου Μήκους Επαναλαμβανόμενα Πρότυπα (ΜΜΕΠ) (πε-ριορισμένα από μια μέγιστη τιμή μήκους, λ.χ. 30) είναι τα πρότυπα, όπου συνήθωςβασίζονται τα μουσικά θέματα. Στην ίδια ερευνητική κατεύθυνση, οι συγγραφείςτης [49] προτείνουν μια μέθοδο ανεύρεσης των μουσικών θεμάτων, η οποία βα-σίζεται σε μια αρχικά υπολογισμένη συλλογή των μέγιστου μήκους επαναλαμβα-νόμενων προτύπων. 2

1Ο βαθμός της μεταβολής καθώς και η συχνότητα επανάληψης ενός θέματος παρουσιάζουνδιακυμάνσεις μεταξύ των συνθετών και των ειδών της μουσικής (λ.χ., μεταξύ της κλασικής καισύγχρονης δημοφιλούς μουσικής).

2Χρήζει μνείας το γεγονός ότι τα ΜΜΕΠ που ανακαλύπτονται οφείλουν να εξετάζονται περαι-

Page 66: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 53

Μια απλοϊκή μέθοδος για την ανεύρεση των ΜΜΕΠ θα μπορούσε να αποτε-λείται από την επιλογή τους σε ένα βήμα επεξεργασίας μετά την εξόρυξη όλων τωνμη-τετριμμένων επαναλαμβανόμενων προτύπων. Ωστόσο, το μήκος των ΜΜΕΠσυνήθως τείνει να είναι μεγάλο (πειραματικά δεδομένα [14, 23] έδειξαν ότι μπο-ρεί να είναι μέχρι και αρκετές δεκάδες). Επίσης, η άμεση μέθοδος αποδεικνύεταιιδιαιτέρως μη αποδοτική, καθώς το πλήθος των ενδιάμεσων επαναλαμβανόμενωνπροτύπων (δηλ. αυτών που δεν είναι μεγίστου μήκους) πρέπει να εξεταστεί πρινβρεθούν τα μεγίστου μήκους. Συνεπώς απαιτήθηκε η ανάπτυξη νέων αλγορίθ-μων [20] για την αποδοτική ανεύρεση των ΜΜΕΠ, οι οποίοι δεν απαιτούν τηνανεύρεση των ενδιάμεσων επαναλαμβανόμενων προτύπων.

Όπως ήδη αναφέρθηκε, καθώς το πλήθος των προτύπων αυτών μπορεί να φθά-σει ακόμα και τις αρκετές δεκάδες, για λόγους απόδοσης πρέπει να αποφευχθούνοι δαπανηροί υπολογισμοί κατά τη διάρκεια της ανεύρεσης, εξετάζοντας όσο τοδυνατό λιγότερα ενδιάμεσα πρότυπα ώστε να εντοπιστεί γρήγορα το σύνολο τωνΜΜΕΠ. Στο σημείο αυτό χρήζει μνείας η ανάλογη αιτιολόγηση που έχει χρησι-μοποιηθεί σε άλλους τομείς της εξόρυξης δεδομένων, λ.χ. στην εξόρυξη των με-γάλων στοιχειοσυνόλων [6, 31, 58]. Μολαταύτα, υπάρχουν σημαντικές διαφορές(που αναλύονται εκτενώς στην Ενότητα 3.1.2.2) μεταξύ του προβλήματος αυτούκαι της εξόρυξης των ΜΜΕΠ. Περιληπτικά, οι βασικές διαφορές εντοπίζονταιστο γεγονός ότι οι μέθοδοι για τα μεγάλα στοιχειοσύνολα εστιάζουν σε μεγάλεςκαι εγκατεστημένες σε δίσκους βάσεις στοιχειοσυνόλων, ενώ για την ανεύρεσητων ΜΜΕΠ οι μουσικές ακολουθίες βρίσκονται στη μνήμη και οι αλγόριθμοι δί-νουν προτεραιότητα στην επίτευξη καλύτερων χρόνων εκτέλεσης. Επιπλέον, στοπρόβλημα της ανεύρεσης των ΜΜΕΠ, οι αλγόριθμοι έχουν κατώφλι συχνότη-τας των επαναλαμβανόμενων προτύπων ίσο με τη μονάδα, ενώ στην εξόρυξη τωνστοιχειοσυνόλων αλγόριθμοι με τέτοια προϋπόθεση θα προκαλούσαν αυξημένηεπιβάρυνση.

Τέλος, οι αλγόριθμοι που προτείνονται οφείλουν να αντιμετωπίζουν τα ιδιαί-τερα χαρακτηριστικά του υπό εξέταση προβλήματος, όπως η διάταξη των νοτώνστις μουσικές ακολουθίες, παράγοντες που δεν εμφανίζονται σε παρόμοιους το-μείς όπως η ανεύρεση των επαναλαμβανόμενων στοιχειοσυνόλων.

τέρω βάσει αρκετών χαρακτηριστικών (λ.χ., συχνότητα, διάρκεια, ρυθμική συνέπεια, θέση) [38]ώστε να οδηγήσουν ουσιαστικά στα μουσικά θέματα. Παρόλα αυτά, όπως και στην [14], το Κε-φάλαιο αυτό εστιάζει στη διαδικασία ανεύρεσης των ΜΜΕΠ. Κατά συνέπεια, η εξέταση τέτοιωνιδιαίτερων χαρακτηριστικών είναι εκτός του στόχου του παρόντος.

Page 67: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

54 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

3.1.2 Σχετικές εργασίες3.1.2.1 Εξόρυξη επαναλαμβανόμενων προτύπων και ανεύρεση μουσικών θε-

μάτων

Η διαδικασία εξόρυξης ΕΠ παρουσιάζεται στις εργασίες [14, 32], όπου δυοαλγόριθμοι προτείνονται για την ανεύρεση των μη-τετριμμένων ΕΠ και της χαρα-κτηριστικής μελωδικής συμβολοσειράς. Ο πρώτος αλγόριθμος χρησιμοποιεί μιααμοιβαία συσχετιζόμενη μήτρα για την εξαγωγή των ΕΠ, ενώ ο δεύτερος βασίζε-ται σε μια επαναλαμβανόμενη λειτουργία ένωσης συμβολοσειρών. Πειραματικάαποτελέσματα των εργασιών [14, 32] υποδεικνύουν την υπεροχή του δεύτερουαλγόριθμου σε σχέση με τη μέθοδο με την αμοιβαία συσχετιζόμενη μήτρα. Πε-ρισσότερες πληροφορίες για τη μέθοδο με την ένωση συμβολοσειρών δίνονταιστην Ενότητα 3.1.3.2. Οι Koh και Yu [23] παρουσίασαν μια μέθοδο εξόρυξης τωνΜΜΕΠ από τη μελωδία ενός μουσικού δεδομένου χρησιμοποιώντας μια ακολου-θία bit index όπως επίσης και μια επέκταση για την εξαγωγή των συχνών ακολου-θιών νοτών από ένα σύνολο μουσικών αντικειμένων. Στη μέθοδο που προτείνε-ται στην εργασία [23], όλα τα ΕΠ βρίσκονται και επιβεβαιώνονται υπολογίζονταςτη συχνότητα εμφάνισής τους, ενώ ο έλεγχος πλεονασμού εκτελείται σε επόμενοστάδιο δημιουργώντας το σύνολο ΜΜΕΠ με μη αποδοτικό τρόπο. Οι Rollandκαι Ganascia [45], πρότειναν μια μέθοδο για την κατά προσέγγιση εξαγωγή τωνσειριακών προτύπων σε μουσικά δεδομένα, η οποία εξετάζει ένα πλήθος ιδιαιτε-ροτήτων των μουσικών δεδομένων και βασίζεται στον ορισμό μιας συνάρτησηςομοιότητας.

Όσον αφορά στη συμμετοχή των ΕΠ στην ανεύρεση των μουσικών θεμάτων,οι Smith και Medina [49] πρότειναν μια τεχνική ταιριάσματος προτύπων, η οποίακαταλήγει στα μουσικά θέματα και βασίζεται σε πρότερη συλλογή των ΜΜΕΠ.Οι Meek και Birmingham στην εργασία [38] προσδιόρισαν μια πληθώρα χαρα-κτηριστικών, που απαιτείται να εξαχθούν από τα μουσικά δεδομένα για την ανεύ-ρεση των μουσικών θεμάτων.Μεταξύ αυτών, θεωρούν ως σημαντικότερο τη θέσητου θέματος (προτιμώντας τα θέματα που εμφανίζονται νωρίτερα στο μουσικόδεδομένο). Καθώς τέτοια χαρακτηριστικά, που προκύπτουν από ΕΠ, μπορούν ναχρησιμοποιηθούν για την ανεύρεση των μουσικών θεμάτων, οι εργασίες [38, 49]μπορούν να θεωρηθούν συμπληρωματικές στο πρόβλημα που αντιμετωπίζει τοπαρόν κεφάλαιο. Επιπλέον, ένα ενδιαφέρον σύστημα για την ανεύρεση μουσικώνθεμάτων βασισμένο στον παγκόσμιο ιστό παρουσιάζεται στην [24].

Τα πρότυπα είναι πιθανό να μη βρίσκονται μόνο σε μια φωνή (στην περίπτωσητης πολυφωνικής μουσικής), καθώς ένα πρότυπο μπορεί να είναι κατανεμημένοσε αρκετές παράλληλα ηχούσες φωνές. Οι συγγραφείς των [18, 19] παρουσίασαναλγόριθμους για την ανεύρεση κατανεμημένων προτύπων μεταξύ των οποίων και

Page 68: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 55

για το ταίριασμα κατανεμημένων προτύπων με το μέγιστο k διαφορές (εξέλιξημοτίβου).

Οι προαναφερθείσες εργασίες πρωτίστως εξετάζουν στο πρόβλημα της ανεύ-ρεσης όλων των ΕΠ και τη σχέση τους με το σύνολο των μουσικών θεμάτων.Το εστιακό ενδιαφέρον του παρόντος κεφαλίου βρίσκεται στην ανεύρεση όλωντων ΜΜΕΠ. Στο σημείο «πολλά ΕΠ (τουλάχιστο τα μεγίστου μήκους) ενός πραγ-ματικού μουσικού αντικειμένου είναι εκ-προθέσεως κατασκευασμένα από το συν-θέτη» [32]. Ακολούθως, η ύπαρξη τωνΜΜΕΠ είναι βάσει πρόθεσης του συνθέτη.Συνεπώς, η αναγκαιότητα της ανεύρεσης τους είναι προφανής, εφόσον αποδίδουνπληροφορίες για την πρόθεση του συνθέτη.

Επιπλέον, όπως ήδη αναφέρθηκε, τα ΜΜΕΠ είναι επαναλαμβανόμενα πρό-τυπα και “περιέχουν” όλα τα ΕΠ που παράγονται ως υποακολουθίες τους. Κατάσυνέπεια, τα ΜΜΕΠ εκ φύσεως μεταφέρουν τη σημασιολογική αξία των αντί-στοιχων ΕΠ (των ιδίων ΜΜΕΠ αλλά και των ΕΠ που είναι υποακολουθίες τους).Η σημασιολογική αξία των ΕΠ περιγράφεται περαιτέρω στις [32, 10, 14, 23]. Ειδι-κότερα, τα πειραματικά αποτελέσματα στην εργασία [32] παρουσιάζουν ποσοστόανάκλησης 100% στην εξαγωγή μουσικών μοτίβων από ΕΠ (δηλ. όλα τα μοτίβαπρέπει να είναι ΕΠ). Επίσης, οι εργασίες [14, 32] καταλήγουν ότι η ομαδοποί-ηση των μουσικών αντικειμένων μπορεί να γίνει αποδοτικά βάσει ΕΠ. Ωστόσο,πρέπει να καταστεί σαφές ότι τα ΜΜΕΠ είναι πρότυπα που αποκαλύπτουν μιαδιαφορετική, νέα όψη των μουσικών δεδομένων.

3.1.2.2 Εξόρυξη μεγάλων στοιχειοσυνόλων

Στον τομέα της εξόρυξης στοιχειοσυνόλων, τελευταία προτάθηκαν διάφορεςμέθοδοι για την ανεύρεση των μεγίστου μήκους συχνών στοιχειοσυνόλων [6, 31,58]. Οι εργασίες αυτές εστιάζουν στην αποφυγή εξέτασης όλων των συχνών στοι-χειοσυνόλων, μεταφέροντας την έρευνα προς τη γρήγορη ανεύρεση των στοιχειο-συνόλων που έχουν μέγιστο μήκος ή αυτών που είναι maximal3(δηλ. δεν έχουνυπερσύνολο που να είναι επίσης συχνό). Εμφανώς, υπάρχει μια ευδιάκριτη ανα-λογία μεταξύ του προβλήματος που εξετάζουν οι εργασίες [6, 31, 58] και τουπροβλήματος της ανεύρεσης των ΜΜΕΠ. Ωστόσο, η διαδικασία εξόρυξης τωνΜΜΕΠ παρουσιάζει σημαντικές διαφορές εξαιτίας των οποίων, οι προαναφερ-θείσες μέθοδοι, δεν μπορούν να εφαρμοστούν άμεσα.

Πρωτίστως, η κύρια διαφορά των μεθόδων για μεγάλα στοιχειοσύνολα είναι

3Καθώς δεν υπάρχει δόκιμος όρος στην Ελληνική, στο κεφάλαιο αυτό παραμένει στην Αγγλικήκαι έχει την εξής μαθηματική έννοια: Ένα maximal στοιχείο ενός υποσυνόλου S ενός μερικώςταξινομημένου συνόλου, είναι το στοιχείο του S το οποίο δεν είναι μικρότερο από κανένα άλλοστοιχείο στο S

Page 69: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

56 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

η εστίαση τους σε ογκώδεις, εγκατεστημένες σε δίσκο βάσεις στοιχειοσυνόλων.Ακολούθως, οι τεχνικές που χρησιμοποιούνται στις εργασίες [6, 31, 58] μειώνουντον αριθμό προσβάσεων στη βάση με τη χρήση δομών βελτιστοποιημένων για με-γάλο όγκο δεδομένων. Αντιθέτως, για την εξόρυξη μουσικών ΕΠ και ΜΜΕΠ, ημουσική ακολουθία βρίσκεται στην κύρια μνήμη και οι εμπλεκόμενες δομές καιτεχνικές έχουν κύριο στόχο την ταχύτητα εκτέλεσης. Συνεπώς, η εφαρμογή υπαρ-κτών μεθόδων για μεγάλα στοιχειοσύνολα θα ήταν ιδιαίτερα μη αποδοτική, καθώςοι βελτιστοποιήσεις τους αφορούν στο κόστος εισόδου/εξόδου. Για το λόγο αυτό,οι συγγραφείς της εργασίας [14] δεν προσπάθησαν την άμεση εφαρμογή μιας με-θόδου εξόρυξης για βάσεις ακολουθιών, όπως επίσης και στην εργασία [1] γιατο πρόβλημα της εξόρυξης ΕΠ σε μουσικές ακολουθίες. Επιπλέον, στο πεδίο τηςεξόρυξης ΕΠ και ΜΜΕΠ, μια υποακολουθία της μουσικής ακολουθίας είναι ΕΠεάν η συχνότητα εμφάνισης της είναι μεγαλύτερη της μονάδας. Αντίθετα, οι αλγό-ριθμοι εξόρυξης μεγάλων στοιχειοσυνόλων θεωρούν αρκετά μεγαλύτερο κατώφλιγια τη συχνότητα εμφάνισης των προτύπων4, οπότε είναι αναπόφευκτο να έχουναυξημένη επιβάρυνση στην περίπτωση που θεωρήσουν κατώφλι συχνότητας εμ-φάνισης ίσο με τη μονάδα.

Ακολούθως, το κεφάλαιο εξετάσει μια μέθοδο που εστιάζει στις απαιτήσειςτης συγκεκριμένης εφαρμογής, δηλαδή, θεωρεί βελτιστοποιήσεις για μουσικέςακολουθίες που βρίσκονται στην κύρια μνήμη και για πρότυπα που εμφανίζονταιτουλάχιστο δύο φορές στην ακολουθία (κατώφλι εμφάνισης ίσο με τη μονάδα),βάσει των αποτελεσμάτων της εργασίας [20].

3.1.3 Υπόβαθρο και κίνητρα

3.1.3.1 Ορισμοί

Θεωρούμε τη μουσική ακολουθία να είναι μια ακολουθία χαρακτήρων απόένα αλφάβητο διακριτών στοιχείων. Γενικά, η μουσική περιγράφεται από αρκετάχαρακτηριστικά. Μεταξύ αυτών το τονικό ύψος, ο ρυθμός, η χροιά και η δυνα-μική θεωρούνται τα πιο σημασιολογικά αξιόλογα [8]. Ειδικότερα, για τη μουσικήδυτικού τύπου, το τονικό ύψος έχει το μεγαλύτερη πληροφοριακή βαρύτητα [8].Παρότι, το χαρακτηριστικό του ρυθμού δεν μπορεί να αγνοηθεί, χάριν ευκολό-τερης αναπαράστασης, εστιάζουμε στην πληροφορία που περιέχεται στο τονικόύψος. Παρόμοια υπόθεση έχει γίνει και σε πολλές σχετικές εργασίες που αντιμε-τωπίζουν την ανεύρεση ΕΠ [14, 23, 49]. Ωστόσο, είναι ευνόητο ότι η προτεινό-μενη μεθοδολογία μπορεί εύκολα να εφαρμοστεί σε ακολουθίες χαρακτηριστικών

4Ακόμα και μικρά ποσοστά κατωφλιού εμφάνισης, λ.χ., 0.1%, αντιστοιχούν σε πολύ μεγαλύ-τερες τιμές απ’ ότι η απόλυτη τιμή της μονάδας.

Page 70: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 57

ρυθμού. Στην κατεύθυνση αυτή, θα ήταν ενδιαφέρουσα η διερεύνηση του συνδυα-σμού των δύο σημαντικών χαρακτηριστικών (δηλ., τονικό ύψος και ρυθμός) σταπρότυπα που βρέθηκαν. Όμως στην περίπτωση αυτή ελάχιστες παραλλαγές τωνθεμάτων θα οδηγούσαν σε διαφοροποιημένες συνδυαστικές ακολουθίες. Έτσι, θαχρειάζονταν ανάπτυξη μεθόδων που δεν θα ήταν ευαίσθητες σε μικρές παραλλα-γές ώστε να μη χάνονται αρκετά ΕΠ.

ΟΡΙΣΜΟΣ 3.1 (Επαναλαμβανόμενο Πρότυπο (ΕΠ) [14]). Δεδομένης μιας μου-σικής ακολουθίας A, ένα επαναλαμβανόμενο πρότυπο Π είναι μια υποακολουθίασυνεχόμενων στοιχείων της A, η οποία εμφανίζεται τουλάχιστο δυο φορές στηνA.

Εδώ πρέπει να αναφερθεί ότι για την αναπαράσταση που ακολουθείται απότο πρωτόκολλο MIDI, το μέγεθος του αλφάβητου (πλήθος διακριτών στοιχείων)είναι ίσο με 128. Η συχνότητα επανάληψης συχν(Π) (εφεξής συχνότητα) ενόςΕΠ Π ορίζεται ως ο αριθμός των εμφανίσεων του Π στην A. Το μήκος |Π| ενόςΕΠ Π είναι το πλήθος των νοτών στο Π.

ΟΡΙΣΜΟΣ 3.2 (Maximal ΕΠ [23]). Ένα ΕΠX είναι maximal ΕΠ σε μια μουσικήακολουθία A, εάν το είναι ΕΠ στην A και δεν υπάρχει άλλο ΕΠ A′ στην A τέτοιοώστε: (i) το A να είναι υποακολουθία του A′, και (ii) η συχν(X) = συχν(A′).

ΟΡΙΣΜΟΣ 3.3 (ΜεγίστουΜήκους Επαναλαμβανόμενο Πρότυπο (ΜΜΕΠ)). ΈναΕΠX είναι ΜΜΕΠ σε μια μουσική ακολουθία A εάν: (i) τοX είναι maximal ΕΠτης A, και (ii) δεν υπάρχει άλλο ΕΠ X ′ στην A τέτοιο ώστε |X ′| > |X|.

Ο ανωτέρω ορισμός αρχικά απαιτεί ένα ΕΠ X , για να είναι ΜΜΕΠ, να μηνείναι υποακολουθία άλλου ΕΠ X ′, με το οποίο να έχουν ίδια συχνότητα, στηνοποία περίπτωση το X ′ είναι το maximal. Επιπλέον, ο ορισμός απαιτεί το X ναέχει το μέγιστο μήκος από κάθε ΕΠX ′. Παραδείγματος χάριν, στην ακολουθία Α= εαβγδεβγαβγδβγα, υπάρχουν 13 ΕΠ, που παρουσιάζονται στον Πίνακα 3.1 μετις αντίστοιχες συχνότητες εμφάνισης.

α β γ δ ε αβ βγ γα γδ αβγ βγα βγδ αβγδ3 4 4 2 2 2 4 4 2 2 2 2 2

Πίνακας 3.1: Συγχνότητα εμφάνισης ΕΠ.

Εκ των 13 αυτών ΕΠ, το {αβγδ} είναι ΜΜΕΠ (καθώς είναι το maximal καιδεν υπάρχει άλλο ΕΠ X ′ στην A τέτοιο ώστε |X ′| > |X|), τα {α, βγ, βγδ, βγ}είναι maximal, ενώ τα υπόλοιπα είναι τετριμμένα.

Page 71: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

58 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

Τέλος, ο ορισμός του υπό εξέταση προβλήματος στο παρόν κεφάλαιο είναι οεξής: δεδομένης μιας μουσικής ακολουθίαςA, να βρεθούν όλα ταΜΜΕΠ, εφόσονυπάρχουν.

3.1.3.2 Ο αλγόριθμος HLC

Όπως έχει ήδη σχολιαστεί στην Ενότητα 3.1.2.1, ο Hsu και οι συνεργάτες τουστην εργασία [14] πρότειναν δυο διαφορετικές τεχνικές για την ανεύρεση των μη-τετριμμένων ΕΠ. Εδώ, εστιάζουμε στον αλγόριθμο με την ένωση συμβολοσειρών,στον οποίο αναφερόμαστε ως HLC (από τα αρχικά των συγγραφέων). Ο HLCθα παρουσιαστεί επιγραμματικά (με τη βοήθεια ενός παραδείγματος), ώστε ναπεριγραφεί η καταλληλότητα του ως βασικού αλγορίθμου για την εξαγωγή τωνΜΜΕΠ (βλ. Ενότητα 3.1.3.3).

ΟHLC χρησιμοποιεί την τριάδα {X, συχν(), (ϑϵση1, ϑϵση2, . . .)} για να ανα-παραστήσει το κάθε ΕΠ που βρέθηκε σε μια μουσική ακολουθία , όπου X εί-ναι το ΕΠ, συχν(X) είναι η συχνότητα εμφάνισης του X και κάθε ϑϵσηi, 1 ≤i ≤ συχν(), είναι το σημείο εκκίνησης του X στην A. Σύμφωνα με την [14] ηδιαδικασία ένωσης συμβολοσειρών ορίζεται ως εξής: Υποθέτουμε ότι οι τριάδες:{α1α2 . . . αm, συχν(α1α2 . . . αm), (p1, p2, . . . , pi)} και{β1β2 . . . βn, συχν(β1β2 . . . βn), (q1, q2, . . . , qj)}είναι δυο ΕΠ της συμβολοσειράς χαρακτηριστικών του μουσικού αντικειμένου.Ορίζεται η k-τάξης ένωση συμβολοσειρών (k ≥ 0) των δυο ΕΠ ως εξής:

{α1α2 . . . αm, (α1α2 . . . αm), (p1, p2, . . . , pi)} ◃▹k

{β1β2 . . . βn, (β1β2 . . . βn), (q1, q2, . . . , qj)} =

{γ1γ2 . . . γl, (γ1γ2 . . . γl), (o1, o2, . . . , oh)}

όπου

• i = συχν(α1α2 . . . αm), j = συχν(β1β2 . . . βn), h = συχν(γ1γ2 . . . γl),

• γt = αt για 1 ≤ t ≤ m, γt = βt−m+k γιαm+ 1 ≤ t ≤ l = m+ n− k,

• ot = x = y −m+ k, όπου x ∈ {p1, p2 . . . , pi} και y ∈ {q1, q2 . . . , qj}5,

• ot < ot+1, για 1 ≤ t ≤ h− 1,

• if k > 0, αm−k+s = βs, για 1 ≤ s ≤ k.

5Η προϋπόθεση αυτή αναφέρεται στη συσχέτιση των στοιχείων στην ακολουθία γ με τις θέσειςεμφάνισης των ακολουθιών α και β.

Page 72: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 59

Ο HLC εξελίσσεται σε 2 στάδια: Στο πρώτο εντοπίζονται τα ΕΠ μήκους 2k(αρχικά, k = 0), ενώ τα ΕΠ μήκους 2k+1 συνθέτονται εφαρμόζοντας ενώσεις ΕΠμήκους 2k. Η έρευνα, κατά τη διάρκεια του πρώτου σταδίου, συνεχίζει μέχρι ναβρεθεί μία τιμή του k, έστω kl, για την οποία δεν υπάρχουν ΕΠ. Στο σημείο αυτό,ο HLC πρέπει να καθορίσει το μήκος L του μέγιστου σε μήκους ΕΠ, το οποίο δενείναι γνωστό εκ προοιμίου. Ωστόσο, το μήκος L του μέγιστου ΕΠ είναι γνωστόότι είναι μεταξύ 2kl−1 ≤ L < 2kl . Επομένως, ο HLC εκτελεί δυαδική αναζήτησηγια πρότυπα τα μήκη των οποίων είναι στο διάστημα [2kl−1 , 2kl). Στο τέλος τουπρώτου σταδίου, ο HLC έχει προσδιορίσει το L και τα αντίστοιχα ΜΜΕΠ. Με τοδεύτερο στάδιο, επιβεβαιώνει ότι όλα τα πρότυπα που βρέθηκαν στο προηγούμενοστάδιο είναι μη-τετριμμένα με τη βοήθεια μιας δενδρικής δομής που ονομάζεταιRP-δένδρο, της οποίας κάθε κόμβος αποτελεί ένα από τα ΕΠ που βρέθηκαν. Μετάτην αφαίρεση των τετριμμένων ΕΠ, μια πιο λεπτομερής διαδικασία εντοπίζει ΕΠμε μήκος που δεν είναι δύναμη του δυο, εφόσον υπάρχουν. Τα ΕΠ που προκύπτουνμετά την τελευταία αυτή διαδικασία εισάγονται στο RP-δένδρο. Τέλος, όλα τατετριμμένα πρότυπα διαγράφονται, αφήνοντας το RP-δένδρο να περιέχει μόνο ταΜΜΕΠ και τα μικρότερα μη-τετριμμένα ΕΠ, ολοκληρώνοντας το δεύτερο στάδιοτου HLC.

Για να γίνει περισσότερο κατανοητή η λειτουργία του HLC, παραθέτουμε έναπαράδειγμα της εκτέλεσης του σε μια υποθετική μουσική ακολουθία (το παρά-δειγμα αυτό θα αποτελέσει και το τρέχον παράδειγμα στο κεφάλαιο αυτό). Έστωμια μουσική ακολουθίαS, όπου S =EBCDEHGABFJDEHGJEBCDEABFJ. Ακο-λουθώντας τα προαναφερθέντα, τα ΕΠμήκους 1, 2, 4 υφίστανται, παρότι τοEΠ[8] =

∅, όπου το ΕΠ[χ] ενέχει την έννοια του συνόλου των ΕΠ με μήκος χ. Για ναπροσδιοριστεί το L (και τα αντίστοιχα ΜΜΕΠ), θεωρούμε ότι kl = 3, εφόσον8 = 23; ενώ kl−1 = 2, εφόσον 4 = 22 και ΕΠ[4] είναι το τελευταίο μήκοςγια το οποίο υφίστανται ΕΠ. Ακολούθως, ο αλγόριθμος ψάχνει τις ενδιάμεσεςτιμές μήκους 5, 6 και 7 ανακαλύπτοντας το ΕΠ[5]={EBCDE,2,(1,8)} EΠ[6] =

∅ και EΠ[7] = ∅. Κατά συνέπεια, L = 5 και το σύνολο των ΜΜΕΠ είναι τοΕΠ[5]={EBCDE,2,(1,8)} (δηλ., το ΕΠ[5] περιέχει μόνο ένα ΜΜΕΠ). Το απο-τέλεσμα του πρώτου σταδίου του HLC παρουσιάζεται στο Σχήμα 3.1, όπου τοΜΜΕΠ βρίσκεται στη ρίζα. (Στο Σχήμα 3.1, τα μη-τετριμμένα ΕΠ εμφανίζονταιμε τονισμένες γραμμές). Το επόμενο στάδιο του HLC δεν παρουσιάζει ενδιαφέ-ρον για το παρόν καφάλαιο καθώς εστιάζει σταΜΜΕΠ (που βρέθηκαν στο πρώτοστάδιο), κατά συνέπεια τα βήματα του HLC που εκτελούνται στο δεύτερο στάδιοπαραλείπονται.

Page 73: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

60 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

EBCDE,2,(1,17)

EBCD,2,(1,17)ABFJ, 2,(8,22) DEHG,2,(4,12)

AB,2,(8,22) BC,2,(2,18) CD,2,(3,19) DE,3,(4,12, 20) EH,2,(5,13) HG,2,(6,14)BF,2,(9,23)

A,2,(8, 22) B,4,(2,9,18,23)C,2,(3,19) D,3,(4,12,20) E,5,(1,5,13,17,21)F,2,(10,24) G,2,(7,15)H,2,(6,14)

FJ,2,(10,24)

J,3,(11,16,25)

EB,2,(1,17)

AJ B

H C

G

EF

D

A

J

B

H

C

G

E

F

D

H

J

B

H

C

G

E

F

D

HH

C

G

E

D

J

B

F

H

H

G

E

J

B

C F

D

H

G

G

G

G

J

F

H

G

3g

G

H

3h

G

J

H

3i

G

H

G

E

D

J

B

C F

H

G

BCDE,2,(2,18)

Σχήμα 3.1: Ο συνολικός γράφος για το τρέχον παράδειγμα του HLC.

3.1.3.3 Κίνητρα

Βασιζόμενοι στα προαναφερθέντα, πρέπει να διευκρινιστεί πως μεταξύ τωνμη-τετριμμένων ΕΠ, ο HLC ανακαλύπτει το σύνολο των ΜΜΕΠ. Εμφανώς, αυτόγίνεται με πολύ αποδοτικό τρόπο λόγω των ακόλουθων: (i) Απαιτείται να βρεθείμόνο ένα λογαριθμικό πλήθος ενδιάμεσων μηκών για την ανεύρεση των ΜΜΕΠ(τα μήκη τύπου 2k εξετάζονται μέχρι να βρεθεί ένα kl και τότε χρησιμοποιείταιδυαδική αναζήτηση στο διάστημα [2kl−1 , 2kl)), ενώ μια απλοϊκή μέθοδος θα εξέ-ταζε όλα τα πιθανά μήκη μεταξύ 1 και L. (ii) Πειραματικές μετρήσεις μπορούν ναδείξουν ότι το απαιτητικότερο στάδιο σε χρόνο εκτέλεσης του HLC είναι το δεύ-τερο στάδιο, όπου δημιουργείται το RP-δένδρο και απαλείφονται τα τετριμμέναπρότυπα. Σε περίπτωση που το ενδιαφέρον εστιάζεται στην ανεύρεση τωνΜΜΕΠκαι μόνο, τότε το δεύτερο στάδιο μπορεί να παραληφθεί πλήρως.

Για τους λόγους αυτούς, μια τροποποιημένη εκδοχή του HLC (η οποία περι-λαμβάνει μόνο το πρώτο του στάδιο) μπορεί να θεωρηθεί ως ένας καλός βασικόςαλγόριθμος για εύρεση των ΜΜΕΠ, καθώς σαφώς υπερνικά την απλοϊκή μέθοδο.Ωστόσο, πρέπει να αναφερθεί ότι ο HLC δεν σχεδιάστηκε εξαρχής μονάχα για τηνανεύρεση τωνΜΜΕΠ. Παρότι εντοπίζει το σύνολο τωνΜΜΕΠ χρησιμοποιώνταςμόνο λογαριθμικό πλήθος ενδιάμεσων βημάτων, σε κάθε ένα από τα βήματα αυτάπρέπει να εντοπίσει όλα τα ΕΠ του βήματος. Καθώς το μέγιστο μήκος μπορεί ναείναι της τάξης των μερικών εκατοντάδων, ο HLC πρέπει να εκτελέσει ενώσειςκαι να υπολογίσει τη συχνότητα μεγάλου αριθμού ΕΠ. Το γεγονός αυτό είναι ιδιαι-τέρως εμφανές στα αρχικά βήματα, όταν το πλήθος των ΕΠ με σχετικά μικρό μή-κος είναι κατά πολύ αυξημένο, εξαιτίας της μη-μονοτονικής ιδιότητας6. Συνεπώς,απαιτείται μια άλλη μέθοδος που θα αποφεύγει όσο το δυνατό περισσότερο το κό-στος εξέτασης (δηλ., τον υπολογισμό της συχνότητα εμφάνισης) των ενδιάμεσων

6Σύμφωνα με την ιδιότητα της μη-μονοτονίας, μια υποακολουθίαX τηςA δεν μπορεί να είναιΕΠ εκτός εάν όλες οι υποακολουθίες της X είναι επίσης ΕΠ (εδώ δεν ενδιαφερόμαστε για τηδιαφοροποίηση μεταξύ τετριμμένων και μη, καθώς τα ΜΜΕΠ είναι εξ ορισμού μη-τετριμμένα).

Page 74: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 61

προτύπων.Τέλος, πρέπει να γίνει μνεία στην εργασία των Koh και Yu [23] όπου προ-

τείνουν μια διαφορετική προσέγγιση για την ανεύρεση των ΕΠ. Η μέθοδος τουςχρησιμοποιεί ένα πίνακα bit-index και εντοπίζει όλα τα ΕΠ με μοναδιαία αύξησημήκους. Συνεπώς, η μέθοδος αυτή προσεγγίζει το επίπεδο των ΜΜΕΠ εξετάζο-ντας όλα τα ενδιάμεσα μήκη και όχι μόνο ένα λογαριθμικό πλήθος όπως ο HLC.Επιπλέον, παρόμοια με τον HLC, σε κάθε εξεταζόμενο επίπεδο, η μέθοδος τηςεργασίας [23], ελέγχει όλα τα ΕΠ. Πειραματικά αποτελέσματα στην [23] κατα-δεικνύουν μια βελτίωση του συνολικού χρόνου εκτέλεσης σε σύγκριση με τονHLC. Ωστόσο, τα αποτελέσματα αυτά αναφέρονται στη διαδικασία ανεύρεσηςόλων των ΕΠ, όπου ο HLC περιλάμβανε την εκτέλεση του δαπανηρού δεύτερουσταδίου του. Κατά συνέπεια, ο τροποποιημένος HLC θεωρείται αποδοτικότεροςαπό τη μέθοδο των Koh & Yu, όσον αφορά στο πρόβλημα της ανεύρεσης μόνοτων ΜΜΕΠ.

3.1.4 Ο αλγόριθμος M2P

3.1.4.1 Περίγραμμα της μεθόδου

Στην ενότητα αυτή περιγράφεται ο αλγόριθμος που M2P (Mining Maximum-length Patterns, Εξόρυξη μεγίστου μήκους προτύπων) βάσει των αποτελεσμάτωντης εργασίας [20]. Ο αλγόριθμοςM2P εξελίσσεται ως εξής: ΈστωA = ⟨α1, . . . , αν⟩μια μουσική ακολουθία μήκους ν. Υποθέτουμε ότι έχουν εντοπιστεί όλα τα ΕΠμήκους δύο, ΕΠ[2] = {⟨αi, αj⟩ : αi, αj ∈ A, συχν(⟨αi, αj⟩) ≥ 2}. Τα στοιχείατηςA και του ΕΠ[2] σχηματίζουν ένα κατευθυνόμενο γράφοΓ(K,H), όπου το σύ-νολο των κόμβωνK(Γ) αντιστοιχεί στο σύνολο όλων των στοιχείων της A και τοσύνολο όλων των ακμώνH(Γ) στο σύνολο όλων των στοιχείων του ΕΠ[2] (δηλ.,μια κατευθυνόμενη ακμή ⟨αi → αj⟩ στο γράφο αντιστοιχεί στο μέλος ⟨αi, αj⟩του ΕΠ[2]).

Κάθε μονοπάτιM στοΓ μπορεί να θεωρηθεί ως πιθανό ΕΠ, καθώς όλα τα υπο-μονοπάτια του μήκους δύο (δηλ., οι κατευθυνόμενες ακμές) είναι ΕΠ. Συνεπώς,το σύνολο όλων των πιθανών μονοπατιών του Γ σχηματίζουν το χώρο έρευνας τουεξεταζόμενου προβλήματος, καθώς τα ΜΜΕΠ είναι επίσης ΕΠ και αντιστοιχούνσε μονοπάτια του Γ. Μια απλοϊκή προσέγγιση θα εξέταζε τον πλήρη γράφο, όπουκάθε πιθανό ζεύγος στοιχείων της A θα αποτελούσε μια ακμή. Ωστόσο, η μέθο-δος αυτή οδηγεί σε έναν υπέρμετρο αριθμό πιθανών μονοπατιών, ενώ (εξαιτίαςτης μη-μονοτονικής ιδιότητας) το πλήθος αυτό περικόπτεται δραστικά χάρις στογεγονός ότι οι ακμές αντιστοιχούν μόνο σε μέλη του ΕΠ[2].

Ο αντικειμενικός σκοπός του M2P είναι να εντοπίσει στον προαναφερθέντα

Page 75: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

62 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

χώρο έρευνας τα μονοπάτια εκείνα που έχουν το μέγιστο μήκος και αντιστοιχούνσε ΕΠ. Για να το κατορθώσει αυτό, οM2P διασχίζει τοΓ ερευνώντας τα μονοπάτιαπου πηγάζουν από οποιονδήποτε από τους κόμβους του. Καθώς συναντά μονοπά-τια, ο M2P ασχολείται μόνο με εκείνα που είναι υποψήφια να είναι ΜΜΕΠ (δηλ.,όχι μόνο ΕΠ). Κατά τη διάρκεια της διάσχισης, κρατά αναφορά του μονοπατιούΦ που έχει ήδη επισκεφτεί και: (i) έχει το μέγιστο μήκος μέχρι του σημείου αυ-τού, και (ii) αντιστοιχεί σε ΕΠ (δηλ., η συχνότητα του έχει υπολογιστεί και βρεθείνα είναι μεγαλύτερη του δυο)7. Ο περιορισμός του χώρου έρευνας επιτυγχάνε-ται απορρίπτοντας τις προεκτάσεις (δηλ., προσαρτήματα κόμβων και ακμών κατάτη διάσχιση) μονοπατιών των οποίων η συχνότητα μετρήθηκε και δεν επαρκούσεώστε να θεωρηθούν ΕΠ, καθώς καμία από τις προεκτάσεις τους δεν οδηγούσε σεΜΜΕΠ (εξαιτίας της ιδιότητας της μη μονοτονικότητας, μιας και έναΜΜΕΠείναιΕΠ). Συνεπώς, κατά την πρόοδο της διάσχισης του Γ, τρεις περιπτώσεις χρήζουνμνείας:

1η Περίπτωση: Εάν το τρέχον μονοπάτι M που έχει επισκεφτεί ο αλγόριθμοςέχει μήκος μικρότερο από |Φ|, τότε η μέτρηση της συχνότητας του μπορείνα αποφευχθεί (καθώς δεν είναι ΜΜΕΠ με βεβαιότητα).

2η Περίπτωση: Εάν |M | > |Φ|, τότε υπολογίζεται η συχνότητα του αντίστοιχουπροτύπου στην A και εάν βρεθεί το πρότυπο να είναι επαναλαμβανόμενο,τότε το Φ εξισώνεται με τοM . Εναλλακτικά, εάν δεν είναι ΕΠ, τότε (όπωςέχει ήδη περιγραφεί) η διάσχιση δεν συνεχίζει σε κανένα μονοπάτι που ναπεριέχει τοM .

3η Περίπτωση: Τέλος, εάν το μήκος τουM είναι ίσο με το μήκος του |Φ|, τότε ουπολογισμός της συχνότητας αποφεύγεται στο σημείο αυτό και διατηρούμεένα πίνακα και τον συνδέουμε με το Φ. Εάν μετά το τέλος της διάσχισηςτου Γ δεν έχουν βρεθεί άλλα ΕΠ με μήκος μεγαλύτερο του |Φ|, όλα τα μο-νοπάτια που έχουν συνδεθεί με το Φ είναι επίσης υποψήφια να είναι ΕΠ (τοΦ έχει επιβεβαιωθεί ως ΜΜΕΠ, εφόσον ήταν το πρώτο μονοπάτι το μήκοςτου οποίου εξετάσθηκε κατά τη διάσχιση, άρα και η συχνότητα του έχειυπολογιστεί εξαιτίας της πρώτης περίπτωσης.

Βάσει των προηγουμένων, ο M2P υπολογίζει τη συχνότητα ενός μονοπατιούμόνο εάν το μήκος είναι τέτοιο ώστε είναι πιθανό να είναι ΜΜΕΠ. Για το λόγοαυτό, αναβάλλει όσο το δυνατό περισσότερο τη δαπανηρή διαδικασία μέτρησης

7Αρχικά, κάθε ακμή του Γ μπορεί να να επιλεχθεί ως τέτοιο μονοπάτι.

Page 76: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 63

της συχνότητας, στοχεύοντας στην εύρεση νέων υποψηφίων με μεγαλύτερο μή-κος. Το αποτέλεσμα είναι ότι ο M2P, αντίθετα με τον HLC, αποφεύγει τη μέ-τρηση της συχνότητας όλων των μονοπατιών ενός συγκεκριμένου μήκους. Αντί-θετα, προσδιορίζει τη συχνότητα μονοπατιών συγκεκριμένου μήκους μόνο, έωςότου βρεθεί το πρώτο μονοπάτι που αντιστοιχεί σε ΕΠ. Τέλος, όταν τελειώσει ηδιάσχιση, εξετάζονται όλα τα συνδεδεμένα μονοπάτια που είναι συνδεδεμένα μετο αρχικό ΜΜΕΠ (δηλ., εκείνα τα μονοπάτια με μήκος ίσο με το μέγιστο μή-κος που βρέθηκε για το |Φ|), ώστε να βρεθούν όλα τα ΜΜΕΠ, καθώς μπορεί ναυπάρχουν περισσότερα από ένα. Οφείλουμε να σημειώσουμε ότι η μέτρηση τηςσυχνότητας στον M2P εκτελείται χρησιμοποιώντας αλγόριθμο ταιριάσματος συμ-βολοσειρών8, καθώς η συχνότητα ενός μονοπατιούM είναι ίση με το πλήθος τωνεμφανίσεων τουM (δηλ., της υποακολουθίας που αντιστοιχεί στοM ) στην A.

3.1.4.2 Περιγραφή του αλγορίθμου M2P

Στην ενότητα αυτή περιγράφεται η αλγοριθμική μορφή του M2P, όπως παρου-σιάζεται στο Σχήμα 3.2. Το δεδομένο εισόδου τουM2P είναι η μουσική ακολουθία.Αρχικά, ο M2P υπολογίζει όλα τα ΕΠ μήκους δύο και τα αποθηκεύει στο σύνολοΕΠ[2]. Η διαδικασία αυτή αποτελεί μέρος της αρχικοποίησης και εκτελείται μετη βοήθεια μιας διδιάστατης μήτρας M , το μέγεθος της οποίας για την αναπα-ράσταση MIDI είναι 128×128. Ο γράφος Γ κατασκευάζεται βάσει του πίνακαγειτνίασης του M . Κατόπιν, ο M2P εκτελεί τη διάσχιση του Γ κατά τη διάρκειατης οποίας εξετάζει τα μονοπάτια Π που πηγάζουν από τους κόμβους του Γ (ηδιάσχιση επισκέπτεται τους κόμβους με προτεραιότητα κατά βάθος).

Στη διαδικασία διάσχισης του γράφου, το μήκος του τρέχοντος μονοπατιούMσυγκρίνεται με το μήκος του τρέχοντος μέγιστου μονοπατιού (Current MaximumLength - CML), το οποίο αρχικά είναι ίσο με δυο, καθώς ο M2P έχει ήδη προσδιο-ρίσει το σύνολο ΕΠ[2]. Εάν το μήκος τουM είναι μεγαλύτερο από το CML, τότεο M2P υπολογίζει τη συχνότητα του M και σε περίπτωση που είναι μεγαλύτερητου δύο, το M αποθηκεύεται (ως το μόνο στοιχείο) στην ουρά μέγιστου μήκους(Maximum Length Queue - MLQ), ενώ το CML γίνεται ίσο με το μήκος του M .Αντίθετα, όταν το μήκος του M είναι ίσο με το CML, τότε το M προστίθεταιστην MLQ χωρίς να γίνει υπολογισμός της συχνότητάς του. Τέλος, εάν δεν έχειπερικοπεί η έρευνα για μονοπάτια που περιέχουν το M (περικοπές συμβαίνουνόταν η συχνότητα τουM υπολογιστεί και βρεθεί μικρότερη του δύο), η διάσχισησυνεχίζει επισκεπτόμενη γειτονικούς κόμβους v τουM .

Μετά το πέρας της διάσχισης τουΓ, οM2P έχει προσδιορίσει (εφόσον υπάρχει)ένα ΜΜΕΠ (το πρώτο στοιχείο της MLQ). Ακολούθως, συνεχίζει υπολογίζοντας

8Χάριν απλότητας, θα μπορούσε να χρησιμοποιηθεί και ο αλγόριθμο Knuth-Morris-Pratt.

Page 77: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

64 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

Procedure M2P(MusicSequence S)begin1. RP[2] = Find all rp with length 22. Construct G(RP[2])3. CML := 24. MLQ := ∅5. for each v ∈ V (G)

6. Traverse(G, v, ⟨v⟩, CML, MLQ)7. endfor8. for each P ∈MLQ9. if (CountFreq(q)≥ 2)10. Output(P )11. endif12. endforend

Procedure Traverse(Graph G, Vertex v, Path P , int CML, QueueMLQ)begin1. bool prune := false2. Append(P , v)3. if Length(P ) > CML4. if CountFreq(P ≥ 2)

5. MLQ := P

6. CML = Length(P )7. else8. prune := true9. endif7. else if length(P ) = CML)8. Enqueue(MLQ, P )9. endif10. if not prune11. for each u ∈ V (G) and ⟨v → u⟩ ∈ E(G)

12. Traverse(G, u, P , CML, MLQ)13. endfor14. endifend

Σχήμα 3.2: Ο αλγόριθμος M2P.

Page 78: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 65

τη συχνότητα των όλων των υπόλοιπων στοιχείων τηςMLQ, ώστε να συγκεντρώ-σει το σύνολο όλων των ΜΜΕΠ.

Η ορθότητα του M2P μπορεί εύκολα να αποδειχθεί ως εξής: Υποθέτουμε ότιτο PM είναι ένα ΜΜΕΠ με μήκος M , ενώ τα στοιχεία του είναι ⟨p1, . . . , pM⟩.Εφόσον το PM είναι ΜΜΕΠ, η συχνότητα του είναι μεγαλύτερη ή ίση με δύο. Συ-νεπώς, κάθε διαδοχικό ζευγάρι ⟨pi, pi+1⟩ των στοιχείων του PM ανήκει στο ΕΠ[2]και έχει μια αντίστοιχη ακμή στο Γ. Ακολούθως, το PM θα εξεταστεί από τονM2P κατά τη διάρκεια της διάσχισης του Γ, ακολουθώντας τις ακμές ⟨pi, pi+1⟩ για1 ≤ i < M . Εάν το PM είναι το πρώτο μονοπάτι με μήκος M που θα εξεταστεί,τότε θα υπολογιστεί η συχνότητα του και τοPM θα αποτελεί το πρώτο στοιχείο τηςMLQ (διαγράφοντας όποιες παλαιότερες εγγραφές που αντιστοιχούσαν σε υποψή-φια μονοπάτια μικρότερου μήκους). Αλλιώς, εάν έχουν ήδη συμπεριληφθεί άλλαμονοπάτια με μήκοςM στηνMLQ, καθώς δεν υπάρχει άλλο ΕΠ P ′ με |P ′| > M ,το PM θα εξεταστεί στο βήμα μετά το τέλος της διάσχισης, όταν θα υπολογίζονταιοι συχνότητες όλων των στοιχείων τηςMLQ. Κατά συνέπεια, σε κάθε περίπτωσητο PM θα ενσωματωθεί στην MLQ και θα περιλαμβάνεται στην έξοδο του M2P.

3.1.4.3 Παράδειγμα

Για να αποσαφηνιστεί η περιγραφή του M2P, στην ενότητα αυτή παρουσιάζε-ται ένα παράδειγμα της εκτέλεσής του ακολουθώντας το τρέχον παράδειγμα τουκεφαλαίου αυτού. Στο παράδειγμα αυτό, η ακολουθία S = EBCDEHGABFJD-EHGJEBCDEABFJ, έχει σύνολο ΕΠ[2] και ο αντίστοιχος γράφος Γ παρουσιάζε-ται στο Σχήμα 3.3. Υποθέτουμε (χωρίς απώλεια της γενικότητας) ότι οM2P ξεκινάτη διάσχιση από τα μονοπάτια που πηγάζουν από τον κόμβο A και την ακμή AB,ειδικότερα. Αρχικά, επισκέπτεται το μονοπάτι ABC (Σχήμα 3.4a). Καθώς το μή-κος του είναι 3 > CML = 2, η συχνότητα του υπολογίζεται και βρίσκουμε ότιείναι μηδενική. Έτσι, ο M2P δεν συνεχίζει τη διάσχιση στο μονοπάτι ABC. Κα-τόπιν, συνεχίζει εξετάζοντας το ABF, του οποίου η συχνότητα υπολογίζεται ίσημε δύο. Συνεπώς, το CML γίνεται ίσο με τρία και το ABF εισάγεται στηνMLQ. Ηδιάσχιση συνεχίζει περαιτέρω με το μονοπάτι αυτό προχωρώντας στο ABFJ, τουοποίου η συχνότητα υπολογίζεται ίση με δύο. Ομοίως, το CML γίνεται τέσσερακαι η MLQ={ABFJ}. Συνεχίζοντας, εξετάζεται το μονοπάτι ABFJH, όμως η συ-χνότητα του είναι μηδενική. Συνεπώς, αποφεύγεται η εξέταση μονοπατιών που τοπεριέχουν.

Στη συνέχεια, η διάσχιση προχωρά στον κόμβο B (Σχήμα 3.4b) και την ακμήBC. Αρχικά εξετάζεται το μονοπάτι BCD, το μήκος του οποίου είναι μικρότεροτου CML, και ακολούθως η συχνότητα του δεν υπολογίζεται. Ωστόσο, η διάσχισησυνεχίζει σε μονοπάτια που περιέχουν το BCD, καθώς δεν μπορεί να απορριφθεί

Page 79: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

66 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

EBCDE,2,(1,17)

EBCD,2,(1,17)ABFJ, 2,(8,22) DEHG,2,(4,12)

AB,2,(8,22) BC,2,(2,18) CD,2,(3,19) DE,3,(4,12, 20) EH,2,(5,13) HG,2,(6,14)BF,2,(9,23)

A,2,(8, 22) B,4,(2,9,18,23)C,2,(3,19) D,3,(4,12,20) E,5,(1,5,13,17,21)F,2,(10,24) G,2,(7,15)H,2,(6,14)

FJ,2,(10,24)

J,3,(11,16,25)

EB,2,(1,17)

AJ B

H C

G

EF

D

A

J

B

H

C

G

E

F

D

H

J

B

H

C

G

E

F

D

HH

C

G

E

D

J

B

F

H

H

G

E

J

B

C F

D

H

G

G

G

G

J

F

H

G

3g

G

H

3h

G

J

H

3i

G

H

G

E

D

J

B

C F

H

G

BCDE,2,(2,18)

Σχήμα 3.3: Ο γράφος Γ του παραδείγματος.

ως μη ΕΠ (δηλ., δεν έχει υπολογιστεί η συχνότητα του). Συνεπώς, το μονοπάτιBCDE ακολουθεί προς εξέταση, το μήκος του οποίου είναι ίσο με το CML. Έτσι,το BCDE προστίθεται στην MLQ που γίνεται ίση με {ABFJ,BCDE}.

A

J

B

H

C

G

E

F

D

H

J

B

H

C

G

E

F

D

H H

C

G

E

D

J

B

F

H

H

G

E

J

B

C F

D

H

G

G

G

G

H

G

E

D

J

B

C F

H

G

(a) (b) (c) (d) (e)

Σχήμα 3.4: Παράδειγμα μονοπατιών που πηγάζουν από τους κόμβους A, B, C, D, και E.

Ομοίως, τα μονοπάτια που πηγάζουν από τον κόμβο C (Σχήμα 3.4c) δεν επη-ρεάζουν το CML ή τηνMLQ, ενώ τα μονοπάτια που απορρέουν από τον κόμβο D(Σχήμα 3.4d) προσθέτουν το DEHG στην MLQ (εφόσον |DEHG| = CML = 4,η συχνότητα του δεν υπολογίζεται), ενώ η MLQ γίνεται {ABFJ,BCDE,DEHG}.Συνεχίζοντας με τον κόμβο E (Σχήμα 3.4e), το μονοπάτι EBCD προστίθεται στηνMLQ (MLQ={ABFJ,BCDE,DEHG,EBCD}). Κατόπιν, εξετάζεται το EBCDE καιη συχνότητα του υπολογίζεται ίση με δύο (εφόσον το μήκος του είναι μεγαλύτεροαπό τοCML). Ακολούθως, τοCML γίνεται ίσο με πέντε, ενώ τα τρέχοντα στοιχείατηςMLQ διαγράφονται και το EBCDE προστίθεται (εφόσον βρέθηκε μεγαλύτερητιμή CML). Τέλος, όλοι οι υπόλοιποι κόμβοι (F ,G,H και J) δεν επιφέρουν καμίααλλαγή. Συνεπώς, εφόσον δεν υπάρχουν άλλα υποψήφια μονοπάτια στηνMLQ τοσύνολο των ΜΜΕΠ που βρέθηκαν είναι {EBCDE}.

Page 80: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.1. ΕΠΑΝΑΛΑΜΒΑΝΟΜΕΝΑ ΠΡΟΤΥΠΑ 67

3.1.4.4 Αναπτύσσοντας βελτιστοποιήσεις

Η αποδοτικότητα του αλγόριθμου M2P βασίζεται στα κεντρικά χαρακτηρι-στικά του, την ικανότητα του, όπως έχει ήδη περιγραφεί, να αποφεύγει τον υπο-λογισμό της συχνότητας εμφάνισης των υποψηφίων (εκτός του πρώτου που βρεθείγια κάθε μήκος) το μήκος των οποίων είναι ίσο με το CML, και τη δυνατότητα τουνα αποφεύγει εντελώς κάθε μέτρηση που σχετίζεται με υποψήφιους με μήκος μι-κρότερο του CML. Για την περαιτέρω βελτιστοποίηση της απόδοσής του, στηνενότητα αυτή περιγράφονται δυο τεχνικές ώστε να βελτιωθεί επιπλέον η βασικήμορφή του M2P.

Όπως περιγράφεται στην εργασία [14], το πλήθος των ΕΠ με μικρό μήκος εί-ναι κατά πολύ μεγαλύτερο από το πλήθος των ΕΠ με μεγάλο μήκος. Για το λόγοαυτό, θα ήταν επιθυμητό ο M2P (κατά τη διάρκεια της διάσχισης) να μειώσει τοναριθμό των εξεταζόμενων μονοπατιών με μικρό μήκος. Κάτι τέτοιο είναι εφικτόσε ένα βήμα προεργασίας. Έστω ℓ το μήκος των ΕΠ των οποίων επιθυμούμε ναμειωθεί το πλήθος. Ο M2P διαβάζει τη μουσική ακολουθία S και κατακερματί-ζει τις υποακουλουθίες μήκους ℓ σε ένα πίνακα κατακερματισμού, του οποίουτα περιεχόμενα είναι ακέραιοι μετρητές (αρχικά ίσοι με μηδέν). Κατά τη διάρ-κεια της διάσχισης, όταν εξετάζεται ένα μονοπάτι P μήκους ℓ, ο M2P ελέγχει τοναντίστοιχο μετρητή και εάν αυτός είναι μικρότερος του δύο, τότε σταματά τη διά-σχιση για προεκτάσεις του P , καθώς το P δεν μπορεί να είναι ΕΠ. Ωστόσο, εάνη τιμή του μετρητή είναι μεγαλύτερη ή ίση του δύο, το P είναι πιθανό να μη είναιΕΠ, εξαιτίας πιθανών συγκρούσεων στον πίνακα κατακερματισμού. Ακολούθως,ο κατακερματισμός μπορεί μόνο να προσφέρει ένα διηθητήρα ώστε να μειωθείτο πλήθος των εξεταζόμενων μονοπατιών μήκους ℓ. Εδώ πρέπει να αναφερθεί ότισχετική τεχνική κατακερματισμού έχει χρησιμοποιηθεί σε εξόρυξη στοιχειοσυ-νόλων [43]. Καθώς η τεχνική αυτή αποδίδει ικανοποιητικά μόνο για μονοπάτιαμικρού μήκους, στις υλοποιήσεις προτείνεται να εξετάζονται τιμές ℓ μικρές (λ.χ.ίσες με τρία και τέσσερα) αλλά και διακριτοί πίνακες κατακερματισμού για τιςτιμές του ℓ.

Η δεύτερη τεχνική αντιμετωπίζει την επίδραση των κύκλων στο γράφο Γ. Εμ-φανώς, τα στοιχειά των ΕΠ καιΜΜΕΠ δεν απαιτείται να είναι διακριτά, συνεπώς,κόμβοι και/ή ακμές του Γ είναι πιθανό να περιέχονται περισσότερες από μια φο-ρές για το τρέχον εξεταζόμενο μονοπάτι (κατά τη διάρκεια της διάσχισης). Αςυποθέσουμε ότι ένα μονοπάτι P είναι ΕΠ αλλά το μήκος του είναι μικρότερο απότο CML. Στην περίπτωση αυτή, εάν το P περιέχει κύκλο, χρησιμοποιώντας τουςκόμβους και τις ακμές στον κύκλο για κατάλληλο αριθμό φορών (δηλ., αρκεί ναακολουθηθεί ο κύκλος όσες φορές απαιτείται), το P μπορεί να επεκταθεί ώστε τομήκος του να γίνει ίσο με το CML. Επιπλέον, εξαιτίας της Περίπτωσης 3 (όπως

Page 81: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

68 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

αυτή περιγράφεται στην Ενότητα 3.1.4.1), ένα μεγάλο πλήθος μονοπατιών μπο-ρούν να προστεθούν στην MLQ. Για το λόγο αυτό, προτείνεται η βελτίωση τηςαρχικής μορφής του M2P ώστε να μπορεί να εντοπίσει την ύπαρξη κύκλων στοτρέχον εξεταζόμενο μονοπάτι και όταν ισχύει η Περίπτωση 3 για μονοπάτι με κύ-κλο, να υπολογίζεται πρώτα η συχνότητα του και να ακολουθεί η προσθήκη τουστην MLQ. Παρά το γεγονός ότι η τεχνική αυτή αυξάνει το πλήθος των ενδιά-μεσων μονοπατιών των οποίων εξετάζεται η συχνότητα, εντούτοις περιορίζει τηνυπέρμετρη αύξηση των μελών της MLQ (η συχνότητα των οποίων θα πρέπει ναυπολογιστεί στο τέλος της διάσχισης).

Οι δύο προαναφερθείσες βελτιστοποιήσεις έχουν βρεθεί να προσφέρουν ου-σιαστική βελτίωση στην απόδοση του M2P. Για το λόγο αυτό, ενσωματώθηκανστην αρχική μορφή του, όπως αυτή περιγράφηκε προηγουμένως.

3.2 Κατηγοριοποίηση

3.2.1 Κατά γένος

Τα μουσικά γένη (genres) είναι κατηγορίες μουσικών κομματιών που έχουνκοινή μορφή (style). Παρότι η μουσική μπορεί επίσης να χαρακτηριστεί κι απόμη μουσικά κριτήρια, όπως η γεωγραφική τοποθεσία της παραγωγής, η «βασικήμουσική γλώσσα» μου χρησιμοποιούν τα μέλη του γένους αλλά και ο χαρακτηρι-σμός που της αποδίδουν τα μέλη της κοινότητας των ακροατών της είναι ιδιαίτερασημαντική [53]. Είναι η εξειδικευμένη κοινότητα των δημιουργών, κριτικών καιτης μουσικής βιομηχανίας που δημιουργεί και εγκαθιδρύει τις ταξινομίες αυτές.

Ακολούθως, μια από τις αναγκαιότητες που παρουσιάζονται στην ΕΜΠ εί-ναι η κατηγοριοποίηση κατά γένος. Εκτός της προφανούς σημασίας σε πληθώραεπαγγελματιών (πωλητές, βιβλιοθηκονόμοι, μουσικολόγοι, κλπ) ως μέσο οργάνω-σης της μουσικής, η κατηγοριοποίηση κατά γένος είναι εξίσου σημαντική καθώς ηέρευνα [41] δείχνει πως η αρέσκεια σε ένα μουσικό κομμάτι μπορεί να έχει υψηλήσυσχέτιση με τη μορφή της εκτέλεσης και όχι στο ίδιο το περιεχόμενο του κομμα-τιού μετατρέποντας το γένος σε ψηλής σημασίας χαρακτηριστικό για την ΕΜΠ.Καθώς τα μεταδεδομένα στη μουσική απαιτούν ρητή ανάθεση η οποία δεν συμβαί-νει πάντα και η χειρωνακτική τους ανάθεση παρουσιάζει δυσκολίες και πιθανώςασυνέπεια [42], η αναγκαιότητα για αποδοτικές αυτοματοποιημένες τεχνικές κα-τηγοριοποίησης της μουσικής είναι προφανής, ειδικότερα καθώς οι μουσικές συλ-λογές αυξάνουν σε πλήθος, μέγεθος με ταχύ ρυθμό. Επιπλέον, η κατηγοριοποίησηκατά γένος μουσικής έχει πολλαπλά οφέλη για το ευρύ κοινό καθώς διευκολύνειτην πρόσβαση προσφέροντας ευκολία.

Page 82: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 69

Παρότι η ΕΜΠ και ειδικότερα η έρευνα βάσει περιεχομένου είναι ακόμα σεφάση ανάπτυξης, η τρέχουσα έρευνα εστιάζει σε ακουστικά δεδομένα, γεγονόςπου μπορεί εύκολα να εξηγηθεί από την δημοφιλία των ακουστικών καταγρα-φών. Τα μουσικά δεδομένα σε συμβολική μορφή, όπως προαναφέρθηκε, έχουντην έννοια της πρόθεσης από το δημιουργό προς τον εκτελεστή. Ακολούθως, ησυμβολική αναπαράσταση εμπεριέχει πλούτο πληροφορίας, η οποία δεν είναι πά-ντα προφανής στο αντίστοιχή ακουστική αναπαράσταση. Επιπλέον, τα ακουστικάμουσικά δεδομένα εμπεριέχουν περαιτέρω άσχετη πληροφορία με τη μορφή τουθορύβου, δυσχεραίνοντας έτσι την επεξεργασία τους. Για να μπορέσει να γίνειεπεξεργασία της συνολικής πληροφορίας που περιέχεται στα μουστικά δεδομέναδιάφορες μέθοδοι έχουν προταθεί [36, 5, 52] που εκμεταλλεύονται χαρακτηρι-στικά της μουσικής όπως το τονικό ύψος, ο ρυθμός, το ηχόχρωμα κλπ για τηνκατηγοριοποίηση της μουσικής κατά γένος. Στην ενότητα αυτή εστιάζουμε στοτονικό ύψος και τη χρονική διάρκεια των νοτών της μουσικής πληροφορίας σεσυμβολική αναπαράσταση.

Ένα από τα κυριότερα θέματα που αντιμετωπίζει η έρευνα κατηγοριοποίησηςμουσικής πληροφορίας κατά γένος, ειδικότερα καθώς οι ταξινομίες εξελίσσονταισε λεπτότερου διαχωρισμού γένη και υπογένη, είναι η υποκειμενικότητα και επι-βεβαίωση του ορισμού των γενών. Επιπλέον, τα νέο-αναδυόμενα γένη και τα μου-σικά έργα που ανήκουν σε περισσότερα του ενός γένη, αυξάνουν σημαντικά τηδυσκολία της κατηγοριοποίησης κατά γένος.

3.2.1.1 Σχετικές εργασίες

Η κατηγοριοποίηση κατά γένος είναι μια από τις βασικές περιοχές της ΕΜΠγια την οποία η έρευνα είναι ιδιαίτερα ανθηρή. Παρότι, όπως προαναφέρθηκε, ηκατηγοριοποίηση κατά γένος εστιάζει κυρίως στα ακουστικά δεδομένα, οι αντί-στοιχες μέθοδοι για συμβολικά δεδομένα έχουν να παρουσιάσουν ενδιαφέροντααποτελέσματα.

Στην εργασία [52], οι συγγραφείς εισήγαγαν τα ιστογράμματα τονικού ύψους(ΙΤΥ) ως μέθοδο για την αναπαράσταση του του περιεχόμενου τονικού ύψουςστα μουσικά ακουστικά και συμβολικά σήματα. Αρχεία τύπου MIDI χρησιμοποι-ήθηκαν για την εξαγωγή του τονικού ύψους, η συχνότητα εμφάνισης των οποίωνπροσδιορίζει το ΙΤΥ. Καθώς οι προδιαγραφές των αρχείωνMIDI επιτρέπουν μόνο128 διακριτές νότες, κάθε ΙΤΥ είναι ένας πίνακας 128 τιμών καταλογοποιημένοςκατά το αναγνωριστικό της νότας, που αναπαριστά τη συχνότητα εμφάνισης τηςαντίστοιχης νότας.

Στην ίδια εργασία εξετάζονται δύο εκδόσεις ΙΤΥ ανάλογα με το αν λαμβάνουνκατά νου την πληροφορία οκτάβας των νοτών. Η αιτιολογία για τη χρήση ή όχι

Page 83: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

70 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

της πληροφορίας οκτάβας βασίζεται στο ότι μεν τα εκτεταμένα ΙΤΥ εμπεριέχουντην πλούσια πληροφορία του τονικού ύψους συμπεριλαμβανόμενης της οκτάβαςενώ τα συμπτυγμένα ΙΤΥ είναι ανεξάρτητα οκτάβας και ο μετασχηματισμός σεκύκλο πέμπτων βελτιώνει την έκφραση της τονικής μουσικής.

Ακολούθως, η εκτεταμένη έκδοση συνυπολογίζει την πληροφορία οκτάβαςτου τονικού ύψους μεταξύ δύο νότες Do που απέχουν μια οκτάβα και τις θεωρείως διαφορετικές νότες. Στην συμπτυγμένη έκδοση, όλα τα τονικά ύψη μεταφέ-ρονται σε μια και μόνο οκτάβα, δηλαδή οι δύο νότες Do που προαναφέρθηκανθεωρούνται ως η ίδια νότα και στη συνέχεια μετασχηματίζονται σε ένα κύκλοπέμπτων, ώστε οι γειτνιάζοντες κάδοι του ιστογράμματος να είναι σε απόστασηπέμπτου αντί ημιτόνιου.

Για την ελαχιστοποίηση του χώρου αναζήτησης, τέσσερα μονοδιάστατα χαρα-κτηριστικά εξάγονται από τα το εκτεταμένο και το συμπτυγμένο ΙΤΥ, τα PITCH-Fold, AMPL-Fold, PITCH-Unfold & DIST-Fold. Το πρώτο είναι ο αριθμός κάδουτης μέγιστης κορυφής του συμπτυγμένου ΙΤΥ ενώ το δεύτερο είναι το πλάτος τηςμέγιστης κορυφής του συμπτυγμένου ΙΤΥ. Το PITCH-Unfold είναι η περίοδος τηςτης μέγιστης κορυφής του εκτεταμένου ΙΤΥ και το DIST-Fold είναι το διάστημα(σε πλήθος κάδων) μεταξύ των δύο υψηλότερων κορυφών του συμπτυγμένου ΙΤΥ.

Βασισμένοι στα χαρακτηριστικά αυτά οι συγγραφείς της [52] πέτυχαν 50%ακρίβεια (accuracy) για πέντε γένη.

Στην εργασία [36] παρουσιάζεται ένα σύστημα που εξάγει 109 μουσικά χαρα-κτηριστικά από συμβολικά μουσικά και τα χρησιμοποιεί για την κατηγοριοποίησήτους κατά γένος. Τα χαρακτηριστικά βασίζονται στην ενορχήστρωση, την υφή, τορυθμό, τη δυναμική, στατιστικά γνωρίσματα του τονικού ύψους, τη μελωδία καιτης συγχορδίες. Το ίδιο σύστημα απαιτεί εκπαίδευση για τον προσδιορισμό τουαποδοτικότερου υποσυνόλου χαρακτηριστικών, ένα κόστος που εξισορροπεί τηνγενικότητα της λύσης με την απαιτούμενη προ-επεξεργασία της επιλογής του υπο-συνόλου. Η ακρίβειά του κατά την κατηγοριοποίηση κατά γένος αναφέρεται 90%για υπό-γένη και 98% για γένη.

Τέλος, οι συγγραφείς της [5] παρουσίασαν τη χρήση πέντε χαρακτηριστικάπου βασίζονται στη μελωδία, το ηχόχρωμα, το ρυθμό για την κατηγοριοποίησηκατά γένος συμβολικής μουσικής πληροφορίας. Στην έρευνά τους γίνεται σύ-γκριση διαφορετικών μεθόδων μηχανικής μάθησης (μεταξύ των οποίων τις decision-tree, Bayesian και rule-based ομαδοποιητές).

Τα επαναλαμβανόμενα πρότυπα (ΕΠ), όπως παρουσιάστηκαν στην Ενότητα3.1 έχουν χρησιμοποιηθεί εκτενώς στην ΕΜΠ ενώ μια από τις χρήσεις υπήρξε καιη κατηγοριοποίηση μουσικών δεδομένων κατά γένος. Οι συγγραφείς της εργα-σίας [30] χρησιμοποίησαν ΕΠ για το χαρακτηρισμό μουσικών κατηγοριών. Στηνεργασία εκείνη, για κάθε πρότυπο που ανακαλύπτεται για μια ομάδα μουσικών

Page 84: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 71

δεδομένων, χρησιμοποιείται ένα σύνολο από μετρήσεις ώστε να προσδιοριστεί ηχρησιμότητα του προτύπου για την κατηγοριοποίηση της ομάδας των δεδομένων.Ακολούθως, βάσει των ΕΠ που περιέχει ένα κομμάτι, προσδιορίζουν την κλάσηστην οποία πρέπει να ανήκει.

Η μέθοδος που χρησιμοποιείται στην εργασία [30] μπορεί να θεωρηθεί ως συ-μπληρωματική της μεθόδου που παρουσιάζει η Ενότητα 3.2.1.3. Οι συγγραφείςτης [30] συλλογικά χαρακτηρίζουν ένα μουσικό γένος από τα ΕΠ που είναι κοινάστο γένος. Συνεπώς, κάθε νέο, ακόμα μη κατηγοριοποιημένο κομμάτι κρίνεταιαπό την ομοιότητα των ΕΠ του με τα ΕΠ του γένους. Κατά τη μέθοδο που πα-ρουσιάζεται εδώ, τα ΕΠ προσδιορίζουν τα μουσικά μέρη που περιέχουν ουσιώδηπληροφορία, ενώ τα υπόλοιπα μέρη θεωρούνται επουσιώδη και δεν εξετάζονται.Ακολούθως, τα ΕΠ ενός μουσικού κομματιού συνεισφέρουν στη συλλογή του συ-νόλου χαρακτηριστικών του κομματιού και κάθε νέο, ακόμα μη κατηγοριοποιη-μένο κομμάτι κρίνεται από την ομοιότητα των χαρακτηριστικών χρησιμοποιώνταςτη μέθοδο k-NN.

3.2.1.2 Προσθέτοντας τη διάρκεια

Στην ενότητα αυτή παρουσιάζεται η προσθήκη πληροφορίας της χρονικής διάρ-κειας με τη χρήση ιστογραμμάτων διάρκειας νοτών (ΙΔΝ) για την κατηγοριοποί-ηση μουσικών δεδομένων κατά γένος. Ακολούθως, προτείνονται τρία χαρακτη-ριστικά που βασίζονται στη διάσταση της διάρκειας των νοτών ενός μουσικούκομματιού καθώς και μια διαφοροποιημένη, σε σχέση με την εργασία [52], μέθο-δος για την εξαγωγή χαρακτηριστικών από την πληροφορία τονικού ύψους ενόςκομματιού.

Ένα ΙΔΥ είναι ένας πίνακας 25 ακεραίων τιμών (οι 8 συνήθεις διάρκειες, οιπαρεστιγμένες και δις παρεστιγμένες επαυξήσεις τους και η κομμένη ή breve διάρ-κεια) καταλογοποιημένες βάσει του μεγέθους της διάρκειάς τους, που αναπαρι-στούν τη συχνότητα εμφάνισης κάθε διάρκειας νότας σε ένα μουσικό κομμάτι.Διαισθητικά, τα ΙΔΝ προσφέρουν μια μέθοδο για να αιχμαλωτιστεί η δομή καιτο ρυθμικό μέρος ενός κομματιού, κάτι που είναι επιπλέον εμφανές στα κλασ-σικά μουσικά κομμάτια όπου τα γένη δημιουργήθηκαν εξελίχθηκαν βασισμένασε κανόνες. Παράδειγμα αποτελούν οι φούγκες (fugues) όπου είναι σύνηθες ναυπάρχουν πολλά μέρη όπου οι διάρκειες των νοτών είναι μικρότερες από ότι σταάλλα μέρη με στόχο να μεταδώσουν ένα αίσθημα έντασης καθώς το αρχικό θέματους ήταν η απόδραση. Αντίθετα, οι σονάτες (sonatas) είναι γνωστές για τη δομήτους που είναι συνήθως αργή, ειδικότερα στα δεύτερα μέρη τους.

Όπως έχει ήδη σχολιαστεί, η επιλογή των χαρακτηριστικών είναι ιδιαίτερηςσημασίας για όλες τις δράσεις ανάκτησης πληροφορίας. Στην προκείμενη περί-

Page 85: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

72 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

πτωση η επιλογή των χαρακτηριστικών είναι επιπλέον σημαντική καθώς η από-δοση του κατηγοριοποιητή εξαρτάται κυρίως από τη διακριτική ικανότητα τωνχαρακτηριστικών να αποβάλουν στατιστικές ιδιότητες των ιστογραμμάτων ενώθα διατηρούν πληροφορία που περιγράφει τις διαφορές των γενών και κατά συνέ-πεια υποστηρίζουν τη δράση κατηγοριοποίησης. Ακολούθως, στην ενότητα αυτήγίνεται χρήση 3 μονοδιάστατων χαρακτηριστικών από τα ΙΔΝ, η διάρκεια που έχειτη μεγαλύτερη συχνότητα εμφάνισης, το πλήθος των εμφανίσεων της διάρκειαςμε τη μεγαλύτερη συχνότητα εμφάνισης αλλά και την απόσταση μεταξύ των δύουψηλότερων κορυφών συχνότητας εμφάνισης διάρκειας σε απεικόνιση σχετικήςχρονικής διάρκειας.

Η επιλογή των προτεινόμενων χαρακτηριστικών βασίζεται στα ιδιαίτερα χα-ρακτηριστικά που απαιτείται να διατηρούν, όπως η διάρκεια της πρώτης και δεύ-τερης νότας που εμφανίζεται συχνότερα (έμμεσα μέσω της απόστασής τους) αλλάκαι το πλήθος των εμφανίσεων της συχνότερης διάρκειας. Επιπλέον, χαρακτηρι-στικά παρόμοιας μορφής αλλά σε διαφορετική πληροφορίας της μουσικής χρησι-μοποιήθηκαν επιτυχώς στη βιβλιογραφία για την κατηγοριοποίηση συμβολικώνμουσικών δεδομένων κατά γένος.

Τα προτεινόμενα χαρακτηριστικά είναι τα εξής:

Συμπτυγμένο τονικό ύψος Στα χαρακτηριστικά συμπτυγμένου τονικού ύψους, ηπληροφορία της οκτάβας δεν λαμβάνεται κατά νου. Ακολούθως, τα τέσσεραμονοδιάστατα χαρακτηριστικά της εργασίας [52] εξάγονται από τα εκτετα-μένα ΙΤΥ. Αυτό γίνεται για να προσδιοριστεί η συνέπεια της πληροφορίαςτης οκτάβας στα κλασσικά μουσικά έργα αλλά και για λόγους σύγκρισης.

Διάρκεια Στα χαρακτηριστικά διάρκειας, όλα τα χαρακτηριστικά όπως προανα-φέρθηκαν στην ίδια Ενότητα εξάγονται μόνο από ΙΔΝ ώστε να παρουσια-στεί η διακριτική ικανότητα της πληροφορίας της διάρκειας των νοτών,όπως παράγονται από τα ΙΔΝ.

Τονικό ύψος & διάρκεια Το χαρακτηριστικό αυτό παράγεται από το συνδυασμότων χαρακτηριστικών του τονικού ύψους και της διάρκειας. Ακολούθως,κάθε μουσικό κομμάτι αναπαρίσταται από 7 χαρακτηριστικά, 4 από το ΙΤΥκαι 3 από το ΙΔΝ. Καθώς τα χαρακτηριστικά τονικού ύψους μπορούν ναείναι σε έκδοση εκτεταμένη ή συμπτυγμένη, όμοια και το συνδυαστικό χα-ρακτηριστικό αυτό μπορεί να εξαχθεί για τις ίδιες εκδόσεις.

Σταθμισμένο τονικό ύψος & διάρκεια Το τελευταίο χαρακτηριστικό που προ-τείνεται είναι μια μεταλλαγμένη έκδοση του συνδυασμού τονικού ύψουςκαι διάρκειας. Η μετάλλαξη συνίσταται στη χρήση στάθμισης ώστε ένα από

Page 86: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 73

τα δύο χαρακτηριστικά να συμμετέχει με μεγαλύτερο βάρος ώστε και ναεπηρεάζει την κατηγοριοποίηση γένους και αντίστοιχα να μπορεί να προσ-διοριστεί η συμμετοχή των χαρακτηριστικών στην απόδοση του κατηγοριο-ποιητή.

Ακολούθως, έγινε πειραματική αξιολόγηση στα χαρακτηριστικά τονικού ύψους,διάρκειας και συνδυασμού τους, τόσο για εκτεταμένα όσο και συμπτυγμένα ΙΤΥ.Μετά την εξαγωγή των χαρακτηριστικών, η διακριτική ικανότητά τους αξιολογή-θηκε με τη χρήση του αλγόριθμου k-NN και χρήση της μεθόδου “leave one out”.Κατά τη μέθοδο αυτή ένα μουσικό κομμάτι της βάσης δεδομένων προς εξέτασηθεωρείται ως μη γνωστού γένους και τα υπόλοιπα ως δεδομένα εκπαίδευσης. Απότα γένη των k κοντινότερων γειτόνων του άγνωστου κομματιού το γένος με τις πε-ρισσότερες εμφανίσεις θεωρείται πως είναι το γένος του άγνωστου κομματιού. Ηδιαδικασία επαναλαμβάνεται για όλα τα κομμάτια της βάσης δεδομένων προς εξέ-τασης οδηγώντας στην ακρίβεια των χαρακτηριστικών. Η επιτευχθείσα ακρίβειαπαρουσιάζεται στα Σχήματα 3.5a και 3.5b.

0.45

0.5

0.55

0.6

0.65

0.7

3 4 5 6 7 8 9 10 11 12 13 14 15

Κοντινότεροι γείτονες

ρίβ

εια

Τονικό ύψος

Διάρκεια

Συνδυασμός

(a)

0.45

0.5

0.55

0.6

0.65

0.7

3 4 5 6 7 8 9 10 11 12 13 14 15

Κοντινότεροι γείτονες

Ακρίβεια

Τονικό ύψος

Διάρκεια

Συνδυασμός

(b)

Σχήμα 3.5: Ακρίβεια για όλες τις μεθόδους σε (a) συμπτυγμένα και (b) εκτεταμένα ΙΨΥ

Παρότι το τονικό ύψος και η διάρκεια παρουσιάζουν παρουσιάζουν παρόμοιεςαποδόσεις, η διάρκεια εμφανίζεται να έχει μικρή βελτίωση στην απόδοση, ενώο συνδυασμός τους ξεπερνά τη μεμονωμένη χρήση των δύο χαρακτηριστικών.Επιπλέον, η διαφορά των συμπτυγμένων και εκτεταμένων ΙΨΥ παρουσιάζεται ναείναι ελάχιστη.

Το δεύτερο πείραμα κάνει χρήση του σταθμισμένου τονικού ύψους & διάρ-κειας. Τα Σχήματα 3.6a και Figure 3.6b, παρουσιάζουν τέσσερις από τις χαρα-κτηριστικότερες επιλογές στάθμισης για συμπτυγμένα και εκτεταμένα ΙΨΥ. Οιετικέτες παρουσιάζουν το ποσοστό διάρκειας - τονικού ύψους που συμμετείχε.

Page 87: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

74 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

0,4

0,45

0,5

0,55

0,6

0,65

0,7

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Κοντινότεροι γείτονες

Ακ

ρίβ

εια

0-100 50-50 60-40 20-80

(a)

0,45

0,5

0,55

0,6

0,65

0,7

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

Κοντινότεροι γείτονες

Ακ

ρίβ

εια

0-100 50-50 60-40 20-80

(b)

Σχήμα 3.6: Ακρίβεια σταθμισμένου τονικού ύψους & διάρκειας (σε (a) συμπτυγμένα και(b) εκτεταμένα ΙΨΥ

3.2.1.3 Προσθέτοντας τα επαναλαμβανόμενα πρότυπα

Στην τρέχουσα Ενότητα παρουσιάζεται η χρήση χαρακτηριστικών που εξάγο-νται από στατιστική πληροφορία τονικού ύψους όπως προκύπτει από Επαναλαμ-βανόμενα Πρότυπα με στόχο την κατηγοριοποίηση συμβολικών μουσικών δεδο-μένων κατά γένος.

Εξαγωγή στατιστικών χαρακτηριστικώνΗ εξαγωγή των στατιστικών χαρακτηριστικών από τα ΕΠσυμβολικών δεδομέ-

νων προ-απαιτεί τον προσδιορισμό των μη τετριμμένων ΕΠ στο μουσικό κομμάτι.Εδώ, τα ΕΠ προσδιορίζονται με τη μέθοδο της εργασίας [14], δηλαδή με τη χρήσηεπαναλαμβανόμενων δράσεων ένωσης αλφαριθμητικών (string-join operations).

Έχοντας προσδιορίσει το σύνολο των ΕΠ για κάθε τραγούδι της βάσης δε-δομένων προς εξέταση, υπολογίζεται ο πίνακας συν-εμφάνισης “co-occurrencematrix” C(i, j) των διακριτών τονικών υψών που εμφανίζονται στα ΕΠ. Ένα κελίτου C(i, j) αντιπροσωπεύει το συνολικό πλήθος εμφανίσεων των i και j, στο ίδιοπλαίσιο w σε όλα τα ΕΠ ενός τραγουδιού (δηλαδή, κάθε τραγούδι έχει ένα πίνακασυν-εμφάνισης που απαρτίζεται από τα ζεύγη όλων των ΕΠ του). Στη συνέχεια,τα στοιχεία του πίνακα συν-εμφάνισης C(i, j) κανονικοποιούνται ώστε να προσ-διορισθεί η αληθής συνεισφορά τους σε κάθε τιμή C(i, j), καθώς οι πίνακες συν-εμφάνισης είναι συνήθως ιδιαίτερα αραιοί. Η δραστηριότητα κανονικοποίησηςγίνεται ανάλογα με το πλήθος των ζευγαριών ΕΠ n που συμμετείχε στη δημιουρ-γία του. Για τον έλεγχο της κανονικοποίησης χρησιμοποιείται η παράμετροςM ωςεκθέτης του n (nM ). Η χρήση της κανονικοποίησης για τον υπολογισμό σχετικώντιμών του πίνακα συν-εμφάνισης είναι απαραίτητη καθώς τα μεγαλύτερα κομμά-τια τείνουν να έχουν περισσότερα ΕΠ, τα οποία συνεισφέρουν περισσότερο στονπίνακα.

Ακολούθως, τα τέσσερα προτεινόμενα χαρακτηριστικά είναι η εντροπία, η

Page 88: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 75

ενέργεια, η αντίθεση και η ομοιογένεια που υπολογίζονται από τον πίνακας συν-εμφάνισης C(i, j) κάθε τραγουδιού, με τους ακόλουθους μαθηματικούς τύπους:

= −∑i

∑j

C(i, j)logC(i, j) (3.1)

=∑i

∑j

C2(i, j) (3.2)

=∑i

∑j

(i− j)2C(i, j) (3.3)

=∑i

∑j

C(i, j)

1 + |i− j|(3.4)

Εδώ πρέπει να γίνει μνεία στο ότι πολλά εναλλακτικά χαρακτηριστικά πουήδη υπάρχουν στη σχετική βιβλιογραφία θα μπορούσαν να εξαχθούν από τον πί-νακα συν-εμφάνισης (λ.χ. μέσο άθροισμα, διακύμανση, μέγιστη πιθανότητα, συ-σχέτιση, ανάστροφο σημείο διαφοράς, τάση ομαδοποίησης, κλπ) ωστόσο τα προ-τεινόμενα βρέθηκαν να είναι το βέλτιστο σε απόδοση υποσύνολο.

Το Σχήμα 3.7 παρουσιάζει μια σχηματική αναπαράσταση της συνολικής δια-δικασίας εξαγωγής των στατιστικών χαρακτηριστικών για κάθε τραγούδι.

Συμβολικά

μουσικά

αρχεία

Σύνολο

ΕΠ C(i,j)

Εντροπία

Ενέργεια

Αντίθεση

Ομοιογένεια

ΒΔ

κομματιών

Σχήμα 3.7: Η μέθοδος εξαγωγής στατιστικών χαρακτηριστικών.

Χαρακτηριστικά διάρκειαςΕπιπλέον, γίνεται χρήση των χαρακτηριστικών διάρκειας όπως αυτά περιγρά-

φηκαν στην Ενότητα 3.2.1.2.Υβριδική στάθμισηΤα δύο σύνολα χαρακτηριστικών που περιγράφτηκαν στις δύο προηγούμενες

Ενότητες μπορούν να συνδυαστούν ώστε να δημιουργηθεί ένα σύνολο από χα-ρακτηριστικά που θα αναπαριστούν κάθε τραγούδι ώστε η συνάρτηση μέτρησηςομοιότητας να σχεδιαστεί και λειτουργήσει για αυτό.

Αρχικά, εξετάστηκε η χρήση και των επτά (τέσσερα από τα ΕΠ και τρία απότα ΙΔΝ), αναπαριστώντας λοιπόν κάθε τραγούδι με επτά μονοδιάσταστα χαρα-κτηριστικά. Παρά τα ααποτελέσματα υψηλής απόδοσης που επιτεύχθηκαν απότην αναπαράσταση αυτή (όπως παρουσιάζεται στο Σχήμα 3.8b), η συνεισφοράκάθε τύπου χαρακτηριστικών υπήρξε ιδιαίτερα δύσκολο να αποσαφηνιστεί.

Page 89: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

76 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

Ακολούθως, χρησιμοποιήθηκε μια μέθοδος στάθμισης που επέτρεψε τα απο-τελέσματα κατηγοριοποίησης κατά γένος να είναι περισσότερο ή λιγότερο επηρε-ασμένα από τα δύο υποσύνολα χαρακτηριστικών. Η τεχνική αυτή επιτρέπει τηνανάθεση βαρών σε κάθε υποσύνολο ώστε να αυξήσει τη συμμετοχή του στη δια-δικασία κατηγοριοποίησης. Όπως παρουσιάζεται στη συνέχεια (Ενότητα 3.2.1.3) η διαίσθηση της αναγκαιότητας για διερεύνηση της επίπτωσης των υποσυνόλωνχαρακτηριστικών στην τελική απόδοση της κατηγοριοποίησης κατά γένος ήτανορθή και απαιτούσε διερεύνηση.

ΑπόδοσηΤο πρώτο (Σχήμα 3.8a) παρουσιάζει τη συνέπεια απουσίας της πληροφορίας

των ΕΠ αλλά και την τις δευτέρου επιπέδου εξαρτήσεις στον υπολογισμό των χα-ρακτηριστικών (το πλαίσιο w είναι ίσο με τη μονάδα), όσο αφορά την ακρίβεια.Με άλλα λόγια, από τα συμβολικά δεδομένα δεν εξάγονται τα ΕΠ, ενώ η χρήσηκυλιόμενου πλαισίου γίνεται στην πληροφορία του τονικού ύψους. Επιπλέον, εξά-γονται τα ΕΠ αλλά δεν συμπεριλαμβάνονται οι δευτέρου επιπέδου εξαρτήσεις τωντονικών υψών στα ΕΠ. Τα βήματα αυτά γίνονται ώστε να προσδιορισμό της συμ-μετοχής της της εξάρτησης της πληροφορίας τονικού ύψους στα ΕΠ και να επιβε-βαιώσει την επιλογή των ΕΠ ως ουσιώδη τμήματα του μουσικού κομματιού. ΤοΣχήμα 3.8a παρουσιάζει 21% αύξηση στην απόδοση εξαιτίας της χρήσης των ΕΠκαι των δευτέρου επιπέδου εξαρτήσεων.

3.2.2 Κατά διάθεσηΚατά τη δεκαετία 2005-2015, το παράδειγμα της διάθεσης μουσικής πληρο-

φορίας μετακινήθηκε από την φυσική διάθεση στην εικονική υπό την αιγίδα τηςψηφιακά κωδικοποιημένης, υψηλής ποιότητας και φορητότητας μουσικής πληρο-φορίας [25]. Ακολούθως, οι ανά τον κόσμο λάτρεις της μουσικής άρχισαν να συσ-σωρεύουν μουσικό περιεχόμενο μεγάλης διάστασης το οποίο απαιτεί αποδοτικήδιαχείριση ώστε να επιτρέπει «φυσική και διαφοροποιημένη πρόσβαση» [16].

Η μουσική, όντας καλλιτεχνική έκφραση, είναι ένα πολυδιάστατο φαινόμενο.Το γεγονός αυτό είναι ιδιαίτερης σημασίας για την ΕΜΠ και ακολούθως, τα συ-ναισθήματα που προκαλεί η μουσική αλλά και η κατηγοριοποίησή της κατά διά-θεση αποτελούν σημαντικούς παράγοντες. Αυτό μπορεί να αποδοθεί εν μέρει στηνογκώδη πληροφορία συναφούς πλαισίου που κρύβεται μέσα στις συναισθηματικέςεκφράσεις που περιγράφουν τη διάθεση, καθώς τέτοιου είδους πληροφορίες έχειυποστηριχθεί ότι είναι το βασικό στοιχείο σε οποιαδήποτε ανθρώπινη διαδικασίασχετικά με τη μουσική [9].

Παρά τον πολύ υποκειμενικό χαρακτήρα της αντίληψης της διάθεσης που δη-μιουργείται σε έναν ακροατή με ένα μουσικό κομμάτι [48], η οργάνωση που πα-

Page 90: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 77

0.65

0.7

0.75

0.8

0.85

0.9

0.95

3 4 5 6 7 8 9 10 11 12 13 14 15

Κοντινότεροι γείτονες

Ακ

ρίβ

εια

με ΕΠ χωρίς ΕΠ χωρίς 2ου επιπέδου

Σχήμα 3.8: Ακρίβεια της μεθόδου με τα ΕΠ και σύγκριση με τις περιπτώσεις που δενπεριείχε πληροφορία ΕΠ ή δευτέρου επιπέδου εξαρτήσεις τονικού ύψους

ράγεται από την ανάθεση ετικετών διάθεσης σε ένα κομμάτι μπορεί να είναι ση-μαντικής σημασίας για μια πληθώρα ΕΜΠ εργασίες όπως οι αυτόματες ετικέτες,δημιουργία σύστασης και playlist, μεταξύ άλλων. Ειδικότερα, το έργο της αυτο-ματοποιημένης δημιουργίας playlist, τόσο στις διαδικτυακές όσο και αυτόνομεςεφαρμογές, έλαβε πρόσφατα αυξανόμενη προσοχή από τους χρήστες, προγραμ-ματιστές και ερευνητές, καθώς οι ακροατές έχουν την τάση να ακούν μια σειράσχετικών μουσικών κομματιών αντί για ένα και μοναδικό τραγούδι [35]. Η κατη-γοριοποίηση κατά διάθεση μπορεί όχι μόνο να ελαφρύνει το βάρος της δημιουρ-γίας τέτοιων playlist με βάση τη συναισθηματική έκφραση των δεδομένων εισό-δου, αλλά μπορεί επίσης να βοηθήσει τους χρήστες να εντοπίζουν τα μουσικάκομμάτια της συλλογής τους, που δεν αποτελούν μέρος των συνήθως επιλέξιμωντραγουδιών και έτσι, κατά μία έννοια, ξεχασμένων [54].

Αναγνώριση διάθεσης αντιμετωπίζεται στη βιβλιογραφία ως πρόβλημα κατη-γοριοποίησης ή παλινδρόμησης, όπου σε ένα ολόκληρο τραγούδι ή μέρος ενόςτραγουδιού ανατίθεται ετικέτα με τιμή διάθεσης. Η ετικέτα μπορεί να είναι δυα-δική (που δηλώνει την παρουσία ή απουσία ενός συναισθήματος), κατηγορημα-τική (που δηλώνει το είδος του συναισθήματος που ανήκει το τραγούδι), αριθμη-τική (μια εκτίμηση πιθανότητας ή μια τιμή κλίμακα τύπου Likert που έχει εκχωρη-θεί σε κάθε τραγούδι), μονοδιάστατη (υπάρχει μία μόνο κατηγορία συναισθήμα-

Page 91: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

78 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

τος), πολυδιάστατη (το συναίσθημα θεωρείται ως μια πολυδιάστατη οντότητα πουορίζεται από διανύσματα όπως το σθένους, διέγερση και ένταση) ή μια χρονοσειράτων διανυσμάτων (όπου η συναισθηματική αξία ενός τραγουδιού παρακολουθεί-ται καθ ’όλη τη διάρκειά του) [22].

Τα χαρακτηριστικά που έχει δείξει η έρευνα πως επηρεάζουν τη διάθεση πουδημιουργεί ένα τραγούδι ποικίλουν από το ακουστικό περιεχόμενο του κομμα-τιού, μέχρι τα γλωσσολογικά γνωρίσματά του (τα χαρακτηριστικά στίχων αντι-προσωπεύουν κυρίως την κατανομή των λέξεων στο τραγούδι), τα μορφολογικά(αντιπροσωπεύουν την κατανομή της στίξης, επιφωνημάτων και του μεγέθους τωνλέξεων & στροφών του κομματιού) αλλά και αυτά που βασίζονται στην ανάθεσηετικετών από τους χρήστες. Πλήθος ακουστικών χαρακτηριστικών έχουν αποτελέ-σει αντικείμενο πειραματισμού συμπεριλαμβανομένων χαρακτηριστικών για ηχό-χρωμα, ρυθμό, ένταση, τέμπο και τονικό ύψος. Σχετικά με τα χαρακτηριστικά τωνστίχων, η τρέχουσα έρευνα τα αντιμετώπισε την εξαγωγή τους με μεθόδους μο-ντέλου bag-of-words, μοντέλων διαφοράς γλώσσας αλλά και λανθάνοντα σημα-σιολογικά μοντέλα.

3.2.2.1 Σχετική έρευνα

Η έρευνα για τον προσδιορισμό της αίσθησης διάθεσης που προκαλεί ένατραγούδι αλλά και της κατηγοριοποίησης κατά τη διάθεση αυτή έχει λάβει ιδιαί-τερο ενδιαφέρον, ενώ από το 2007 και μετά ο διαγωνισμός αξιολόγησης MIREX[39, 15] επιπλέον φιλοξενεί τη δράση «Κατηγοριοποίηση ακουστικής μουσικήςκατά διάθεση» (“Audio Music Mood Classification”). Ακολούθως, η τρέχουσαΕνότητα παρουσιάζει μερικές από τις βασικές μεθόδους για την κατηγοριοποίησημουσικής πληροφορίας κατά διάθεση.

Ταξινομίες διάθεσηςΓια να είναι σε θέση να γίνει κατηγοριοποίηση τραγουδιών κατά τη διάθεση,

συγκίνηση τους, ή αλλιώς, χρειάζεται αρχικά να προσδιοριστεί η διάθεση. ΟHevner[12] είχε αρχικά προτείνει ομάδες διάθεσης βάσει επιθέτων ενώ διάφορα άλλαμοντέλα της διάθεσης βάσει ομάδων επιθέτων έχουν προταθεί έκτοτε [59, 15].Το δημοφιλέστερο μοντέλο διάθεσης, που χρησιμοποιείται εκτενώς [54, 37] στηναυτόματη κατηγοριοποίηση τραγουδιών κατά διάθεση, και αποτελεί τη βάση τηςπαρούσας Ενότητας, είναι το μοντέλο του Thayer [51]. Στο μοντέλο αυτό, η διά-θεση προσδιορίζεται σε δύο άξονες, το σθένος και την εγρήγορση, χωρίζοντας έτσιτο χώρο διάθεσης σε τέσσερα μέρη έχοντας θετική/υψηλή και αρνητική/χαμηλήτιμή αντίστοιχα. Στο πλαίσιο αυτό, το σθένος και η εγρήγορση συνδέονται με τηνενέργεια και την ένταση, αντίστοιχα. Υψηλού σθένους (γεμάτη ενέργεια) διάθεσηδηλώνει κατάσταση που περιγράφονται από επίθετα όπως«ενθουσιασμένος», «ξε-

Page 92: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 79

τρελαμένος», κλπ, ενώ χαμηλού σθένους (κενή ενέργειας) διάθεση αντιστοιχεί σεκαταστάσεις όπως «υπνηλίας». Η θετική εγρήγορση δείχνει συναισθήματα όπως«ικανοποιημένος» και «χαρούμενος», ενώ παραδείγματα συναισθημάτων χαμη-λού σθένους είναι τα «νευρικός» και «λυπημένος». Για πιο λεπτομερή αναπα-ράσταση των συναισθημάτων, ο διαχωρισμός κάθε άξονα σε τέσσερα διακριτάμέρη προτάθηκε, δηλ. η διέγερση και το σθένος κατηγοριοποιούνται σε τέσσεριςκλάσεις [54], η οποία είναι και η αντιμετώπιση που υιοθετείται στην τρέχουσαΕνότητα.

Κατηγοριοποίηση κατά διάθεση με χρήση των στίχωνΤα γλωσσολογικά χαρακτηριστικά που εξάγονται από το κείμενο των στίχων,

για εφαρμογές όπως η κατηγοριοποίηση κατά διάθεση, συνήθως περιλαμβάνουνσυλλογές τύπου bag-of-words [17, 29, 44], δηλ. το κείμενο αντιμετωπίζεται λεςκαι είναι μια συλλογή από μη-ταξινομημένες λέξεις που συνοδεύονται από τη συ-χνότητα εμφάνισής τους (term frequency - tf). Στοχεύοντας σε ένα μέτρο που ναείναι περισσότερο καταδεικτικό της διακριτικής ικανότητας του τύπου μεταξύ διά-φορων κειμένου, το tfidf υπολογίζει όχι μόνο τη συχνότητα ενός όρου/λέξης σεένα τραγούδι αλλά και τη συνολική του συχνότητα στους στίχους όλων των τρα-γουδιών της συλλογής. Οι συγγραφείς της [54] αντιμετώπισαν τους στίχους πουανήκαν σε ένα είδος διάθεσης ως ένα κείμενο και υπολόγισαν το tfidf των λέξεωναπό 10,000 τυχαία επιλεγμένα τραγούδια και στη συνέχεια εφάρμοσαν τη μέθοδοκοντινότερου γείτονα για την κατηγοριοποίηση των τραγουδιών σε 4 ή 16 κλάσειςδιάθεσης.

Το μεγάλο μέγεθος του πιθανού λεξιλογίου, σε συνδυασμό με την αραιότητατων δεδομένων του μοντέλου bag-of-words κάνει τη διαδικασία διαχωρισμού με-ταξύ των λέξεων ιδιαίτερα δύσκολη. Επιπλέον, οι στίχοι στο μοντέλο bag-of-words οδηγούν σε μέτρια απόδοση [29], εκτός της περίπτωσης που άπλετη πο-σότητα δεδομένων είναι διαθέσιμη [54]. Για να αντιμετωπιστεί η δυσκολία αυτή,διάφορες προτάσεις έχουν γίνει που πειραματίζονται είτε με τη μείωση των δια-στάσεων ή τη μοντελοποίηση της γλώσσας.

Όσο αφορά τη μείωση των διαστάσεων, οι Yang και Lee [56] χρησιμοποίησαντο εργαλείο Harvard General Inquirer ώστε να μετασχηματίσουν τις λέξεις σε έναπεριορισμένου εύρους σύνολο ψυχολογικών χαρακτηριστικών και στη συνέχειαεφάρμοσαν μια μέθοδο με δενδρική μάθηση στον παραγόμενο πίνακα συχνότη-τας. Άλλες, λιγότερο απαιτητικές για γνώση, μέθοδοι πέτυχαν μείωση διαστάσεωνεφαρμόζοντας λανθάνουσα σημασιολογική ανάλυση (Latent Semantic Analysis -LSA) στο κείμενο των στίχων. Οι συγγραφείς της εργασίας [29] εφάρμοσαν επί-σης LSA στους στίχους των τραγουδιών της διαδικτυακής πηγής last.fm και στησυνέχεια εκτέλεσαν δυαδική κατηγοριοποίηση σε 4 κλάσεις διάθεσης και στις αρ-νητικές ομόλογές τους (λ.χ. e.g. «θυμωμένος» - «μη θυμωμένος»).

Page 93: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

80 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

Η μοντελοποίηση γλώσσας αναφέρεται στον προσδιορισμό στατιστικών ιδιο-τήτων του κειμένου κάθε κλάσης διάθεσης. Οι συγγραφείς της εργασίας [29] εξό-ρυξαν τους 100 συχνότερους όρους κάθε κλάσης διάθεσης και τους 100 συχνότε-ρους όρους της αρνητικής ομόλογης κλάσης σε μια προσπάθεια να προσδιορίσουντην διακριτική ικανότητα των όρων μεταξύ δύο κλάσεων. Οι όροι με τη μεγαλύ-τερη διακριτική ικανότητα αποτέλεσαν τα χαρακτηριστικά στίχων στα πειράματάτους. Τα αποτελέσματα ήταν σημαντικά καλύτερα από ότι στην περίπτωση χρήσηςτου μοντέλου bag-of-words.

Κατηγοριοποίηση κατά διάθεση με χρήση μορφολογίαςΣτην εργασία [2] παρουσιάζεται η αυξημένη συνεισφορά των μορφολογικών

χαρακτήρων στη μορφολογική ανάλυση. Οι μορφολογικοί χαρακτήρες περιλαμ-βάνουν επιφωνήματα, σημεία στίξης (λ.χ. το θαυμαστικό), και στατιστικά στοι-χεία κειμένου (όπως η λεξιλογική ποικιλία, ο ρυθμός επανάληψης, το μήκος λέξηςκαι πρότασης, κλπ.). Στον τομέα της μουσικής, τα μορφολογικά χαρακτηριστικάέχουν χρησιμοποιηθεί στην κατηγοριοποίηση κατά γένος[44], ενώ ένα προτεινό-μενο σύνολο μορφολογικών χαρακτηριστικών παρουσιάζεται στην εργασία [16].

Κατηγοριοποίηση κατά διάθεση με χρήση ακουστικής πληροφορίας &στίχων

Οι μέθοδοι που χρησιμοποιούν τόσο στην ακουστική πληροφορία όσο και στοπεριεχόμενο των στίχων για τον προσδιορισμό του αισθήματος διάθεσης, βασίζο-νται στην υπόθεση πως η συμπληρωματικότητα των δύο πληροφοριών αυτών πη-γάζει από την συνήθη προσπάθεια των τραγουδοποιών για αλληλένδετους ήχουςμε στίχους σε ένα τραγούδι [29, 16, 37, 55, 57]. Πληθώρα μεθόδων έχουν προτα-θεί για το συνδυασμό των δύο τύπων πληροφορίας, όπως: η δημιουργία διαφορε-τικών προβλέψεων διάθεσης για κάθε τύπο και ο συνδυασμός τους στη συνέχειμέσω στάθμισης [29] ή γραμμικού συνδυασμού [57], η εκπαίδευση διαφορετικώνμοντέλων από κάθε τύπο πληροφορίας για κάθε κατηγορία διάθεσης (λ.χ. χρήσηστίχων για το σθένος και ακουστικής πληροφορίας για τη διέγερση) και στη συνέ-χεια η ενοποίηση των αποτελεσμάτων [57], η συνάθροιση όλων των χαρακτηρι-στικών στον ίδιο χώρο χαρακτηριστικών και η χρήση επαυξημένων διανυσμάτωνχαρακτηριστικών[29]. Οι συγγραφείς της [29] συμπεραίνουν πως ο συνδυασμόςτης ακουστικής και στίχων πληροφορίας προσφέρει βελτίωση στη συνολική από-δοση της δράσης κατηγοριοποίησης για τις κατηγορίες που του μοντέλου Russell[46] που εξέτασαν.

Οι Yang και Lee [55], σε μια από τις πρώτες εργασίες του χώρου, πρότειναντο συνδυασμό της πληροφορίας των στίχων με μια πληθώρα ακουστικών χαρα-κτηριστικών ώστε να επιτευχθεί μεγιστοποίηση της ακρίβειας της κατηγοριοποί-ησης και ελαχιστοποίηση του μέσου σφάλματος. Ωστόσο, το ιδιαίτερα μικρό μέγε-θος δεδομένων πειραματισμού (145 τραγούδια με στίχους) κρίθηκε πως δεν είναι

Page 94: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 81

επαρκές για να μπορεί να καταλήξει η εργασία σε συμπεράσματα. Οι συγγραφείςτης [37] εξερεύνησαν παράγοντες τόσο στην ακουστική όσο και στην πληροφορίαστίχων που ταυτόχρονα επηρεάζουν τη διάθεση που προκαλεί ένα τραγούδι.

Στο πλαίσιο μείωσης διαστάσεων, οι συγγραφείς της εργασίας [57] εξήγαγανπλήθος από χαμηλού επιπέδου ακουστικά χαρακτηριστικά από 30-δευτερόλεπτατραγουδιών αλλά και χαρακτηριστικά στίχων, δημιούργησαν μοντέλα bag-of-wordsμε μια ή δύο λέξεις, καθώς επίσης εφάρμοσαν και τυχαιοκρατική μέθοδο LSA.Ακολούθως, κατηγοριοποίησαν τα τραγούδια σε τέσσερις κλάσεις ακολουθώνταςτο μοντέλο Russell [46] για να καταλήξουν στο ότι η χρήση των χαρακτηριστι-κών κείμενο προσφέρει ιδιαίτερα αυξημένη ακρίβεια στις μεθόδους που πειραμα-τίστηκαν. Σύμφωνα με το προαναφερθέν μοντέλο, το συναίσθημα αναπαρίστα-ται σε ένα διδιάστατο χώρο, όπου η μια διάσταση είναι η μεταφορά της θετι-κής/αρνητικής πόλωσης (ευχαρίστηση/δυσαρέσκεια) ενώ η δεύτερη είναι η πα-ρουσία/απουσία ενέργειας (διέγερση/υπνηλία). Όλα τα συναισθήματα μπορούννα αναπαρασταθούν στο διδιάστατο χώρο αυτό ως συνδυασμοί τιμών των προ-αναφερθέντων διαστάσεων. Χρησιμοποιώντας παρόμοια μεθοδολογία, αλλά μεδιαφορετικό πλαίσιο εφαρμογής, οι συγγραφείς της εργασίας [33] συνδύασαν τηντυχαιοκρατική μέθοδο LSA σε πληροφορία στίχων και ακουστική για την ανεύ-ρεση ομοιότητας μεταξύ καλλιτεχνών.

Εκτός των στίχων ενός τραγουδιού, υπάρχουν κι άλλες πηγές γλωσσικής πλη-ροφορίας που έχουν χρησιμοποιηθεί στην ΕΜΠ, όπως οι ετικέτες από εικονικέςκοινωνικές δράσεις [40]. Οι Hu και Downie [16], παρουσίασαν μια διαφοροποι-ημένη προσέγγιση όσο αφορά την ανάθεση ετικετών διάθεσης, εξερευνώντας τιςκοινωνικές ετικέτες που ανατέθηκαν σε τραγούδια, καταλήγοντας στον ορισμό18 κλάσεων διάθεσης. Ακλολούθως, τα δεδομένα τους είναι σημαντικά ογκοδέ-στερα από ότι τις προηγούμενες εργασίες (5296 τραγούδια). Τέλος, ο Lamere [26]παρουσίασε μια αναλυτική περιγραφή της χρήσης των κοινωνικών ετικετών στιςδράσεις της ΕΜΠ.

3.2.2.2 Εξαγωγή χαρακτηριστικών

Οι μέθοδοι ΕΜΠ που βασίζονται στο περιεχόμενο υποθέτουν πως τα δεδομένααναπαριστούνται από χαρακτηριστικά που εξάγονται από τα μουσικά δεδομένα.Καθώς οι δράσεις της ΕΜΠ βασίζονται σημαντικά στην ποιότητα των αναπαρα-στάσεων, η απόδοση της αυτόματης κατηγοριοποίησης εξαρτάται ιδιαίτερα απότην την ποιότητα των χαρακτηριστικών. Στην τρέχουσα Ενότητα, η έννοια τουπεριεχομένου επεκτείνεται από την ακουστική πληροφορία και στην πληροφορίατων στίχων.

Ακουστικά χαρακτηριστικά

Page 95: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

82 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

Στην Ενότητα αυτή δύο σύνολα ακουστικών χαρακτηριστικών χρησιμοποιού-νται. Το πρώτο, audio1, δημιουργήθηκε με χρήση της εφαρμογής jAudio [34] πουεξάγει ένα σύνολο από γενικευμένα για τους στόχους της ΕΜΠ χαρακτηριστικά.Το audio1 αποτελείται από τα εξής χαρακτηριστικά: Spectral Centroid, SpectralRolloff Point, Spectral Flux, Compactness, Spectral Variability, RootMean Square,Fraction of Low Energy Windows, Zero Crossings, Strongest Beat, Beat Sum,Strength of Strongest Beat, 13 συντελεστές MFCC, 9 συντελεστές LPC και 5 συ-ντελεστές Method of Moments.

Το δεύτερο σύνολο, audio2, δημιουργήθηκε με την εφαρμογή MIRtoolbox[28] και τη συνάρτησή του “mirfeatures”. Η συνάρτηση αυτή υπολογίζει ένα με-γάλο πλήθος από υψηλού επιπέδου χαρακτηριστικά που είναι οργανωμένα βάσειτων αξόνων της μουσικής σε δυναμική, ρυθμό, ηχόχρωμα και τονικότητα. Λεπτο-μερέστερα, τα χαρακτηριστικά περιλαμβάνουν τις μέσες τιμές του RMS ανά πλαί-σιο, την περίληψη διακύμανσης με την υψηλότερη κορυφή και το κέντρο βάρουςτης, μια προσέγγιση του tempo βάσει πλαισίων, οι χρόνοι ήχησης κάθε νότας καιτην καμπύλη του φακέλου που χρησιμοποιείται για τον υπολογισμό του χρόνουήχησης, και πλήθος φασματικών χαρακτηριστικών (λ.χ. κέντρο βάρους, κύρτωση,εντροπία, ρυθμός μηδενισμού, ροή κλπ).

Χαρακτηριστικά στίχωνΤο κείμενο των στίχων, ειδικότερα σε περιπτώσεις όπου το σύνολο δεδομέ-

νων περιέχει πληθώρα διαφορετικών κλάσεων (λ.χ. γένους rock, ethnic και πα-ραδοσιακά τραγούδια), είναι εγγενές προβληματικό καθώς περιλαμβάνει συχνάγλωσσικά σφάλματα, γλωσσική δυσχέρεια, ασυνήθιστες λέξεις, αποκοπές κλπ.,που για να αντιμετωπιστούν απαιτούν προ-επεξεργασία:

• αφαίρεση σημείων στίξης, συμβόλων, επιφωνημάτων, αποστρόφων και κόμμα,

• χειρωνακτική αντιμετώπιση περικομμένων λέξεων (λ.χ. «μου είπες» γραμ-μένο ως «μου ’πες»), διαχωρισμός λέξεων που λανθασμένα ενώθηκαν (λ.χ.«εγώ πήγα» να εμφανίζεται ως «εγώπήγα» και κατ’ αντιστοιχία να θεωρεί-ται ως μια νέα λέξη), περίεργες, αρχαϊκές δημοφιλείς ή ποιητικές εκφράσεις,λέξεις που κάποια από τα γράμματά τους είναι γραμμένα σε άλλα αλφάβηταπου είναι οπτικά ίδια,

• αφαίρεση λειτουργικών λέξεων, δηλ. λέξεων που φέρουν ελάχιστο νόημααλλά λειτουργούν χρηστικά στη γλώσσα (λ.χ. άρθρα, αντωνυμίες, προθέ-σεις), και συνεπώς δεν συνεισφέρουν στη δράση διάκρισης της διάθεσης,

• δράση προσδιορισμού ρίζας λέξεων (stemming)9

9Στην παρούσα Ενότητα η δράση stemming έγινε με το λογισμικό της εργασίας [47].

Page 96: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 83

Μοντέλο Bag-of-words Για την εξαγωγή των χαρακτηριστικών στίχων, οι στίχοικάθε τραγουδιού αναπαραστάθηκαν ως ένα σύνολο από τις 20 συχνότεραεμφανιζόμενες λέξεις (ρίζες) στο τραγούδι (κατόπιν της αφαίρεσης των λει-τουργικών λέξεων). Αντίθετα με άλλες εργασίες, η χρησιμοποιούμενη εδώμέθοδος αντιμετωπίζει το πρόβλημα της αραιότητας των δεδομένων. Περί-που 3% των τραγουδιών είχαν λεξιλόγιο μικρότερο των 20 διακριτών λέ-ξεων συνολικά και λιγότερο από το 1% των τραγουδιών είχαν αντίστοιχολεξιλόγιο μικρότερο των 15 λέξεων. Κάθε λέξη συνοδεύεται από τη συ-χνότητα εμφάνισής τους και το tfidf της. Ακολούθως, ο συνολικός αριθμόςγλωσσικών χαρακτηριστικών είναι 60.

Γλωσσικό μοντέλο Αντίθετα με την εργασία [29], το χρησιμοποιούμενο εδώ γλωσ-σικό μοντέλο στοχεύει στην διάκριση μεταξύ διαφορετικών κλάσεων διά-θεσης και όχι μεταξύ θετικής και αρνητικής έκδοσης κάθε κλάσης. Ακο-λούθως, οι 50 συχνότερα εμφανιζόμενες λέξεις στους στίχους μιας κλάσηςυπολογίζονται οδηγώντας σε ένα σύνολο 218 διακριτών λέξεων words γιαοκτώ κλάσεις διάθεσης (τέσσερις για σθένος και τέσσερις για διέγερση).Αυτό αποτελεί το απόλυτο γλωσσικό μοντέλο (absolute language model -ALM) σε αντίθεση με την προσέγγιση αποστάσεων γλωσσικών μοντέλωντης εργασίας [29]. Κάθε ένας από τους όρους αυτούς αποτελεί ένα χαρα-κτηριστικό γλωσσικής μάθησης και η τιμή του είναι αυτή του tfidf για ένανόρο στο κάθε τραγούδι (ALM tfidf). Ακολουθώντας την αιτιολόγηση τηςεργασίας [54], που αναφέρει πως το tf είναι επαρκής προσέγγισης όταν τοidf έχει πολύ μικρή τιμή, ένα δεύτερο σύνολο δεδομένων ALM απαρτίζεταιεκτός από τις τιμές tfidf και από τις τις τιμές tf (ALM tf+tfidf), δηλ. έχειδιπλάσιο πλήθος γλωσσικών χαρακτηριστικών.

Μοντέλο LSA ΗΛανθάνουσα Σημασιολογική Ανάλυση (LSA) [27] είναι μια μέ-θοδος singular value decomposition (SVD) για πίνακες, που αρχικά προ-τάθηκε για τη μείωση των διαστάσεων του πίνακα όρων-κειμένων (term-document matrix) στις δράσεις ανάκτησης πληροφορίας. Η μέθοδος SVDαποδομεί τον αρχικό πίνακα όρων-κειμένων A σε ένα γινόμενο τριών πινά-κων και «μεταφέρει» τον A σε ένα νέο σημασιολογικό χώρο:

A = TSDT (3.5)

όπου ο T είναι πίνακας με γραμμές τους λεξικούς όρους και στήλες τις δια-στάσεις του νέου σημασιολογικού χώρου. Οι στήλες του D αναπαριστούντα αρχικά κείμενα και οι γραμμές του τις νέες διαστάσεις, ενώ ο S είναι ένας

Page 97: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

84 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

διαγώνιος πίνακες που περιέχει τις μοναδιαίες τιμές τουA. Ο πολλαπλασια-σμός των τριών πινάκων επαναδομεί τον αρχικό πίνακα. Το γινόμενο μπορείνα υπολογιστεί έτσι ώστε οι μοναδιαίες τιμές να είναι τοποθετημένες στονS σε φθίνουσα ταξινόμηση. Όσο μικρότερη η κάθε μοναδιαία τιμή, τόσολιγότερο επηρεάζει το γινόμενο. Ακολούθως, διατηρώντας μόνο τις πρώ-τες λίγες (k) μοναδιαίες τιμές και θέτοντας τις άλλες ίσες με μηδέν, ο υπο-λογισμός του γινομένου οδηγεί σε μια χαμηλής τάξης προσέγγιση Ak τουαρχικού πίνακα A η οποία μπορεί να υπολογιστεί με χρήση της μεθόδουleast-squares best fit. Ο μειωμένος αριθμός διαστάσεων του νέου πίνακαείναι ίσος με τον αριθμό k των επιλεγμένων μοναδιαίων τιμών.

Μια ενδιαφέρουσα παρενέργεια της μεθόδου αυτής είναι πως η μείωση τωνδιαστάσεων μεταβάλει τη συχνότητα εμφάνισης λέξεων σε διάφορα κείμεναή ακόμα πιθανώς θέτει το πλήθος εμφανίσεων μιας λέξης που δεν εμφανί-ζεται σε ένα κείμενο με τιμή μεγαλύτερη του μηδενός. Ακολούθως, σημα-σιολογικές σχέσεις μεταξύ των λέξεων και των κειμένων εμφανίζονται εκείπου αρχικά δεν ήταν προφανείς (latent).

Μορφολογικά χαρακτηριστικάΤα 15 μορφολογικά χαρακτηριστικά που χρησιμοποιούνται στην παρούσαΕνό-

τητα βασίζονται στο σύνολο χαρακτηριστικών που προτείνουν οι Hu και Downieστην [16]. Οι συγγραφείς της καταλήγουν σε χαρακτηριστικά που περιλαμβάνουν:τον αριθμό των παρεμβολών στο κείμενο του τραγουδιού, το μέγεθος των στίχωντου τραγουδιού, τον αριθμό των μοναδικών λέξεων, το λόγο λέξεων που επανα-λαμβάνονται, το μέσο μήκος των λέξεων, τον αριθμό των γραμμών στίχων, τοναριθμό των μοναδικών γραμμών στίχων, τον αριθμό των κενών γραμμών στίχων,το λόγο των κενών γραμμών στίχων σε σχέση με τις γραμμές που έχουν κείμενο,το μέσο μήκος της γραμμής, την τυπική απόκλιση του μήκους της γραμμής, τοναριθμό των μοναδικών λέξεων ανά γραμμή, το λόγο επανάληψης γραμμών στί-χων, τη μέση αναλογία επανάληψης λέξης ανά γραμμή και την τυπική απόκλισητου λόγου επανάληψης λέξης ανά γραμμή.

3.2.2.3 Πειραματικά αποτελέσματα

Τα Σχήματα 3.9 και 3.10 παρουσιάζουν τα αποτελέσματα των προαναφερθέ-ντων μεθόδων με χρήση των συνόλων δεδομένων που διαθέτουν δύο (γλωσσικάκαι ακουστικά χαρακτηριστικά) και τρεις τύπους πληροφορίας (γλωσσικά, ακου-στικά και μορφολογικά χαρακτηριστικά). Είναι προφανές, πως παρά το αυξημένοπλήθος διαθέσιμων χαρακτηριστικών, σε πολλές περιπτώσεις η ακρίβεια της κατη-γοριοποίησης είναι υψηλότερη για τα δεδομένα με τους τρεις τύπους πληροφορίας

Page 98: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

3.2. ΟΜΑΔΟΠΟΙΗΣΗ 85

από ότι στις αντίστοιχες περιπτώσεις με δύο τύπους πληροφορίας. Ακολούθως, ησυνεισφορά και σημασία χρήσης των μορφολογικών χαρακτηριστικών είναι ιδιαί-τερα σημαντική.

88%

89%

90%

91%

92%

93%

94%

95%

ALM (tfidf) + audio1 ALM (tfidf) + audio2 ALM (tf+tfidf) +

audio1

ALM (tf+tfidf) +

audio2

RLM (tfidf) + audio1 RLM (tfidf) + audio2 RLM (tf+tfidf) +

audio1

RLM (tf+tfidf) +

audio2

Ακ

ρίβ

εια

Σύνολο δεδομένων

Διέγερση

Σθένος

Σχήμα 3.9: Ακρίβεια διέγερσης και σθένους για όλους τους συνδυασμούς συνόλων δεδο-μένων πληροφορίας ακουστικής και στίχων.

89%

90%

91%

92%

93%

94%

95%

ALM (tfidf) +

stylistic +

audio1

ALM (tfidf) +

stylistic +

audio2

ALM (tf+tfidf) +

stylistic +

audio1

ALM (tf+tfidf) +

stylistic +

audio2

RLM (tfidf) +

stylistic +

audio1

RLM (tfidf) +

stylistic +

audio2

RLM (tf+tfidf) +

stylistic +

audio1

RLM (tf+tfidf) +

stylistic +

audio2

Ακ

ρίβ

εια

Σύνολο δεδομένων

Διέγερση

Σθένος

Σχήμα 3.10: Ακρίβεια διέγερσης και σθένους για όλους τους συνδυασμούς συνόλων δε-δομένων πληροφορίας ακουστικής, μορφολογικής και στίχων.

Page 99: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

86 ΚΕΦΑΛΑΙΟ 3. ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΜΟΥΣΙΚΗ ΠΛΗΡΟΦΟΡΙΑ

Page 100: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ

[1] R. Agrawal and R. Srikant. Mining sequential patterns. In Proceedings IEEEInternational Conference on Data Engineering (ICDE), pages 3−14, 1995.

[2] M. Argamon, S. abd Saric and S. S. Stein. Style mining of electronicmessages for multiple authorship discrimination: first results. InProceedingsof ACM SIGKDD International Conference on Knowledge Discovery andData Mining, pages 475−480, 2003.

[3] J.-J. Aucouturier and M. Sandler. Finding repeating patterns in acousticmusical signals: Applications for audio thumbnailing. In ProceedingsInternational Conference on Virtual, Synthetic and Entertainment Audio(AES), 2002.

[4] H. Barlow and S. Morgenstern. A Dictionary of Musical Themes. Crown,1975.

[5] R. Basili, A. Serafini, and A. Stellato. Classification of musical genre: Amachine learning approach. In Proceedings International Symposium onMusic Information Retrieval (ISMIR), 2004.

[6] R. Bayardo. Efficiently mining long patterns from databases. In ProceedingsACM International Conference on Management of Data (SIGMOD), pages85−93, 1998.

[7] D. Byrd and T. Crawford. Problems of music information retrieval in the realworld. Information Processing and Management, 38(2):249−272, 2002.

[8] Don Byrd. Organization and searching of musical information, coursesyllabus, 2008. http://www.informatics.indiana.edu/donbyrd/Teach/I545Site--Spring08/SyllabusI545.html.

87

Page 101: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

88 ΒΙΒΛΙΟΓΡΑΦΙΑ

[9] H. Chen and A.L.P. Chen. A music recommendation system based on musicdata grouping and user interests. In Proceedings Conference in Informationand Knowledge Management (CIKM), pages 231−238, 2001.

[10] T. Crawford, C.S. Iliopoulos, and R. Raman. String matching techniquesfor music similarity and melodic recognition. Computing in Musicology,11:73−100, 1998.

[11] K. Hevner. Experimental studies of the elements of expression in music.Proceedings of American Journal of Psychology, 48(2):246−267, 1936.

[12] J.L. Hsu, C.C. Liu, and A.L.P. Chen. Discovering non-trivial repeatingpatterns in music data. IEEE Transactions on Multimedia, 3(3):311−325,2001.

[13] X. Hu, J. Downie, C. Laurier, M. Bay, and A. Ehmann. The 2007mirex audiomood classification task: Lessons learned. In Proceedings of InternationalConference on Music Information Retrieval, 2008.

[14] Xiao Hu and J. Stephen Downie. Improving mood classification in musicdigital libraries by combining lyrics and audio. In Proceedings of JointConference on Digital Libraries, pages 159−168, 2010.

[15] Xiao Hu, J. Stephen Downie, and Andreas F. Ehmann. Lyric text mining inmusic mood classification. In Proceedings of International Society for MusicInformation Retrieval, pages 411−416, 2009.

[16] C.S. Iliopoulos and M. Kurokawa. Exact & approximate distributedmatching for musical melodic recognition. In Proceedings Convention onArtificial Intelligence and the Simulation of Behaviour (AISB), pages 49−56,2002.

[17] C.S. Iliopoulos, M. Niyad, K. Lenstrom, and Y.J. Pinzon. Evolution ofmusical motifs in polyphonic passages. In Proceedings Convention onArtificial Intelligence and the Simulation of Behaviour (AISB), pages 67−75,2002.

[18] Ioannis Karydis, Alexandros Nanopoulos, and Yannis Manolopoulos.Finding maximum-length repeating patterns in music databases. MultimediaTools & Applications, 32(1):49−71, 2007.

Page 102: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ 89

[19] Y.E. Kim, E. Schmidt, R. Migneco, B.G. Morton, Richardson P., J. Scott,Speck J. A., and Turnbull D. Music emotion recognition: A state-of-the-art review. In Proceedings of International Society for Music InformationRetrieval Conference, pages 255−266, 2010.

[20] J.L. Koh and W.D.C. Yu. Efficient feature mining in music objects.In Proceedings Conference in Database and Expert System Applications(DEXA), pages 221−231, 2001.

[21] A. Kornstadt. Themefinder: A web-based melodic search tool. Computingin Musicology, 11:231−236, 1998.

[22] Calvin K. M. Lam and Bernard C. Y. Tan. The internet is changing the musicindustry. Communications ACM, 44(8):6268, 2001.

[23] P. Lamere. Social tagging and music information retrieval. Journal of NewMusic Research, 37(2):101−114, 2008.

[24] T. Landauer, P. Foltz, and D. Laham. An introduction to latent semanticanalysis. Discourse Processes, 25:259−284, 1998.

[25] Olivier Lartillot and Petri Toiviainen. A matlab toolbox for musical featureextraction from audio. InProceedings of International Conference onDigitalAudio Effects, 2007.

[26] Cyril Laurier, Jens Grivolla, and Perfecto Herrera. Multimodal musicmood classification using audio and lyrics. In Proceedings of InternationalConference on Machine Learning and Applications, pages 688−693, 2008.

[27] C.-R. Lin, N.-H. Liu, Y.-H. Wu, and A.L.P. Chen. Music classificationusing significant repeating patterns. In Procceedings Database Systems forAdvanced Applications, pages 506−518, 2004.

[28] D.-I. Lin and Z. Kedem. Pincer-search: An efficient algorithm fordiscovering the maximum frequent set. IEEE Transactions on Knowledgeand Data Engineering, 14(3):553−566, 2002.

[29] C.C. Liu, J.L. Hsu, and A.L.P. Chen. Efficient theme and non-trivialrepeating pattern discovering in music databases. In Proceedings IEEEInternational Conference on Data Engineering (ICDE), pages 14−21, 1999.

Page 103: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

90 ΒΙΒΛΙΟΓΡΑΦΙΑ

[30] B. Logan, A. Kositsky, and P. Moreno. Semantic analysis of song lyrics.In Proceedings of IEEE International Conference on Multimedia and Expo,volume 2, pages 827−830, 2004.

[31] D. McEnnis, C. McKay, and I. Fujinaga. jAudio: A feature extraction library.In Proceedings of International Conference on Music Information Retrieval,2005.

[32] Brian McFee and Gert R. G. Lanckriet. The natural language of playlists. InProceedings of International Society for Music Information Retrieval, pages537−542, 2011.

[33] C. McKay and I. Fujinaga. Automatic genre classification using large high-level musical feature sets. InProceedings International Symposium onMusicInformation Retrieval (ISMIR), pages 31−38, 2004.

[34] MattMcVicar, TimFreeman, and Tijl DeBie. Mining the correlation betweenlyrical and audio features and the emergence of mood. In Proceedings ofInternational Society forMusic Information Retrieval, pages 783−788, 2011.

[35] C. Meek and W.P. Birmingham. Thematic extractor. In ProceedingsInternational Symposium on Music Information Retrieval (ISMIR), pages119−128, 2001.

[36] MIREX. Annual Music Information Retrieval eXchange. http://www.music-ir.org/mirex/wiki/MIREX_HOME.

[37] Alexandros Nanopoulos, Dimitrios Rafailidis, Panagiotis Symeonidis, andYannis Manolopoulos. Musicbox: Personalized music recommendationbased on cubic analysis of social tags. Transactions on Audio, Speech andLanguage Processing, 18(2):407−412, 2010.

[38] A. C. North and D. J. Hargreaves. Liking for musical styles. MusicaeScientiae, 1:109−128, 1997.

[39] F. Pachet and D. Cazaly. A taxonomy of musical genres, 2000.

[40] J. Park, M.-S. Chen, and P. Yu. Using a hash-based method with transactiontrimming for mining association rules. IEEE Transactions on Knowledgeand Data Engineering, 9(5):813−825, 1997.

Page 104: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ 91

[41] A. Rauber R. Mayer, R. Neumayer. Rhyme and style features for musicalgenre classification by song lyrics. In Proceedings of InternationalConference on Machine Learning and Applications, pages 337−342, 2008.

[42] P.-Y. Rolland and J.-G. Ganascia. Pattern detection and discovery: The caseof music data mining. In Proceedings Conference on Pattern Detection andDiscovery, pages 190−198, 2002.

[43] J.A. Russell. A circumplex model of affect. Journal of personality and socialpsychology, 39(6):1161−1178, 1980.

[44] Spyridon Saroukos. Enhancing a greek language stemmer - efficiencyand accuracy improvements. Master’s thesis, Dept. of Computer Sciences,University of Tampere, Finland, 2008.

[45] Erik M. Schmidt and Youngmoo E. Kim. Prediction of time-varying musicalmood distributions from audio. In Proceedings of International Society forMusic Information Retrieval, pages 465−470, 2010.

[46] L. Smith and R. Medina. Discovering themes by exact pattern matching.In Proceedings International Symposium on Music Information Retrieval(ISMIR), pages 31−32, 2001.

[47] C. Ta-Chun, A.L.P. Chen, and L. Chih-Chin. Music databases: Indexingtechniques and implementation. In Proceedings International Workshop onMultimedia Databases Management Systems, pages 46−53, 1996.

[48] R.E. Thayer. The biopsychology of mood & arousal. Oxford UniversityPress, 1989.

[49] G. Tzanetakis, A. Ermolinskyi, and P. Cook. Pitch histograms in audioand symbolic music information retrieval. In Proceedings InternationalSymposium on Music Information Retrieval (ISMIR), pages 31−38, 2002.

[50] P. van der Merwe. Origins of the Popular Style: The Antecedents ofTwentieth-Century Popular Music. Oxford University Press, 1992.

[51] Menno van Zaanen and Pieter Kanters. Automatic mood classification usingtf*idf based on lyrics. In Proceedings of International Society for MusicInformation Retrieval, pages 75−80, 2010.

Page 105: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

92 ΒΙΒΛΙΟΓΡΑΦΙΑ

[52] Dan Yang and Won-Sook Lee. Disambiguating music emotion usingsoftware agents. In Proceedings of International Conference on MusicInformation Retrieval, 2004.

[53] Dan Yang and Won-Sook Lee. Music emotion identification from lyrics.In Proceedings of IEEE International Symposium on Multimedia, pages624−629, 2009.

[54] Yi-Hsuan Yang, Yu-Ching Lin, Heng-Tze Cheng, I-Bin Liao, Yeh-Chin Ho,and Homer H. Chen. Toward multi-modal music emotion classification.In Proceedings of Pacific Rim Conference on Multimedia: Advances inMultimedia Information Processing, pages 70−79, 2008.

[55] M. Zaki, S. Parthasarathy, M. Ogihara, and W. Li. New algorithms for fastdiscovery of association rules. In Proceedings International Conference onKnowledge Discovery and Data Mining (KDD), pages 283−286, 1997.

[56] M. Zentner, D. Grandjean, and K. R. Scherer. Emotions evoked by thesound of music: Characterization, classification, and measurement. Emotion,8(4):494−521, 2008.

Page 106: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΚΕΦΑΛΑΙΟ 4

Ανάκτηση μουσικής πληροφορίας σεεξειδικευμένα περιβάλλοντα

Περιεχόμενα

4.1 ΔΙΚΤΥΑ P2P . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.2 ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ . . . . . . . . . . . . . . . . . . . . . 110

4.3 ΡΟΕΣ ΠΛΗΡΟΦΟΡΙΑΣ . . . . . . . . . . . . . . . . . . . 132

4.1 Δίκτυα p2p

Ο παγκόσμιος ιστός (WWW) χρησιμοποιείται, πλέον, για εμπορικούς, ψυχα-γωγικούς αλλά και εκπαιδευτικούς λόγους και τείνει να γίνει το πρωτεύον μέσοδιάδοσης πληροφορίας. Ένας από τους βασικούς τύπους δεδομένων που διακι-νούνται μέσω του παγκόσμιου ιστού είναι και η ψηφιοποιημένη μουσική. Τα ομό-τιμα δίκτυα (P2P) που χρησιμοποιούν τον παγκόσμιο ιστό έχουν κερδίσει ιδιαί-τερη δημοτικότητα, όσο αφορά την υποδομή για τη διακίνηση των μουσικών καιόχι μόνο δεδομένων. Στα προτερήματα των ομότιμων δικτύων συγκαταλέγονται οκατά πολύ αυξημένος χώρος της βάσης που προσφέρουν, η ανεκτικότητα τους στασφάλματα των κόμβων και η κάλυψη τους από άλλους κόμβους αλλά και η κα-τανομή του εργασιακού φόρτου σε ένα δίκτυο διαθέσιμων επεξεργαστών καθώςη ΑΜΠΒΠ είναι υπολογιστικά ιδιαίτερα απαιτητική. Ωστόσο, τα ίδια τα πλεονε-κτήματα των ομότιμων δικτύων είναι οι παράγοντες που κάνουν την ανεύρεσηπληροφορίας σε αυτά εμφανώς περισσότερο σύνθετη από ότι σε παραδοσιακά

93

Page 107: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

94 ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

συστήματα. Η έλλειψη κεντρικού αποθηκευτικού χώρου, το αυξημένο πλήθος δε-δομένων που είναι διαθέσιμα αλλά και ο δυναμικός χαρακτήρας του δικτύου ει-σάγουν έναν υψηλό βαθμό δυσκολίας στη διαδικασία ανεύρεσης.

Τα ομότιμα δίκτυα μπορούν να κατηγοριοποιηθούν βάσει του ελέγχου στηντοποθεσία των δεδομένων και την τοπολογία του δικτύου σε μη δομημένα, χα-λαρά δομημένα και δομημένα [37]. Η απουσία δομής επιτρέπει προσαρμοστικό-τητα σε δυναμικά περιβάλλοντα (συμμετοχή/αποχή κόμβων), ενώ προκαλεί πιθα-νότητα μη εύρεσης υπαρκτών δεδομένων. Μετακινούμενα προς αυξημένη δομή,τόσο η πιθανότητα ανεύρεσης υπαρκτών δεδομένων όσο και η επιβάρυνση διαχεί-ρισης της συμμετοχής-αποχής αυξάνουν. Επιπλέον, τα ομότιμα δίκτυα μπορούννα κατηγοριοποιηθούν βάσει του πλήθους των κεντρικών καταλόγων των αποθη-κευτικών χώρων σε συγκεντρωτικά, υβριδικά και αποκεντρωμένα. Τα συγκεντρω-τικά ομότιμα δίκτυα υπόκεινται στα ίδια μειονεκτήματα για τα οποία το παρα-δοσιακό σχήμα εξυπηρετητής-πελάτης δεν ακολουθήθηκε (ανεπάρκεια δικτύουλόγω ανεπάρκειας του κεντρικού κόμβου, μειωμένη ικανότητα κλιμάκωσης, δυ-σκολία διαχείρισης συμμετοχής/αποχής κόμβων, πιθανή ανεπιθύμητη κυριαρχίατων διαχειριστών του κεντρικού κόμβου). Για τους λόγους αυτούς, το κεφάλαιοαυτό εστιάζει στα μη δομημένα αποκεντρωμένα ομότιμα δίκτυα, τα οποία υπερ-νικούν τα προαναφερθέντα μειονεκτήματα. Η απουσία δομής επιλέχθηκε για τηχαλαρότητα του ελέγχου στην τοποθεσία των δεδομένων, δηλαδή κάθε κόμβοςμπορεί να μοιράζει τα δεδομένα του χωρίς να πρέπει να φιλοξενεί δεδομένα άλ-λων κόμβων λόγων περιορισμών τοποθεσίας.1

Η έρευνα για μουσικά δεδομένα βάσει περιεχομένου απαιτεί την ανάπτυξηαποδοτικών και αποτελεσματικών μεθόδων ανεύρεσης ομοιότητας, για τον τύποτων δεδομένων αυτών, οι οποίοι θα βρίσκουν μουσικά αρχεία όμοια με ένα μου-σικό επερώτημα. Επιπλέον, οι ιδιαιτερότητες του αποκεντρωμένου μη δομημένουομότιμου δικτύου πρέπει να συνυπολογιστούν ώστε να αναπτυχθούν εφικτές λύ-σεις. Λόγου χάριν, ο φόρτος δικτύου που προκαλούν τα επερωτήματα ανεύρεσηςομοιότητας είναι υψηλής σημασίας. Κρίσιμος παράγοντας είναι επίσης και ο όγκοςεπεξεργασίας που απαιτείται στους κόμβους. Για τους λόγους αυτούς, χρειάζονται(i) ένα πρότυπο το οποίο θα μπορεί να εκφράσει αποτελεσματικά την ομοιότηταμεταξύ μουσικών δεδομένων αλλά θα είναι και γρήγορο στον υπολογισμό του, και(ii) αποδοτικοί αλγόριθμοι ανεύρεσης ομοιότητας, οι οποίοι θα ελαχιστοποιήσουντο φόρτο δικτύου.

1Εδώ πρέπει να σημειωθεί ότι με το εξεταζόμενο πλαίσιο αναφερόμαστε σε εφαρμογές πουυποστηρίζουν νόμιμο μοίρασμα δεδομένων στους χρήστες. Επιπλέον, παρουσιάζει ενδιαφέρον ηυιοθέτηση της εν λόγω μεθοδολογίας για τον εντοπισμό παράνομης διάθεσης.

Page 108: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 95

4.1.1 Σχετικές εργασίες

4.1.1.1 Σύνοψη υπαρκτών ομότιμων συστημάτων

Τα ομότιμα δίκτυα μπορούν να κατηγοριοποιηθούν βάσει του ελέγχου στην το-ποθεσία των δεδομένων και την τοπολογία του δικτύου σε μη δομημένα, χαλαράδομημένα και δομημένα [37]. Τα μη δομημένα δεν ακολουθούν κάποιο κανόναγια την τοποθεσία αποθήκευσης των δεδομένων, ενώ η τοπολογία του δικτύου εί-ναι τυχαία (λ.χ., Gnutella). Τα χαλαρά δομημένα ομότιμα δίκτυα έχουν τόσο τηντοποθεσία αποθήκευσης όσο και την τοπολογία δικτύου μη επακριβώς προσδιορι-σμένη (λ.χ., Freenet). Τέλος, στα δομημένα η τοποθεσία αποθήκευσης καθώς και ητοπολογία δικτύου είναι ρητά καθορισμένες (λ.χ., Chord) παράμετροι. Επιπλέον,τα ομότιμα δίκτυα μπορούν να κατηγοριοποιηθούν βάσει του πλήθους των κεντρι-κών καταλόγων των τοποθεσιών αποθήκευσης των δεδομένων σε συγκεντρωτικά,υβριδικά και αποκεντρωμένα. Ακολούθως, τα συγκεντρωτικά δίκτυα διατηρούνένα κεντρικό κατάλογο σε μια και μόνο τοποθεσία (λ.χ., Napster), τα υβριδικάπεριλαμβάνουν περισσότερους από ένα σε υπερ-κόμβους (λ.χ., Kazaa) με κατα-λόγους, ενώ στα αποκεντρωμένα (λ.χ., Chord) δεν υπάρχει κεντρικός κατάλογος.Τέλος τα ομότιμα δίκτυα μπορούν επίσης να κατηγοριοποιηθούν σε ιεραρχικά καιμη, βάσει του βαθμού ιεράρχησης της υποκείμενης δομής. Είναι σύνηθες για τααποκεντρωμένα συστήματα να μην παρουσιάζουν ιεραρχικότητα, ενώ για τα υβρι-δικά και τα περισσότερα συγκεντρωτικά να συμπεριλαμβάνουν κάποιου βαθμούιεράρχηση. Τα ιεραρχικά συστήματα παρέχουν αυξημένη ικανότητα αντιμετώπι-σης κλιμάκωσης, ευκολία στην εκμετάλλευση της ανομοιογένειας των κόμβωνκαι υψηλή αποδοτικότητα δρομολόγησης. Αντιδιαμετρικά, τα μη ιεραρχικά συ-στήματα προσφέρουν αυξημένη εξισορρόπηση φόρτου και προσαρμοστικότηταστη συμμετοχή/αποχή κόμβων.

Στην ενότητα αυτή το δίκτυο που εξετάζεται θεωρείται αποκεντρωμένο, μηδομημένο και μη ιεραρχικό. Επιπλέον, γίνεται η υπόθεση ότι το δίκτυο αποτελεί-ται από N κόμβους, ενώ κάθε κόμβος έχει κατά προσέγγιση logN γειτνιάζοντεςκόμβους. Η διάμετρος του δικτύου είναι το μέγιστο πλήθος κόμβων που απαιτού-νται ως ενδιάμεσοι ώστε να εντοπιστεί ο κόμβος Pj από τον Pi. Ορίζεται MaxHop(μέγιστο πλήθος αλμάτων) το πλήθος των κόμβων στους οποίους ένα επερώτημαπροωθείται. Το MaxHop ενός επερωτήματος έχει μια αρχική τιμή και κάθε φοράπου το επερώτημα προωθείται σε ένα κόμβο, μειώνεται κατά μια μονάδα μέχρινα γίνει μηδενικό, από το οποίο σημείο και μετά το επερώτημα δεν προωθείται σεκόμβους. Η παράμετρος MaxHop εξίσου αποκαλείται και Time-To-Leave (TTL).

Page 109: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

96 ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

4.1.1.2 Μέθοδοι έρευνας σε μη δομημένα ομότιμα δίκτυα

Στην ενότητα αυτή συνοψίζονται μερικές από της ήδη διαθέσιμες προσεγγί-σεις έρευνας σε αποκεντρωμένα μη δομημένα ομότιμα δίκτυα. Αρχικά εξετάζεταιο αλγόριθμος έρευνας με προτεραιότητα πλάτους (Breadth-First Search - BFS).Στην περίπτωση του BFS, ο κόμβος Q που θέτει το επερώτημα, διαβιβάζει τοεπερώτημα q σε όλους τους γειτονικούς κόμβους. Κάθε κόμβος P που λαμβάνειτο q αρχικά ερευνά τον τοπικό χώρο αποθήκευσης για δεδομένα που ταιριάζουνμε το q και στη συνέχεια το προωθεί σε όλους τους γειτονικούς του κόμβους.Στην περίπτωση που ο P έχει κάποιο ταίριασμα από τον τοπικό χώρο αποθήκευ-σης τότε ένα μήνυμα QueryMatch δημιουργείται περιέχοντας πληροφορίες για τοταίριασμα. Κατόπιν, τα μηνύματαQueryMatch μεταδίδονται χρησιμοποιώντας τοαντίστροφο μονοπάτι που ακολούθησε το q, στον Q. Τέλος, καθώς περισσότερααπό ένα μηνύματα τύπου QueryMatch παραλαμβάνονται από τον Q, μπορεί ναδιαλέξει τον κόμβο με τα καλύτερα χαρακτηριστικά σύνδεσης ώστε να προσκομί-σει άμεσα το ταίριασμα. Είναι προφανές ότι ο η τακτική του BFS βασίζεται στηθυσία της απόδοσης και του φόρτου του δικτύου με αντίτιμο την απλότητα τουαλγορίθμου και τα υψηλά ποσοστά αποτελεσμάτων. Προσπαθώντας να περιορι-στεί ο φόρτος του δικτύου, εισάγεται η παράμετρος TTL (βλ. ενότητα 4.1.1). Σεμια τροποποιημένη έκδοση του αλγορίθμου αυτού, ο τυχαίος BFS (Random BFS- RBFS) [22], ο κόμβος που θέτει το επερώτημα,Q, το διαβιβάζει σε ένα ποσοστότων γειτονικών κόμβων.

Προσπαθώντας να διορθωθεί η αδυναμία του RBFS να επιλέξει το μονοπάτιτου δικτύου που οδηγεί σε μεγάλα τμήματα του δικτύου, οι συγγραφείς της εργα-σίας [55] ανάπτυξαν τον αλγόριθμο>RES. Στην προσέγγιση αυτή, ο κόμβοςQ πουθέτει το επερώτημα διαβιβάζει το επερώτημα q σε ένα υποσύνολο των γειτονικώντου κόμβων βάσει συνολικών στατιστικών δεδομένων. Έτσι, ο Q διαβιβάζει το qσε k γειτονικούς κόμβους, οι οποίοι επέστρεψαν τα υψηλότερα ποσοστά αποτε-λεσμάτων κατά τα τελευταία m επερωτήματα, με τα k και m να είναι παράμετροι.Ο >RES αποτελεί μια σημαντική βελτίωση σε σύγκριση με τον RBFS, ωστόσο ησυμπεριφορά του είναι περισσότερο ποσοτική παρά ποιοτική, καθώς δεν επιλέγειτους γείτονες στους οποίους θα προωθήσει το επερώτημα βάσει της ομοιότηταςτου περιεχομένου του q των προηγουμένων επερωτημάτων.

Με στόχο την αντιμετώπιση της ποσοτικής προσέγγισης του>RES, ο αλγόριθ-μος ISM προτάθηκε [22]. Στον ISM, για κάθε επερώτημα, κάθε κόμβος το προωθείστους κόμβους που είναι περισσότερο πιθανόν να απαντήσουν βάσει δυο παραμέ-τρων: ένα σύστημα κατατομής και μια βαθμολόγηση σχετικότητας. Η κατατομήδημιουργείται και συντηρείται σε κάθε κόμβο για τους γειτονικούς του κόμβους.Οι πληροφορίες που περιλαμβάνονται στην κατατομή αυτή είναι τα t πιο πρό-

Page 110: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 97

σφατα επερωτήματα με ταιριάσματα, τα ταιριάσματα τους αλλά και το πλήθος τωνταιριασμάτων που ο γειτονικός κόμβος επέστρεψε. Η συνάρτηση βαθμολόγησηςβάσει σχετικότητας (RR) υπολογίζεται συγκρίνοντας το επερώτημα q με όλα ταεπερωτήματα για τα οποία υπάρχει ταίριασμα σε κάθε κατατομή. Κατά συνέπεια,για τον κόμβο PQ που θέτει το επερώτημα, η συνάρτηση RR υπολογίζεται βάσειτης ακόλουθης σχέσης:

RRQ(Pi, q) = Qsim(qj, q)α × S(Pi, qj)

όπου Qsim είναι η συνάρτηση ομοιότητας που χρησιμοποιείται μεταξύ των επε-ρωτημάτων ενώ S(Pi,qj) είναι το πλήθος των αποτελεσμάτων που επιστρέφει ο Piγια το επερώτημα qj . Ο ISM επιτρέπει υψηλότερη βαθμολόγηση των γειτονικώνκόμβων που επιστρέφουν περισσότερα αποτελέσματα με τη ρύθμιση της παρα-μέτρου α. Εμφανώς, η καλύτερη απόδοση του ISM εμφανίζεται σε περιβάλλονταόπου υφίσταται αυξημένος βαθμός τοπικότητας των δεδομένων.

4.1.1.3 Ανάκτηση μουσικής πληροφορίας σε ομότιμα δίκτυα

Ο χώρος συγκερασμού της ΑΜΠΒΠ και των ομότιμων δικτύων, είναι ιδιαί-τερα νέος καθώς η πρώτη εργασία δημοσιεύτηκε το έτος 2002 [52]. Ωστόσο, οιλιγοστές εργασίες παρουσιάζουν ενδιαφέροντα αποτελέσματα, τα οποία σχολιά-ζονται στη συνέχεια.

Στην πρώτη αυτή προσέγγιση, οι συγγραφείς της εργασίας [52] παρουσίασαντέσσερα πρότυπα ομότιμων δικτύων για ΑΜΠΒΠ. Τα πρότυπα αυτά περιλαμ-βάνουν όλες τις κατηγορίες βάσει του πλήθους των κεντρικών καταλόγων τωναποθηκευτικών χώρων (αποκεντρωμένα, υβριδικά και συγκεντρωτικά). Η εργα-σία προτείνει έναν αλγόριθμο επιτάχυνσης της ανεύρεσης που βασίζεται στη δια-φορά του τονικού ύψους μεταξύ δύο νοτών καθώς και μια μέθοδο διήθησης τωναποτελεσμάτων βασιζόμενη σε τεχνικές αφαίρεσης των επαναλήψεων. Επιπλέον,οι συγγραφείς της [52] προτείνουν μια αρχιτεκτονική για ΑΜΠΒΠ σε ομότιμαδίκτυα, η οποία κατατάσσεται στα υβριδικά συστήματα.

Μια ακόμα έρευνα βασιζόμενη σε ένα υβριδικό σχεδιασμό παρουσιάζεται στηνεργασία [51]. Στην εργασία αυτή οι συγγραφείς προτείνουν ένα σύστημα που χρη-σιμοποιεί μεταδεδομένα (τραγουδιστής, συλλογή, τίτλος, συνθέτης, κλπ.) αλλάκαι χαρακτηριστικά που εξάγονται ώστε να περιγραφεί το περιεχόμενο ενός μου-σικού κομματιού. Η προτεινόμενη τοπολογία δικτύου στην εργασία [51], βασί-ζεται στα συστήματα DHT. Στα συστήματα αυτά, σε κάθε κόμβο ανατίθεται μιαπεριοχή ενός εικονικού χώρου διευθύνσεων, ενώ σε κάθε διαμοιραζόμενο δεδο-μένο ανατίθεται μια τιμή από το χώρο διευθύνσεων αυτό. Συνεπώς, ο εντοπισμός

Page 111: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

98 ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

ενός δεδομένου απαιτεί μόνο την ανεύρεση ενός κλειδιού, του κόμβου που έχειαναλάβει το αντίστοιχο κλειδί.

Οι συγγραφείς της εργασίας [57] πρότειναν τη χρήση της μεθοδολογίας εξαγω-γής χαρακτηριστικών που προτείνεται στην εργασία [56] για ΑΜΠΒΠ σε αποκε-ντρωμένα μη δομημένα ομότιμα δίκτυα. Η εργασία αυτή εξετάζει την περίπτωσηη βάση να είναι αντιγραμμένη αλλά και τη γενικότερη περίπτωση των ομότιμωνδικτύων, ενώ ειδική προσοχή δίνεται στον έλεγχο του φόρτου εργασίας που δη-μιουργείται στους κόμβους κατά τη διάρκεια της επερώτησης. Κάθε επερώτησηχωρίζεται σε δύο φάσεις, η πρώτη από τις οποίες περιλαμβάνει μόνο ένα μέρος τουεπερωτήματος, ώστε να εντοπιστούν οι κόμβοι υψηλής πιθανότητας απάντησης.Στη συνέχεια, οι κόμβοι βαθμολογούνται και το πλήρες επερώτημα διαβιβάζεταισε όλους τους κόμβους. Δεδομένου ότι ένας κόμβος διαθέτει ελεύθερους πόρουςCPU, αποφασίζει εάν θα επεξεργαστεί το επερώτημα βάσει της βαθμολογίας πουέλαβε για το συγκεκριμένο επερώτημα. Είναι προφανές ότι αυτή η προσέγγισηπροκαλεί αυξημένο φόρτο δικτύου, καθώς το πλήρες επερώτημα διαβιβάζεται σεόλους τους κόμβους, αντί των περισσότερα υποσχόμενων.

Τέλος, παρότι προσανατολισμένο σε διαφορετικό κλάδο, η εργασία [49] ανα-φέρεται στην ανάκτηση ακουστικών μουσικών δεδομένων σε ομότιμα δίκτυα. Οκεντρικός στόχος της εργασίας αυτής είναι η καταπολέμηση της μη εξουσιοδοτη-μένης διάθεσης μουσικών αρχείων σε ομότιμα δίκτυα. Για να επιτύχει το στόχοαυτό, οι κόμβοι χωρίζονται σε ιεραρχικές ομάδες βάσει των πόρων τους, ενώ κάθεεργασία ανατίθεται σε πολλούς κόμβους ώστε να αντιμετωπιστεί η δυναμικότητατης συμμετοχής/αποχής κόμβων.

4.1.2 Πρότυπο ομοιότητας βασισμένο στη DTWΗαποδοτική επεξεργασία των επερωτημάτων ομοιότητας για χρονοσειρές απαι-

τεί την επίλυση των ακόλουθων σημαντικών ζητημάτων:

• τον ορισμό ενός σημασιολογικά ορθού μέτρου αποστάσεως D(S,C) ώστενα εκφραστεί η ομοιότητα μεταξύ δυο χρονοσειρών S και C,

• την αποδοτική αναπαράσταση των χρονοσειρών, και

• την εφαρμογή ενός κατάλληλου θεσμού δεικτοδότησης ώστε να αποκλει-στούν γρήγορα τα αντικείμενα της βάσης δεδομένων τα οποία δεν μπορούννα συνεισφέρουν στην τελική απάντηση.

Ένα από τα κυριότερα ερευνητικά προβλήματα των χρονοσειρών είναι ο ορι-σμός ενός σημασιολογικά έγκυρου μέτρου για την ομοιότητα των χρονοσειρών.

Page 112: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 99

Για δυο χρονοσειρές S και C πρέπει να οριστεί ένα μέτρο απόστασης D(S,C)

που να εκφράζει το βαθμό της ομοιότητας μεταξύ των S και C. Η συνηθέστεραχρησιμοποιούμενη επιλογή είναι η Ευκλείδεια απόσταση (L2 norm), η οποία πα-ρουσιάζει τον περιορισμό ότι οι δυο χρονοσειρές πρέπει να έχουν ίσο μήκος. Δε-δομένου ότι οι S και C είναι μήκους N , η Ευκλείδεια του απόσταση ορίζεται ωςεξής:

Deuclidean =

√√√√ N∑i=1

(Si − Ci)2 (4.1)

όπου Si,Ci είναι οι τιμές των S καιC για την i-στη χρονική στιγμή. Η Ευκλείδειααπόσταση έτυχε ιδιαίτερα μεγάλης απήχησης ως μέτρο απόστασης στη βιβλιογρα-φία των χρονοσειρών [2, 15, 11, 31], κυρίως λόγω της απλότητας της.

Ωστόσο, αρκετά εναλλακτικά μέτρα που να επιτρέπουν μετάφραση, περιστροφήκαι ανεξαρτησία κλίμακας έχουν προταθεί [3, 59, 11, 58]. Λόγου χάριν, για το πα-ράδειγμα των χρονοσειρών του Σχήματος 4.1, παρότι οι δυο χρονοσειρές έχουνπαρόμοια καμπύλη, η χρήση της Ευκλείδειας απόστασης για τη μέτρηση της ομοιό-τητας τους δεν θα την αποκαλύψει.

Αντιλαμβανόμενοι ότι η Ευκλείδεια απόσταση δεν καλύπτει πάντα τις απαι-τήσεις των εφαρμογών, η δυναμική χρόνο-στρέβλωση (Dynamic Time Warping- DTW) προτάθηκε ως μέτρο ομοιότητας με υψηλότερη ανθεκτικότητα. Η DTWμπορεί να εκφράσει επιτυχώς την ομοιότητα χρονοσειρών ακόμα και όταν αυτέςείναι εκτός φάσης στον άξονα του χρόνου ή δεν έχουν ίσο μήκος. Η απόσταση τηςDTW DDTW (S,C) για δύο χρονοσειρές S και C είναι ουσιαστικά μια μέθοδοςαπεικόνισης της S στηC και τούμπαλιν. Η διαδικασία είναι επίσης γνωστή και ωςευθυγράμμιση χρονοσειρών. Για μια χρονοσειρά S μήκους N και μια C μήκουςM , η απόσταση DDTW υπολογίζεται χρησιμοποιώντας την ακόλουθη μέθοδο:

1. Μια μήτρα διαστάσεωνN×M κατασκευάζεται, όπου κάθε κελί στην i-στησειρά και την j-στη στήλη περιέχει την απόσταση d(Si, Cj) = (Si − Cj)

2.

2. Ένα μονοπάτι στρέβλωσης ορίζεται έτσι ώστε να είναι συνεχές σύνολο κε-λιών της μήτρας το οποίο ορίζει μια απεικόνιση μεταξύ των στοιχείων τηςS και των στοιχείων της C.

Παρότι υφίστανται πολλά μονοπάτια στρέβλωσης τα οποία απεικονίζουν τηνS στηC, αυτό που χρειάζεται είναι να προσδιοριστεί το περισσότερο υποσχόμενο,προσπαθώντας να βελτιστοποιηθεί η αθροιστική απόσταση γ(i, j) σε κάθε κελίτου μονοπατιού στρέβλωσης. Συνεπώς, η ακόλουθη επανάληψη ορίζεται:

Page 113: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

100ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

γ(i, j) = d(Si, Cj) +min{γ(i− 1, j − 1), γ(i− 1, j), γ(i, j − 1)} (4.2)

Το Σχήμα 4.1 δείχνει ένα παράδειγμα της ευθυγράμμισης των δύο χρονοσει-ρών με τη χρήση της Ευκλείδειας απόστασης (Σχήμα 4.1(a)) και με την απόστασηDTW (Σχήμα 4.1(b)). Είναι εμφανές ότι οι δυο χρονοσειρές είναι παρόμοιες παράτη διαφορά φάσης τους. Ωστόσο, η ομοιότητά τους αυτή δεν γίνεται εμφανής μετη χρήση της Ευκλείδειας απόστασης.

(a) (b) DTW

Σχήμα 4.1: Ευθυγράμμιση χρονοσειρών με τις Ευκλείδεια και DTW αποστάσεις.

Όσο αφορά τη μέθοδο DTW, το κυριότερο μειονέκτημα της είναι ότι δενικανοποιεί την τριγωνική ανισότητα, η οποία είναι μια ιδιαίτερα επιθυμητή ιδιό-τητα στο σχεδιασμό αποδοτικών θεσμών δεικτοδότησης και τη μείωση του χώ-ρου έρευνας. Επιπλέον, ο υπολογισμός της DDTW (S,C) είναι εμφανώς απαιτη-τικότερος επεξεργαστικά από ότι η Ευκλείδεια απόστασηDEuclidean(S,C). Κατάσυνέπεια, μια ενδιαφέρουσα διεύθυνση για τη βελτίωση της επίδοσης της DTWείναι η χρήση ενός κάτω ορίου, με στόχο την εκμετάλλευση των θεσμών δει-κτοδότησης και την αποφυγή του υπολογισμού της DTW όταν είναι δεδομένοότι οι δυο χρονοσειρές δεν είναι όμοιες. Στην ενότητα αυτή χρησιμοποιείται τοκάτω όριο LB_Keogh που προτάθηκε στην εργασία [28]. Για μια ακολουθία S,το LB_Keogh βασίζεται στον περικλείοντα φάκελο της S, ο οποίος αποτελείταιαπό τις άνω, U , και κάτω, L, ακολουθίες. Για την παράμετρο r (η οποία αντι-προσωπεύει την έκταση και περιορίζει το χώρο έρευνας της DTW – βλ. [28] γιαπερισσότερες λεπτομέρειες), το i-στο στοιχείο της U και της L ορίζονται ως εξής:

Ui = max(Si−r : Si+r)

Li = min(Si−r : Si+r)

Ουσιαστικά, για κάθε i, το άνω όριο βεβαιώνει ότι Ui ≥ Si ενώ το κάτω ότιLi ≤ Si. Μια σχηματική απεικόνιση των U και L δίνεται στο Σχήμα 4.2.

Page 114: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 101

Σχήμα 4.2: Σχηματική απεικόνιση των ακολουθιών U και L.

Δεδομένων των U και L για μια ακολουθία S, η τιμή του LB_Keogh μεταξύτης S και μιας ακολουθίας C ορίζεται ως εξής:

LB_Keogh(S,C) =

√√√√√ N∑i=1

(Ci − Ui)

2, if Ci > Ui

(Ci − Li)2, if Ci < Li

0, ´

(4.3)

Είναι προφανές ότι ο υπολογισμός του LB_Keogh είναι γραμμικός σε σχέση μετο μέγεθος των ακολουθιών αλλά και κατά πολύ γρηγορότερος από ότι ο υπολο-γισμός της απόστασης DDWT . Στην εργασία [28] αποδεικνύεται ότι:

LB_Keogh(S,C) ≤ DDTW (S,C)

και κατά συνέπεια το LB_Keogh(S,C) μπορεί να χρησιμοποιηθεί για την αφαί-ρεση ταιριασμάτων χωρίς να εμφανίζονται ψευδή αρνητικά αποτελέσματα. Η απο-δοτικότητα του ορίου εξαρτάται από το πόσο κοντά είναι η τιμή του στην πραγμα-τική DTW απόσταση. Ένα παράδειγμα του υπολογισμού του LB_Keogh μεταξύμιας ακολουθίας S (αντιπροσωπεύεται από τους φακέλους U και L της) και μιαςακολουθίας C παρουσιάζεται στο Σχήμα 4.3. Τα μέρη της C τα οποία αληθώς συ-νεισφέρουν στο LB_Keogh είναι εκείνα τα οποία βρίσκονται είτε πάνω από τοU είτε κάτω από το L, και δείχνονται με γκρι χρώμα. Προφανώς, όσο περισσό-τερα τα μέρη αυτά, τόσο αποδοτικότερη η αφαίρεση των περιττών στοιχείων πουκαταφέρνει το LB_Keogh.

Page 115: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

102ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

Σχήμα 4.3: Παράδειγμα υπολογισμού του LB_Keogh.

4.1.3 Πλαίσιο αποτελεσματικής ανάκτησης4.1.3.1 Επισκόπηση

Όπως ήδη αναφέρθηκε, οι αλγόριθμοι έρευνας σε ομότιμα δίκτυα βασίζονταιστην ακόλουθη διαδικασία: ο κόμβος που θέτει το επερώτημα εξετάζει το δικό τουπεριεχόμενο και αναφέρει τα δεδομένα που ικανοποιούν το επερώτημα. Στη συνέ-χεια, επιλέγει ένα σύνολο των γειτονικών του κόμβων και διαδίδει το επερώτημα.Κάθε κόμβος που το λαμβάνει, με τη σειρά του εξετάζει τα τοπικά δεδομένα καιπροωθεί το επερώτημα σε ένα σύνολο των γειτονικών του κόμβων. Προς αποφυγήανάμειξης απαγορευτικά μεγάλου αριθμού κόμβων, η διάδοση του επερωτήματοςπεριορίζεται από την παράμετρο MaxHop, η οποία καθορίζει το πλήθος των κόμ-βων στους οποίους το επερώτημα πρέπει να διαδοθεί.

Εξαιτίας του επιλεγμένου πρότυπου ομοιότητας, η πληροφορία που διαδίδεταιμεταξύ των κόμβων αποτελείται από τις ακολουθίες U και L της ακολουθίας τουεπερωτήματος (δηλ., οι φάκελοι του επερωτήματος). Κάθε κόμβος που λαμβάνειτις ακολουθίες αυτές υπολογίζει την τιμή του LB μεταξύ των δεδομένων του καιτων φακέλων. Όταν η τιμή του LB είναι μικρότερη από το κατώφλι ομοιότηταςπου έχει θέσει ο χρήστης, τότε η πραγματική ακολουθία του επερωτήματος μετα-δίδεται στον κόμβο αυτό2 και η πραγματική DTW απόσταση υπολογίζεται μεταξύτου επερωτήματος και του αντίστοιχου δεδομένου.

Τα επερωτήματα που εξετάζονται αποτελούνται από μουσικές φράσεις, δη-λαδή, τμήματα μουσικών κομματιών τα οποία αποτελούν έναν τύπο μουσικής μο-νάδας3. Το γεγονός αυτό είναι εμφανέστερο στα επερωτήματα με σιγο-τραγούδισμα

2Το επερώτημα μπορεί να μεταδοθεί κατευθείαν από τον κόμβο που το έθεσε, εφόσον, ο τρέχωνκόμβος γνωρίζει τη διεύθυνση του αρχικού.

3Το ελάχιστου μήκους τμήμα ενός μουσικού κομματιού που είναι νοηματικά αυτόνομο και

Page 116: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 103

(QBH), όπου οι χρήστες τείνουν να σιγο-τραγουδούν κομμάτια τα οποία (i) εί-ναι σχετικά μικρά, και (ii) είναι εμφανώς αναγνωρίσιμα και διαχωρισμένα σε ένατραγούδι. Η εύρεση των μουσικών φράσεων μπορεί να γίνει χρησιμοποιώντας τημεθοδολογία που παρουσιάζεται στην εργασία [60]. Ειδικότερα, στην [30] πα-ρουσιάζεται ένας αλγόριθμος μετατροπής ακουστικών δεδομένων σε συμβολικά.Τα χρονικά διάκενα, τα οποία αντιστοιχούν σε φράσεις στην τονική πληροφορία,εντοπίζονται μεταξύ των στιγμών όπου εμφανίζεται σιωπή (τα αντίστοιχα διάκεναδιαχωρίζουν τις φράσεις και στις ακουστικές ακολουθίες). Συνοπτικά, ενδιαφερό-μαστε στην ανεύρεση μουσικών δεδομένων τα οποία περιέχουν φράσεις όμοιες μεμια ακολουθία επερωτήματος. Η ομοιότητα βάσει της απόστασης DTW είναι κα-τάλληλη στο πλαίσιο αυτό, καθώς οι ιδιότητες της βοηθούν στην αναίρεση λαθώνπου το σιγο-τραγούδισμα προκαλεί.

Μια σημαντική παρατήρηση είναι ότι τα ακουστικά δεδομένα τείνουν να είναιαρκετά μεγάλα όσο αφορά τον όγκο τους σε σχέση με τα συνήθη δεδομένα τωνομότιμων δικτύων. Παρότι τα επερωτήματα αποτελούνται από μουσικές φράσεις(δηλ, τμήματα των μουσικών ακολουθιών), το πλήθος των στοιχείων σε μια φράσηλίγων δευτερολέπτων μπορεί να είναι της τάξης των εκατοντάδων χιλιάδων. Τομήκος των ακολουθιών U και L είναι ίσο με το μήκος του επερωτήματος. Κατάσυνέπεια, η άμεση προσέγγιση, που απευθείας διαδίδει τις ακολουθίεςU καιL με-ταξύ των κόμβων, οδηγεί σε υπερβολικά μεγάλο φόρτο δικτύου. Επιπλέον, όταντο μήκος των ακολουθιών φακέλου είναι μεγάλο, ο υπολογισμός του LB σε κάθεκόμβο μπορεί να αποβεί ιδιαίτερα δαπανηρός. Οι συνέπειες αυτές παραβιάζουντους περιορισμούς των ομότιμων δικτύων για όσο το δυνατό λιγότερη επεξεργα-στική επιβάρυνση των κόμβων. Εδώ πρέπει να σημειωθεί ότι οι προαναφερμένοιπεριορισμοί δεν υφίστανται σε διαφορετικά πεδία, όπως η έρευνα όμοιων δεδομέ-νων κειμένου σε ομότιμα δίκτυα όπου τα επερωτήματα αποτελούνται από μερικέςδεκάδες στοιχεία.

Ακολούθως, παρουσιάζεται μια μέθοδος που αντιμετωπίζει τα δυο προβλή-ματα και επιτυγχάνει σημαντική μείωση του φόρτου του ομότιμου δικτύου κατάτη διάρκεια ενός μουσικού επερωτήματος βάσει περιεχομένου. Η μέθοδος λει-τουργεί ως εξής:

• Μειώνει το μήκος των ακολουθιών φακέλου εφαρμόζοντας σε αυτές δειγ-ματοληψία. Ωστόσο, η απλή δειγματοληψία μπορεί να μην αποδειχθεί απο-δοτική, καθώς οδηγεί σε υποτίμηση του LB. Κατά συνέπεια, παρουσιάζεταιμια μέθοδος δειγματοληψίας με στόχο τη μείωση του μήκους των ακολου-θιών χωρίς σημαντική επιρροή στον υπολογισμό του LB. Επιπλέον, η μέ-θοδος εστιάζει στην αποφυγή εισαγωγής ψευδών αρνητικών ταιριασμάτων

πλήρες στο μουσικό κομμάτι από το οποίο προήλθε.

Page 117: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

104ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

εξαιτίας της χρήσης της δειγματοληψίας.

• Χρησιμοποιεί (οποτεδήποτε είναι εφικτό) μια συμπιεσμένη αναπαράστασητων δειγματισμένων ακολουθιών του φακέλου. Η αναπαράσταση αυτή απο-τελεί ένα είδος συμπίεσης για τις ακολουθίες, ωστόσο, δεν επιβάλλει επι-πλέον εργασιακό φόρτο στους κόμβους του ομότιμου δικτύου απαιτώνταςαποσυμπίεση. Όμως, εάν το φόρτος αποσυμπίεσης δεν αποτελεί κώλυμα,επιπλέον συμπίεση είναι δυνατή με τη χρήση ήδη υπαρκτών μεθόδων4.

Στη συνέχεια, περιγράφονται τα προαναφερθέντα πλήρη λεπτομερειών.

4.1.3.2 Μέθοδοι δειγματοληψίας και αναπαράστασης

Έστω ότι το μήκος της εξεταζόμενης φράσης είναι N . Το μήκος κάθε επερω-τήματος Q και κατά συνέπεια των άνω (U ) και κάτω (L) ακολουθιών θα είναιεπίσης N . Πρέπει να δειγματιστούν οι U και L έτσι ώστε να καταλήξουν σε δυοακολουθίες U ′ και L′, κάθε μία από τις οποίες θα είναι μήκουςM ≪ N . Αρχικά,εξετάζεται η ομοιόμορφη δειγματοληψία. Στην περίπτωση αυτή, απλά επιλέγε-ται κάθε φορά το (i × N/M)-στο στοιχείο της U και L, όπου 1 ≤ i ≤ M .Όταν υπολογίζεται το LB_Keogh μεταξύ της ακολουθίας επερωτήματος Q καιμιας ακολουθίας δεδομένων, θεωρείται κάθε φράση C μήκους N στο Q. Κάθεφράση πρέπει να δειγματιστεί όμοια με τις U και L, δίνοντας τη δειγματισμένηφράση C ′. Συνεπώς, το κάτω όριο LB′ υπολογίζεται ως εξής:

LB′ =

√√√√√ M∑i=1

(C ′

i − U ′i)

2, if C ′i > U ′

i

(C ′i − L′

i)2, if C ′

i < L′i

0, ´

(4.4)

Στην εξίσωση αυτή, η τρίτη περίπτωση (δηλ., όταν L′i ≤ Ci ≤ U ′

i) δεν συνει-σφέρει στον υπολογισμό του LB′. Το πρόβλημα που παρουσιάζει η ομοιόμορφηδειγματοληψία είναι ότι, καθώς επιλέγει στοιχεία χωρίς κάποιο ιδιαίτερο κριτή-ριο, επιλέγει πολλά στοιχεία των U και L τα οποία οδηγούν στην τρίτη αυτή πε-ρίπτωση. Συνεπώς, το LB′ υπολογίζεται ιδιαίτερα υποτιμημένο σε σύγκριση μετην περίπτωση δίχως δειγματοληψία. Η υποτίμηση της τιμής του κάτω ορίου έχειως αποτέλεσμα την αύξηση των ψευδών ταιριασμάτων, οι οποίοι προκαλούν αυ-ξημένο φόρτο δικτύου.

4Η κατεύθυνση αυτή δεν εξετάζεται καθώς δεν επηρεάζει τη σχετική απόδοση των μεθοδολο-γιών.

Page 118: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 105

Για την αντιμετώπιση του προβλήματος αυτού, απαιτείται μια εναλλακτικήμέθοδος δειγματοληψίας. Δειγματίζονται οι U και L ξεχωριστά. Αρχικά, ταξινο-μούνται τα στοιχεία της U σε αύξουσα διάταξη. Για την U ′ επιλέγονται τα πρώταM στοιχεία της διάταξης αυτής. Αντίστοιχα, ταξινομείται η L σε φθίνουσα διά-ταξη και επιλέγονται τα πρώταM στοιχεία της για την L′. Διαισθητικά, η επιλογήτωνM μικρότερων τιμών τηςU , οδηγεί στην αύξηση των εμφανίσεων της πρώτηςπερίπτωσης (δηλ., όταν C ′

i > U ′i), εφόσον όσο μικρότερες είναι οι τιμές της U ′

i ,τόσο περισσότερο είναι αναμενόμενο να υφίσταται ένα C ′

i μεγαλύτερο. Χρησι-μοποιώντας συμβατική φρασεολογία, στόχος είναι η αύξηση της δειγματοληψίαςαπό τις «γκρίζες» περιοχές (βλ. Σχήμα 4.3 της ενότητας 4.1.2). Ανάλογη μέθοδοςεφαρμόζεται και για τη δειγματοληψία της L′.

Είναι, κατά συνέπεια, εμφανή τα εξής:

ΛΗΜΜΑ 4.1. Η δειγματοληψία των U και L δεν προκαλεί ψευδή αρνητικά ταιριά-σματα.

Απόδειξη.Υπολογίζοντας το LB′, εξαιτίας της δειγματοληψίας, οι δυο πρώτες πε-ριπτώσεις της Εξίσωσης 4.4 παρουσιάζονται σπανιότερα από ότι κατά τον υπο-λογισμό του LB (δηλ., χωρίς δειγματοληψία). Συνεπώς, LB′ ≤ LB. ΕφόσονLB ≤ D (όπου D είναι η αντικειμενική απόσταση, υπολογισμένη με τη χρήσητης DTW), συνεπάγεται ότι LB′ ≤ D. Έτσι, δεν προκαλούνται ψευδή αρνητικά.�

Η ξεχωριστή δειγματοληψία των U και L παρουσιάζει την αναγκαιότητα γιααποθήκευση των θέσεων από τις οποίες τα στοιχεία επιλέχθηκαν για τις U ′ και L′.Εάν οι θέσεις αποθηκευτούν ρητά, τότε διπλασιάζεται ο όγκος της πληροφορίαςπου διατηρείται (2M στοιχείων για την αποθήκευση των U ′ και L′, και επιπλέον2M στοιχεία για την αποθήκευση των θέσεων των επιλεγμένων στοιχείων). Κα-θώς οι πληροφορίες αυτές μεταδίδονται κατά το επερώτημα, αυξάνεται ο φόρτοςτου δικτύου, για την αποφυγή του οποίου προτείνεται μια εναλλακτική αναπαρά-σταση. Για την αναπαράσταση της U ′, χρησιμοποιείται ένα πίνακας bit μήκουςN(ίσο με το μήκος της φράσης). Κάθε bit αντιστοιχεί σε ένα στοιχείο της U . Γιακάθε στοιχείο που επιλέγεται για το δειγματισμό στην U ′, το bit του γίνεται ίσο μετη μονάδα, ενώ εναλλακτικά έχει μηδενική τιμή. Κατά συνέπεια, για την αναπα-ράσταση της U ′ χρησιμοποιούνται ο συνδυασμός του πίνακα bit και οι M τιμέςπου επιλέχθηκαν για την U ′. Όμοια μέθοδος χρησιμοποιείται και για την L′. Ηαποδοτικότητα της αναπαράστασης γίνεται εμφανής από το χώρο που απαιτεί γιατην U ′ ο οποίος είναιM + ⌈N/8⌉ bytes.5 Η απλοϊκή αναπαράσταση απαιτεί 5M

5Κάθε στοιχείο μιας ακουστική μουσικής ακολουθίας, για την αναπαράσταση MIDI, έχει τιμήστο διάστημα 0-255, και συνεπώς απαιτεί μόνο ένα byte.

Page 119: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

106ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

bytes (καθώς χρειάζεται μόνο ένα ακέραιο, δηλ., 4 bytes, για την αποθήκευση τηθέση κάθε επιλεγμένου στοιχείου). Κατά συνέπεια, η μέθοδος αυτή πλεονεκτείόταν N < 32M , δηλ., για δείγματα μεγαλύτερα από 3%.

4.1.4 Αλγόριθμοι εύρεσης ομοιότητας

Στην ενότητα αυτή παρουσιάζεται η μεθοδολογία με την οποία ήδη υπαρ-κτοί αλγόριθμοι αναζήτησης ομότιμων δικτύων μπορούν να χρησιμοποιηθούν στοπλαίσιο αποτελεσματικής ανάκτησης μουσικής πληροφορίας βάσει περιεχομένου.Οι υπαρκτοί αλγόριθμοι προτάθηκαν, κυρίως, για την αναζήτηση δεδομένων κει-μένου όμοιων με ένα επερώτημα κειμένου. Συνεπώς, η άμεση εφαρμογή τους γιατην αναζήτηση μουσικών δεδομένων δεν θα εξέταζε το σημαντικά μεγαλύτεροόγκο των μουσικών δεδομένων οδηγώντας σε υπερβολικό φόρτο δικτύου. Ακο-λούθως, εξετάζεται η μετατροπή των αλγόριθμων BFS, >RES και ISM.

4.1.4.1 Ο αλγόριθμος BFSS

Όπως ήδη περιγράφθηκε, ο απλούστερος αλγόριθμος αναζήτησης είναι βάσειτης έρευνας με προτεραιότητα πλάτους. Ο προσαρμοσμένος αλγόριθμος, που χρη-σιμοποιεί την προαναφερθείσα δειγματοληψία και μέθοδο αναπαράστασης, ονο-μάζεται BFSS (Breadth-First-Search with Sampling). Ο ψευδο-κώδικας του BFSSδίνεται στο Σχήμα 4.4. Κάθε φορά, εξετάζεται ο τρέχων κόμβος n. Η μεταβλητήTTL υποδηλώνει τις διαθέσιμες επανεκπομπές που διαθέτει ο n, ενώ, η Ts είναι τοκατώφλι ομοιότητας που έθεσε ο χρήστης. Θεωρούμε πως οι ακολουθίες U ′ καιL′ επίσης μεταφέρουν και τους αντίστοιχους πίνακες bit.

Προφανώς, η διάδοση της πραγματικής ακολουθίας επερωτήματος από τονκόμβο που ξεκίνησε το επερώτημα στον τρέχων κόμβο, αυξάνει το φόρτο τουδικτύου (καθώς το επερώτημα δεν έχει υποστεί δειγματοληψία, η ακολουθία επε-ρωτήματος έχει πολύ μεγάλο μήκος). Για το λόγο αυτό, είναι ιδιαίτερα σημαντικόνα εμφανίζεται μικρός αριθμός ψευδών ταιριασμάτων.

Είναι πιθανό ότι η έκδοση του αλγορίθμου που δεν περιλαμβάνει δειγματολη-ψία (ονομασμένη ως BFS) θα προκαλέσει μικρότερο αριθμό ψευδών ταιριασμά-των, ωστόσο, μεταξύ κάθε ζευγαριού κόμβων πρέπει να διαβιβαστούν οι ακολου-θίες U και L, με μήκος ίσο της ακολουθίας επερωτήματος. Είναι λοιπόν εμφανές,ότι υφίσταται μια αντιστάθμιση μεταξύ του πλήθους των επιπλέον ψευδών ται-ριασμάτων που προκαλούνται από τη δειγματοληψία και της μείωση του φόρτουδικτύου από τη μετάδοση των δειγματισμένων (δηλ., μικρότερων) φακέλων.

Page 120: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 107

Procedure BFSS(Node n, int TTL, Sequence U ′, Sequence L′, float Ts)begin1. foreach data sequence D in n2. foreach phrase C of D3. l = LB′(C,U ′, L′)

4. if l < Ts

5. get query sequence6. compute actual DTW distance,D, between phrase C & query7. if D ≤ Ts

8. include C in answer set9. if TTL > 0

10. foreach peer p of n that has not been visited yet11. BFSS(p, TTL-1, U ′, L′, Ts)end

Σχήμα 4.4: Ο αλγόριθμος BFSS.

4.1.4.2 Ο αλγόριθμος >RESS

Ο αλγόριθμος >RESS προσπαθεί να μειώσει το πλήθος των μονοπατιών ταοποία εξετάζονται κατά τη διάρκεια της αναζήτησης. Αντί της τυχαίας επιλογήςενός υποσυνόλου των γειτονικών κόμβων του τρέχοντος κόμβου, διατηρεί μια κα-τατομή για κάθε τέτοιο κόμβο και βασίζει την επιλογή του στην κατατομή αυτή.Ειδικότερα, κάθε κόμβος διατηρεί για καθένα από τους γειτονικούς του κόμβουςτο πλήθος των θετικών αποτελεσμάτων που έδωσε. Στη συνέχεια, επιλέγει τους kκόμβους που έδωσαν τις περισσότερες απαντήσεις κατά τη διάρκεια των τελευ-ταίωνm επερωτημάτων. Οι μεταβλητές k καιm ορίζονται από το χρήστη.

Είναι προφανές ότι ο αλγόριθμος >RES μπορεί εύκολα να προσαρμοστεί στοπλαίσιο αποτελεσματικής ανάκτησης. Η ακολουθία επερωτήματος θα δειγματι-στεί και θα αναπαρασταθεί σύμφωνα με την προαναφερθείσα μέθοδο. Οι δυο με-ταβολές αυτές δεν επηρεάζουν τις κατατομές που διατηρεί ο >RES. Η μέθοδοςπου προκύπτει ονομάζεται >RESS (>RES with sampling). Ο ψευδο-κώδικας τηςμεθόδου >RESS δίνεται στο Σχήμα 4.5.

Καθώς μόνο ένα υποσύνολο των κόμβων εμπλέκονται στη διαδικασία, ο>RESSπροσπαθεί να μειώσει το φόρτο δικτύου αποφεύγοντας να χάσει μεγάλο αριθμόαπαντήσεων.Ωστόσο, συγκρινόμενος με τονBFSS, ο>RESS αναμένεται να εντο-πίσει λιγότερες απαντήσεις.

Page 121: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

108ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

Procedure >RESS(Node n, int TTL, Sequence U ′, Sequence L′, float Ts, int k, intm)begin1. foreach data sequence D in n2. foreach phrase C of D3. l = LB′(C,U ′, L′)

4. if l < Ts

5. get query sequence6. compute actual DTW distance, D, between phrase C & query7. if D ≤ Ts

8. include C in answer set9. if TTL > 0

11. Pk = set of k peers that provided most answers for them previous queries12. foreach peer p ∈ Pk

13. >RESS(p, TTL-1, U ′, L′, Ts, k,m)14. Update the profile of pend

Σχήμα 4.5: Ο αλγόριθμος >RESS.

4.1.4.3 Ο αλγόριθμος ISMS

Ο αλγόριθμος ISM έχει τον ίδιο στόχο με τον>RES, δηλ., προσπαθεί να μειώ-σει το πλήθος των εξεταζόμενων μονοπατιών. Ωστόσο, η κατατομή που διατηρείγια κάθε κόμβο είναι διαφορετική. Ο ISM δεν βασίζει την απόφαση του μόνο στοναριθμό των απαντήσεων των προηγουμένων επερωτημάτων, αλλά επίσης εξετάζειτην ομοιότητα μεταξύ των προηγούμενων επερωτημάτων και του τρέχοντος. Κατάσυνέπεια, για κάθε γειτονικό κόμβο, κάθε κόμβος διατηρεί τα t πιο πρόσφατα επε-ρωτήματα που απαντήθηκαν. Όταν ένα νέο επερώτημα q διαβιβαστεί στον κόμβο,τότε υπολογίζεται η ομοιότητα του Qsim με όλα τα επερωτήματα που διατηρού-νται στην κατατομή κάθε κόμβου. Ένα μέτρο βαθμολόγησης σχετικότητας δίνεταισε κάθε κόμβο Pi, χρησιμοποιώντας τον ακόλουθο τύπο:

RRQ(Pi, q) = Qsim(qj, q)α × S(Pi, qj)

όπου S(Pi,qj) είναι το πλήθος των αποτελεσμάτων που επέστρεψε ο Pi για το επε-ρώτημα qj . Συνεπώς, ο ISMβαθμολογεί υψηλότερα τους γειτονικούς κόμβους πουεπιστρέφουν περισσότερα αποτελέσματα με τη ρύθμιση της παραμέτρου α. Για ναγίνει η σύγκριση περισσότερο κατανοητή, ορίζεται η α ίση με τη μονάδα, και κατά

Page 122: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.1. ΔΙΚΤΥΑ P2P 109

συνέπεια το μέτρο εστιάζει μόνο στο κριτήριο της ομοιότητας. Πρέπει επίσης ναεπισημανθεί ότι ο ISM είναι πιθανό να παρουσιάσει μια προδιάθεση προς τουςκόμβους οι οποίοι απάντησαν επερωτήματα περίπου όμοια, στο παρελθόν, μη δί-νοντας έτσι την ευκαιρία σε νέους κόμβους να εξερευνηθούν. Για το λόγο αυτό, ηακόλουθη ευρεστική μέθοδος, όπως εφαρμόζεται και στην εργασία [22], ακολου-θείται: εκτός των επιλεγμένων κόμβων βάσει των προαναφερθέντων κριτηρίων, οISM επίσης επιλέγει τυχαία ένα επιπλέον μικρό σύνολο κόμβων (λ.χ., ένα κόμβο).Συνολικά, k κόμβοι επιλέγονται, όπου η παράμετρος k ορίζεται από το χρήστη.Το μήκος κάθε κατατομής (ο αριθμός των επερωτημάτων που διατηρούνται στιςκατατομές) ορίζεται επίσης από το χρήστη.

Procedure ISMS(Node n, int TTL, Sequence U ′, Sequence L′, float Ts, int k)begin1. foreach data sequence D in n2. foreach phrase C of D3. l = LB′(C,U ′, L′)

4. if l < Ts

5. get query sequence6. compute actual DTW distance,D, between phrase C & query7. if D ≤ Ts

8. include C in answer set9. if TTL > 0

11. Pk = set of k peers that have the most similar queries in their profiles12. foreach peer p ∈ Pk

13. ISMS(p, TTL-1, U ′, L′, Ts, k)14. Update the profile of pend

Σχήμα 4.6: Ο αλγόριθμος ISMS.

Για την προσαρμογή του ISM στο πλαίσιο αποτελεσματικής ανάκτησης, πρέ-πει να εξετάστεί το πώς θα διατηρηθούν τα προηγούμενα επερωτήματα. Στο πλαί-σιο αυτό, οι ακολουθίες επερωτημάτων αναπαρίστανται από τις δειγματισμένεςακολουθίες τους. Συνεπώς, υπολογίζεται η ομοιότητα μεταξύ του δείγματος τουτρέχοντος επερωτήματος και των δειγματισμένων ακολουθιών των προηγούμενωναπαντημένων επερωτημάτων. Για το λόγο αυτό, στις κατατομές των κόμβων δια-τηρούνται οι δειγματισμένες ακολουθίες των απαντημένων επερωτημάτων. Γιατην εξοικονόμηση χρόνου κατά τη διάρκεια της βαθμολόγησης, αντί για τη μέ-

Page 123: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

110ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

τρηση της πραγματικής ομοιότητας (με τη χρήση του μέτρου DTW), υπολογίζε-ται το LB_Keogh. Ο αλγόριθμος που προκύπτει ονομάζεται ISMS (ISM withsampling), ενώ ο ψευδο-κώδικας του αλγορίθμου δίνεται στο Σχήμα 4.6.

Ο ISMS αναμένεται να έχει ελαφρά μεγαλύτερο φόρτο δικτύου από ότι ο>RESS εφόσον μεταδίδει τη δειγματισμένη ακολουθία των απαντημένων επε-ρωτημάτων σε όλους τους κόμβους που συμμετέχουν στην έρευνα (ώστε να ενη-μερώσουν την κατατομή τους). Ωστόσο, ελέγχοντας το περιεχόμενο των επερω-τημάτων, προσπαθεί να μειώσει τον αριθμό των χαμένων απαντήσεων.

4.2 Ασύρματα δίκτυα

4.2.1 Η μουσική διάθεση υιοθετεί ένα νέο πρότυπο

Φανταστείτε να ακούτε μουσική ενώ τρέχετε ή ξεκουράζεστε σε ένα άλσος απόμια υπερ-συσκευή που να χωρά στην τσέπη και να είναι πολύ ελαφριά. Μια συ-σκευή η οποία, εκτός της δεδομένης ικανότητας να αναπαράγει προαποθηκευμένημουσική (τύπου MP3, WMA, WAV κλπ.) σε περιοχές όπου δεν καλύπτονται απόασύρματα τοπικά δίκτυα, μπορεί επίσης να αναζητήσει και να αποκτήσει μουσικάκομμάτια από άλλες παρεμφερείς συσκευές. Η ανταλλαγή αυτή των μουσικώνδεδομένων είναι εφικτή απουσία πρόσβασης στο διαδίκτυκο μέσω της διέπαφήςασύρματης επικοινωνίας της συσκευής η οποία επιτρέπει τη συμμετοχή της σεΑσύρματα Αd-hoc6 Δίκτυα (ΑΑΔ), τα οποία σχηματίζονται από όμοιες συσκευέςόταν βρίσκονται σε κοντινή απόσταση. Παρότι τα προαναφερθέντα γεγονότα μπο-ρεί να ακούγονται πιθανά μόνο στο μέλλον, στην πραγματικότητα η υλοποίησητους είναι πολύ κοντά.

Έχοντας ήδη πλησιάσει το τέλος εποχής των παραδοσιακών μεθόδων διάθε-σης της μουσικής [46], το εμπορικό πρότυπο αλλά και οι αγοραστικές συνήθειεςτων καταναλωτών αναμορφώθηκαν από την ανάπτυξη τεχνολογιών όπως το MP3και τη διείσδυση του Παγκόσμιου Ιστού (WWW). Τα ομότιμα δίκτυα καθώς και ηπλέον ώριμη τεχνολογία κατανεμημένης διάθεσης αρχείων, δίνουν τη δυνατότηταδιάδοσης μουσικού περιεχομένου σε ψηφιακή μορφή, επιτρέποντας στους κατα-ναλωτές μια «πανταχού παρούσα» πρόσβαση σε αποθηκευμένα μουσικά αρχεία.

Ολοκαίνουργιες ευκαιρίες για τη διάθεση της μουσικής δημιουργεί επιπλέονκαι η ευρύτατη διείσδυση των ασύρματων δικτύων (ασύρματα τοπικά δίκτυα,GPRS, UMTS [13]) όπως οι πρωτοπόρες εφαρμογές [48] διανομής ψηφιοποιη-μένων τραγουδιών σε φορητές συσκευές. Οι εφαρμογές αυτές βασίζονται στην

6Ο όρος ad-hoc δεν έχει δόκιμο αντίστοιχο στην Ελληνική γλώσσα και για το λόγο αυτό πα-ραμένει στην Αγγλική. Στο παρόν ενέχει σημασία «μη ρητά δομημένο».

Page 124: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 111

ύπαρξη ενός κεντρικού εξυπηρετητή, ο οποίος λαμβάνει τα αιτήματα από τουςασύρματους πελάτες και τους παραδίδει μουσικά αρχεία. Ωστόσο, εκτός αυτώντων ενός επιπέδου διάρθρωσης ασύρματων δικτύων, η διάθεση μουσικής μπορείεπίσης να πραγματοποιηθεί και στα αναπτυσσόμενα ΑΑΔ. Τα ΑΑΔ είναι ομό-τιμα, πολυεπίπεδα, κινητά, ασύρματα δίκτυα όπου τα πακέτα πληροφορίας εκπέ-μπονται με τη μέθοδο “store-and-forward” από τον πομπό στον αποδέκτη, μέσωενδιάμεσων κόμβων. Τα δίκτυα αυτά αναμένονται να επιτρέψουν σε υποθέσειςόπως αυτό με το πάρκο που αναφέρθηκε στην αρχή της ενότητας αυτής. Τα κύριαχαρακτηριστικά των δικτύων αυτών, λ.χ., δυναμική τοπολογία, συνδέσεις επικοι-νωνίας περιορισμένου εύρους ζώνης και περιορισμένοι διαθέσιμοι πόροι εισάγουνιδιαίτερες σχεδιαστικές προκλήσεις.

Η ενότητα αυτή εστιάζει στο ακόλουθο πρόβλημα: Έστω ένα πλήθος κινητώνξενιστών (Mobile Hosts - MH) οι οποίοι συμμετέχουν σε ένα ΑΑΔ, όπου κάθε ξε-νιστής μπορεί να φιλοξενεί μια πληθώρα μουσικών ακουστικών κομματιών. Έστωότι ένας χρήστης επιθυμεί να ερευνήσει το ασύρματο δίκτυο για τραγούδια όμοιαμε ένα που διαθέτει. Για παράδειγμα, ο χρήστης μπορεί να δώσει ένα πολύ μι-κρό κομμάτι τραγουδιού (ένα απόσπασμα) και να ερευνήσει το δίκτυο για να βρεικόμβους που έχουν αποθηκευμένα όμοια μουσικά κομμάτια. Όπως θα περιγραφείστη συνέχεια, ο ορισμός της ομοιότητας μπορεί να βασιστεί σε διάφορα χαρα-κτηριστικά τα οποία έχουν αναπτυχθεί για ΑΜΠΒΠ. Είναι σημαντικό να σημειω-θεί ότι στο τρέχον σενάριο ο ξενιστής που θέτει το επερώτημα δεν έχει πρότερηγνώση ούτε των κατάλληλων μουσικών κομματιών που διαθέτει το δίκτυο αλλάκαι ούτε την τοποθεσία των ξενιστών που τα περιέχουν. Το γεγονός αυτό διαφορο-ποιεί το παρόν πρόβλημα από τα προβλήματα που αντιμετωπίζουν τον εντοπισμότων ξενιστών σε ένα ΑΑΔ που περιέχουν γνωστά δεδομένα. Επιπλέον, το εξεταζό-μενο πρόβλημα είναι συμπληρωματικό του προβλήματος διάθεσης πολυμεσικώνροών δεδομένων σε ΑΑΔ, καθώς στην περίπτωση αυτή δεν περιέχεται αναζήτησηόμοιων μουσικών κομματιών, παρά μόνο εστιάζει στην μεταφορά των δεδομένωναπό τον ένα ξενιστή στον άλλο.

4.2.1.1 Απαιτήσεις που ορίζονται από το ασύρματο μέσο

Η έρευνα αυτή εστιάζει στην ανάπτυξη μεθόδων για αναζήτηση ακουστικήςμουσικής βάσει περιεχομένου σε ΑΑΔ, όπου ο κόμβος που θέτει το επερώτημαλαμβάνει μουσικά αποσπάσματα τα οποία ταιριάζουν με το επερώτημα.

Η διαδικασία έρευνας μπορεί να εκμεταλλευτεί τις πρόσφατες προσεγγίσειςγια ΑΜΠΒΠ σε ενσύρματα ομότιμα δίκτυα (βλ. ενότητα 4.2.2.1. Ωστόσο, ο συν-δυασμός των χαρακτηριστικών του ασύρματου δικτύου και των ακουστικών μου-σικών δεδομένων θέτουν νέες προκλητικές απαιτήσεις, οι οποίες απαιτούν και

Page 125: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

112ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

αντίστοιχες λύσεις:

1. Οι μέθοδοι ΑΜΠΒΠγια ενσύρματα ομότιμα δίκτυα δεν εξετάζουν τη διαρκήμεταβολή της τοπολογίας του δικτύου, η οποία είναι εγγενής στα ΑΑΔ κα-θώς οι ασύρματοι ξενιστές (Mobile Hosts - MH, οι όροι MH και κόμβοςείναι όμοιοι στην παρούσα ενότητα και κατά συνέπεια εναλλασσόμενοι) κι-νούνται εντός και εκτός του πεδίου των άλλων διαρκώς. Μια συνέπεια τηςκινητικότητας αυτής είναι ότι η επιλεκτική διάδοση ενός επερωτήματος σεMH, λ.χ., χρησιμοποιώντας μια δομή δεικτοδότησης όπως η DHT7 [5] όπωςπροτείνεται από την εργασία [51] ή η διαδικασία caching8 προηγούμενωνεπερωτημάτων ([22] για δεδομένα κειμένου και [25] μουσικά δεδομένα),δεν είναι δυνατή. Επιπλέον, η ανάκληση της διαδικασίας έρευνας επηρεά-ζεται από την πιθανότητα ανεπιτυχούς δρομολόγησης του επερωτήματος,αλλά και των απαντήσεων, λόγω της μεταβαλλόμενης τοπολογίας. Συνε-πώς, απαιτείται ανάπτυξη κατάλληλων μεθόδων μετάδοσης του επερωτή-ματος στα ΑΑΔ.

2. Μείωση του φόρτου δικτύου που βασίζεται στο μέγεθος των ακουστικώνμουσικών δεδομένων (περίπου 8 mebibytes για 3 λεπτά επερωτήματος). Ημείωση αυτή είναι εφικτή αντικαθιστώντας το αρχικό επερώτημα με μια νέααναπαράσταση η οποία χρησιμοποιεί μια καινούργια κατάλληλη μέθοδο με-ταβολής μήκους του επερωτήματος. Παρότι ο φόρτος δικτύου επηρεάζειτην ΑΜΠΒΠ σε ενσύρματα ομότιμα δίκτυα επίσης, το αίτημα μείωσης τουφόρτου δικτύου στα ΑΑΔ είναι ιδιαίτερα πιο έντονο, καθώς η επικοινω-νιακή ικανότητα περιορίζεται λόγω της συνήθως μικρότερης διαμεταγωγήςτων ασύρματων συνδέσεων. Στο σημείο αυτό είναι σημαντικό να αναφερθείότι η μείωση του φόρτου του δικτύου μειώνει επίσης και την ανάμειξη τωνάλλων MH, εξαιτίας περιορισμών στη χρήση των πόρων τους (λ.χ. επεξερ-γαστική ισχύ, αυτονομία, διαμεταγωγή).

3. Στην ΑΜΠΒΠ σε ενσύρματα ομότιμα δίκτυα, μετά τον εντοπισμό ενός ται-ριάσματος, μπορεί να επιστραφεί στον κόμβο που έθεσε το επερώτημα απευ-θείας, καθώς ο ερωτών κόμβος είναι άμεσα προσβάσιμος (μέσω της διεύ-θυνσης IP του). Σε αντίθεση, στα ΑΑΔ οι απαντήσεις του επερωτήματοςπρέπει να μεταδοθούν στον ερωτώντα ξενιστή μέσω του δικτύου (ο κόμβος

7Distributed Hash Tables. Στα συστήματα αυτά κάθε κόμβος αναλαμβάνει μια περιοχή σε έναεικονικό χώρο διευθύνσεων, ενώ σε κάθε μοιραζόμενο δεδομένο ανατίθεται μια τιμή από το χώροαυτό.

8Ο όρος caching δεν έχει δόκιμο αντίστοιχο στην Ελληνική γλώσσα και για το λόγο αυτό πα-ραμένει στο κείμενο στην Αγγλική. Στο παρόν έχει σημασία «αποθήκευσης».

Page 126: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 113

που έθεσε το επερώτημα δεν είναι άμεσα προσβάσιμος). Το αίτημα αυτόεπιβαρύνει επιπλέον το φόρτο του δικτύου, απαιτώντας βελτιστοποίηση.

Τα προαναφερθέντα θέματα αντιμετωπίζονται, έως ένα βαθμό, από αλγόριθ-μους που προτάθηκαν για το πρόβλημα δρομολόγησης σε ΑΑΔ, παρότι δεν αντι-μετωπίζουν ούτε τις ιδιαιτερότητες της έρευνας για ΑΜΠΒΠ ούτε το μέγεθος τωνμεταδιδόμενων δεδομένων, καθώς τα μουσικά δεδομένα είναι σημαντικά μεγαλύ-τερα από ότι τα συνήθη πακέτα.

Για την αντιμετώπιση των αιτημάτων που θέτει το ασύρματο μέσο, παρουσιά-ζονται οι ακόλουθες τεχνικές:

1. Για το πρώτο αίτημα, εκτελείται μια έρευνα με προτεραιότητα πλάτους στοΑΑΔ χρησιμοποιώντας πληροφορίες για τους γειτονικούς MH (τις πληρο-φορίες για τους γειτονικούς κόμβους τις αποκτά κάθε κόμβος εξετάζονταςτους γείτονες του ανά χρονικά διαστήματα). Η προσέγγιση αυτή αντιμετω-πίζει επιτυχώς την κινητικότητα, διατηρεί υψηλή τελική ανάκληση και πε-ριορίζει τα μειονεκτήματα της μεθόδου πλημμυρίσματος, λ.χ., υπερβολικόςφόρτος δικτύου εξαιτίας καθολικών εκπομπών9 (broadcast).

2. Το δεύτερο αίτημα αντιμετωπίζεται με μια τεχνική που χρησιμοποιεί μια συ-νοπτική, βασισμένη σε χαρακτηριστικά αναπαράσταση του επερωτήματοςμε μειούμενο μέγεθος. Η Αναπαράσταση του Επερωτήματος με το Μειού-μενο Μέγεθος (ΑΕΜΜ) μειώνει δραστικά το φόρτο του δικτύου, μειώνο-ντας επίσης και τον επεξεργαστικό φόρτο σε κάθε MH.

3. Ο επιπλέον φόρτος δικτύου που προκαλεί το τρίτο αίτημα αντιμετωπίζε-ται με μια διπλή μέθοδο: (i) χρήση πολιτικών για τον περιορισμό του πλή-θους των MH που αναμειγνύονται στην μετάδοση των απαντήσεων, εκμε-ταλλευόμενοι MH που συμμετείχαν στην διάδοση του επερωτήματος, (ii)επιτρέπεται σε τέτοιους MH να μειώσουν την μετάδοση των απαντήσεων,βασιζόμενοι σε μια ιδιότητα της προαναφερθείσας αναπαράστασης.

4.2.2 Γενικές γνώσεις και σχετικές εργασίεςΗ σχετική έρευνα σε εφαρμογές ΑΜΠΒΠ σε ενσύρματα ομότιμα δίκτυα είναι

αρκετά πρόσφατη και περιορισμένη όπως παρουσιάστηκε στην ενότητα 4.2.2.1.Στην παρούσα ενότητα, αντιμετωπίζεται ένα ΑΑΔ όπου δυο κόμβοι επικοινω-

νούν μόνο όταν βρίσκονται σε φυσική εγγύτητα (εντός πεδίου). Όπως περιγρά-φτηκε ήδη, στα δίκτυα αυτού του τύπου οι κόμβοι συμμετέχουν τυχαία και για,

9Περιγράφεται στην ενότητα 4.2.2.1.

Page 127: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

114ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

συνήθως, μικρό χρονικό διάστημα λόγω της κινητικότητάς τους, ενώ όταν συμ-μετέχουν αλλάζουν συχνά την τοποθεσία τους. Οι παράγοντες αυτοί κάνουν τιςυπαρκτές μεθόδους, λ.χ., δεικτοδότησης, να μην είναι εφαρμόσιμες.

4.2.2.1 Ανεύρεση/Παροχή πληροφορίας σε ΑΑΔ

Όπως προαναφέρθηκε, ένα κινητό ΑΔΔ (MANET) είναι μια συλλογή ασύρμα-τωνMH οι οποίοι σχηματίζουν ένα προσωρινό δίκτυο χωρίς τη βοήθεια κεντρικήςδιαχείρισης ή δεδομένων υπηρεσιών υποστήριξη που να είναι τακτικά διαθέσιμεςστο ευρύτερο δίκτυο, στο οποίο οι ξενιστές είναι συνήθως συνδεδεμένοι. Ότανένας κόμβος πηγή επιθυμεί να στείλει ένα μήνυμα σε ένα κόμβο προορισμό καιδεν έχει ένα ισχύοντα δρόμο/μονοπάτι προς στον κόμβο προορισμό, αρχίζει μιαδιαδικασία ανεύρεσης μονοπατιού ώστε να εντοπίσει τον προορισμό. Εκπέμπεικαθολικά αίτημα ανεύρεσης δρόμου στους γειτονικούς του κόμβους, το οποίοεκείνοι το προωθούν στους γειτονικούς τους κ.ο.κ. μέχρι ο κόμβος προορισμόςή κάποιος ενδιάμεσος κόμβος με δρόμο στον προορισμό να εντοπιστεί. Οι κόμ-βοι εντοπίζονται από τη διεύθυνση τους και διατηρούν μια ταυτότητα εκπομπής ηοποία αυξάνεται μετά από κάθε αίτημα ανεύρεσης δρόμου που ξεκινούν. Η ταυτό-τητα εκπομπής συνδυασμένη με τη διεύθυνση, προσδιορίζει μοναδικά μια αίτησηανεύρεσης δρόμου. Παρόμοια, οι αιτήσεις δεδομένων που εκπέμφθηκαν μπορούννα προσδιοριστούν.

Στα δίκτυα τύπου MANET δεν υπάρχει εκτεταμένη προηγούμενη ερευνητικήεργασία γιαΑΜΠΒΠ, παρότι υφίσταται μια πληθώρα αλγορίθμων δρομολόγησης,εκτός των [23, 26] στις και οποίες βασίζεται η παρούσα ενότητα.

Οι αλγόριθμοι δρομολόγησης για τα δίκτυα MANET είναι ριζικά διαφορετι-κοί από ότι στα παραδοσιακά πρωτόκολλα δρομολόγησης (λ.χ., προτεραιότητασυντομότερου ανοικτού μονοπατιού) και τα πρωτόκολλα εύρεσης πληροφορίας(λ.χ., κατανεμημένους πίνακες κατακερματισμού) που χρησιμοποιούνται σε εν-σύρματα δίκτυα, εξαιτίας της απουσίας σταθερής υποδομής (εξυπηρετητές, ση-μεία πρόσβασης, δρομολογητές και καλώδια) στα MANET αλλά και της κινητι-κότητας των κόμβων. Για τα ΑΑΔ, προτάθηκαν [1] αρκετά πρωτόκολλα δρομο-λόγησης/ανεύρεσης που κατά προσέγγιση εμπίπτουν στις ακόλουθες κατηγορίες:α) βάσει πίνακα, β) κατά απαίτηση που ξεκινούν από την πηγή και γ) υβριδικά.Εκτός των πρώτων, τα οποία απαιτούν συνεπή ενημέρωση των δρόμων από κάθεκόμβο σε κάθε άλλο κόμβο του δικτύου, συνεπώς, καθιστώντας τα μη πραγματο-ποιήσιμα για μεγάλης κλίμακας δυναμικά MANET, οι υπόλοιπες δύο οικογένειεςπρωτοκόλλων βασίζονται σε κάποια μορφή καθολικής εκπομπής. Η καθολική εκ-πομπή είναι η βέλτιστη λύση σε περιπτώσεις όπου πακέτα πληροφορίας μεταδί-δονται σε πολλαπλούς ξενιστές στο δίκτυο. Η μέθοδος πλημμυρίσματος είναι η

Page 128: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 115

απλούστερη μορφή καθολικής εκπομπής, όπου κάθε κόμβος στο δίκτυο προω-θεί το πακέτο πληροφορίας μια φορά ακριβώς. Το πλημμύρισμα εξασφαλίζει τηνπλήρη κάλυψη του MANET, εφόσον δεν υφίστανται κατατμήσεις του δικτύου,παρότι προκαλεί πολλές πλεονάζουσες εκπομπές, προκαλώντας το πρόβλημα τηςκαταιγίδας καθολικών εκπομπών [42].

Πολλοί αλγόριθμοι προτάθηκαν [38] για την αντιμετώπιση του προαναφερθέ-ντος προβλήματος. Οι λύσεις αυτές κατηγοριοποιούνται ως εξής: α) πιθανολογικέςπροσεγγίσεις (βασισμένες σε μετρητές, απόσταση και τοποθεσία) και β) αιτιοκρα-τικές προσεγγίσεις (καθολικές, φαινομενικά καθολικές, φαινομενικά τοπικές, το-πικές). Οι πρώτες μέθοδοι δεν εγγυώνται την πλήρη κάλυψη του δικτύου, ενώ οιτελευταίες την εγγυώνται, και κατά συνέπεια είναι προτιμώμενες.

Οι αιτιοκρατικές προσεγγίσεις παρέχουν πλήρη κάλυψη του δικτύου για τη λει-τουργία καθολικής εκπομπής, επιλέγοντας μόνο ένα υποσύνολο των κόμβων γιατην μετάδοση των πακέτων (κόμβοι προώθησης), ενώ οι υπόλοιποι κόμβοι παρα-μένουν γειτονικοί στους κόμβους που προωθούν το πακέτο. Η επιλογή των κόμ-βων γίνεται χρησιμοποιώντας πληροφορίες «κατάστασης», όπως την τοπολογίαδικτύου και την κατάσταση καθολικής εκπομπής (δηλ., τον επόμενο κόμβο πουεπιλέχθηκε να μεταδώσει το πακέτο, τους κόμβους που δέχτηκαν επίσκεψη πρό-σφατα και το σύνολο των γειτονικών τους κόμβων). Όλες οι κατηγορίες των αι-τιοκρατικών αλγορίθμων, εκτός των τοπικών αλγορίθμων, απαιτούν (πλήρεις ήμερικές) πληροφορίες καθολικής κατάστασης, κατά συνέπεια είναι μη πρακτικοί.Οι τοπικοί ή καταδεικτικοί γειτόνων αλγόριθμοι διατηρούν μερικές πληροφορίεςτοπικής κατάστασης, δηλ., πληροφορία για την πρώτου επιπέδου γειτονιά μέσωανταλλαγής μηνυμάτων τύπου ‘HELLO’, μια μέθοδος που είναι εφικτή και μη δα-πανηρή. Στις μεθόδους κατάδειξης γειτόνων, η κατάσταση προώθησης ενός κόμ-βου εξαρτάται από τους γείτονες του. Στην πραγματικότητα, ο κόμβος πηγή επι-λέγει ένα υποσύνολο των γειτόνων των κόμβων πρώτου επιπέδου του ως κόμβουςπροώθησης ώστε να καλύψει τους γείτονες δεύτερου επιπέδου του. Ο κατάλο-γος κόμβων προώθησης αυτός ενσωματώνεται στο πακέτο που εκπέμπεται. Κάθεκόμβος προώθησης με τη σειρά του καταδεικνύει το δικό του κατάλογο κόμβωνπροώθησης.

Αμυδρά σχετικό με το θέμα της παρούσας ενότητας είναι το ζήτημα τηςmultica-sting ροής δεδομένων (ήχος/κινούμενη εικόνα) σεMANET (λ.χ., [14]) ή της unicastingήχου σε συσκευές 3G UMTS [48]. Ωστόσο, οι εργασίες αυτές υποθέτουν τηνύπαρξη ενός κεντρικού εξυπηρετητή (παροχέας), ο οποίος παρέχει τους κινητούςπελάτες με πολυμεσικά δεδομένα και κατά συνέπεια δεν εμπίπτουν στο πλαίσιοτου σεναρίου που πραγματεύεται η παρούσα ενότητα.

Page 129: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

116ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

4.2.3 Επισκόπηση της διαδικασίας ανεύρεσης

Το πρόβλημα ανεύρεσης όμοιων μουσικών ακολουθιών σε MANET απαιτείμια διαδικασία ανεύρεσης, η οποία θα εντοπίζει MH στο MANET οι οποίοι θαέχουν όμοιες ακολουθίες, θα βρίσκει τις ακολουθίες αυτές στον MH και θα τιςεπιστρέφει στον ερωτώντα κόμβο. Οι απαιτήσεις του ασύρματου πλαισίου πουέχουν ήδη περιγραφεί στην ενότητα 4.2.1.1 καθορίζουν την εξεταζόμενη διαδικα-σία ανεύρεσης ως εξής:

i) Δεν υφίσταται πρότερη γνώση των δεδομένων που έχει ο κάθε MH απο-θηκευμένα, ενώ επίσης, ο κόμβος που θέτει το επερώτημα δεν γνωρίζει τιςτοποθεσίες των απαιτούμενων δεδομένων.

ii) Η πρόσβαση στους MH που καλύπτουν τα κριτήρια της αναζήτησης πρέπεινα γίνει με τρόπο που να αντιμετωπίζει την κινητικότητα τους και επίσης ναελαχιστοποιεί το φόρτο του δικτύου. Εξαιτίας των σχετικών τους θέσεωνκαι της προτιμώμενης ανεκτικότητας τους σε φόρτο δικτύου (βλ. στην συ-νέχεια), είναι πιθανό ότι όλοι κόμβοι δεν θα είναι προσπελάσιμοι.

iii) Σε κάθεMH, οι ακολουθίες που καλύπτουν τα κριτήρια τις αναζήτησης πρέ-πει να εντοπιστούν χρησιμοποιώντας τον MH όσο το δυνατό λιγότερο, όσοαφορά τους διαθέσιμούς τους πόρους.

iv) Κάθε ακολουθία που καλύπτει τα κριτήρια της αναζήτησης πρέπει να επι-στρέψει στον κόμβο που έθεσε το επερώτημα με τρόπο που να προκαλείελάχιστο φόρτο δικτύου. Ας σημειωθεί ότι οι απαντήσεις ίσως πρέπει ναδρομολογηθούν πίσω στον κόμβο που έθεσε το επερώτημα ακολουθώνταςμονοπάτια διαφορετικά από αυτά που εντοπίστηκαν οι MH με τις εν λόγωακολουθίες, καθώς οι ενδιάμεσοι MH ίσως άλλαξαν τοποθεσία και είναιεκτός εμβέλειας. Εξαιτίας αυτού, κάθε απάντηση που εντοπίστηκε ίσως ναμη μπορέσει να επιστρέψει στον κόμβο που έθεσε το επερώτημα.

Ένα παράδειγμα παρουσιάζεται στο Σχήμα 4.7. Ο κόμβος που θέτει το επε-ρώτημα είναι ο MH P1. Κατά τη διάρκεια της φάσης προώθησης του επερωτήμα-τος (Σχήμα 4.7a), το επερώτημα λαμβάνουν οι MH P2 και P3. Κατά τη διάρκειατης επιστροφής των αποτελεσμάτων (Σχήμα 4.7b), οι απαντήσεις μπορούν να επι-στρέψουν κατευθείαν από τον P2 (ο οποίος είναι ακόμα στην εμβέλεια του P1).Εξαιτίας της σχετικής κίνησης όμως, ο P3 είναι, τώρα, εκτός εμβέλειας. Συνεπώς,οι απαντήσεις του δρομολογούνται μέσω του P4 (ο οποίος πρωτύτερα ήταν εκτόςεμβέλειας του P1).

Page 130: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 117

P1

P2

P3

P4

P1

P2

P3

P4

(a) (b)

Σχήμα 4.7: Η διαδικασία ανεύρεσης.

Η διαδικασία ανεύρεσης αρχίζει από τον κόμβο που θέτει το επερώτημα, στο-χεύοντας στον εντοπισμό ακολουθιών σε άλλουςMH, οι οποίες να περιέχουν απο-σπάσματα των οποίων η ομοιότητα με το επερώτημα Q να είναι εντός των ορίωνπου έθεσε ο χρήστης, το κατώφλι ϵ. Ο ορισμός του μέτρου απόστασης δίνεταιαναλυτικά στον ενότητα 4.2.4. Ως το σημείο αυτό, μπορεί το μέτρο απόστασηςδιαισθητικά να θεωρηθεί ως το «πόσο ανόμοιες οι ακολουθίες είναι». Το μήκοςτων αποσπασμάτων που εντοπίστηκαν είναι ίσο με το μήκος του επερωτήματοςQ.

Για την αντιμετώπιση της ελαχιστοποίησης του φόρτου δικτύου, το Q πρέπεινα μετασχηματιστεί βάσει μιας αναπαράστασης σε μια μορφήR, μέσω της οποίαςοι ακολουθίες που καλύπτουν τα κριτήρια της αναζήτησης θα εντοπιστούν.

Εξαιτίας του μετασχηματισμού αυτού, είναι πιθανό να εμφανιστούν ψευδή θε-τικά αποτελέσματα. Ένα ψευδές θετικό αποτέλεσμα είναι το αποτέλεσμα το εμφα-νίζεται για αληθινό συγκρινόμενο με τη μετασχηματισμένη αναπαράσταση, ενώυπό τη μη μετασχηματισμένη δεν είναι αληθές αποτέλεσμα. Επιπλέον, ηR πρέπεινα μην εμφανίζει ψευδή αρνητικά αποτελέσματα (αληθινά αποτελέσματα τα οποίαδεν βρέθηκαν λόγω του μετασχηματισμού). Ωστόσο, η συγκεκριμένη υλοποίησηκαθορίζει εάν θα είναι πιθανό να εμφανιστούν ψευδή θετικά αποτελέσματα. Στη-ριζόμενοι στα προαναφερθέντα, ένα θεωρητικό σχέδιο για την περιγραφή όληςτης διαδικασίας ανεύρεσης αποτελείται από τα εξής βήματα:

1. Ο χρήστης θέτει την επερώτηση Q,

2. Η Q μετασχηματίζεται στην αναπαράσταση R,

3. Η R αποστέλλεται σε όλους τους MH εντός εμβέλειας,

Page 131: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

118ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

4. Τα αποτελέσματα (θετικά και ψευδή αποτελέσματα) κάθε MH αποτελούντο σύνολο ταιριασμάτων απάντησης,

5. Κάθε σύνολο ταιριασμάτων απάντησης επιστρέφεται πίσω στον ερωτώνκόμβο,

6. Επίλυση των ψευδώς θετικών αποτελεσμάτων (μπορεί να γίνει στους MHπου βρήκαν τα ταιριάσματα, στον ερωτών ή τους ενδιάμεσους κόμβους),

7. Αποστολή των αληθών ταιριασμάτων στον ερωτών κόμβο.

Τα βήματα αυτά συνοψίζονται στα εξής τέσσερα γεγονότα:

Αρχικοποίηση επερωτήματος Βήματα 1,2,3

Λήψη της R Βήματα 4,5

Λήψη συνόλου απαντήσεων Βήματα 5,6

Σύνολο απαντήσεων στον κόμβο επερώτησης Βήματα 7

Για την αποφυγή διπλής προσπάθειας, η διαδικασία προσαρτεί στην R ένααναγνωριστικό (βλ. ενότητα 4.2.2.1). Με τον τρόπο αυτό, οι MH που την έχουνήδη λάβει δεν εκτελούν καμία πρόσθετη διαδικασία. Επιπλέον, η διάδοση της Rστους γειτονικούςMH ελέγχεται βάσει μιας παραμέτρου h, η οποία αποτελεί απα-ριθμητή που μειώνεται σε κάθε MH που τη λαμβάνει (δείχνει τον αριθμό των δια-θέσιμων μεταδόσεων). Η αρχική της τιμή, στον κόμβο που θέτει το επερώτημα, εί-ναι ίση με τοMaxHop. Η τιμή αυτή αντιστοιχεί στην προτιμώμενη ανεκτικότητασε φόρτο δικτύου και κάλυψη δικτύου. Η μετάδοση των συνόλων απαντήσεων(που προέρχονται από το βήμα 5) αντιμετωπίζεται παρόμοια.

Όπως ήδη περιγράφτηκε, η διαδικασία ανεύρεσης αποτελείται από τις φάσειςπροώθησης και επιστροφής. Κατά την διάρκεια της πρώτης, η R μεταδίδεται καικατά τη διάρκεια της δεύτερης οι απαντήσεις δρομολογούνται στον κόμβο πουέθεσε το επερώτημα. Οι δύο φάσεις αλληλο-παρεμβάλλονται, καθώς κατά την διά-δοση του R από μερικούς MH, άλλοι MH επιστρέφουν αποτελέσματα. Ο όγκοςτης φάσης επιστροφής εξαρτάται κυρίως από την ύπαρξη απαντήσεων και το πλή-θος των ψευδών ταιριασμάτων. Στην φάση προώθησης ο διακινούμενος όγκοςεξαρτάται από το μέγεθος R, την επιθυμητή κάλυψη όπως και τη συνδεσιμότητατου δικτύου. Γενικότερα, ο όγκος πληροφορίας που διακινείται κατά την φάσηεπιστροφής είναι μεγαλύτερος από ότι της φάσης προώθησης.

Page 132: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 119

Έχοντας σκιαγραφήσει την διαδικασία ανεύρεσης, στις ακόλουθες ενότητεςπεριγράφεται λεπτομερώς κάθε μέρος της. Αρχικά, περιγράφονται τα χαρακτηρι-στικά που επιλέγονται για τη δημιουργία της R. Στη συνέχεια, παρουσιάζεται ημέθοδος επιτάχυνσης της διαδικασίας ανεύρεσης εντός τωνMH χρησιμοποιώνταςδεικτοδότηση. Ακολούθως, περιγράφονται δύο αλγόριθμοι ανεύρεσης, οι οποίοικάνουν διαφορετικές επιλογές όσο αφορά το σχηματισμό της R. Τέλος, παρου-σιάζονται μέθοδοι για την βελτιστοποίηση της φάσης επιστροφής.

4.2.4 Χαρακτηριστικά και δεικτοδότηση

4.2.4.1 Χαρακτηριστικά για ΑΜΠΒΠ

Μια από τις κυριότερες προκλήσεις στην ΑΜΠ είναι η επιλογή της αναπαρά-στασης της μουσικής πληροφορίας εντός των υπολογιστικών συστημάτων. Καθώςτα ακουστικά μουσικά δεδομένα τείνουν να είναι πολύ μεγάλα σε μέγεθος, περι-γράφονται, συνήθως, από ένα σύνολο χαρακτηριστικών τους. Μια πληθώρα από-ψεων υφίστανται όσο αφορά τα χαρακτηριστικά που πρέπει να επιλεχθούν [54].Η επιλογή των κατάλληλων χαρακτηριστικών θεωρείται πολύ σημαντική στηνΑΜΠ [19]. Τα σημασιολογικά πλούσια χαρακτηριστικά υποβοηθούν στην απο-δοτική αναπαράσταση των δεδομένων και επιτρέπουν τη χρήση καταλόγων γιατην αποδοτική επεξεργασία των επερωτημάτων.

Τα συνήθη χρησιμοποιούμενα χαρακτηριστικά για την αναπαράσταση ακου-στικών δεδομένων παράγονται από ανάλυση στο πεδίο του χρόνου [44, 45], φα-σματική ανάλυση [44, 45, 34] και ανάλυση wavelet [53].

Η παρούσα ενότητα δεν επικεντρώνεται στη δημιουργία νέων χαρακτηριστι-κών. Αντ’ αυτού, επιδεικνύωει ενδιαφέρον στη μεθοδολογία της διαδικασίας ανεύ-ρεσης καθώς η μέθοδος που παρουσιάζεται είναι σε θέση να συμπεριλάβει κάθεδιαδικασία εξαγωγής χαρακτηριστικών υψηλής απόδοσης. Κατά συνέπεια, εφαρ-μόζεται μια μέθοδος εξαγωγής χαρακτηριστικών που βασίζεται στο μετασχηματι-σμό wavelet. Ο μετασχηματισμός wavelet παρέχει μια απλή και ταυτόχρονα απο-δοτική αναπαράσταση των ακουστικών δεδομένων χρησιμοποιώντας τόσο την μηομοιόμορφη ανάλυση συχνότητας όσο και τα ωστικά χαρακτηριστικά των δεδο-μένων αυτών, όπως δείχνουν οι εργασίες [9, 35, 36].

Ο μετασχηματισμός wavelet έχει επιτυχώς χρησιμοποιηθεί σε επεξεργασία ει-κόνων και σήματος, ενώ η χρήση του στους τομείς ανάκτησης πληροφορίας καιεξόρυξης δεδομένων υπήρξε εκτενέστατη [39]. Μια πλήρης έρευνα στην εφαρ-μογή του μετασχηματισμού wavelet στην εξόρυξη δεδομένων δίνεται στην εργα-σία [35]. Γενικότερα, ο μετασχηματισμός wavelet είναι ένα εργαλείο που παρέχειποιοτική ανάλυση χρονική και συχνότητας, ενώ διαιρεί τα δεδομένα σε διαφο-

Page 133: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

120ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

ρετικά μέρη βάσει της συχνότητάς τους και επιτρέπει τη μελέτη κάθε μέρους μεανάλυση που ταιριάζει στην κλίμακά του [35, 12, 21].

Τα wavelets (προϊόντα του ομώνυμου μετασχηματισμού) παρουσιάζουν μιαπληθώρα επιθυμητών ιδιοτήτων σε σχέση με άλλους τύπους ανάλυσης. Μεταξύαυτών βρίσκονται και η αποδοτική πολυπλοκότητα υπολογισμού, οι εξαφανιζό-μενες στιγμές που υποστηρίζουν την αφαίρεση θορύβου και μείωση των διαστά-σεων ενώ παράλληλα εστιάζουν στη σημαντικότερη πληροφορία, την υποστήριξησυμπίεσης που εγγυάται την τοπικότητα του wavelet, τους μη συσχετισμένους συ-ντελεστές που επιτρέπουν τη μείωση των πολύπλοκων διαδικασιών του χρονικούπεδίου σε απλουστέρα και την υποστήριξη του θεωρήματος του Parseval. Επι-πλέον, τα wavelets παρουσιάζουν την ιδιότητα της πολλαπλής ανάλυσης η οποίαοδηγεί σε ιεραρχική αναπαράσταση και χειρισμό των αντικειμένων που εξετά-ζουν.

Τα προαναφερθέντα προτερήματα του μετασχηματισμού wavelet, ενισχύουντη χρήση των wavelets σε μουσικά δεδομένα. Η μειωμένη υπολογιστική πολυ-πλοκότητα βοηθά την ήδη βεβαρημένη επεξεργασία λόγω του μεγάλου μεγέθουςτων ακουστικών μουσικών δεδομένων. Οι εξαφανιζόμενες στιγμές και η ιδιότητατους να μειώνουν το θόρυβο αντιμετωπίζουν το θόρυβο που εισάγεται στις μουσι-κές καταγραφές από τους ήχους του περιβάλλοντος, κατά τη διάρκεια της ηχογρά-φησης. Η υποστήριξη συμπίεσης επιτρέπει στα τοπικά αλλοιωμένα κομμάτια ναδιατηρήσουν την συνολική τους ομοιότητα, ενώ οι πολλαπλές αναλύσεις ταιριά-ζουν με το πρότυπο ακοής, σύμφωνα με το οποίο, η αντίληψη μεγάλων ποσοτήτωνμικρής κλίμακας βασίζεται στην ικανότητα πολλαπλής ανάλυσης του αυτιού [9].

Ειδικότερα, προτείνεται ο μετασχηματισμός Haar wavelet λόγω του απλούσταδιακού υπολογισμού του, την ικανότητα του όσο αφορά τη σύλληψη των χρο-νικά εξαρτώμενων χαρακτηριστικών των δεδομένων και την συνολική δυνατό-τητά του πολλαπλής ανάλυση σημάτων [29]. Ωστόσο, η μέθοδος μπορεί εύκολανα συμπεριλάβει και άλλους τύπους μετασχηματισμών wavelet.

4.2.4.2 Δεικτοδότηση στους κόμβους

Για την βελτιστοποίηση της έρευνας στους κόμβους, χρησιμοποιείται η ακό-λουθη διαδικασία. Σε έναν κόμβο, κάθε αρχική μουσική ακολουθία μετασχημα-τίζεται σε πολυδιάστατα σημεία. Με ένα ολισθαίνον παράθυρο μήκους n επί τηςακολουθίας και εφαρμόζεται ο μετασχηματισμόςwavelet (DiscreteWavelet Transform-DWT) στα περιεχόμενα του κάθε παραθύρου, παράγονταςn συντελεστές ανά πα-ράθυρο. Ένα παράδειγμα δίνεται στο Σχήμα 4.8a. Συνεπώς, κάθε ακουστική ακο-λουθία παράγει ένα σύνολο n-διάστατων σημείων στο χώρο μετασχηματισμού.Καθώς ο αριθμός n εξαρτάται στο μήκος του επερωτήματος και κατά συνέπεια

Page 134: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 121

έχει σχετικά μεγάλες τιμές (λ.χ., 64 K) ώστε να τα δεικτοδοτήσει στο χώρο με-τασχηματισμού, προτείνεται η χρήση μόνο των πρώτων d διαστάσεων από κάθεσημείο (στα πειράματά της εργασίας [23] χρησιμοποιήθηκε d = 64). Η διαδικα-σία αυτή μειώνει δραστικά τόσο το μέγεθος του καταλόγου όσο και το πλήθοςτων διαστάσεων χωρίς να επηρεάζει ιδιαίτερα την ποιότητα του καταλόγου. Τογεγονός αυτό οφείλεται στο προτέρημα του DWT να συγκεντρώνει την ενέργειατης ακολουθίας στους πρώτους μερικούς συντελεστές. Ωστόσο, τα ψευδή θετικάαποτελέσματα παραμένουν πιθανά, και κατά συνέπεια απαιτούν επίλυση.

Είναι ιδιαίτερης σημασίας ότι αποδείχτηκε στην εργασία [11] ότι δεν υπάρ-χει πιθανότητα λανθασμένης απόρριψης ορθών αποτελεσμάτων χρησιμοποιώνταςμόνο τους d συντελεστές (εξαιτίας του θεωρήματος του Parseval). Στο σημείοαυτό πρέπει να αναφερθεί ότι η ιδιότητα αυτή αποδεικνύεται στην [11] για τηνΕυκλείδεια απόσταση. Παρότι το μέτρο απόστασης αυτό είναι απλό, είναι γνωστόγια διάφορα προτερήματα του, όπως παρουσιάζονται στην εργασία [27]. Ωστόσο,η παρούσα μεθοδολογία δεν στηρίζεται αποκλειστικά στα συγκεκριμένα χαρακτη-ριστικά και μέτρο απόστασης, τα οποία χρησιμοποιούνται εδώ χάριν απλότηταςκαι περιορισμένων επεξεργαστικών απαιτήσεων.

Για την αύξηση της ταχύτητας της ανάκτησης, για κάθε ακολουθία, το σύνολοτων d-διάστατων σημείων που προκύπτουν οργανώνονται σε ελάχιστα περικλείο-ντα ορθογώνια (Minimum Bounding Rectangles - MBR), τα οποία, στη συνέχεια,αποθηκεύονται σε ένα R∗-δένδρο [7]. Για την απάντηση ενός επερωτήματος, αρ-χικά εντοπίζεται η ρίζα της δενδρικής δομής και μόνο οι καταχωρίσεις της πουδιασταυρώνονται με το επερώτημα εξετάζονται περαιτέρω επαναληπτικά μέχρι ναφτάσει η έρευνα σε φύλλο. Όλοι οι κόμβοι που δεν διασταυρώνονται δεν συμπερι-λαμβάνονται στην έρευνα. Ένα παράδειγμα δίνεται στο Σχήμα 4.8b. Ακολούθως,κατά την έρευνα για όμοιες υποακολουθίες, αρχικά εντοπίζονται υποψήφιες απότο R∗-δένδρο. Οι υποψήφιες κατατάσσονται ώστε να εξεταστούν οι περισσότερουποσχόμενες πρώτες (με τη μέθοδο αυτή εξοικονομούμε πόρους και χρόνο επε-ξεργασίας) και στη συνέχεια, οι υποψήφιες υποακολουθίες εξετάζονται σε σχέσημε τη δοθείσα αναπαράσταση του επερώτηματος. Όταν η αναπαράσταση αυτήμειωθεί (όπως στην περίπτωση της μειούμενης αναπαράστασης η οποία θα εξη-γηθεί στην συνέχεια), τα ψευδή θετικά παραμένουν πιθανά. Ωστόσο, το πλήθοςτους μειώνεται σημαντικά. Περισσότερες λεπτομέρειες σχετικά με τη δεικτοδό-τηση μπορούν να βρεθούν στην εργασία [24].

4.2.5 Αλγόριθμοι ανεύρεσηςΣτην ενότητα αυτή περιγράφονται οι δύο αλγόριθμοι που αποτελούν την δια-

δικασία έρευνας. Ο πρώτος βασίζεται σε απλές επιλογές όσο αφορά την αναπα-

Page 135: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

122ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

0 0 12 25 18 32 12 23 17 31

p1

p2

p3

p4

p5

p6

x

y

z

p'1

p'2

p'3

p'4 p'5p'6

(a) original space (b) transformed space

(a)

a

k

b

c

d

e

N1

N2

f

gN3

i

j

h

N4

N5

N6

N5 N6

N1 N2 N3 N4

a b c d e f g h i j

(b)

Σχήμα 4.8: Η διαδικασία εξαγωγής των χαρακτηριστικών (a) και της έρευνας της δενδρι-κής δομής δεικτοδότησης.

ράσταση R της ακολουθίας επερωτήματος και της διάδοσης της κατά τις φάσειςπροώθησης και επιστροφής. Ο δεύτερος βασίζεται σε περισσότερο εξελιγμένεςεπιλογές όσο αφορά τα προαναφερθέντα ζητήματα.

4.2.5.1 Αλγόριθμος μέγιστης αναπαράστασης του επερωτήματος

Μια απλοϊκή προσέγγιση για την αναπαράστασηR αποτελεί το να είναι όμοιαμε την ακολουθία επερωτήματος. Το κύριο πλεονέκτημα της περίπτωσης αυτήςείναι ότι δεν θα προκύπτουν ψευδή θετικά αποτελέσματα, εφόσον, όταν ένα πι-θανό αποτέλεσμα βρεθεί ερευνώντας τον κατάλογο, μπορεί άμεσα να εξεταστείσε σχέση με το επερώτημα (δηλ., R). Συνεπώς, δεν θα υπάρχουν ψευδή θετικάαποτελέσματα, τα οποία επηρεάζουν αρνητικά το φόρτο δικτύου της φάσης επι-στροφής καθώς θα επιστρέφονταν στον κόμβο που έθεσε το επερώτημα μόνο γιανα εξακριβωθούν ότι δεν είναι αληθινά ταιριάσματα. Πρέπει να σημειωθεί ότι,για να κάνουμε έρευνα του καταλόγου (δηλ., να αποφευχθεί η σειριακή έρευνα σεκάθε MH), ένας μικρός αριθμός συντελεστών DWT πρέπει να επίσης περιλαμβά-νονται στην R. Ωστόσο, το μέγεθός τους είναι αμελητέο σε σχέση με το μέγεθοςτης ακολουθίας επερωτήματος.

Ο αλγόριθμος με αυτά τα χαρακτηριστικά ονομάζεται ML (full Maximum

Page 136: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 123

• Αρχικοποίηση επερωτήματος Ο κόμβος που θέτει το επερώτημα αναθέ-τει στην R την πλήρη ακολουθία επερωτήματος (και επιπλέον τους μερι-κούς συντελεστές του επερωτήματος) και το μεταδίδει σε όλους του τουςγείτονες.

• Λήψη της R Στη λήψη της R, κάθε MH P ερευνά τους καταλόγους του,επιλύει τα ψευδή θετικά αποτελέσματα και συντάσσει ένα πίνακα αποτε-λεσμάτων (μόνο αληθινά θετικά αποτελέσματα). Το σύνολο των απαντή-σεων επιστρέφεται στον κόμβο που έθεσε το επερώτημα, μεταδίδοντας τοσε όλους τους γείτονες του P (φάση επιστροφής). Ακολούθως, εφόσονυπάρχει διαθέσιμο h, η R μεταδίδεται σε όλους τους γειτονικούς MH τουP (φάση προώθησης).

• Λήψη συνόλου απαντήσεων Κάθε MH P , ο οποίος δεν είναι ο κόμβοςπου έθεσε το επερώτημα, λαμβάνοντας ένα σύνολο απαντήσεων, συνεχίζειτην μετάδοση (φάση επιστροφής) σε όλους τους γειτονικούς του κόμβουςεφόσον υπάρχει διαθέσιμο h.

• Ένα σύνολο απαντήσεων φθάνει στον κόμβο επερώτησηςΌταν ένα σύ-νολο απαντήσεων φθάνει στον κόμβο που έθεσε το επερώτημα, τότε τααποτελέσματα παρουσιάζονται αμέσως στο χρήστη.

Σχήμα 4.9: Ο αλγόριθμος ML.

representation with Local resolution at MHs - πλήρης αναπαράσταση με τοπικήεπίλυση στους κόμβους). Ο ML συνοψίζεται στο Σχήμα 4.9 σύμφωνα με το πώςδρα σε κάθε εμφανιζόμενο γεγονός όπως αυτά συνοψίστηκαν για τη διαδικασίαανεύρεσης, στην ενότητα 4.2.3.

Παρότι ο ML καταφέρνει να κρατήσει ελεγχόμενο το φόρτο δικτύου κατά τηφάση επιστροφής (εξαιτίας της απομάκρυνσης των ψευδών θετικών αποτελεσμά-των), ο έλεγχος αυτός επιβαρύνει υπερβολικά το φόρτο δικτύου κατά τη φάσηπροώθησης. Το γεγονός αυτό οφείλεται στο ότι η αναπαράσταση R, η οποία με-ταδίδεται κατά την φάση προώθησης, είναι ίση με το πλήρες επερώτημα. Για μεγά-λες ακολουθίες επερωτήματος αυτό προκαλεί απαγορευτικό φόρτο δικτύου. Προ-φανώς, προκύπτει ένα θέμα συμβιβασμού μεταξύ των δύο φάσεων. Ακολούθως,απαιτείται μια μέθοδος η οποία θα εξισορροπεί το φόρτο δικτύου μεταξύ των δύοφάσεων, στοχεύοντας στη συνολική βελτίωση.

Ένα ακόμα ζήτημα στο οποίο ο ML λαμβάνει απλοϊκή απόφαση είναι η επι-

Page 137: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

124ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

λογή των γειτονικών κόμβων στους οποίους το σύνολο των απαντήσεων προω-θείται κατά τη φάση της επιστροφής. Αντιμετωπίζοντας τα γεγονότα δεύτερου καιτρίτου τύπου, ο ML επιλέγει όλους τους γειτονικούς κόμβους για το σκοπό αυτό,καταφεύγοντας σε μέθοδο «πλημμυρίσματος». Η απλοϊκή επιλογή αυτή μπορεί ναεπηρεάσει σημαντικά το φόρτο δικτύου της φάσης επιστροφής. Για την αντιμετώ-πιση του προβλήματος αυτού απαιτείται η ανάπτυξη πολιτικών για την επιλεκτικήδρομολόγηση των συνόλων απαντήσεων. Δηλαδή, πρέπει να επιλεγούν μόνο οικόμβοι εκείνοι που είναι περισσότερο υποσχόμενοι να ικανοποιήσουν τη λήψηαποτελεσμάτων, συνεπώς μειώνοντας σημαντικά το φόρτο δικτύου στη φάση επι-στροφής, χωρίς να μειώνεται η πιθανότητα του συνόλου απαντήσεων να επιστρα-φεί στον κόμβο που έθεσε το επερώτημα.

4.2.5.2 Αλγόριθμος μειούμενης αναπαράστασης επερωτήματος

Στην ενότητα 4.2.5.1 έγινε προφανές ότι δημιουργείται ένας συμβιβασμός όσοαφορά το φόρτο δικτύου μεταξύ της φάσης προώθησης και επιστροφής. Ο αλγό-ριθμος ML εστιάζει μόνο στη βελτίωση του φόρτου δικτύου της φάσης επιστρο-φής, προκαλώντας υψηλό φόρτο δικτύου στη φάση προώθησης. Στην ενότητααυτή παρουσιάζεται ένας άλλος αλγόριθμος με δύο στόχους. Πρωτίστως, ο νέοςαλγόριθμος παράγει μια αναπαράσταση R η οποία επιτυγχάνει ισορροπία μεταξύτων δύο φάσεων και ελαχιστοποιεί το συνολικό φόρτο δικτύου. Ο δεύτερος στό-χος είναι η ανάπτυξη μιας επιλεκτικής πολιτικής δρομολόγησης για την προώθησητων συνόλων απαντήσεων, οδηγώντας σε σημαντική μείωση το φόρτου δικτύουτης φάσης επιστροφής.

Ο πρώτος στόχος αντιμετωπίζεται επιλέγοντας την αναπαράσταση R μεταξύτων δύο ακρέων περιπτώσεων: (i) τη μικρότερη δυνατή αναπαράσταση με μόνο dσυντελεστές DWT που απατούνται για την τοπική έρευνα του καταλόγου (ελαχι-στοποίηση του φόρτου δικτύου της φάσης προώθησης) και (ii) τη μέγιστη δυνατήαναπαράσταση με όλα τα n στοιχεία της ακολουθίας επερωτήματος (εξαφανίζο-ντας την επιβάρυνση των ψευδών θετικών όσο αφορά το υπολογιστικό κόστος καιτο φόρτο δικτύου της φάσης επιστροφής). Συνεπώς, μεταξύ των δύο αυτών άκρων,η αναπαράσταση R μπορεί να αποτελείται από τους l μεγαλύτερους συντελεστέςDWT, όπου d ≤ l ≤ n. Εδώ πρέπει να σημειωθεί ότι ο τύπος αναπαράστασης αυ-τός, γενικεύει τις δύο ακραίες περιπτώσεις: θέτοντας l = d, ηR γίνεται ίση με τηνπρώτη (i) περίπτωση, ενώ αντίθετα, θέτοντας l = n, ηR γίνεται ίση με τη δεύτερη(ii) περίπτωση, καθώς οι n συντελεστές DWT είναι ισότιμοι με τα n στοιχεία τηςακολουθίας επερωτήματος (εξαιτίας του θεωρήματος του Parseval)10. Όπως ήδη

10Στην περίπτωση του ML μπορεί να γίνει η υπόθεση ότι η R αποτελείται από όλους τους nσυντελεστές DWT. Ωστόσο, επιλέγονται τα n στοιχεία της ακολουθίας στο πεδίο του χρόνου για

Page 138: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 125

περιγράφτηκε στην ενότητα 4.2.4, ένα πλήθος l, των μεγαλύτερων συντελεστώνDWT, μπορεί να συλλάβει την ενέργεια της μουσικής ακολουθίας αποδοτικά καινα μειώσει τον αριθμό των ψευδών θετικών αποτελεσμάτων. Συμπερασματικά,σε σχέση με την δεύτερη (ii) περίπτωση, ο φόρτος δικτύου της φάσης προώθη-σης αναμένεται να είναι μικρότερος, εφόσον l ≤ n. Σε σχέση με την πρώτη (i)περίπτωση, ο φόρτος δικτύου της φάσης επιστροφής επίσης αναμένεται να είναιμικρότερος, καθώς το πλήθος των ψευδών θετικών αποτελεσμάτων θα έχει σημα-ντικά μειωθεί, εφόσον d ≤ l.

Ωστόσο, η ρύθμιση του l, είναι δύσκολη, καθώς εξαρτάται από πολλούς πα-ράγοντες, όπως λ.χ. η τοπολογία του MANET, οι οποίοι είναι μεταβαλλόμενοι.Για το λόγο αυτό, προτείνεται μια διαφορετική προσέγγιση. Αρχικά, στο l δίνε-ται μια αρκετά μεγάλη τιμή και η τιμή αυτή μειώνεται μονοτονικά κατά την διά-δοση της R στην φάση προώθησης. Η μεθοδολογία αυτή αποτελεί τη μειούμενηαναπαράσταση (transcoding), καθώς εμπλέκει ακολουθίες με μεταβλητό αριθμόσυντελεστών DWT οι οποίες αντιστοιχούν σε διάφορες προσεγγίσεις της αρχικήςακολουθίας επερωτήματος. Η μεθοδολογία transcoding:

• Διατηρεί το φόρτο δικτύου κατά τη φάση προώθησης χαμηλό, καθώς τομέγεθος της R μειώνεται κατά τη διάδοσή της στην φάση προώθησης.

• Μειώνει το φόρτο δικτύου κατά τη φάση επιστροφής επιτρέποντας στουςMH που εμπλέκονται στη φάση προώθησης να αποθηκεύσουν την μειω-μένη αναπαράσταση και κατά τη φάση επιστροφής, να τη χρησιμοποιήσουνγια πρώιμη επίλυση των ψευδών θετικών αποτελεσμάτων, πριν αυτά φθά-σουν στον κόμβο που έθεσε το επερώτημα. Το πρόβλημα της αποθήκευσηςεξαρτάται από πολλές παραμέτρους του δικτύου και είναι ανεξάρτητο απότη μέθοδο αυτή, ενώ αποδοτικές λύσεις μπορούν να βρεθούν στην εργα-σία [16]. Στα πειράματα της εργασίας [26], εντοπίστηκε ότι αποθηκεύονταςτις αναπαραστάσεις για ένα μικρό, σταθερό χρονικό διάστημα είναι επαρκέςγια αυξημένη επίδοση.

• Μειώνει το χρόνο επεξεργασίας σε κάθεMH, καθώς το κόστος επίλυσης τωνψευδών θετικών αποτελεσμάτων σε κάθεMH εξαρτάται από το μέγεθος τηςR.

Η μείωση επιτυγχάνεται διατηρώντας l τιμές σύμφωνα με μια αντίστροφη σιγ-μοειδή συνάρτηση 4.10b. Εξαιτίας του σχήματος της συνάρτησης αυτής, η άμεση

να αποφευχθεί ο υπολογισμός του αντίστροφου μετασχηματισμού DWT, εφόσον, στην περίπτωσηαυτή το πεδίο του χρόνου εμφανίζει μικρότερες απαιτήσεις αποθήκευσης μιας και οι τιμές τωνδεδομένων είναι στο διάστημα 0-255.

Page 139: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

126ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

γειτονιά τουMHπου έθεσε το επερώτημα, η οποία μπορεί να δώσει αποτελέσματασυντομότερα, λαμβάνει μεγαλύτερη R, ενώ το βάρος που τίθεται στους MH πουείναι μακριά είναι σημαντικά μικρότερο. Επιπλέον, με τη μέθοδο αυτή, ελέγχεταιη εκθετική αύξηση του φόρτου δικτύου που προκαλείται από την απλή καθολικήεκπομπή της πλήρους αναπαράστασης. Ένα παράδειγμα δίνεται στο Σχήμα 4.10a.Ο P1 είναι κόμβος που θέτει το επερώτημα και ο P4 είναι κόμβος που ξεκινά τηνπροώθηση του συνόλου αποτελεσμάτων. Οι MH στο μονοπάτι από τον P1 στονP4 δείχνονται σκιασμένοι και επισημειώνονται με το μέγεθος τηςR το οποίο έλα-βαν (P1 ξεκινά με 10 K συντελεστές DWT). Το Σχήμα 4.10b δείχνει πως τα με-γέθη αυτά μειώνονται ακολουθώντας την αντίστροφη σιγμοειδή συνάρτηση. Κατάτην φάση επιστροφής, ξεκινώντας από τον P4, οι MH P3 και P5 είναι προσβάσι-μοι (δείχνονται με διακεκομμένα βέλη). Η αποθηκευμένη αναπαράσταση στον P3

μπορεί να βοηθήσει στην επίλυση ψευδών θετικών αποτελεσμάτων στο σύνολοαπαντήσεων. Το γεγονός αυτό οφείλεται στο ότι στον P4 τα ψευδή θετικά εξετά-στηκαν με μικρότερηR από ότι στονP3. Αντίθετα, οP5 δεν βρέθηκε στο μονοπάτι,και κατά συνέπεια δεν μπόρεσε να επιλύσει ψευδή θετικά αποτελέσματα.

P1

P2

P3

P4

P5

10K 8K

3K1K

(a) (b)

10K

8K

3K

1K

1 2 3 4

(a) (b)

Σχήμα 4.10: Η διαδικασία έρευνας.

Εφεξής, το μέγεθος της αρχικής αναπαράστασης επερωτήματος, I , δίνεται ωςσυντελεστής του μεγέθους του πλήρους επερωτήματος, ενώ η κλίση της αντίστρο-φης σιγμοειδούς συνάρτησης ελέγχεται από την παράμετρο α (μεγαλύτερες τιμέςτης α προκαλούν μεγαλύτερες κλίσεις).

Όσο αφορά το δεύτερο στόχο, δεν ακολουθείται η απλοϊκή προσέγγιση τουαλγορίθμου ML, ο οποίος διαδίδει τα σύνολα απαντήσεων σε όλους του κόμβους.Αντίθετα, κατά την φάση προώθησης, όπως είναι σύνηθες σε όλα τα πρωτόκολλαδρομολόγησης δυναμικών πηγών [20], κάθε MH που λαμβάνει την R, επιπλέονλαμβάνει και το αναγνωριστικό όλων των MH στο μονοπάτι το οποίο ακολου-θήθηκε από τον κόμβο που έθεσε το επερώτημα. Τα αναγνωριστικά αυτά μπο-ρούν να συμπεριληφθούν στην R με ελάχιστο κόστος (μόνο μερικά bytes). Όταν

Page 140: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 127

έναςMH ξεκινά την διάδοση των συνόλων απαντήσεων, επιλέγει τους γειτονικούςκόμβους στους οποίους θα μεταδώσει τα σύνολα απαντήσεων, και δεν τα μετα-δίδει σε όλους. Για την επιλογή αυτή, εφαρμόζει μια πολιτική η οποία εστιάζειστους γείτονες που περιλαμβάνονται στο μονοπάτι από τον κόμβο επερώτησης.Καθώς αρκετές τέτοιες πολιτικές μπορούν να αναπτυχθούν, στην ακόλουθη ενό-τητα υπάρχει λεπτομερής αναφορά σε αυτές. Όλες οι πολιτικές, παρά τις διαφορέςτους, στοχεύουν στην επιλογή γειτονικών MH οι οποίοι περιλαμβάνονται στο μο-νοπάτι, εξαιτίας της αποθηκευμένης αναπαράστασης που διατηρούν, με τη χρήσητης οποίας μπορούν να επιλύσουν ψευδή θετικά αποτελέσματα. Περισσότερες λε-πτομέρειες δίνονται στην ενότητα 4.2.6.

Ο αλγόριθμος που συνδυάζει όλα τα προαναφερθέντα χαρακτηριστικά ονομά-ζεται RT (querying by Reduced representation with Transcoding - επερώτηση μεχρήση μειωμένης και μειούμενης αναπαράστασης) και παρουσιάζεται στο Σχήμα 4.11.

4.2.6 Πολιτικές δρομολόγησης για τη φάση επιστροφήςΣτην ενότητα αυτή, περιγράφονται τρεις πολιτικές δρομολόγησης των συνό-

λων απαντήσεων κατά τη φάση επιστροφής. Οι δύο πρώτες πολιτικές (καθολικόςκαι τοπικός απαριθμητής) βασίζονται στην εργασία [10], ενώ η τρίτη (κρίσιμημάζα) βασίζεται στην εργασία [23]. Όπως ήδη αναφέρθηκε, όλες οι πολιτικές προ-σπαθούν να επιλέξουν κόμβους που περιλαμβάνονται στο μονοπάτι κατά τη φάσηπροώθησης. Ωστόσο, η φάση επιστροφής δεν μπορεί να βασιστεί μόνο στους κόμ-βους αυτούς. Εξαιτίας της κινητικότητας των MH, ίσως είναι αδύνατο να προ-σεγγιστεί ο κόμβος επερώτησης, εκτός εάν κόμβοι, που δεν περιλαμβάνονται στομονοπάτι, εμπλακούν επιπλέον. Ο στόχος των πολιτικών είναι ο έλεγχος του πλή-θους των κόμβων που εμπλέκονται, ώστε να μειωθεί ο φόρτος δικτύου της φάσηςεπιστροφής. Οι πολιτικές αυτές αποτελούν μια υβριδική προσέγγιση μεταξύ τηςπιθανολογικής καθολικής εκπομπής, όπου η επιλογή εκπομπής είναι εντελώς το-πική σε κάθε κόμβο και της αιτιοκρατικής καθολικής εκπομπής, η οποία βασίζεταιστην ανακάλυψη κάποιας μορφής κυρίαρχου συνδεδεμένου συνόλου [38].

4.2.6.1 Πολιτικές καθολικού και τοπικού απαριθμητή

Για την ευκρινέστερη παρουσίαση των δυο πρώτων πολιτικών, δίνεται το πα-ράδειγμα του Σχήματος 4.12a, όπου παρουσιάζεται το μονοπάτι από τον MH P1

στονMH P6, το οποίο ακολουθήθηκε κατά την φάση προώθησης. Το Σχήμα 4.12bδείχνει τη δρομολόγηση των συνόλων απαντήσεων από τον P6 προς τον P1. Συ-γκρίνοντας τις δυο φάσεις, αρκετοί MH άλλαξαν τη θέση τους, ενώ άλλοι απε-νεργοποιήθηκαν και τέλος μερικοί έγιναν μη προσβάσιμοι. Οι MH που παρουσιά-ζονται σκιασμένοι είναι αυτοί που περιλαμβάνονται και στο μονοπάτι της φάσης

Page 141: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

128ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

• Αρχικοποίηση επερωτήματος Ο κόμβος επερώτησης θέτει την R ίση μεένα δείγμα με αρχικό μέγεθος (δίνεται από παράμετρο) και επιπλέον, συ-μπεριλαμβάνει τους συντελεστές του επερωτήματος και στην συνέχεια εκ-πέμπει το επερώτημα σε όλους του τους γείτονες.

• Λήψη της R Στη λήψη της R, κάθε MH P ερευνά τους καταλόγους του,επιλύει όσα περισσότερο δυνατά ψευδή θετικά αποτελέσματα βάσει τουδείγματος της R που έχει λάβει και συντάσσει ένα πίνακα αποτελεσμά-των. Το σύνολο των απαντήσεων επιστρέφεται στον κόμβο που έθεσε τοεπερώτημα, ακολουθώντας μια πολιτική για την φάση επιστροφής. Ακο-λούθως, εφόσον υπάρχει διαθέσιμο h, το μέγεθος της R μειώνεται, και ημειωμένηR μεταδίδεται σε όλους τους γειτονικούς MH του P (φάση προ-ώθησης).

• Λήψη συνόλου απαντήσεων Όταν ένας MH λάβει μια ένα σύνολο απα-ντήσεων, ελέγχει εάν μπορεί να επιλύσει μερικά από τα ψευδή θετικάαποτελέσματα. Αυτό είναι εφικτό μόνο εάν έχει λάβει μια αναπαράστασημεγαλύτερη από την αναπαράσταση με την οποία οι ακολουθίες στο σύ-νολο απαντήσεων εξετάστηκαν πρωτύτερα (δηλ., στον MH που έστειλε τοσύνολο απαντήσεων). Κατόπιν κάθε δυνατής αφαίρεσης, εφόσον υπάρχειδιαθέσιμο h, το σύνολο απαντήσεων δρομολογείται ακολουθώντας μια πο-λιτική (φάση επιστροφής).

• Ένα σύνολο απαντήσεων φθάνει στον κόμβο επερώτησηςΌταν ένα σύ-νολο απαντήσεων φθάνει στον κόμβο που έθεσε το επερώτημα, αρχικάόποια ψευδή θετικά αποτελέσματα εξακολουθούν να υφίστανται επιλύο-νται και τα αποτελέσματα παρουσιάζονται στο χρήστη.

Σχήμα 4.11: Ο αλγόριθμος RT.

προώθησης, ενώ οι υπόλοιποι είναι νέοι κόμβοι που εμπλέκονται μόνο στη φάσηεπιστροφής.

Με την πολιτική καθολικού απαριθμητή (Global-Counter - GC), όταν έναςMH(P6 στο προκείμενο) ξεκινά τη διάδοση ενός συνόλου απαντήσεων, αναθέτει σεκάθε διαθέσιμη τιμή άλματος (μετάδοσης), h, τιμή ίση με το μονοπάτι της φάσηςπροώθησης και επιπλέον μια τιμή e. Στο παράδειγμα, το μήκος (πλήθος ακμών)είναι ίσο με 5. Έστω e = 1 και h = 6. Ο GC προσπαθεί να βρει μεταξύ τωνγειτονικών κόμβων, εκείνον που ήταν ο προηγούμενος του στο μονοπάτι. Στο πα-

Page 142: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.2. ΑΣΥΡΜΑΤΑ ΔΙΚΤΥΑ 129

P1

(a)

P2

P3

P4

P5

P6 P1

(b)

P2

P3

P7

P5

P6

P9

P8

Σχήμα 4.12: Ένα παράδειγμα διάδοση σε ένα MANET: φάση (a) προώθησης και (b) επι-στροφής.

ράδειγμα, στον P6, ο GC προσπαθεί να βρει τον P5. Εάν ο MH αυτός είναι προ-σβάσιμος, τότε είναι και ο μόνος στον οποίο μεταδίδεται το σύνολο απαντήσεων,και το h μειώνεται κατά μια μονάδα. Η ίδια διαδικασία ακολουθείται επαναλαμ-βανόμενα. Στον P5, ο GC προσπαθεί να εντοπίσει τον P4. Εάν ο P4 δεν είναιπροσβάσιμος, όπως στην περίπτωση του παραδείγματος, τότε ο GC μεταδίδει τοσύνολο απαντήσεων σε όλους τους γειτονικούς MH (καθολική εκπομπή στους P7

και P8) και καθένας λαμβάνει τιμή του h μειωμένη κατά μια μονάδα. Στην συ-νέχεια, εκτός εάν βρεθεί κόμβος που περιλαμβάνεται στο μονοπάτι προώθησης,ο GC συνεχίζει την καθολική εκπομπή σε όλους τους γείτονες. Σε κάθε εκπομπήτου συνόλου απαντήσεων, το h μειώνεται κατά μια μονάδα, και κατά συνέπειαδρα ως καθολικός απαριθμητής. Εάν ένας MH από το μονοπάτι προώθησης εντο-πιστεί σε οποιοδήποτε σημείο, τότε, όπως και προηγουμένως, ο GC προσπαθεί ναβρει τον προηγούμενο του στο μονοπάτι προώθησης. Στο παράδειγμα, ο P3 είναιένας κόμβος από το μονοπάτι προώθησης, ο οποίος προσεγγίστηκε με h ίσο με2. Ο προηγούμενος του είναι ο P2, ο οποίος στη συνέχεια μεταδίδει (καθώς το h

είναι 1) το σύνολο απαντήσεων στον P1 και η διαδικασία τερματίζεται.Συνοψίζοντας, όταν επιλέγει MH για τη δρομολόγηση των συνόλων απαντή-

σεων, ο GC προσπαθεί να ακολουθήσει τους MH που περιλαμβάνονται στο μο-νοπάτι προώθησης. Ωστόσο, για να υπερνικήσει προβλήματα από τη μεταβολήτου ΜΑΝΕΤ (όπως η απενεργοποίηση του P4 στο παράδειγμα), επιτρέπει ένα πο-σοστό ανακολουθίας της πολιτικής του, χρησιμοποιώντας καθολική εκπομπή. Γιατον έλεγχο της ανακολουθίας, και κατά συνέπεια του φόρτου δικτύου της φάσηςεπιστροφής, χρησιμοποιεί την μεταβλητή e. Στο σημείο αυτό πρέπει να σημειωθείότι για πολύ μεγάλο e, ο GC καταφεύγει στην καθολική εκπομπή για πάρα πολλέςφορές και συνεπώς γίνεται παρόμοιος με την απλοϊκή πολιτική του αλγορίθμουML. Αντίθετα, για πολύ μικρό e, ο κόμβος επερώτησης ίσως να μη είναι δυνατόνα προσεγγιστεί, ειδικότερα όταν το MANET μεταβάλλεται πολύ γρήγορα.

Μια παραλλαγή του GC έχει ως εξής. Κατόπιν μιας ανακολουθίας, όταν ένας

Page 143: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

130ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

MH από το μονοπάτι εντοπιστεί, το h επαναφέρεται στην αρχική του τιμή. Στοπροηγούμενο παράδειγμα, όταν ο P3 προσεγγίζεται, το διαθέσιμο h επαναφέρε-ται στην αρχική τιμή 6. Συνεπώς, το h δρα ως μειούμενος τοπικός απαριθμητής,εφόσον, επαναφέρεται στην αρχική του τιμή σε διάφορους MH, ανεξάρτητα. Γιατο λόγο αυτό, η πολιτική αυτή ονομάζεται τοπικού απαριθμητή (Local-Counter -LC). Ο στόχος της είναι η αύξηση της πιθανότητας προσέγγισης του κόμβου επε-ρώτησης, επιβραβεύοντας τον εντοπισμό κόμβων που περιλαμβάνονται στο μο-νοπάτι προώθησης. Ωστόσο, η πολιτική αυτή μπορεί να προκαλέσει αύξηση τουφόρτου δικτύου στη φάση επιστροφής.

4.2.6.2 Πολιτική κρίσιμης μάζας

Στην πολιτική κρίσιμης μάζας (Critical-Mass - CM), εάν τουλάχιστο ένας αριθ-μός, ονομάζεται παράγοντας κρίσιμης μάζας (Critical-Mass Factor - CMF), τωνισχύων γειτόνων ήταν στο μονοπάτι προώθησης, επιλέγονται μόνο αυτοί για τημετάδοση του συνόλου απαντήσεων. Εάν το πλήθος τους είναι μικρότερο από τονCMF, τότε επιπλέον τυχαία επιλέγονται μερικοί από τους τρέχοντες κόμβους (πα-ρότι δεν υπήρξαν στο μονοπάτι προώθησης) ώστε να μεταδοθεί σε τουλάχιστοCMF MH το σύνολο απαντήσεων. Αντίθετα, εάν ο αριθμός τους είναι μεγαλύτε-ρος από τον CMF, τότε επιλέγονται όλοι. Για παράδειγμα, έστω η περίπτωση τουΣχήματος 4.13. Το Σχήμα 4.13a δείχνει τη φάση προώθησης, ενώ το Σχήμα 4.13bπαρουσιάζει τη φάση επιστροφής. Κατά τη φάση επιστροφής μερικοί MH άλλα-ξαν τη θέση τους. Έστω ότι ο CMF είναι 2. Όταν ο P4 ξεκινήσει τη μετάδοση τουσυνόλου απαντήσεων, αρχικά επιλέγει τον P3, καθώς ήταν στο μονοπάτι προώθη-σης. Εφόσον αυτός είναι και ο μόνος MH του μονοπατιού προώθησης και ο CMFείναι 2, επιπλέον επιλέγει τυχαία τον P5 μεταξύ των άλλων προσβάσιμων MH.

Οι κόμβοι που επιλέχθηκαν τυχαία ώστε να ικανοποιήσουν τον παράγονταCMF, λαμβάνουν το μονοπάτι του MH που εκκίνησε την επιστροφή του συνόλουαποτελεσμάτων (στο προηγούμενο παράδειγμα, ο P5 που επιλέχθηκε από τον P4,θα λάβει επίσης και το μονοπάτι από τον P1 στον P4). Με τη γνώση αυτή, εξαιτίαςτης κινητικότητας, είναι πιθανό ότι μερικοί κόμβοι κατά τη διάρκεια της φάσηςεπιστροφής θα εντοπίσουν γείτονες που υπάρχουν στο μονοπάτι προώθησης (στοίδιο παράδειγμα, ο P5 εντοπίζει τον P2 ο οποίος περιλαμβάνεται στο μονοπάτιπροώθησης). Συνεπώς, ο αντίκτυπος αυτών των τυχαία επιλεγμένων κόμβων στηνπροτεινόμενη πολιτική διατηρείται σε μέτρια επίπεδα.

Η πολιτική CM διαφέρει από τις GC και LC στα ακόλουθα ζητήματα: (i) Δενερευνά για τον προηγούμενο κόμβο του μονοπατιού, μόνο εντοπίζει MH που περι-λαμβάνονται στο μονοπάτι προώθησης ανεξαρτήτως της σειράς τους. Η τακτικήαυτή επιτρέπει στον CM περισσότερη προσαρμοστικότητα στις μεταβολές του

Page 144: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.3. ΡΟΕΣ ΠΛΗΡΟΦΟΡΙΑΣ 131

P1

P2

P4

(a) (b)

P3

P5

P1

P2

P4P3

P5

Σχήμα 4.13: Παράδειγμα των σχετικών θέσεων των MH στις φάσεις προώθησης και επι-στροφής.

MANET. (ii) Δεν καταφεύγει σε καμία περίπτωση σε καθολική εκπομπή στουςγειτονικούς κόμβους. Στη χειρότερη περίπτωση, το πλήθος των τυχαία επιλεγ-μένων κόμβων είναι ίσο με τον παράγοντα CMF. Έτσι επιτυγχάνεται καλύτεροςέλεγχος του φόρτου δικτύου επιστροφής. Εξαιτίας των προαναφερθέντων χαρα-κτηριστικών, ο CM αποδίδει καλύτερα από τους GC και LC.

4.3 Ροές πληροφορίας

4.3.1 Εισαγωγή

Στις μέρες μας το διαδίκτυο έχει εξελιχθεί σε πρωτεύουσα μεθοδολογία διά-χυσης της πληροφορίας ακόμα κι για καθημερινές δραστηριότητες. Οι περισσό-τερες των «παλαιών» μορφών πληροφορίας μετατρέπονται στις γνωστές μορφέςτου διαδικτυωμένου περιβάλλοντος ενώ σε κάποιες περιπτώσεις οι τεχνολογικέςεξελίξεις εισαγάγουν νέες μορφές διάχυσης πληροφορίας. Έτσι, καθώς ο όγκοςκαι η χρήση της εν λόγω πληροφορίας αυξάνει με ραγδαίους ρυθμούς, η διαχεί-ρησή τους εξελίσσεται σε μεγάλης σημασίας δραστηριότητα, ειδικότερα για τιςνέες μορφές που εισαγάγουν και νέες απαιτήσεις.

Η μετάδοση τύπου broadcasting μουσικής μέσω διαδικτύου εμπίπτει και στιςδύο προαναφερθείσες κατηγορίες. Από τη μια πλευρά, όμοια με την υπηρεσία πα-ραδοσιακού ραδιοφώνου, τα διαδικτυακά αντίστοιχά τους αποστέλλουν μουσικό

Page 145: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

132ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

πρόγραμμα μέσω του διαδικτύου σε εικοσιτετράωρη βάση, 365 ημέρες το χρόνο.Ακολούθως, αποτελούν ένα μέσο διάχυσης συνεχόμενης ροής μουσικής πληρο-φορίας κάνοντας χρήση μιας ήδη υπαρκτής μεθόδου, το webcasting. Παρόμοιακαι πάλι με το παραδοσιακό ραδιόφωνο, οι ακροατές δεν έχουν έλεγχο όσο αφοράτο μεταδιδόμενο περιεχόμενο.

Από την άλλη πλευρά, η δραστηριότητα του podcasting [41] αναφέρεται στηδιάθεση μιας ψηφιακής ηχογράφησης μιας ραδιοφωνικής μετάδοσης ή παρεμφε-ρούς προγράμματος στο διαδίκτυο για ακρόαση μέσω μεταφόρτωσης. Η αρχικήχρήση του podcasting στόχευε στο να δώσει την ευκαιρία στο ευρύ κοινό να δια-μοιράσουν τη δική τους «μουσική εκπομπή» με τη χρήση ήδη υπαρκτών μεθόδωνδιαδικτυακής σύνδεσης. Τα podcasts μπορούν να δημιουργηθούν, να αναρτηθούνκαι να περιέχουν πλήθος μουσικών κομματιών κατά βούληση των δημιουργώντους. Πληθώρα διαδικτυακών κόμβων υφίστανται που φιλοξενούν αρκετές δεκά-δες χιλιάδες τέτοιες πηγές [47, 50] διαδικτυακών ραδιοφωνικών σταθμών καθώςεπίσης και πολλές δεκάδες χιλιάδες podcasts [6] (εφεξής ο όρος «πηγή» αναφέρε-ται τόσο στους διαδικτυακούς ραδιοφωνικούς σταθμούς όσο και στα podcasts).

Επιπλέον, βασικό χαρακτηριστικό των ραδιοφωνικών σταθμών είναι η ροή τηςπληροφορίας τους που δεν έχει όψιμο τέλος αλλά επίσης αποτελείται από μουσικόπεριεχόμενο και μη μουσικό περιεχόμενο όπως διαφημίσεις και ομιλία εκφωνη-τών. Για το διαχωρισμό των μουσικών από τα μη μουσικά μέρη της πληροφορίαςτων πηγών, υπάρχουν αρκετές υψηλής απόδοσης μεθοδολογίες [4].

Εδώ πρέπει να σημειωθεί πως στην τρέχουσα ενότητα τα μεταδιδόμενα δεδο-μένα θεωρούνται ως δεδομένα ροής πληροφορίας, δηλαδή χρονοσειρές από μιαπηγή. Άμεση συνέπεια της προαναφεθείσας θεώρησης είναι η μοντελοποίηση τωνδεδομένων όχι ως στατικά (persistent) δεδομένα αλλά ως παροδικές (transient)ροές πληροφορίας. Ακολούθως, η μεταδιδόμενη μουσική έχει ιδιαίτερες ομοιότη-τες με τις ροές δεδομένων όπως η ταξινομημένη φύση των δεδομένων σε πακέταμε μη γνωστό ρυθμό άφιξης για τα οποία η αποθήκευση / επεξεργασία για με-γάλο χρονικό διάστημα δεν είναι δυνατή ή επιθυμητέα αλλά είναι απαραίτητη η«σε πραγματικό χρόνο» επεξεργασία τους. Έτσι, οι μέθοδοι ΑΜΠΒΠ που εφαρ-μόζονται στις πηγές αυτού του είδους πρέπει να είναι τμηματικές ή αυξητικές(incremental) ώστε να μπορούν να αντεπεξέλθουν σε περιορισμούς μνήμης αλλάκαι απαιτήσεις εύρους χρονικής απόκρισης. Επιπλέον, μέθοδοι ροών δεδομένωναπαιτούνται για την υποστήριξη μεθόδων συνεχούς επερώτησης (continuous querying)όπως παρουσιάζεται στο σενάριο - παράδειγμα που ακολουθεί. Οι παραδοσιακέςμέθοδοι ΑΜΠΒΠ για στατικά δεδομένα δεν απαιτούν τεχνικές εύρεσης των ορίωντων μουσικών δεδομένων καθώς τα όρια αυτά προσδιορίζονται ρητά από το αρ-χείο περιέκτη. Συνεπώς, η εφαρμογή των παραδοσιακών μεθόδων ΑΜΠΒΠ σεροές δεδομένων οδηγεί σε είτε μη εφαρμοστέες είτε μη αποδοτικές λύσεις καθώς

Page 146: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.3. ΡΟΕΣ ΠΛΗΡΟΦΟΡΙΑΣ 133

η έρευνα για ομοιότητα δεν μπορεί να τερματιστεί όταν έχει υπερβεί το κατώφλιεπιθυμητής απόστασης μιας και δεν υπάρχει μέθοδος για τον προσδιορισμό τουτέλους του μουσικού δεδομένου.

Ένα από τα βασικά σενάρια χρήσης της ιδέας που παρουσιάζεται εδώ περιλαμ-βάνει μια διαδικτυακή υπηρεσία που διαχειρίζεται περισσότερες της μίας πηγέςμουσικής πληροφορίας καθώς και χρήστες που ενδιαφέρονται για το περιεχόμενοτων εν λόγω πηγών. Οι χρήστες δηλώνουν στην υπηρεσία τις αρέσκειές τους όσοαφορά μουσικό περιεχόμενο και στη συνέχεια η υπηρεσία θα μπορεί σε «πραγμα-τικό χρόνο» να επιλέξει την πηγή που για την τρέχουσά της μετάδοση ταιριάζεικαλύτερα στον εκάστοτε χρήστη βάσει των προτιμήσεών του. Κατά τη διάρκειατης ακρόασης της πηγής από το χρήστη, η υπηρεσία εξακολουθεί να παρατηρείτις πηγές ώστε να μπορεί να προσδιορίσει αν υπάρχει κάποια άλλη πηγή που ναταιριάζει καλύτερα στις προτιμήσεις του χρήστη και φυσικά να τον ενημερώσει.

Στην ενότητα αυτή θα εξεταστεί η αυξητική μέθοδος εξαγωγής χαρακτηριστι-κών που θα επιτρέψει τον ουσιώδη περιορισμό του υπολογιστικού κόστους τηςυπηρεσίας του σεναρίου αλλά και μια μεθοδολογία υπολογισμού των ορίων τωνμουσικών δεδομένων που επιτρέπει τον περαιτέρω περιορισμό του υπολογιστικούκόστους της διαδικασίας υπολογισμού της ομοιότητας των μουσικών δεδομένωναλλά και της εξαγωγής πλήρους συνόλου χαρακτηριστικών.

4.3.2 Σχετικές εργασίες & προαπαιτούμενες γνώσεις

4.3.2.1 Ανάκτηση μουσικής πληροφορίας βάσει περιεχόμενου

Στην παρούσα ενότητα ενδιαφερόμαστε για την αυξητική εξαγωγή χαρακτηρι-στικών ώστε να πληρούνται οι περιορισμοί που θέτει η ροή πληροφορίας στο εξε-ταζόμενο σενάριο. Ακολούθως θα παρουσιαστεί μια διαδικασία εξαγωγής μουσι-κών χαρακτηριστικών με τρόπο αυξητικό βασισμένη στην μέθοδο Single GaussianCombined (G1C) της εργασίας [43] που κατατέθηκε στο διαγωνισμό MIREX2006 [40] και κατέλαβε την πρώτη θέση.

Αρχικά, για κάθε μουσικό κομμάτι υπολογίζονται οι συντελεστέςMel FrequencyCepstrumCoefficients (MFCC), η κατανομή των οποίων μπορεί να περιγραφεί συ-νοπτικά με μια κατανομή Gaussian (G1) και έναν πίνακα πλήρους συνδιακύμαν-σης (full covariance matrix). Η απόσταση μεταξύ δύο τέτοιων κατανομών υπο-λογίζεται με χρήση της συμμετρικής έκδοσης της απόκλισης (Kullback Leiblerdivergence). Στη συνέχεια, υπολογίζονται τα πρότυπα διακύμανσης (fluctuationpatterns - FPs) για κάθε τραγούδι. Ένα FP περιγράφει τη διαμόρφωση του πλάτουςτης έντασης ανά ζώνες συχνοτήτων, ενώ σε κάποιο βαθμό μπορεί να περιγράψεικαι περιοδικούς παλμούς (beats) του τραγουδιού. Όλα τα FPs που υπολογίζονται

Page 147: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

134ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

για κάθε πλαίσιο συνδυάζονται υπολογίζοντας το μέσο (median) πρότυπο. Κατάσυνέπεια, για κάθε τραγούδι εξάγονται δύο χαρακτηριστικά από το FP, η βαρύ-τητα (FP.G) που είναι το κέντρο βάρους του FP κατά μήκος της διάστασης δια-μόρφωσης συχνότητας και το μπάσο (FP.B) που είναι η ένταση της διακύμανσηςτων χαμηλότερων ομάδων συχνότητας στις υψηλότερες συχνότητες διαμόρφω-σης. Βάσει των τεσσάρων τιμών αυτών (G1, FP, FP.B and FP.G) υπολογίζεται ηομοιότητα 2 τραγουδιών ως γραμμικός συνδυασμός βαρών (κανονικοποιημένοςστο εύρος [0,1]), όπως περιγράφεται λεπτομερώς στην εργασία [43].

4.3.2.2 Ροές πληροφορίας & συνεχούς επερώτησης

Στις μέρες, μια πληθώρα εφαρμογών, όπως θα ήταν αναμενόμενο, δημιουργείροές πληροφορίας εν αντιθέσει με τα στατικά δεδομένα: οικονομικά στοιχεία, πα-ρακολούθηση δικτύων, έξοδοι αισθητήτων, κλπ. Στα πλαίσια της τρέχουσας ενό-τητας διερευνώνται οι περιπτώσεις όπου υφίσταται ευκαιρία χρήσης συνεχόμενωνεπερωτήσεων. Σύνηθες παράδειγμα τέτοιας περίπτωσης είναι οι χρηματιστηρια-κές εφαρμογές όπου οι συνεχείς επερωτήσεις χρησιμοποιούνται για την παρακο-λούθηση της τιμής μετοχών αλλά και για τον εντοπισμό ομοιότητας σε μεταβολέςκαι τάσεις τιμής μετοχών.

Οι μέθοδοι που ήδη έχουν αναπτυχθεί για την ανάκτηση πληροφορίας βάσειπεριεχομένου σε ροές πληροφορίας είναι κατά κανόνα εξειδικευμένες για τον τύποτων δεδομένων που διαχειρίζονται και κατά συνέπεια δεν είναι ιδιαίτερα χρήσι-μες για γενικευμένη χρήση. Ένα βασικό χαρακτηριστικό είναι η χρήση μετρικώνομοιότητας που εκμεταλλεύονται την τριγωνική ανισότητα για τον έγκαιρο περιο-ρισμό του χώρου αναζήτησης με άμεση συνέπεια τη μείωση των μη απαραίτητωνμετρήσεων απόστασης δεδομένων [17, 18, 33]. Συνήθεις τέτοιες μετρικές είναι ηΕυκλείδεια και η Manhattan απόσταση, που δεν είναι κατάλληλες για τον υπολο-γισμό ομοιότητας μουσικών δεδομένων [8].

4.3.3 Η μέθοδος CQiSM4.3.3.1 Αρχιτεκτονική

Αναλύοντας περαιτέρω το προαναφερθέν σενάριο χρήσης της ενότητας 4.3.1,μετά τον ορισμό των προτιμήσεων του χρήστη βάσει των οποίων προσδιορίζεται ηαρέσκειά του για κάθε ροή και τον υπολογισμό των χαρακτηριστικών του, η υπη-ρεσία πρέπει να εξάγει τους συντελεστές MFCCs για κάθε μια πηγή, να εντοπίσειτα μέρη της που περιέχουν μουσική πληροφορία, να εξάγει χαρακτηριστικά τωνμερών αυτών, να υπολογίσει την ομοιότητα με τα προτιμητέα τραγούδια και τέ-λος να βαθμολογήσει κάθε πηγή βάσει του τρέχοντος τραγουδιού. Οι βαθμολογία

Page 148: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.3. ΡΟΕΣ ΠΛΗΡΟΦΟΡΙΑΣ 135

τότε παρουσιάζεται στον χρήστη ενώ μετά την αρχική βαθμολόγηση, η υπηρεσίαπρέπει να συνεχίσει να παρακολουθεί τις πηγές και να εφαρμόσει όλα τα προα-ναφερθέντα βήματα ώστε να μπορεί να προσδιορίσει αν η βαθμολογία αλλάζεικατά τη διάρκεια μετάδοσης της κάθε πηγής. Ακολούθως, θα περιγραφεί η μέθο-δος CQiSM - Continuous Querying in Streaming Music ή συνεχείς επερωτήσειςσε ροές μουσικής πληροφορίας, όπως παρουσιάζεται στην έργασία [32]. Η αρχι-τεκτονική της μεθόδου CQiSM παρουσιάζεται στο Σχήμα 4.14.

Σχήμα 4.14: Η αρχιτεκτονική της μεθόδου CQiSM

Ακολούθως, η μέθοδος CQiSM μπορεί να τεμαχιστεί σε τρία μέρη: την αυ-ξητική εξαγωγή χαρακτηριστικών, τον εντοπισμό ορίων των τραγουδιών και τηνσυνολική αξιολόγηση των πηγών. Οι επόμενες ενότητες δίνουν λεπτομερή περι-γραφή των τριών μερών αυτών.

4.3.3.2 Αυξητική εξαγωγή χαρακτηριστικών

Ένα από τα εκ των ων ουκ άνευ χαρακτηριστικά των δεδομένων ροών είναιπως για να είναι διαχειρίσιμος ο ρυθμός ροής της πληροφορίας της πηγής όλεςοι διαδικασίες που εφαρμόζονται στα δεδομένα πρέπει να είναι όσο το δυνατόπερισσότερο βελτιστοποιημένες. Με άλλα λόγια, τα αποτελέσματα των ήδη εκτε-λεσμένων υπολογισμών πρέπει να χρησιμοποιούνται για την αφαίρεση υπολογι-στικού φόρτου από τους επόμενους υπολογισμούς. Ακολούθως, καθώς ένας απότους πιο χρονοβόρους υπολογισμούς της μεθόδου CQiSM είναι η εξαγωγή χαρα-κτηριστικών, η ενότητα αυτή περιγράφει μια αυξητική έκδοση της μεθόδου G1Cτου Pampalk [43]. Εδώ πρέπει να σημειωθεί πως η αυξητική έκδοση του G1C στοπροκείμενο αναφέρεται μόνο για τον υπολογισμό των συντελεστών MFCC.

Κάθε τραγούδι τεμαχίζεται σε πλαίσια με N στοιχεία καθένα, ενώ κάθε πλαί-σιο τεμαχίζεται με τη σειρά του σε τμήματα μήκους S στοιχεία με επικάλυψη(hop) K στοιχείων μεταξύ τους (βλ. Σχήμα 4.15).

ΚάθεK τιμές που λαμβάνονται από μια πηγή ορίζονται ως ένα νέο τεμάχιο (τοπρώτο τεμάχιο του κάθε πλαισίου δε συμμετέχει στους υπολογισμούς. Το τεμάχιοαυτό το ονομάζουμε χάριν ευκολίας εφεξής ως ενημέρωση. Για κάθε νέο τεμάχιο,εξάγονται οι συντελεστές MFCC του ώστε να είναι δυνατός ο υπολογισμός του

Page 149: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

136ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

NS

S

K

Σχήμα 4.15: Τεμαχισμός τραγουδιών

ορίου του. Ο υπολογισμός των MFCC του νέου τεμαχίου απαιτεί την εφαρμογήενός πλαισίου Hann στις τιμές του τεμαχίου, τον υπολογισμό του μετασχηματι-σμού Fast Fourier καθώς πλήθος άλλων στατικών υπολογισμών. Στη συνέχεια, τααποτελέσματα των προαναφερθέντων υπολογισμών πολλαπλασιάζονται με τρι-γωνικά φίλτρα (Mel-filters) ώστε να μετασχηματιστεί η ενέργεια του φάσματοςσε κλίμακα Melscale με χρήση 34 (Mel-spaced) τμημάτων συχνότητας.

Με δεδομένη την υπόθεση ότι η μέθοδος CQiSM εφαρμόζεται σε πλήρες πλαί-σιο (μη αυξητική έκδοση), τα φίλτρα Mel-filters και τα προηγούμενα αποτελέ-σματα των υπολογισμών είναι διδιάστατοι πίνακες. Θυμίζοντας εδώ πως ο πολ-λαπλασιασμός πινάκων A(m× n) και B(n× z) δίνει ως αποτέλεσμα ένα πίνακαC(m× z), παρατηρείται πως κάθε στήλη j του πίνακα C είναι αποτέλεσμα συν-δυασμού όλων των στοιχείων του πίνακαA με τα στοιχεία της στήλης j του πίνακαB. Στην αυξητική έκδοση, το αποτέλεσμα που λαμβάνεται είναι ένας μονοδιάστα-τος πίνακας καθώς προέρχεται από ένα τεμάχιο μόνο.

Τέλος, γίνονται και κάποιοι επιπλέον υπολογισμοί για την εξαγωγή των συ-ντελεστών MFCC κάθε νέου τμήματος που στη συνέχεια συνδυάζονται με τουςσυντελεστές MFCC των προηγούμενων τεμαχίων του τρέχοντος πλαισίου για τονυπολογισμό των χαρακτηριστικών G1, FPs, FP.G και FP.B. Ακολούθως, όταν εμ-φανιστεί μια ενημέρωση τότε υπολογίζονται μόνο οι MFCC του και συνδυάζονταιμε τους MFCC των προηγούμενων τεμαχίων για να δώσουν τους MFCC του πλή-ρους πλαισίου κι έτσι να υλοποιηθεί η μέθοδος C1G με αυξητικό τρόπο.

Page 150: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

4.3. ΡΟΕΣ ΠΛΗΡΟΦΟΡΙΑΣ 137

4.3.3.3 Εντοπισμός ορίων τραγουδιών

Η θεώρηση των μουσικών δεδομένων ως συνεχή ροή πληροφορίας τα οποίαεπίσης εναλλάσσονται με μη μουσικό περιεχόμενο εισαγάγει ένα διπλό πρόβλημαπρος αντιμετώπιση: τον προσδιορισμό των ορίων του κάθε τραγουδιού αλλά καιτον διαχωρισμό μουσικής από ομιλία. Το δεύτερο πρόβλημα απαιτείται για τονπεριορισμό των μη απαραίτητων και ιδιαίτερα κοστοβόρων υπολογισμών σε τμή-ματα της ροής που δε θα συνεισφέρουν στην αξιολόγηση της πηγής. Η έρευνα τουδιαχωρισμού μουσικής από ομιλία είναι μια ερευνητική κατεύθυνση αφ’ εαυτούτης, με πλήθος εναλλακτικών προσεγγίσεων [4], η ανάλυση της οποίας υπερβαί-νει το ενδιαφέρον της τρέχουσας ενότητας. Καθώς η αποδοτικότητα των μεθό-δων διαχωρισμού μουσικής από ομιλία θα επηρεάσει παρόμοια όλες τις μεθόδουςανάκτησης πληροφορίας σε ροές δεδομένων, για απλοποίηση, στο προκείμενο οδιαχωρισμός θεωρείται εκ προοιμίου γνωστός.

Από την άλλη πλευρά, ο προσδιορισμός των ορίων ενός τραγουδιού αναφέ-ρεται στον εντοπισμό του τέλους ενός τραγουδιού που ακολουθείται αμέσως απόένα άλλο χωρίς κάποια άλλη πληροφορία μεταξύ τους. Στις περιπτώσεις αυτές,όταν ένα νέο τραγούδι μιας πηγής εντοπιστεί, τότε συγκρίνεται με τις προτιμή-σεις του χρήστη και καμία άλλη δραστηριότητα μέτρησης ομοιότητας δεν γίνεταιεφόσον το όριο με το επόμενο τραγούδι είναι αναγνωρίσιμο. Ακολούθως, μόνομια ελάχιστη εξαγωγή χαρακτηριστικών συνεχίζει ώστε να εντοπιστεί η αλλαγήτου τραγουδιού ενώ τόσο η πλήρης εξαγωγή χαρακτηριστικών όσο και η μέτρησηομοιότητας αποφεύγονται.

Για την απόφαση αλλαγής τραγουδιού, η μέθοδος CQiSM παρακολουθεί τηνπρόοδο των τιμών των συντελεστών MFCC και αναζητά μεγάλες αλλαγές. Κα-θώς τα τραγούδια τελειώνουν, η συνολική τους ενέργεια τείνει να μειώνεται. Τοφαινόμενο αυτό είναι ιδιαίτερα προφανές στους πρώτους από τους συντελεστέςMFCC που συσχετίζονται άμεσα με την ενέργεια του σήματος της ηχογράφησης.Συνεπώς, καθώς το επόμενο τραγούδι ξεκινά η ενέργεια του σήματός του είναισημαντικά υψηλότερη και κατ’ αντιστοιχία οι πρώτοι συντελεστές MFCC του εί-ναι ιδιαίτερα αυξημένοι. Για τον υπολογισμό λοιπόν της μεταβολής των MFCCμπορεί να χρησιμοποιηθεί οποιαδήποτε μετρική ομοιότητας. Στο προκείμενο χρη-σιμοποιείται η Ευκλείδεια απόσταση λόγω απλότητας και δημοφιλίας. Μετά τονυπολογισμό της αρχής ενός νέου τραγουδιού, η μέθοδος CQiSM εκτελεί μόνο μιαελαχιστοποιημένη εξαγωγή χαρακτηριστικών που βασίζεται στους συντελεστέςMFCC και όχι τα χαρακτηριστικά G1, FPs & FP.G που εισαγάγουν αυξημένουπολογιστικό φόρτο.

Page 151: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

138ΚΕΦΑΛΑΙΟ 4. ΑΝΑΚΤΗΣΗ ΜΟΥΣΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΕ ΕΞΕΙΔΙΚΕΥΜΕΝΑ ΠΕΡΙΒΑΛΛΟΝΤΑ

4.3.3.4 Συνολική αξιολόγηση πηγών

Καθώς οι μέθοδοι εξαγωγής χαρακτηριστικών και μέτρησης ομοιότητας πουχρησιμοποιεί η μέθοδος CQiSM είναι σχεδιασμένες για δίνουν αποτελέσματα μο-νοσήμαντα (ένα αριθμό) για κάθε δύο τραγούδια χωρίς κάποια άλλη γνώση, γιατην αξιολόγηση της επιλογής των πηγών από τη μέθοδο CQiSM υπάρχουν δύοκύριες εναλλακτικές μεθοδολογίες. Αρχικά, ακολουθώντας μια ποσοτική αντιμε-τώπιση, αξιολογείται η διάχυση και το εύρος της ομοιότητας σε ένα πλήθος τρα-γουδιών ενώ δε δίνεται σημασία στην υπολογισμένη ομοιότητα. Ωστόσο, καθώςοι πηγές πιθανώς περιέχουν διαφορετικό πλήθος τραγουδιών ανά μονάδα χρόνουαπαιτείται κανονικοποίηση όσο αφορά το πλήθος των τραγουδιών για το οποίο τααποτελέσματα αναφέρονται. Η συνολική αξιολόγηση με την ποσοτική αντιμετώ-πιση δίνεται από την εξίσωση 4.5 στην οποία για κάθε νέο τραγούδι i σε μια πηγήμπορούν να εντοπιστούν j αποτελέσματα βάσει των προτιμήσεων των χρηστώνμε βαθμό ομοιότητας Tij . Για κάθε i και j αθροίζεται η αντίστοιχη ομοιότητα Tij

και διαιρείται με το πλήθος L των τραγουδιών που περιέχει η πηγή.

∑i

∑j Tij

L(4.5)

Εναλλακτικά, η ποιοτική αντιμετώπιση ενδιαφέρεται για το βέλτιστο αποτέλε-σμα κάθε προτίμησης ενός χρήση αδιαφορώντας για τα υπόλοιπα αποτελέσματα.Και πάλι, για να αντιμετωπιστεί το διαφορετικό πλήθος τραγουδιών ανά μονάδαχρονικής εξέτασης για το οποίο τα αποτελέσματα προέκυψαν μεταξύ πηγών, απαι-τείται κανονικοποίηση (βλ. Εξίσωση 4.6). Στην περίπτωση αυτή για κάθε νέο τρα-γούδι i μόνο το εγγύτερο αποτέλεσμα χρησιμοποιείται για την αξιολόγηση κάθεπηγής.

∑i max(Tij)

L(4.6)

Page 152: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ

[1] D. P. Agrawal and Q.-A. Zeng. Introduction to Wireless and Mobile Systems.Thomson, Brooks/Cole, 2003.

[2] R. Agrawal, C. Faloutsos, and A. Swami. Efficient similarity search insequence databases. In Proceedings Conference on Foundations of DataOrganization and Algorithms (FODO), pages 69−84, 1993.

[3] R. Agrawal, K.-I. Lin, H.S. Sawhney, and K. Swim. Fast similarity searchin the presence of noise, scaling, and translation in time-series databases. InProceedings Conference on Very Large Data Bases (VLDB), 1995.

[4] Jitendra Ajmera, Iain A. McCowan, and Hervé Bourlard. Speech/musicdiscrimination using entropy and dynamism features in a hmm classificationframework. Speech Communication, 40:351−363, 2003.

[5] Stephanos Androutsellis-Theotokis and Diomidis Spinellis. A survey ofpeer-to-peer content distribution technologies. ACM Computing Surveys(CSUR), 36(4):335−−371, 2004.

[6] Apple. Podcast Resources. Let your voice be heard., 2014.

[7] N. Beckmann, H.P. Kriegel, and B. Seeger. The R∗-tree: An efficient androbust method for points and rectangles. In Proceedings ACM InternationalConference on Knowledge Discovery and Data Mining (SIGKDD), pages322−331, 1990.

[8] Adam Berenzweig, Beth Logan, Daniel P. W. Ellis, and Brian P. W.Whitman. A large-scale evaluation of acoustic and subjective music-similarity measures. Computer Music Journal, 28(2):63−−76, 2004.

[9] A. Piccialli C. Roads, S. Pope and G. De Poli, editors. Musical SignalProcessing. Royal Swets & Zeitlinger, 1997.

139

Page 153: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

140 ΒΙΒΛΙΟΓΡΑΦΙΑ

[10] R. Castaneda, S. R. Das, and M. K. Marina. Query localization techniquesfor on-demand routing protocols in ad-hoc networks. Wireless Networks,8(2/3):137−151, 2002.

[11] K. Chan and A.W.-C. Fu. Efficient time series matching by wavelets.In Proceedings International Conference on Data Engineering, pages126−133, 1999.

[12] I. Daubechies, S. Mallat, and A.S. Willsky. Introduction to the specialissue on wavelet transforms and multiresolution signal analysis. IEEETransactions on Information Theory, 38(2):529−532, 1992.

[13] J. DeVriendt, P. Laine, C. Lerouge, and X. Xu. Mobile network evolution: Arevolution on the move. IEEE Communications Magazine, pages 104−111,April 2002.

[14] A. Dutta, J. Chennikara, W. Chen, O. Altintas, and H. Schulzrinne.Multicasting streaming media to mobile users. IEEE CommunicationsMagazine, pages 81−89, 2003.

[15] C. Faloutsos, M. Ranganathan, and Y. Manolopoulos. Fast subsequencematching in time-series databases. In Proceedings ACM InternationalConference on Management of Data (SIGMOD), pages 419−429, 1994.

[16] Y. Fang, Z.J. Haas, B. Liang, and Y.-B. Lin. TTL prediction schemes andthe effects of inter-update time distribution on wireless data access. WirelessNetworks, 10(5):607−619, 2004.

[17] Like Gao and X. SeanWang. Continually evaluating similarity-based patternqueries on a streaming time series. In Proceedings of the 2002 ACMSIGMOD International Conference on Management of Data, SIGMOD ’02,pages 370−−381, 2002.

[18] Like Gao, Zhengrong Yao, and X. SeanWang. Evaluating continuous nearestneighbor queries for streaming time series via pre-fetching. In Proceedingsof the Eleventh International Conference on Information and KnowledgeManagement, CIKM ’02, pages 485−−492, 2002.

[19] M. Grimaldi, P. Cunningham, and A. Kokaram. An evaluation of alternativefeature selection strategies and ensemble techniques for classifying music.In Proceedings Workshop on Multimedia Discovery and Mining, 2003.

Page 154: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ 141

[20] D.B. Johnson and D.A. Maltz. Dynamic source routing in ad-hoc wirelessnetworks. InMobile Computing, volume 353. Kluwer Academic Publishers,1996.

[21] S. Kadambe and G. Faye Boudreaux-Bartels. Application of the wavelettransform for pitch detection of speech signals. IEEE Transactions onInformation Theory, 38(2):917−924, 1992.

[22] V. Kalogeraki, D. Gunopulos, and D. Zeinalipour-Yazti. A local searchmechanism for peer-to-peer networks. In Proceedings Conference onInformation and Knowledge Management (CIKM), pages 300−307, 2002.

[23] I. Karydis, A. Nanopoulos, A. Papadopoulos, D. Katsaros, andY. Manolopoulos. Content-based music information retrieval in wirelessad-hoc networks. In Proceedings International Symposium on MusicInformation Retrieval (ISMIR), pages 137−144, 2005.

[24] I. Karydis, A. Nanopoulos, A. Papadopoulos, and Y. Manolopoulos.Audio indexing for efficient music information retrieval. In ProceedingsMultimedia Modeling Conference (MMM), pages 22−29, 2005.

[25] I. Karydis, A. Nanopoulos, A. N. Papadopoulos, and Y. Manolopoulos.Music retrieval in p2p networks under the warping distance. In ProceedingsInternational Conference on Enterprise Information Systems (ICEIS), pages100−107, 2005.

[26] Ioannis Karydis, Alexandros Nanopoulos, Apostolos Papadopoulos,Dimitrios Katsaros, and Yannis Manolopoulos. Music retrieval overwireless ad-hoc networks. IEEE Transactions on Audio, Speech andLanguage Processing, 16(6):1152−1162, 2008.

[27] E. Keogh and S. Kasetty. On the need for time series data miningbenchmarks: A survey and empirical demonstration. In Proceedings of ACMSIGKDD Conference, pages 102−111, 2002.

[28] E. Keogh and A.N. Ratanamahatana. Exact indexing of dynamic timewarping. Knowledge and Information Systems, 7(3):358−386, 2005.

[29] A.W.-C. Fu Kin-Pong Chan and C. Yu. Haar wavelets for efficient similaritysearch of time-series: With and without time warping. IEEE Transactions onKnowledge and Data Engineering, 15(3), 2003.

Page 155: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

142 ΒΙΒΛΙΟΓΡΑΦΙΑ

[30] A. Klapuri. Signal processing methods for the automatic transcription ofmusic. Ph.D. thesis, Tampere University of Technology, 2004.

[31] M. Kontaki and A.N. Papadopoulos. Similarity search in streaming timesequences. In Proceedings Statistical and Scientific Database Management(SSDBM), 2004.

[32] Maria Kontaki, Ioannis Karydis, and Yannis Manolopoulos. Content-basedinformation retrieval in streaming music. In Pan-Hellenic Conference inInformatics, pages 249−−259, 2007.

[33] Maria Kontaki and Apostolos Papadopoulos. Efficient similarity search instreaming time sequences. In Proceedings of international Conference onScientific and Statistical Database Management, 2004.

[34] B. Kostek and A. Wieczorkowska. Parametric representation of musicalsound. In Archive of Acoustics, pages 3−26, 1997.

[35] T. Li, Q. Li, S. Zhu, andM. Ogihara. A survey on wavelet applications in datamining. Special Interest Group on Knowledge Discovery and Data Mining(SIGKDD) Explorations, 4(2):49−68, 2002.

[36] T. Li, M. Ogihara, and Q. Li. A comparative study on content-based musicgenre classification. In Proceedings ACM Conference on Research andDevelopment in Information Retrieval (SIGIR), pages 282−289, 2003.

[37] X. Li and J.Wu. Searching techniques in peer-to-peer networks. InHandbookof Theoretical and Algorithmic Aspects of Ad Hoc, Sensor, and Peer-to-PeerNetworks, 2004.

[38] W. Lou and J. Wu. Broadcasting in ad hoc networks using neighbordesignating. In I. Maghoub and M. Ilyas, editors, Handbook of MobileComputing. CRC Press, 2004.

[39] M.K. Mandal, T. Aboulnasr, and S. Panchanathan. Fast wavelet histogramtechniques for image indexing. Computer Vision and Image Understanding,75(1-2):99−110, 1999.

[40] MIREX. Annual Music Information Retrieval eXchange.

[41] PR Newswire. ‘Podcast’ Is the Word of the Year, 2006.

Page 156: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ 143

[42] S.-Y. Ni, Y.-C. Tseng, Y.-S. Chen, and J.P. Sheu. The broadcast stormproblem in a mobile ad-hoc networks. In Proceedings ACM/IEEEInternational Conference on Mobile Computing and NetworkingMOBICOM, pages 151−162, 1999.

[43] Elias Pampalk. Audio-based music similarity and retrieval: Combininga spectral similarity model with information extracted from fluctuationpatterns, 2006. Implementation submitted to the 3rd Annual MusicInformation Retrieval eXchange 2006.

[44] C. Papaodysseus, G. Roussopoulos, D. Fragoulis, Th. Panagopoulos, andC. Alexiou. A new approach to the automatic recognition of musicalrecordings. Jounal of Acoustical Engineering Society, 49(1/2):23−35, 2001.

[45] M. Paraskevas and J. Mourjopoulos. A statistical study of the variability andfeatures of audio signals. In Audio Engineering Society, 1996.

[46] G. P. Premkumar. Alternative distribution strategies for digital music.Communications of the ACM, 46(9):89−95, 2003.

[47] Internet Radio. Free Music from Thousands of Stations.

[48] M. Roccetti, P. Salomoni, V. Ghini, and S. Ferretti. Bringing the wirelessInternet to UMTS devices: A case study with music distribution. MultimediaTools and Applications, 25(2):217−251, 2005.

[49] P. Shrestha and T. Kalker. Audio fingerprinting in peer-to-peer networks.In Proceedings International Symposium on Music Information Retrieval(ISMIR), pages 341−344, 2004.

[50] TuneIn. Listen to Online Radio, Music and Talk Stations.

[51] G. Tzanetakis, J. Gao, and P. Steenkiste. A scalable peer-to-peer system formusic information retrieval. Computer Music Journal, 28(2):24−33, 2004.

[52] C. Wang, J. Li, and S. Shi. A kind of content-based music informationretrieval method in a peer-to-peer environment. In Proceedings InternationalSymposium on Music Information Retrieval (ISMIR), pages 178−186, 2002.

[53] A. Wieczorkowska. Musical sound classification based on wavelet analysis.Fundamenta Informaticae, 47(1/2):175−188, 2001.

[54] A.Wieczorkowska and Z. Ras. Audio content description in sound databases.In Web Intelligence: Research and Development, pages 175−183, 2001.

Page 157: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

144 ΒΙΒΛΙΟΓΡΑΦΙΑ

[55] B. Yang and H. Garcial-Molina. Improving search in peer-to-peer networks.In Procceedings Conference of Distributed Computer Systems, pages 5−15,2002.

[56] C. Yang. Efficient acoustic index for music retrieval with various degreesof similarity. In Proceedings ACMMultimedia Conference, pages 584−591,2002.

[57] C. Yang. Peer-to-peer architecture for content-based music retrieval onacoustic data. In Proceedings International World Wide Web Conference(WWW), pages 376−383, 2003.

[58] B.-K. Yi and C. Faloutsos. Fast time sequence indexing for arbitrary lpnorms. In Proceedings Conference on Very Large Data Bases (VLDB), pages385−394, 2000.

[59] B.-K. Yi, H.V. Jagadish, and C. Faloutsos. Efficient retrieval of similartime sequences under time wraping. In Proceedings IEEE InternationalConference on Data Engineering, pages 201−208, 1998.

[60] Y. Zhu and D. Shasha. Warping indexes with envelope transforms for queryby humming. In Procceedings ACM Conference on Management of Data(SIGMOD), pages 181−192, 2003.

Page 158: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΚΕΦΑΛΑΙΟ 5

Καταλογοποίηση ακουστικώνμουσικών δεδομένων

Περιεχόμενα

5.1 ΕΙΣΑΓΩΓΗ . . . . . . . . . . . . . . . . . . . . . . . . . . 147

5.2 ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ . . . . . . . . . . . . . . . . . . . . 149

5.3 Ο ΑΛΓΟΡΙΘΜΟΣ MS-INDEX . . . . . . . . . . . . . . . . 151

5.4 ΕΠΙΛΥΣΗ ΨΕΥΔΩΝ ΤΑΙΡΙΑΣΜΑΤΩΝ . . . . . . . . . . . 154

5.5 ΠΕΙΡΑΜΑΤΙΚΗ ΑΠΟΤΙΜΗΣΗ . . . . . . . . . . . . . . . 157

5.1 ΕισαγωγήΜια από τις κύριες προκλήσεις στην Ανάκτηση Μουσικής Πληροφορίας Βά-

σει Περιεχομένου (ΑΜΠΒΠ) είναι η επιλογή της αναπαράστασης των μουσικώνδεδομένων σε ένα σύστημα. Τα μουσικά δεδομένα απαιτούν αναπαράσταση μέσωτων χαρακτηριστικών τους για λόγους μείωσης του χώρου έρευνας. Στη βιβλιο-γραφία υφίσταται μια πληθώρα εναλλακτικών προσεγγίσεων [13] όσον αφορά σταχαρακτηριστικά που πρέπει να αναπαραστήσουν ένα μουσικό δεδομένο.

Για τα ακουστικά μουσικά δεδομένα, τα συνηθέστερα χαρακτηριστικά εξά-γονται με τη χρήση ανάλυσης στο πεδίο του χρόνου ([7, 8]), φασματικής ανά-λυσης ([7, 8, 6]) και ανάλυσης wavelet [12]. Οι συντελεστές που συλλέγονταιαπό τις αναλύσεις αυτές μπορούν δεικτοδοτηθούν με TV-δένδρα [11], με τη μέ-θοδο του ευαίσθητου κατακερματισμούως προς την τοπικότητα (locality-sensitivehashing) [15], S-καταλόγους [2] κλπ. Επιπλέον, η εργασία [10] παρουσιάζει μια

145

Page 159: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

146 ΚΕΦΑΛΑΙΟ 5. ΚΑΤΑΛΟΓΟΠΟΙΗΣΗ ΑΚΟΥΣΤΙΚΩΝ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

σύγκριση τεσσάρων διαφορετικών πολυδιάστατων μεθόδων δεικτοδότησης μου-σικών δεδομένων, το KD-δένδρο, το K-δένδρο, την πολυδιάστατη γρήγορη ταξι-νόμηση και τη μέθοδο Box Assisted. Οι συγγραφείς της [10] καταλήγουν ότι τοKD-Tree είναι σημαντικά αποδοτικότερο από τις συγκρινόμενες μεθόδους, ιδιαί-τερα για πολυδιάστατα δεδομένα. Τέλος, οι συγγραφείς της εργασίας [14] χρησι-μοποίησαν ένα M-δένδρο στο οποίο αποθηκεύουν ένα σύνολο επιλεγμένων χαρα-κτηριστικών, επιτυγχάνοντας 65% κέρδος σε απαιτήσεις χώρου.

Στην παρούσα Ενότητα, εστιάζουμε στο πρόβλημα της ανεύρεσης ομοιότηταςσε υποακολουθίες ακουστικών μουσικών δεδομένων χρησιμοποιώντας ως χαρα-κτηριστικά των μουσικών αρχείων (ακολουθίες) τους πρώτους μερικούς συντελε-στές του μετασχηματισμού DFT. Οι συντελεστές αυτοί αποθηκεύονται σε μια χω-ροταξική δομή με στόχο τη μείωση του χρόνου ανεύρεσης. Βασικές διαφοροποιή-σεις των ακουστικών μουσικών δεδομένων σε σχέση με άλλα δεδομένα και τις ήδηυπαρκτές προσεγγίσεις για αυτά (κυρίως από το πεδίο της ανάλυσης χρονοσειρών)επιβεβαιώνουν την αναγκαιότητα εξειδικευμένων μεθόδων για τη μουσική πληρο-φορία. Λόγου χάριν, σε συνήθεις εφαρμογές χρονοσειρών, όπως η ανάλυση μετο-χών, οι ακολουθίες επερωτημάτων έχουν σχετικά μικρά μήκη, π.χ., μικρότερο των1,000 στοιχείων. Για μουσικές ακολουθίες, ακόμα και στην περίπτωση μειωμένηςδειγματοληψίας ασυμπίεστων ακουστικών αρχείων, ένα επερώτημα θα περιλάμ-βανε τουλάχιστο τρία δευτερόλεπτα μουσικής τα οποία παράγουν μια ακολουθίαεπερωτήματος 60,000 στοιχείων κατά προσέγγιση. Είναι λοιπόν εμφανές, ότι ηΕπίλυση Ψευδών Αποτελεσμάτων (false alarms)1 (ΕΨΑ) ενός τέτοιου επερωτήμα-τος θα ήταν υπολογιστικά πολύ δαπανηρή. Επιπλέον, σε σχέση με υπάρχουσες με-θόδους δεικτοδότησης μουσικών ακολουθιών για ανεύρεση ομοιότητας, το ενδια-φέρον της τρέχουσας Ενότητας είναι για προσεγγίσεις που θα επιτρέπουν άμεσηυλοποίηση σε υπάρχοντα συστήματα διαχείρισης βάσεων δεδομένων. Κατά συνέ-πεια, χρησιμοποιούνται δομές δεικτοδότησης από την οικογένεια του R-δένδρου,οι οποίες έχουν υλοποιηθεί σε πολλά εμπορικά και ανοικτού κώδικα συστήματαδιαχείρισης βάσεων δεδομένων, λ.χ., Oracle και Postgres κ.ο.κ.

Έτσι απαιτείται η χρήση ενός αλγόριθμου αποδοτικής ανάκτησης όμοιων ακου-στικών μουσικών δεδομένων για ακουστικά επερωτήματα. Ο αλγόριθμος που πα-ρουσιάζεται εδώ αντιμετωπίζει τα χαρακτηριστικά που προκύπτουν από τη φύσητου εξεταζόμενου προβλήματος, λ.χ., παράγοντες όπως το αυξημένο μέγεθος τωνεξεταζόμενων ακολουθιών (όπως προαναφέρθηκε, παρεμφερείς παράγοντες δενεμφανίζονται σε συγγενικά πεδία, όπως η ανεύρεση ομοιότητας σε χρονοσειρές).

1Ο εντοπισμός ταιριασμάτων τα οποία παρουσιάζονται ως αληθινά αποτελέσματα ενώ στηνπραγματικότητα δεν είναι.

Page 160: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

5.2. ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ 147

5.2 Σχετικές εργασίες

5.2.1 Δεικτοδότηση σε συστήματα ΑΜΠΒΠ

Στην Ενότητα αυτή παρουσιάζονται σχετικές έρευνες σε μεθόδους δεικτοδό-τησης συστημάτων ΑΜΠΒΠ ακουστικών μουσικών δεδομένων. Ο συγγραφέαςτης εργασίας [15] προτείνει έναν αλγόριθμο φασματικής δεικτοδότησης γιαΑΜΠΒΠ.Η διαδικασία εξαγωγής χαρακτηριστικών που προτείνει προσπαθεί να εντοπίσειδιακριτές νότες ή ρυθμικά πρότυπα. Τα χαρακτηριστικά χρησιμοποιούνται για τηνκατασκευή «χαρακτηριστικών ακολουθιών», που σε επόμενο βήμα δεικτοδοτού-νται βάσει ενός πιθανοτικού συστήματος, του λεγόμενου ευαίσθητου κατακερμα-τισμού ως προς την τοπικότητα (Locality-Sensitive Hashing - LSH). Το LSH επι-τρέπει τόσο ψευδή θετικά (false positive) όσο και αρνητικά (false negative) απο-τελέσματα, τα οποία αντιμετωπίζονται σε επόμενο βήμα ανάλογα με την ομοιο-μορφία στο χρόνο των αλλαγών του μουσικού ρυθμού. Πειραματικά αποτελέ-σματα παρουσιάζουν υψηλή ακρίβεια ανεύρεσης για διαφορετικούς τύπους ομοιό-τητας. Στην εργασία [14], οι συγγραφείς προτείνουν ένα σύστημα ΑΜΠΒΠ, τοοποίο προσανατολίζεται στην εξυπηρέτηση διαφορετικών τύπων επερωτημάτων.Οι αποδεκτοί τύποι επερωτημάτων περιλαμβάνουν ακουστικά αρχεία, μουσικήσημειογραφία αλλά και ερώτημα με τραγούδισμα σε μικρόφωνο (Query-By-Humming- QBH). Το πρωτόκολλοMIDI χρησιμοποιείται ως ενδιάμεση αναπαράσταση τωνμουσικών αντικειμένων. Η συλλογή των χαρακτηριστικών ονομάζεται “αντιπρο-σωπευτική μελωδία” και καταχωρίζεται σε ένα Μ-δένδρο, όπου οι μελωδίες ει-σάγονται βάσει της απόκλισης του μέσου μήκους και τονικού ύψους τους μαζί μευπογραφές της μελωδίας που περιγράφουν τον τύπο της απόκλισης. Η χρησιμο-ποιούμενη συνάρτηση απόστασης είναι τύπου χρόνο-στρέβλωσης (time-warping).Προκαταρκτικά αποτελέσματα δείχνουν 65% κέρδος σε απαιτήσεις χώρου με τηχρήση της συλλογής των χαρακτηριστικών σε αντίθεση με τις πλήρεις μελωδίες.

Η εργασία [14] βασίζεται στην υπόθεση ότι το επερώτημα των χρηστών πρέ-πει να περιλαμβάνει τουλάχιστο ένα από τα μέρη που χρησιμοποιήθηκαν για τηδημιουργία των αντιπροσωπευτικών μελωδιών. Η υπόθεση αυτή μπορεί να απο-δώσει για επερωτήματα τύπου QBH, ωστόσο είναι πιθανό να μην αποδώσει γιαένα τυχαίο μέρος ενός κομματιού από μουσικό αρχείο το οποίο περιλαμβάνεταιστο ευρετήριο, ιδιαίτερα για επερωτήματα μικρού μήκους. Επιπλέον, η μετατροπήακουστικής πολυφωνικής μουσικής σε συμβολική είναι γνωστή για τη δυσκολίακαι τη φτωχή απόδοσή της ([15, 9]). Όσον αφορά στην εργασία [15], η μέθοδοςεπιλογής χαρακτηριστικών που προτείνει είναι κυρίως εστιασμένη στον προσδιο-ρισμό διαφορετικών τύπων ομοιότητας σε μουσικά ζεύγη. Επιπλέον, τα επιλεγ-μένα χαρακτηριστικά είναι πιθανό να οδηγήσουν σε ψευδή αρνητικά αποτελέ-

Page 161: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

148 ΚΕΦΑΛΑΙΟ 5. ΚΑΤΑΛΟΓΟΠΟΙΗΣΗ ΑΚΟΥΣΤΙΚΩΝ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

σματα, τα οποία πρέπει να αντιμετωπισθούν σε μετεπεξεργαστικό βήμα. Τέλος, ηεργασία [15] χρησιμοποιεί ένα εξειδικευμένο σύστημα δεικτοδότησης.

Η παρούσα Ενότητα εστιάζει σε ένα απλούστερο, αλλά χρήσιμο, μοντέλο γιαανεύρεση ομοιότητας σε υποακολουθίες, το οποίο βασίζεται σε έρευνα σχετικάμε ανάλυση χρονοσειρών. Η προσέγγιση δεν εμφανίζει ψευδή αρνητικά αποτε-λέσματα, σύμφωνα με το χρησιμοποιούμενο μοντέλο ομοιότητας, καθώς επίσηςενσωματώνει γενικής χρήσης ευρετήρια (R-δένδρα), που επιτρέπουν άμεση υλο-ποίηση σε υπάρχοντα συστήματα διαχείρισης σχεσιακών βάσεων δεδομένων.

5.2.2 Δεικτοδότηση ομοιότητας πολυμεσικών δεδομένωνΗμέθοδος γενικής δεικτοδότησης πολυμεσικών αντικειμένων (GEnericMulti-

media object INdexIng - GEMINI) [3] αποτελείται από μια συνάρτηση εξαγωγήςγια την αντιστοίχιση των αντικειμένων σε σημεία στον f -διάστατο χώρο. Ακολού-θως, χρησιμοποιείται μια Μέθοδος Χωροταξικής Δεικτοδότησης (ΜΧΔ) για τηνεπιτάχυνση της έρευνας. Η μέθοδος GEMINI βασίζεται στα εξής τρία σημαντικάσημεία: (i) ένα γρήγορο έλεγχο που πιθανώς επιτρέπει ψευδή ταιριάσματα, ώστενα απορριφθεί η πλειονότητα των μη κατάλληλων αντικειμένων, (ii) τη χρήσημιας ΜΧΔ για τη βελτιστοποίηση της απόδοσης της έρευνας, και (iii) τη χρήσημιας μεθόδου επίλυσης ψευδών ταιριασμάτων.

Μια από τις δημοφιλέστερες φασματικές αναλύσεις για χρονοσειρές βασίζε-ται στο μετασχηματισμό Discrete Fourier Transform (DFT). Διατηρώντας τουςπρώτους μερικούς συντελεστές ως χαρακτηριστικά οδηγεί σε υπο-εκτίμηση τηςαπόστασης των ακολουθιών και κατά συνέπεια αποφεύγει τις απορρίψεις ορθώναποτελεσμάτων[4]. Η δημοτικότητα της συγκεκριμένης μεθόδου πηγάζει από τογεγονός ότι οι περισσότερες αληθινές ακολουθίες εμπίπτουν στην κατηγορία τωντυχαίων περιπάτων (randomwalks), και ειδικότερα του χρωματικού θορύβου (colorednoise). Για του τύπου αυτού ακολουθίες, οι πρώτοι μερικοί συντελεστές του μετα-σχηματισμού DFT περιέχουν την περισσότερη ενέργεια της ακολουθίας. Το φαι-νόμενο αυτό είναι ιδιαίτερα εμφανές σε ακολουθίες μετοχών, οι οποίες μπορούννα θεωρηθούν ως brown noise [4]. Είναι ενδιαφέρον να πως το ίδιο φαινόμενοισχύει και για σήματα, όπως τα ακουστικά μουσικά δεδομένα που ανήκουν στονθόρυβο “pink noise” [4].

Σε σύγκριση με τη μέθοδο που περιγράφεται στην εργασία [4], η μέθοδος πουπαρουσιάζεται εδώ διαφέρει στα εξής σημεία. Οι ακολουθίες επερωτημάτων μπο-ρεί να έχουν μεγάλα μεγέθη σε σύγκριση με τις αντίστοιχες σε δεδομένα χρο-νοσειρών και ακολουθίες μετοχών τα οποία εξετάζονται στην [4]. Συνεπώς, πα-ρουσιάζεται ένα σύστημα επίλυσης ψευδών ταιριασμάτων, το οποίο ενσωματώνειμεθόδους για τα προαναφερθέντα μεγάλα μεγέθη επερωτημάτων όπως προτάθηκε

Page 162: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

5.3. Ο ΑΛΓΟΡΙΘΜΟΣ MS-INDEX 149

στην εργασία [5] όπου το ευρετήριο μπορεί να περιέχει ένα μεγάλο πλήθος ακο-λουθιών (αναπαραστάσεων ακουστικών σημάτων).

5.3 Ο αλγόριθμος MS-Index

5.3.1 Καθορισμός προβλήματος

Το πρόβλημα που αντιμετωπίζεται στην Ενότητα αυτή ορίζεται το εξής: ΈστωD μια συλλογή από n μουσικές ακολουθίες, δηλ., D = {Di}, 1 ≤ i ≤ n. Δοθεί-σας μιας μουσικής ακολουθίας Q, να βρεθούν όλες οι Di ∈ D όπου κάθε τέτοιαDi περιέχει τουλάχιστο μια υποακολουθία Sj μήκους |Sj| = |Q| και ||Sj−Q|| ≤ ϵ

(η απόσταση ϵ είναι καθοριζόμενη από το χρήστη). Για λόγους απλότητας χρησι-μοποιείται η Ευκλείδεια απόσταση για την εύρεση της απόστασης μεταξύ των Qκαι Sj .Παράδειγμα.Έστω ότι η συλλογή των ακολουθιώνD είναι όπως εμφανίζεται στοΣχήμα 5.1, και περιλαμβάνει τρεις μουσικές ακολουθίες. Για ένα επερώτημα σεμορφή ακολουθίαςQ (επίσης στο σχήμα) και για ϵ =

√5, βρίσκουμε ένα αποτέλε-

σμα στηνD1. Η αντίστοιχη υποακολουθία εμφανίζεται στο τονισμένο ορθογώνιο.Αξίζει να σημειωθεί ότι η D1 περιέχει επίσης μια ακόμα υποακολουθία με μήκοςτριών στοιχείων (την υποακολουθία με στοιχεία: 23, 17, και 31), η οποία ταιριάζειμε τηνQ. Ωστόσο, εφόσον αρκεί να αναφερθεί ότι ηD1 περιλαμβάνει ένα αποτέ-λεσμα, το πρώτο που θα εντοπισθεί είναι αρκετό. �

D1: 0 0 12 25 18 32 12 23 17 31

D2: 0 1 13 12 28 35 19 58 92 14

D3: 2 5 67 96 55 44 28 128 116 35

Q: 24 16 32

Σχήμα 5.1: Παράδειγμα ανεύρεσης αποτελεσμάτων ομοιότητας σε υποακολουθίες.

Στην Ενότητα αυτή θεωρούνται ως μουσικές ακολουθίες, οι ακολουθίες ακε-ραίων αριθμών που κυμαίνονται από 0 έως και 255 (κάτα το πρωτόκολλο MIDI),και περιγράφουν το μέγεθος (amplitude) του σήματος του μουσικού αρχείου.

Page 163: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

150 ΚΕΦΑΛΑΙΟ 5. ΚΑΤΑΛΟΓΟΠΟΙΗΣΗ ΑΚΟΥΣΤΙΚΩΝ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

5.3.2 Εξαγωγή χαρακτηριστικώνΗ επιλογή κατάλληλων χαρακτηριστικών είναι υψηλής σημασίας στην ανά-

κτηση πολυμεσικής πληροφορίας. Χαρακτηριστικά με μεγάλη σημασιολογική αξίαβοηθούν στην αποδοτική αναπαράσταση των μουσικών αντικειμένων και επιτρέ-πουν τη χρήση μεθόδων δεικτοδότησης για αποτελεσματική επεξεργασία των επε-ρωτημάτων.

Η μέθοδος εξαγωγής χαρακτηριστικών που παρουσιάζεται εδώ προτείνεταιστην εργασία [4], καθώς το πρόβλημα που αντιμετωπίζεται είναι παρόμοιο με τοταίριασμα υποακολουθιών χρονοσειρών. Συνεπώς, οι αρχικές μουσικές ακολου-θίες μετατρέπονται σε ένα πλήθος πολυδιάστατων σημείων εφαρμόζοντας ένα κι-νούμενο παράθυρο στα μουσικά δεδομένα και στη συνέχεια το μετασχηματισμόDFT σε κάθε παράθυρο.Με τη μέθοδο αυτή κάθε μουσική ακολουθία παράγει ένασύνολο πολυδιάστατων σημείων. Ο αριθμός των διαστάσεων του χώρου μετατρο-πής εξαρτάται από το πλήθος των συντελεστών DFT που θα χρησιμοποιηθούν γιατην αναπαράσταση. Διατηρώντας τους πρώτους μερικούς από τους συντελεστέςαυτούς το μέγεθος της αρχικής ακολουθίας μειώνεται σημαντικά. Επιπλέον, κα-θώς η περισσότερη ενέργεια της μουσικής ακολουθίας είναι συγκεντρωμένη στουςπρώτους μερικούς συντελεστές DFT ([4]), αυτοί αποτελούν μια επαρκή αναπαρά-σταση.

0 0 12 25 18 32 12 23 17 31

p1

p2

p3

p4

p5

p6

x

y

z

p'1

p'2

p'3

p'4 p'5p'6

(a) (b)

Σχήμα 5.2: Τα δεδομένα: ο αρχικός (a) και ο μετασχηματισμένος (b) χώρος.

Το Σχήμα 5.2 παρουσιάζει ένα παράδειγμα της προαναφερθείσας μεθόδου με-τατροπής. Στο προκείμενο παράδειγμα το κινούμενο παράθυρο είναι μήκους πέντεστοιχείων και εφαρμόζεται στην αρχική ακολουθία. Κάθε σημείο pi που ορίζεταιαπό το παράθυρο, μετατρέπεται σε ένα σημείο p′i στον ν-διάστατο χώρο εφαρ-

Page 164: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

5.3. Ο ΑΛΓΟΡΙΘΜΟΣ MS-INDEX 151

μόζοντας το μετασχηματισμό DFT και διατηρώντας μόνο τους πρώτους ν συντε-λεστές του μετασχηματισμού. Αποδεικνύεται στην εργασία [4] ότι δεν γίνονταιαπορρίψεις ορθών αποτελεσμάτων χρησιμοποιώντας το μετασχηματισμό αυτό,καθώς η απόσταση στο χώρο μετασχηματισμού είναι κάτω φραγμένη. Ωστόσο,ψευδή ταιριάσματα αποτελούν μια πιθανότητα και απαιτούν αντιμετώπιση. Η μέ-θοδος αντιμετώπισης των ψευδών ταιριασμάτων αναλύεται στην Ενότητα 5.4.

5.3.3 ΔεικτοδότησηΗ αναπαράσταση των μουσικών δεδομένων που περιγράφηκε προηγουμένως,

δεν μπορεί να εγγυηθεί αφ’ εαυτού της την αποδοτική επεξεργασία ενός επερω-τήματος. Για το λόγο αυτό, οι μετασχηματισμένες μουσικές ακολουθίες πρέπει ναοργανωθούν με τη χρήση ενός ευρετηρίου με στόχο την αύξηση της απόδοσης τηςεπεξεργασίας.

Καθώς κάθε μουσική ακολουθία αναπαρίσταται από ένα σύνολο πολυδιάστα-των σημείων, μπορεί να χρησιμοποιηθεί μια πολυδιάστατη ΜΧΔ για την οργά-νωση των δεδομένων αυτών. Ωστόσο, η απευθείας δεικτοδότηση πολυδιάστα-των σημείων οδηγεί σε υπέρμετρες απαιτήσεις χώρου αποθήκευσης καθώς κάθεμουσική ακολουθία μπορεί να δημιουργήσει χιλιάδες πολυδιάστατα σημεία. Γιατην αντιμετώπιση του προβλήματος αυτού γίνεται χρήση μιας προσέγγισης όμοιαμε την προτεινόμενη στην εργασία [4] που εφαρμόζει ομαδοποίηση των πολυ-διάστατων σημείων με Ελάχιστα Περικλείοντα Ορθογώνια (Minimum BoundingRectangles - MBR). Η μέθοδος αυτή εκμεταλλεύεται το γεγονός ότι διαδοχικά πο-λυδιάστατα σημεία αναμένεται να είναι κοντά μεταξύ τους στο χώρο μετασχημα-τισμού. Ένα παράδειγμα της ομαδοποίησης αυτής παρουσιάζεται στο Σχήμα 5.3.

R*-tree

MBR 1

MBR 2

Σχήμα 5.3: Ομαδοποίηση και δεικτοδότηση.

Το πλήθος των MBR είναι σημαντικά μικρότερο από ότι το πλήθος των πο-λυδιάστατων σημείων. Συνεπώς, τα MBR μπορούν να οργανωθούν σε ένα R∗-δένδρο [1] αλλά και οποιοδήποτε άλλη ΜΧΔ πολυδιάστατων δεδομένων. Η Ενό-τητα αυτή εστιάζει στο R∗-δένδρο καθώς έχει συστηματικά χρησιμοποιηθεί σε

Page 165: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

152 ΚΕΦΑΛΑΙΟ 5. ΚΑΤΑΛΟΓΟΠΟΙΗΣΗ ΑΚΟΥΣΤΙΚΩΝ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

πολλές εφαρμογές και είναι ήδη υλοποιημένο σε διάφορες εμπορικές βάσεις δε-δομένων.

5.3.4 Έρευνα διαστήματος για ομοιότητα

Το επερώτημα του χρήστη αποτελείται από μια μουσική ακολουθία Q καθώςκαι το κατώφλι της απόστασης e. Η μέθοδος επεξεργασίας της ομοιότητας τουεπερωτήματος αποτελείται από τα εξής τρία βήματα:

1ο βήμα: Η μουσική ακολουθία επερωτήματος Q μετασχηματίζεται βάσει τουμετασχηματισμού που ήδη αναφέρθηκε στην Ενότητα 5.3.2. Εάν η Q είναιμεγαλύτερη από ότι το μήκος w του ολισθαίνοντος παράθυρου, τότε χωρί-ζεται σε k μέρη q1, q2, ..., qk, όπου k = ⌈ |Q|

w⌉.

2ο βήμα: Τα μέρη του επερωτήματος που προσδιορίσθηκαν στο προηγούμενοβήμα χρησιμοποιούνται για αναζήτηση στο ευρετήριο του R∗-δένδρου. Τοαποτέλεσμα του βήματος αυτού είναι ένα σύνολο μουσικών ακολουθιών οιοποίες ίσως ικανοποιούν τους περιορισμούς του επερωτήματος.

3ο βήμα: Το τελικό βήμα περιλαμβάνει τον καθαρισμό των απαντήσεων που πα-ρήγαγε το προηγούμενο βήμα. Αυτό γίνεται με ένα αλγόριθμο ΕΨΑο οποίοςπεριγράφεται λεπτομερώς στην Ενότητα 5.4.

5.4 Επίλυση ψευδών ταιριασμάτων

Για να αντιμετωπιστεί ένα ψευδές ταίριασμα , πρέπει να ανακτηθεί η αντί-στοιχη υποακολουθία και να εξεταστεί η πραγματική της απόσταση από την ακο-λουθία επερωτήματος. Ο αλγόριθμος που παρουσιάζεται στην εργασία [4] χρησι-μοποιεί μια άμεση τεχνική επίλυσης των ψευδών ταιριασμάτων. Για κάθε MBRπου βρίσκεται να ικανοποιεί το διάστημα του επερωτήματος, η υποακολουθία τουανακτάται και εξετάζεται σε σχέση με την ακολουθία επερωτήματος. Στο πλαί-σιο που εξετάζει η παρούσα Ενότητα, η προαναφερθείσα μεθοδολογία είναι μηαποδοτική για τους εξής δυο λόγους:

i. Οι μουσικές ακολουθίες επερωτήματος είναι κατά πολύ μεγαλύτερες σεσχέση με τις εξεταζόμενες στην [4] (δεδομένα μετοχών-χρηματιστηρίου).Συνεπώς, η δαπάνη μιας απλοϊκής ΕΨΑ μπορεί να αποτελέσει σημείο πα-ρεμπόδισης ολόκληρης της διαδικασίας έρευνας.

Page 166: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

5.4. ΕΠΙΛΥΣΗ ΨΕΥΔΩΝ ΤΑΙΡΙΑΣΜΑΤΩΝ 153

ii. Στην εργασία [4] εξετάζεται μόνο μια ακολουθία δεδομένων, ενώ στο πα-ρόν μπορεί να υπάρχουν πολύ περισσότερες από μια (εκτενής βάσεις δεδο-μένων)). Εάν χρησιμοποιηθεί η άμεση μέθοδος [4], οι μουσικές ακολουθίεςθα εξετάζονταν σε τυχαία σειρά (τη σειρά που δημιουργεί το επερώτημαδιαστήματος), οδηγώντας στο φαινόμενο διασκορπισμού (scattering effect)κατά τη διάρκεια της πρόσβασης των σελίδων του δίσκου που περιέχουντις ακολουθίες. Στην περίπτωση αυτή δεν θα ήταν δυνατό να διατηρηθεί ητοπικότητα στις προσβάσεις και δεν μπορεί να χρησιμοποιηθεί απομονω-τής αποδοτικά (το φαινόμενο αυτό στην ορολογία των βάσεων δεδομένωνονομάζεται thrashing).

Ακολουθώντας τη λύση που παρουσιάζεται στην εργασία [5], για την αντι-μετώπιση του τελευταίου προβλήματος (ii), δεν εξετάζεται άμεσα κάθε πιθανόαποτέλεσμα. Αντιθέτως, συλλέγονται πληροφορίες για όλα τα πιθανά αποτελέ-σματα (την αρχική και τελική θέση κάθε υποακολουθίας και το αναγνωριστικότης μουσικής ακολουθίας από την οποία προέρχεται η υποακολουθία). Στη συνέ-χεια, επιλύονται τα ψευδή ταιριάσματα σε ένα μετεπεξεργαστικό βήμα. Αρχικάομαδοποιούνται τα πιθανά αποτελέσματα κάθε μουσικής ακολουθίας ξεχωριστάκαι κατόπιν ταξινομούνται σε κάθε ομάδα τα διαστήματα βάσει της αρχικής θέ-σης της υποακολουθίας. Με τη μέθοδο αυτή, επιχειρείται η αποφυγή του τυχαίουδιασκορπισμού (scattering) κατά τη διάρκεια της πρόσβασης στις μουσικές ακο-λουθίες.

Όσον αφορά στο πρώτο πρόβλημα (i), ακολουθώντας και πάλι τη λύση πουπαρουσιάζεται στην εργασία [5], η εξέταση των σελίδων δίσκου γίνονται με τηβοήθεια ενός ανάστροφου σχήματος κατά τη διάρκεια της ΕΨΑ. Λόγου χάριν,υποθέτοντας ότι πρέπει να επιλυθεί ένα ψευδές ταίριασμα που δημιουργήθηκεαπό ένα MBR που αντιστοιχεί σε υποακολουθίες στο διάστημα [l, r]. Για κάθεθέση l ≤ i ≤ r, μπορεί να υπάρχει μια υποακολουθία μήκους |Q|, η οποία ται-ριάζει με την ακολουθία επερώτηματος Q. Παρότι το διάστημα [l, r] είναι σχε-τικά μικρό, το γεγονός ότι πρέπει να εξεταστούν υποακολουθίες μεγάλου μήκους(|Q|), επιβεβαιώνει το πρόβλημα που χρήζει αντιμετώπισης. Μια άμεση προσέγ-γιση θα ήταν να εξεταστούν όλες οι υποακολουθίες αυτές και να εντοπιστούν αυ-τές που περιέχουν αποτελέσματα. Μια τετριμμένη βελτιστοποίηση είναι ο τερ-ματισμός της εξέτασης για κάθε υποακολουθία εφόσον η πραγματική απόστασηγίνει μεγαλύτερη από ότι το κατώφλι ομοιότητας που έχει θέσει ο χρήστης (καθώςη περαιτέρω εξέταση της υποακολουθίας δεν μπορεί να μειώσει, παρά να αυξή-σει, την απόσταση). Ωστόσο, η βελτιστοποίηση αυτή επιφέρει μόνο οφέλη όσοναφορά στο χρόνο χρήσης της κεντρικής μονάδας επεξεργασίας. Οι λειτουργίεςεισόδου/εξόδου δεν μειώνονται, εφόσον πρέπει να εξεταστούν όλες οι υποακο-

Page 167: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

154 ΚΕΦΑΛΑΙΟ 5. ΚΑΤΑΛΟΓΟΠΟΙΗΣΗ ΑΚΟΥΣΤΙΚΩΝ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

λουθίες με αρχικό σημείο τη θέση l ≤ i ≤ r. Καθώς κάθε τέτοια υποακολουθίαείναι μήκους |Q|, πρέπει να προσπελαστούν ένα μεγάλο πλήθος σελίδων δίσκου.

Στο σχήμα ανάστροφης εξέτασης λειτουργεί ως εξής: όταν πρέπει να εξετα-στεί μια υποακολουθία που έχει αρχική θέση i στην αντίστοιχη ακολουθία τηςDc, δεν προσπελαύνεται η σελίδα που περιέχει το πρώτο αυτό στοιχείο. Αντίθετα,προσδιορίζεται η σελίδα (έστω R) που περιέχει το τελευταίο στοιχείο που πρέπεινα εξεταστεί, δηλαδή, το (|Q|+ i− 1)-στό στοιχείο τηςDc. Στη συνέχεια, αρχικάεξετάζεται η μερική απόσταση μεταξύ των στοιχείων της R και των αντίστοιχωνστοιχείων στην Q, η οποία είναι ορθά ευθυγραμμισμένη σαν να εξετάζονταν μετην υποακολουθία που ξεκινά στη θέση i. Εάν η μερική απόσταση είναι μεγαλύ-τερη του κατωφλιού ομοιότητας του χρήστη ϵ, τότε δεν εξετάζονται τα υπόλοιπαστοιχεία της υποακολουθίας. Με μετακίνηση στην επόμενη θέση, δηλ., στην i+1,είναι εφικτή ακόμα η εξέταση της μερικής απόστασης μεταξύ των αντίστοιχωνστοιχείων τηςQ και των στοιχείων στην υποακολουθία που ξεκινούν από τη θέσηi + 1. Κατά συνέπεια, αποφεύγεται η προσπέλαση μιας ακόμα σελίδας, όσο εξε-τάζονται υποακολουθίες που περιέχουν στοιχεία αποθηκευμένα στην R. Όταν ημερική απόσταση δεν είναι μεγαλύτερη από ϵ, τότε υπάρχει ένα μερικό αποτέ-λεσμα. Στην περίπτωση αυτή προσπελαύνεται η σελίδα που περιέχει την πρώτηθέση της τρέχουσας εξεταζόμενης ακολουθίας και υπολογίζεται η απόσταση με-ταξύ της Q και της υποακολουθίας, μέχρι να βρεθεί ένα πλήρες αποτέλεσμα ή ηυπολογιζόμενη απόσταση να υπερβεί το ϵ. Υποθέτοντας ότι κάθε σελίδα δίσκουμπορεί να αποθηκεύσει N στοιχεία, μπορεί να χρησιμοποιηθεί ένας απομονωτήςπου θα διατηρήσει ⌈|Q|/N⌉ σελίδες, ώστε να αποφευχθεί η επαν-ανάγνωση εν-διάμεσων σελίδων. Εν κατακλείδι, σε περίπτωση πλήρους αποτελέσματος, όλεςοι ενδιάμεσες σελίδες προσπελαύνονται (γεγονός που δεν μπορεί να αποφευχθεί),ενώ στις λοιπές περιπτώσεις ένα μεγάλο πλήθος αναγνώσεων σελίδων αποφεύγε-ται, επιφέροντας σημαντικά οφέλη σε χρόνο εισόδου/εξόδου.

Στη σημείο αυτό πρέπει να τονιστούν οι εξής υποθέσεις: πρέπει να εξετάστείμια υποακολουθία που ξεκινά στη θέση i της ακολουθίας Dc, ακόμα η αρίθμησητων σελίδων στην Dc: η πρώτη έχει αναγνωριστικό 0 και η τελευταία ⌊|Dc|/N⌋.Τότε, η σελίδα που περιέχει το τελευταίο στοιχείο έχει αναγνωριστικό (έστω rpID)ίσο με ⌊ i+|Q|−1

N⌋. Η θέση του πρώτου στοιχείου στην τελευταία αυτή σελίδα ονο-

μάζεται f και είναι ίση με rpID ×N . Χρησιμοποιώντας τη σημειολογία αυτή, τοΣχήμα 5.4 παρουσιάζει την ευθυγράμμιση τηςQ όταν εξετάζεται ένα μερικό απο-τέλεσμα. Τα στοιχεία που εμπλέκονται στον υπολογισμό της μερικής απόστασηςδείχνονται με γκρι χρώμα.

Στη συνέχεια, περιγράφεται ο αλγόριθμος ΕΨΑ, ο οποίος υλοποιείται στη δια-δικασία RFA (Resolve False Alarms) στο Σχήμα 5.5. Η RFA δρα σε ένα βρόχο πουεξετάζει όλες τις θέσεις l ≤ i ≤ r, όπου [l, r] είναι το διάστημα που πρέπει να

Page 168: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

5.5. ΠΕΙΡΑΜΑΤΙΚΗ ΑΠΟΤΙΜΗΣΗ 155

i …… …

0

f

f-i

|Q|+i-1Dc

Q

Σχήμα 5.4: Παράδειγμα μερικού ταιριάσματος χρησιμοποιώντας το σχήμα ανάστροφηςεξέτασης σελίδων.

εξεταστεί. Η απόφαση του υπολογισμού της μερικής απόστασης ή της κανονικήςαπόστασης καθορίζεται από την τιμή της μεταβλητής rMode (reversemode - κατά-σταση ανάστροφου σχήματος). Η rMode γίνεται αληθής όποτε βρεθεί ένα μερικόαποτέλεσμα (επιστρέφει στη ψευδή τιμή όταν δεν επιτύχει ένα κανονικό αποτέ-λεσμα). Κατά τη διάρκεια του υπολογισμού της μερικής ή κανονικής απόστασης,πρέπει να εξεταστούν στοιχεία της ακολουθίας Dc. Ο αλγόριθμος εξετάζει πότεμια νέα σελίδα πρέπει να προσπελαστεί, εφόσον τα στοιχεία αυτά μπορεί να εί-ναι αποθηκευμένα σε διαφορετικές συνεχόμενες σελίδες. Στο σημείο αυτό πρέπεινα τονιστεί ότι η προσπέλαση γίνεται με τη χρήση απομονωτή |Q|/N σελίδων,ούτως ώστε να αποφευχθούν η επαν-αναγνώσεις σελίδων όταν δεν απαιτούνται.

5.5 Πειραματική αποτίμηση

5.5.1 Πειραματικό ΠεριβάλλονΓια να υποστηριχθεί η αποδοτικότητα του παρουσιαζόμενου αλγόριθμου, η

Ενότητα αυτή παρουσιάζει τα πειράματα που πραγματοποιήθηκαν. Επιπλέον, δί-νεται μια αναλυτική περιγραφή του περιβάλλοντος και των δεδομένων που χρη-σιμοποιήθηκαν, ενώ ακολουθεί η ανάλυση των πειραματικών αποτελεσμάτων τηςσύγκρισης της βασικής μεθόδου, δηλ., του ευρετηρίου ST-Index [4], και της προ-σέγγισης παρουσιάζεται εδώ, του MS-Index (Music Subsequence match Index)).

Τα δεδομένα που χρησιμοποιήθηκαν για τα πειράματα περιλαμβάνουν μόνοπραγματικά μουσικά δεδομένα. Τα πειράματα έγιναν σε 300 ακουστικά μουσικάαρχεία που αντιστοιχούν σε περίπου 13 ώρες μουσικής. Τα αρχεία προήλθαν απόμουσικά CD από όπου εξαχθήκαν τα αρχεία τύπου wav. Τα μουσικά κομμάτιαανήκουν σε γένη μεταξύ των οποίων είναι pop, rock, οργανική καθώς και διά-φοροι τύποι ελληνικής μουσικής. Τα επερωτήματα δημιουργήθηκαν διατηρώντας1-10 δευτερόλεπτα των μουσικών αρχείων που περιλάμβανε η βάση. Εφεξής, γιαλόγους εμφανέστερης αναπαράστασης τα αποτελέσματα δείχνουν τους σχετικούςχρόνους εκτέλεσης μεταξύ του MS-index και του ST-index.

Page 169: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

156 ΚΕΦΑΛΑΙΟ 5. ΚΑΤΑΛΟΓΟΠΟΙΗΣΗ ΑΚΟΥΣΤΙΚΩΝ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Το σχήμα 5.6 παρουσιάζει το σχετικό χρόνο ανάκτησης για διαφορετικά με-γέθη επερωτήματος. Το μέγεθος του επερωτήματος μετράται σε δευτερόλεπτα καικαθώς το μέγεθος του παραθύρου του μετασχηματισμού DFT δεν μπορεί να είναιμεγαλύτερο από το μέγεθος της ακολουθίας επερωτήματος, μεταβλήθηκε επίσηςκαι το μέγεθος του παραθύρου ανάλογα. Στην περίπτωση που το μέγεθος του πα-ραθύρου του DFT είχε μείνει ανεπηρέαστο, τότε τα αποτελέσματα θα ήταν παρα-πλανητικά καθώς το μικρό μέγεθος του θα προκαλούσε ένα μεγάλο πλήθος υπο-επερωτημάτων, τα οποία θα αύξαναν το χρόνο εκτέλεσης για μεγαλύτερα επερω-τήματα. Η απόδοση του MS-Index είναι τουλάχιστο τετραπλάσια της απόδοσηςτου ST-Index, ενώ για μεγαλύτερα επερωτήματα γίνεται 9 φορές γρηγορότερη. Ηκαλύτερη απόδοση του MS-Index οφείλεται στο ότι τα μεγάλα επερωτήματα χρη-σιμοποιούν μεγαλύτερο παράθυρο DFT και το ανάστροφο σχήμα υπολογισμούτης απόστασης γίνεται αποδοτικότερο, περιορίζοντας περισσότερο την έρευνα σεενδιάμεσες σελίδες.

Page 170: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

5.5. ΠΕΙΡΑΜΑΤΙΚΗ ΑΠΟΤΙΜΗΣΗ 157

procedure RFA(Dc, l, r, Q, ϵ, N , wSize)begin

forceRead = false, rMode = truerpID = ⌊ i+|Q|−1

N ⌋f = rpID ×N

for (i = l ; i < min{r, |Di| − |Q|}; i++)if (forceRead == true)

/*a partial match was found earlier in reverse page*/fetch page that contains the i-th element of Dc

forceRead = falseelse if (⌊ i

N ⌋ == rpID)/* rPID will be tested as a normal page*/rMode = false

else if (⌊ iN ⌋ > rpID)

/*a new reverse page must be found*/rpID = ⌊ i+|Q|−1

N ⌋f = rpID ×N

rMode = true

if (rMode == false)s = 0

for (j = 0); j < |Q|; j ++)fetch page containing the (i+ j)-th element of Dc

s += (Dc[i+ j]−Q[j])2

if (√s ≤ ϵ)output match

elserMode = trueforceRead = false

elses′ = 0for (j = 0; j < |Q| − f + i; j++)

s′ += (Dc[f + j]−Q[f − i+ j])2

if (√s′ ≤ ϵ)

rMode = falseforceRead = truei−− /*re-examine i-th element for full match*/

end

Σχήμα 5.5: Ο αλγόριθμος επίλυσης των ψευδών ταιριασμάτων.

Page 171: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

158 ΚΕΦΑΛΑΙΟ 5. ΚΑΤΑΛΟΓΟΠΟΙΗΣΗ ΑΚΟΥΣΤΙΚΩΝ ΜΟΥΣΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

0

1

2

3

4

5

6

7

8

9

1 2 3 4 5 6 7 8 9 10

Χρ

όνο

ς (

σχετ

ικό

ς)

μέγεθος επερωτήματος (sec)

ST-IndexMS-Index

Σχήμα 5.6: Σχετικός χρόνος ανάκτησης για μεταβαλλόμενο μέγεθος επερωτήματος.

Page 172: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

ΒΙΒΛΙΟΓΡΑΦΙΑ

[1] N. Beckmann, H. P. Kriegel, and B. Seeger. The R∗-tree: An efficient androbust method for points and rectangles. In Proc. ACM SIGMOD Conf.,pages 322−331, 1990.

[2] D. Dervos, P. Linardis, and Y. Manolopoulos. S-index: a hybrid structure fortext retrieval. In Proceedings of ADBIS, pages 204−209, 1997.

[3] C. Faloutsos. Searching Multimedia Databases by Content. KluwerAcademic Publishers, 1996.

[4] C. Faloutsos, M. Ranganathan, and Y. Manolopoulos. Fast subsequencematching in time-series databases. In Proceedings of the ACM SIGMODinternational conference on Management of data, pages 419−429, 1994.

[5] I. Karydis, A. Nanopoulos, A. Papadopoulos, and Y. Manolopoulos. Audioindexing for efficient music information retrieval. In Proc. MMM Conf.,pages 22−29, 2005.

[6] B. Kostek and A. Wieczorkowska. Parametric representation of musicalsound. In Archive of Acoustics, pages 3−26, 1997.

[7] C. Papaodysseus, G. Roussopoulos, D. Fragoulis, Th. Panagopoulos, andC. Alexiou. A new approach to the automatic recognition of musicalrecordings. Jounal of Acoustical Engineering Society, 49(1/2):23−35, 2001.

[8] M. Paraskevas and J. Mourjopoulos. A statistical study of the variability andfeatures of audio signals. In Audio Engineering Society, 1996.

[9] J. Pickens. Harmonic modeling for polyphonic music retrieval. Ph.D. thesis,University of Massachusetts at Amherst, 2004.

[10] J. Reiss, J.-J. Aucouturier, and M. Sandler. Efficient multidimensionalsearching routines for music information retrieval. In Proceedings of ISMIR,pages 163−171, 2001.

159

Page 173: Συγγραφή - repository.kallipos.gr · x ΛΙΣΤΑΣΧΗΜΑΤΩΝ 3.10 Ακρίβειαδιέγερσηςκαισθένουςγιαόλουςτουςσυνδυασμούςσυ

160 ΒΙΒΛΙΟΓΡΑΦΙΑ

[11] V. S. Subrahmanian. Multimedia Database Systems. Kaufmann Publishers,1998.

[12] A. Wieczorkowska. Musical sound classification based on wavelet analysis.Fundamenta Informaticae, 47(1/2):175−188, 2001.

[13] A.Wieczorkowska and Z. Ras. Audio content description in sound databases.InWeb Intelligence: Research and Development, pages 175−183, 2001.

[14] J.-Y. Won, J.-H. Lee, K. Ku, J. Park, and Y.-S. Kim. A content-based musicretrieval system using representative melody index from music databases. InComputer Music Modeling and Retrieval, pages 280−294, 2004.

[15] C. Yang. Efficient acoustic index for music retrieval with various degrees ofsimilarity. In Proc. ACM MM Conf., pages 584−591, 2002.