ΑνακαλύπτονταςΚαυτάΘέµαταστη ...cgi.di.uoa.gr/~platakis/UndergrThesisPlatakis.pdf · 2009. 3. 26. · Η ανάκτηση πληροφορίας από

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ∆ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Ανακαλύπτοντας Καυτά Θέµατα στη ‘‘Μπλογκόσφαιρα’’

Μανώλης Γ. Πλατάκης

Επιβλέπων: ∆ηµήτριος Γουνόπουλος, Αναπληρωτής Καθηγητής ΕΚΠΑ

ΑΘΗΝΑ

∆ΕΚΕΜΒΡΙΟΣ 2008

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ


Μανώλης Γ. Πλατάκης

ΑΜ: 1115200400100

ΕΠΙΒΛΕΠΩΝ :

∆ηµήτριος Γουνόπουλος, Αναπληρωτής Καθηγητής ΕΚΠΑ

Περίληψη

Τα τελευταία χρόνια, τα ιστολόγια (blogs) έχουν αποκτήσει µεγάλη δηµοτικότητα και ϑεω-

ϱούνται πλέον ένα από τα πιο επιδραστικά µέσα κοινωνικής δικτύωσης των καιρών µας. Κά-

ϑε ανάρτηση ιστολογίου στη µπλογκόσφαιρα έχει µια ϱητά ορισµένη χρονοσφραγίδα (χρονική

στιγµή εµφάνισης) η οποία εν γένει δεν παρουσιάζεται στον ιστό και ως εκ τούτου δε λαµβάνεται

υπόψη από τις παραδοσιακές µηχανές αναζήτησης. Εκµεταλλευόµενοι αυτό το χαρακτηριστικό

ϑα µπορούσαµε να ανακαλύψουµε τα συµβάντα που προκάλεσαν το ενδιαφέρον της µπλογκό-

σφαιρας σε ένα συγκεκριµένο χρονικό διάστηµα.

Στην πτυχιακή αυτή εργασία παρουσιάζονται οι τελευταίες σχετικές επιστηµονικές εξελίξεις κα-

ϑώς και διάφοροι αλγόριθµοι που αφορούν την ανίχνευση των απότοµων αλλαγών συχνότητας.

΄Ενας εξ αυτών, που ϐασίζεται σε Κρυφά Μαρκοβιανά Μοντέλα, εφαρµόζεται σε µεγάλο όγκο

δεδοµένων από ιστολόγια του παγκοσµίου διαδικτύου. Τα αποτελέσµατα που προκύπτουν αντι-

στοιχίζονται σε πραγµατικά γεγονότα και συγκρίνονται µε τα αποτελέσµατα άλλων τεχνικών που

ήδη εφαρµόζονται σε ιστολόγια. Επιπλέον, γίνεται προσπάθεια συσχέτισης εκρηκτικών όρων µε

ϐάση την καµπύλη δηµοτικότητας που εµφανίζουν. Τέλος, γίνονται προτάσεις για µελλοντική

έρευνα στο χώρο που ϑα µπορούσε να συνεισφέρει στην κατασκευή µιας εξελιγµένης µηχανής

αναζήτησης σε ιστολόγια.

ΘΕΜΑΤΙΚΗ ΠΕΡΙΟΧΗ: Εξόρυξη δεδοµένων από τον παγκόσµιο ιστό

ΛΕΞΕΙΣ ΚΛΕΙ∆ΙΑ : ιστολόγια, µέσα κοινωνικής δικτύωσης, µπλογκόσφαιρα, ανάκτηση πληρο-

ϕορίας, καυτά ϑέµατα, ανάλυση εκρήξεων, εξόρυξη κειµένου, συσχέτιση λέξεων

Abstract

Over the last few years, blogs (web logs) have gained massive popularity and have become

one of the most influential web social media in our times. Every blog post in the blogosphe-

re has a well defined timestamp (moment of appearance) generally not present in the web

and therefore not taken into account by traditional search engines. By exploiting this feature

we might be able to discover events that triggered the bloggers’ interest during a time interval.

Latest relevant scientific research as well as several algorithms concerning the discovery

of abrupt frequency changes are being presented in this thesis. One of the above algorithms,

based on Hidden Markov Models, is applied on a massive amount of blog data from the web.

The produced results are matched with real life events and are compared with the outcome

of other techniques already applied on the blogosphere. Furthermore, an attempt to discover

potential correlations between bursty terms is being made. Last but not least, ideas for future

research in the field, that could help the creation of a blog search engine, more sophisticated

than the existing ones, are presented.

SUBJECT AREA: Web Mining

KEYWORDS: blogs, social media, blogosphere, information retrieval, hot topics, burst analy-

sis, text mining, keyword correlation

Στους γονείς µου

Ευχαριστίες

Ευχαριστώ πολύ τον επιβλέποντά µου ∆ηµήτρη Γουνόπουλο που µε τη διδασκαλία του, τηνπροσωπική επικοινωνία µας, τις επιστηµονικές νουθεσίες του και την εµπιστοσύνη του στο πρό-σωπό µου µε ενέπνευσε στα πρώτα µου ερευνητικά ϐήµατα στην επιστήµη µας. Επιπλέον,ευχαριστώ το µεταπτυχιακό συνάδελφο και ϕίλο ∆ηµήτρη Κωτσάκο για την ερευνητική συνεργα-σία στα πλαίσια της πτυχιακής εργασίας (και όχι µόνο), για τα ανεκτίµητης αξίας κοινά ξενύχτιαόταν ο ϕόρτος εργασίας γινόταν αφόρητος και για τις αναρίθµητες ϕορές που κάναµε σχέδιαγια το µέλλον. Επίσης, ευχαριστώ το ϕίλο Λεωνίδα που είναι το διαβατήριό µου στις όµορφεςκαι περιπετειώδεις εκφάνσεις της Ϲωής και το ϕίλο Χρήστο που διαβάσαµε µαζί πολλά δύσκολαµαθήµατα δίνοντας κουράγιο ο ένας στον άλλον στο δρόµο για το πτυχίο. Τέλος, ευχαριστώ απότα ϐάθη της καρδιάς µου τους γονείς µου για όλα τα χρόνια αγάπης, προστασίας, διαρκούς υπο-στήριξης και προσπάθειας ώστε να µη µου λείψει τίποτα. Χωρίς αυτούς δε ϑα τα είχα καταφέρει.Σας αγαπώ πολύ.

Μανώλης

Περιεχόµενα

Πρόλογος 21

1 Εισαγωγή 23

2 Σχετική Βιβλιογραφία 27

2.1 BlogScope . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.1 Εισαγωγή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.2 Καµπύλη ∆ηµοτικότητας . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.3 Ανίχνευση Εκρηκτικών ΄Ορων . . . . . . . . . . . . . . . . . . . . . . . . 31

2.1.4 Εύρεση Συσχετιζόµενων ΄Ορων . . . . . . . . . . . . . . . . . . . . . . . 32

2.2 Επιστηµονικές Εργασίες που Αφορούν τα Ιστολόγια . . . . . . . . . . . . . . . . 36

3 Κρυφά Μαρκοβιανά Μοντέλα 39

3.1 Ορισµός . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 Βασικά Προβλήµατα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 Αλγόριθµος Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.1 Ανάλυση και Επεξήγηση . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4 Αυτόµατο Ανίχνευσης Εκρηκτικών Ρευµάτων 43

4.1 Περιγραφή . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 Υλοποίηση . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

13


5 Εφαρµογή του Αυτοµάτου σε ∆εδοµένα Ιστολογίων 49

5.1 Προεπεξεργασία . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.2 ∆εδοµένα Εισόδου και Τιµές Παραµέτρων Αυτοµάτου . . . . . . . . . . . . . . . 50

5.3 Πειραµατικά Αποτελέσµατα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.3.1 Παραδείγµατα Εκρηκτικών ΄Ορων και Σύγκριση µε το BlogScope . . . . . 51

5.3.2 Αναζήτηση Συστάδων Συσχετιζόµενων ΄Ορων . . . . . . . . . . . . . . . . 53

6 Μελλοντικές Κατευθύνσεις 57

7 Παράρτηµα 59

7.1 ∆ηµοσιεύσεις . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

7.2 Script για την Προετοιµασία των ∆εδοµένων . . . . . . . . . . . . . . . . . . . . 59

7.3 Κώδικας Αυτοµάτου . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

7.4 Κώδικας Αφαίρεσης των Stop Words . . . . . . . . . . . . . . . . . . . . . . . . 86

7.5 Κώδικας Εξαγωγής Τίτλων και Ανάθεσης Χρονοσφραγίδων . . . . . . . . . . . . 88

Ορολογία 91

Συντµήσεις - Αρκτικόλεξα 93

Βιβλιογραφία 95

Μανώλης Γ. Πλατάκης 14

Κατάλογος Σχηµάτων

2.1 Καµπύλη δηµοτικότητας για τον Abu Musab al-Zarqawi . . . . . . . . . . . . . 30

2.2 Σύγκριση των καµπυλών δηµοτικότητας για τις λέξεις soccer και zidane. . . . . 30

2.3 Συσχετιζόµενοι όροι για τον Philip Seymour Hoffman για δύο διαφορετικές χρο-

νικές περιόδους . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.1 Εκθετική κατανοµή του χρονικού διαστήµατος 𝑥 µέχρι την επόµενη εκποµπή

µηνύµατος για 𝑏 και 𝑎 µε 𝑏 > 𝑎 . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2 Αυτόµατο ανίχνευσης εκρηκτικών ϱευµάτων µε δύο καταστάσεις . . . . . . . . . 45

5.1 Καµπύλη δηµοτικότητας για τον όρο fool όπως παράγεται από το BlogScope για

το διάστηµα 1–10 Απριλίου 2008. . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.2 Καµπύλη δηµοτικότητας για τον όρο preprocessor όπως παράγεται από το Blog-

Scope για το διάστηµα 1–10 Απριλίου 2008. . . . . . . . . . . . . . . . . . . . 53

5.3 Καµπύλη δηµοτικότητας για τον όρο mp3 όπως παράγεται από το BlogScope για

το διάστηµα 1–10 Απριλίου 2008. . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.4 Λίστα συσχετιζόµενων όρων µε τη λέξη credit όπως παράγεται από το BlogScope

για τις 3 Απριλίου 2008. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

15

Κατάλογος Πινάκων

5.1 Λίστα των συσχετιζόµενων όρων µε τη λέξη credit ϐασισµένη στο BlogScope µε

τις εγγραφές των όρων όπως εµφανίζονται στα αποτελέσµατα του αλγορίθµου του

Kleinberg. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.2 Λίστα των όρων {charlton, heston, actor, dead, 84} όπως εµφανίζονται στα αποτε-

λέσµατα του αλγορίθµου του Kleinberg. . . . . . . . . . . . . . . . . . . . . . . 56

17

Κατάλογος Αλγορίθµων

2.1 Αλγόριθµος υπολογισµού της καµπύλης δηµοτικότητας των όρων µιας αναζήτησης 30

3.1 Αλγόριθµος Viterbi για τον υπολογισµό του πιθανότερου µονοπατιού που εκπέµπει

µια δεδοµένη ακολουθία συµβόλων . . . . . . . . . . . . . . . . . . . . . . . . . 42

19

Πρόλογος

Η πτυχιακή εργασία που κρατάτε στα χέρια σας είναι το τελευταίο πόνηµα του συγγραφέα γιατη λήψη του πτυχίου του και έλαβε χώρα στην Αθήνα κατά τη διάρκεια του ακαδηµαϊκού έτους2007-2008.

Στην πορεία των σπουδών µου διαπίστωσα σχετικά σύντοµα ότι η περιοχή των ϐάσεων δεδοµέ-νων αλλά και των αλγορίθµων ξεχώριζαν στα ενδιαφέροντα µου. Με στόχο να συνδυάσω τις δύοπεριοχές αποφάσισα να εντρυφήσω στην εξόρυξη δεδοµένων. Μελέτησα διάφορα εναλλακτικάϑέµατα, που µου προτάθηκαν από τον επιβλέποντά µου κ. Γουνόπουλο, και τελικά επέλεξανα ασχοληθώ µε την ανάκτηση πληροφορίας από τον παγκόσµιο ιστό και συγκεκριµένα από ταιστολόγια. Καθώς διατηρώ προσωπικό ιστολόγιο (http://www.di.uoa.gr/˜platakis/)και διαβάζω αρκετά ελληνικά και ξένα ιστολόγια µε κέντρισε η προσπάθεια αυτόµατης αναζή-τησης των ϑεµάτων που κατά καιρούς συζητά έντονα η ‘‘µπλογκόσφαιρα’’ — νεολογισµός πουπερικλείει το σύνολο των ιστολογίων του παγκοσµίου ιστού.

Μέσα από την εργασία αυτή µπόρεσα να κάνω τα πρώτα µου ερευνητικά ϐήµατα, να µελετήσωσχετικές επιστηµονικές εργασίες και να τις αξιοποίησω για την παραγωγή µιας νέας µεθοδολογί-ας αντιµετώπισης του υπό µελέτη Ϲητήµατος. Η πτυχιακή εργασία οδήγησε στη δηµοσίευση [20]η οποία ϐραβεύτηκε µε το ϐραβείο καλύτερης εργασίας στο Πανελλήνιο Φοιτητικό ΣυνέδριοΠληροφορικής : ΕΥΡΗΚΑ 2008. Η παρουσίαση της δηµοσίευσης στο συνέδριο και η µετέπειταϐράβευση αποτέλεσαν την επιτοµή µιας ευχάριστης και συναρπαστικής εµπειρίας. Επιπλέον, ηεξέλιξη της ερευνητικής δουλειάς οδήγησε στη δηµοσίευση [21].

Τέλος, ϑα πρέπει να σηµειωθεί ότι όλο το απαιτούµενο υλικό για τη δοκιµή της µεθόδου πουπεριγράφεται στην εργασία (κώδικας προγραµµάτων, αρχεία δοκιµών και αρχεία αποτελεσµά-των) είναι διαθέσιµο στο συνοδευτικό cd.

21

http://www.di.uoa.gr/~platakis/

Κεφάλαιο 1

Εισαγωγή

Στο κεφάλαιο αυτό περιγράφεται ο στόχος αυτής της εργασίας. Αρχικά γίνεται µια εισαγωγήστις ϐασικές έννοιες που αφορούν την εξόρυξη δεδοµένων και την ανάκτηση πληροφορίας απότον παγκόσµιο ιστό. Στη συνέχεια παρουσιάζονται τα ιστολόγια και δίδεται έµφαση στον πλούτοπληροφορίας που αυτά περιέχουν και ο οποίος ενέπνευσε τη σχετική έρευνα που γίνεται σεαυτήν την εργασία. Τέλος, γίνεται αναφορά στα κεφάλαια της εργασίας, περιγράφοντας µε λίγαλόγια τα κύρια σηµεία τους.

Εξόρυξη δεδοµένων (data mining) είναι η διαδικασία εξαγωγής κρυµµένων προτύπων απόδεδοµένα. ΄Οσο συγκεντρώνονται όλο και περισσότερα δεδοµένα —ο όγκος των δεδοµένων δι-πλασιάζεται κάθε τρία χρόνια— η εξόρυξη δεδοµένων καθίσταται όλο και πιο σηµαντικό εργαλείογια το µετασχηµατισµό αυτών των δεδοµένων σε πληροφορία. Χρησιµοποιείται συχνά σε ένα µε-γάλο εύρος εφαρµογών π.χ. στο διαφηµιστικό τοµέα, στην ανίχνευση απάτης καθώς και γιαεπιστηµονικές παρατηρήσεις. Τεχνικές εξόρυξης δεδοµένων µπορούν να εφαρµοστούν σε σύνο-λα δεδοµένων (datasets) ανεξαρτήτα από το πόσο µεγάλα είναι.

Η ανάκτηση πληροφορίας από τον παγκόσµιο ιστό συνίσταται στη χρήση τεχνικών εξόρυξηςδεδοµένων για την αναζήτηση κρυµµένων προτύπων σε δεδοµένα του διαδικτύου. Το Internetείναι αναµφίβολα η µεγαλύτερη αποθήκη δεδοµένων στον κόσµο. Αν αναλογιστεί κανείς το γε-γονός ότι ο όγκος των διαθέσιµων δεδοµένων αυξάνεται εκθετικά µπορούµε να συµπεράνουµεότι υπάρχει σηµαντική προοπτική εξαγωγής χρήσιµης πληροφορίας από αυτά. Επιπλέον, τα δε-δοµένα αυτά εµπλουτίζονται καθηµερινά από το, ολοένα και αυξανόµενο, πλήθος των ανθρώπωνπου συνδέονται στο διαδίκτυο. Η εξόρυξη δεδοµένων από τον παγκόσµιο ιστό χρησιµοποιείταικυρίως για τη ϐελτίωση της τεχνητής ευφυΐας των µηχανών αναζήτησης και των διαφηµιστικών

23


υπηρεσιών του ιστού. Χωρίζεται σε τρεις ϐασικές περιοχές :

• Εξόρυξη προτύπων χρήσης του Ιστού από δεδοµένα που προέρχονται από τους χρήστες,παράγονται, εν γένει, αυτόµατα από τους εξυπηρετητές και αποθηκεύονται σε logs.

• Εξόρυξη πληροφοριών από τη δοµή του Ιστού µε συνηθέστερη τακτική την εφαρµογή τηςϑεωρίας γράφων στους υπερσυνδέσµους µεταξύ των ιστοτόπων.

• Εξόρυξη δεδοµένων από το περιέχοµενο των ιστοτόπων δηλαδή κυρίως από το κειµένο πουϐρίσκεται σε αυτούς αλλά ενίοτε και από διαθέσιµο πολυµεσικό περιεχοµένο.

Η πτυχιακή εργασία ασχολείται µε την τρίτη περιοχή.

Ιστολόγιο είναι µια ιστοσελίδα, συνήθως συντηρούµενη από ένα άτοµο —αλλά πρόσφατα όλοκαι συχνότερα από οµάδες ατόµων—, µε τακτικές αναρτήσεις στις οποίες περιγράφονται καισχολιάζονται γεγονότα συχνά εµπλουτισµένα από εικόνες και ϐίντεο. Κάθε επισκέπτης τηςιστοσελίδας έχει τη δυνατότητα να σχολιάσει µια ανάρτηση προσθέτοντας την άποψή του. Τατελευταία χρόνια, τα ιστολόγια έχουν αποκτήσει µεγάλη δηµοτικότητα και ϑεωρούνται πλέονένα από τα πιο επιδραστικά µέσα κοινωνικής δικτύωσης των καιρών µας. Οποιοσδήποτε µε µιασύνδεση στο Internet µπορεί εύκολα, γρήγορα και δωρέαν να δηµιουργήσει το δικό του blogχρησιµοποιώντας κατάλληλες web πλατφόρµες που έχουν αναπτυχθεί γι΄ αυτό το σκοπό (π.χ.blogger.com, wordpress.com κ.α.). Σύµφωνα µε τη µηχανή αναζήτησης σε blogs Technoratiκαθηµερινά εµφανίζονται πάνω από 900 χιλιάδες νέες αναρτήσεις στον παγκόσµιο ιστό και οαριθµός των αγγλόφωνων ιστολογίων που υπάρχουν σήµερα ξεπερνάει τα 133 εκατοµµύρια ταοποία δεικτοδοτούνται από το Technorati [23]. Η αυξηµένη διάθεση του κόσµου να γράφει σειστολόγια προσφέρει ένα τέραστιο πλούτο πληροφορίας που περιµένει να εξαχθεί.

Τα ιστολόγια ορίζουν µια νέα περιοχή έρευνας όσον αφορά το πεδίο της ανάκτησης πληροφορί-ας γιατί το περιεχόµενο των ιστολογίων έχει ένα πολύ ξεχωριστό χαρακτηριστικό που απουσιάζειαπό το παραδοσιακό περιεχόµενο του διαδικτύου: σε κάθε ανάρτηση ιστολογίου (blog post)υπάρχει µια χρονοσφραγίδα (timestamp). Εποµένως, κάθε ανάρτηση ιστολογίου έχει µια ϱητάορισµένη τιµή στον άξονα του χρόνου. Οι παραδοσιακές µηχανές αναζήτησης σε ιστολόγια δενλαµβάνουν υπόψη τη χρονική αυτή διάσταση και µεταχειρίζονται τα ιστολόγια σαν κλασικό πε-ϱιεχόµενο ιστού· αξιοποιούν το πολύ τις ετικέτες κατηγοριών (category tags) που προστίθενταιπροαιρετικά από το χρήστη σε µια ανάρτηση ιστολογίου.



Οι χρονοσφραγίδες των blog posts χρησιµοποιούνται στην εργασία για την ανίχνευση τηςχρονικής περιόδου κατά την οποία η δηµοτικότητα ενός συγκεκριµένου όρου (keyword) αυξά-νεται ϱαγδαία, σηµατοδοτώντας έτσι, µια έκρηξη (burst). Επιπλέον, γίνεται προσπάθεια για τηνανακάλυψη ϑεµάτων υψηλής εκρηκτικότητας (burstiness) µε αντιστοίχηση σε γεγονότα πραγµα-τικής Ϲωής. Τέλος, γίνεται προσπάθεια συσχέτισης των εκρηκτικών όρων µε ϐάση την καµπύληδηµοτικότητας που αυτοί εµφανίζουν.

Η εκρηκτικότητα των όρων έχει εκτενώς ερευνηθεί στην επιστηµονική ϐιβλιογραφία. Στηδουλειά αυτή µελετώνται πρόσφατοι αλγόριθµοι για την ανίχνευση bursty όρων. Εφαρµόζονταικατάλληλα σε µεγάλο όγκο δεδοµένων που προέρχονται από ιστολόγια και τα αποτελέσµατάτους συγκρίνονται και αξιοποιούνται κατάλληλα για την ανίχνευση σπουδαίων γεγονότων αλλάκαι συσχετίσεων µεταξύ των εκρηκτικών όρων.

Στο κεφάλαιο 2 αναλύεται η σχετική δουλειά που έχει γίνει στο χώρο της αναζήτησης τωνιστολογίων και δίνεται έµφαση στο σύστηµα BlogScope [2], ένα νέο σύστηµα που αναπτύχθηκεγια έξυπνη αναζήτηση γεγονότων σε ιστολόγια. Στο κεφάλαιο 3 γίνεται µια εισαγωγή στα Κρυ-ϕά Μαρκοβιανά Μοντέλα. Στο κεφάλαιο 4 περιγράφεται το αυτόµατο ανίχνευσης εκρηκτικώνϱευµάτων που επινόησε ο Jon Kleinberg στο [14]. Στο κεφάλαιο 5 το αυτόµατο εφαρµόζεταισε δεδοµένα ιστολογίων και αξιολογούνται τα πειραµατικά αποτελέσµατα της εφαρµογής αυτής.Στο κεφάλαιο 6 αποτυπώνονται διάφορες µελλοντικές κατευθύνσεις που ϑα µπορούσαν να οδη-γήσουν σε περαιτέρω ενδιαφέροντα αποτελέσµατα. Τέλος, στο κεφάλαιο 7 ϐρίσκεται ο κώδικαςτων προγραµµάτων που χρησιµοποιήθηκαν στην πτυχιακή καθώς και οι σχετικές δηµοσιεύσειςπου προέκυψαν από τη δουλειά αυτή.


Κεφάλαιο 2

Σχετική Βιβλιογραφία

Στο κεφάλαιο αυτό παρουσιάζονται διάφορες επιστηµονικές εργασίες που σχετίζονται µε τηνερευνητική περιοχή που αφορά την εξόρυξη γνώσης από τον παγκόσµιο ιστό και ειδικότερα τηνανάκτηση πληροφορίας από το περιεχόµενο ιστολογίων.

2.1 BlogScope

2.1.1 Εισαγωγή

Οι συγγραφείς της εργασίας [2] παρουσιάζουν το σύστηµα BlogScope [4], ένα σύστηµα γιατην online ανάλυση µεγάλου όγκου χρονικά ταξινοµηµένων καταχωρήσεων κειµένου και τοεφαρµόζουν στη Blogosphere. Προσπαθούν να εκµεταλλευτούν τρία ειδικά χαρακτηριστικά τηςµπλογκόσφαιρας :

1. Η πληροφορία που περιέχεται στα ιστολόγια συνδέεται µε µια χρονοσφραγίδα.

2. Τα blog posts µπορούν εύκολα να αντιστοιχηθούν στη γεωγραφική τοποθεσία στην οποίαϐρίσκεται ο συγγραφέας.

3. Τέλος, κάποιες αναρτήσεις σε ιστολόγια ενδέχεται να προκαλέσουν νέες σχετικές αναρτή-σεις από τον ίδιο ή άλλους bloggers που µε τη σειρά τους ϑα οδηγήσουν στην έναρξη µιαςσυζήτησης στη µπλογκόσφαιρα.

Οι ερευνητές τονίζουν πως, παρόλο που το άρθρο αφορά τα ιστολόγια, το σύστηµα µπορεί πο-λύ εύκολα να τροποποιηθεί για να χειριστεί κάθε είδους, ταξινοµηµένο στον άξονα του χρόνου,

27


ϱεύµατα κειµένου όπως ειδησεογραφικές ανακοινώσεις, λίστες ηλεκτρονικού ταχυδροµείου, δια-δικτυακά forums και άλλα µέσα κοινωνικής δικτύωσης.

Θεωρήστε για παράδειγµα µια αναζήτηση για τον ηθοποιό ‘Philip Seymour Hoffman’ στηµπλογκόσφαιρα. Μια παραδοσιακή µηχανή αναζήτησης ϑα παρέθετε όλα τα blog posts, τα-ξινοµηµένα µε κάποια σειρά, που περιέχουν τη συµβολοσειρά αναζήτησης. Παρόλο που τοαποτέλεσµα αυτό είναι αρκετά χρήσιµο, οι συγγραφείς υποστηρίζουν πως η λειτουργικότηταπου ϑα µπορούσε µια µηχανή αναζήτησης να προσφέρει είναι πολύ περισσότερη στην περί-πτωση των ιστολογίων. Για παράδειγµα, κάποιος ϑα µπορούσε να παρατηρήσει την εξέλιξη τηςδηµοτικότητας των keywords ‘Philip Seymour Hoffman’ συναρτήσει του χρόνου και να επιλέξειχρονικές υποπεριοχές που παρατηρείται ϱαγδαία αύξηση της συχνότητας εµφάνισης των όρωναυτών ούτως ώστε να επαναπροσδιορίσει την αρχική του αναζήτηση. Στα αποτελέσµατα της πα-ϱαπάνω αναζήτησης παρατηρείται πως τα keywords ‘Philip Seymour Hoffman’ παρουσιάζουναπροσδόκητη δηµοτικότητα το 2006, χρονιά που ο ηθοποιός κέρδισε το ϐραβείο Oscar. Ταδιαστήµατα ϑα έπρεπε να εντοπίζονται αυτόµατα.

Οι συγγραφείς του άρθρου υποστηρίζουν ότι λέξεις συσχετιζόµενες (correlated) µε τους όρουςτης αναζήτησης (π.χ. λέξεις που παρατηρούνται σε κοινές εµφανίσεις µε αυτούς) ενδέχεταινα είναι σε ϑέση να εξηγήσουν την απότοµη αύξηση της συχνότητας των αναζητούµενων όρων,πάντα όσον αφορά το χρονικό διάστηµα που µελετάται. Για παράδειγµα, στην προηγούµενηαναζήτηση, οι λέξεις ‘Capote’ (η ταινία για την οποία τιµήθηκε µε το ϐραβείο της Ακαδηµίας)και ‘Oscar’ παρουσιάζονται ως correlated µε τα keywords της αρχικής αναζήτησης. Επιπλέον,τα correlated keywords µπορούν να καθοδηγήσουν το χρήστη σε πιο ειδικευµένη αναζήτηση.

Οι συγγραφείς εκφράζουν την άποψη ότι δεν απαραίτητο η ανάκτηση πληροφορίας από ταιστολόγια να οδηγείται από µια αναζήτηση. Μια διαφορετική ιδέα ϑα συνίστατο στην ύπαρξηενός συστήµατος το οποίο ϑα είναι σε ϑέση να προτείνει σε κάθε χρήστη, ανά πάσα στιγµή,‘ενδιαφέροντες’ όρους για να εξερευνήσει κατά ϐούληση. Περαιτέρω τρόποι για εξευρένηση τηςµπλογκόσφαιρας χωρίς αναζήτηση ϑα µπορούσαν να είναι η χωροχρονική τοποθεσία των blogposts, η αντίστοιχιση όρων σε ϑεµατικές περιοχές (topics) και άλλοι.

Στην εργασία αυτή παρουσιάζεται το σύστηµα BlogScope που αναπτύσσεται στο Πανεπιστήµιοτου Toronto. Το BlogScope αποθηκεύει και ευρετηριάζει τη µπλογκόσφαιρα εξάγοντας αρκετάδεδοµένα για να υποστηρίξει διαδραστική ανάλυση και ανακάλυψη πληροφορίας. Ο συνολικός



αριθµός ιστολογίων, που παρακολουθεί και καταχωρεί το σύστηµα, ξεπερνά τα 10 εκατοµµύρια.Οι υπηρεσίες που προσφέρει περιλαµβάνουν

• τη συνεχή ανίχνευση εκρηκτικών όρων

• την αποτελεσµατική εύρεση συσχετιζόµενων όρων

• τη δυνατότητα OLAP ανάλυσης της µπλογκόσφαιρας

• τη χωρική πλοήγηση σε αναρτήσεις ιστολογίων

• την παραγωγή περιλήψεων για ταχύτερη αναζήτηση

• την ταξινόµηση των ιστολογίων µε ϐάση την επιδραστικότητα των συγγραφέων

και άλλες. Η ανάλυση εφαρµόζεται στο πλήρες κείµενο των αναρτήσεων των ιστολογίων µετά τοϕιλτράρισµά του για την αφαίρεση περιπτώσεων spam.

Η πτυχιακή εργασία ασχολείται µε τις δύο πρώτες υπηρεσίες και εποµένως ϑα εστιάσει στηνπαρουσίαση του τρόπου µε τον οποίο αυτές υλοποιούνται από το BlogScope.

2.1.2 Καµπύλη ∆ηµοτικότητας

Η καµπύλη δηµοτικότητας (popularity curve) µιας λέξης (ή ενός συνόλου λέξεων) αναπαριστάτο πόσο συχνά οι υπό αναζήτηση όροι αναφέρονται στη µπλογκόσφαιρα συναρτήσει του χρόνου.Τέτοιες καµπύλες, καθώς και οι διακυµάνσεις τους, µπορούν να προσφέρουν ανεκτίµητη µετα-πληροφορία σε σχέση µε την εξέλιξη της δηµοτικότητας ενός όρου µε την πάροδο του χρόνου.Στην εικόνα 2.1 ϕαίνεται η καµπύλη δηµοτικότητας του Abu Musab al-Zarqawi στην περίοδοΑπριλίου-Μαΐου 2006. Οι συγγραφείς υποστηρίζουν ότι τα popularity curves µπορούν να χρη-σιµοποιηθούν για τη σύγκριση της δηµοτικότητας διαφορετικών όρων. Αναµένουν πως στενάσυσχετιζόµενοι όροι ϑα έχουν σε µεγάλο ϐαθµό παρόµοια καµπύλη δηµοτικότητας τουλάχιστονστο χρονικό διάστηµα στο οποίο σχετίζονται. Εποµένως, η σύγκριση των popularity curves πα-ϱέχει έναν εναλλακτικό τρόπο ταυτοποίησης συσχετιζόµενων όρων. Η εικόνα 2.2 αντιπαραβάλλειτις καµπύλες δηµοτικότητας των λέξεων soccer και zidane. Παρατηρήστε ότι οι δύο όροι επι-δεικνύουν µεγάλη οµοιότητα στη δηµοτικότητά τους για ένα πολύ σύντοµο χρονικό διάστηµα.Αυτό το χρονικό παράθυρο (time window) ξεκινάει λίγες µέρες πριν από τον τελικό του Μουντιάλ2006 και κορυφώνεται ανήµερα του τελικού (στις 9 Ιουλίου) κάτι που εξηγείται από τα γεγονόταπου οδήγησαν στην αποβολή του Γάλλου ποδοσφαιριστή από τον αγώνα.



Σχήµα 2.1: Καµπύλη δηµοτικότητας για τον Abu Musab al-Zarqawi, µέλος της Al-Qaeda στοΙράκ, ο οποίος σκοτώθηκε σε µια αεροπορική επιδροµή των Η.Π.Α. στις 7 Ιουνίου του 2006. Οικόκκινες ϱάβδοι σηµατοδοτούν τις εκρήξεις.

Σχήµα 2.2: Σύγκριση των καµπυλών δηµοτικότητας για τις λέξεις soccer και zidane.

Οι καµπύλες δηµοτικότητας υπολογίζονται σύµφωνα µε τον αλγόριθµο 2.1. Το ϐασικό κόστος

Αλγόριθµος 2.1 To BlogScope υπολογίζει τη δηµοτικότητα των όρων µιας αναζήτησης συγχω-νεύοντας τις ανεστραµµένες λίστες (δεικτοδότησης) κάθε όρου µε τη λίστα από posts εκείνηςτης µέρας. Η τελική καµπύλη δηµοτικότητας παράγεται µε την επανάληψη της παραπάνωδιαδικασίας για όλες τις µέρες.

του αλγορίθµου είναι η ϕόρτωση των λιστών από το σκληρό δίσκο· άπαξ και οι λίστες είναιδιαθέσιµες στη µνήµη, η συγχώνευση γίνεται πολύ αποτελεσµατικά.



2.1.3 Ανίχνευση Εκρηκτικών ΄Ορων

Παρόλο που η δραστηριότητα του blogging είναι απρόσµενη και δεν καθοδηγείται, οποτεδή-ποτε συµβαίνει κάτι ενδιαφέρον για µια µερίδα bloggers (π.χ. ένα ϕυσικό ϕαινόµενο όπως οσεισµός, η είσοδος ενός νέου προϊόντος στην αγορά, κ.τ.λ) οι bloggers τείνουν να γράφουν γιαυτό. Ως εκ τούτου, η δηµοτικότητα κάποιον όρων αυξάνεται. Το γεγονός αυτό επιτρέπει στοBlogScope να εντοπίσει ευφυώς τέτοια ενδιαφέροντα γεγονότα σε µια καµπύλη δηµοτικότητας.Τα γεγονότα αυτά ϑα αποκαλούνται από εδώ και στο εξής bursts ή εκρήξεις. Η έννοια του burstπου υιοθετείται από το BlogScope αφορά την απροσδόκητη δηµοτικότητα µιας λέξης σε έναχρόνικο παράθυρο. Τα bursts αποτελούν την ακρογωνιαία λίθο του συστήµατος καθώς ϕέρνουνστην επιφάνεια τις ενδιαφέροντας χρονικές περιόδους µέσα στις οποίες µπορεί ο χρήστης ναεπαναπροσδιορίσει την αρχική του αναζήτηση. Μερικά bursts ϕαίνονται στην εικόνα 2.1.

Τα bursts µπορούν να χωριστούν σε δύο κατηγορίες : τα αναµενόµενα και τα απρόσµενα. Ηδηµοτικότητα των αναµενόµενων εκρήξεων αυξάνει σταθερά, κορυφώνεται, και µετά µειώνεταιµε την ίδια συµπεριφορά. Η κυκλοφορία µιας ταινίας ή ο τελικός του παγκοσµίου κυπέλλουποδοσφαίρου εµπίπτουν σε αυτήν την κατηγορία. Από την άλλη, στα απρόσµενα bursts αυξά-νεται απότοµα. Ο τυφώνας Katrina ή ο ϑάνατος του Abu Musab al-Zarqawi εµπίπτουν σε αυτήντην κατηγορία (Εικόνα 2.1).

Ο Jon Kleinberg έχει ασχοληθεί µε την ανίχνευση των εκρήξεων στο πλαίσιο των ϱευµάτωνκειµένου (text streams) [13, 14]. Η προσέγγισή τους ϐασίζεται στη µοντελοποίηση των ϱευ-µάτων χρησιµοποιώντας ένα αυτόµατο απείρων καταστάσεων και παρουσιάζεται αναλυτικά στοκεφάλαιο 4. Σύµφωνα µε τους δηµιουργούς του Blogscope η προσέγγιση αυτή, αν και ενδια-ϕέρουσα, είναι υπολογιστικά ασύµφορη, καθώς απαιτεί τον υπολογισµό της ελαχίστου κόστουακολουθίας καταστάσεων µέσω του αλγορίθµου Viterbi που χρησιµοποιείται ευρέως στα HMMs(τα οποία παρουσιάζονται στο κεφάλαιο 3). Οι συγγραφείς καταλήγουν στο συµπέρασµα ότι τοκόστος για τον on the fly εντοπισµό των bursts µέσω του αυτοµάτου είναι απαγορευτικό. Ηπτυχιακή αυτή πραγµατεύεται την υιοθέτηση του αυτοµάτου του Kleinberg για την ανίχνευσηεκρήξεων σε δεδοµένα ιστολογίων µε τρόπο που περιγράφεται διεξοδικά στο κεφάλαιο 5. Στησυνέχεια (κεφάλαιο 6) εξετάζει το κατά πόσον είναι αξιοποιήσιµος ο αλγόριθµος του Kleinbergστο πλαίσιο της έρευνας σε ιστολόγια.

Οι Fung et al. [9] ασχολούνται µε το πρόβληµα εύρεσης εκρηκτικών γεγονότων και έχουν προ-τείνει τεχνικές για την ταυτοποίηση των εκρηκτικών χαρακτηριστικών ενός ϱεύµατος κειµένου.



Εµπνευσµένοι από τη δουλειά αυτή, οι άνθρωποι του Blogscope χρησιµοποιούν τον ακόλουθοαλγόριθµο για να ανιχνεύσουν τις εκρήξεις. Μοντελοποιούν τη δηµοτικότητα 𝑥 µιας αναζήτησης(query) σαν το άθροισµα µιας base popularity 𝜇 και µιας Gaussian κατανοµής µε διακύµανση𝜎2 και µηδενική µέση τιµή.

𝑥 ∼ 𝜇 + 𝑁(0, 𝜎2)

Χρησιµοποιώντας τα στατιστικά δεδοµένα που είναι αποθηκευµένα στη ϐάση του, το BlogScopeείναι σε ϑέση να υπολογίσει τις ακριβείς τιµές δηµοτικότητας 𝑥1, 𝑥2, ..., 𝑥𝑤 για τις τελευταίες 𝑤ηµέρες. Στη συνέχεια, εκτιµά τις τιµές των 𝜇 και 𝜎 από αυτά τα δεδοµένα ως εξής :

𝜇 =1

𝑤

𝑤∑︁𝑖=1

𝑥𝑖 και 𝜎2 =1

𝑤

𝑤∑︁𝑖=1

(𝑥𝑖 − 𝜇)2

Σύµφωνα µε την καµπύλη της κανονικής κατανοµής, η πιθανότητα η δηµοτικότητα µιας ανα-Ϲήτησης για µια συγκεκριµένη µέρα να είναι µεγαλύτερη από 𝜇 + 2𝜎 είναι µικρότερη από 5%.Αυτές οι περιπτώσεις ϑεωρούνται έκτοπα (outliers) και τις ονοµάζουν bursts. Εποµένως, η 𝑖𝑡ℎ

µέρα ϑα ταυτοποιηθεί ως έκρηξη αν η τιµή δηµοτικότητας για αυτή τη µέρα είναι µεγαλύτερηαπό 𝜇 + 2𝜎. Στην τρέχουσα υλοποίηση του Blogscope τίθεται 𝑤 = 90 για τον υπολογισµό του 𝜇και του 𝜎.

2.1.4 Εύρεση Συσχετιζόµενων ΄Ορων

Η πληροφορία που συγκεντρώνεται στη µπλογκόσφαιρα είναι από τη ϕύση της δυναµική.Καθώς αναδύονται ϑέµατα συζήτησης, λέξεις συγκεντρώνονται σε οµάδες για να σχηµατίσουνιστορίες· καθώς τα ϑέµατα αυτά υποχωρούν, αυτές οι οµάδες διαλύονται. Ο σχηµατισµός καιη διάλυση των οµάδων αυτών συλλαµβάνεται από το BlogScope και αποτυπώνεται µε τη µορφήτων συσχετιζόµενων όρων.

΄Οταν ένας χρήστης υποβάλει µια ερώτηση, το σύστηµα του εµφανίζει —µεταξύ άλλων— µιαλίστα µε όρους που συγγενεύουν µε τις λέξεις της αναζήτησης. Οι όροι είναι αντιπροσωπευτικοίτων ϑεµάτων που συζητούνται στα ιστολόγια και µπορούν να προσφέρουν γρήγορη πληροφόρη-ση σε σχέση µε το τι περιλαµβάνουν τα σχετικά µε την αναζήτηση blog posts. Οι συσχετίσεις δενείναι στατικές διότι µπορούν να µεταβάλλονται ανάλογα µε το χρονικό παράθυρο που ο χρήστηςϑέτει στην αναζήτησή του. ΄Οσο οι χρήστες επαναπροσδιορίζουν την αρχική τους αναζήτηση,περιορίζοντάς τη χρονικά αλλά και µε ϐάση τις εκρήξεις, τόσο πιο πολύ ϑα συνδέονται οι συ-σχετιζόµενες λέξεις µε την αιτία της εµφάνισης ενός burst στα keywords της αναζήτησής µας.



Στην εικόνα 2.3 ϕαίνονται οι συσχετίσεις για τον Philip Seymour Hoffman για δύο διαφορετικάχρονικά διαστήµατα, 1–20 Μαρτίου και 1–20 Μαΐου 2006. Εύκολα συµπεραίνει κανείς, ότι οι

Σχήµα 2.3: Συσχετιζόµενοι όροι για τον Philip Seymour Hoffman για δύο διαφορετικές χρονικέςπεριόδους. Ο Hoffman ϐραβεύτηκε µε το Oscar πρώτου ανδρικού ϱόλου για την ταινία Capoteστις 5 Μαρτίου. Η ηθοποιός Resee Witherspoon και η ταινία Brokeback Mountain ϐραβεύτηκανπολλάκις µε Oscar εκείνη τη χρονιά. Η ταινία Mission Impossible III µε πρωταγωνιστές τονHoffman (ως Owen Davian), τον Tom Cruise, τον Ving Rhames και σκηνοθετήθηκε από τον J.J.Abrams έκανε πρεµιέρα στις 5 Μαΐου.

συσχετίσεις είναι διαφορετικές για διαφορετικά χρονικά διαστήµατα και αντίστοιχες µε τα γεγο-νότα που συνέβησαν τότε. Επιλέγοντας µια από τις συσχετιζόµενες λέξεις (π.χ. το `Capote’) ϑαοδηγήσει το σύστηµα στη διαµόρφωση µιας λίστας συσχετιζόµενων όρων µε το ‘Philip SeymourHoffman’ και µε το ‘Capote’ στο ίδιο χρονικό διάστηµα. Εποµένως, το BlogScope χρησιµοποιείτις συσχετίσεις σαν επιπλέον µέσο εξερεύνησης. Ο χρήστης µπορεί εύκολα να περιηγηθεί µε-ταπηδώντας από λέξη σε συσχετιζόµενη λέξη και να εξερευνήσει τα ιστολόγια ακολουθώντας µιααλυσίδα συσχετίσεων.

Η έννοια της συσχέτισης δύο τυχαίων µεταβλητών είναι καλά µελετηµένο Ϲήτηµα στον κλάδοτης στατιστικής [19]. Η ποσοτικοποίηση της συσχέτισης µεταξύ δύο συµβολικών λέξεων (tokens)𝑐(𝑎, 𝑏) έχει ενίοτε διαφορετική σηµασιολογία [17]. Μια σηµασιολογία, για παράδειγµα, µπορείνα είναι η ακόλουθη:



𝑐(𝑎, 𝑏) =𝑃 (𝑎 ∈ 𝐷|𝑏 ∈ 𝐷)

𝑃 (𝑎 ∈ 𝐷)=

𝑃 (𝑏 ∈ 𝐷|𝑎 ∈ 𝐷)𝑃 (𝑏 ∈ 𝐷)

=𝑃 (𝑎 ∈ 𝐷, 𝑏 ∈ 𝐷)

𝑃 (𝑎 ∈ 𝐷)𝑃 (𝑏 ∈ 𝐷)

όπου 𝑃 (𝑡 ∈ 𝐷) συµβολίζει την πιθανότητα της token 𝑡 να εµφανίζεται σε ένα τυχαίο έγγραφο(document) 𝐷 του συνόλου εγγράφων 𝒟1. Με απλα λόγια, η συσχέτιση µεταξύ 𝑎 και 𝑏 είναι ηπιθανότητα εύρεσης της token 𝑎 σε ένα έγγραφο µε δεδοµένο ότι το έγγραφο περιέχει την token 𝑏προς την πιθανότητα εύρεσης της token 𝑎 σε ένα έγγραφο. Ο νεπέριος λογάριθµος της παραπάνωποσότητας δεν είναι άλλος από το PMI (point mutual information) των 𝑎 και 𝑏 [7]. Ο υπολογισµόςτης συσχέτισης µε ϐάση την παραπάνω σηµασιολογία απαιτεί τον έλεγχο κάθε Ϲεύγους tokens.Καθώς το πλήθος των λέξεων ανέρχεται στην τάξη µεγέθους των εκατοµµυρίων, ο υπολογισµόςτης ποσότητας 𝑐(𝑎, 𝑏) µε αυτόν τον τρόπο για κάθε δυνατό Ϲεύγος λέξεων και για διάφορα πιθανάχρονικά παράθυρα ϑα απαιτούσε σεβαστό υπολογιστικό ϕόρτο. Η κατάσταση γίνεται όλο καιπιο πολύπλοκη αν αναλογιστεί κανείς ότι συνέχεια καταφθάνουν νέα δεδοµένα από ιστολόγιακαι έτσι οι συσχετίσεις ϑα πρέπει να αναθεωρούνται. Τέλος, αυξάνοντας τον αριθµό των λέξεωνγια τις οποίες διατηρούνται συσχετίσεις, από 2 σε κάποιο µεγαλύτερο αριθµό, η πολυπλοκότητακλιµακώνεται σε απαγορευτικά επίπεδα.

Το BlogScope χρησιµοποιεί µια διαφορετική τεχνική για την έρευση των συσχετίσεων. ΄Εστω𝒟𝑞 ⊆ 𝐷 το υποσύνολο των εγγράφων που περιέχει όλους τους όρους της αναζήτησης 𝑞. Για µιαtoken 𝑡 ορίζουµε το score της 𝑠(𝑡, 𝑞) σε σχέση µε την αναζήτηση 𝑞 ως εξής :

𝑠(𝑡, 𝑞) = |{𝐷|𝐷 ∈ 𝒟𝑞, 𝑡 ∈ 𝐷}| * 𝑖𝑑𝑓(𝑡) (2.1)

όπου 𝑖𝑑𝑓(𝑡) είναι η αντίστροφη συχνότητα εγγράφου (inverse document frequency) της 𝑡 σε όλατα έγγραφα 𝒟. Ο πρώτος όρος της σχέσης 2.1 είναι ο αριθµός των εγγράφων που περιέχουν την𝑡 και σχετίζονται µε την αναζήτηση 𝑞. Ο όρος αυτός πολλαπλασιάζεται µε την αντίστροφη συνο-λική δηµοτικότητα της 𝑡 σε όλα τα έγγραφα. Συχνά εµφανιζόµενες λέξεις όπως ‘‘here’’, ‘‘after’’,‘‘when’’ κ.λπ. έχουν υψηλή συνολική δηµοτικότητα και εποµένως χαµηλή idf. Ως εκ τούτου,η προτεινόµενη συνάρτηση πριµοδοτεί tokens που έχουν χαµηλή συνολική δηµοτικότητα αλλάαυξηµένο πλήθος εµφανίσεων σε έγγραφα που περιέχουν την 𝑞. Τέτοιες λέξεις σχετίζονται πραγ-µατικά µε την 𝑞 διότι εµφανίζονται συχνά µόνο σε έγγραφα που περιέχουν την 𝑞. Οι 𝑘 κορυφαίες(top–𝑘) tokens, που έχουν δηλαδή το υψηλότερο score 𝑠(𝑡, 𝑞), διαµορφώνουν την τελική λίστασυσχετιζόµενων λέξεων για την αναζήτηση 𝑞.

1 ΄Οπως έχει ήδη αναφερθεί, οι αναζητήσεις στο BlogScope ενδέχεται να αποτελούνται από πολλές λέξεις. Σεαυτήν την περίπτωση, η σηµασιολογία της 𝑃 (𝑞 ∈ 𝐷) µπορεί να επεκταθεί ούτως ώστε να συµβολίζει την πιθανότηταµια query 𝑞 να είναι σχετική µε ένα τυχαίο έγγραφο 𝐷 της συλλογής 𝒟.



Η τεχνική αυτή χρειάζεται µόλις µία σάρωση του συνόλου 𝒟𝑞. Την ώρα που λαµβάνει χώραη σάρωση αυτή, ενηµερώνεται ο αριθµός εµφάνισης κάθε token στο 𝒟𝑞 και αποθηκεύεται σεένα ξεχωριστό πίνακα κατακερµατισµού (hash table). ΄Οταν η σάρωση ολοκληρωθεί, οι µετρητέςτων tokens πολλαπλασιάζονται µε τις προϋπολογισµένες 𝑖𝑑𝑓 τιµές τους για τον υπολογισµό τωνscores, τα οποία µε τη σειρά τους ταξινοµούνται για την εύρεση των 𝑘 κορυφαίων tokens. Σεπερίπτωση που το 𝒟𝑞 είναι αυξηµένου πλήθους, ακόµη και η παραπάνω διαδικασία ενδέχεταινα είναι απαγορευτικά χρονοβόρα. Για να αντιµετωπιστεί αυτό το πρόβληµα, το µέγεθος του 𝒟𝑞ϕράσσεται από έναν αριθµό 𝑚· αν υπάρχουν πάνω από 𝑚 έγγραφα που περιέχουν τους όρουςτης αναζήτησης επιλέγονται 𝑚 τυχαία από το 𝒟𝑞. Το τυχαίο αυτό δείγµα του 𝒟𝑞 µε µέγεθος 𝑚συµβολίζεται ως 𝒟𝑚𝑞 .

Η προτεινόµενη, από το BlogScope, τεχνική για την έρευση συσχετιζόµενων όρων είναι στοίδιο πνεύµα µε την προαναφερθείσα που αξιοποιούσε τις πιθανότητες. Ο αριθµός των εγγράφωνπου περιέχουν αµφότερες τις λέξεις 𝑞 και 𝑡, |{𝐷|𝐷 ∈ 𝒟𝑞, 𝑡 ∈ 𝐷}|, ακολουθεί µια διωνυµικήκατανοµή, η χαρακτηριστική συνάρτηση της οποίας µπορεί να προσεγγιστεί σαρώνοντας 𝑚τυχαία έγγραφα από το 𝒟𝑞. Αν ερµηνεύσουµε την idf µιας token 𝑡 ως |𝒟||𝒟𝑡| , όπου 𝒟𝑡 είναι τοσύνολο των εγγράφων που περιέχουν την 𝑡, τότε το score της 𝑡 για την query 𝑞 διαµορφώνεταιως εξής :

𝑠(𝑡, 𝑞) =|{𝐷|𝐷 ∈ 𝒟𝑚𝑞 , 𝑡 ∈ 𝐷}| · |𝒟|

|𝒟𝑡|∝

𝑃 (𝑞 ∈ 𝐷, 𝑡 ∈ 𝐷)𝑃 (𝑡 ∈ 𝐷)𝑃 (𝑞 ∈ 𝐷)

αφού |𝒟| και |𝒟𝑞| είναι σταθερές για δεδοµένη 𝑞. Η ποσότητα 𝑃 (𝑞 ∈ 𝐷, 𝑡 ∈ 𝐷) συµβολίζει τηνπροσέγγιση του 𝑃 (𝑞 ∈ 𝐷, 𝑡 ∈ 𝐷) που ϐασίζεται σε 𝑚 έγγραφα. Παρατηρείται ότι το 𝑠(𝑡, 𝑞) είναιανάλογο του 𝑐(𝑡, 𝑞) σε αναµονή. Παρόλαυτά, εµπειρική αξιολόγηση αποδεικνύει ότι η συµβατικήερµηνεία της idf, δηλαδή

𝑖𝑑𝑓(𝑡) = log

(︂|𝒟||𝒟𝑡|

)︂,

λειτουργεί καλύτερα. Αυτό συµβαίνει επειδή ερµηνεύοντας την idf ως |𝒟||𝒟𝑡| δίνεται υπερβολικόϐάρος στις πολύ σπάνιες tokens, κάτι που εντείνεται ακόµα περισσότερο απο το γεγονός ότισαρώνονται µόνο 𝑚 έγγραφα.

Η προτεινόµενη τεχνική απαιτεί µια απλή σάρωση 𝑚 εγγράφων µεταξύ των αποτελεσµάτωντης αναζήτησης 𝑞. Το BlogScope ϑέτει 𝑚 = 30, µε αποτέλεσµα να λαµβάνει υπόψη µόλις 30blog posts για την εύρεση των συσχετίσεων µιας query. Υποθέτοντας ότι οι λέξεις 𝑞, 𝑡 είναι



συσχετιζόµενες σε ένα χρονικό παράθυρο, η επανάληψη της παραπάνω διαδικασίας, δηλαδή ηχρήση των λέξεων 𝑞 και 𝑡 σε µια νέα αναζήτηση, επιστρέφει λέξεις που συσχετίζονται µε τις 𝑞 και𝑡 παρεχόντας έτσι στο χρήστη µεγαλύτερο σύνολο συσχετιζόµενων όρων.

΄Ενας εναλλακτικός τρόπος ταυτοποίησης συσχετίσεων µεταξύ όρων ϑα ήταν, σύµφωνα µε τουςσυγγραφείς, η αποµόνωση των όρων που παρουσιάζουν παρόµοια καµπύλη δηµοτικότητας στοίδιο χρονικό παράθυρο. Η διαίσθησή τους (που επιβεβαιώνεται και από τις καµπύλες δηµο-τικότητας που παράγει το BlogScope) είναι ότι οι συσχετιζόµενοι όροι έχουν παρόµοια εξέλιξηδηµοτικότητας. Επισηµαίνουν ότι η µετρική οµοιότητας πρέπει να είναι εύρωστη όσον αφοράτην κλιµάκωση της ίδιας της δηµοτικότητας. Στη ϐιβλιογραφία µπορεί κανείς να ϐρει επιστη-µονικές εργασίες για αναζήτηση οµοιότητας σε δεδοµένα χρονοσειρών [16] που ϑα µπορούσαν,ενδεχοµένως, να εφαρµοστούν. Τέλος, η τεχνική του κατακερµατισµού µε ϐάση την τοπικότη-τα [12] (locality sensitive hashing) ϑα µπορούσε να υιοθετηθεί για τη συνεχή παρακολούθησητων κοντινότερων γειτόνων (nearest neighbours) κάτι το οποίο προτίθενται να εξετάσουν στοάµεσο µέλλον.

Η πτυχιακή εργασία επιχειρεί την έρευση συσχετιζόµενων όρων συγκρίνοντας τα πρότυπαδηµοτικότητας (popularity patterns) που αυτοί παρουσιάζουν, σε δεδοµένο χρονικό παράθυρο.

2.2 Επιστηµονικές Εργασίες που Αφορούν τα Ιστολόγια

Οι Wang et al. [26] προτείνουν ένα στατιστικό µοντέλο µίξης (probability mixture model)και χρησιµοποιούν µια στατιστική κατανοµή λέξεων για την περιγραφή ενός topic την οποίαονοµάζουν topic model. Για παράδειγµα, στο ϑέµα συζήτησης που αφορά την τροµοκρατικήεπίθεση στους ∆ίδυµους Πύργους, λέξεις όπως terrorist, attack κ.λπ. έχουν µεγάλη πιθανότη-τα εµφάνισης. ΄Εχουν στη διάθεσή τους πολλαπλά streams, πιθανώς διαφορετικού λεξιλογίου(στα πειράµατά τους αγγλικά και κινέζικα), και επιχειρούν να εντοπίσουν συσχετιζόµενα πρό-τυπα εκρηκτικών ϑεµάτων (correlated bursty topic patterns), δηλαδή σύνολα από topics πουείναι ταυτόχρονα bursty στα coordinated streams. Ευθυγραµµίζουν τα δείγµατα κειµένου (textsamples) όλων των ϱευµάτων µε ϐάση τη χρονοσφραγίδα που ϕέρει το κάθε δείγµα και έτσισυνθέτουν ένα ενοποιηµένο text sample. Το ίδιο κάνουν και για τα topic models των streams.΄Οταν, στο ενοποιηµένο δείγµα κειµένου, συστάδες από λέξεις παρουσιάζουν παρόµοια εκρη-κτική στατιστική κατανοµή στο χρόνο, τα εµπλεκόµενα topic models συνθέτουν ένα correlatedbursty topic pattern. Ο αλγόριθµος χρησιµοποιεί την τεχνική της προσδοκίας—µεγιστοποίησης



(expectation—maximization) για την εκτίµηση των απαιτούµενων παραµέτρων. Στα πλαίσια τηςπειραµατικής αξιολόγησής του, οι ερευνητές τον εφαρµόζουν σε δεδοµένα από αγγλόφωνα καικινέζικα ειδησεογραφικά πρακτορεία καθώς και σε ϱεύµατα επιστηµονικών εργασιών (SIGMOD,VLDB). Τέλος, ισχυρίζονται πως ο αλγόριθµος έχει καλή συµπεριφορά και σε περιπτώσεις µε-γάλου όγκου δεδοµένων εισόδου.

Οι Kumar et al. [15] εξερευνούν το Blogspace· τη συλλογή των ιστολογίων µαζί µε ενδεχόµε-νους υπερσυνδέσµους (hyperlinks) που έχουν µεταξύ τους. Η δουλειά τους επικεντρώνεται στηνεξέλιξη των συνδέσεων µεταξύ ιστολογίων και στα burts που εµφανίζονται σε διάφορα χρονικάπαράθυρα κατά τη διάρκεια αυτής της εξέλιξης. Εισάγουν την έννοια των χρονικών γράφων (timegraphs) για τη µελέτη γράφων που εξελίσσονται συνεχώς στο χρόνο. Αξιοποιώντας το αυτόµατοτου Kleinberg [14] αναδύουν εκρηκτικές κοινότητες (bursty communities) —όπου οι κοινότητεςείναι πυκνοί υπογράφοι που αντιστοιχούν σε οµάδες ιστολογίων που αλληλεπιδρούν µεταξύ τουςµε υπερσυνδέσµους, σχόλια κτλ.— οι οποίες έχουν ξεκάθαρη χρονική αλλά και ϑεµατική διάστα-ση. ∆ιενεργούν µια σειρά από πειράµατα για να αναλύσουν τις ιδιότητες αυτών των κοινοτήτωναλλά και την µακροσκοπική εξέλιξη του BlogSpace.

Οι He et al. [11] εισάγουν µια χρονική αναπαράσταση για text streams η οποία ϐασίζεται σταεκρηκτικά τους χαρακτηριστικά (bursty features). Η αναπαράσταση αυτή παρουσιάζει δυναµι-κά έγγραφα στον άξονα του χρόνου και ενισχύει ένα feature του ανάλογα µε την εκρηκτικότητάτου σε κάθε χρονικό σηµείο. Η µέθοδός τους είναι ανεξάρτητη της ϑεµατολογίας του εγγράφου.Σύµφωνα µε τα πειράµατα που διενεργούν η µέθοδος που αναπτύσσουν ξεπερνά σε επιδόσειςτις κλασικές στατικές µεθόδους αναπαράστασης κειµένου όπως την TF—IDF. Οι Zhao et al. [33]ασχολούνται µε την ανίχνευση γεγονότων (events) σε text streams που προέρχονται από µέσακοινωνικής δικτύωσης. Επιχειρούν να ανακαλύψουν τα events συνδυάζοντας συσταδοποίησηϐασισµένη στο κείµενο, χρονική κατάτµηση και τµηµατοποίηση του γράφου κοινωνικής δικτύ-ωσης ϐασισµένη στη ϱοή της πληροφορίας.

Οι Agarwal et al. [1] παρουσιάζουν ένα µοντέλο για την ταυτοποίηση των συγγραφέων ιστολο-γίων που έχουν µεγάλη επιρροή στο διαδίκτυο. Για να πετύχουν το στόχο τους, χρησιµοποιούνδιάφορα ευριστικά όπως σχόλια, αριθµό σχολίων, µέγεθος αναρτήσεων, εξωτερικά links, εσωτε-ϱικά links και άλλα. Περαιτέρω σχετική δουλειά έχει γίνει στο πεδίο αναζήτης οµοιότητας µεταξύχρονοσειρών [25], στην εξόρυξη άποψης (opinion mining) [8], στην ανίχνευση εκρήξεων [32], στη



µελέτη του τι ενδιαφέρει τους bloggers [5] και στην περαιτέρω ανάλυση της µπλογκόσφαιρας µέ-σω κοινοτήτων [6].


Κεφάλαιο 3

Κρυφά Μαρκοβιανά Μοντέλα

Τα συστήµατα που ϕέρουν τη Μαρκοβιανή ιδιότητα (Markov property), δηλαδή η µελλοντικήτους εξέλιξη εξαρτάται µόνο από την τρέχουσα κατάστασή τους, ονοµάζονται Μαρκοβιανές διαδι-κασίες (Markov processes). ΄Ενα κρυφό Μαρκοβιανό µοντέλο είναι ένα στατιστικό µοντέλο πουµοντελοποιεί συστήµατα τα οποία υποθέτουµε ότι είναι Μαρκοβιανές διαδικασίες µε άγνωστεςπαραµέτρους· η πρόκληση συνίσταται στην έρευση των κρυφών παραµέτρων ενός συστήµατοςαπό τα δεδοµένα παρατήρησης. Αυτές οι παράµετροι µπορούν έπειτα να χρησιµοποιηθούν γιαπεραιτέρω ανάλυση των δεδοµένων, για παράδειγµα σε εφαρµογές αναγνώρισης προτύπων ή,στην περίπτωσή της εργασίας αυτής, για την έρευση των εκρηκτικών όρων σε µια ακολουθίαεγγράφων (ϐλ. κεφάλαιο 4). ΄Ενα HMM µπορεί να ϑεωρηθεί ως το απλούστερο Bayesian δίκτυο.

Στο κανονικό Μαρκοβιανό µοντέλο, η τρέχουσα κατάσταση είναι άµεσα ορατή στον παρατηρη-τή και εποµένως οι πιθανότητες µετάβασης κατάστασης αποτελούν τις µοναδικές παραµέτρους.Στο HMM η κατάσταση δεν είναι άµεσα ορατή αλλά ο παρατηρητής γνωρίζει ανά πάσα στιγµήτις µεταβλητές που επηρεάζονται από την κατάσταση. Κάθε κατάσταση έχει µια πιθανότητα εκ-ποµπής για κάθε δυνατό σύµβολο εξόδου. Ως εκ τούτου, η ακολουθία συµβόλων που παράγεταιαπό ένα HMM, και η οποία είναι διαθέσιµη στον εξωτερικό παρατηρητή, εξαρτάται άµεσα απότην ακολουθία καταστάσεων και προσφέρει µερική πληροφορία γι΄ αυτήν.

3.1 Ορισµός

΄Ενα HMM ορίζεται από τα ακόλουθα στοιχεία :

• το σύνολο καταστάσεων, 𝑄

39


• το σύνολο δυνατών µεταβάσεων, όπου η πιθανότητα µετάβασης 𝑎𝑘𝑙 = 𝑃 (𝜋𝑖 = 𝑙|𝜋𝑖−1 = 𝑘)είναι η πιθανότητα που έχει το µοντέλο να µεταβεί από την κατάσταση 𝑘 στην κατάσταση 𝑙για 𝑘, 𝑙 ∈ 𝑄

• την πιθανότητα εκποµπής συµβόλου, 𝑒𝑘(𝑏) = 𝑃 (𝑥𝑖 = 𝑏|𝜋𝑖 = 𝑘), για κάθε κατάσταση, 𝑘,και κάθε σύµβολο, 𝑏, όπου 𝑒𝑘(𝑏) είναι η πιθανότητα παρατήρησης του συµβόλου 𝑏 στηνκατάσταση 𝑘. Το άθροισµα όλων των πιθανοτήτων εκποµπής µιας δεδοµένης κατάστασηςπρέπει να ισούται µε 1, δηλαδή,

∑︁𝑏

𝑒𝑘 = 1 για κάθε κατάσταση, 𝑘

3.2 Βασικά Προβλήµατα

Υπάρχουν 3 ϐασικά προβλήµατα που σχετίζονται µε τα HMMs

• Αξιολόγηση: Ο υπολογισµός της πιθανότητας εµφάνισης µια συγκεκριµένης ακολουθίαςσυµβόλων στην έξοδο µε δεδοµένες τις παραµέτρους του µοντέλου

• Αποκωδικοποίηση: Ο υπολογισµός της πιθανότερης ακολουθίας καταστάσεων στο µοντέ-λο που ϑα µπορούσε να παράγει µια συγκεκριµένη ακολουθία συµβόλων στην έξοδο µεδεδοµένες τις παραµέτρους του µοντέλου

• Μάθηση: Η εύρεση των παραµέτρων του µοντέλου (δηλαδή των πιθανοτήτων µετάβασηςκαι εκποµπής) που εξηγούν µε σχετικά µεγάλη πιθανότητα ένα σύνολο από ακολουθίεςσυµβόλων που έχουν ήδη ϕανεί στην έξοδο του συστήµατος. Ο στόχος είναι το παραγόµενοµοντέλο να ταιριάζει µε τις εξόδους του συστήµατος που δεν είναι γνωστές ακόµα

Τα τρία αυτά Ϲητήµατα αντιµετωπίζονται µε τον forward αλγόριθµο [22], τον αλγόριθµο Viter-bi [24] και τον αλγόριθµο Baum–Welch [3] αντίστοιχα. Το αυτόµατο ανίχνευσης εκρήξεων τουKleinberg ασχολείται µε το πρόβληµα της αποκωδικοποίησης και έτσι ο αναγνώστης χρειάζεταινα κατανοήσει τον αλγόριθµο Viterbi ο οποίος παρουσιάζεται ακολούθως.

3.3 Αλγόριθµος Viterbi

Ο αλγόριθµος Viterbi που επινοήθηκε από τον Andrew Viterbi το 1966 και δηµοσιεύτηκε έναχρόνο µετά ([24]) γνώρισε µεγάλη απήχηση σε συνδυασµό και µε την εξέλιξη των υπολογιστώναπό τότε. Σήµερα χρησιµοποιείται για την ανίχνευση και διόρθωση λαθών στις επικοινωνίεςπου λαµβάνουν χώρα µέσω των δικτύων κινητής τηλεφωνίας CDMA και GSM, dial-up modems,



δορυφόρων, στις επικοινωνίες στο αποµακρυσµένο διάστηµα καθώς και στα ασύρµατα τοπικάδίκτυα 802.11. Πλέον, αξιοποιείται σε ποικίλες επιστηµονικές περιοχές όπως αναγνώριση ϕω-νής, ϐιοπληροφορική, ανάκτηση πληροφορίας κ.α. Για παράδειγµα, σε εφαρµογές µετατροπήςτης ϕωνής σε κείµενο (δηλαδή αναγνώρισης ϕωνής), ένα ακουστικό σήµα είναι η παρατηρηθεί-σα ακολουθία συµβάντων και µια συµβολοσειρά κειµένου ϑεωρείται η ‘‘κρυφή’’ διαδικασία πουπροκάλεσε το ακουστικό σήµα. Ο αλγόριθµος Viterbi ϐρίσκει την πιο πιθανή συµβολοσειράκειµένου για δεδοµένο ακουστικό σήµερα.

3.3.1 Ανάλυση και Επεξήγηση

∆εδοµένης µιας ακολουθίας, 𝑥, ποιο είναι το πιθανότερο µονοπάτι στο µοντέλο που γεννάειτη 𝑥; Το πρόβληµα της αποκωδικοποίησης µπορεί να επιλυθεί µε τη χρήση του αλγορίθµουViterbi. Η ακολουθία 𝑥 µπορεί να παραχθεί από διάφορα µονοπάτια. Στόχος είναι η ευρεσή τουπιθανότερου εξ αυτών, 𝜋*, δηλαδή το µονοπάτι που µεγιστοποιεί την πιθανότητα παραγωγής της𝑥. Εποµένως, 𝜋* = arg max

𝜋𝑃 (𝜋|𝑥) = arg max

𝜋𝑃 (𝑥, 𝜋). Για µία ακολουθία µήκους 𝐿, υπάρχουν

|𝑄|𝐿 δυνατά µονοπάτια, όπου |𝑄| είναι ο αριθµός των κατάστασεων του HMM. Η απαρίθµησηόλων των δυνατών µονοπατιών είναι ανέφικτη και γι΄ αυτό χρησιµοποιείται µια τεχνική δυναµικούπρογραµµατισµού για την επίλυση του προβλήµατος.

Σε κάθε ϐήµα της διαδικασίας, ο αλγόριθµος Viterbi προσπαθεί να ϐρει το πιο πιθανό µονο-πάτι που οδηγεί από ένα σύµβολο της ακολουθίας στο επόµενο. ΄Εστω 𝑣𝑙(𝑖) η πιθανότητα τουπιθανότερου µονοπατιού που αφορά τα πρώτα 𝑖 σύµβολα της 𝑥 και τελειώνει στην κατάσταση 𝑙.Για να ϐρεθεί το 𝜋*, πρέπει να υπολογιστεί το max

𝑘𝑣𝑘(𝐿), δηλαδή η πιθανότητα του πιο πιθανού

µονοπατιού που αφορά ολόκληρη την ακολουθία και τελειώνει στην τερµατική κατάσταση. Ηπιθανότητα 𝑣𝑙(𝑖) ορίζεται ως εξής :

𝑣𝑙(𝑖) = 𝑒𝑙(𝑥𝑖) ·max𝑘

(𝑣𝑘(𝑖− 1)𝑎𝑘𝑙) (3.1)

που δηλώνει ότι το πιο πιθανό µονοπάτι που παράγει 𝑥1 . . . 𝑥𝑖 και καταλήγει στην κατάσταση 𝑙πρέπει να εκπέµψει 𝑥𝑖 στην κατάσταση 𝑙 (εξ ου και η πιθανότητα εκποµπής 𝑒𝑙(𝑥𝑖)) και πρέπει ναπεριέχει το πιο πιθανό µονοπάτι που παράγει 𝑥1 . . . 𝑥𝑖−1 και τελειώνει στην κατάσταση 𝑘, ακο-λουθούµενο από µια µετάβαση από την κατάσταση 𝑘 στην κατάσταση 𝑙 (εξ ου και η πιθανότηταµετάβασης 𝑎𝑘𝑙). Εποµένως, µπορούµε να υπολογίσουµε την 𝑣𝑘(𝐿) για οποιαδήποτε κατάσταση𝑘 αναδροµικά, µε στόχο την έρευση του πιο πιθανού µονοπατιού.



Ο αλγόριθµος Viterbi περιγράφεται πιο τυπικά στον αλγόριθµο 3.1. Στο ϐήµα 1 γίνεται ηαρχικοποίηση. Κάθε µονοπάτι αρχίζει από την αρχική κατάσταση (0) µε πιθανότητα 1. Ως εκτούτου, για 𝑖 = 0 ισχύει 𝑣0(0) = 1 και η πιθανότητα η αρχική κατάσταση του µονοπατιού να είναικάποια άλλη ισούται µε 0. Στο ϐήµα 2 λαµβάνει χώρα η εκτέλεση του αναδροµικού τύπου 3.1για 𝑖 = 1 µέχρι 𝐿. Σε κάθε επανάληψη, υποθέτουµε ότι γνωρίζουµε το πιθανότερο µονοπάτι πουπαράγει 𝑥1 . . . 𝑥𝑖−1 για κάθε 𝑘 ∈ 𝑄. Για τον εντοπισµό του πιθανότερου µονοπατιού προς την𝑖–οστή κατάσταση, µε ϐάση την τρέχουσα κατάσταση, µεγιστοποιείται η ποσότητα 𝑣𝑘(𝑖 − 1)𝑎𝑘𝑙για όλες τις προηγούµενες καταστάσεις 𝑘 ∈ 𝑄 της κατάστασης 𝑙. Για τον υπολογισµό του𝑣𝑙(𝑖), πολλαπλασιάζουµε µε 𝑒𝑙(𝑥𝑖) αφού πρέπει να εκπεµφθεί 𝑥𝑖 από την 𝑙. Αυτό µας δίδειτο αποτέλεσµα της πρώτης εξίσωσης του ϐήµατος 2. Οι τιµές 𝑣𝑘(𝑖) αποθηκεύονται σε έναν𝑄×𝐿 πίνακα δυναµικού προγραµµατισµού. Επιπλέον, στη µνήµη καταχωρούνται δείκτες (𝑝𝑡𝑟)ούτως ώστε να είναι δυνατή η ανάκτηση του µονοπατιού αυτού καθ΄ εαυτού. Ο αλγόριθµοςτερµατίζει στο ϐήµα 3, όπου τελικά, έχουµε τη max𝑘 𝑣𝑘(𝐿). Πραγµατοποιείται η µετάβαση στηντελική κατάσταση 𝑓 (εξ ου και η πιθανότητα µετάβασης 𝑎𝑘𝑓 ) αλλά δεν εκπέµπεται σύµβολο. Οαλγόριθµος Viterbi εκτελείται σε χρόνο 𝑂(|𝑄|2|𝐿|).

Αλγόριθµος 3.1 Αλγόριθµος Viterbi για τον υπολογισµό του πιθανότερου µονοπατιού πουεκπέµπει µια δεδοµένη ακολουθία συµβόλων1: Αρχικοποίηση (𝑖 = 0): 𝑣0(0) = 1, 𝑣𝑘(0) = 0 για 𝑘 > 02: Αναδροµή (𝑖 = 1 . . . 𝐿): 𝑣𝑙(𝑖) = 𝑒𝑙(𝑥𝑖) ·max𝑘(𝑣𝑘(𝑖− 1)𝑎𝑘𝑙), 𝑝𝑡𝑟𝑖(𝑙) = arg max𝑘(𝑣𝑘(𝑖− 1)𝑎𝑘𝑙)3: Τερµατισµός : 𝑃 (𝑥, 𝜋*) = max𝑘(𝑣𝑘(𝐿)𝑎𝑘𝑓 ), 𝜋*𝐿 = arg max𝑘(𝑣𝑘(𝐿)𝑎𝑘𝑓 )


Κεφάλαιο 4

Αυτόµατο Ανίχνευσης Εκρηκτικών

Ρευµάτων

4.1 Περιγραφή

Ο Kleinberg [14] ασχολείται µε την εξαγωγή σηµασιολογικής δοµής από ϱεύµατα εγγράφωνπου καταφθάνουν συνεχώς καθώς κυλά ο χρόνος. Προσπαθεί να αναδείξει το ϱόλο του χρόνουαξιοποιώντας τις χρονοσφραγίδες που υπάρχουν στα έγγραφα. ΄Ετσι, µοντελοποιεί το ϱεύµα κει-µένου χρησιµοποιώντας ένα αυτόµατο απείρων καταστάσεων το οποίο µε τη σειρά του ϐασίζεταιστη ϑεωρία των HMMs. Τα bursts εµφανίζονται ως µεταβάσεις καταστάσεων στο αυτόµατο αυτό.Ο αλγόριθµος δε χρησιµοποιεί τις απλές συχνότητες εµφάνισης των λέξεων αλλά υιοθετεί ένα πι-ϑανοτικό αυτόµατο του οποίου οι καταστάσεις αντιστοιχούν σε συχνότητες εµφάνισης µιας λέξης.Πιο συγκεκριµένα, οι µεταβάσεις καταστάσεων αντιστοιχούν σε σηµεία του χρόνου στα οποία ησυχνότητα εµφάνισης µιας λέξης αλλάζει σηµαντικά. Ο συγγραφέας εξετάζει τον αλγόριθµο στοαρχείο των προσωπικών ηλεκτρονικών µηνυµάτων του.

Απλοϊκές µέθοδοι που απλά αναλύουν τα κενά µεταξύ των συνεχόµενων αφίξεων µηνυµάτωνϑεωρούνται ανεπαρκείς από τον Jon Kleinberg καθώς ενέχουν τον κίνδυνο εξαγωγής λανθασµέ-νων συµπερασµάτων όπως η ανάδειξη πολλών µικρών και αδιάφορων εκρήξεων ή ο κατακερµα-τισµός ενός µεγάλου σε διάρκεια burst σε πολλά µικρότερης διάρκειας. Ο στόχος του ερευνητήείναι η ταυτοποίηση εκρήξεων µόνο όταν έχουν αρκούντως µεγάλη ένταση και µε τρόπο πουεπιτρέπει σε µια έκρηξη να διατηρήσει την ύπαρξή της σε µεγαλύτερα διαστήµατα του χρόνουπαρά τον ανοµοιόµορφο τρόπο µε τον οποίο εµφανίζονται τα µηνύµατα.

43


Το αυτόµατό του αποτελείται από ένα σύνολο καταστάσεων που αντιστοιχούν στην ένταση τηςσυχνότητας εµφάνισης µιας λέξης, όπου το burst σηµατοδοτείται από µια µετάβαση καταστάσεωνστην οποία η αρχική κατάσταση είναι µικρότερης έντασης από την τελική. Αναθέτοντας κόστηστις µεταβάσεις καταστάσεων, µπορεί κανείς να συγκρατήσει τον αριθµό τέτοιων µεταβάσεων,και µε αυτόν τον τρόπο να εξαφανίσει τα αµελητέας διάρκειας bursts καθώς και να ανιχνεύσειµε µεγαλύτερη ευκολία τα µεγάλης διάρκειας. Η αναπαράσταση της εκρηκτικότητας µέσωµεταβάσεων καταστάσεων σχηµατίζει µια δοµή ιεραρχικού δέντρου καθώς ενδέχεται ένα burstµεγάλης διάρκειας αλλά χαµηλής έντασης να εµπεριέχει burst

Documents

ΑνακαλύπτονταςΚαυτάΘέµαταστη ...cgi.di.uoa.gr/~platakis/UndergrThesisPlatakis.pdf · 2009. 3. 26. · Η ανάκτηση πληροφορίας από