PhD Defense (in Greek)

Preview:

DESCRIPTION

Παρουσίαση της διδακτορικής μου διατριβής στο Τμήμα Πληροφορικής ΑΠΘ.

Citation preview

Αριςτοτζλειο Πανεπιςτιμιο Θεςςαλονίκθσ

Τμιμα Πλθροφορικισ

Εργαςτιριο Γλωςςϊν Προγραμματιςμοφ και Τεχνολογίασ Λογιςμικοφ

17 Φεβρουαρίου 2012

Μζκοδοι Εξόρυξθσ Γνϊςθσ ςε Συλλογζσ Περιεχομζνου

Μεγάλθσ Κλίμακασ από Κοινωνικά Δίκτυα

Συμεϊν Παπαδόπουλοσ

Επιβλζπουςα: κακ. Ακθνά Βακάλθ

ΠΑΡΟΤΙΑΘ ΔΙΔΑΚΣΟΡΙΚΘ ΔΙΑΣΡΙΒΘ

#2

φνοψθ Παρουςίαςθσ

• Αντικείμενο & Συμβολζσ τθσ Διατριβισ

• Στατιςτικζσ Ιδιότθτεσ Κοινωνικϊν Εφαρμογϊν

• Ανίχνευςθ Κοινοτιτων ςε Γράφουσ

• Ομαδοποίθςθ Κοινωνικοφ Περιεχομζνου

• Εξαγωγι & Επιςκόπθςθ Πλθροφορίασ από

Κοινωνικό Περιεχόμενο

• Ανίχνευςθ Εννοιϊν με Χριςθ Τεχνικϊν Θμι-

επιβλεπόμενθσ Μάκθςθσ

• Συμπεράςματα & Μελλοντικι Ζρευνα

#3

1

Αντικείμενο & Συμβολζσ τθσ Διατριβισ

#4

Ευκαιρίεσ & Προκλιςεισ

Ο Παγκόςμιοσ Ιςτόσ (ΠΙ) αλλάηει: Web Social Web

Ευκαιρίεσ • Αντανάκλαςθ πραγματικότθτασ: Γεγονότα και αντικείμενα του

πραγματικοφ κόςμου αναπαρίςτανται με περιεχόμενο ςτον ΠΙ

• υλλογικι ευφυία: Εκφράηονται πολλζσ διαφορετικζσ απόψεισ, αναπαραςτάςεισ, περιγραφζσ δυνατότθτα για εξαγωγι ςυλλογικϊν ςυμπεραςμάτων

Προκλιςεισ • Ετερογζνεια/Ζλλειψθ δομισ: απουςία ι προβλθματικι παρουςία

μεταδεδομζνων (αςάφεια, διαφορετικζσ ςυμβάςεισ)

• Κλίμακα: Τεράςτιοσ όγκοσ περιεχομζνου + μεταδεδομζνων υπολογιςτικά προβλιματα

• Θόρυβοσ: Χαμθλι ποιότθτα, διπλοτυπία, παραπλάνθςθ, ανακρίβεια

• Δυναμικότθτα: Υψθλι μεταβλθτότθτα εξαιρετικά δφςκολο να γίνουν παραδοχζσ για δομι και χαρακτθριςτικά

Εποπτικι Παρουςίαςθ

#5

Δεδομζνα - Περιεχόμενο

Ιδιότθτεσ - υμπεριφορά

Δομι οργάνωςθσ

Ομαδοποίθςθ

Εξόρυξθ γνϊςθσ

υμβολζσ τθσ Διατριβισ

• Κατανόθςθ ςυμπεριφοράσ/ιδιοτιτων κοινωνικϊν εφαρμογϊν

• Ανίχνευςθ κοινοτιτων ςε κοινωνικό περιεχόμενο

• Ομαδοποίθςθ περιεχομζνου (ετικετϊν & εικόνων) με χριςθ νζων μεκόδων ανίχνευςθσ κοινοτιτων

• Εξόρυξθ και παρουςίαςθ γνϊςθσ από ςυλλογζσ περιεχομζνου μεγάλθσ κλίμακασ

• Θμι-επιβλεπόμενθ μάκθςθ ςε περιεχόμενο με χριςθ τθσ δομισ κοινοτιτων

#6

#7

2

Στατιςτικζσ Ιδιότθτεσ Κοινωνικϊν Εφαρμογϊν

#8

Κοινωνικζσ Εφαρμογζσ

Βαςικζσ Λειτουργίεσ

• Επιςιμανςθ (bookmarking): Εκδιλωςθ προτίμθςθσ ενδιαφζροντοσ

• Επιςθμείωςθ (tagging): Απόδοςθ ςθμαςιολογικισ- ταξινομικισ

πλθροφορίασ

• Κοινωνικι δικτφωςθ (social networking): Δυνατότθτα για διλωςθ

ςχζςεων μεταξφ των χρθςτϊν

Παραδείγματα: delicious, flickr, YouTube, last.fm, digg, bibsonomy

Πρόβλθμα

• Σφνκετα ςυςτιματα Πϊσ ςυμπεριφζρονται; Ποιεσ οι ιδιότθτζσ τουσ;

• Περιοριςμζνθ ποςότθτα προςοχισ χρθςτϊν (attention scarcity) Πϊσ

διαμορφϊνεται θ δθμοτικότθτα;

folksonomy - diggsonomy

#9

Άξονεσ Ανάλυςθσ Δθμοτικότθτασ

• Κατανομζσ Μεγεκϊν:

– Power law, λογαρικμικι κατανομι

– Μθχανιςμόσ προνομιακισ προςάρτθςθσ

• Χρονικι Εξζλιξθ:

– Μοντζλο κυλιόμενθσ ςελιδοποιθμζνθσ λίςτασ

• Χαρακτθριςτικά Κειμζνου:

– Επιλογι χαρακτθριςτικϊν κειμζνου για πρόβλεψθ δθμοτικότθτασ

• Δείκτεσ Κοινωνικισ Επιρροισ:

– Κοινωνικι επιδεκτικότθτα, ςυςχζτιςθ

– Κζρδοσ κοινωνικισ επιρροισ

Πειραματικι Ανάλυςθ

• Συλλογι δεδομζνων από Digg

• Στατιςτικά ςυλλογισ Β0

• Επιπρόςκετθ ςυλλογι Β1 για υπολογιςμό δεικτϊν κοινωνικισ επιρροισ

|D| ~100M, |R|>2M, |U|>340K

#10

μεγάλθ διάρκεια

ζντονο ενδιαφζρον

Κατανομζσ Μεγεκϊν

#11

90% περιςταςιακϊν χρθςτϊν

outliers (ιδρυτζσ εφαρμογισ)

99% ιςτοριϊν < 100 ψιφουσ απόκλιςθ από power law

λογαρικμικι κατανομι

Χρονικι Εξζλιξθ

#12

μετάβαςθ ςτον τομζα Popular

Πειραματικι μζτρθςθ Μοντζλο κυλιόμενθσ

ςελιδοποιθμζνθσ λίςτασ

Χαρακτθριςτικά Κειμζνου

#13

Κοινωνικι Επιδεκτικότθτα vs. υςχζτιςθ

#14

διαμορφωτζσ γνϊμθσ επθρεάηονται από το δίκτυό τουσ

δεν επθρεάηονται από το δίκτυό τουσ

Κζρδοσ Κοινωνικισ Επιρροισ

#15

μθχανιςμόσ επιλογισ

Εφαρμογζσ

#16

#17

χετικζσ Δθμοςιεφςεισ

ΠΕΡΙΟΔΙΚΟ

S. Papadopoulos, A. Vakali, Y. Kompatsiaris. “The Dynamics of Content Popularity in Social Media”. In International Journal of Data Warehousing and Mining 6(1), 2010 (Fourth Annual Excellence in Research Journal Award: Best Published

Journal Article in IJDWM for 2010)

ΚΕΦΑΛΑΙΟ

S. Papadopoulos, F. Menemenis, A. Vakali, Y. Kompatsiaris. “Analysis of Content Popularity in Social Bookmarking Systems”. In book Evolving Application Domains of Data Warehousing and Mining: Trends and Solutions, edited by Dr. Pedro Furtado, pp. 233-257, IGI Publishing, 2009

WORKSHOP

S. Papadopoulos, A. Vakali, I. Kompatsiaris. “Digg it Up! Analyzing Popularity Evolution in a Web 2.0 Setting”. In Proceedings of Workshop on Mining Social Data (MSoDa 2008) at the 18th European Conference on Artificial Intelligence (ECAI 2008), Patras, Greece, July 2008

#18

3

Ανίχνευςθ Κοινοτιτων ςε Γράφουσ

#19

Ανίχνευςθ Κοινοτιτων ςε Κοινωνικό Περιεχόμενο • Περιεχόμενο από Κοινωνικά Δίκτυα: Ποικιλία ςχζςεων (explicit) και

ςυςχετίςεων (implicit) Γράφοι

• Δομι Κοινοτιτων: Πολφτιμο εργαλείο για τθ μελζτθ τθσ δομισ οργάνωςθσ και λειτουργίασ του ςυςτιματοσ

Πρόβλθμα

• Εφαρμογζσ περιοριςμζνεσ ςε τυπικά κοινωνικά δίκτυα

• Απουςία ςυςτθματικισ μελζτθσ ςε κζματα απόδοςθσ & εφαρμογισ ςε μεγάλθ κλίμακα:

– Θεωρθτικι ανάλυςθ υπολογιςτικϊν χαρακτθριςτικϊν (χρόνοσ εκτζλεςθσ, απαιτιςεισ μνιμθσ, εφαρμογι ςε δυναμικό περιβάλλον)

– Πειραματικι ςφγκριςθ μεταξφ δθμοφιλϊν μεκόδων ωσ προσ τρεισ παραμζτρουσ απόδοςθσ

Κατθγορίεσ Μεκόδων

#20

ΒΑΙΚΕ ΚΑΣΘΓΟΡΙΕ: • Ανίχνευςθ ςυνεκτικϊν υπογράφων • Ομαδοποίθςθ κόμβων • Βελτιςτοποίθςθ μζτρου ποιότθτασ • Διαίρεςθ γράφου • Χριςθ μοντζλων κοινοτιτων/διαδικαςιϊν ΑΠΑΙΣΘΕΙ: • Εφαρμογι ςε εξελιςςόμενουσ γράφουσ • Εφαρμογι ςε πολφ μεγάλθ κλίμακα

Αξιολόγθςθ Μεκόδων - Ακρίβεια

Ακρίβεια: ικανότθτα μεκόδων να ανακαλφπτουν τισ «ςωςτζσ» κοινότθτεσ

Μζκοδοι αξιολόγθςθσ ακρίβειασ

• Επιςκόπθςθ αποτελεςμάτων, ςυνικωσ ςε μικροφσ γνωςτοφσ γράφουσ, π.χ. Zachary karate club (τυπικι πρακτικι)

• Άμεςθ μζτρθςθ ςε ςυνκετικοφσ γράφουσ (τυπικι πρακτικι): Normalized Mutual Information (ΝΜΙ)

• Ζμμεςθ αξιολόγθςθ (προτεινόμενθ πρακτικι): Χριςθ δομισ κοινοτιτων ςε κάποιο πρόβλθμα ανάκτθςθσ πλθροφορίασ (π.χ. ςφςταςθ ετικετϊν) και μζτρθςθ απόδοςθ του ςυςτιματοσ

#21

Τπολογιςτικι Πολυπλοκότθτα

#22

Απαιτιςεισ ςε Μνιμθ

• Αποκικευςθ γράφου (το ίδιο για όλεσ τισ κακολικζσ μεκόδουσ εκτόσ από τοπικζσ μεκόδουσ και μεκόδουσ βαςιςμζνεσ ςε επεξεργαςία ροισ)

– Πίνακασ γειτνίαςθσ

– Λίςτα ακμϊν

• Πρόςκετεσ δομζσ:

– ςωροί μεγίςτου (CNM)

– πίνακασ τμθματικότθτασ

– ιδιοδιανφςματα

• Μζκοδοι ομαδοποίθςθσ κόμβων με χριςθ πίνακα αποςτάςεων ~ n2

#23

Πειραματικι Αξιολόγθςθ

Επιλεγμζνεσ μζκοδοι • WALKTRAP (Pons & Latapy, 2006)

• CNM (Clauset et al., 2004)

• LDEIGEN (Newman, 2006)

• LOUVAIN (Blondel et al., 2008)

• SPIN (Reichardt & Bornholdt, 2006)

• LPROP (Raghavan et al., 2007)

• MCL (Dongen, 2000)

• INFOMAP (Rosvall & Bergstrom, 2008)

Κριτιρια Επιλογισ • Δθμοτικότθτα μεκόδου

• Εφαρμοςιμότθτα ςε γράφουσ μεγάλθσ κλίμακασ

• Αντιπροςωπευτικότθτα

• Διακεςιμότθτα υλοποίθςθσ

#24

VCLUST

QMAX

MODEL / PROCESS

υνκετικά Δεδομζνα Γράφοι LFR

υνκετικοί Γράφοι

• Girvan-Newman

• Lancichinetti-Fortunato-Radicchi

#25

Αρικμόσ κόμβων Μζςοσ βακμόσ Παράμετροσ πρόςμιξθσ

Πειραματικι Αξιολόγθςθ - Ακρίβεια

#26

• Μζγεκοσ γράφου: ςχετικά μικρι επιρροι

• Μζςοσ βακμόσ: ςθμαντικι επιρροι

• Παράμετροσ πρόςμιξθσ: απότομθ επιρροι

• Συνολικά: – Υψθλι επίδοςθ: SPIN, WALKTRAP, INFOMAP, LPROP

– INFOMAP, LPROP (υψθλι ευαιςκθςία)

– Χαμθλι επίδοςθ: CNM, LDEIGEN

Πειραματικι Αξιολόγθςθ - Χρόνοσ Εκτζλεςθσ

#27

• Μζγεκοσ γράφου: ςχεδόν γραμμικι ςχζςθ (πλθν WALKTRAP, LPROP)

• Μζςοσ βακμόσ: χειρότερθ από γραμμικι ςχζςθ

• Παράμετροσ πρόςμιξθσ: μεταβλθτι επιρροι

• Συνολικά: – Υψθλι επίδοςθ: LPROP, LOUVAIN

– Σχετικά καλι επίδοςθ: INFOMAP, CNM

– Πολφ χαμθλι επίδοςθ: SPIN, WALKTRAP

Πειραματικι Αξιολόγθςθ – Απαιτιςεισ Μνιμθσ

#28

• WALKTRAP: χειρότερθ επίδοςθ (8GB για γράφο 50Κ κόμβων)

• MCL: δεφτεροσ χειρότεροσ (1.5GB για 100Κ κόμβουσ)

• LOUVAIN: καλφτεροσ (18ΜΒ για 100Κ κόβμουσ)

• Βακμόσ γράφου: Επθρεάηει όλεσ τισ μεκόδουσ (πλθν LOUVAIN και MCL)

φνοψθ Αποτελεςμάτων

• Πειραματικά αποτελζςματα:

• Παρατθριςεισ: – Μεγάλοσ αρικμόσ μεκόδων, πλοφςιο υπόβακρο αλλά λίγεσ

εφαρμογζσ ςε πραγματικά δεδομζνα

– Ελάχιςτεσ ι κακόλου εφαρμογζσ ςε κοινωνικό περιεχόμενο

– Ηθτοφμενο: Πρακτικζσ & κλιμακϊςιμεσ υλοποιιςεισ

#29

#30

χετικζσ Δθμοςιεφςεισ

ΠΕΡΙΟΔΙΚΟ

S. Papadopoulos, Y. Kompatsiaris, A. Vakali, P. Spyridonos. “Community

Detection in Social Media”. In Data Mining and Knowledge Discovery, June

2011, DOI: 10.1007/s10618-011-0224-z (Impact factor announced in 2009: 2.95)

ΚΕΦΑΛΑΙΟ

S. Nikolopoulos, E. Chatzilari, E. Giannakidou, S. Papadopoulos, I.

Kompatsiaris, A. Vakali. “Leveraging Massive User Contributions for

Knowledge Extraction”. In book Next Generation Data Technologies for

Collective Computational Intelligence, Nik Bessis and Fatos Xhafa (Eds.), in

“Studies in Computational Intelligence” book series, Vol. 352, pp. 415-443,

Springer, 2011

#31

4

Ομαδοποίθςθ Κοινωνικοφ Περιεχομζνου

#32

Ομαδοποίθςθ Κοινωνικοφ Περιεχομζνου

Πρόβλθμα • Υψθλι πολυπλοκότθτα, δφςκολθ εφαρμογι ςε μεγάλεσ ςυλλογζσ

περιεχομζνου

• Ευαιςκθςία ςε κόρυβο

• Μθ προφανισ τρόποσ ςυνδυαςμοφ διαφορετικϊν χαρακτθριςτικϊν

Προτεινόμενο Πλαίςιο: – Αλγόρικμοσ Bridge Bounding τοπικότθτα υπολογιςμϊν

– Αλγόρικμοσ SCAN++ αντοχι ςτο κόρυβο, χαμθλι πολυπλοκότθτα

• Ομαδοποίθςθ Ετικετϊν:

– Μελζτθ κεματολογίασ, ςφςταςθ ετικετϊν

• Ομαδοποίθςθ Εικόνων:

– Ταυτόχρονθ χριςθ οπτικϊν χαρακτθριςτικϊν και χαρακτθριςτικϊν κειμζνου

Προτεινόμενο Πλαίςιο

#33

Κεφάλαιο 3

Κεφάλαιο 5

Κεφάλαιο 6

Σοπικι Ανίχνευςθ Κοινοτιτων: Bridge Bounding

• Ανίχνευςθ κοινοτιτων = διαδικαςία εξερεφνθςθσ (ΒFS) γφρω από κόμβο εκκίνθςθσ (seed node) μζχρι να εντοπιςτοφν τα «όρια» τθσ κοινότθτασ ιδανικόσ για κακοδθγοφμενθ «εξερεφνθςθ» μεγάλων ςυλλογϊν

#34

ακμζσ-γζφυρεσ

υνάρτθςθ Local Bridging

#35

Local Bridging Δεφτερθσ Σάξθσ

#36

Πολυπλοκότθτα μζςοσ βακμόσ

τάξθ local bridging

Ανίχνευςθ Κοινοτιτων με Αντοχι ςτο Θόρυβο: SCAN++

• Βαςικό χαρακτθριςτικό SCAN:

– Αποφυγι ανάκεςθσ όλων των κόμβων ςε κοινότθτεσ αντιμετϊπιςθ κορφβου (ακμϊν που δεν αντιςτοιχοφν ςε πραγματικζσ ςχζςεισ)

• Περιοριςμοί SCAN:

– Ανάγκθ για προςδιοριςμό παραμζτρων μ, ε

– Μικρό ποςοςτό κάλυψθσ (υπερβολικά αυςτθρι διαλογι)

• Επεκτάςεισ SCAN++:

– Αναηιτθςθ χϊρου (μ,ε) Αυτόματθ επιλογι παραμζτρων

– Τοπικι επζκταςθ κοινοτιτων επικάλυψθ, υψθλότερθ ανάκλθςθ

#37

SCAN: Βαςικζσ Ζννοιεσ

• Δομικι ομοιότθτα:

• ε-γειτονιά:

• (μ,ε)-πυρινασ:

#38

(μ,ε)-πυρινασ μ = 5, ε = 0.72

(μ,ε)-πυρινασ μ = 6, ε = 0.675

hub

outlier

Αναηιτθςθ Παραμζτρων (μ,ε)

#39

Μεγάλοι πυρινεσ υψθλισ ποιότθτασ

Μικροί πυρινεσ υψθλισ ποιότθτασ

Μεγάλοι πυρινεσ χαμθλισ ποιότθτασ

Μικροί πυρινεσ χαμθλισ ποιότθτασ

Επζκταςθ Κοινοτιτων

#40

Παράδειγμα Εκτζλεςθσ SCAN++

#41

Εφρεςθ πυρινων για (μ1,ε1)

Εφρεςθ πυρινων για (μi,εi)

Επζκταςθ με μεγιςτοποίθςθ τμθματικότθτασ υπογράφου

Χαρακτθριςμόσ υπόλοιπων κόμβων ωσ hubs και outliers

Αξιολόγθςθ - Ομαδοποίθςθ Ετικετϊν

#42

• Μελζτθ κεματολογίασ

• Σφςταςθ ετικετϊν

Αξιολόγθςθ - Μελζτθ Θεματολογίασ

#43

Ηϊα Σαινίεσ Επιςτιμθ Μουςικι

Ιςτορία Τπολογιςτζσ

Bridge Bounding

Αξιολόγθςθ θμαςιολογικισ υνάφειασ

• Για αξιολόγθςθ ςε μεγάλθ κλίμακα προτείνεται θ χριςθ του Normalized Google Distance (NGD):

• Υπολογίηονται δφο κατανομζσ:

– NGD μεταξφ ετικετϊν τθσ ίδιασ κοινότθτασ (Fsame)

– NGD μεταξφ ετικετϊν διαφορετικϊν κοινοτιτων αλλά γειτονικϊν ςτο γράφο (Fdiff)

• Χριςθ Kolmogorov-Smirnov τεςτ (μίασ πλευράσ) – Μθδενικι (null) υπόκεςθ: Fsame = Fdiff

– Εναλλακτικι υπόκεςθ: Fsame < Fdiff

• Για τισ ομάδεσ που εξάχκθκαν με τισ μεκόδουσ Bridge Bounding και SCAN θ μθδενικι υπόκεςθ απορρίφκθκε.

#44

φςταςθ Ετικετϊν

• Χριςθ ιςτορικϊν δεδομζνων για αξιολόγθςθ

• SCAN: υψθλότερθ ακρίβεια

• SCAN++: υψθλότερθ ανάκλθςθ

#45

Αξιολόγθςθ - Ομαδοποίθςθ Εικόνων

υλλογι

Γράφοσ ομοιότθτασ • Ομοιότθτα με βάςθ τα οπτικά χαρακτθριςτικά

– SIFT Bag-of-Words histogram Euclidean

– SURF VocTree Geometric Verification (RANSAC)

• Ομοιότθτα με βάςθ χαρακτθριςτικά ετικετϊν – Γράφοσ με βάςθ τθ ςυνεμφάνιςθ (COOC), πολφ γριγορθ καταςκευι

– Γράφοσ με προβολι ςε χαμθλότερεσ διαςτάςεισ (LSI)

• Υβριδικόσ Γράφοσ (HYB)

• Ομαδοποίθςθ με χριςθ SCAN, SCAN+ / ςφγκριςθ με k-means

#46

Αξιολόγθςθ ομάδων εικόνων (1)

• HYB > VIS, TAG

• SCAN > k-means

#47

Γεωγραφικι πλθροφορία Ζρευνα χρθςτϊν

Αξιολόγθςθ ομάδων εικόνων (2)

#48

υμπεράςματα

• Προτεινόμενο πλαίςιο ομαδοποίθςθσ: – Αντοχι ςτο κόρυβο

– Εφαρμογι ςε μεγάλθ κλίμακα

– Ταυτόχρονθ αξιοποίθςθ διαφορετικϊν τφπων ομοιότθτασ

#49

k-means SCAN

#50

χετικζσ Δθμοςιεφςεισ

ΚΕΦΑΛΑΙΟ S. Papadopoulos, A. Vakali, Y. Kompatsiaris. “Community Detection in Collaborative

Tagging Systems”. In Book Community-built Database: Research and Development, pp. 107-131, Springer, 2011

ΤΝΕΔΡΙΑ S. Papadopoulos, Y. Kompatsiaris, A. Vakali. “A Graph-based Clustering Scheme for

Identifying Related Tags in Folksonomies”. In Proceedings of DaWaK'10, 12th International Conference on Data Warehousing and Knowledge discovery (Bilbao, Spain), Springer-Verlag, 65-76, 2010 (acceptance rate: 29%)

S. Papadopoulos, C. Zigkolis, G. Tolias, Y. Kalantidis, P. Mylonas, Y. Kompatsiaris, A. Vakali. “Image Clustering through Community Detection on Hybrid Image Similarity Graphs”. In Proceedings of ICIP 2010, International Conference on Image Processing (Hong Kong), IEEE, pp. 2353-2356, October, 2010 (acceptance rate: 45%)

WORKSHOP & ΑΝΑΦΟΡΕ

S. Papadopoulos, Y. Kompatsiaris, A. Vakali. “Leveraging Collective Intelligence through Community Detection in Tag Networks”. In Proceedings of CKCaR'09 Workshop on Collective Knowledge Capturing and Representation, California, USA, Sep. 1, 2009

S. Papadopoulos, A. Skusa, A. Vakali, Y. Kompatsiaris, N. Wagner. “Bridge Bounding: A Local Approach for Efficient Community Discovery in Complex Networks”. In arXiv:0902.0871, February 2009

#51

5

Εξαγωγι & Επιςκόπθςθ Πλθροφορίασ από

Κοινωνικό Περιεχόμενο

#52

Εξόρυξθ Γνϊςθσ από Κοινωνικό Περιεχόμενο

Πρόβλθμα • Εξόρυξθ & προβολι γνϊςθσ από μεγάλο όγκο κοινωνικοφ περιεχομζνου

Προτεινόμενο Πλαίςιο • Ανίχνευςθ θμείων Ενδιαφζροντοσ & Δραςτθριοτιτων:

– Ενιαία προςζγγιςθ

– Προςζγγιςθ προςαρμοςμζνθ ςε ανίχνευςθ δραςτθριοτιτων ςυγκεκριμζνου τφπου

• Τψθλι ακρίβεια – Νζα χαρακτθριςτικά ομάδων

– Τεχνικζσ ανκεκτικζσ ςτο κόρυβο

• υνδυαςμόσ πολλϊν τφπων πλθροφορίασ (γεωγραφικι, χρόνοσ, εξωτερικζσ πθγζσ)

• Εφαρμογι ςε Μεγάλθ Κλίμακα

• Εποπτικι Παρουςίαςθ Μεγάλων υλλογϊν Περιεχόμενου

Ανίχνευςθ θμείων Ενδιαφζροντοσ & Δραςτθριοτιτων

#53

Κεφάλαιο 4

Κατθγοριοποίθςθ Ομάδων

• Οι ομάδεσ που προκφπτουν από το βιμα ομαδοποίθςθσ εικόνων κατθγοριοποιοφνται ςε «ςθμεία ενδιαφζροντοσ» και «δραςτθριότθτεσ»

• Χριςθ 4 χαρακτθριςτικϊν:

– Χρονικι διάρκεια

– Διαςπορά χριςθσ

– Συνάφεια ςθμείου ενδιαφζροντοσ

– Συνάφεια δραςτθριότθτασ

#54

Quack et al. (2008)

Αρχι Λειτουργίασ f1, f2

#55

Προτεινόμενα Χαρακτθριςτικά f3, f4

• Τα δφο χαρακτθριςτικά του Quack (2008) οδθγοφν ςυχνά ςε ςφάλματα λόγω ιδιαιτεροτιτων των ομάδων.

• Για αφξθςθ τθσ αξιοπιςτίασ κατάταξθσ προτάκθκαν τα χαρακτθριςτικά

ςυνάφειασ με χριςθ ετικετϊν.

#56

ΔΡΑΣΘΡΙΟΣΘΣΕ ΘΜΕΙΑ ΕΝΔΙΑΦΕΡΟΝΣΟ

Ανίχνευςθ Δραςτθριοτιτων

#57

• Δυνατότθτα για ανίχνευςθ δραςτθριοτιτων ςυγκεκριμζνου είδουσ

• Εφαρμογι και ςε ςυλλογζσ με μικρό ποςοςτό γεωγραφικισ πλθροφορίασ

Επιςκόπθςθ Πλθροφορίασ & Περιεχομζνου

#58

www.clusttour.gr

Επιςκόπθςθ Πόλθσ - τοιχεία Διεπαφισ

#59

Back-end εφαρμογισ

#60

Πειραματικι Αξιολόγθςθ - Δεδομζνα

• Ανίχνευςθ ςθμείων ενδιαφζροντοσ/δραςτθριοτιτων

– Συλλογι 200,000 εικόνων (Βαρκελϊνθ)

• Ανίχνευςθ Δραςτθριοτιτων

– Συλλογι αναφοράσ MediaEval 2011 (75,000 εικόνεσ)

• Εποπτικι παρουςίαςθ περιεχομζνου & γνϊςθσ

– Συλλογι 2,500,000 εικόνων (35 πόλεισ)

#61

Αξιολόγθςθ Προτεινόμενων Χαρακτθριςτικϊν

#62

Αξιολόγθςθ θμείων Ενδιαφζροντοσ

#63

# θμείο Ενδιαφζροντοσ Αυτόματεσ Ετικζτεσ Ακρίβεια (m)

1 Sagrada Familia sagrada familia, sagrada, familia 15.2

2 Casa Batllo casa batllo, casa, passeig gracia 10.5

3 Casa Mila casa mila, casamila, casa milà 31.8

4 Cathedral (La Seu) barri gotic, barcelona cathedral, barri 40.5

5 Park Guell parc guell, park guell, guell 9.6

6 Barcelona Pavillon mies van der rohe, barcelona pavillon 110.3

7 La Boqueria la boqueria mercat, de sant josep 82.1

8 Arc de Triomf ciclic, bookstore, arte 56.0

9 Poble Espanyol poble espanyol, vidres, cristal 66.5

10 Santa Maria del Mar santa maria del mar, tapas, catedral 68.0

11 Macba macba, contemporary, museu 147.8

12 Barcelona Zoo zoo, patas monkey, freire 107.0

13 Marina Port Vell port vell, port, hafen 134.7

14 Camp Nou joan gamper trophy, camp nou 18.7

Αξιολόγθςθ Ανίχνευςθσ Δραςτθριοτιτων

#64

MediaEval 2011

Επιςκόπθςθ θμαντικϊν Περιοχϊν

#65

Séverin

Pompidou

Sacre Coeur

Musée du Louvre Branly

Bundestag

Potsdamer

Gendarmenmarkt

Museuminsel

Weltzeituhr

Ανεφρεςθ Μθ Προφανϊν θμείων

#66

Πολλαπλζσ Όψεισ Δθμοφιλϊν Μνθμείων

#67

Χρονικι Ανάλυςθ

#68

Περιοχζσ με ιδιαίτερα χρονικά χαρακτθριςτικά (π.χ. νυχτερινι ηωι)

φνοψθ Αποτελεςμάτων

• Εξαγωγι γνϊςθσ ςε μεγάλθ κλίμακα: – Σθμεία Ενδιαφζροντοσ

– Δραςτθριότθτεσ

– Δθμοτικότθτα Περιοχϊν, Σθμείων Ενδιαφζροντοσ

– Αξιοςθμείωτα Χρονικά Στοιχεία

– Ιεραρχικι Παρουςίαςθ και Εξερεφνθςθ

• Υψθλι ακρίβεια

• Αξιοποίθςθ πολλϊν τφπων πλθροφορίασ

Μελλοντικι Εργαςία

• Εφαρμογι ςε δυναμικό περιβάλλον

#69

#70

χετικζσ Δθμοςιεφςεισ

ΠΕΡΙΟΔΙΚΟ S. Papadopoulos, C. Zigkolis, Y. Kompatsiaris, A. Vakali. “Cluster-based Landmark

and Event Detection on Tagged Photo Collections”. In IEEE Multimedia 18(1), pp.

52-63, 2011 (Impact factor announced in 2009: 2.258, Special Issue acceptance rate: 25%)

ΤΝΕΔΡΙΑ S. Papadopoulos, C. Zigkolis, S. Kapiris, Y. Kompatsiaris, A. Vakali. “City exploration

by use of spatio-temporal analysis and clustering of user contributed photos” Demo paper in ICMR, Trento, Italy, April 17-20, 2011 (Best demo award)

S. Papadopoulos, C. Zigkolis, S. Kapiris, Y. Kompatsiaris, A. Vakali. “ClustTour: City exploration by use of hybrid photo clustering”. In Proceedings of MM '10, the international Conference on Multimedia, ACM, New York, NY, 1617-1620, Firenze, Italy, Oct 25-29, 2010

WORKSHOP S. Papadopoulos, C. Zigkolis, Y. Kompatsiaris, A. Vakali. “CERTH @ MediaEval 2011

SED Task” In Proceedings of MediaEval 2011 Workshop, Pisa, Italy, Sep 1-2, 2011

#71

6

Ανίχνευςθ Εννοιϊν με Χριςθ Τεχνικϊν

Θμι-επιβλεπόμενθσ Μάκθςθσ

Ανίχνευςθ Εννοιϊν ςε Περιεχόμενο

• Κλαςικό πρόβλθμα: Σθμαςιολογικό κενό – Αναντιςτοιχία μεταξφ «όψθσ» (επιφανειακά χαρακτθριςτικά) και

«νοιματοσ» (εννοιολογικοφ περιεχόμενου)

• Ευκαιρία: – Χριςθ κοινωνικοφ περιεχόμενου για βελτίωςθ απόδοςθσ

– Αξιοποίθςθ δομισ κοινοτιτων γράφων ομοιότθτασ

– Συνζνωςθ χαρακτθριςτικϊν διαφορετικοφ τφπου

• Προτεινόμενο πλαίςιο: – Θμι-επιβλεπόμενθ μάκθςθ με χριςθ «διανυςμάτων κοινοτιτων»

– Πολλαπλζσ τεχνικζσ ςυνζνωςθσ χαρακτθριςτικϊν

#72

Προτεινόμενο Πλαίςιο Ανάλυςθσ

#73

Κεφάλαια 3-4

Παράδειγμα: Φαςματικι Ανάλυςθ

#74

Σιμζσ δεφτερου ιδιοδιανφςματοσ

Σεχνικζσ υνζνωςθσ (1)

#75

Σεχνικζσ υνζνωςθσ (2)

#76

Πειραματικι Αξιολόγθςθ

• Φφςθ δεδομζνων ειςόδου – Είδοσ κατανομισ

– Ζνταςθ κορφβου

• Παράμετροι πλαιςίου μάκθςθσ – Μθχανιςμόσ ςχθματιςμοφ γράφου

– Διαςτάςεισ διανφςματοσ κοινοτιτων

– Τεχνικι ςυνζνωςθσ χαρακτθριςτικϊν

• Χαρακτθριςτικά του προβλιματοσ μάκθςθσ – Αρικμόσ δειγμάτων εκπαίδευςθσ

– Διαςτάςεισ διανφςματοσ χαρακτθριςτικϊν

– Αρικμόσ εννοιϊν προσ εκμάκθςθ

– Εφαρμογι ςε επαγωγικό περιβάλλον

#77

υνκετικά Δεδομζνα

Απόδοςθ Vs. Θόρυβοσ

#78

Απόδοςθ Vs. Διαςτάςεισ Κοινοτιτων

#79

Απόδοςθ Vs. Πρόβλθμα Μάκθςθσ

#80

Αρικμόσ εννοιϊν

Αρικμόσ χαρακτθριςτικϊν

Αξιολόγθςθ ςτο MIR-Flickr

• 25000 εικόνεσ + ετικζτεσ, 38 ζννοιεσ

#81

Προτεινόμενθ Μζκοδοσ Vs. Hare & Lewis, 2010

#82

Προτεινόμενθ Μζκοδοσ Vs. Guillaumin et al., 2010

#83

#84

7

Συμπεράςματα

#85

υμπεράςματα

Πλεονεκτιματα Προτεινόμενων Μεκόδων

• Κλιμακωςιμότθτα (105-106 ςτοιχεία)

• Αξιοποίθςθ πολλϊν τφπων πλθροφορίασ

• Αντοχι ςε κόρυβο

Περιοριςμοί

• Εφαρμογι ςε ςτατικζσ ςυλλογζσ δεδομζνων

• Εφαρμογι ςε ζναν πυρινα (core)

#86

Μελλοντικι Ζρευνα

Εφαρμογι ςε δυναμικά δεδομζνα

• Υπολογιςτικά προβλιματα (ανανζωςθ γράφου, επαυξθτικι ομαδοποίθςθ)

• Παρακολοφκθςθ μοντζλων/κατανομϊν

Μθχανικι μάκθςθ ςε κλίμακα διαδικτφου

• Αφξθςθ αρικμοφ εννοιϊν

• Αφξθςθ χαρακτθριςτικϊν

• Χριςθ κατανεμθμζνων τεχνικϊν (MapReduce)

Αφξθςθ τθσ κλίμακασ αξιολόγθςθσ

• Αξιοποίθςθ κοινότθτασ χρθςτϊν (crowdsourcing)

Οπτικοποίθςθ μαηικϊν δεδομζνων

• Διαδραςτικι εξερεφνθςθ ςυλλογϊν περιεχόμενου πολφ μεγάλθσ κλίμακασ

#87

Ευχαριςτίεσ

• Ακθνά Βακάλθ

• Γιάννθσ Κομπατςιάρθσ

• Όλα τα μζλθ τθσ επιτροπισ

ΤΝΕΡΓΑΙΕ

• Χριςτοσ Ηιγκόλθσ (ομαδοποίθςθ εικόνων, ανίχνευςθ ςθμείων ενδιαφζροντοσ & δραςτθριοτιτων)

• Χριςτοσ Σαγϊνασ (θμι-επιβλεπόμενθ μάκθςθ ςε γράφουσ)

• Στζφανοσ Καπίρθσ, Λάμπροσ Μακρισ (clusttour web interface)

• Πλοφταρχοσ Σπυρίδωνοσ (πειραματικι ςφγκριςθ μεκόδων ανίχνευςθσ κοινοτιτων)

• Φϊτθσ Μενεμενισ (ανίχνευςθ δθμοφιλϊν ιςτοριϊν με χριςθ χαρακτθριςτικϊν κειμζνου)

#88

;

Ευχαριςτϊ

Recommended