88
Αριςτοτζλειο Πανεπιςτιμιο Θεςςαλονίκθσ Τμιμα Πλθροφορικισ Εργαςτιριο Γλωςςϊν Προγραμματιςμοφ και Τεχνολογίασ Λογιςμικοφ 17 Φεβρουαρίου 2012 Μζκοδοι Εξόρυξθσ Γνϊςθσ ςε Συλλογζσ Περιεχομζνου Μεγάλθσ Κλίμακασ από Κοινωνικά Δίκτυα Συμεϊν Παπαδόπουλοσ Επιβλζπουςα: κακ. Ακθνά Βακάλθ ΠΑΡΟΤΙΑΘ ΔΙΔΑΚΣΟΡΙΚΘ ΔΙΑΣΡΙΒΘ

PhD Defense (in Greek)

Embed Size (px)

DESCRIPTION

Παρουσίαση της διδακτορικής μου διατριβής στο Τμήμα Πληροφορικής ΑΠΘ.

Citation preview

Page 1: PhD Defense (in Greek)

Αριςτοτζλειο Πανεπιςτιμιο Θεςςαλονίκθσ

Τμιμα Πλθροφορικισ

Εργαςτιριο Γλωςςϊν Προγραμματιςμοφ και Τεχνολογίασ Λογιςμικοφ

17 Φεβρουαρίου 2012

Μζκοδοι Εξόρυξθσ Γνϊςθσ ςε Συλλογζσ Περιεχομζνου

Μεγάλθσ Κλίμακασ από Κοινωνικά Δίκτυα

Συμεϊν Παπαδόπουλοσ

Επιβλζπουςα: κακ. Ακθνά Βακάλθ

ΠΑΡΟΤΙΑΘ ΔΙΔΑΚΣΟΡΙΚΘ ΔΙΑΣΡΙΒΘ

Page 2: PhD Defense (in Greek)

#2

φνοψθ Παρουςίαςθσ

• Αντικείμενο & Συμβολζσ τθσ Διατριβισ

• Στατιςτικζσ Ιδιότθτεσ Κοινωνικϊν Εφαρμογϊν

• Ανίχνευςθ Κοινοτιτων ςε Γράφουσ

• Ομαδοποίθςθ Κοινωνικοφ Περιεχομζνου

• Εξαγωγι & Επιςκόπθςθ Πλθροφορίασ από

Κοινωνικό Περιεχόμενο

• Ανίχνευςθ Εννοιϊν με Χριςθ Τεχνικϊν Θμι-

επιβλεπόμενθσ Μάκθςθσ

• Συμπεράςματα & Μελλοντικι Ζρευνα

Page 3: PhD Defense (in Greek)

#3

1

Αντικείμενο & Συμβολζσ τθσ Διατριβισ

Page 4: PhD Defense (in Greek)

#4

Ευκαιρίεσ & Προκλιςεισ

Ο Παγκόςμιοσ Ιςτόσ (ΠΙ) αλλάηει: Web Social Web

Ευκαιρίεσ • Αντανάκλαςθ πραγματικότθτασ: Γεγονότα και αντικείμενα του

πραγματικοφ κόςμου αναπαρίςτανται με περιεχόμενο ςτον ΠΙ

• υλλογικι ευφυία: Εκφράηονται πολλζσ διαφορετικζσ απόψεισ, αναπαραςτάςεισ, περιγραφζσ δυνατότθτα για εξαγωγι ςυλλογικϊν ςυμπεραςμάτων

Προκλιςεισ • Ετερογζνεια/Ζλλειψθ δομισ: απουςία ι προβλθματικι παρουςία

μεταδεδομζνων (αςάφεια, διαφορετικζσ ςυμβάςεισ)

• Κλίμακα: Τεράςτιοσ όγκοσ περιεχομζνου + μεταδεδομζνων υπολογιςτικά προβλιματα

• Θόρυβοσ: Χαμθλι ποιότθτα, διπλοτυπία, παραπλάνθςθ, ανακρίβεια

• Δυναμικότθτα: Υψθλι μεταβλθτότθτα εξαιρετικά δφςκολο να γίνουν παραδοχζσ για δομι και χαρακτθριςτικά

Page 5: PhD Defense (in Greek)

Εποπτικι Παρουςίαςθ

#5

Δεδομζνα - Περιεχόμενο

Ιδιότθτεσ - υμπεριφορά

Δομι οργάνωςθσ

Ομαδοποίθςθ

Εξόρυξθ γνϊςθσ

Page 6: PhD Defense (in Greek)

υμβολζσ τθσ Διατριβισ

• Κατανόθςθ ςυμπεριφοράσ/ιδιοτιτων κοινωνικϊν εφαρμογϊν

• Ανίχνευςθ κοινοτιτων ςε κοινωνικό περιεχόμενο

• Ομαδοποίθςθ περιεχομζνου (ετικετϊν & εικόνων) με χριςθ νζων μεκόδων ανίχνευςθσ κοινοτιτων

• Εξόρυξθ και παρουςίαςθ γνϊςθσ από ςυλλογζσ περιεχομζνου μεγάλθσ κλίμακασ

• Θμι-επιβλεπόμενθ μάκθςθ ςε περιεχόμενο με χριςθ τθσ δομισ κοινοτιτων

#6

Page 7: PhD Defense (in Greek)

#7

2

Στατιςτικζσ Ιδιότθτεσ Κοινωνικϊν Εφαρμογϊν

Page 8: PhD Defense (in Greek)

#8

Κοινωνικζσ Εφαρμογζσ

Βαςικζσ Λειτουργίεσ

• Επιςιμανςθ (bookmarking): Εκδιλωςθ προτίμθςθσ ενδιαφζροντοσ

• Επιςθμείωςθ (tagging): Απόδοςθ ςθμαςιολογικισ- ταξινομικισ

πλθροφορίασ

• Κοινωνικι δικτφωςθ (social networking): Δυνατότθτα για διλωςθ

ςχζςεων μεταξφ των χρθςτϊν

Παραδείγματα: delicious, flickr, YouTube, last.fm, digg, bibsonomy

Πρόβλθμα

• Σφνκετα ςυςτιματα Πϊσ ςυμπεριφζρονται; Ποιεσ οι ιδιότθτζσ τουσ;

• Περιοριςμζνθ ποςότθτα προςοχισ χρθςτϊν (attention scarcity) Πϊσ

διαμορφϊνεται θ δθμοτικότθτα;

folksonomy - diggsonomy

Page 9: PhD Defense (in Greek)

#9

Άξονεσ Ανάλυςθσ Δθμοτικότθτασ

• Κατανομζσ Μεγεκϊν:

– Power law, λογαρικμικι κατανομι

– Μθχανιςμόσ προνομιακισ προςάρτθςθσ

• Χρονικι Εξζλιξθ:

– Μοντζλο κυλιόμενθσ ςελιδοποιθμζνθσ λίςτασ

• Χαρακτθριςτικά Κειμζνου:

– Επιλογι χαρακτθριςτικϊν κειμζνου για πρόβλεψθ δθμοτικότθτασ

• Δείκτεσ Κοινωνικισ Επιρροισ:

– Κοινωνικι επιδεκτικότθτα, ςυςχζτιςθ

– Κζρδοσ κοινωνικισ επιρροισ

Page 10: PhD Defense (in Greek)

Πειραματικι Ανάλυςθ

• Συλλογι δεδομζνων από Digg

• Στατιςτικά ςυλλογισ Β0

• Επιπρόςκετθ ςυλλογι Β1 για υπολογιςμό δεικτϊν κοινωνικισ επιρροισ

|D| ~100M, |R|>2M, |U|>340K

#10

μεγάλθ διάρκεια

ζντονο ενδιαφζρον

Page 11: PhD Defense (in Greek)

Κατανομζσ Μεγεκϊν

#11

90% περιςταςιακϊν χρθςτϊν

outliers (ιδρυτζσ εφαρμογισ)

99% ιςτοριϊν < 100 ψιφουσ απόκλιςθ από power law

λογαρικμικι κατανομι

Page 12: PhD Defense (in Greek)

Χρονικι Εξζλιξθ

#12

μετάβαςθ ςτον τομζα Popular

Πειραματικι μζτρθςθ Μοντζλο κυλιόμενθσ

ςελιδοποιθμζνθσ λίςτασ

Page 13: PhD Defense (in Greek)

Χαρακτθριςτικά Κειμζνου

#13

Page 14: PhD Defense (in Greek)

Κοινωνικι Επιδεκτικότθτα vs. υςχζτιςθ

#14

διαμορφωτζσ γνϊμθσ επθρεάηονται από το δίκτυό τουσ

δεν επθρεάηονται από το δίκτυό τουσ

Page 15: PhD Defense (in Greek)

Κζρδοσ Κοινωνικισ Επιρροισ

#15

μθχανιςμόσ επιλογισ

Page 16: PhD Defense (in Greek)

Εφαρμογζσ

#16

Page 17: PhD Defense (in Greek)

#17

χετικζσ Δθμοςιεφςεισ

ΠΕΡΙΟΔΙΚΟ

S. Papadopoulos, A. Vakali, Y. Kompatsiaris. “The Dynamics of Content Popularity in Social Media”. In International Journal of Data Warehousing and Mining 6(1), 2010 (Fourth Annual Excellence in Research Journal Award: Best Published

Journal Article in IJDWM for 2010)

ΚΕΦΑΛΑΙΟ

S. Papadopoulos, F. Menemenis, A. Vakali, Y. Kompatsiaris. “Analysis of Content Popularity in Social Bookmarking Systems”. In book Evolving Application Domains of Data Warehousing and Mining: Trends and Solutions, edited by Dr. Pedro Furtado, pp. 233-257, IGI Publishing, 2009

WORKSHOP

S. Papadopoulos, A. Vakali, I. Kompatsiaris. “Digg it Up! Analyzing Popularity Evolution in a Web 2.0 Setting”. In Proceedings of Workshop on Mining Social Data (MSoDa 2008) at the 18th European Conference on Artificial Intelligence (ECAI 2008), Patras, Greece, July 2008

Page 18: PhD Defense (in Greek)

#18

3

Ανίχνευςθ Κοινοτιτων ςε Γράφουσ

Page 19: PhD Defense (in Greek)

#19

Ανίχνευςθ Κοινοτιτων ςε Κοινωνικό Περιεχόμενο • Περιεχόμενο από Κοινωνικά Δίκτυα: Ποικιλία ςχζςεων (explicit) και

ςυςχετίςεων (implicit) Γράφοι

• Δομι Κοινοτιτων: Πολφτιμο εργαλείο για τθ μελζτθ τθσ δομισ οργάνωςθσ και λειτουργίασ του ςυςτιματοσ

Πρόβλθμα

• Εφαρμογζσ περιοριςμζνεσ ςε τυπικά κοινωνικά δίκτυα

• Απουςία ςυςτθματικισ μελζτθσ ςε κζματα απόδοςθσ & εφαρμογισ ςε μεγάλθ κλίμακα:

– Θεωρθτικι ανάλυςθ υπολογιςτικϊν χαρακτθριςτικϊν (χρόνοσ εκτζλεςθσ, απαιτιςεισ μνιμθσ, εφαρμογι ςε δυναμικό περιβάλλον)

– Πειραματικι ςφγκριςθ μεταξφ δθμοφιλϊν μεκόδων ωσ προσ τρεισ παραμζτρουσ απόδοςθσ

Page 20: PhD Defense (in Greek)

Κατθγορίεσ Μεκόδων

#20

ΒΑΙΚΕ ΚΑΣΘΓΟΡΙΕ: • Ανίχνευςθ ςυνεκτικϊν υπογράφων • Ομαδοποίθςθ κόμβων • Βελτιςτοποίθςθ μζτρου ποιότθτασ • Διαίρεςθ γράφου • Χριςθ μοντζλων κοινοτιτων/διαδικαςιϊν ΑΠΑΙΣΘΕΙ: • Εφαρμογι ςε εξελιςςόμενουσ γράφουσ • Εφαρμογι ςε πολφ μεγάλθ κλίμακα

Page 21: PhD Defense (in Greek)

Αξιολόγθςθ Μεκόδων - Ακρίβεια

Ακρίβεια: ικανότθτα μεκόδων να ανακαλφπτουν τισ «ςωςτζσ» κοινότθτεσ

Μζκοδοι αξιολόγθςθσ ακρίβειασ

• Επιςκόπθςθ αποτελεςμάτων, ςυνικωσ ςε μικροφσ γνωςτοφσ γράφουσ, π.χ. Zachary karate club (τυπικι πρακτικι)

• Άμεςθ μζτρθςθ ςε ςυνκετικοφσ γράφουσ (τυπικι πρακτικι): Normalized Mutual Information (ΝΜΙ)

• Ζμμεςθ αξιολόγθςθ (προτεινόμενθ πρακτικι): Χριςθ δομισ κοινοτιτων ςε κάποιο πρόβλθμα ανάκτθςθσ πλθροφορίασ (π.χ. ςφςταςθ ετικετϊν) και μζτρθςθ απόδοςθ του ςυςτιματοσ

#21

Page 22: PhD Defense (in Greek)

Τπολογιςτικι Πολυπλοκότθτα

#22

Page 23: PhD Defense (in Greek)

Απαιτιςεισ ςε Μνιμθ

• Αποκικευςθ γράφου (το ίδιο για όλεσ τισ κακολικζσ μεκόδουσ εκτόσ από τοπικζσ μεκόδουσ και μεκόδουσ βαςιςμζνεσ ςε επεξεργαςία ροισ)

– Πίνακασ γειτνίαςθσ

– Λίςτα ακμϊν

• Πρόςκετεσ δομζσ:

– ςωροί μεγίςτου (CNM)

– πίνακασ τμθματικότθτασ

– ιδιοδιανφςματα

• Μζκοδοι ομαδοποίθςθσ κόμβων με χριςθ πίνακα αποςτάςεων ~ n2

#23

Page 24: PhD Defense (in Greek)

Πειραματικι Αξιολόγθςθ

Επιλεγμζνεσ μζκοδοι • WALKTRAP (Pons & Latapy, 2006)

• CNM (Clauset et al., 2004)

• LDEIGEN (Newman, 2006)

• LOUVAIN (Blondel et al., 2008)

• SPIN (Reichardt & Bornholdt, 2006)

• LPROP (Raghavan et al., 2007)

• MCL (Dongen, 2000)

• INFOMAP (Rosvall & Bergstrom, 2008)

Κριτιρια Επιλογισ • Δθμοτικότθτα μεκόδου

• Εφαρμοςιμότθτα ςε γράφουσ μεγάλθσ κλίμακασ

• Αντιπροςωπευτικότθτα

• Διακεςιμότθτα υλοποίθςθσ

#24

VCLUST

QMAX

MODEL / PROCESS

υνκετικά Δεδομζνα Γράφοι LFR

Page 25: PhD Defense (in Greek)

υνκετικοί Γράφοι

• Girvan-Newman

• Lancichinetti-Fortunato-Radicchi

#25

Αρικμόσ κόμβων Μζςοσ βακμόσ Παράμετροσ πρόςμιξθσ

Page 26: PhD Defense (in Greek)

Πειραματικι Αξιολόγθςθ - Ακρίβεια

#26

• Μζγεκοσ γράφου: ςχετικά μικρι επιρροι

• Μζςοσ βακμόσ: ςθμαντικι επιρροι

• Παράμετροσ πρόςμιξθσ: απότομθ επιρροι

• Συνολικά: – Υψθλι επίδοςθ: SPIN, WALKTRAP, INFOMAP, LPROP

– INFOMAP, LPROP (υψθλι ευαιςκθςία)

– Χαμθλι επίδοςθ: CNM, LDEIGEN

Page 27: PhD Defense (in Greek)

Πειραματικι Αξιολόγθςθ - Χρόνοσ Εκτζλεςθσ

#27

• Μζγεκοσ γράφου: ςχεδόν γραμμικι ςχζςθ (πλθν WALKTRAP, LPROP)

• Μζςοσ βακμόσ: χειρότερθ από γραμμικι ςχζςθ

• Παράμετροσ πρόςμιξθσ: μεταβλθτι επιρροι

• Συνολικά: – Υψθλι επίδοςθ: LPROP, LOUVAIN

– Σχετικά καλι επίδοςθ: INFOMAP, CNM

– Πολφ χαμθλι επίδοςθ: SPIN, WALKTRAP

Page 28: PhD Defense (in Greek)

Πειραματικι Αξιολόγθςθ – Απαιτιςεισ Μνιμθσ

#28

• WALKTRAP: χειρότερθ επίδοςθ (8GB για γράφο 50Κ κόμβων)

• MCL: δεφτεροσ χειρότεροσ (1.5GB για 100Κ κόμβουσ)

• LOUVAIN: καλφτεροσ (18ΜΒ για 100Κ κόβμουσ)

• Βακμόσ γράφου: Επθρεάηει όλεσ τισ μεκόδουσ (πλθν LOUVAIN και MCL)

Page 29: PhD Defense (in Greek)

φνοψθ Αποτελεςμάτων

• Πειραματικά αποτελζςματα:

• Παρατθριςεισ: – Μεγάλοσ αρικμόσ μεκόδων, πλοφςιο υπόβακρο αλλά λίγεσ

εφαρμογζσ ςε πραγματικά δεδομζνα

– Ελάχιςτεσ ι κακόλου εφαρμογζσ ςε κοινωνικό περιεχόμενο

– Ηθτοφμενο: Πρακτικζσ & κλιμακϊςιμεσ υλοποιιςεισ

#29

Page 30: PhD Defense (in Greek)

#30

χετικζσ Δθμοςιεφςεισ

ΠΕΡΙΟΔΙΚΟ

S. Papadopoulos, Y. Kompatsiaris, A. Vakali, P. Spyridonos. “Community

Detection in Social Media”. In Data Mining and Knowledge Discovery, June

2011, DOI: 10.1007/s10618-011-0224-z (Impact factor announced in 2009: 2.95)

ΚΕΦΑΛΑΙΟ

S. Nikolopoulos, E. Chatzilari, E. Giannakidou, S. Papadopoulos, I.

Kompatsiaris, A. Vakali. “Leveraging Massive User Contributions for

Knowledge Extraction”. In book Next Generation Data Technologies for

Collective Computational Intelligence, Nik Bessis and Fatos Xhafa (Eds.), in

“Studies in Computational Intelligence” book series, Vol. 352, pp. 415-443,

Springer, 2011

Page 31: PhD Defense (in Greek)

#31

4

Ομαδοποίθςθ Κοινωνικοφ Περιεχομζνου

Page 32: PhD Defense (in Greek)

#32

Ομαδοποίθςθ Κοινωνικοφ Περιεχομζνου

Πρόβλθμα • Υψθλι πολυπλοκότθτα, δφςκολθ εφαρμογι ςε μεγάλεσ ςυλλογζσ

περιεχομζνου

• Ευαιςκθςία ςε κόρυβο

• Μθ προφανισ τρόποσ ςυνδυαςμοφ διαφορετικϊν χαρακτθριςτικϊν

Προτεινόμενο Πλαίςιο: – Αλγόρικμοσ Bridge Bounding τοπικότθτα υπολογιςμϊν

– Αλγόρικμοσ SCAN++ αντοχι ςτο κόρυβο, χαμθλι πολυπλοκότθτα

• Ομαδοποίθςθ Ετικετϊν:

– Μελζτθ κεματολογίασ, ςφςταςθ ετικετϊν

• Ομαδοποίθςθ Εικόνων:

– Ταυτόχρονθ χριςθ οπτικϊν χαρακτθριςτικϊν και χαρακτθριςτικϊν κειμζνου

Page 33: PhD Defense (in Greek)

Προτεινόμενο Πλαίςιο

#33

Κεφάλαιο 3

Κεφάλαιο 5

Κεφάλαιο 6

Page 34: PhD Defense (in Greek)

Σοπικι Ανίχνευςθ Κοινοτιτων: Bridge Bounding

• Ανίχνευςθ κοινοτιτων = διαδικαςία εξερεφνθςθσ (ΒFS) γφρω από κόμβο εκκίνθςθσ (seed node) μζχρι να εντοπιςτοφν τα «όρια» τθσ κοινότθτασ ιδανικόσ για κακοδθγοφμενθ «εξερεφνθςθ» μεγάλων ςυλλογϊν

#34

ακμζσ-γζφυρεσ

Page 35: PhD Defense (in Greek)

υνάρτθςθ Local Bridging

#35

Page 36: PhD Defense (in Greek)

Local Bridging Δεφτερθσ Σάξθσ

#36

Πολυπλοκότθτα μζςοσ βακμόσ

τάξθ local bridging

Page 37: PhD Defense (in Greek)

Ανίχνευςθ Κοινοτιτων με Αντοχι ςτο Θόρυβο: SCAN++

• Βαςικό χαρακτθριςτικό SCAN:

– Αποφυγι ανάκεςθσ όλων των κόμβων ςε κοινότθτεσ αντιμετϊπιςθ κορφβου (ακμϊν που δεν αντιςτοιχοφν ςε πραγματικζσ ςχζςεισ)

• Περιοριςμοί SCAN:

– Ανάγκθ για προςδιοριςμό παραμζτρων μ, ε

– Μικρό ποςοςτό κάλυψθσ (υπερβολικά αυςτθρι διαλογι)

• Επεκτάςεισ SCAN++:

– Αναηιτθςθ χϊρου (μ,ε) Αυτόματθ επιλογι παραμζτρων

– Τοπικι επζκταςθ κοινοτιτων επικάλυψθ, υψθλότερθ ανάκλθςθ

#37

Page 38: PhD Defense (in Greek)

SCAN: Βαςικζσ Ζννοιεσ

• Δομικι ομοιότθτα:

• ε-γειτονιά:

• (μ,ε)-πυρινασ:

#38

(μ,ε)-πυρινασ μ = 5, ε = 0.72

(μ,ε)-πυρινασ μ = 6, ε = 0.675

hub

outlier

Page 39: PhD Defense (in Greek)

Αναηιτθςθ Παραμζτρων (μ,ε)

#39

Μεγάλοι πυρινεσ υψθλισ ποιότθτασ

Μικροί πυρινεσ υψθλισ ποιότθτασ

Μεγάλοι πυρινεσ χαμθλισ ποιότθτασ

Μικροί πυρινεσ χαμθλισ ποιότθτασ

Page 40: PhD Defense (in Greek)

Επζκταςθ Κοινοτιτων

#40

Page 41: PhD Defense (in Greek)

Παράδειγμα Εκτζλεςθσ SCAN++

#41

Εφρεςθ πυρινων για (μ1,ε1)

Εφρεςθ πυρινων για (μi,εi)

Επζκταςθ με μεγιςτοποίθςθ τμθματικότθτασ υπογράφου

Χαρακτθριςμόσ υπόλοιπων κόμβων ωσ hubs και outliers

Page 42: PhD Defense (in Greek)

Αξιολόγθςθ - Ομαδοποίθςθ Ετικετϊν

#42

• Μελζτθ κεματολογίασ

• Σφςταςθ ετικετϊν

Page 43: PhD Defense (in Greek)

Αξιολόγθςθ - Μελζτθ Θεματολογίασ

#43

Ηϊα Σαινίεσ Επιςτιμθ Μουςικι

Ιςτορία Τπολογιςτζσ

Bridge Bounding

Page 44: PhD Defense (in Greek)

Αξιολόγθςθ θμαςιολογικισ υνάφειασ

• Για αξιολόγθςθ ςε μεγάλθ κλίμακα προτείνεται θ χριςθ του Normalized Google Distance (NGD):

• Υπολογίηονται δφο κατανομζσ:

– NGD μεταξφ ετικετϊν τθσ ίδιασ κοινότθτασ (Fsame)

– NGD μεταξφ ετικετϊν διαφορετικϊν κοινοτιτων αλλά γειτονικϊν ςτο γράφο (Fdiff)

• Χριςθ Kolmogorov-Smirnov τεςτ (μίασ πλευράσ) – Μθδενικι (null) υπόκεςθ: Fsame = Fdiff

– Εναλλακτικι υπόκεςθ: Fsame < Fdiff

• Για τισ ομάδεσ που εξάχκθκαν με τισ μεκόδουσ Bridge Bounding και SCAN θ μθδενικι υπόκεςθ απορρίφκθκε.

#44

Page 45: PhD Defense (in Greek)

φςταςθ Ετικετϊν

• Χριςθ ιςτορικϊν δεδομζνων για αξιολόγθςθ

• SCAN: υψθλότερθ ακρίβεια

• SCAN++: υψθλότερθ ανάκλθςθ

#45

Page 46: PhD Defense (in Greek)

Αξιολόγθςθ - Ομαδοποίθςθ Εικόνων

υλλογι

Γράφοσ ομοιότθτασ • Ομοιότθτα με βάςθ τα οπτικά χαρακτθριςτικά

– SIFT Bag-of-Words histogram Euclidean

– SURF VocTree Geometric Verification (RANSAC)

• Ομοιότθτα με βάςθ χαρακτθριςτικά ετικετϊν – Γράφοσ με βάςθ τθ ςυνεμφάνιςθ (COOC), πολφ γριγορθ καταςκευι

– Γράφοσ με προβολι ςε χαμθλότερεσ διαςτάςεισ (LSI)

• Υβριδικόσ Γράφοσ (HYB)

• Ομαδοποίθςθ με χριςθ SCAN, SCAN+ / ςφγκριςθ με k-means

#46

Page 47: PhD Defense (in Greek)

Αξιολόγθςθ ομάδων εικόνων (1)

• HYB > VIS, TAG

• SCAN > k-means

#47

Γεωγραφικι πλθροφορία Ζρευνα χρθςτϊν

Page 48: PhD Defense (in Greek)

Αξιολόγθςθ ομάδων εικόνων (2)

#48

Page 49: PhD Defense (in Greek)

υμπεράςματα

• Προτεινόμενο πλαίςιο ομαδοποίθςθσ: – Αντοχι ςτο κόρυβο

– Εφαρμογι ςε μεγάλθ κλίμακα

– Ταυτόχρονθ αξιοποίθςθ διαφορετικϊν τφπων ομοιότθτασ

#49

k-means SCAN

Page 50: PhD Defense (in Greek)

#50

χετικζσ Δθμοςιεφςεισ

ΚΕΦΑΛΑΙΟ S. Papadopoulos, A. Vakali, Y. Kompatsiaris. “Community Detection in Collaborative

Tagging Systems”. In Book Community-built Database: Research and Development, pp. 107-131, Springer, 2011

ΤΝΕΔΡΙΑ S. Papadopoulos, Y. Kompatsiaris, A. Vakali. “A Graph-based Clustering Scheme for

Identifying Related Tags in Folksonomies”. In Proceedings of DaWaK'10, 12th International Conference on Data Warehousing and Knowledge discovery (Bilbao, Spain), Springer-Verlag, 65-76, 2010 (acceptance rate: 29%)

S. Papadopoulos, C. Zigkolis, G. Tolias, Y. Kalantidis, P. Mylonas, Y. Kompatsiaris, A. Vakali. “Image Clustering through Community Detection on Hybrid Image Similarity Graphs”. In Proceedings of ICIP 2010, International Conference on Image Processing (Hong Kong), IEEE, pp. 2353-2356, October, 2010 (acceptance rate: 45%)

WORKSHOP & ΑΝΑΦΟΡΕ

S. Papadopoulos, Y. Kompatsiaris, A. Vakali. “Leveraging Collective Intelligence through Community Detection in Tag Networks”. In Proceedings of CKCaR'09 Workshop on Collective Knowledge Capturing and Representation, California, USA, Sep. 1, 2009

S. Papadopoulos, A. Skusa, A. Vakali, Y. Kompatsiaris, N. Wagner. “Bridge Bounding: A Local Approach for Efficient Community Discovery in Complex Networks”. In arXiv:0902.0871, February 2009

Page 51: PhD Defense (in Greek)

#51

5

Εξαγωγι & Επιςκόπθςθ Πλθροφορίασ από

Κοινωνικό Περιεχόμενο

Page 52: PhD Defense (in Greek)

#52

Εξόρυξθ Γνϊςθσ από Κοινωνικό Περιεχόμενο

Πρόβλθμα • Εξόρυξθ & προβολι γνϊςθσ από μεγάλο όγκο κοινωνικοφ περιεχομζνου

Προτεινόμενο Πλαίςιο • Ανίχνευςθ θμείων Ενδιαφζροντοσ & Δραςτθριοτιτων:

– Ενιαία προςζγγιςθ

– Προςζγγιςθ προςαρμοςμζνθ ςε ανίχνευςθ δραςτθριοτιτων ςυγκεκριμζνου τφπου

• Τψθλι ακρίβεια – Νζα χαρακτθριςτικά ομάδων

– Τεχνικζσ ανκεκτικζσ ςτο κόρυβο

• υνδυαςμόσ πολλϊν τφπων πλθροφορίασ (γεωγραφικι, χρόνοσ, εξωτερικζσ πθγζσ)

• Εφαρμογι ςε Μεγάλθ Κλίμακα

• Εποπτικι Παρουςίαςθ Μεγάλων υλλογϊν Περιεχόμενου

Page 53: PhD Defense (in Greek)

Ανίχνευςθ θμείων Ενδιαφζροντοσ & Δραςτθριοτιτων

#53

Κεφάλαιο 4

Page 54: PhD Defense (in Greek)

Κατθγοριοποίθςθ Ομάδων

• Οι ομάδεσ που προκφπτουν από το βιμα ομαδοποίθςθσ εικόνων κατθγοριοποιοφνται ςε «ςθμεία ενδιαφζροντοσ» και «δραςτθριότθτεσ»

• Χριςθ 4 χαρακτθριςτικϊν:

– Χρονικι διάρκεια

– Διαςπορά χριςθσ

– Συνάφεια ςθμείου ενδιαφζροντοσ

– Συνάφεια δραςτθριότθτασ

#54

Quack et al. (2008)

Page 55: PhD Defense (in Greek)

Αρχι Λειτουργίασ f1, f2

#55

Page 56: PhD Defense (in Greek)

Προτεινόμενα Χαρακτθριςτικά f3, f4

• Τα δφο χαρακτθριςτικά του Quack (2008) οδθγοφν ςυχνά ςε ςφάλματα λόγω ιδιαιτεροτιτων των ομάδων.

• Για αφξθςθ τθσ αξιοπιςτίασ κατάταξθσ προτάκθκαν τα χαρακτθριςτικά

ςυνάφειασ με χριςθ ετικετϊν.

#56

ΔΡΑΣΘΡΙΟΣΘΣΕ ΘΜΕΙΑ ΕΝΔΙΑΦΕΡΟΝΣΟ

Page 57: PhD Defense (in Greek)

Ανίχνευςθ Δραςτθριοτιτων

#57

• Δυνατότθτα για ανίχνευςθ δραςτθριοτιτων ςυγκεκριμζνου είδουσ

• Εφαρμογι και ςε ςυλλογζσ με μικρό ποςοςτό γεωγραφικισ πλθροφορίασ

Page 58: PhD Defense (in Greek)

Επιςκόπθςθ Πλθροφορίασ & Περιεχομζνου

#58

www.clusttour.gr

Page 59: PhD Defense (in Greek)

Επιςκόπθςθ Πόλθσ - τοιχεία Διεπαφισ

#59

Page 60: PhD Defense (in Greek)

Back-end εφαρμογισ

#60

Page 61: PhD Defense (in Greek)

Πειραματικι Αξιολόγθςθ - Δεδομζνα

• Ανίχνευςθ ςθμείων ενδιαφζροντοσ/δραςτθριοτιτων

– Συλλογι 200,000 εικόνων (Βαρκελϊνθ)

• Ανίχνευςθ Δραςτθριοτιτων

– Συλλογι αναφοράσ MediaEval 2011 (75,000 εικόνεσ)

• Εποπτικι παρουςίαςθ περιεχομζνου & γνϊςθσ

– Συλλογι 2,500,000 εικόνων (35 πόλεισ)

#61

Page 62: PhD Defense (in Greek)

Αξιολόγθςθ Προτεινόμενων Χαρακτθριςτικϊν

#62

Page 63: PhD Defense (in Greek)

Αξιολόγθςθ θμείων Ενδιαφζροντοσ

#63

# θμείο Ενδιαφζροντοσ Αυτόματεσ Ετικζτεσ Ακρίβεια (m)

1 Sagrada Familia sagrada familia, sagrada, familia 15.2

2 Casa Batllo casa batllo, casa, passeig gracia 10.5

3 Casa Mila casa mila, casamila, casa milà 31.8

4 Cathedral (La Seu) barri gotic, barcelona cathedral, barri 40.5

5 Park Guell parc guell, park guell, guell 9.6

6 Barcelona Pavillon mies van der rohe, barcelona pavillon 110.3

7 La Boqueria la boqueria mercat, de sant josep 82.1

8 Arc de Triomf ciclic, bookstore, arte 56.0

9 Poble Espanyol poble espanyol, vidres, cristal 66.5

10 Santa Maria del Mar santa maria del mar, tapas, catedral 68.0

11 Macba macba, contemporary, museu 147.8

12 Barcelona Zoo zoo, patas monkey, freire 107.0

13 Marina Port Vell port vell, port, hafen 134.7

14 Camp Nou joan gamper trophy, camp nou 18.7

Page 64: PhD Defense (in Greek)

Αξιολόγθςθ Ανίχνευςθσ Δραςτθριοτιτων

#64

MediaEval 2011

Page 65: PhD Defense (in Greek)

Επιςκόπθςθ θμαντικϊν Περιοχϊν

#65

Séverin

Pompidou

Sacre Coeur

Musée du Louvre Branly

Bundestag

Potsdamer

Gendarmenmarkt

Museuminsel

Weltzeituhr

Page 66: PhD Defense (in Greek)

Ανεφρεςθ Μθ Προφανϊν θμείων

#66

Page 67: PhD Defense (in Greek)

Πολλαπλζσ Όψεισ Δθμοφιλϊν Μνθμείων

#67

Page 68: PhD Defense (in Greek)

Χρονικι Ανάλυςθ

#68

Περιοχζσ με ιδιαίτερα χρονικά χαρακτθριςτικά (π.χ. νυχτερινι ηωι)

Page 69: PhD Defense (in Greek)

φνοψθ Αποτελεςμάτων

• Εξαγωγι γνϊςθσ ςε μεγάλθ κλίμακα: – Σθμεία Ενδιαφζροντοσ

– Δραςτθριότθτεσ

– Δθμοτικότθτα Περιοχϊν, Σθμείων Ενδιαφζροντοσ

– Αξιοςθμείωτα Χρονικά Στοιχεία

– Ιεραρχικι Παρουςίαςθ και Εξερεφνθςθ

• Υψθλι ακρίβεια

• Αξιοποίθςθ πολλϊν τφπων πλθροφορίασ

Μελλοντικι Εργαςία

• Εφαρμογι ςε δυναμικό περιβάλλον

#69

Page 70: PhD Defense (in Greek)

#70

χετικζσ Δθμοςιεφςεισ

ΠΕΡΙΟΔΙΚΟ S. Papadopoulos, C. Zigkolis, Y. Kompatsiaris, A. Vakali. “Cluster-based Landmark

and Event Detection on Tagged Photo Collections”. In IEEE Multimedia 18(1), pp.

52-63, 2011 (Impact factor announced in 2009: 2.258, Special Issue acceptance rate: 25%)

ΤΝΕΔΡΙΑ S. Papadopoulos, C. Zigkolis, S. Kapiris, Y. Kompatsiaris, A. Vakali. “City exploration

by use of spatio-temporal analysis and clustering of user contributed photos” Demo paper in ICMR, Trento, Italy, April 17-20, 2011 (Best demo award)

S. Papadopoulos, C. Zigkolis, S. Kapiris, Y. Kompatsiaris, A. Vakali. “ClustTour: City exploration by use of hybrid photo clustering”. In Proceedings of MM '10, the international Conference on Multimedia, ACM, New York, NY, 1617-1620, Firenze, Italy, Oct 25-29, 2010

WORKSHOP S. Papadopoulos, C. Zigkolis, Y. Kompatsiaris, A. Vakali. “CERTH @ MediaEval 2011

SED Task” In Proceedings of MediaEval 2011 Workshop, Pisa, Italy, Sep 1-2, 2011

Page 71: PhD Defense (in Greek)

#71

6

Ανίχνευςθ Εννοιϊν με Χριςθ Τεχνικϊν

Θμι-επιβλεπόμενθσ Μάκθςθσ

Page 72: PhD Defense (in Greek)

Ανίχνευςθ Εννοιϊν ςε Περιεχόμενο

• Κλαςικό πρόβλθμα: Σθμαςιολογικό κενό – Αναντιςτοιχία μεταξφ «όψθσ» (επιφανειακά χαρακτθριςτικά) και

«νοιματοσ» (εννοιολογικοφ περιεχόμενου)

• Ευκαιρία: – Χριςθ κοινωνικοφ περιεχόμενου για βελτίωςθ απόδοςθσ

– Αξιοποίθςθ δομισ κοινοτιτων γράφων ομοιότθτασ

– Συνζνωςθ χαρακτθριςτικϊν διαφορετικοφ τφπου

• Προτεινόμενο πλαίςιο: – Θμι-επιβλεπόμενθ μάκθςθ με χριςθ «διανυςμάτων κοινοτιτων»

– Πολλαπλζσ τεχνικζσ ςυνζνωςθσ χαρακτθριςτικϊν

#72

Page 73: PhD Defense (in Greek)

Προτεινόμενο Πλαίςιο Ανάλυςθσ

#73

Κεφάλαια 3-4

Page 74: PhD Defense (in Greek)

Παράδειγμα: Φαςματικι Ανάλυςθ

#74

Σιμζσ δεφτερου ιδιοδιανφςματοσ

Page 75: PhD Defense (in Greek)

Σεχνικζσ υνζνωςθσ (1)

#75

Page 76: PhD Defense (in Greek)

Σεχνικζσ υνζνωςθσ (2)

#76

Page 77: PhD Defense (in Greek)

Πειραματικι Αξιολόγθςθ

• Φφςθ δεδομζνων ειςόδου – Είδοσ κατανομισ

– Ζνταςθ κορφβου

• Παράμετροι πλαιςίου μάκθςθσ – Μθχανιςμόσ ςχθματιςμοφ γράφου

– Διαςτάςεισ διανφςματοσ κοινοτιτων

– Τεχνικι ςυνζνωςθσ χαρακτθριςτικϊν

• Χαρακτθριςτικά του προβλιματοσ μάκθςθσ – Αρικμόσ δειγμάτων εκπαίδευςθσ

– Διαςτάςεισ διανφςματοσ χαρακτθριςτικϊν

– Αρικμόσ εννοιϊν προσ εκμάκθςθ

– Εφαρμογι ςε επαγωγικό περιβάλλον

#77

υνκετικά Δεδομζνα

Page 78: PhD Defense (in Greek)

Απόδοςθ Vs. Θόρυβοσ

#78

Page 79: PhD Defense (in Greek)

Απόδοςθ Vs. Διαςτάςεισ Κοινοτιτων

#79

Page 80: PhD Defense (in Greek)

Απόδοςθ Vs. Πρόβλθμα Μάκθςθσ

#80

Αρικμόσ εννοιϊν

Αρικμόσ χαρακτθριςτικϊν

Page 81: PhD Defense (in Greek)

Αξιολόγθςθ ςτο MIR-Flickr

• 25000 εικόνεσ + ετικζτεσ, 38 ζννοιεσ

#81

Page 82: PhD Defense (in Greek)

Προτεινόμενθ Μζκοδοσ Vs. Hare & Lewis, 2010

#82

Page 83: PhD Defense (in Greek)

Προτεινόμενθ Μζκοδοσ Vs. Guillaumin et al., 2010

#83

Page 84: PhD Defense (in Greek)

#84

7

Συμπεράςματα

Page 85: PhD Defense (in Greek)

#85

υμπεράςματα

Πλεονεκτιματα Προτεινόμενων Μεκόδων

• Κλιμακωςιμότθτα (105-106 ςτοιχεία)

• Αξιοποίθςθ πολλϊν τφπων πλθροφορίασ

• Αντοχι ςε κόρυβο

Περιοριςμοί

• Εφαρμογι ςε ςτατικζσ ςυλλογζσ δεδομζνων

• Εφαρμογι ςε ζναν πυρινα (core)

Page 86: PhD Defense (in Greek)

#86

Μελλοντικι Ζρευνα

Εφαρμογι ςε δυναμικά δεδομζνα

• Υπολογιςτικά προβλιματα (ανανζωςθ γράφου, επαυξθτικι ομαδοποίθςθ)

• Παρακολοφκθςθ μοντζλων/κατανομϊν

Μθχανικι μάκθςθ ςε κλίμακα διαδικτφου

• Αφξθςθ αρικμοφ εννοιϊν

• Αφξθςθ χαρακτθριςτικϊν

• Χριςθ κατανεμθμζνων τεχνικϊν (MapReduce)

Αφξθςθ τθσ κλίμακασ αξιολόγθςθσ

• Αξιοποίθςθ κοινότθτασ χρθςτϊν (crowdsourcing)

Οπτικοποίθςθ μαηικϊν δεδομζνων

• Διαδραςτικι εξερεφνθςθ ςυλλογϊν περιεχόμενου πολφ μεγάλθσ κλίμακασ

Page 87: PhD Defense (in Greek)

#87

Ευχαριςτίεσ

• Ακθνά Βακάλθ

• Γιάννθσ Κομπατςιάρθσ

• Όλα τα μζλθ τθσ επιτροπισ

ΤΝΕΡΓΑΙΕ

• Χριςτοσ Ηιγκόλθσ (ομαδοποίθςθ εικόνων, ανίχνευςθ ςθμείων ενδιαφζροντοσ & δραςτθριοτιτων)

• Χριςτοσ Σαγϊνασ (θμι-επιβλεπόμενθ μάκθςθ ςε γράφουσ)

• Στζφανοσ Καπίρθσ, Λάμπροσ Μακρισ (clusttour web interface)

• Πλοφταρχοσ Σπυρίδωνοσ (πειραματικι ςφγκριςθ μεκόδων ανίχνευςθσ κοινοτιτων)

• Φϊτθσ Μενεμενισ (ανίχνευςθ δθμοφιλϊν ιςτοριϊν με χριςθ χαρακτθριςτικϊν κειμζνου)

Page 88: PhD Defense (in Greek)

#88

;

Ευχαριςτϊ