35
ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΠΟΥΔΩΝ ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΗΜΟΣΙΕΥΣΗ ΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ ΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ ΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗ ΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗ

ηλεκτρονικη δημοσιευση

Embed Size (px)

Citation preview

Page 1: ηλεκτρονικη δημοσιευση

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΠΟΥΔΩΝ

ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗΔΗΜΟΣΙΕΥΣΗ

ΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ

ΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗ

Page 2: ηλεκτρονικη δημοσιευση

REVISITING LEXICAL SIGNATURES REVISITING LEXICAL SIGNATURES TO (RE-)DISCOVER WEB PAGESTO (RE-)DISCOVER WEB PAGES

MARTIN KLEIN AND L. NELSON MARTIN KLEIN AND L. NELSON

OLD DOMINION UNIVERSITY, DEPARTMENT OF OLD DOMINION UNIVERSITY, DEPARTMENT OF COMPUTER SCIENCECOMPUTER SCIENCE

Page 3: ηλεκτρονικη δημοσιευση

ΠΕΡΙΛΗΨΗΠΕΡΙΛΗΨΗ

Στο άρθρο παρουσιάζεται ένα πείραμα που έγινε στα πλαίσια μιας έρευνας για τις σελίδες του διαδικτύου που χάνονται

Για το πείραμα αυτό χρησιμοποιήθηκαν λεκτικές υπογραφές (Lexical Signatures) με τις οποίες πραγματοποιείται η ανακάλυψη των χαμένων ιστοσελίδων

Page 4: ηλεκτρονικη δημοσιευση

ΤΟ ΠΡΟΒΛΗΜΑ ΤΟ ΠΡΟΒΛΗΜΑ

Χαμένες ιστοσελίδες – σύνδεσμοι στο web που «σπάνε» 404 http status code “page not found”

H πληροφορία στο web χάνεται πραγματικά?

Ο ισχυρισμός είναι ότι απλά λείπει και σπάνια χάνεται ολοκληρωτικά από το web

To περιεχόμενο μετακινείται από το ένα URL στο άλλο

Page 5: ηλεκτρονικη δημοσιευση

ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ((LEXICAL SIGNATURES)LEXICAL SIGNATURES)

λεκτική υπογραφή είναι ένα μικρό σύνολο όρων που προέρχονται από ένα έγγραφο και δίνουν τη «σχετικότητα» του.

Λεκτικές υπογραφές παράγονται για δυνητικά χαμένα έγγραφα και ανατροφοδοτούνται σε αυτό που αποκαλούμε web Infrastructure για την επανεύρεση αυτών των εγγράφων.

Page 6: ηλεκτρονικη δημοσιευση

ΤΟ ΠΕΡΙΒΑΛΛΟΝWEB INFRASTRUCTURE (WI)

Web μηχανές αναζήτησης (google,Yahoo, MSN Live)

Projects έρευνας (CiteSeer, NSDL)

Αρχεία στο Web (Internet Archive, Web Base)

Page 7: ηλεκτρονικη δημοσιευση

ΠΩΣ ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΕΞΕΛΙΣΣΟΝΤΑΙ ΣΤΗΝ ΠΟΡΕΙΑ ΤΟΥ ΧΡΟΝΟΥ ΚΑΙ ΠΩΣ ΑΥΤΟΣ ΕΠΗΡΕΑΖΕΙ ΤΗΝ ΑΠΟΔΟΣΗ

ΤΟΥΣ ΣΤΗΝ ΕΠΑΝΕΥΡΕΣΗ ΙΣΤΟΣΕΛΙΔΩΝ?

Page 8: ηλεκτρονικη δημοσιευση
Page 9: ηλεκτρονικη δημοσιευση

ΜΕΡΗ ΕΡΕΥΝΑΣΜΕΡΗ ΕΡΕΥΝΑΣ

Υποβάλλονται οι λεκτικές υπογραφές στο google και ερευνάται η απόδοσή τους αναλύοντας την κατάταξη του URL

Η σύνθεση των λεκτικών υπογραφών γίνεται με διάκριση τους σε 2-10 όρους

Διεξήχθη μια ανάλυση επικάλυψης όλων των λεκτικών υπογραφών για περαιτέρω έρευνα της εξέλιξης τους στη διάρκεια του χρόνου.

Σ’ αυτή την έρευνα υποτέθηκε ότι ιστοσελίδες λείπουν και χρησιμοποιήθηκαν αντίγραφα τους από το αρχείο του διαδικτύου για την παραγωγή λεκτικών υπογραφών.

Page 10: ηλεκτρονικη δημοσιευση
Page 11: ηλεκτρονικη δημοσιευση

ΤΙ ΕΙΝΑΙ ΜΙΑ ΛΕΚΤΙΚΗ ΤΙ ΕΙΝΑΙ ΜΙΑ ΛΕΚΤΙΚΗ ΥΠΟΓΡΑΦΗ?ΥΠΟΓΡΑΦΗ?

Ο όρος εισήχθη από τους Phelps και Wilensky

Μικρό σύνολο όρων που συλλαμβάνει τη «σχετικότητα» ενός εγγράφου

Οι Phelps και Wilensky υπέθεσαν 5 όρους

Χαρακτηρίζονται ως «lightweight metadata»

Page 12: ηλεκτρονικη δημοσιευση

ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΟΠΩΣ ΠΡΟΤΕΙΝΟΝΤΑΙ ΑΠΟ ΤΟΥΣ PHELPS KAI

WILENSKY“Robust Hyperlink” κοστίζει 5 λέξεις η κάθε μία

Επισυνάπτεται η λεκτική υπογραφή στο URL:

Περιορισμοί:

1. εφαρμογές (φυλλομετρητές) χρειάζεται να τροποποιηθούν για να εκμεταλλευτούν τις λεκτικές υπογραφές

2. οι λεκτικές υπογραφές χρειάζεται να υπολογιστούν προκαταβολικά

3. δουλεύουν καλά με τα περισσότερα URLs αλλά όχι με όλα

Page 13: ηλεκτρονικη δημοσιευση
Page 14: ηλεκτρονικη δημοσιευση

ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣΥΠΟΓΡΑΦΕΣ

Τerm Frequency (TF) = «πόσο συχνά εμφανίζεται ο όρος σε ένα έγγραφο?»

Inverse Document Frequency (IDF) = «σε πόσα έγγραφα εμφανίζεται ο όρος?»

Page 15: ηλεκτρονικη δημοσιευση

ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ (2)

Park et al. ερεύνησαν την απόδοση από ποικίλους αλγόριθμους παραγωγής λεκτικών υπογραφώνΑξιολόγηση των TF – IDFΗ βαρύτητα στην TF αυξάνει την ανάκτησηΗ βαρύτητα στην IDF βελτιώνει την ακρίβειαΥπέθεσαν ότι το «5» είναι καλό νούμεροΣυνέκριναν τα αποτελέσματα μετά από 6 μήνες αλλά δεν ανέλυσαν σε βάθος τις λεκτικές υπογραφές στη διάρκεια των χρόνων.

Page 16: ηλεκτρονικη δημοσιευση

ΣΧΕΔΙΑΣΜΟΣ ΠΕΙΡΑΜΑΤΟΣΣΧΕΔΙΑΣΜΟΣ ΠΕΙΡΑΜΑΤΟΣ

Κύριο αντικείμενο πειράματος= έρευνα εξέλιξης λεκτικών υπογραφών στο χρόνο, η επικάλυψη των όρων τους και η απόδοσή τους στην ανακάλυψη του URL του πόρου. Για λόγους απλότητας λήφθησαν ως δείγμα τυχαία 300 ιστοσελίδες από το dmoz.orgΕπιλέχθηκαν μόνο URLs με κατάληξη .com,.org,.net,.edu διότι θα είχαν περισσότερα αντίγραφα στο αρχείο του διαδικτύουΑποκλείστηκαν οι μη αγγλόγλωσσες ιστοσελίδες και όλες οι ιστοσελίδες με λιγότερες από 50 λέξεις στο περιεχόμενο.

Page 17: ηλεκτρονικη δημοσιευση

ΕΞΕΛΙΞΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΗ ΕΞΕΛΙΞΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΗ ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ

ΑΝΤΙΓΡΑΦΑ ΙΣΤΟΣΕΛΙΔΩΝ ΑΠΟ ΤΟ ΑΡΧΕΙΟ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ ΑΝΤΙΓΡΑΦΑ ΙΣΤΟΣΕΛΙΔΩΝ ΑΠΟ ΤΟ ΑΡΧΕΙΟ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ (1996-2007)(1996-2007)

Page 18: ηλεκτρονικη δημοσιευση

ΕΞΕΛΙΞΗ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΕΞΕΛΙΞΗ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ-- ΠΑΡΑΔΕΙΓΜΑΤΟΥ ΧΡΟΝΟΥ-- ΠΑΡΑΔΕΙΓΜΑ

Στο πείραμα υπάρχουν αντίγραφα από ιστοσελίδες από το 1996 ως το 2007 και η επιθυμία είναι να δημιουργηθούν οι λεκτικές υπογραφές τους- υπολογίζονται οι συχνότητες όρων από όλες τις ιστοσελίδες για ένα συγκεκριμένο χρόνο.

Page 19: ηλεκτρονικη δημοσιευση

ΔΥΟ ΜΕΘΟΔΟΙ ΓΙΑ ΤΗ ΜΕΤΡΗΣΗ ΤΗΣ ΕΞΕΛΙΞΗΣ

Παράγονται λεκτικές υπογραφές από αντίγραφα των URLsΔιεξάγεται μια ανάλυση επικάλυψηςRooted= επικάλυψη μεταξύ λεκτικής υπογραφής του χρόνου της πρώτης παρατήρησης στο αρχείο του διαδικτύου και όλες οι λεκτικές υπογραφές των συνεχόμενων χρόνων των οποίων παρατηρούνται τα URLs.Sliding= επικάλυψη μεταξύ δύο λεκτικών υπογραφών συνεχόμενων χρόνων ξεκινώντας από το πρώτο έτος και τελειώνοντας με το τελευταίο.Η επικάλυψη όρων είναι ο αριθμός των όρων δύο λεκτικών υπογραφών που έχουν κοινούς π.χ. αν δύο λεκτικές υπογραφές των 10 όρων έχουν 4 όρους κοινούς η επικάλυψη τους είναι 4/10=0,4

Page 20: ηλεκτρονικη δημοσιευση

ΕΞΕΛΙΞΗ ΣΤΟ ΧΡΟΝΟ - ΕΞΕΛΙΞΗ ΣΤΟ ΧΡΟΝΟ - ROOTEDROOTED

Γενικά παρατηρείται χαμηλή βαθμολογία επικάλυψης στην Rooted

Οι αξίες είναι υψηλές τα πρώτα χρόνια μετά τη δημιουργία της LS και μετά πέφτουν

Αποδεικνύεται ότι οι LS φθείρονται μέσα σε λίγα χρόνια μετά τη δημιουργία τους

Page 21: ηλεκτρονικη δημοσιευση

ΕΞΕΛΙΞΗ ΑΝΑ ΤΟ ΧΡΟΝΟ - SLIDING

H επικάλυψη αυξάνεται στην πορεία του χρόνου

Page 22: ηλεκτρονικη δημοσιευση

ΥΠΟΒΟΛΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΟ GOOGLE

Με τις λεκτικές υπογραφές σχηματίστηκαν ερωτήματα που εισήχθησαν στο google για την ταυτοποίηση της κατάταξης των ανταποκρινόμενων URLs

Διάκριση 3 περιπτώσεων ταυτοποίησης URL:

Κατάταξη στην κορυφή

Κατάταξη μεταξύ 1 και 100

Κατάταξη μετά το 100 (θεωρείται μη ανακαλύψιμο)

Page 23: ηλεκτρονικη δημοσιευση

ΚΑΤΑΝΟΜΗ URL VS ΑΡΙΘΜΟ ΟΡΩΝ ΣΤΙΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ

2-3 και 4 όρων λεκτικές υπογραφές αποδίδουν φτωχά5-6 και 7 όρων λεκτικές υπογραφές φαίνονται καλύτερες κύρια αξία μέσης κατάταξης με 5 όρουςΟι περισσότερες κορυφαία καταταγμένες με 7 όρουςBinary pattern: είτε στην κορυφαία 10 ή μη ανακαλύψιμα 8+ όροι – μειώνεται η απόδοση

Page 24: ηλεκτρονικη δημοσιευση

ΒΑΘΜΟΛΟΓΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΛΕΚΤΙΚΗΣ ΥΠΟΓΡΑΦΗΣ

Park et al. κατηγοριοποίησαν τα επιστρεφόμενα URLs σε 4 κατηγορίες για την αξιολόγηση της απόδοσης των λεκτικών υπογραφών

Οι 4 κατηγορίες εντάχθησαν σε δύο βαθμολογίες αξιολόγησης της απόδοσης των λεκτικών υπογραφών : fair και optimistic

Page 25: ηλεκτρονικη δημοσιευση

Στο σχήμα 3 παρουσιάζονται οι μέσες αξίες για τις βαθμολογίες fair και optimistic σε όλα τα χρόνια.

Page 26: ηλεκτρονικη δημοσιευση
Page 27: ηλεκτρονικη δημοσιευση

ΣΥΜΠΕΡΑΣΜΑΤΑ

Οι λεκτικές υπογραφές φθίνουν κατά τη διάρκεια του χρόνου, οι τίτλοι λιγότεροRooted: αμέσως μετά την παραγωγήSliding: φαίνεται να σταθεροποιεί τις LS από το 2003 και μετάΟι LS δεν πρέπει να δημιουργούνται προκαταβολικά διότι το περιεχόμενο των ιστοσελίδων αλλάζει δραματικά στην πορεία του χρόνου

Page 28: ηλεκτρονικη δημοσιευση

ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ

Οι λεκτικές υπογραφές=ακριβές για να παραχθούν

Οι τίτλοι των ιστοσελίδων είναι διαθέσιμοι με χαμηλότερο κόστος

Χαμηλός βαθμός αλλαγής τίτλων στην διάρκεια του χρόνου σε σχέση με τις LS

Οι LS βασίζονται στο περιεχόμενο ολόκληρης της σελίδας, το οποίο αλλάζει πιο συχνά από το γενικό τίτλο της ιστοσελίδας..

Page 29: ηλεκτρονικη δημοσιευση

ΠΟΣΟ ΜΕΡΟΣ ΑΠΟ ΤΟ WEB EINAI ΕΥΡΕΤΗΡΙΑΣΜΕΝΟ?

Page 30: ηλεκτρονικη δημοσιευση

ΙΔΙΟ URL , ΙΔΙΟ ΠΕΡΙΕΧΟΜΕΝΟ

Page 31: ηλεκτρονικη δημοσιευση

ΙΔΙΟ URL, ΔΙΑΦΟΡΕΤΙΚΟ ΠΕΡΙΕΧΟΜΕΝΟ

Page 32: ηλεκτρονικη δημοσιευση

ΙΔΙΟ ΠΕΡΙΕΧΟΜΕΝΟ, ΔΙΑΦΟΡΕΤΙΚΟ URL

Page 33: ηλεκτρονικη δημοσιευση

ΠΑΡΟΜΟΙΟ ΠΕΡΙΕΧΟΜΕΝΟ, ΔΙΑΦΟΡΕΤΙΚΟ URL

Page 34: ηλεκτρονικη δημοσιευση

ΠΕΡΙΕΧΟΜΕΝΟ ΠΟΥ ΔΕΝ ΕΝΤΟΠΙΖΕΤΑΙ ΣΕ ΚΑΝΕΝΑ URL

Page 35: ηλεκτρονικη δημοσιευση

ΤΕΛΟΣ!!!!!!ΤΕΛΟΣ!!!!!!

ΣΑΣ ΕΥΧΑΡΙΣΤΩ!!!!ΣΑΣ ΕΥΧΑΡΙΣΤΩ!!!!