ηλεκτρονικη δημοσιευση

Preview:

Citation preview

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΠΟΥΔΩΝ

ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗΔΗΜΟΣΙΕΥΣΗ

ΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣΚΑΘΗΓΗΤΗΣ:ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ

ΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗΕΙΣΗΓΗΤΡΙΑ:ΜΟΥΣΚΕΥΤΑΡΟΠΟΥΛΟΥ ΕΛΕΝΗ

REVISITING LEXICAL SIGNATURES REVISITING LEXICAL SIGNATURES TO (RE-)DISCOVER WEB PAGESTO (RE-)DISCOVER WEB PAGES

MARTIN KLEIN AND L. NELSON MARTIN KLEIN AND L. NELSON

OLD DOMINION UNIVERSITY, DEPARTMENT OF OLD DOMINION UNIVERSITY, DEPARTMENT OF COMPUTER SCIENCECOMPUTER SCIENCE

ΠΕΡΙΛΗΨΗΠΕΡΙΛΗΨΗ

Στο άρθρο παρουσιάζεται ένα πείραμα που έγινε στα πλαίσια μιας έρευνας για τις σελίδες του διαδικτύου που χάνονται

Για το πείραμα αυτό χρησιμοποιήθηκαν λεκτικές υπογραφές (Lexical Signatures) με τις οποίες πραγματοποιείται η ανακάλυψη των χαμένων ιστοσελίδων

ΤΟ ΠΡΟΒΛΗΜΑ ΤΟ ΠΡΟΒΛΗΜΑ

Χαμένες ιστοσελίδες – σύνδεσμοι στο web που «σπάνε» 404 http status code “page not found”

H πληροφορία στο web χάνεται πραγματικά?

Ο ισχυρισμός είναι ότι απλά λείπει και σπάνια χάνεται ολοκληρωτικά από το web

To περιεχόμενο μετακινείται από το ένα URL στο άλλο

ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ((LEXICAL SIGNATURES)LEXICAL SIGNATURES)

λεκτική υπογραφή είναι ένα μικρό σύνολο όρων που προέρχονται από ένα έγγραφο και δίνουν τη «σχετικότητα» του.

Λεκτικές υπογραφές παράγονται για δυνητικά χαμένα έγγραφα και ανατροφοδοτούνται σε αυτό που αποκαλούμε web Infrastructure για την επανεύρεση αυτών των εγγράφων.

ΤΟ ΠΕΡΙΒΑΛΛΟΝWEB INFRASTRUCTURE (WI)

Web μηχανές αναζήτησης (google,Yahoo, MSN Live)

Projects έρευνας (CiteSeer, NSDL)

Αρχεία στο Web (Internet Archive, Web Base)

ΠΩΣ ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΕΞΕΛΙΣΣΟΝΤΑΙ ΣΤΗΝ ΠΟΡΕΙΑ ΤΟΥ ΧΡΟΝΟΥ ΚΑΙ ΠΩΣ ΑΥΤΟΣ ΕΠΗΡΕΑΖΕΙ ΤΗΝ ΑΠΟΔΟΣΗ

ΤΟΥΣ ΣΤΗΝ ΕΠΑΝΕΥΡΕΣΗ ΙΣΤΟΣΕΛΙΔΩΝ?

ΜΕΡΗ ΕΡΕΥΝΑΣΜΕΡΗ ΕΡΕΥΝΑΣ

Υποβάλλονται οι λεκτικές υπογραφές στο google και ερευνάται η απόδοσή τους αναλύοντας την κατάταξη του URL

Η σύνθεση των λεκτικών υπογραφών γίνεται με διάκριση τους σε 2-10 όρους

Διεξήχθη μια ανάλυση επικάλυψης όλων των λεκτικών υπογραφών για περαιτέρω έρευνα της εξέλιξης τους στη διάρκεια του χρόνου.

Σ’ αυτή την έρευνα υποτέθηκε ότι ιστοσελίδες λείπουν και χρησιμοποιήθηκαν αντίγραφα τους από το αρχείο του διαδικτύου για την παραγωγή λεκτικών υπογραφών.

ΤΙ ΕΙΝΑΙ ΜΙΑ ΛΕΚΤΙΚΗ ΤΙ ΕΙΝΑΙ ΜΙΑ ΛΕΚΤΙΚΗ ΥΠΟΓΡΑΦΗ?ΥΠΟΓΡΑΦΗ?

Ο όρος εισήχθη από τους Phelps και Wilensky

Μικρό σύνολο όρων που συλλαμβάνει τη «σχετικότητα» ενός εγγράφου

Οι Phelps και Wilensky υπέθεσαν 5 όρους

Χαρακτηρίζονται ως «lightweight metadata»

ΟΙ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ ΟΠΩΣ ΠΡΟΤΕΙΝΟΝΤΑΙ ΑΠΟ ΤΟΥΣ PHELPS KAI

WILENSKY“Robust Hyperlink” κοστίζει 5 λέξεις η κάθε μία

Επισυνάπτεται η λεκτική υπογραφή στο URL:

Περιορισμοί:

1. εφαρμογές (φυλλομετρητές) χρειάζεται να τροποποιηθούν για να εκμεταλλευτούν τις λεκτικές υπογραφές

2. οι λεκτικές υπογραφές χρειάζεται να υπολογιστούν προκαταβολικά

3. δουλεύουν καλά με τα περισσότερα URLs αλλά όχι με όλα

ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣΥΠΟΓΡΑΦΕΣ

Τerm Frequency (TF) = «πόσο συχνά εμφανίζεται ο όρος σε ένα έγγραφο?»

Inverse Document Frequency (IDF) = «σε πόσα έγγραφα εμφανίζεται ο όρος?»

ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ (2)

Park et al. ερεύνησαν την απόδοση από ποικίλους αλγόριθμους παραγωγής λεκτικών υπογραφώνΑξιολόγηση των TF – IDFΗ βαρύτητα στην TF αυξάνει την ανάκτησηΗ βαρύτητα στην IDF βελτιώνει την ακρίβειαΥπέθεσαν ότι το «5» είναι καλό νούμεροΣυνέκριναν τα αποτελέσματα μετά από 6 μήνες αλλά δεν ανέλυσαν σε βάθος τις λεκτικές υπογραφές στη διάρκεια των χρόνων.

ΣΧΕΔΙΑΣΜΟΣ ΠΕΙΡΑΜΑΤΟΣΣΧΕΔΙΑΣΜΟΣ ΠΕΙΡΑΜΑΤΟΣ

Κύριο αντικείμενο πειράματος= έρευνα εξέλιξης λεκτικών υπογραφών στο χρόνο, η επικάλυψη των όρων τους και η απόδοσή τους στην ανακάλυψη του URL του πόρου. Για λόγους απλότητας λήφθησαν ως δείγμα τυχαία 300 ιστοσελίδες από το dmoz.orgΕπιλέχθηκαν μόνο URLs με κατάληξη .com,.org,.net,.edu διότι θα είχαν περισσότερα αντίγραφα στο αρχείο του διαδικτύουΑποκλείστηκαν οι μη αγγλόγλωσσες ιστοσελίδες και όλες οι ιστοσελίδες με λιγότερες από 50 λέξεις στο περιεχόμενο.

ΕΞΕΛΙΞΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΗ ΕΞΕΛΙΞΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΗ ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ

ΑΝΤΙΓΡΑΦΑ ΙΣΤΟΣΕΛΙΔΩΝ ΑΠΟ ΤΟ ΑΡΧΕΙΟ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ ΑΝΤΙΓΡΑΦΑ ΙΣΤΟΣΕΛΙΔΩΝ ΑΠΟ ΤΟ ΑΡΧΕΙΟ ΤΟΥ ΔΙΑΔΙΚΤΥΟΥ (1996-2007)(1996-2007)

ΕΞΕΛΙΞΗ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΕΞΕΛΙΞΗ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΟΥ ΧΡΟΝΟΥ-- ΠΑΡΑΔΕΙΓΜΑΤΟΥ ΧΡΟΝΟΥ-- ΠΑΡΑΔΕΙΓΜΑ

Στο πείραμα υπάρχουν αντίγραφα από ιστοσελίδες από το 1996 ως το 2007 και η επιθυμία είναι να δημιουργηθούν οι λεκτικές υπογραφές τους- υπολογίζονται οι συχνότητες όρων από όλες τις ιστοσελίδες για ένα συγκεκριμένο χρόνο.

ΔΥΟ ΜΕΘΟΔΟΙ ΓΙΑ ΤΗ ΜΕΤΡΗΣΗ ΤΗΣ ΕΞΕΛΙΞΗΣ

Παράγονται λεκτικές υπογραφές από αντίγραφα των URLsΔιεξάγεται μια ανάλυση επικάλυψηςRooted= επικάλυψη μεταξύ λεκτικής υπογραφής του χρόνου της πρώτης παρατήρησης στο αρχείο του διαδικτύου και όλες οι λεκτικές υπογραφές των συνεχόμενων χρόνων των οποίων παρατηρούνται τα URLs.Sliding= επικάλυψη μεταξύ δύο λεκτικών υπογραφών συνεχόμενων χρόνων ξεκινώντας από το πρώτο έτος και τελειώνοντας με το τελευταίο.Η επικάλυψη όρων είναι ο αριθμός των όρων δύο λεκτικών υπογραφών που έχουν κοινούς π.χ. αν δύο λεκτικές υπογραφές των 10 όρων έχουν 4 όρους κοινούς η επικάλυψη τους είναι 4/10=0,4

ΕΞΕΛΙΞΗ ΣΤΟ ΧΡΟΝΟ - ΕΞΕΛΙΞΗ ΣΤΟ ΧΡΟΝΟ - ROOTEDROOTED

Γενικά παρατηρείται χαμηλή βαθμολογία επικάλυψης στην Rooted

Οι αξίες είναι υψηλές τα πρώτα χρόνια μετά τη δημιουργία της LS και μετά πέφτουν

Αποδεικνύεται ότι οι LS φθείρονται μέσα σε λίγα χρόνια μετά τη δημιουργία τους

ΕΞΕΛΙΞΗ ΑΝΑ ΤΟ ΧΡΟΝΟ - SLIDING

H επικάλυψη αυξάνεται στην πορεία του χρόνου

ΥΠΟΒΟΛΗ ΛΕΚΤΙΚΩΝ ΥΠΟΓΡΑΦΩΝ ΣΤΟ GOOGLE

Με τις λεκτικές υπογραφές σχηματίστηκαν ερωτήματα που εισήχθησαν στο google για την ταυτοποίηση της κατάταξης των ανταποκρινόμενων URLs

Διάκριση 3 περιπτώσεων ταυτοποίησης URL:

Κατάταξη στην κορυφή

Κατάταξη μεταξύ 1 και 100

Κατάταξη μετά το 100 (θεωρείται μη ανακαλύψιμο)

ΚΑΤΑΝΟΜΗ URL VS ΑΡΙΘΜΟ ΟΡΩΝ ΣΤΙΣ ΛΕΚΤΙΚΕΣ ΥΠΟΓΡΑΦΕΣ

2-3 και 4 όρων λεκτικές υπογραφές αποδίδουν φτωχά5-6 και 7 όρων λεκτικές υπογραφές φαίνονται καλύτερες κύρια αξία μέσης κατάταξης με 5 όρουςΟι περισσότερες κορυφαία καταταγμένες με 7 όρουςBinary pattern: είτε στην κορυφαία 10 ή μη ανακαλύψιμα 8+ όροι – μειώνεται η απόδοση

ΒΑΘΜΟΛΟΓΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΛΕΚΤΙΚΗΣ ΥΠΟΓΡΑΦΗΣ

Park et al. κατηγοριοποίησαν τα επιστρεφόμενα URLs σε 4 κατηγορίες για την αξιολόγηση της απόδοσης των λεκτικών υπογραφών

Οι 4 κατηγορίες εντάχθησαν σε δύο βαθμολογίες αξιολόγησης της απόδοσης των λεκτικών υπογραφών : fair και optimistic

Στο σχήμα 3 παρουσιάζονται οι μέσες αξίες για τις βαθμολογίες fair και optimistic σε όλα τα χρόνια.

ΣΥΜΠΕΡΑΣΜΑΤΑ

Οι λεκτικές υπογραφές φθίνουν κατά τη διάρκεια του χρόνου, οι τίτλοι λιγότεροRooted: αμέσως μετά την παραγωγήSliding: φαίνεται να σταθεροποιεί τις LS από το 2003 και μετάΟι LS δεν πρέπει να δημιουργούνται προκαταβολικά διότι το περιεχόμενο των ιστοσελίδων αλλάζει δραματικά στην πορεία του χρόνου

ΜΕΛΛΟΝΤΙΚΗ ΕΡΓΑΣΙΑ

Οι λεκτικές υπογραφές=ακριβές για να παραχθούν

Οι τίτλοι των ιστοσελίδων είναι διαθέσιμοι με χαμηλότερο κόστος

Χαμηλός βαθμός αλλαγής τίτλων στην διάρκεια του χρόνου σε σχέση με τις LS

Οι LS βασίζονται στο περιεχόμενο ολόκληρης της σελίδας, το οποίο αλλάζει πιο συχνά από το γενικό τίτλο της ιστοσελίδας..

ΠΟΣΟ ΜΕΡΟΣ ΑΠΟ ΤΟ WEB EINAI ΕΥΡΕΤΗΡΙΑΣΜΕΝΟ?

ΙΔΙΟ URL , ΙΔΙΟ ΠΕΡΙΕΧΟΜΕΝΟ

ΙΔΙΟ URL, ΔΙΑΦΟΡΕΤΙΚΟ ΠΕΡΙΕΧΟΜΕΝΟ

ΙΔΙΟ ΠΕΡΙΕΧΟΜΕΝΟ, ΔΙΑΦΟΡΕΤΙΚΟ URL

ΠΑΡΟΜΟΙΟ ΠΕΡΙΕΧΟΜΕΝΟ, ΔΙΑΦΟΡΕΤΙΚΟ URL

ΠΕΡΙΕΧΟΜΕΝΟ ΠΟΥ ΔΕΝ ΕΝΤΟΠΙΖΕΤΑΙ ΣΕ ΚΑΝΕΝΑ URL

ΤΕΛΟΣ!!!!!!ΤΕΛΟΣ!!!!!!

ΣΑΣ ΕΥΧΑΡΙΣΤΩ!!!!ΣΑΣ ΕΥΧΑΡΙΣΤΩ!!!!

Recommended