Web Mining

Web MiningWeb Mining

Web MiningWeb Mining

ΣτόχοςΣτόχος: : μελέτη της εφαρμογής τεχνικών Εξόρυξης μελέτη της εφαρμογής τεχνικών Εξόρυξης Γνώσης στον Παγκόσμιο ΙστόΓνώσης στον Παγκόσμιο Ιστό

Εξόρυξη Γνώσης από το Περιεχόμενο του Εξόρυξη Γνώσης από το Περιεχόμενο του Παγκόσμιου Ιστού (Παγκόσμιου Ιστού (Web Content MiningWeb Content Mining))

Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού Εξόρυξη Γνώσης από τη Δομή του Παγκόσμιου Ιστού ((Web Structure MiningWeb Structure Mining))

Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού Εξόρυξη Γνώσης από τη Χρήση του Παγκόσμιου Ιστού ((Web Usage MiningWeb Usage Mining))

Web Mining Web Mining ΕισαγωγήΕισαγωγή Τεράστιο μέγεθοςΤεράστιο μέγεθος

2-10B 2-10B στατικές σελίδες, διπλασιαζόμενες στατικές σελίδες, διπλασιαζόμενες κάθε κάθε 8-12 8-12 μήνεςμήνες

Μέγεθος ΛεξικούΜέγεθος Λεξικού: 10: 10-100άδες εκατομμύρια λέξεις-100άδες εκατομμύρια λέξεις

http://www.netcraft.com/Survey

Web DataWeb Data

No design/co-ordinationNo design/co-ordination Distributed content creation, linking, Distributed content creation, linking,

democratization of publishingdemocratization of publishing Content includes truth, lies, obsolete Content includes truth, lies, obsolete

information, contradictions … information, contradictions … Unstructured (text, html, …), semi-Unstructured (text, html, …), semi-

structured (XML, annotated photos), structured (XML, annotated photos), structured (Databases)…structured (Databases)…

Scale much larger than previous text Scale much larger than previous text corporacorpora, , and also corporate records are and also corporate records are catching up.catching up.

Growth – slowed down from initial Growth – slowed down from initial “volume doubling every few months” “volume doubling every few months” but still expandingbut still expanding

Content can be Content can be dynamically generateddynamically generatedThe Web

Web Mining TaxonomyWeb Mining Taxonomy

Web Content MiningWeb Content Mining

Βασικό συστατικόΒασικό συστατικό των μηχανών αναζήτησηςτων μηχανών αναζήτησης ΕφαρμογέςΕφαρμογές

Ιεραρχίες εννοιών και συνώνυμαΙεραρχίες εννοιών και συνώνυμα Προφίλ χρηστώνΠροφίλ χρηστών Ανάλυση συνδέσμου μεταξύ σελίδωνΑνάλυση συνδέσμου μεταξύ σελίδων Τεχνικής περιληπτικής παρουσίασης Τεχνικής περιληπτικής παρουσίασης

πληροφορίας μέσω λέξεων κλειδιώνπληροφορίας μέσω λέξεων κλειδιών Δύο κατηγοριών (βασισμένή σε πράκτορες, Δύο κατηγοριών (βασισμένή σε πράκτορες,

βασισμένη σε συστήματα βάσεων δεδομένων)βασισμένη σε συστήματα βάσεων δεδομένων)

KeywordKeyword

Term AssociationTerm Association

Similarity SearchSimilarity Search

ClassificationClassification ClusteringClustering

Natural Language ProcessingNatural Language Processing

CrawlersCrawlers Robot (spider)Robot (spider) διαπερνά την υπερκειμενική δομή του διαπερνά την υπερκειμενική δομή του

παγκόσμιου ιστού, συλλέγοντας πληροφορίαςπαγκόσμιου ιστού, συλλέγοντας πληροφορίας

ΚλασσικόςΚλασσικός Crawler Crawler – – επισκέπτεται ολόκληρο το επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή.παγκόσμιο ιστό και αντικαθιστά δεικτοδοτητή.

ΠεριοδικόςΠεριοδικός Crawler Crawler – – επισκέπτεται τμήματα του επισκέπτεται τμήματα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του παγκόσμιου ιστού και ενημερώνει υποσύνολα του δεικτοδοτητή.δεικτοδοτητή.

ΑυξητικόςΑυξητικός Crawler Crawler – – επιλεκτικά ψάχνει το παγκόσμιο επιλεκτικά ψάχνει το παγκόσμιο ιστό και αυξητικά ενημερώνει δεικτοδοτητή.ιστό και αυξητικά ενημερώνει δεικτοδοτητή.

ΕστιασμένοςΕστιασμένος Crawler Crawler – – επισκέπτεται σελίδες σχετικές επισκέπτεται σελίδες σχετικές με ένα θεματικό αντικείμενο.με ένα θεματικό αντικείμενο.

Διαπερνώντας το διαδίκτυο (Crawling)

• ποιες σελίδες πρέπει να προσπελαστούν ;

• τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; (refresh policy)

• πως πραγματοποιείται εστιασμένη διαπέραση;

Διαπερνώντας τον Παγκόσμιο Διαπερνώντας τον Παγκόσμιο ΙστόΙστό

URLs crawledand parsed

Unseen Web

SeedPages

URL frontier

Crawling thread

Crawling - Επιλογή Σελίδων – Μετρικές Σημαντικότητας

Searching the Web

Interest Driven

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Searching the Web

Interest Driven & Ομοιότητα Κειμένων

“A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999

Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας

Popularity Driven

Location Driven

Crawling - Ανανέωση Σελίδων

• f=σταθερή

• f=F(λi)

Focused CrawlerFocused Crawler

Χρήση ιεραρχικής ταξινόμησηςΧρήση ιεραρχικής ταξινόμησης

Χρήση απλοϊκού κατηγοριοποιητή κατά Χρήση απλοϊκού κατηγοριοποιητή κατά BayesBayes

Βασική ιδέαΒασική ιδέα: o : o προκαθορισμός ορισμένων σελίδων ως σχετικές, η προκαθορισμός ορισμένων σελίδων ως σχετικές, η χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν χρήση ιεραρχίας, η κατηγοριοποίηση, η επίσκεψη σε ένα κόμβο αν υπάρχει πρόγονος που είναι καλός υπάρχει πρόγονος που είναι καλός

Context Focused CrawlerContext Focused Crawler (εστιασμένος σε (εστιασμένος σε συμφραζόμενα συμφραζόμενα crawler)crawler)

Γράφος Συμφραζομένων (Γράφος Συμφραζομένων (Context Graph):Context Graph): Δημιουργείται για κάθε γόνοΔημιουργείται για κάθε γόνο ((seed documentseed document) )

με ρίζα αυτόνμε ρίζα αυτόν Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα Κόμβοι σε κάθε επίπεδο επιδεικνύουν κείμενα

με συνδέσμους σε κείμενα του επομένου με συνδέσμους σε κείμενα του επομένου επιπέδουεπιπέδου

Ενημερώνεται κατά τη διάρκεια της Ενημερώνεται κατά τη διάρκεια της διαπέρασηςδιαπέρασης

Συγχώνευσε και δημιούργησε ένα ενιαίο Συγχώνευσε και δημιούργησε ένα ενιαίο context context graphgraph

Πραγματοποίησε τη διαπέραση χρησιμοποιώντας Πραγματοποίησε τη διαπέραση χρησιμοποιώντας τους τους classifiers classifiers και τον ενιαίο και τον ενιαίο context graphcontext graph

Μπορεί να υπάρχουν σελίδες που είναι μη Μπορεί να υπάρχουν σελίδες που είναι μη σχετικές αλλά έχουν συνδέσμους προς σχετικές σχετικές αλλά έχουν συνδέσμους προς σχετικές σελίδες.σελίδες.

Μπορεί να υπάρχουν σχετικές σελίδες, με Μπορεί να υπάρχουν σχετικές σελίδες, με χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως χρήσιμους εξερχόμενους συνδέσμους χωρίς όμως να υπάρχουν σχετικές σελίδες που δείχνουν σε να υπάρχουν σχετικές σελίδες που δείχνουν σε αυτέςαυτές

ΠροβλήματαΠροβλήματα

Context GraphContext Graph

Χρήση Χρήση tf-idf tf-idf μετρικήςμετρικής

Υπερβατική όψη Παγκόσμιου Υπερβατική όψη Παγκόσμιου Ιστού (προσέγγιση Β.Δ.)Ιστού (προσέγγιση Β.Δ.)

Πολλαπλών Επιπέδων Βάση Δεδομένων (Πολλαπλών Επιπέδων Βάση Δεδομένων (MLDB)MLDB) πάνω από τα πάνω από τα δεδομένα του παγκόσμιου ιστούδεδομένα του παγκόσμιου ιστού..

Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο Κάθε επίπεδο είναι πιο γενικευμένο (και μικρότερο) και πιο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο κεντρικοποιημένο από το κάτω από αυτό (τελευταίο επίπεδο είναι ο παγκόσμιος ιστός). παγκόσμιος ιστός).

Τα ανωτέρω επίπεδα Τα ανωτέρω επίπεδα τηςτης MLDB MLDB είναι δομημένα και μπορούν να είναι δομημένα και μπορούν να προσπελαστούν με προσπελαστούν με SQL type queries.SQL type queries.

Δεν απαιτείται η χρήση Δεν απαιτείται η χρήση spiders, spiders, υπεύθυνοι για ενημέρωση οι υπεύθυνοι για ενημέρωση οι εξυπηρετητές εξυπηρετητές

Εργαλεία μετάφρασης μετατρέπουν τα Εργαλεία μετάφρασης μετατρέπουν τα Web documents Web documents σε σε XMLXML και στη και στη συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και συνέχεια εργαλεία εξαγωγής εξάγουν την απαραίτητη πληροφορία και την τοποθετούν στο πρώτο επίπεδο της Β.Δ. την τοποθετούν στο πρώτο επίπεδο της Β.Δ.

Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο Υψηλότερα επίπεδα γίνονται λιγότερο κατανεμημένα και περισσότερο συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται συνοπτικά. Προτείνονται εργαλεία γενίκευσης και χρησιμοποιούνται ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το ιεραρχίες εννοιών (μπορούν να δημιουργηθούν χρησιμοποιώντας το Wordnet Semantic Network) – Wordnet Semantic Network) – χρήση χρήση WebML.WebML.

ΕξατομίκευσηΕξατομίκευση

Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, Η προσπέλαση σε δικτυακούς τόπους ή περιεχόμενα, ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του ρυθμίζεται για να προσαρμόζεται στις προτιμήσεις του χρήστηχρήστη..

Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της Μη αυτόματες τεχνικές εκτελούν εξατομίκευση μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της καταγραφής των προτιμήσεων των χρηστών ή μέσω της χρήσης κανόνων που χρησιμοποιούνται για την χρήσης κανόνων που χρησιμοποιούνται για την κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα κατηγοριοποίηση των ανθρώπων με βάση τα προφίλ ή τα δημογραφικά. δημογραφικά.

Το Συνεργατικό φιλτράρισμα Το Συνεργατικό φιλτράρισμα επιτυγχάνει εξατομίκευση επιτυγχάνει εξατομίκευση συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό συνιστώντας την πληροφορία που έχει λάβει υψηλό βαθμό προτίμησης από άλλους χρήστες προτίμησης από άλλους χρήστες ..

Το φιλτράρισμα με βάση το περιεχόμενοΤο φιλτράρισμα με βάση το περιεχόμενο ανακτά σελίδες ανακτά σελίδες με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των με βάση την ομοιότητα μεταξύ αυτών και των προφίλ των χρηστών.χρηστών.

Web Structure MiningWeb Structure Mining

Εξόρυξη ΔομήςΕξόρυξη Δομής ( (σύνδεσμοισύνδεσμοι, , γράφημαγράφημα) ) του παγκόσμιου ιστούτου παγκόσμιου ιστού ΤεχνικέςΤεχνικές

PageRankPageRank CLEVERCLEVER

Δημιουργία μοντέλου της οργάνωσης του Παγκόσμιου ΙστούΔημιουργία μοντέλου της οργάνωσης του Παγκόσμιου Ιστού.. Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να Μπορεί να συνδυαστεί με εξόρυξη περιεχομένου για να

ανακτήσει σημαντικές σελίδεςανακτήσει σημαντικές σελίδες..

Ranking and Link Analysis

Searching the Web

O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία !

• PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google)

• HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM).

PageRank

Searching the Web

• Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της (αριθμό υπερδεσμών εισόδου ή συνολικό αριθμό υπερδεσμών εισόδου και εξόδου)

www.upatras.gr#in_links=760

www.stanford.edu

#in_links=33600

www.upatras.gr

www.stanford.edu

PageRank

strongly connected graph

PageRank

Searching the Web

• random surfer model

PageRank

Searching the Web

• random surfer model

Λεπτομέρειες Υπολογισμού Λεπτομέρειες Υπολογισμού (1)(1) Μία αλυσίδα Μία αλυσίδα Markov Markov αποτελείται από αποτελείται από n n

καταστάσειςκαταστάσεις, , και ένακαι ένα nnnn πιθανοτικό πίνακα πιθανοτικό πίνακα μεταβάσεωνμεταβάσεων PP..

Σε κάθε βήμαΣε κάθε βήμα, , είμαστε σε μία μόνο από τις είμαστε σε μία μόνο από τις καταστάσεις.καταστάσεις.

ΓιαΓια 1 1 i,j i,j n, n, το στοιχείοτο στοιχείο PijPij μας δίνει τη μας δίνει τη πιθανότητα τοπιθανότητα το jj να βρίσκεται στην επόμενη να βρίσκεται στην επόμενη κατάστασηκατάσταση, , υποθέτοντας ότι βρισκόμαστε στην υποθέτοντας ότι βρισκόμαστε στην κατάστασηκατάσταση i. i.

ΜίαΜία Markov chain Markov chain είναι είναι εργοδική εργοδική εάνεάν Υπάρχει μονοπάτι από κάθε κατάσταση σε άλληΥπάρχει μονοπάτι από κάθε κατάσταση σε άλλη Μπορούμε να βρισκόμαστε σε κάθε κατάσταση Μπορούμε να βρισκόμαστε σε κάθε κατάσταση

κάθε στιγμή με μη μηδενική πιθανότητακάθε στιγμή με μη μηδενική πιθανότητα..

Λεπτομέρειες Υπολογισμού Λεπτομέρειες Υπολογισμού (2)(2) Για κάθεΓια κάθε εργοδικήεργοδική Markov Markov αλυσίδααλυσίδα, , υπάρχει υπάρχει

μία μία Steady-state distributionSteady-state distribution. . ΈστωΈστω a = (a a = (a11, … a, … ann) ) το το row vector row vector με τις με τις

steady-state steady-state πιθανότητεςπιθανότητες.. Εάν η τρέχουσα θέση περιγράφεται με Εάν η τρέχουσα θέση περιγράφεται με a, a, τότε τότε

η επόμενη περιγράφεται με η επόμενη περιγράφεται με aP.aP. Άρα Άρα a=aPa=aP, και συνεπώς, και συνεπώς

το το a a είναι το είναι το ( (αριστερόαριστερό) ) ιδιοδιάνυσμαιδιοδιάνυσμα τουτου P.P.

((αντιστοιχεί στο αντιστοιχεί στο ““βασικόβασικό” ” ιδιοδιάνυσμα τουιδιοδιάνυσμα του P P με τη μεγαλύτερη ιδιοτιμήμε τη μεγαλύτερη ιδιοτιμή.).)

Hypertext Induced Topic Search (HITS)

Searching the Web

• Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q.

authority hub

Q=“greek university”

Authority : www.upatras.gr www.auth.gr students.ceid.upatras.gr/~antonid

Hub: www.gunet.grUniversities Worldwide

http://geowww.uibk.ac.at/univ/world.htmlwww.cti.gr


Searching the Web

Απάντηση στο Q

RS: root set (~103)

S: focused subgraphmax{d}



Searching the Web


Searching the Web

Graph structure in the Web, Computer Networks,2000.

Andrei Broder, Ravi Kumar, et al.

Για τυχαίες σελίδεςΓια τυχαίες σελίδες p1,p2p1,p2:: Pr[Pr[p1p1 να προσπελαύνεται απόνα προσπελαύνεται από p2p2] ~ ] ~

1/41/4 Μέγιστη απόσταση μεταξύΜέγιστη απόσταση μεταξύ 2 SCC 2 SCC

κόμβωνκόμβων: >28: >28 Μέση κατευθυνόμενη απόσταση Μέση κατευθυνόμενη απόσταση

μεταξύμεταξύ 2 κόμβων2 κόμβων: ~16: ~16 Μέση μη κατευθυνόμενη Μέση μη κατευθυνόμενη

απόστασηαπόσταση: ~7: ~7

Power Laws - Power Laws - ΓενικάΓενικά

Δύο ποσότητες Δύο ποσότητες xx και και yy συνδέονται με έναν συνδέονται με έναν power power lawlaw όταν όταν

y y x-c x-c log y = -c*log x log y = -c*log x

y

x

log y

log x

Ένας γνωστός Ένας γνωστός power lawpower law

Κατανομή Κατανομή ZipfZipf y :y : συχνότητα λέξης σε κείμενο συχνότητα λέξης σε κείμενο x : o x-x : o x-οστός πιο συχνός όροςοστός πιο συχνός όρος

Power law Power law για για c=1c=1

y y 1/x 1/x

Power laws Power laws και στο και στο Web?Web? BroderBroder et. al. 1999et. al. 1999

y = #links y = #links που εισέρχονται σε σελίδα που εισέρχονται σε σελίδα ii x = #x = #σελίδων με σελίδων με y y εισερχόμενα εισερχόμενα linkslinks y y x-2.09 x-2.09

Power laws Power laws και στο και στο Web?Web? ((συνέχεια)συνέχεια)

y = #links y = #links που εξέρχονται από σελίδα που εξέρχονται από σελίδα ii x = #x = #σελίδων με σελίδων με y y εξερχόμενα εξερχόμενα linkslinks y y x-2. x-2.7272

Χρησιμότητα ΠαρατήρησηςΧρησιμότητα Παρατήρησης

Βοηθάει στην κατανόηση και Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του πρόβλεψη της εξέλιξης του WebWeb

Βοηθάει στην κατασκευή νέων Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησηςαλγορίθμων ταξινόμησης

Εκτέλεση προσομοιώσεων σε σχέση Εκτέλεση προσομοιώσεων σε σχέση με το με το WebWeb

Μοντελοποίηση του Μοντελοποίηση του WebWeb

Για τον Για τον t+1t+1 φτιάξε φτιάξε dd συνδέσμους συνδέσμους d>1d>1 Πως επιλέγεται ο ι-στος σύνδεσμος?Πως επιλέγεται ο ι-στος σύνδεσμος?

v

t+1

Πιθανότητα α μια τυχαία σελίδα

Πιθανότητα 1-α ο i-στός σύνδεσμος του v

ΓενικάΓενικά

Εφαρμογές:Εφαρμογές: σχεδιασμός σχεδιασμός web sitesweb sites υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων υποστήριξη επιχειρηματικών αποφάσεων και αποφάσεων

marketingmarketing εξατομίκευσηεξατομίκευση μελέτες χρηστικότηταςμελέτες χρηστικότητας ανάλυση της κίνησης του δικτύουανάλυση της κίνησης του δικτύου ασφάλεια ασφάλεια Προκλήσεις:Προκλήσεις: προεπεξεργασία της ακατέργαστης πληροφορίαςπροεπεξεργασία της ακατέργαστης πληροφορίας φιλτράρισμα των αποτελεσμάτων των αλγορίθμων φιλτράρισμα των αποτελεσμάτων των αλγορίθμων data data

mining mining

Ορισμός:Ορισμός:

Το Το Web Usage MiningWeb Usage Mining είναι η εφαρμογή τεχνικών είναι η εφαρμογή τεχνικών data data mining mining σε δεδομένα σε δεδομένα Web Web με σκοπό την εξαγωγή προτύπων με σκοπό την εξαγωγή προτύπων ((patternspatterns) που αφορούν τον τρόπο χρήσης του.) που αφορούν τον τρόπο χρήσης του.

Web Usage Mining Web Usage Mining ActivitiesActivities

ΠροπαρασκευήΠροπαρασκευή Web log ( Web log (σύνολο τριπλετών (σύνολο τριπλετών (uuii, p, pii, t, tii)))) ΦιιλτράρισμαΦιιλτράρισμα Απομάκρυνση μη αξιοποιήσιμηςΑπομάκρυνση μη αξιοποιήσιμης πληροφορίαςπληροφορίας Χωρισμός σε συνόδους Χωρισμός σε συνόδους (sessions)(sessions)

ΣύνοδοςΣύνοδος:: ακολουθία σελίδων που αναφέρονται από ένα χρήστηακολουθία σελίδων που αναφέρονται από ένα χρήστη κατά τη κατά τη διάρκεια μίας λογικής περιόδουδιάρκεια μίας λογικής περιόδου

Προβλήματα (χρήση Προβλήματα (χρήση cookies), cookies), δομές δεδομένων (δομές δεδομένων (tries, patricia tries)tries, patricia tries) Αναγνώριση προτύπωνΑναγνώριση προτύπων

Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους.Κατέγραψε πρότυπα που συμβαίνουν σε συνόδους. ΠρότυποΠρότυπο είναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδοείναι μία ακολουθία σελίδων που αναφέρεται σε μία σύνοδο.. Παρόμοιο με κανόνες συσχέτισηςΠαρόμοιο με κανόνες συσχέτισης

ΣυναλλαγήΣυναλλαγή: : σύνοδοςσύνοδος Itemset: Itemset: πρότυποπρότυπο ( (ήή υποσύνολουποσύνολο)) Η σειρά είναι σημαντικήΗ σειρά είναι σημαντική

Ανάλυση προτύπωνΑνάλυση προτύπων

Web Log CleansingWeb Log Cleansing

Replace source IP address with Replace source IP address with unique but non-identifying ID.unique but non-identifying ID.

Replace exact URL of pages Replace exact URL of pages referenced with unique but non-referenced with unique but non-identifying ID.identifying ID.

Delete error records and records Delete error records and records containing not page data (such as containing not page data (such as figures and code)figures and code)

SessionizingSessionizing

Divide Web log into sessions.Divide Web log into sessions. Two common techniques:Two common techniques:

Number of consecutive page Number of consecutive page references from a source IP address references from a source IP address occurring within a predefined time occurring within a predefined time interval (e.g. 25 minutes).interval (e.g. 25 minutes).

All consecutive page references from a All consecutive page references from a source IP address where the interclick source IP address where the interclick time is less than a predefined time is less than a predefined threshold.threshold.

ΔιάταξηΔιάταξη ΔιπλοΔιπλο--αναφορέςαναφορές

ΣυνεχόμενεΣυνεχόμενεςς

Μέγιστο Μέγιστο πρότυποπρότυπο

ΥποστήριξηΥποστήριξη

Κ.Σ.Κ.Σ. ΌΧΙΌΧΙ ΟΧΙΟΧΙ ΌΧΙΌΧΙ ΟΧΙΟΧΙ Freq(X)/Freq(X)/#transactions#transactions

ΕπεισόδιαΕπεισόδια ΝΑΙΝΑΙ ΌΧΙΌΧΙ ΌΧΙΌΧΙ ΌΧΙΌΧΙ Freq(X)/Freq(X)/#timewindows#timewindows

ΑκολουθιακΑκολουθιακά Πρότυπαά Πρότυπα

ΝΑΙΝΑΙ ΌΧΙΌΧΙ ΌΧΙΌΧΙ ΝΑΙΝΑΙ Freq(X)/Freq(X)/#customers#customers

Μέγιστες Μέγιστες Εμπρόσθιες Εμπρόσθιες ΑκολουθίεςΑκολουθίες

ΝΑΙΝΑΙ ΟΧΙΟΧΙ ΝΑΙΝΑΙ ΝΑΙΝΑΙ Freq(X)/Freq(X)/#forward #forward sequencessequences

Μέγιστες Μέγιστες Συχνές Συχνές ΑκολουθίεςΑκολουθίες

ΝΑΙΝΑΙ ΝΑΙΝΑΙ ΝΑΙΝΑΙ ΝΑΙΝΑΙ Freq(X)/#clicksFreq(X)/#clicks

Πηγές και Μοντελοποίηση ΔεδομένωνΠηγές και Μοντελοποίηση Δεδομένων

Λεπτομερής περιγραφή διαδικασίας Λεπτομερής περιγραφή διαδικασίας Web Usage Web Usage MiningMining

Πηγές Δεδομένων Πηγές Δεδομένων WebWeb

Συλλογή σε επίπεδο Συλλογή σε επίπεδο ServerServer Web logsWeb logs CookiesCookies Embedded IDsEmbedded IDs Packet sniffersPacket sniffers Content Server logsContent Server logs

Διάγραμμα Προσπέλασης του Διάγραμμα Προσπέλασης του WebWeb

Συλλογή σε επίπεδοΣυλλογή σε επίπεδο ClientClient Remote Agent (Java Remote Agent (Java

scripts/applets)scripts/applets) Τροποποίηση του Τροποποίηση του

browserbrowser Συλλογή σε επίπεδο Συλλογή σε επίπεδο

ProxyProxy Proxy server logsProxy server logs

Documents

Web Mining