NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Preview:

DESCRIPTION

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ : 2007 - 2008. NewsMiner ΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ. Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής Καθηγητής Νίκος Πελέκης, Διδάσκων ΠΔ 407/80 - PowerPoint PPT Presentation

Citation preview

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΜΠΣ ΠΡΟΗΓΜΕΝΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΚΗΣΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΑΤΡΙΒΗ

ΑΚΑΔΗΜΑΪΚΟ ΕΤΟΣ: 2007 - 2008

NewsMinerΣΥΛΛΟΓΗ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ

ΕΙΔΗΣΕΟΓΡΑΦΙΚΩΝ ΠΗΓΩΝ

Επιβλέπων Γιάννης Θεοδωρίδης, Αναπληρωτής ΚαθηγητήςΝίκος Πελέκης, Διδάσκων ΠΔ 407/80

Φοιτητής Διονύσης Νινιός

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΚΥΡΙΑ ΣΗΜΕΙΑ

ΚΥΡΙΑ ΣΗΜΕΙΑ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

Διαδίκτυο

ΣΚΟΠΟΣ

Πολλές χρήσεις

Τεράστιος όγκος αδόμητης πληροφορίας

Δυσκολία εύρεσης χρήσιμης πληροφορίας

Ενημέρωση Δημοφιλής χρήση Διαδικτύου

Πολλοί Διαδικτυακοί φορείς ενημέρωσης

Διαφορετικές ειδήσεις και όψεις ειδήσεων

Η ανάπτυξη ενός συστήματος

Ολοκληρωμένου

Αυτοματοποιημένου

Εύρεση άρθρων από Διαδίκτυο

Ομαδοποίηση άρθρων σε θέματα

Παρουσίαση θεμάτων - άρθρων

ΣΚΟΠΟΣ

ΚΥΡΙΑ ΣΗΜΕΙΑ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

Εύρεση δομημένης πληροφορίας [1], [2]

Κατηγοριοποίηση σελίδων [3], [4], [5]

Συγκέντρωση πολλών πηγών [6], [7]

Στοιχεία χρήστη [8], [9]

Κοινωνιολογικά δεδομένα [10], [11]

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

Διάχυση πληροφορίας σε κοινωνικά δίκτυα [12], [13], [14]

Εύρεση κοινοτήτων σε κοινωνικά δίκτυα [15], [16]

Παρουσίαση δεδομένων [17]

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

CEBIL

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

PALO

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

NEEMO

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

GOOGLE NEWS

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ

Εξαγωγή πληροφορίας από WEB σελίδες

Ερευνητικές Εργασίες

Εφαρμογή σε μεγάλο όγκο δεδομένων

Λήψη ικανοποιητικών αποτελεσμάτων

NewsMiner

Εφαρμογή σε περιορισμένο όγκο δεδομένων

Λήψη αποτελεσμάτων με μεγάλη ακρίβεια

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ

Κατηγοριοποίηση σελίδων

Ερευνητικές Εργασίες

Χρήση περιεχομένου σελίδας

Ταξινόμηση σε γενικές κατηγορίες

NewsMiner

Χρήση επεξεργασμένου περιεχομένου σελίδας

Ταξινόμηση σε βάθος

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ - ΣΥΝΟΨΗ

Cebil - PaloΊδιο στόχο με NewsMiner

Άγνωστες τεχνικές λειτουργίας

NeemoΠαρόμοιο στόχο - τεχνικές με NewsMiner

Google NewsΤαξινόμηση σε γενικές κατηγορίες

ΚΥΡΙΑ ΣΗΜΕΙΑ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΔΟΜΗ NEWSMINER

NC1

NC2

NCK

ΕΥΡΕΣΗ ΝΕΩΝ

ΑΡΘΡΩΝ

ΤΑΞΙΝΟΜΗΣΗΝΕΩΝ ΑΡΘΡΩΝ

ΒΑΣΗΑΡΘΡΩΝ

ΕΠΙΚΑΙΡΟΤΗΤΑΣ

ΑΠΟΘΗΚΗΠΑΛΑΙΩΝΑΡΘΡΩΝ

ΔΙΕΠΑΦΗ ΧΡΗΣΤΗΝEWSCHANNELS

NEWS MINER

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

Γενικά χαρακτηριστικά

Εννοιολογικός – Λογικός – Φυσικός

Σχεδιασμός

Υλοποίηση ρουτινών στη βάση δεδομένων

ΓΕΝΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ

Εκμετάλλευση RSS FEEDS

Εξαγωγή στοιχείων άρθρου

Αυτοματοποίηση

Ταχύτητα εκτέλεσης

RSS_URLS OLD_CATEGORIESCat_Urls NEWS_CATEGORIESOld-New

NC-Url

Tags

Tag_Url Tag_Title Tag_Cat

Tag_Date Tag_New

Rss_Url

Order-Nr CD Dscr CD Dscr

RSS_DATA

Data-Url

RSS_EXTRACT_DATAData-

ExtrData

AA

Rss

Dt_Insert

Dt_Update

Flg_Done

Html_Text

DescrDt_Update_html_Data

Dt_Update_Html_Text

Dt_Insert

Pubdate

AA

Flg_Done

Title

Html_Data

Link_Url

Cat-ExtrData

LOAD_ERRORS

AA

Dt

Proc_Name

AA_Proc

Descr

Err_Code

NEWS_CARRIERS

Pattern_Start

Pattern_End

Flg_Kind

Old_Pattern

New_Pattern

Tag

Flg_KindCD

Url_Name

Name

Tags

Tag_Start1

Tag_Start2

Tag_Start3

Patterns_OutTitle_Replace Tags_Out

Patterns_End

Charset

Patterns_Replace

Pattern_Old

Pattern_New

AA

RSS_URLS

CD_CARRIERRSS_URL ORDER_NRTAG_NEWTAG_DATETAG_TITLETAG_URLTAG_CATDEFAULT_CAT

PATTERNS_OUT

AACD_CARRIERPATTER_STARTPATTERN_ENDFLG_KIND

NEWS_CARRIERS

CD NAMEURL_NAMETAG_START1TAG_START2TAG_START3CHARSET

RSS_DATA

AARSSRSS_URLFLG_DONEDT_INSERTDT_UPDATE

NEWS_CATEGORIES

CD DSCR

LOAD_ERRORS

AA DTPROC_NAMEAA_PROCDESCRERR_CODE

TAGS_OUT

CD_CARRIERTAGFLG_KIND

PATTERNS_REPLACE

CD_CARRIERPATTERN_OLDPATTERN_NEW

PATTERNS_END

CD_CARRIERPATTERN_END

RSS_EXTRACT_DATA

AAAA_RSS_DATACD_CARRIERTITLELINK_URLPUBDATECATDESCRHTML_DATAHTML_TEXTFLG_DONEDT_INSERTDT_UPDATE_HTML_DATADT_UPDATE_HTML_TEXTCD_CAT

TITLE_REPLACE

CD_CARRIER OLD_PATTERNNEW_PATTERN

: Primary Key

: Foreign Key

OLD_CATEGORIES

CD DSCRCD_CAT_NEW

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

ΕΙΣΑΓΩΓΗ RSS

ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ ΑΠO

RSS

ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ

ΕΞΑΓΩΓΗ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ

ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ

Χρήση RSS Feeds

Really Simple Syndication

XML τυποποίηση

Αναπαράσταση πληροφοριών συνεχώς μεταβαλλόμενων

Βασικές πληροφορίες είδησης (URL, τίτλος, δημοσίευση κ.α.)

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

<item rdf:about="http://www.in.gr/news/article.asp?lngEntityID=1025323"> <title>Δύο κορίτσια εννέα ετών πνίγηκαν σε πισίνα κατασκήνωσης στη Λάρισα</title> <link>http://www.in.gr/news/article.asp?lngEntityID=1025323</link> <description>Σε ένα τραγικό όσο και πρωτοφανές περιστατικό, δύο 9χρονα κοριτσάκια πνίγηκαν το απόγευμα της Παρασκευής σε πισίνα ιδιωτικής κατασκήνωσης στο νομό Λάρισας, κάτω από αδιευκρίνιστες συνθήκες. Συνελήφθησαν οι ιδιοκτήτες της κατασκήνωσης και διενεργείται προανάκριση από τις Αρχές.</description> <dc:date>Fri, 19 Jun 2009 19:21:00 UTC</dc:date> <dc:source>ΑΠΕ-ΜΠΕ</dc:source> </item>

Δομή RSS Feeds

Επιλογή γενικών κατηγοριών άρθρων

ΕΛΛΑΔΑ ΟΙΚΟΝΟΜΙΑ

ΑΘΛΗΤΙΚΑ ΚΟΣΜΟΣ

ΕΠΙΣΤΗΜΗ ΠΟΛΙΤΙΣΜΟΣ

ΕΝΗΜΕΡΩΣΗ ΣΥΣΤΗΜΑΤΟΣ

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ

ΕΥΡΕΣΗ ΣΥΝΟΛΟΥ ΧΑΡΑΚΤΗΡΩΝ

ΠΡΟΒΛΗΜΑ;

ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ

ΠΕΡΙΕΧΟΜΕΝΟΥ RSS

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

OXI

NAI

NAI

OXI

NAI

OXI

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ RSS ΥΠΑΡΧΕΙ; ΤΕΛΟΣ

ΕΥΡΕΣΗ ΕΠΟΜΕΝΗΣ

ΕΙΔΗΣΗΣ ΣΕ RSS

OXI

NAI

ΕΞΑΓΩΓΗ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΠΌ RSS

ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΗΜΕΡΟΜΗΝΙΑΣ

ΠΡΟΒΛΗΜΑ;

ΕΠΕΞΕΡΓΑΣΙΑ ΤΙΤΛΟΥ

ΥΠΑΡΧΕΙ;

ΠΡΟΒΛΗΜΑ;

ΕΥΡΕΣΗ ΝΕΑΣ ΚΑΤΗΓΟΡΙΑΣ

ΠΡΟΒΛΗΜΑ;

ΕΧΕΙ ΕΙΣΑΧΘΕΙ

ΞΑΝΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΕΙΣΑΓΩΓΗ ΕΙΔΗΣΗΣ

ΠΡΟΒΛΗΜΑ;

NAI

OXI

NAI

OXI

OXI

NAI

NAI

NAI

OXI

OXI

NAI

OXI

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;

ΔΙΑΒΑΣΜΑ ΣΥΝΟΛΟΥ

ΧΑΡΑΚΤΗΡΩΝ

OXI

NAI

ΠΡΟΒΛΗΜΑ;

ΔΙΑΒΑΣΜΑ ΚΑΙ ΑΠΟΘΗΚΕΥΣΗ HTML ΑΡΘΡΟΥ

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ

ΟΛΟΚΛΗΡΩΣΗΣ

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΤΕΛΟΣ

NAI

NAI

NAI

OXI

OXI

OXI

ΕΥΡΕΣΗ ΕΠΟΜΕΝΟΥ ΑΡΘΡΟΥ ΥΠΑΡΧΕΙ;

ΑΦΑΙΡΕΣΗ ΕΙΔΙΚΩΝ ΧΑΡΑΚΤΗΡΩΝ

OXI

NAI

ΠΡΟΒΛΗΜΑ;ΕΝΗΜΕΡΩΣΗ

ΠΙΝΑΚΑ ΛΑΘΩΝ

ΕΛΕΓΧΟΣ ΕΠΙΤΥΧΟΥΣ

ΟΛΟΚΛΗΡΩΣΗΣ

ΠΡΟΒΛΗΜΑ;

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ ΛΑΘΩΝ

ΤΕΛΟΣ

NAI

NAI

OXI

OXI

ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ

ΕΥΡΕΣΗ ΑΡΧΗΣ-ΤΕΛΟΥΣ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ

ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS

ΑΦΑΙΡΕΣΗ ΜΙΣΩΝ TAGS

ΑΦΑΙΡΕΣΗ TAGS ΚΑΙ ΠΕΡΙΕΧΟΜΕΝΩΝ ΤΟΥΣ

ΑΦΑΙΡΕΣΗ ΟΛΩΝ ΤΩΝ TAGS

ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΜΕ ΒΑΣΗ PATTERNS

ΑΝΤΙΚΑΤΑΣΤΑΣΗ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΦΑΙΡΕΣΗ ΣΥΝΕΧΟΜΕΝΩΝ ΚΕΝΩΝ

ΑΦΑΙΡΕΣΗ ΚΕΝΟΥ ΣΕ ΑΡΧΗ - ΤΕΛΟΣ

ΑΦΑΙΡΕΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΤΕΛΟΣ ΑΡΘΡΟΥ

ΕΙΣΑΓΩΓΗ ΚΕΙΜΕΝΟΥ ΑΡΘΡΟΥ

ΠΡΟΒΛΗΜΑ;OXI NAI

ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

NEWS_TOPICS

AA_TOPIC Κωδικός θέματος (συστάδας)

AA_FIRST Κωδικός ενός σχετικού άρθρου

RELATIVE Πλήθος σχετικών άρθρων

NEWS_TOPICS_DTL

AA_TOPIC Κωδικός θέματος

AA_ITEM Κωδικός άρθρου

OLD_ITEMS

AA_OLD Παλαιό άρθρο

AA_NEW Σχετικό ενεργό άρθρο

ΤΑΞΙΝΟΜΗΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

ΤΕΛΟΣ

ΕΥΡΕΣΗ ΝΕΩΝ ΑΡΘΡΩΝ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΑΡΘΡΩΝ

ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ

ΕΥΡΕΣΗ ΥΠΟΛΟΙΠΩΝ

ΑΡΘΡΩΝ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΑΡΘΡΩΝ

ΕΝΗΜΕΡΩΣΗ ΤΕΛΙΚΩΝ ΠΙΝΑΚΩΝ

ΕΝΗΜΕΡΩΣΗ ΠΙΝΑΚΑ

ΕΓΓΡΑΦΩΝ

ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ

Δημιουργία διαδικασίας συνολικής ενημέρωσης

Χρήση jobs ORACLE

Ωριαία ενημέρωση συστήματος

Ημερήσια διαγραφή παλαιών άρθρων (3:00 π.μ.)

ΑΥΤΟΜΑΤΟΠΟΙΗΣΗ

ΣΚΟΠΟΣ

ΣΧΕΤΙΚΕΣ ΕΡΓΑΣΙΕΣ

ΤΟ ΣΥΣΤΗΜΑ NEWSMINER

CASE STUDY

ΣΥΜΠΕΡΑΣΜΑΤΑ - ΕΠΕΚΤΑΣΕΙΣ

ΚΥΡΙΑ ΣΗΜΕΙΑ

CASE STUDYΕπισκόπηση περιβάλλοντος εργασίας

Προετοιμασία διαδικασίας

Κατηγοριοποίηση

Συσταδοποίηση

Ένταξη σε παραγωγική λειτουργία

Ανάπτυξη Διεπαφής

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ORACLE 11G

ORACLE TEXT

ORACLE APPLICATION EXPRESS

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ORACLE 11G

Δημοφιλές εμπορικό ΣΔΒΔ

Ενσωματωμένες διαδικασίες Data Mining

Πακέτο UTL_HTTP για HTTP requests

Τύπος δεδομένων CLOB

Δυνατότητες αυτοματοποίησης διαδικασιών

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ORACLE TEXT

Αναζήτηση σε μεγάλες στατικές συλλογές εγγράφων: CONTEXT ευρετήριο

Αναζήτηση μικρότερων μεταβαλλόμενων συλλογών εγγραφών: CTX_CAT ευρετήριο

Ομαδοποίηση εγγράφων

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Ομαδοποίηση εγγράφων

Βάσει κανόνων

Με επίβλεψη (κατηγοριοποίηση)

Χωρίς επίβλεψη (συσταδοποίηση)

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Βάσει κανόνων

Δημιουργία κλάσεων και κανόνων από χρήστη

Ευρετήριο CTX_RULE σε κανόνες

Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Με επίβλεψη

Δημιουργία κλάσεων από χρήστη και κανόνων από σύστημα

Ευρετήριο CTX_RULE σε κανόνες και CONTEXT σε εκπαιδευτικό σύνολο

Κατηγοριοποίηση νέου εγγράφου με τελεστή MATCHES

Δέντρα Απόφασης και SVM

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

Χωρίς επίβλεψη

Δημιουργία κλάσεων και κανόνων από σύστημα

K-MEANS

ORACLE APPLICATION EXPRESS

Εργαλείο ανάπτυξης WEB database centric εφαρμογών

Αποθηκευμένο σε βάση δεδομένων (215 πίνακες και 200 PLS/SQL αντικείμενα)

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ΠΕΡΙΒΑΛΛΟΝ ΕΡΓΑΣΙΑΣ

ΠΡΟΕΤΟΙΜΑΣΙΑ

In.gr, Καθημερινή, Ελεύθερος Τύπος

Παραμετροποίηση συστήματος

Χρήση διαδικασίας ενημέρωσης

Δημιουργία δεδομένων εκπαίδευσης και ελέγχου (12 μέρες, 766 άρθρα ΕΛΛΑΔΑ, 315 θέματα)

ΠΡΟΕΤΟΙΜΑΣΙΑ

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

ΤΕΛΟΣ

ΕΞΑΓΩΓΗ ΝΕΩΝ ΟΡΩΝ

ΕΝΗΜΕΡΩΣΗ ΛΙΣΤΑΣ

OXI

NAIΚΟΙΝΕΣ ΛΕΞΕΙΣ;

Δημιουργία λίστας κοινών λέξεων

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ

ΤΕΛΙΚΗ;ΕΥΡΕΣΗ

ΕΠΟΜΕΝΗΣ ΗΜΕΡΟΜΗΝΙΑΣ

NAI

ΑΠΟΘΗΚΕΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ

ΔΗΜΙΟΥΡΓΙΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ

ΔΕΔΟΜΕΝΩΝ

ΕΠΟΜΕΝΗ ΤΙΜΗ ΠΑΡΑΜΕΤΡΟΥ

OXI

ΤΕΛΟΣ

ΥΠΑΡΧΕΙ;

NAI

OXI

ΔΗΜΙΟΥΡΓΙΑ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ ΜΟΝΤΕΛΟΥ

ΑΡΧΙΚΟΠΟΙΗΣΗ

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

ΔΕΝΤΡΑ ΑΠΟΦΑΣΗΣ

Επιλογή ανάμεσα σε δυο εναλλακτικές αποφάσεις

Ορατοί κανόνες

Μετασχηματίζονται σε ειδικές αναζητήσεις

Αντιστοίχηση εγγράφων με κατηγορίες

Συγκεκριμένες παράμετροι

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.THRESHOLD Ελάχιστο όριο εμπιστοσύνης κανόνων

MAX_TERMSΜέγιστος αριθμός όρων κανόνων ανά κλάση

MEMORY_SIZEΧρησιμοποιούμενη μνήμη

NT_THRESHOLDΕλάχιστο όριο αρχικής επιλογής όρων

TERM_THRESHOLDΕλάχιστο όριο τελικής επιλογής όρων

PRUNE_LEVELΕπίπεδο κλαδέματος δέντρου απόφασης

ΚΡΙΤΗΡΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΔΟΚΙΜΩΝ

Συνολικό ποσοστό επιτυχίας

Ποσοστό επιτυχίας ενεργών θεμάτων

Ποσοστό επιτυχίας νέων θεμάτων

Πολλαπλές κατηγοριοποιήσεις

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

MAX_TERMS(20-200, βήμα 10)

<=

MAX_TERMS(30-50, βήμα 1)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

NT_THRESHOLD(0.05-0.9, βήμα 0.05)

<=

TERM_THRESHOLD(10-100, βήμα 5)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

TERM_THRESHOLD(25-35, βήμα 1)

<=

THRESHOLD(5-95, βήμα 5)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

THRESHOLD(5-20, βήμα 1)

<=

PRUNE_LEVEL(5-100, βήμα 5)

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

PRUNE_LEVEL(5-80, βήμα 1)

<=

ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ

70% 55% 80% 3%

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – Δ.Α.

SUPPORT VECTOR MACHINE

Μηχανική μάθηση (στατιστική εκπαίδευση)

Αόρατοι κανόνες

Μετασχηματίζονται σε ειδικές αναζητήσεις

Αντιστοίχηση εγγράφων με κατηγορίες (πιθανότητα)

Συγκεκριμένες παράμετροι

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο

MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών

THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι

MEMORY_SIZEΧρησιμοποιούμενη μνήμη

SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

MAX_FEATURES(1.000-30.000, βήμα 1.000)

<=

Όριο πιθανότητας 30%

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

Όριο πιθανότητας 25%<=

Όριο πιθανότητας 35%

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

MAX_DOCTERMS100

<=

MAX_DOCTERMS120

=>

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

ΑΛΟΓΡΙΘΜΟΣ ΣΥΝΟΛΟ ΕΝΕΡΓΑ ΝΕΑ ΠΟΛΛΑΠΛΕΣ

DECISION TREE

70% 55% 80% 3%

SVM 75% 65% 81.5% 9%

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ – SVM

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

K – MEANS

Μέτρηση απόστασης μεταξύ σημείων

Ιεραρχική συσταδοποίηση

Εύρεση κλάσεων και εγγράφων (ποσοστό)

Συγκεκριμένες παράμετροι

MAX_DOCTERMSΜέγιστος αριθμός όρων ανά κείμενο

MAX_FEATURESΜέγιστος συνολικός αριθμός διακριτών χαρακτηριστικών

THEME_ON – TOKEN_ON – STEM_ONΓλωσσολογικές παράμετροι

MEMORY_SIZEΧρησιμοποιούμενη μνήμη

SECTION_WEIGHTΒάρη σε τμήματα του εγγράφου (HTML, XML)

CLUSTER_NUM

Πλήθος τελικών συστάδων

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

MAX_FEATURES(1.000 – 30.000, βήμα 1.000)

<=

MAX_FEATURES(100 – 2.000, βήμα 100)

=>

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

MAX_DOCTERMS 40<=

MAX_DOCTERMS 60 =>

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

MAX_DOCTERMS 70<=

MAX_FEATURES(1 – 100, βήμα 5)

=>

ΣΥΣΤΑΔΟΠΟΙΗΣΗ

ΕΝΤΑΞΗ ΣΕ ΠΑΡΑΓΩΓΗ

Επιλογή μοντέλων

SVM (MAX_FEATURES = 1000, MAX_DOCTERMS = 100)

K – MEANS (CLUSTER_NUM = 20, MAX_DOCTERMS = 70

MAX_FEATURES = 80)

Ενημέρωση διαδικασιών συστήματος

ΔΙΕΠΑΦΗ

ΔΙΕΠΑΦΗ

ΔΙΕΠΑΦΗ

ΔΙΕΠΑΦΗ

ΔΙΕΠΑΦΗ

ΣΥΜΠΕΡΑΣΜΑΤΑΕξόρυξη γνώσης από WEB Δύσκολη και χρονοβόρα διαδικασία

Προετοιμασία δεδομένων

Ταξινόμηση δεδομένων

Αξιολόγηση συστήματος

Διαδικασία ενημέρωσης: Εξαιρετικά

Ταξινόμηση άρθρων: Ικανοποιητικά

ΣΥΜΠΕΡΑΣΜΑΤΑΔυσκολίες σε ταξινόμηση άρθρων Αδόμητη πληροφορία

Γλωσσολογικές δυσκολίες

Ταξινόμηση σε βάθος

Μικρός αριθμός άρθρων ανά κατηγορία

Μεταβαλλόμενα δεδομένα και κατηγορίες

Χρήση λεξικού συνωνύμων

Δημιουργία stemmer βάσει κανόνων

Εμπλουτισμός λίστας κοινών λέξεων

Περιεκτικότερη αναπαράσταση άρθρων

Χρήση του τίτλου της είδησης

Περαιτέρω δοκιμές σε αλγόριθμους

ΕΠΕΚΤΑΣΕΙΣ

ΑΝΑΦΟΡΕΣ[1] Davi de Castro Reis, Paulo B. Golgher, Altigran S. da Silva, Alberto H.

F. Laender: Automatic Web News Extraction Using Tree Edit Distance. International Conference on World Wide Web, (2004)

[2] Cai-Nicolas Ziegler, Michal Skubacz: Content Extraction from News Pages Using Particle Swarm Optimization on Linguistic and Structural Features. IEEE / WIC / ACM International Conference on Web Intelligence, (2007)

[3] Smriti Bhagat, Irina Rozenbaum, Graham Cormode: Applying Link-based Classification to Label Blogs. WEBKDD International Conference, (2007)

[4] Eric Glover, Kostas Tsioutsiouliklis, Steve Lawrence, David Pennock, Gary Flake: Using Web Structure for Classifying and Describing Web Pages. International Conference on World Wide Web, (2002)

[5] Beibei Li, Beibei Li, Jun Zhang: Enhancing Clustering Blog Documents by Utilizing Author / Reader Comments. ACMSE International Conference (2007)

ΑΝΑΦΟΡΕΣ[6] Ismail Sengor Altingovde, Rifat Ozcan, Suleyman Cetintas, Hakan

Yilmaz, Özgür Ulusoy: An Automatic Approach to Construct Domain-Specific Web Portals. CIKM International Conference, (2007)

[7] Benjamin E. Teitler, Michael D. Lieberman, Daniele Panozzo, Jagan Sankaranarayanan, Hanan Samet, Jon Sperling: NewsStand: A New View on News. ACM GIS International Conference, (2008)

[8] Riddhiman Ghosh, Mohamed Dekhil: Discovering User Profiles. International Conference on World Wide Web, (2009)

[9] Evgeniy Gabrilovich, Susan Dumais, Eric Horvitz: Newsjunkie: Providing Personalized Newsfeeds via Analysis of Information Novelty. International Conference on World Wide Web, (2004)

[10] Matthew S. Smith: Social Capital in Online Communities. PIKM International Workshop, (2008)

[11] Xin Li, Lei Guo, Yihong (Eric) Zhao: Tag-based Social Interest Discovery. International Conference on World Wide Web, (2008)

ΑΝΑΦΟΡΕΣ[12] Lei Zhang, Wanqing Tu: Six Degrees of Separation in Online Society.

WebSci International Conference, (2009)

[13] S. Navlakha, R. Rastogi, and N. Shrivastava: Graph summarization with bounded error. ACM SIGMOD International Conference, (2008)

[14] Masahiro Kimura, Hiroshi Motoda: Blocking Links to Minimize Contamination Spread in a Social Network. ACM Transactions on Knowledge Discovery from Data: Vol. 3, (2009)

[15] J.M. Kleinberg: Authoritative sources in a hyperlinked environment. ACM: Vol. 46.

[16] M. Toyoda, M. Kitsuregawa: Extracting evolution of web communities from a series of web archives. ACM Conference on Hypertext and Hypermedia, (2003)

[17] Marc Smith, Vladimir Barash: Social SQL: Tools for exploring social databases. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, (2008)

NEWS MINER

ΕΡΩΤΗΣΕΙΣ ;

Recommended