16
Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα. Γ. Ταμπουρατζής Ινστιτούτο Επεξεργασίας του Λόγου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

  • Upload
    bud

  • View
    55

  • Download
    4

Embed Size (px)

DESCRIPTION

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα. Γ. Ταμπουρατζής Ινστιτούτο Επεξεργασίας του Λόγου. ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE & SPEECH PROCESSING. Εισαγωγή. - PowerPoint PPT Presentation

Citation preview

Page 1: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα.

Γ. Ταμπουρατζής

Ινστιτούτο Επεξεργασίας του Λόγου

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 2: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Εισαγωγή Στόχος είναι η χρήση ευφυών μεθόδων στην αυτόματη

ταξινόμηση/κατηγοριοποίηση συλλογών κειμένων σύμφωνα με το ύφος έκφρασης των συγγραφέων.

Παρόμοιες μέθοδοι απαιτούνται πολύ συχνά σε εφαρμογές αναζήτησης πληροφορίας όπου οι βάσεις περιέχουν μεγάλο πλήθος κειμένων. Στις περιπτώσεις αυτές, το ύφος μπορεί να συνδυαστεί με το περιεχόμενο για να βελτιωθεί η ακρίβεια της αναζήτησης.

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 3: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Εισαγωγή (2) Ο υφολογικός χαρακτηρισμός κειμένων με

χειρωνακτικό τρόπο είναι χρονοβόρος και απαιτεί εξειδικευμένο προσωπικό.

Για την αυτοματοποίηση του χαρακτηρισμού έχουν χρησιμοποιηθεί αρκετές μέθοδοι, ως επί το πλείστον βασισμένες σε στατιστικές μεθόδους.

Πρόσφατα έχουν προταθεί μέθοδοι βασισμένες σε μοντέλα νευρωνικών δικτύων.

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 4: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Εισαγωγή (3)Στη συγκεκριμένη παρουσίαση εξετάζεται η εφαρμογή

του νευρωνικού δικτύου SOM (Self-Organising Map) στην υφολογική σύγκριση κειμένων της Ελληνικής γλώσσας.

Στο ΙΕΛ έχει πραγματοποιηθεί έρευνα στον τομέα της υφολογικής ανάλυσης τα τελευταία χρόνια στα πλαίσια ερευνητικών προγραμμάτων, με συμμετοχή των:

Σ. Μαρκαντωνάτου Ν. Χαιρετάκη Μ. Βασιλείου

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 5: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Το νευρωνικό δίκτυο SOM

Το νευρωνικό δίκτυο SOM έχει εμπνευστεί από τη δομή των βιολογικών νευρωνικών δικτύων.

Έχει μία κανονική δομή κόμβων/νευρώνων, όπου γειτονικοί κόμβοι εκπαιδεύονται με παρόμοιο τρόπο.

Έχει εφαρμοστεί σε ποικίλους τομείς, όπως αναγνώριση φωνής, εύρεση βέλτιστου μονοπατιού, αυτόνομη πλοήγηση στο χώρο.

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 6: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Χαρακτηριστικά του μοντέλου SOM Εκπαιδεύεται αυτόνομα, χωρίς την ανάγκη παροχής

πληροφορίας για την κατηγορία στην οποία ανήκει κάθε πρότυπο.

H δομή του είναι άμεσα επεκτάσιμη, επιτρέποντας τη χρήση του σε πραγματικές εφαρμογές.

Έχει τη δυνατότητα να απεικονίζει άμεσα στον χάρτη την κατάσταση στο χώρο προτύπων, διατηρώντας τις σχέσεις μεταξύ ομάδων προτύπων.

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 7: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Αρχιτεκτονική διδιάστατου SOM

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

inputs

lateralinterconnections

Relaying connections frominputs to SOM nodes

SOM network nodes

Page 8: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Eκπαίδευση δικτύου SOM (t1<t2)

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

neighbourhoodrange at t1

SOM neurons

neighbourhoodrange at t2, wheret2>t1

Page 9: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Πείραμα Ταξινόμησης

Η μέθοδος SOM χρησιμοποιείται για να διαχωρίσει ένα σώμα κειμένων βάσει των χαρακτηριστικών των συγγραφέων τους.

Συγκεκριμένα, επιλέχθηκαν πέντε μέλη της Ελληνικής Βουλής, ένα από κάθε πολιτικό κόμμα με κοινοβουλευτική εκπροσώπηση κατά την περίοδο 1996-2000.

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 10: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Δομή σωμάτων κειμένων

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Corpus I Corpus IIΚείμενα Μέγεθος

(λ έξεις)Κείμενα Μέγεθος

(λ έξεις)A 36 90,090 255 343,215B 16 73,988 48 136,344C 30 64,905 91 156,945D 21 60,071 92 141,219E 24 75,550 55 149,644Σύνολο 127 364,604 541 927,367

Page 11: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Γλωσσικές Μεταβλητές

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Πλήθος Γλωσσική ιδιότητα κατηγορίας 22 Ρηματικές μεταβλητές (διγλωσσία +

τρόπος εκφοράς λόγου) 11 Μέρη του Λόγου 24 Μακροσκοπικά δομικά χαρακτηριστικά 3 Μικροσκοπικά δομικά χαρακτηριστικά 9 Έκφραση άρνησης 17 Συχνότητα εμφάνισης συγκεκριμένων

λημμάτων

Page 12: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Ομαδοποιώντας τα αποτελέσματα του SOM

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Χρησιμοποιείται υβρίδιο (CSOM), όπου οι κόμβοι ενός χάρτη SOM ομαδοποιούνται με στατιστική μέθοδο για να καταδείξουν τις ομάδες που ενυπάρχουν στη βάση.

Aν και το βασικό SOM δίνει τα καλύτερα αποτελέσματα διαχωρισμού, το υβρίδιο CSOM εμφανίζει μία παραπλήσια ακρίβεια ενώ μία αμιγώς στατιστική μέθοδος ομαδοποίησης δίνει χαμηλότερη ακρίβεια.

Page 13: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Πειραματικά Αποτελέσματα

Η ακρίβεια κατηγοριοποίησης είναι 84% (χάρτης 4x8 κόμβων) για τα κείμενα του Corpus I.

Με χρήση υβριδικού μοντέλου, η ακρίβεια κατηγοριοποίησης είναι 80% ενώ οι απαιτήσεις επισημείωσης μειώνονται στο 35%.

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 14: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Παράδειγμα ταξινόμησης του Corpus I

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 15: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

Εφαρμογή του CSOM στο Corpus II

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Page 16: Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα

ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ 10/12/2002

INSTITUTE FOR LANGUAGE & SPEECH PROCESSING

Συμπεράσματα Εφαρμόστηκαν νευρωνικά δίκτυα στο πρόβλημα του

διαχωρισμού κειμένων της Ελληνικής γλώσσας.

Τα αποτελέσματα δείχνουν ότι τα δίκτυα ταξινομούν επιτυχώς τα κείμενα, βάσει των υφολογικών χαρακτηριστικών των συγγραφέων.

Tο υβρίδιο CSOM παράγει μία αποτελεσματική κατηγοριοποίηση για τα σώματα κειμένων με αυτοματοποιημένο τρόπο, ενώ μειώνει τις απαιτήσεις επισημείωσης των κατηγοριών.