31
Γλωσσική Τεχνολογία Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση Σοφία Στάμου Άκ.Έτος 2009-10

Γλωσσική Τεχνολογία

  • Upload
    zorina

  • View
    27

  • Download
    0

Embed Size (px)

DESCRIPTION

Γλωσσική Τεχνολογία. Μάθημα 3 ο Επεξεργασία Κειμένου και Δεικτοδότηση. Σοφία Στάμου Άκ.Έτος 200 9 - 1 0. Τι είναι το ευρετήριο;. Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο Τύποι οργάνωσης Αλφαβητική (Α-Ω) - PowerPoint PPT Presentation

Citation preview

Page 1: Γλωσσική Τεχνολογία

Γλωσσική Τεχνολογία

Μάθημα 3ο Επεξεργασία Κειμένου και Δεικτοδότηση

Σοφία ΣτάμουΆκ.Έτος 2009-10

Page 2: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 2

Τι είναι το ευρετήριο;

Συστηματική οργάνωση δεδομένων με στόχο τη διευκόλυνση των χρηστών για τον εντοπισμό πληροφορίας σε ένα κείμενο

Τύποι οργάνωσης Αλφαβητική (Α-Ω) Δευτερευόντων όρων (υπο-καταχωρήσεων) Διαφόρων όρων (πολλαπλές καταχωρήσεις) Ετερο-αναφορών

Page 3: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 3

Κανόνες ευρετηρίασης

Δεικτοδοτούμε όρους που πιθανώς θα επιλέξουν οι χρήστες για να διατυπώσουν ερωτήματα

Επιλέγουμε και τροποποιούμε (όπου χρειάζεται) τους όρους βάσει των αναγκών του χρήστη

Συνέπεια στη μεθοδολογία επιλογής, απόδοσης και οργάνωσης θεματικών όρων

Page 4: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 4

Δημιουργώντας το ευρετήριο

Αρχείο Ευρετηρίου

Αρχείο κειμένων

Page 5: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 5

Αξιολόγηση της Ανάκτησης

Ακρίβεια Ποσοστό σχετικών κειμένων στα ανακτηθέντα Ακρίβεια(P) = |σχετικά ανακτηθέντα| ÷ |ανακτηθέντα|

= P( σχετικά| ανακτηθέντα ) Ανάκληση

Ποσοστό σχετικών ανακτηθέντων στο σύνολο σχετικών

Ανάκληση(R) = |σχετικά ανακτηθέντα| ÷ |σχετικά| = R( ανακτηθέντα| σχετικά )

F1 Μετρική F1 = 2PR / (P+R) … αρμονική μέση τιμή ανάκλησης

και ακρίβειας

Page 6: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 6

Λόγος Ακρίβειας/Ανάκλησης

Κείμενα

RP RaΑνακτηθέντα σχετικά!

Recall 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0

Precis. 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44 0.5

Σχετικά κείμενα

Μέση Ακρίβεια = 0.62(1 + .67 + .5 + .44 + .5) / 5

Ακρ

ίβει

α

Ανάκληση

Page 7: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 7

Θεματικά Ευρετήρια

Για κάθε θεματική κατηγορία δημιουργείται μια λίστα όλων των όρων που την περιγράφουν

Μουσική

Θέατρο

Τέχνη

1 2 3 5 8 13 21 34

2 4 8 16 32 64128

13 16

Αναγνωριστικά κειμένων

Page 8: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 8

Πολλαπλά ευρετήρια

Αν για κάθε θεματική κατηγορία έχουμε ξεχωριστό ευρετήριο μπορούν να συγχωνευθούν για τη σύνθεση του τελικού ευρετηρίου

Θεματικά Ευρετήρια

Κεντρικό ευρετήριο

αναζητήσεων

Page 9: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 9

Αναζήτηση κειμένων

Λεξικό

Μουσική – 0Τέχνη – 1Πιάνο – 2

Ευρετήριο

0 -> 0, 11 -> 0, 22 -> 1

Ερώτημα αναζήτησης: “Η τέχνη της Μουσικής”

IDs λέξεων : 0, 1

Τομή των IDs κειμένων που βρίσκονται και στις 2 λίστες (boolean AND):

0 (Μουσική) 1 (Τέχνη) Αποτέλεσμα

0 0 Βρέθηκε!

1 n/a Δεν Βρέθηκε!

n/a 2 Δεν Βρέθηκε!

Page 10: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 10

Είδη Ευρετηρίων

Θεματικά

Συγγραφέων

Ονομάτων

Γεωγραφικά

Τίτλων

Αριθμών και κωδικών

Page 11: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 11

Ευρετήρια ΤίτλωνKWIC (KeyWord-in-Context) Κάθε σημαντικός όρος καταχωρίζεται στο ευρετήριο

και εμφανίζεται στο μέσο του τίτλου και όχι αριστερά. Π.χ.

Descent of Man

The Ascent of Man

The Old Man and The Sea

A Portrait of the Artist As a Young :

a portrait of the ARTIST as a young man

the ASCENT of man

DESCENT of man

descent of MAN

the ascent of MAN

the old MAN and the sea

Page 12: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 12

Ευρετήρια Τίτλων KWOC (KeyWord-out-of-Context)

Κάθε σημαντική λέξη αποσπάται από τον τίτλο και τοποθετείται με αλφαβητική σειρά στο αριστερό τμήμα της σελίδας και ακολουθείται από τις υπόλοιπες λέξεις του τίτλου:

Library A modern outline of library classificationLibrary Introduction to library classificationLibrary Library educationLibrary Public library administrationLibrary National Library of Canada

Page 13: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 13

KWIC vs. KWOC

Απαλοιφή τερματικών όρων

Το επίπεδο εξειδίκευσης των όρων ευρετηρίασης εξαρτάται από τις επιλογές του ειδικού

Το επίπεδο εξαντλητικότητας των όρων ευρετηρίασης εξαρτάται από το πόσο λεπτομερείς είναι οι τίτλοι

Η Ευρετηρίαση τίτλων σήμερα είναι λιγότερο αποτελεσματική από κάθε άλλη φορά λόγω λεξιλογικών

δυσκολιών εδικά στις Κοινωνικές Επιστήμες

Page 14: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 14

Λέξεις - Κλειδιά

Πλεονεκτήματα

Παρέχουν πρόσβαση στις λέξεις που χρησιμοποιούνται στα ευρετήρια συλλογών

Μειονεκτήματα

Δεν μπορούν να αντισταθμίσουν την πολυπλοκότητα των φυσικών γλωσσών

Δεν μπορούν να υποκαταστήσουν πλήρως το περιεχόμενο

Η αναζήτηση με λέξεις-κλειδιά διευκολύνεται όταν η ευρετηρίαση είναι ελεγχόμενου λεξιλογίου

Page 15: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 15

Επιλέγοντας τις λέξεις-κλειδιά

Βήματα επεξεργασίας κειμένου:

1. Αναγνώριση προτάσεων και λέξεων

2. Μορφοσυντακτική ανάλυση

3. Απαλοιφή τερματικών όρων

4. Μετρική βαθμολόγησης σπουδαιότητας

5. Επιλογή σημαντικών όρων

Page 16: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 16

Μορφοσυντακτική ανάλυση

Κρυφά Μοντέλα Markov

Νευρωνικά Δίκτυα

Μετασχηματιστικοί Κανόνες

Δέντρα Απόφασης

Μοντέλα Μέγιστης Εντροπίας

Page 17: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 17

Μορφοσυντακτική ανάλυση

Σε ποιο μέρος του λόγου (Part-of-Speech) ανήκει κάθε λέξη του κειμένου

thekoalaputthekeysonthetable

ΛέξειςΕτικέτες

NVPDET

Πώς θα βρούμε την POS ετικέτα;

Page 18: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 18

Μορφοσυντακτική ανάλυση

λέξεις, σημεία στίξης,αριθμοί, κτλ.

λέξεις με ασάφεια

μορφοσυντακτική πληροφορία

αναγνωριστής

συμβόλων και

προτάσεων

ASCII κείμενο

άγνωστεςλέξεις

αποσαφηνισμένημορφοσυντακτικήπληροφορία

μορφολογικό

λεξικόαποσαφηνιστής

συμφρα-ζόμενα

mark-up

φορμαλισμός

(XML)

ακολουθία συμβόλων και προτάσεων

κείμενο μεμορφοσυντακτικό

σχολιασμό

λέξεις

Page 19: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 19

Πού θα βρούμε τις ετικέτες;

Page 20: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 20

Μετασχηματιστικοί Κανόνες

1. Μορφοσυντακτική ετικέτα μεγαλύτερης συχνότητας (άγνωστες λέξεις = ουσιαστικό)

Charniak: 90% σωστές επιλογές ως εδώ!

2. Χρήση μετασχηματιστικών κανόνων

3. Διόρθωση ετικετών που είναι ασύμβατες με τα συμφραζόμενα

Page 21: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 21

Μηχανική Μάθηση ΚανόνωνΣώμα

Κειμένων

Σχολιασμένο Σώμα Κειμένων

(με λάθη)

Σχολιασμένο Σώμα Κειμένων

χωρίς λάθη

Κανόνες

Αρχικός Μορφοσυντακτικός

Σχολιασμός

Εκπαίδευση

Page 22: Γλωσσική Τεχνολογία

Μηχανική Μάθηση Κανόνων

Είσοδος: Σώμα κειμένων C1 χωρίς ετικέττες (tags) Ακριβές αντίγραφό του C2, μορφοσυντακτικά

σχολιασμένο από ειδικούς. Πρότυπα κανόνων

Βήμα 1: Ανάθεση ετικεττών χρησιμοποιώντας τον αρχικό tagger Παραγωγή του C1a.

Βήμα 2: Σύγκριση του σώματος C1a με το ιδανικό C2. Καθορισμός της λίστας των λανθασμένων επιλογών. Από τη λίστα των λαθών, κατασκευάζονται με χρήση

προτύπων κανόνων όλοι οι πιθανοί κανόνες που μπορούν να εφαρμοστούν.

21/04/23 Γλωσσική Τεχνολογία 22

Page 23: Γλωσσική Τεχνολογία

Μηχανική Μάθηση Κανόνων

Βήμα 3: Εφαρμογή των κανόνων και ανάθεση ενός σκορ

σε κάθε κανόνα. Σκορ = #σωστών αλλαγών - #λανθασμένων αλλαγών Επιλογή κανόνα με το καλύτερο σκορ

Βήμα 4: Ανανέωση του C1a με εφαρμογή του επιλεγμένου κανόνα.

Βήμα 5: Τερματισμός αν η βελτίωση είναι μικρότερη από

ένα κατώφλι Αλλιώς: επανάληψη από το βήμα 2

Έξοδος: Διατεταγμένο σύνολο κανόνων.

21/04/23 Γλωσσική Τεχνολογία 23

Page 24: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 24

Μετασχηματιστικοί ΚανόνεςΑΛΛΑΞΕ την ετικέτα της τρέχουσας λέξης ΑΠΟ a ΣΕ b ΑΝ:

1. Η προηγούμενη/επόμενη λέξη έχει την ετικέτα t

2. Η προ-προηγούμενη/μεθεπόμενη λέξη έχει την ετικέτα t

3. Μία από τις δύο προηγούμενες/επόμενες λέξεις έχει την ετικέτα t

4. Μία από τις τρεις προηγούμενες/επόμενες λέξεις έχει την ετικέτα t

5. Η προηγούμενη λέξη έχει την ετικέτα t1 και η επόμενη την ετικέτα t2

6. Η προηγούμενη/επόμενη λέξη έχει την ετικέτα t1 και η προ-προηγούμενη την ετικέτα t2

7. Η προηγούμενη/επόμενη λέξη είναι η w

8. Η προ-προηγούμενη/μεθεπόμενη λέξη είναι η w

9. Μία από τις δύο προηγούμενες/επόμενες λέξεις είναι η w

10. Η τρέχουσα λέξη είναι η w1 και η προηγούμενη/επόμενη λέξη είναι η w2

11. Η τρέχουσα λέξη είναι η w και η προηγούμενη/επόμενη λέξη έχει την ετικέτα t

12. Η τρέχουσα λέξη είναι η w

13. Η προηγούμενη/επόμενη λέξη είναι η w και η προηγούμενη/επόμενη λέξη έχει την ετικέτα t

14. Η τρέχουσα λέξη είναι η w1, η προηγούμενη/επόμενη λέξη είναι η w2 και η προηγούμενη/επόμενη λέξη έχει την ετικέτα t

Page 25: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 25

Ο Βάκης αισθάνθηκε το αίμα να χτυπάει με ορμή στις φλέβες του, μυρμηγκιάζοντας στις κλειδώσεις.

Ο/ [ο:Άρθ(ΑρσΕνιΟνο)] Βάκης/ [Βακης:Ουσ(ΑρσΕνιΟνο)] αισθάνθηκε/ [αισθάνομαι:Ρήμ(ΠαθΑορΟριΕνιΓ’)] το/ [ο:Άρθ(ΟυδΕνιΑιτ)] αίμα/ [αίμα:Ουσ(ΟυδΕνιΑιτ)] να/ [να:Μορ] χτυπάει/ [χτυπώ:Ρήμ(ΕνρΕνεΥποΕνιΓ’)] με/ [με:Προ] ορμή/ [ορμή:Ουσ(ΘηλΕνιΑιτ)] στις/ [στον:ΠροΆρθ(ΘηλΠληΑιτ)] φλέβες/ [φλέβα:Ουσ(ΘηλΠληΑιτ)] του/ [μου:ΚτΑντ(Γ'ΑρσΕνιΓεν)] ,/ Κόμμα μυρμηγκιάζοντας/ [μυρμηγκιάζω:Μετ(ΕνρΕνε)] στις/ [στον:ΕμΆρθ(ΘηλΠληΑιτ)] κλειδώσεις/ [κλείδωση:Ουσ(ΘηλΠληΑιτ)] ./ Τελεία

Μορφοσυντακτική Ανάλυση

Page 26: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 26

Ένα ταξίδι στα σχολειά της Ελλάδας ξεκινούν οι Γιατροί Χωρίς Σύνορα έχοντας ως πλοηγό το καινούργιο εκπαιδευτικό τους πρόγραμμα.

Ένα/ [ένας:Άρθ(ΟυδΕνιΑιτ)] ταξίδι/ [ταξίδι:Ουσ(ΟυδΕνιΑιτ)] στα/ [ο:ΠροΆρθ(ΟυδΠληΑιτ)] σχολειά/ [σχολείο:Ουσ(ΟυδΠληΑιτ)] της/ [ο:Άρθ(ΘηλΕνιΓεν)] Ελλάδας/ [Ελλάδα:Ουσ(ΘηλΕνιΓεν)] ξεκινούν/ [ξεκινώ:Ρήμ(ΕνεΕνσΟριΠληΓ’)] οι/ [ο:Άρθ(ΑρσΠληΟνο)] Γιατροί/ [γιατρός:Ουσ(ΑρσΠληΟνο)] Χωρίς/ [χωρίς:Προ] Σύνορα/ [σύνορο:Ουσ(ΟυδΠληΑιτ)] έχοντας/ [έχω:Μτχ(ΕνεΕνσ)] ως/ [ως:Μόρ] πλοηγό/ [πλοηγός:Ουσ(ΑρσΕνιΑιτ)] το/ [ο:Άρθ(ΟυδΕνιΑιτ)] καινούργιο/ [καινούργιος:Επθ(ΟυδΕνιΑιτ)] εκπαιδευτικό/ [εκπαιδευτικός:Επθ(ΟυδΕνιΕιτ)] τους/ [μου:ΚτΑντ(Γ’ΑρσΠληΑιτ)] πρόγραμμα/ [πρόγραμμα:Ουσ(ΟυδΕνιΑιτ)] . / Τελεία

ταξίδι σχολείο Ελλάδα ξεκινώ γιατρός σύνορο πλοηγός καινούργιος εκπαιδευτικός πρόγραμμα

Μορφοσυντακτική Ανάλυση

Επιλογή λεξημάτων (αποκλεισμός άρθρων, αντωνυμιών, μορίων κτλ.)

Page 27: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 27

Επιλέγοντας λέξεις κλειδιά

Frequency/Informativity frequency informativity Max. Min.

1 2 3 … Rank

Page 28: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 28

tf*idf Βαθμολόγηση

tf = term frequency Συχνότητα όρου σε ένα κείμενο.

df = document frequency Πόσα κείμενα περιέχουν τον όρο; Κατανομή του όρου

idf = inverse document frequency Η άνιση κατανομή του όρου στο κείμενο Πόσο συγκεκριμένος είναι ο όρος για το κείμενο

Όσο πιο ομοιόμορφη είναι η κατανομή του όρου στη συλλογή τόσο λιγότερο συγκεκριμένος είναι για ένα κείμενο

weight(t,D) = tf(t,D) * idf(t)

Page 29: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 29

Ευρετηρίαση

#1: The brown cat purred.

#3: Tommy likes cats.

#2: Cats like brown chairs.

Brown

Cat

Like

Chair

Purr

Tommy

1, 3

1, 2, 3

2

2, 3

1

3

Index Search

Page 30: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 30

Στο επόμενο μάθημα....

Ποια είδη ευρετηρίων υπάρχουν;

Αξιολόγηση πληρότητας και ποιότητας ευρετηρίου

Page 31: Γλωσσική Τεχνολογία

21/04/23 Γλωσσική Τεχνολογία 31

.....

http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html