Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας

Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής

Ομοιότητας

Κώστας Κολομβάτσος

Επιβλέπων:

Ευστάθιος Χατζηευθυμιάδης

ΚΙΝΗΤΡΟ

Η ανάγκη για ταίριασμα οντοτήτων που υπάρχει σε πολλούς τομείς της πληροφορικής όπως Information Retrieval, Computational Biology, Musicology, Text Editing, Meteorology, Signal Processing, etc.

Η κατασκευή ενός εργαλείου σύγκρισης στοιχείων που να βασίζεται σε συνδυασμό λεξικογραφικής και σημασιολογικής ομοιότητας.

Η έλλειψη εργαλείου που να χρησιμοποιεί αρκετούς αλγορίθμους ώστε να αλληλοκαλύπτονται τα μειονεκτήματά τους.

ΣΥΣΧΕΤΙΣΗ ΔΕΔΟΜΕΝΩΝ

Σκοπός η εξαγωγή αριθμητικής τιμής ομοιότητας.

Για κάθε στοιχείο των εξεταζόμενων οντοτήτων θα πρέπει να ισχύει:

L(s,t) [0..1], όπου L η διαδικασία εξαγωγής ομοιότητας.

Χρήση λεξικογραφικής και σημασιολογικής ομοιότητας.

ΛΕΞΙΚΟΓΡΑΦΙΚΗ ΟΜΟΙΟΤΗΤΑ (1/4)

Αποσκοπεί στην εξαγωγή αριθμητικής τιμής η οποία να υποδηλώνει είτε την θέση εμφάνισης μιας συμβολοσειράς μέσα σε μια άλλη (ή σε ένα κείμενο) είτε τον βαθμό ομοιότητας των δύο οντοτήτων.

Η αριθμητικές τιμές ομοιότητας εξαρτώνται από τον αλγόριθμο που χρησιμοποιείται (δεν βρίσκονται αποκλειστικά στο διάστημα [0..1]).

1ο ΜΕΡΟΣ


Exact vs Approximate

Exact Matching: Η εύρεση όλων των θέσεων στις οποίες μια συμβολοσειρά εμφανίζεται μέσα σε μια άλλη.

π.χ. s = A B C A A B t = A B A B C A A B C A A B C A A B A A Απάντηση: {3, 7, 11, …} Approximate Matching: Εξαγωγή αριθμητικής τιμής η οποία

προσδιορίζει το ‘πόσο μοιάζουν’ οι συγκρινόμενες οντότητες. Κύριος εκπρόσωπος της κατηγορίας είναι η απόσταση των συμβολοσειρών.

π.χ. s=ABCABC t=ABBAAC Απόσταση Hamming: 2


‘Smart’ vs Naive Methods

Smart Methods: Χρησιμοποιούν μετρικές οι οποίες βασίζονται σε κάποια μορφολογικά ή ‘φωνητικά’ χαρακτηριστικά των συγκρινόμενων συμβολοσειρών.

π.χ. Soundex Algorithm

Naive Methods: Συγκρίνουν απλά τους χαρακτήρες των συμβολοσειρών.

π.χ. Edit distance Algorithms, etc.


Αναφορές:– Exact Matching: “Handbook of Exact String-

Matching Algorithms”, C. Charras, T. Lecroq.– Approximate Matching:

“A Guided tour to Approximate String Matching”, G. Navarro, ACM Computing Survey.

“Selecting the Right Objective Measure for Associaton Analysis”, P. Tan, V. Kumar, J. Srivastava.

ΑΛΓΟΡΙΘΜΟΙ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/9)

Ο παλαιότερος αλγόριθμος απόστασης είναι η μετρική Levenshtein. Βασίζεται στον υπολογισμό του κόστους μεταβολής της μιας συμβολοσειράς στην άλλη (κόστος 1). π.χ. s=test, t=tend απόσταση=2.

Needleman-Wunch: Βασίζεται στον αλγόριθμο Levenshtein και χρησιμοποιεί βάρη (<>1) για κάθε κίνηση μεταμόρφωσης.

Gkid

Gkid

tsdkid

kiDki

)1,(

),1(

),()1,1(

min),(

Αντικατάσταση/αντιγραφή

Εισαγωγή

Διαγραφή

d(si,tk):συνάρτηση απόστασης, G: κόστος μεταβολής


Smith-Waterman: Όμοια τεχνική με τον προηγούμενο αλγόριθμο.

Jaro: Λαμβάνει υπόψιν τους μετασχηματισμούς σε σχέση με το μήκος της αρχικής ακολουθίας.

Ομοιότητα=3

)|'|

','|'||||'|

|||'|

(s

tTsstt

ss

Gkid

Gkid

tsdkidkiD ki

)1,(

),1(

),()1,1(

0

max),(

Αρχικά

Αντικατάσταση/αντιγραφή

Εισαγωγή

Διαγραφή

d(si,tk):συνάρτηση απόστασης, G: κόστος μεταβολής


Jaro-Winkler: Παραλλαγή του αλγορίθμου Jaro

Ομοιότητα=Jaro+ *(1-Jaro), P’=max(prefix,4)

Maedche-Staab: Χρησιμοποιεί την απόσταση συμβολοσειρών σε σχέση με το ελάχιστο μήκος των συμβολοσειρών.

Ομοιότητα=max(0, )

Dice: Απλή μετρική που βασίζεται αποκλειστικά στους κοινούς χαρακτήρες.

Ομοιότητα=

10

'P

),min(

),(distance),min(

ts

tsts

||||

||2

ts

ts


Lin: Πρότεινε τρεις μετρικές.

1η: Βασίζεται στην απόσταση των συμβολοσειρών

Ομοιότητα=

2η: Βασίζεται σε κοινές υποακολουθίες (τριγράμματα)

Ομοιότητα=

3η: Βασίζεται σε κοινά τριγράμματα και τις πιθανότητες εμφάνισής τους.

Ομοιότητα=

)()(

)()(

)(log)(log

)(log2

ttritstrit

ttristrit

tPtP

tP

|)()(|2|)(||)(|1

1

ttristrittristri

t),distance(s1

1


Longest Common Subsequence (LCSs): Μεγαλύτερη κοινή υποακολουθία χαρακτήρων χωρίς να είναι απαραίτητα συνεχόμενοι.

π.χ. s=houseboat t=computer LCSs=out Longest Common Substring (LCSt):Μεγαλύτερη κοινή

υποακολουθία συνεχόμενων χαρακτήρων.

π.χ. s=hello t=aloha LCSt=lo Q-Grams: Χρήση ενός παραθύρου Q χαρακτήρων στο

οποίο γίνεται η σύγκριση.

π.χ. 2-grams, 3-grams, …, N-grams


Ratcliff-Obershelp: Υπολογίζει την ομοιότητα δυο συμβολοσειρών ως το διπλάσιο του πλήθους των κοινών χαρακτήρων ως προς το συνολικό πλήθος χαρακτήρων των δύο συμβολοσειρών. Οι κοινοί χαρακτήρες είναι όσοι ανήκουν Μεγαλύτερη Κοινή Υποακολουθία (LCS) επιπλέον των κοινών χαρακτήρων στην περιοχή η οποία δεν ανήκει στην LCS.

π.χ. για s=ALEXANDRE και t=ALEKSANDER είναι:

LCS=ALEANDE επιπλέον το R

συνεπώς:

Sim(s,t)= = 0.84109

82


Yang-Yuan-Zhao-Chun-Peng: Χρησιμοποιούν την τεχνική του κοινού παραθύρου χαρακτήρων για να εκτιμήσουν τον βαθμό ομοιότητας.

Η αριθμητική τιμή ομοιότητας εξάγεται από την έκφραση:

Ομοιότητα=

όπου SSNC= w=μέγεθος παραθύρου (1..min(m,n))

και n, m τα μήκη των συμβολοσειρών.

π.χ. για s=abc de και t=abc k de είναι:

Sim(s,t)= = 0,638

2)( mn

SSNC

2)2( w

2

22

)86(

)22()42(


Soundex Algorithm: Βασίζεται στην ιδέα του ότι μεταβολές της ορθογραφίας ακουστικά όμοιων συλλαβών ή γραμμάτων οδηγεί σε ομοιότητα των λέξεων που τα περιλαμβάνουν. Αποδίδει σε κάθε όνομα ένα τετραψήφιο κωδικό ο οποίος ξεκινά με γράμμα και ακολουθείται από τρία ψηφία. Όμοιες λέξεις θα έχουν τον ίδιο κωδικό.

π.χ. s1=Darwin s2=Davidson s3=Derwin

Darwin Drn D65 D650

Davinson Dvnsn D1525 D152

Derwin Drn D65 D650

i) "1" to B, F, P, V

ii) "2" to C, G, J, K, Q, S, X, Z

iii) "3" to D, T

iv) "4" to L

v) "5" to M, N

vi) "6" to R


Token-Based Methods: Εξάγουν την ομοιότητα δύο οντοτήτων οι οποίες αποτελούνται από ένα σύνολο στοιχείων (tokens). Ορισμένες από αυτές χρησιμοποιούν και στατιστικά στοιχεία από σώματα κειμένου ή τιμές πιθανότητας (π.χ. TFIDF, Fellegi-Sunter, etc).

Η πιο απλή μέθοδος είναι η μετρική Jaccard η οποία εξάγει τον βαθμό ομοιότητας νε βάση την σχέση:

Sim(s,t)=||

||

ts

ts

ΠΡΟΤΑΣΕΙΣ (1/2)

Σειρά Q-grams: Στην ιδανική περίπτωση οι συμβολοσειρές θα έχουν Ν(Ν+1)/2 πλήθος κοινών υποακολουθιών. Συνεπώς:

Ομοιότητα=

όπου L το μικρότερο μήκος των δύο συμβολοσειρών. Συνδυασμός του αλγορίθμου Jaro-Winkler με:

– LCSs– LCSt– Common bi-grams– Common tri-grams

L

Q NN

Qgram

1 )1(

||2

ΠΡΟΤΑΣΕΙΣ (2/2)

Συνδυασμός του αλγορίθμου Dice με:– LCSt– Common bi-grams

Χρήση των LCSs και LCSt μεθόδων.

Ομοιότητα=))(),(max(

)(

tlengthslength

LCSStorLCSslength

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ

Σύνολο: 161. Lin Second Measure

2. Maedche-Staab

3. Jaro

4. Jaro-Winkler

5. Jaro-Winkler LCSs

6. Jaro-Winkler LCSt

7. Jaro-Winkler bi-grams

8. Jaro-Winkler tri-grams

9. Smith-Waterman

10.Needleman-Wunch

11.Q-grams series

12.Dice

13.Dice bi-grams

14.Dice LCSt

15.Simple LCSs

16.Simple LCSt** Οι αλγόριθμοι Ratcliff-Obershelp & Yang-Yuan-Chun-Peng

χρησιμοποιήθηκαν στις επεκτάσεις του αρχικού αλγορίθμου.

ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΟΜΟΙΟΤΗΤΑ

Καθορίζει τα κοινά και τα διαφορετικά στοιχεία δύο οντοτήτων.

Ως στοιχεία θεωρούνται δομικές έννοιες της κάθε οντότητας.

Απόδοση αριθμητικής τιμής ομοιότητας. Η τιμή αυτή δεν μπορεί να αναπαραστήσει

την ψυχολογική διάσταση της ομοιότητας δύο οντοτήτων.

2ο ΜΕΡΟΣ

ΣΗMΑΣΙΟΛΟΓΙΚΗ ΟΜΟΙΟΤΗΤΑ vs ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΣΥΣΧΕΤΙΣΗ

Αποτελούν διαφορετικές έννοιες.

Π.χ. οι έννοια {αυτοκίνητο} σχετίζεται με την έννοια {βενζίνη}. Το {αυτοκίνητο} έχει μεγαλύτερη ομοιότητα με την έννοια {ποδήλατο} διότι μοιράζονται περισσότερα κοινά στοιχεία όπως {έχει ρόδες} ή {κινείται} κ.λπ.

ΚΑΤΗΓΟΡΙΕΣ

Ontology Based: Χρήση Οντολογιών (π.χ. Wordnet) και των σχέσεων που υπάρχουν ανάμεσα στις έννοιες.

Corpus Based: Χρήση σώματος κειμένου για την εξαγωγή στατιστικών στοιχείων για κάθε έννοια.

Information Content Approaches: Χρήση του Περιεχομένου Πληροφορίας (IC) των εννοιών – Υβριδική προσέγγιση. Συνήθως χρησιμοποιούνται σώμα κειμένου.

Dictionary Based: Χρήση λεξικού προσπελάσιμο από μια μηχανή για την διαπίστωση των σχέσεων μεταξύ των εννοιών.

ΑΝΑΦΟΡΕΣ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ

Αναφορές:– ‘EvaluatingWordNet-based Measures of Lexical

Semantic Relatedness’, A. Budanitsky, G. Hirst, Computational Linguistics.

– ‘Computational Models of Similarity in Lexical Ontologies’, N. Seco, Msc Thesis.

ΑΝΤΛΗΣΗ ΣΤΟΙΧΕΙΩΝ

Χρησιμοποιείται το ηλεκτρονικό λεξικό WordNet. Χρήση της ιεραρχίας των ουσιαστικών. Περιλαμβάνει 79689 σύνολα συνωνύμων

ουσιαστικών. Χρήση των σχέσεων μεταξύ των συνόλων

συνωνύμων (υπέρνυμα, υπόνυμα, μερόνυμα, κ.λπ.) Η πιο σημαντική σχέση είναι η is-a-kind-of

(υπέρνυμα – υπόνυμα) που υποδηλώνει ότι μια έννοια αποτελεί εξειδίκευση μιας άλλης.

WORDNET - ΠΑΡΑΔΕΙΓΜΑΤΑ

The noun good has 3 senses (first 3 from tagged texts) 1. (11) good -- (benefit; "for your own good"; "what's the good of worrying?")2. (9) good, goodness -- (moral excellence or admirableness; "there is much good to be found in people")3. (6) good, goodness -- (that which is good or valuable or useful; "weigh the good against the bad"; "among

the highest goods of all are happiness and self-realization")

10 senses of bank Sense 1depository financial institution, bank, banking concern, banking company -- (a financial institution that accepts deposits and channels the money into lending activities; "he cashed a check at the bank"; "that bank holds the mortgage on my home") => financial institution, financial organization, financial organisation -- (an institution (public or private) that collects funds (from the public or other institutions) and invests them in financial assets) => institution, establishment -- (an organization founded and united for a specific purpose) => organization, organisation -- (a group of people who work together) => social group -- (people sharing some social relation) => group, grouping -- (any number of entities (members) considered as a unit)

ΑΛΓΟΡΙΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/7)

Leacock-Chodorow: Χρησιμοποιεί τις σχέσεις υπερνύμου – υπονύμου για την μέτρηση του μήκους μονοπατιού.

simlch(c1,c2)=-log( ), D=max Depth Rada: Η απόσταση εξαρτάται από το πλήθος των

ακμών που χωρίζουν τις δύο έννοιες.

dist(c1,c2)=πλήθος ακμών που χωρίζουν τα c1,c2 Μήκος Μονοπατιού: Η ομοιότητα είναι το αντίστροφο

του ελάχιστου μήκους μονοπατιού.

simpath(c1,c2)=

D

ccpathshortest

2

)2,1(_

)2,1(

1

ccdist


Wu-Palmer: Στηρίζεται στην απόσταση των δύο εννοιών και στο βάθος στο οποίο βρίσκονται στην ιεραρχία.

simwup(c1,c2)= Wu-Palmer-Resnik: Στηρίζεται αποκλειστικά στο

βάθος των εννοιών και του κοινού γονέα.

simrwup(c1,c2)=

),3(2)3,2()3,1(

),3(2

rootcdistccdistccdist

rootcdist

)2()1(

)3(2

cdepthcdepth

cdepth


Resnik: Βασίζεται στο περιεχόμενο πληροφορίας (Information Content) του κοινού γονέα (LCS – Least Common Subsumer).

IC(c)=-log(p(c)), όπου το p(c) εξάγεται από κάποιο σώμα κειμένου. p(c)=freq(word)/N με Ν το πλήθος των λέξεων συνολικά.

Συνεπώς: simres(c1,c2)=IC(LCS(c1,c2)) Jiang-Conrath: Καλύπτει τα μειονεκτήματα της

προηγούμενης μεθόδου. Η ομοιότητα εξάγεται από το περιεχόμενο πληροφορίας των εννοιών και του κοινού γονέα

Συνεπώς: distjcn(c1,c2)=IC(c1)+IC(c2)-2.IC(LCS(c1,c2))


Lin: Αποτελεί παραλλαγή των προηγούμενων μεθόδων.

simlin(c1,c2)= Tversky: Χρήση της θεωρίας συνόλων για την

εξαγωγή της τελικής τιμής. simtvr(c1,c2)=x.f(Ψ(c1).Ψ(c2))-y.f(Ψ(c1)\ Ψ(c2))-

z.f(Ψ(c2)\ Ψ(c1)) , με x,y,z παραμέτρους.

f(Ψ(c1)Ψ(c2)) απόδοση τιμής στην τομή f(Ψ(c1)\Ψ(c2)) απόδοση τιμής στην διαφορά (στοιχεία της 1ης

έννοιας που δεν υπάρχουν στην 2η) f(Ψ(c2)\Ψ(c1)) απόδοση τιμής στην διαφορά (στοιχεία της 2ης

έννοιας που δεν υπάρχουν στην 1η)

)2()1(

))2,1((2

cICcIC

ccLCSIC

ΑΛΓΟΡΙΘΜΟΙ ΣΗΜΑΣΙΟΛΟΓΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (5/7)

Lesk: Βασίζεται στις περιγραφές των εννοιών.Λέξη 1: pine Senses: 2

Sense 1: kind of evergreen tree with needle-shaped leaves

Sense 2: waste away through sorrow or illness

Λέξη 2: cone Senses: 3

Sense 1: solid body which narrows to a point

Sense 2: something of this shape whether solid or hollow

Sense 3: fruit of certain evergreen tree Extended Lesk: Ψάχνει και στις περιγραφές των

γειτονικών εννοιών.


Rondriguez-Egenhofer: Χρησιμοποιεί την θεωρία συνόλων του Tversky.

S(s,t)=

όταν ισχύει depth(s) <= depth(t)

α(s,t) =

1- όταν ισχύει depth(s) > depth(t)

|/|)),(1(|/|),(||

||

ABtsaBAtsaBA

BA

)()(

)(

tdepthsdepth

sdepth

)()(

)(

tdepthsdepth

sdepth


Li-Zuhair-Bandar-McLean: πειραματίστηκαν με 10 μετρικές οι οποίες αποτελούν γραμμικούς ή μη, συνδυασμούς του περιεχομένου πληροφορίας, του βάθους (Μ), του μήκους ελάχιστου μονοπατιού (l), του βάθους του κοινού γονέα (h), της τοπικής πυκνότητας των δύο εννοιών (d) και διαφόρων παραμέτρων που βρίσκονται στο διάστημα [0,1] (a,b,λ).

S1=2.M-l S2=a.S1+b.d S3=e-al S4=e-al

S5=S4+λ.IC(LCS(c1,c2)) bhbh

bhbh

ee

ee

S6=S1.

S7=S2.

S8=S3.

S9=S4.

S10=

))2,1(())2,1((

))2,1(())2,1((

ccLCSICccLCSIC

ccLCSICccLCSIC

ee

ee

))2,1(())2,1((

))2,1(())2,1((

ccLCSICccLCSIC

ccLCSICccLCSIC

ee

ee

))2,1(())2,1((

))2,1(())2,1((

ccLCSICccLCSIC

ccLCSICccLCSIC

ee

ee

))2,1(())2,1((

))2,1(())2,1((

ccLCSICccLCSIC

ccLCSICccLCSIC

ee

ee

bhbh

bhbh

ee

ee

ΠΑΡΑΛΛΑΓΕΣ SECO

Ο Seco πρότεινε στην διπλωματική του να εξάγεται το περιεχόμενο πληροφορίας από το πλήθος των υπονύμων που έχει μια έννοια στην ιεραρχία του WordNet.

ICwn(c)=1- ,

όπου maxwn: μέγιστος αριθμός εννοιών

Με βάση το παραπάνω η εξαγωγή ομοιότητας βάσει της μεθόδου Tversky προτείνεται να γίνεται από:

simtvr(c1,c2)=3.IC(LCS(c1,c2))-IC(c1)-IC(c2)

)log(max

)1)(log(

wn

chypo

ΑΛΓΟΡΙΘΜΟΙ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ

Σύνολο: 141. Leacock-Chodorow

2. Jiang-Conrath

3. Lin

4. Wu-Palmer

5. Wu-Palmer-Resnik

6. Tversky

7. S1

8.S29. S3

10.S4

11.S5

12.S10

13.Simple Distance

14.Rada

*** Για τον υπολογισμό του περιεχομένου πληροφορίας χρησιμοποιείται η παραλλαγή Seco.

ΜΕΘΟΔΟΛΟΓΙΑ

Κύριος στόχος η σύγκριση συμβολοσειρών που προέρχονται από τον χώρο των οντολογιών και των βάσεων δεδομένων.

Θα εξαχθεί απλά ο μέσος όρος των αποτελεσμάτων των αλγορίθμων.

Προβλήματα υπάρχουν, κυρίως για την εξαγωγή της σημασιολογικής ομοιότητας, διότι οι συμβολοσειρές μπορεί να μην αποτελούν έγκυρες λέξεις.

Λύση αποτελεί η διάσπαση των συμβολοσειρών. Σε περίπτωση που δεν προκύψει ούτε μια έγκυρη

λέξη, τότε το αποτέλεσμα στηρίζεται αποκλειστικά στην λεξικογραφική ομοιότητα.

ΔΙΑΣΠΑΣΗ ΣΥΜΒΟΛΟΣΕΙΡΩΝ

Διακρίνουμε δύο περιπτώσεις: Οι συμβολοσειρές περιέχουν ειδικά σύμβολα όπως _,

#, κ.λπ. ή σε κάποια σημεία περιέχουν αριθμούς ή κεφαλαία γράμματα.

Η διάσπαση γίνεται σ’ αυτούς τους χαρακτήρες. Οι συμβολοσειρές δεν περιέχουν ειδικούς χαρακτήρες,

αριθμούς ή κεφαλαία γράμματα.Η διάσπαση γίνεται σε υποσυμβολοσειρές με 3 ή άνω

γράμματα που αποτελούν έγκυρες καταχωρήσεις του WordNet. Όσες συμβολοσειρές προκύπτουν εξετάζονται για την ομοιότητα με βάση τον αλγόριθμο Monge-Elkan.

ΑΛΓΟΡΙΘΜΟΣ MONGE-ELKAN

Η ομοιότητα δύο συνόλων στοιχείων Α, Β εκφράζεται ως εξής:

match(A,B)= match(Ai,Bj)

Ο αλγόριθμος δεν είναι συμμετρικός.

||

1

A

||

1

||

1max

A

i

B

j

ΤΕΚΜΗΡΙΩΣΗ

Τα δεδομένα προέρχονται από:– Το τμήμα πληροφορικής του πανεπιστημίου του

Ιλλινόις, όπου δίδονται δεδομένα για ταίριασμα σχήματος και στοιχείων οντολογιών. Χρησιμοποιούνται τα στοιχεία αντιστοίχισης μαθημάτων πανεπιστημίων και της θεματικής ενότητας Real Estate.

– Το πανεπιστήμιο του Βερολίνου, όπου γίνεται η περιγραφή της γλώσσας D2R. Χρησιμοποιείται το παράδειγμα της αντιστοίχισης μιας βάσης δεδομένων καταστήματος πώλησης CD σε σχήμα RDF.

ΑΠΟΤΕΛΕΣΜΑΤΑ (1/4)

Τα αρχεία δεδομένων περιέχουν 116 αντιστοιχίσεις. Αναγνωρίστηκαν σωστά οι 88, με ποσοστό

ομοιότητας πάνω από 75% (όριο που τέθηκε). Το ποσοστό επιτυχίας είναι 75,86%.

Το πλήθος των αλγορίθμων αποδεικνύεται αρκετά μεγάλο, ειδικά στην περίπτωση που έχουμε για επεξεργασία μεγάλο όγκο δεδομένων.

Η παραλλαγή που πρότεινε ο Seco αποδείχθηκε αρκετά ‘βαριά’ διαδικασία ειδικά για τόσο μεγάλο πλήθος δεδομένων.


Εξαχθήκαν χρήσιμα συμπεράσματα όσον αφορά στην συμπεριφορά των αλγορίθμων, ιδίως της λεξικογραφικής ομοιότητας.

Για την εξαγωγή μιας πιο αντικειμενικής τιμής χρειάζεται ο μη-γραμμικός συνδυασμός λεξικογραφικής και σημασιολογικής ομοιότητας.

Για την εξαγωγή μιας αντικειμενικής τιμής ομοιότητας χρειάζεται ο συνδυασμός (ίσως βασισμένος στις ίδιες τις συμβολοσειρές!!) τιμών των αλγορίθμων.


First String = student Second String = dentist

LIN SECOND :0.14285714285714285

MAEDCHE STAAB :0.14285714285714285

JARO :0.6

JARO WINKLER :0.76

JARO WINKLER LCSSt :0.72

JARO WINKLER LCSSs :0.76

JARO WINKLER TRIGRAMS :0.6799999999999999

JARO WINKLER BIGRAMS :0.76

SMITH WATERMAN :0.5714285714285714

NEEDLEMAN WUNCH :0.5714285714285714

Q GRAMS SERIES :0.5357142857142857

DICE (COMMON CHARS) :0.8571428571428571

DICE (COMMON BIGRAMS) :0.6666666666666666

DICE LCSSt :0.5714285714285714

LCSSt :0.5714285714285714

LCSSs :0.5714285714285714

RATCLIFF OBERSHELP =7 :1.0

YANG YUAN ZHAO CHUN PENG :0.5714285714285714


*First String: <archaeology> *Second String: <social_science>

-------------------------------------------------------------

1. Leacock-Chodorow: 0.8339850002884617

2. Jiang-Conrath: 0.9513280478322936

3. Lin: 0.9315807363671041

4. Wu-Palmer: 0.875

5. Wu-Palmer-Resnik: 0.875

6. Tversky(Seco): 0.8551206815796943

7. S1: 0.9444444444444444

8. S2: 0.413326816552623

9. S3: 0.6065306597126334

10. S4: 0.6062579431847053

11. S5: 0.6725285380921548

12. S10: 0.9999983369439447

13. Simple Distance: 0.5

14. Rada et Al: 0.3333333333333333

***Average of All measures:0.7427453241665282

***Max Similarity: 0.9999983369439447 at 12

*First String: <social_science> *Second String: <social_science>

-------------------------------------------------------------

1. Leacock-Chodorow: 1.0

2. Jiang-Conrath: 1.0

3. Lin: 1.0

4. Wu-Palmer: 1.0

5. Wu-Palmer-Resnik: 1.0

6. Tversky(Seco): 0.8875686496914987

7. S1: 1.0

8. S2: 1.0

9. S3: 1.0

10. S4: 0.9995503664595333

11. S5: 1.0

12. S10: 0.9999983369439447

13. Simple Distance: 1.0

14. Rada et Al: 1.0

***Average of All measures:0.9919369537924984

***Max Similarity: 1.0 at 1

ΕΠΕΚΤΑΣΕΙΣ (1/2) Δημιουργία εργαλείου επιλογής αλγορίθμων

ΕΠΕΚΤΑΣΕΙΣ (2/2)

Εξαγωγή αποτελεσμάτων για Precision, Recall and F-measure και σύγκριση με άλλες εργασίες.

Εξέταση της επίπτωσης του threshold (επιλέχθηκε το 75%) στις παραπάνω τιμές.

Απόδοση συγκεκριμένων βαρών στους αλγορίθμους αυτόματα με βάση κάποια χαρακτηριστικά των οντοτήτων.

Αποκλεισμός αλγορίθμων με βάση τα αποτελέσματά τους (π.χ. με χρήση της διακύμανσης).

Περιγραφή όλων των αλγορίθμων με βάση μια κοινή έννοια (π.χ. LCSs) ή επιλογή αλγορίθμων που μπορούν να περιγραφούν με μια κοινή έννοια.

Χρήση συγκεκριμένων αλγορίθμων με βάση τα προς επεξεργασία δεδομένα ώστε να αποφευχθούν τα μειονεκτήματα που τυχόν παρατηρούνται.

ΠΑΡΑΤΗΡΗΣΕΙΣ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/2)

Ισχύουν: – LCSs = (m+n-Lev)/2– LCSs = a1+LCSt+a2, με a1 να είναι μεταξύ [0 ..

indexof(LCSt)-1] και a2 μεταξύ [0 .. indexof(last character)-(indexof(LCSt) + length(LCSt))-1]

– LCSt<=LCSs<=min(m,n)– Θέλουμε Lev(s,t) = max(m,n)-min(m,n) = 0

Όλα τα παραπάνω μας βοηθούν να θέσουμε κάποια όρια τιμών.

ΠΑΡΑΤΗΡΗΣΕΙΣ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΛΕΞΙΚΟΓΡΑΦΙΚΗΣ ΟΜΟΙΟΤΗΤΑΣ (1/2)

Όσο αυξάνει η απόσταση Levenshtein τόσο μειώνεται το μήκος της LCSs. Συνεπώς θα πρέπει να αποφεύγονται οι αλγόριθμοι που βασίζονται σε αυτές τις μεθόδους. Ποιο όριο τιμών όμως πρέπει να χρησιμοποιηθεί?

Καλό είναι τα μήκη των συγκρινόμενων συμβολοσειρών να είναι ίσα ή να έχουν κοντινές τιμές ώστε να υπάρχει μεγαλύτερη πιθανότητα να εξαχθεί μικρή τιμή απόστασης μεταξύ τους.

Όσο η LCSt προσεγγίζει την LCSs και τα δύο μαζί προσεγγίζουν το min(m,n) τόσο μειώνεται η απόσταση Levenshtein και συνεπώς αυξάνει ο βαθμός ομοιότητας.

Όταν συγκρίνουμε συμβολοσειρές που δεν αποτελούν έγκυρες ή συνδυασμό ή τμήματα έγκυρων λέξεων πρέπει να αποφεύγονται αλγόριθμοι που συγκρίνουν διγράμματα ή ακόμη χειρότερα τριγράμματα.

ΣΥΜΠΕΡΑΣΜΑ

Χαρακτηρισμός των αλγορίθμων λεξικογραφικής ομοιότητας με βάση τα: LCSt, LCSs, Lev, max(m,n), min(m,n) Δύσκολο εγχείρημα.

Πιθανόν για την επιλογή κάποιων αλγορίθμων να πρέπει να κατασκευαστεί ή να βρεθεί μια συνάρτηση η οποία παίρνοντας ως ορίσματα τις παραπάνω τιμές να εξάγει είτε κάποιο βάρος που θα αποδίδεται σε κάθε αλγόριθμο είτε θα αποκλείει την χρήση συγκεκριμένων μετρικών.

Αποκλεισμός αλγορίθμων που οι τιμές τους δεν συμφωνούν με τις τιμές που θα δώσουν κάποιοι experts (υπάρχει εργασία αλλά όχι για τόσους πολλούς αλγορίθμους) Δυσκολία στην κατασκευή των δεδομένων στα οποία θα κληθούν οι experts να δώσουν τιμές ομοιότητας καθώς και το ποιες τιμές θα αποδίδουν σε κάθε ζεύγος συμβολοσειράς.

ΤΕΛΟΣ!!

Documents

Συγκριτική Αξιολόγηση Μεθόδων Λεξικογραφικής και Σημασιολογικής Ομοιότητας