Exploiting structure and content of wikipedia for query

Exploiting structure and content of Wikipedia for Query Expansion

in the context of Question Answering

Surya Ganesh, Vasudeva Varma,

Language Technologies Research Centre,IIIT-Hyderabad, India

Boursinos Christos-IR PRESENTATION

1. INDRODUCTION

2. RELATED WORK

3. METHODOLOGY

4. PROXIMITY SCORE

5. OUTLINK SCORE

6. EXPERIMENTS


INTRODUCTION-Τι θα δούμε.

• Νέα μέθοδο query expansion η οποία στοχεύει στο να κατατάξει την απάντηση που περιέχουν τα αποσπάσματα καλύτερα.

• Χρησιμοποιούμε την WIKIPEDIA για να δημιουργούμε ένα set από όρους που σχετίζονται με το ερώτημα.

• Επειδή έχουμε Boolean model οι όροι που είναι σημασιολογικά κοντά θα προστεθούν σε ένα Boolean query.

• TREC 2006 QA . Αποτελέσματα: αύξηση κατά 24,6 % precision at 1,

11,1% MRR at 20, 12,4% TDRR


• QA το passage retrieval μειώνει το search space σε μεγάλες συλλογές.

• Έχει μειονέκτημα ότι μπορεί στις συλλογές που ψάχνει να μην υπάρχει απάντηση στο ερώτημά μας. (vocabulary mismatch) (25,7% question passages από ένα άλλο σύστημα δεν απαντήθηκαν.)

• Λύση αυτού του προβλήματος είναι το QUERY EXPANSION. Είναι η διαδικασία που προσθέτουμε και άλλους ορούς στο ερώτημα μας.

• Βάζοντας συνώνυμα των λέξεων του ερωτήματος έχει καλύτερα αποτελέσματα.

• Χρησιμοποιούμε την WIKIPEDIA (αξιόπιστη, TREC 2006)

• η κάλυψη των άρθρων του είναι ευθέως ανάλογη προς το μέγεθος του περιεχομένου του κειμένου σε αυτές

• Άνθρωποι , οργανισμοί , events που ψάχνουμε στο σύστημά μας.


1. INDRODUCTION

2. RELATED WORK

3. METHODOLOGY

4. PROXIMITY SCORE

5. OUTLINK SCORE

6. EXPERIMENTS


RELATED WORK(1/2)

• MONZ : – επιλογή όρων με βάση των standard ROCCHIO και το βάρος από τα Ν

πρώτα κείμενα. – Μείωση της επίδοσης με βάση το απλό ερώτημα. – Αλλά είχε καλύτερη εφαρμογή σε ad-hoc retrieval task.

• PIZZATO: – χρησιμοποιεί το όνομα των οντοτήτων του αντίστοιχου τύπου

απάντησης από τα κορυφαία έγγραφα για να σχηματίσει ένα διευρυμένο ερώτημα.

– Δεν έδειξε κάποια αύξηση επίδοσης.

• YANG: – χρησιμοποίησε το WorldNet και το Web για το expansion. – To Web επέκταση των όρων και το WorldNet χρησιμοποιήθηκε για το

rank της. – Και εδώ είχαμε μείωση της επίδοσης.


RELATED WORK(1/2)

• BILLOTI : – μελετά τις επιπτώσεις του stemming και της χρησιμοποίησης

κλιτών λέξεων στο expansion. – Μείωση και αύξηση RECALL αντίστοιχα.

• SUN : – 2 query expansion τεχνικές οι οποίες κάνουν χρήση της σχέσης

εξάρτησης για την ανάλυση και την εξαγωγή συμφραζομένων όρων και τις σχέσεις μεταξύ των όρων.

– Οι μέθοδος μεταξύ των σχέσεων ήταν καλύτερη από αυτή της τοπικής ανάλυσης.

• ARGUELLO : – περιγράφει μια τεχνική για την εξόρυξη των δεσμών και των

anchor text στη Wikipedia για το QE. – Καλύτερο RECALL κ PRECISION.


1. INDRODUCTION

2. RELATED WORK

3. METHODOLOGY

4. PROXIMITY SCORE

5. OUTLINK SCORE

6. EXPERIMENTS


• QETS – Query expansion term space ( επιλογή των όρων με βάση το πόσο

κοντά είναι μεταξύ τους)

– Μας βοηθήσει στο ότι έχουμε περισσότερες λέξεις για το expansion, και ενώνει το κενό ανάμεσα στα κείμενα που είναι κοντά στο ερώτημα μας και σ αυτά που δεν είναι.

• CONSTRUCT QETS 1. Βρίσκουμε το άρθρο (Α) από την Wikipedia για το ερώτημα (Q)

2. Παίρνουμε τις προτάσεις(S) που αντιστοιχούν στα keywords

3. Αφαιρούμε stop words και question keywords

4. Κάθε λέξη παίρνει ένα βάρος ανάλογα με την συγγένεια στο ερώτημα.

• ο τύπος μας δίνει την δύναμη του όρου στο QETS.

• Ps proximity / ls out link


1. INDRODUCTION

2. RELATED WORK

3. METHODOLOGY

4. PROXIMITY SCORE

5. OUTLINK SCORE

6. EXPERIMENTS


• Το proximity score μας δίνει την απόσταση των όρων μεταξύ τους και ουσιαστικά ορίζει την δύναμή τους.

• Το Proximity score ενός όρου μας είναι: – Η συχνότητα εμφάνισής του και η minimum απόσταση από τα

keywords του question. Επειδή είναι ένας ο κάθε όρος στο question τότε είναι το άθροισμα των minimum αποστάσεων από τα keywords.

• Κάθε όρος στο QETS έχει βάρος:

• Όπου |S| όροι της πρότασης μας.

• dt απόσταση όρου term από το keyword του question(Q)


1. INDRODUCTION

2. RELATED WORK

3. METHODOLOGY

4. PROXIMITY SCORE

5. OUTLINK SCORE

6. EXPERIMENTS


• Αυτή η μέθοδος εκμεταλλεύεται το σκορ δομημένων πληροφοριών της Wikipedia για την κατάταξη των QETS όρων.

• Τα out links ίσως να μην είναι όλα σχετικά με το ερώτημα. Οπότε παίρνουμε μόνο αυτά που είναι σχετικά με το ερώτημά μας.

• Μόνο όσα από τα out links είναι κατηγορίας ίδιας με αυτή του ερωτήματος θεωρούνται σημασιολογικά συναφείς.

• ΠΑΡΑΔΕΙΓΜΑ

• “which position did Warren Moon play in professional football”

• Τα out links είναι “position ,play ,football ,professional ” που θεωρούνται σημασιολογικά συναφείς με το ερώτημα.

• Όλα αυτά τα terms έχουν βάρος ανάλογα στις συχνότητές των όρων της προτάσεως, για όλα τα άλλα out links στο QETS είναι μηδέν.

=>

=>


• Κάνουμε sort του πρώτους Ν όρους που έχουν βγει από το QETS. Οι πρώτοι 10 όροι είναι για το query expansion

• ΠΑΡΑΔΕΙΓΜΑ

• “which position did Warren Moon play in professional football”

• Από το TREC 2006 έχουμε το dataset

• Όλοι οι όροι σχετίζονται σημασιολογικά με τα keywords του question.

• Χρησιμοποιούμε το term expansion length (el) το οποίο καθορίζει τον αριθμό των όρων που είναι για την επέκταση του ερωτήματος.

• Κ = σταθερά * |Q| = ο αριθμός των όρων του ερωτήματος.



• Οπότε για μικρά queries έχουμε μικρό μήκος. Για μεγάλα queries έχουμε μεγάλο μήκος για το QETS.

• Με βάση το paper του TELLEX το Boolean model έχει καλύτερη συμπεριφορά από τα άλλα μοντέλα.

• Χρησιμοποιούμε το Boolean model για το expansion μας.

• Το Boolean query είναι ένας συνδυασμός

– Question target

– Keywords

1. INDRODUCTION

2. RELATED WORK

3. METHODOLOGY

4. PROXIMITY SCORE

5. OUTLINK SCORE

6. EXPERIMENTS


3 βασικά μέτρα χρησιμοποιούνται για τις μετρήσεις μας είναι:

• Precision at 1 – είναι το ποσοστό των ερωτήσεων για τις οποίες η σωστή απάντηση

εμφανίζεται στο πρώτο που έχει ανακτηθεί

• Mean Reciprocal Rank (MRR) at N – Είναι ο μέσος όρος της αναστροφής από την ψιλά ιεραρχημένη σωστή

απάντηση αν αυτή η απάντηση εμφανίζεται στα πρώτα Ν.

• Total Document Reciprocal Rank (TDRR) – Επεκτείνει το MRR με το RECALL.

– Είναι το άθροισμα όλων των αμοιβαίων τάξεων που έχουν να κάνουν με την ερώτηση και λαμβάνει την μέγιστη τιμή αν όλα τα ανακτηθέντα αποσπάσματα είναι σχετικά.

• τα χρησιμοποιήσαμε για τα πρώτα top 20 κείμενα μας.

• TREC 2006 QA / test set AQUAINT corpus / 1.033.461 documents.

• Question set: έχει 75 στόχους και το κάθε ένα έχει 5 συγκεκριμένες ερωτήσεις. Το TREC δίνει τα πρώτα 1000 κείμενα από κάθε στόχο.


• Χρησιμοποιούμε το Prise για search engine στη Wikipedia.

• Χρησιμοποιούμε το Lusene που υποστηρίζει Boolean model για να κάνουμε ανάκτηση των πρώτων 1000 κειμένων.

• 3 πειράματα με 2 αξιολογήσεις στο καθένα

– Strict criteria

• Η απάντηση θα πρέπει να είναι στο απόσπασμα , και το απόσπασμα να είναι στα άρθρα που είναι σχετικά.

– Lenient criteria

• Η απάντηση θα πρέπει να είναι στο απόσπασμα

– Άνω και κάτω φράγμα τα κριτήρια μας

• 1ο μας πείραμα έγινε για κ=8 expansion length. – αύξηση 24,6% precision@1

– 11,1% MRR@20

– 12,4% TDRR

– 18,4% precision@1

– 10,5% MRR 13,8% TDRR



• 2ο μας πείραμα – Ελέγχουμε 2 μεθόδους scoring για το πόσο επηρεάζουν την ανάκτηση

– Κ=8 , και οι όροι επιλέγονται απ το QETS.

– (ps) proximity score

– (os) out link score

– καλυτέρα από πριν.

• 3ο μας πείραμα – Κάνουμε πειράματα με διαφορετικά κ από (0-10)


• Κ=8 έχουμε την Max τιμή μας.

Education

Exploiting structure and content of wikipedia for query