View
34
Download
3
Category
Preview:
DESCRIPTION
Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR. Brigitte Grau (LIR – LIMSI). Base de connaissances factuelles et encyclopédi-ques. Collection de documents répertoriés. Web. Recherche d’information précise. Besoin particulier : - PowerPoint PPT Presentation
Citation preview
Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR
Brigitte Grau (LIR – LIMSI)
Recherche d’information précise Besoin particulier :
requête précise : une question en langage naturel Granularité de la réponse : "passage retrieval"
Qui a tué Henri IV ?
WebCollection de documents répertoriés
Base de connaissancesfactuelles et encyclopédi-ques
Extraction à partir de textes
… C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …
Qui a poignardé Henri IV ? Pers <poignarder> Henri IV
Qui a tué Henri IV ? Tuer synonyme de poignarder
Où a été tué Henri IV ?Tuer => mort = rendre son
dernier soupirou
Ville dans le contexte
CODSUJET CODSUJET
Différents composants
Analyse des questions Traitement des documents
Extraction de la réponse
Etiquetage morpho-syntaxique
Analyse syntaxique
Désambiguation
Typage des réponses
Choix de mots pivots
Reconnaissance des entités nommées
Sélection de documents ou de passages
Moteur de recherche
Constitution de la requête
Sélection de passages ou de phrases
Analyse des phrases
Extraction des réponses
Evaluation des réponses
Approche linguistique Composants concernés
Détermination du type de réponse : Des entités nommées classiques à des catégories
spécialisées Reformulation Web Ecriture de patrons d’extraction liés au type d’information
cherché De patrons très figés à des règles de reformulation
Appariement de représentations de phrase (question/phrases candidates)
Fondée sur : Etiquetage morpho-syntaxique Segmentation en groupe Analyse syntaxique Analyse sémantique
Approches statistiques et apprentissage
Composants concernés Sélection des documents Sélection de passages Apprentissage de patrons d’extraction Evaluation de la réponse
Un degré de confiance
Connaissances
Lexiques spécialisés pour entités nommées Bases de connaissances spécialisées Connaissances sémantiques générales
Sources WordNet pour l’anglais Pour le français ?
Connaissances Relations de dépendances hiérarchiques Relations de synonymie Règles de déduction : modélisation des définitions WordNet
Evaluations existantes
Etats-Unis : TREC Tâche Q/A depuis TREC8 (1999)
Europe : CLEF Tâche Q/A depuis 2003, analogue à Trec Multilingue
Japon : NTCIR Tâche Q/A depuis 2003, analogue à Trec
France : EQuER Campagne en 2004
Que doit-on évaluer ?
La justesse de la réponse La concision et la complétude
Ne pas trop en dire, mais dire tout ce qui est nécessaire
La pertinence de la réponse La réponse peut être différente selon le contexte
L’interaction avec l'utilisateur Le temps de réponse La facilité d'utilisation du système
=
EQueR Organisateur : ELDA (Paris) Responsable scientifique : Brigitte Grau (LIMSI) Fournisseurs de corpus et d’outils :
ELDA : corpus général CISMEF : corpus médical Systal / Pertimm : moteur de recherche
Participants : 3 institutions privées : France Télécom, Sinequa, Synapse 5 laboratoires publics :
Limsi-CNRS, LIA & iSmart, STIM / AP-HP, CEA, Université de Neuchâtel
Présentation générale
Objectifs Faire une photographie de l’état de l’art en France Permettre le développement de l’activité en fournissant des
corpus aux chercheurs Trois tâches étaient prévues
Tâche « généraliste » Tâche « spécialisée », domaine spécifique (médical) Tâche « généraliste » Web abandonnée
2 types de réponses passages de 250 caractères réponses courtes
Les corpus de documents Corpus « général »
1,5 Go environ (constitution ELDA) Articles, dépêches de presse et rapports institutionnels
Le Monde (1992-2000) Le Monde Diplomatique (1992-2000) SDA (Schweitzeriche Depeschenagentur (1994-1995) Le Sénat (1996-2001)
Corpus « médical » 50 Mo environ (constitution CISMEF/STIM) tirés des sites Web Articles scientifiques du domaine médical, recommandations
Santé Canada Orphanet CHU Rouen FNLCC (Fédération Nationale de Lutte Contre le Cancer)
Corpus de questions
500 questions générales 407 questions factuelles
Qui a écrit Germinal ? Emile Zola
31 questions de type listeQuels sont les 7 pays du G7 ? Allemagne, Canada, Etats-Unis, France,Grande-Bretagne, Italie et Japon
32 questions de type définitionQui est Alexander Popov ?Nageur russe
30 questions de type oui/nonExiste-t-il une ligne de TGV Valenciennes-Paris ? OUI
200 questions médicales 81 questions factuelles
Citer un traitement de la schyzophrénie.
La neurochirurgie 25 questions de type liste
Quels sont les 4 stades du cancer de l’ovaire ?
70 questions de type définition 24 questions de type oui/non
Le mercure est-il un métal toxique ?
OUI
Taux fixé pour chaque type de questionSelon les sources : extraction de balises de mots-clés ou de titres
Déroulement de l’évaluation Distribution des corpus de documents Tests des systèmes sur 1 semaine
Distribution des questions et des documents fournis par Pertimm pour chacune
Envoi des résultats (2 runs par tâche) Nombre de réponses permises
Maximum 5 pour questions factuelles et de type définition 1 pour questions de type oui/non Maximum 20 pour les questions de type liste
Evaluation des résultats par des juges humains 2 juges par run Un spécialiste pour tâche médicale 4 valeurs : correct, incorrect, inexact, non justifié
Mesures
2 métriques utilisées : MRR : Moyenne de l’inverse du Rang (Mean
Reciprocal Rank) Questions « factuelles » simples. Questions dont la réponse est une « définition ». Questions dont la réponse est « oui/non ».
NIAP : Précision moyenne (Non Interpolated Average Precision) Questions dont la réponse est une « liste ».
Résultats (1)
Tâche générale 7 participants
Tâche spécialisée 5 participants
Résultats de l'évaluation tâche générale pour les passages et réponses courtes
0,7
0,37 0,370,33 0,31
0,220,18
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
5 4 2 6 3 1 7
Participants
MR
R Passages
Réponses
Résultats de l'évaluation tâche spécialisée pour les passages et réponses courtes
0,49
0,130,09 0,09
0,02
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
4 2 1 3 5
Participants
MR
R Passages
Réponses
Résultats (2)
Résultats tâche générale "factuelles, définitions et oui-non"
0,74
0,550,47
0,43 0,43
0,230,17
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
5 4 2 6 3 1 7
Participants
MR
R
Factuelles
Définitions
Oui-Non
Comparaison avec l’existant
Comparaison : 5 Réponses courtes TREC10 (2001) NTCIR (2003)
Meilleur système actuel sur l’anglais : 83% de réponses
correctes avec 1 seule réponse fournie (TREC11)
Comparaison des résultats entre différentes campagnes QA
0
0,2
0,4
0,6
0,8
1 2 3 4 5 6 7 8 9 10
Participants
MR
R
TREC
NTCIR
EQUER
Bilan
Constitution d’un ensemble de données Ensemble des spécifications de la campagne,
corpus, outils et résultats. But :
Permettre à n’importe quel industriel ou académique de faire tourner son système dans des conditions identiques afin de pouvoir évaluer lui-même son système.
Pour aller plus loin
Pour améliorer les systèmes de question-réponse Selon les questions, différentes stratégies possibles Maîtriser la difficulté des questions Savoir quelle approche est meilleure qu’une autre pour
chaque composant Connaître l’impact d’un composant sur le résultat final
Question-réponse comme évaluation de processus par la tâche Exemples : Entité Nommée, résolution d’anaphore, analyse
syntaxique
Différents types de questions (1) Réponse factuelle
La réponse est extraite telle quelle ou moyennant quelques variations morphologiques simples. Une approche mot-clés peut alors tout à fait convenir.
Réponse issue d’un raisonnement simple La réponse est extraite d’un court passage toujours mais
amène à recourir à des connaissances sémantiques pour gérer des variations ou élaborer un raisonnement simple.
Exemple : Comment est mort Socrate ? En buvant du vin empoisonné -> faire le lien entre mort et
empoisonner.
Moldovan, D., Pasca M., Harabagiu S., Surdeanu M., “Performance Issues and Error Analysis in an Open-Domain Question Answering system”, ACM transactions on Information Systems (TOIS), 2003
Différents types de questions (2) Fusion de réponses
Les éléments de réponses sont répartis sur plusieurs documents Il s’agit de les assembler en un tout cohérent. Cela peut aller de simples listes à la constitution de modes
d’emploi. Interaction à gérer
Questions s’enchaînant dans un même contexte, relatif à la première question -> TREC9
Raisonnement par analogie Les réponses ne sont pas explicites dans les documents Entraînent la décomposition en plusieurs questions et leur
interprétation par analogie aux faits existant.
Evaluation des composants d’un système
Etablir des cadres d’évaluation systématiques, voire des plates-formes Permettrait le développement et l’évaluation de
processus sans avoir à développer un système complet Approfondissement du principe consistant à fournir les
documents aux participants
Conclusion
EQueR : évaluation sur le français 7 participants
CLEF : depuis 2004, évaluation monolingue sur le français 4 participants en 2005, plus que les autres langues
Originalité d’EQueR A gardé la tâche évaluation de passage
Réintroduit à TREC 2005 Introduction de questions booléennes
Similitudes avec l’évaluation « Recognizing Textual entailment » du réseau Pascal
Introduction d’une tâche spécialisée Poursuivre EQueR à CLEF ?
Recommended