Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Brigitte Grau (LIR – LIMSI)

Recherche d’information précise Besoin particulier :

requête précise : une question en langage naturel Granularité de la réponse : "passage retrieval"

Qui a tué Henri IV ?

WebCollection de documents répertoriés

Base de connaissancesfactuelles et encyclopédi-ques

Extraction à partir de textes

… C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …

Qui a poignardé Henri IV ? Pers <poignarder> Henri IV

Qui a tué Henri IV ? Tuer synonyme de poignarder

Où a été tué Henri IV ?Tuer => mort = rendre son

dernier soupirou

Ville dans le contexte

CODSUJET CODSUJET

Différents composants

Analyse des questions Traitement des documents

Extraction de la réponse

Etiquetage morpho-syntaxique

Analyse syntaxique

Désambiguation

Typage des réponses

Choix de mots pivots

Reconnaissance des entités nommées

Sélection de documents ou de passages

Moteur de recherche

Constitution de la requête

Sélection de passages ou de phrases

Analyse des phrases

Extraction des réponses

Evaluation des réponses

Approche linguistique Composants concernés

Détermination du type de réponse : Des entités nommées classiques à des catégories

spécialisées Reformulation Web Ecriture de patrons d’extraction liés au type d’information

cherché De patrons très figés à des règles de reformulation

Appariement de représentations de phrase (question/phrases candidates)

Fondée sur : Etiquetage morpho-syntaxique Segmentation en groupe Analyse syntaxique Analyse sémantique

Approches statistiques et apprentissage

Composants concernés Sélection des documents Sélection de passages Apprentissage de patrons d’extraction Evaluation de la réponse

Un degré de confiance

Connaissances

Lexiques spécialisés pour entités nommées Bases de connaissances spécialisées Connaissances sémantiques générales

Sources WordNet pour l’anglais Pour le français ?

Connaissances Relations de dépendances hiérarchiques Relations de synonymie Règles de déduction : modélisation des définitions WordNet

Evaluations existantes

Etats-Unis : TREC Tâche Q/A depuis TREC8 (1999)

Europe : CLEF Tâche Q/A depuis 2003, analogue à Trec Multilingue

Japon : NTCIR Tâche Q/A depuis 2003, analogue à Trec

France : EQuER Campagne en 2004

Que doit-on évaluer ?

La justesse de la réponse La concision et la complétude

Ne pas trop en dire, mais dire tout ce qui est nécessaire

La pertinence de la réponse La réponse peut être différente selon le contexte

L’interaction avec l'utilisateur Le temps de réponse La facilité d'utilisation du système

EQueR Organisateur : ELDA (Paris) Responsable scientifique : Brigitte Grau (LIMSI) Fournisseurs de corpus et d’outils :

ELDA : corpus général CISMEF : corpus médical Systal / Pertimm : moteur de recherche

Participants : 3 institutions privées : France Télécom, Sinequa, Synapse 5 laboratoires publics :

Limsi-CNRS, LIA & iSmart, STIM / AP-HP, CEA, Université de Neuchâtel

Présentation générale

Objectifs Faire une photographie de l’état de l’art en France Permettre le développement de l’activité en fournissant des

corpus aux chercheurs Trois tâches étaient prévues

Tâche « généraliste » Tâche « spécialisée », domaine spécifique (médical) Tâche « généraliste » Web abandonnée

2 types de réponses passages de 250 caractères réponses courtes

Les corpus de documents Corpus « général »

1,5 Go environ (constitution ELDA) Articles, dépêches de presse et rapports institutionnels

Le Monde (1992-2000) Le Monde Diplomatique (1992-2000) SDA (Schweitzeriche Depeschenagentur (1994-1995) Le Sénat (1996-2001)

Corpus « médical » 50 Mo environ (constitution CISMEF/STIM) tirés des sites Web Articles scientifiques du domaine médical, recommandations

Santé Canada Orphanet CHU Rouen FNLCC (Fédération Nationale de Lutte Contre le Cancer)

Corpus de questions

500 questions générales 407 questions factuelles

Qui a écrit Germinal ? Emile Zola

31 questions de type listeQuels sont les 7 pays du G7 ? Allemagne, Canada, Etats-Unis, France,Grande-Bretagne, Italie et Japon

32 questions de type définitionQui est Alexander Popov ?Nageur russe

30 questions de type oui/nonExiste-t-il une ligne de TGV Valenciennes-Paris ? OUI

200 questions médicales 81 questions factuelles

Citer un traitement de la schyzophrénie.

La neurochirurgie 25 questions de type liste

Quels sont les 4 stades du cancer de l’ovaire ?

70 questions de type définition 24 questions de type oui/non

Le mercure est-il un métal toxique ?

Taux fixé pour chaque type de questionSelon les sources : extraction de balises de mots-clés ou de titres

Déroulement de l’évaluation Distribution des corpus de documents Tests des systèmes sur 1 semaine

Distribution des questions et des documents fournis par Pertimm pour chacune

Envoi des résultats (2 runs par tâche) Nombre de réponses permises

Maximum 5 pour questions factuelles et de type définition 1 pour questions de type oui/non Maximum 20 pour les questions de type liste

Evaluation des résultats par des juges humains 2 juges par run Un spécialiste pour tâche médicale 4 valeurs : correct, incorrect, inexact, non justifié

Mesures

2 métriques utilisées : MRR : Moyenne de l’inverse du Rang (Mean

Reciprocal Rank) Questions « factuelles » simples. Questions dont la réponse est une « définition ». Questions dont la réponse est « oui/non ».

NIAP : Précision moyenne (Non Interpolated Average Precision) Questions dont la réponse est une « liste ».

Résultats (1)

Tâche générale 7 participants

Tâche spécialisée 5 participants

Résultats de l'évaluation tâche générale pour les passages et réponses courtes

0,37 0,370,33 0,31

0,220,18

5 4 2 6 3 1 7

Participants

R Passages

Réponses

Résultats de l'évaluation tâche spécialisée pour les passages et réponses courtes

0,130,09 0,09

4 2 1 3 5

Participants

R Passages

Réponses

Résultats (2)

Résultats tâche générale "factuelles, définitions et oui-non"

0,550,47

0,43 0,43

0,230,17

5 4 2 6 3 1 7

Participants

Factuelles

Définitions

Oui-Non

Comparaison avec l’existant

Comparaison : 5 Réponses courtes TREC10 (2001) NTCIR (2003)

Meilleur système actuel sur l’anglais : 83% de réponses

correctes avec 1 seule réponse fournie (TREC11)

Comparaison des résultats entre différentes campagnes QA

1 2 3 4 5 6 7 8 9 10

Participants

Constitution d’un ensemble de données Ensemble des spécifications de la campagne,

corpus, outils et résultats. But :

Permettre à n’importe quel industriel ou académique de faire tourner son système dans des conditions identiques afin de pouvoir évaluer lui-même son système.

Pour aller plus loin

Pour améliorer les systèmes de question-réponse Selon les questions, différentes stratégies possibles Maîtriser la difficulté des questions Savoir quelle approche est meilleure qu’une autre pour

chaque composant Connaître l’impact d’un composant sur le résultat final

Question-réponse comme évaluation de processus par la tâche Exemples : Entité Nommée, résolution d’anaphore, analyse

syntaxique

Différents types de questions (1) Réponse factuelle

La réponse est extraite telle quelle ou moyennant quelques variations morphologiques simples. Une approche mot-clés peut alors tout à fait convenir.

Réponse issue d’un raisonnement simple La réponse est extraite d’un court passage toujours mais

amène à recourir à des connaissances sémantiques pour gérer des variations ou élaborer un raisonnement simple.

Exemple : Comment est mort Socrate ? En buvant du vin empoisonné -> faire le lien entre mort et

empoisonner.

Moldovan, D., Pasca M., Harabagiu S., Surdeanu M., “Performance Issues and Error Analysis in an Open-Domain Question Answering system”, ACM transactions on Information Systems (TOIS), 2003

Différents types de questions (2) Fusion de réponses

Les éléments de réponses sont répartis sur plusieurs documents Il s’agit de les assembler en un tout cohérent. Cela peut aller de simples listes à la constitution de modes

d’emploi. Interaction à gérer

Questions s’enchaînant dans un même contexte, relatif à la première question -> TREC9

Raisonnement par analogie Les réponses ne sont pas explicites dans les documents Entraînent la décomposition en plusieurs questions et leur

interprétation par analogie aux faits existant.

Evaluation des composants d’un système

Etablir des cadres d’évaluation systématiques, voire des plates-formes Permettrait le développement et l’évaluation de

processus sans avoir à développer un système complet Approfondissement du principe consistant à fournir les

documents aux participants

Conclusion

EQueR : évaluation sur le français 7 participants

CLEF : depuis 2004, évaluation monolingue sur le français 4 participants en 2005, plus que les autres langues

Originalité d’EQueR A gardé la tâche évaluation de passage

Réintroduit à TREC 2005 Introduction de questions booléennes

Similitudes avec l’évaluation « Recognizing Textual entailment » du réseau Pascal

Introduction d’une tâche spécialisée Poursuivre EQueR à CLEF ?

Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Documents

DEMARCHE D’EVALUATION

Rapport : Mission Conjointe d’Evaluation Rapide

TOISIEME CYCLE D’EVALUATION

Dispositif d’Evaluation Nationale en Sixième

REFERENTIEL D’EVALUATION

QUESTIONS ET RÉPONSES Questions et réponses

Grille d’Appréciation ou d’Evaluation

Outil d’Evaluation des Laboratoires

CONSEIL NATIONAL D’EVALUATION DES NORMES

METHODE D’EVALUATION CONTINGENTE

LE REFERENTIEL D’EVALUATION INTERNE

GUIDE D’ELABORATION DES SITUATIONS D’EVALUATION

GUIDE MÉTHODOLOGIQUE D’EVALUATION SENSIBLE AU …

RAPPORT D’EVALUATION MULTISETORIELLE DANS LE …

RAPPORT D’EVALUATION TECHNOLOGIQUEsolidarites-sante.gouv.fr/IMG/pdf/Rapports_de_la_Haute_autorite_de... · rapport d’evaluation technologique mise a jour de mars 2011 intÉgrant

OMMISSION NATIONALE D’EVALUATION DES DISPOSITIFS …

REFERENTIEL D’EVALUATION DU TITRE ... - banque.di.afpa.fr

RAPPORT D’EVALUATION EXTERNE DU …anaqsup.sn/sites/default/files/accreditation_rapport...réponses concrètes aux différentes questions. Toutefois, le rapport est peu analytique

Troisième Cycle d’Evaluation Rapport d’Evaluation sur le

Système d’Evaluation des Environnementales (SEVE) · PDF fileSystème d’Evaluation des Variantes Environnementales (SEVE) Manuel D’utilisation Edition : Décembre 2011