24
Campagne d’Evaluation de systèmes de Questions- Réponses : EQueR Brigitte Grau (LIR – LIMSI)

Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

  • Upload
    nelson

  • View
    34

  • Download
    3

Embed Size (px)

DESCRIPTION

Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR. Brigitte Grau (LIR – LIMSI). Base de connaissances factuelles et encyclopédi-ques. Collection de documents répertoriés. Web. Recherche d’information précise. Besoin particulier : - PowerPoint PPT Presentation

Citation preview

Page 1: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Brigitte Grau (LIR – LIMSI)

Page 2: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Recherche d’information précise Besoin particulier :

requête précise : une question en langage naturel Granularité de la réponse : "passage retrieval"

Qui a tué Henri IV ?

WebCollection de documents répertoriés

Base de connaissancesfactuelles et encyclopédi-ques

Page 3: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Extraction à partir de textes

… C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …

Qui a poignardé Henri IV ? Pers <poignarder> Henri IV

Qui a tué Henri IV ? Tuer synonyme de poignarder

Où a été tué Henri IV ?Tuer => mort = rendre son

dernier soupirou

Ville dans le contexte

CODSUJET CODSUJET

Page 4: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Différents composants

Analyse des questions Traitement des documents

Extraction de la réponse

Etiquetage morpho-syntaxique

Analyse syntaxique

Désambiguation

Typage des réponses

Choix de mots pivots

Reconnaissance des entités nommées

Sélection de documents ou de passages

Moteur de recherche

Constitution de la requête

Sélection de passages ou de phrases

Analyse des phrases

Extraction des réponses

Evaluation des réponses

Page 5: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Approche linguistique Composants concernés

Détermination du type de réponse : Des entités nommées classiques à des catégories

spécialisées Reformulation Web Ecriture de patrons d’extraction liés au type d’information

cherché De patrons très figés à des règles de reformulation

Appariement de représentations de phrase (question/phrases candidates)

Fondée sur : Etiquetage morpho-syntaxique Segmentation en groupe Analyse syntaxique Analyse sémantique

Page 6: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Approches statistiques et apprentissage

Composants concernés Sélection des documents Sélection de passages Apprentissage de patrons d’extraction Evaluation de la réponse

Un degré de confiance

Page 7: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Connaissances

Lexiques spécialisés pour entités nommées Bases de connaissances spécialisées Connaissances sémantiques générales

Sources WordNet pour l’anglais Pour le français ?

Connaissances Relations de dépendances hiérarchiques Relations de synonymie Règles de déduction : modélisation des définitions WordNet

Page 8: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Evaluations existantes

Etats-Unis : TREC Tâche Q/A depuis TREC8 (1999)

Europe : CLEF Tâche Q/A depuis 2003, analogue à Trec Multilingue

Japon : NTCIR Tâche Q/A depuis 2003, analogue à Trec

France : EQuER Campagne en 2004

Page 9: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Que doit-on évaluer ?

La justesse de la réponse La concision et la complétude

Ne pas trop en dire, mais dire tout ce qui est nécessaire

La pertinence de la réponse La réponse peut être différente selon le contexte

L’interaction avec l'utilisateur Le temps de réponse La facilité d'utilisation du système

=

Page 10: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

EQueR Organisateur : ELDA (Paris) Responsable scientifique : Brigitte Grau (LIMSI) Fournisseurs de corpus et d’outils :

ELDA : corpus général CISMEF : corpus médical Systal / Pertimm : moteur de recherche

Participants : 3 institutions privées : France Télécom, Sinequa, Synapse 5 laboratoires publics :

Limsi-CNRS, LIA & iSmart, STIM / AP-HP, CEA, Université de Neuchâtel

Page 11: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Présentation générale

Objectifs Faire une photographie de l’état de l’art en France Permettre le développement de l’activité en fournissant des

corpus aux chercheurs Trois tâches étaient prévues

Tâche « généraliste » Tâche « spécialisée », domaine spécifique (médical) Tâche « généraliste » Web abandonnée

2 types de réponses passages de 250 caractères réponses courtes

Page 12: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Les corpus de documents Corpus « général »

1,5 Go environ (constitution ELDA) Articles, dépêches de presse et rapports institutionnels

Le Monde (1992-2000) Le Monde Diplomatique (1992-2000) SDA (Schweitzeriche Depeschenagentur (1994-1995) Le Sénat (1996-2001)

Corpus « médical » 50 Mo environ (constitution CISMEF/STIM) tirés des sites Web Articles scientifiques du domaine médical, recommandations

Santé Canada Orphanet CHU Rouen FNLCC (Fédération Nationale de Lutte Contre le Cancer)

Page 13: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Corpus de questions

500 questions générales 407 questions factuelles

Qui a écrit Germinal ? Emile Zola

31 questions de type listeQuels sont les 7 pays du G7 ? Allemagne, Canada, Etats-Unis, France,Grande-Bretagne, Italie et Japon

32 questions de type définitionQui est Alexander Popov ?Nageur russe

30 questions de type oui/nonExiste-t-il une ligne de TGV Valenciennes-Paris ? OUI

200 questions médicales 81 questions factuelles

Citer un traitement de la schyzophrénie.

La neurochirurgie 25 questions de type liste

Quels sont les 4 stades du cancer de l’ovaire ?

70 questions de type définition 24 questions de type oui/non

Le mercure est-il un métal toxique ?

OUI

Taux fixé pour chaque type de questionSelon les sources : extraction de balises de mots-clés ou de titres

Page 14: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Déroulement de l’évaluation Distribution des corpus de documents Tests des systèmes sur 1 semaine

Distribution des questions et des documents fournis par Pertimm pour chacune

Envoi des résultats (2 runs par tâche) Nombre de réponses permises

Maximum 5 pour questions factuelles et de type définition 1 pour questions de type oui/non Maximum 20 pour les questions de type liste

Evaluation des résultats par des juges humains 2 juges par run Un spécialiste pour tâche médicale 4 valeurs : correct, incorrect, inexact, non justifié

Page 15: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Mesures

2 métriques utilisées : MRR : Moyenne de l’inverse du Rang (Mean

Reciprocal Rank) Questions « factuelles » simples. Questions dont la réponse est une « définition ». Questions dont la réponse est « oui/non ».

NIAP : Précision moyenne (Non Interpolated Average Precision) Questions dont la réponse est une « liste ».

Page 16: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Résultats (1)

Tâche générale 7 participants

Tâche spécialisée 5 participants

Résultats de l'évaluation tâche générale pour les passages et réponses courtes

0,7

0,37 0,370,33 0,31

0,220,18

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

5 4 2 6 3 1 7

Participants

MR

R Passages

Réponses

Résultats de l'évaluation tâche spécialisée pour les passages et réponses courtes

0,49

0,130,09 0,09

0,02

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

4 2 1 3 5

Participants

MR

R Passages

Réponses

Page 17: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Résultats (2)

Résultats tâche générale "factuelles, définitions et oui-non"

0,74

0,550,47

0,43 0,43

0,230,17

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

5 4 2 6 3 1 7

Participants

MR

R

Factuelles

Définitions

Oui-Non

Page 18: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Comparaison avec l’existant

Comparaison : 5 Réponses courtes TREC10 (2001) NTCIR (2003)

Meilleur système actuel sur l’anglais : 83% de réponses

correctes avec 1 seule réponse fournie (TREC11)

Comparaison des résultats entre différentes campagnes QA

0

0,2

0,4

0,6

0,8

1 2 3 4 5 6 7 8 9 10

Participants

MR

R

TREC

NTCIR

EQUER

Page 19: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Bilan

Constitution d’un ensemble de données Ensemble des spécifications de la campagne,

corpus, outils et résultats. But :

Permettre à n’importe quel industriel ou académique de faire tourner son système dans des conditions identiques afin de pouvoir évaluer lui-même son système.

Page 20: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Pour aller plus loin

Pour améliorer les systèmes de question-réponse Selon les questions, différentes stratégies possibles Maîtriser la difficulté des questions Savoir quelle approche est meilleure qu’une autre pour

chaque composant Connaître l’impact d’un composant sur le résultat final

Question-réponse comme évaluation de processus par la tâche Exemples : Entité Nommée, résolution d’anaphore, analyse

syntaxique

Page 21: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Différents types de questions (1) Réponse factuelle

La réponse est extraite telle quelle ou moyennant quelques variations morphologiques simples. Une approche mot-clés peut alors tout à fait convenir.

Réponse issue d’un raisonnement simple La réponse est extraite d’un court passage toujours mais

amène à recourir à des connaissances sémantiques pour gérer des variations ou élaborer un raisonnement simple.

Exemple : Comment est mort Socrate ? En buvant du vin empoisonné -> faire le lien entre mort et

empoisonner.

Moldovan, D., Pasca M., Harabagiu S., Surdeanu M., “Performance Issues and Error Analysis in an Open-Domain Question Answering system”, ACM transactions on Information Systems (TOIS), 2003

Page 22: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Différents types de questions (2) Fusion de réponses

Les éléments de réponses sont répartis sur plusieurs documents Il s’agit de les assembler en un tout cohérent. Cela peut aller de simples listes à la constitution de modes

d’emploi. Interaction à gérer

Questions s’enchaînant dans un même contexte, relatif à la première question -> TREC9

Raisonnement par analogie Les réponses ne sont pas explicites dans les documents Entraînent la décomposition en plusieurs questions et leur

interprétation par analogie aux faits existant.

Page 23: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Evaluation des composants d’un système

Etablir des cadres d’évaluation systématiques, voire des plates-formes Permettrait le développement et l’évaluation de

processus sans avoir à développer un système complet Approfondissement du principe consistant à fournir les

documents aux participants

Page 24: Campagne d’Evaluation de systèmes de Questions-Réponses : EQueR

Conclusion

EQueR : évaluation sur le français 7 participants

CLEF : depuis 2004, évaluation monolingue sur le français 4 participants en 2005, plus que les autres langues

Originalité d’EQueR A gardé la tâche évaluation de passage

Réintroduit à TREC 2005 Introduction de questions booléennes

Similitudes avec l’évaluation « Recognizing Textual entailment » du réseau Pascal

Introduction d’une tâche spécialisée Poursuivre EQueR à CLEF ?