View
31
Download
1
Category
Preview:
DESCRIPTION
Recherche - Évaluation. Extraction d’Information dans les textes I. Rappels des épisodes précédents. Les acteurs de la Recherche d'Information. Collection : un ensemble de documents. Les systèmes de RI doivent pouvoir traiter : De grandes masses d'information - PowerPoint PPT Presentation
Citation preview
Xavier Tannierxavier.tannier@limsi.fr
Recherche-
Évaluation
Extraction d’Information dans les textes I
Rappels des épisodes précédents
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Les acteurs de la Recherche d'Information
Utilisateur : un besoin
d'information et/ou une tâche
à accomplir
Collection : un ensemble de
documents
Les systèmes de RI doivent pouvoir traiter :
• De grandes masses d'information• En langage naturel (et créée pour
des humains)• De façon rapide et pertinente
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Recherche d'Information
4
Collections dynamiquesvs. statiques
Requête
Indexation(modèle de document)
Modèle derecherche Évaluation
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Construction de l’index : vue générale
5
TEXTERien ne sert de courir; il faut partir à point :Le lièvre et la tortue en sont un témoignage.
«Gageons, dit celle-ci, que vous n'atteindrez pointSitôt que moi ce but. - Sitôt? Êtes-vous sage ?
Repartit l'animal léger : Ma commère, il vous faut purger Avec quatre grains d'ellébore.) - Sage ou non, je parie encore."
Ainsi fut fait; et de tous deux On mit près du but les enjeux :
Savoir quoi, ce n'est pas l'affaire, Ni de quel juge l'on convint.
Notre lièvre n'avait que quatre pas à faire,J'entends de ceux qu'il fait lorsque, prêt d'être atteint,
Il s'éloigne des chiens, les renvoie aux calendes, Et leur fait arpenter les landes.
Ayant, dis-je, du temps de reste pour brouter, Pour dormir et pour écouter
D'où vient le vent, il laisse la tortue Aller son train de sénateur.
Elle part, elle s'évertue, Elle se hâte avec lenteur.
Lui cependant méprise une telle victoire, Tient la gageure à peu de gloire,
Croit qu'il y a de son honneur De partir tard. Il broute, il se repose,
Il s'amuse à toute autre chose Qu'à la gageure. A la fin, quand il vit
Que l'autre touchait presque au bout de la carrière,Il partit comme un trait; mais les élans qu'il fit
Furent vains : la tortue arriva la première."Eh bien! lui cria-t-elle, avais-je pas raison ?
De quoi vous sert votre vitesse ? Moi l'emporter! et que serait-ce Si vous portiez une maison ?"
TERMES
Rien ne sert de
courir il faut
partir à point
TERMES NORMALISÉS
rien sert
courir faut
partir point
DOCUMENTS INDEX
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Fichier inverse
6
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Sac de mots
Modèles « sac de mots » pour l’indexation et la recherche :– On oublie l’ordre des mots– On raisonne en termes de présence / absence des termes dans un document,
ou en terme de fréquence de ces termes
7
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
tf.idf• Intuition #1 : plus un document contient d'occurrences
d'un terme, plus il est "à propos" de ce terme • Intuition #2 : des termes très fréquents dans tous les documents ne
sont pas si importants (ils sont moins discriminants)• Le poids d’un terme (tf.idf) est la combinaison de ces deux
intuitions pour rendre compte du caractère discriminant d’un terme dans un document
8
¿𝒕𝒇 𝒕 ,𝒅× 𝒍𝒐𝒈𝟏𝟎𝑵𝒅𝒇 𝒕
𝒘 𝒕 ,𝒅=𝒕𝒇 𝒕 ,𝒅× 𝒊𝒅𝒇 𝒕
(ou sa variante)
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Proposition temporaire de similarité
• Proposition pour le score de similarité d’un document D en fonction d’une requête Q
• On ne la conservera pas!
9
𝑠𝑖𝑚𝑄 ,𝐷= ∑𝑡∈𝑄∩ 𝐷
𝑤𝑡 ,𝐷
Du modèle booléen
aux modèles à listes de
résultats ordonnés
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèles de recherche : les trois courants• Modèles fondés sur la théorie des ensembles
► Modèle booléen• Modèles algébriques
► Modèle vectoriel• Modèles probabilistes
► Modélisation de la notion de "pertinence"
• Courants fondés à l'aube de la discipline (années 60, 70)• Passage à l'échelle : des bases documentaires "jouets" au téraoctet
de TREC et au Web
11
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle booléen• Le premier et le plus simple des modèles• Basé sur la théorie des ensembles et l'algèbre de Boole• Les termes de la requête sont soit présents soit absents
– Poids binaire des termes, 0 ou 1• Un document est soit pertinent soit non pertinent
– Pertinence binaire, et jamais partielle (modèle exact)• La requête s'exprime avec des opérateurs logiques
– AND, OR, NOT– (cyclisme OR natation) AND NOT dopage– le document est pertinent si et seulement si son contenu respecte la formule
logique demandée
12
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Modèle booléen : exemple
13
Requête Q : (cyclisme OR natation) AND NOT dopage
Le document contient Pertinence du
documentcyclisme natation cyclisme OR natation
dopage NOT dopage
0 0 0 0 1 0
0 0 0 1 0 0
0 1 1 0 1 1
0 1 1 1 0 0
1 0 1 0 1 1
1 0 1 1 0 0
1 1 1 0 1 1
1 1 1 1 0 0
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle booléen : avantages et inconvénients• Avantages :
– Le modèle est transparent et simple à comprendre pour l'utilisateur :• Pas de paramètres "cachés"• Raison de sélection d'un document claire : il répond à une formule logique
– Adapté pour les spécialistes (vocabulaire contraint)• Inconvénients :
– Il est difficile d'exprimer des requêtes longues sous forme booléenne– Le critère binaire peu efficace
• Il est admis que la pondération des termes améliore les résultats• cf. modèle booléen étendu
– Il est impossible d'ordonner les résultats• Tous les documents retournés sont sur le même plan• L'utilisateur préfère un classement lorsque la liste est grande
14
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Extensions possibles
• Opérateurs d'adjacence ou de proximité :– « base NEAR données »– Nécessite la conservation des positions des mots dans les documents
• Pondération des mots-clés– « JO AND Pékin AND (natation:3 OR cyclisme:4 OR athlétisme:2) »– Permet un classement des résultats, mais selon des préférences exprimées par
l'utilisateur
• Voir aussi plus loin le modèle booléen étendu
15
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Vers des listes ordonnées de résultats• La plupart des utilisateurs :
– ont du mal à écrire des requêtes booléennes– ne veulent pas parcourir trop de résultats (des milliers, voire des millions)
On préfère donc des listes ordonnées– Du plus utile à l’utilisateur (pertinent) au moins utile– Le nombre de résultats n’est plus un problème– L’utilisateur en parcourt autant qu’il le souhaite
• La condition : avoir un algorithme d’ordonnancement efficace• Modèle statistique :
– Aspect quantitatif des termes et des documents– Degré de similarité entre une requête et un document
16
Modèle vectoriel
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle vectoriel• Mesure de similarité : Plus deux représentations contiennent les mêmes éléments,
plus la probabilité qu’elles représentent la même information est élevée.
• Documents et requête sont représentés par un vecteur– Les coordonnées du vecteur sont exprimées dans un espace euclidien à n
dimensions (n : nombre de termes)– La longueur du vecteur (i.e. de sa projection sur chacun des axes/termes) est
proportionnelle au poids des termes.• La pertinence du document correspond au degré de similarité entre
le vecteur de la requête et celui du document
On ordonne les documents du plus similaire à la requête au moins similaire
18
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
0.45
D
Modèle vectoriel
19
t3
t1
t2
Q
Requête Q : t1 t2 t3
Document D : … t1 … t3 …
Poids wD,t1 = 0.45
Poids wD,t3 = 0.80
0.80
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Quelle mesure de similarité ?
20
Produit scalaire ?
D1t2
t1
Q
D4D3
D2
D1t2
t1
Q
D4D3
D2
Distance euclidienne ?
¿ (�⃗� , �⃗� )=�⃗� ∙ �⃗�=∑𝑖=1
𝑛
𝑤𝑖 ,𝑄×𝑤𝑖 ,𝐷
Une mauvaise idée… … Pourquoi ?
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Quelle mesure de similarité ?• La solution : travailler avec l’angle entre les vecteurs
21
D1t2
t1
Q
D4D3
D2
Cosinus
¿ (�⃗� , �⃗� )= �⃗� ∙ �⃗�|⃗𝑄|×|⃗𝐷|
=∑𝑖=1
𝑛
𝑤𝑖 ,𝑄×𝑤𝑖 ,𝐷
√∑𝑤 ²𝑖 ,𝑄×√∑𝑤 ² 𝑖 ,𝐷
(Le produit scalaire avecnormalisation de la longueur des vecteurs)
Quelle est la contribution d’un terme isolé ?
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Quelle mesure de similarité ?• Autres mesures :
– Dice
– Jaccard
– Overlap
22
𝑅𝑆𝑉 (Q⃗ , D⃗ )= ∑𝑤𝑖Q ×𝑤 𝑖D
𝑚𝑖𝑛 (∑𝑤 𝑖D ,∑𝑤𝑖Q )∣ 𝐴∩𝐵∣
𝑚𝑖𝑛 (∣ 𝐴∣ , ∣𝐵∣ )
𝑅𝑆𝑉 (Q⃗ , D⃗ )=2∑𝑤𝑖Q ×𝑤𝑖D
∑𝑤𝑖Q+∑𝑤𝑖D
2∣ 𝐴∩𝐵∣∣ 𝐴 ∣+∣ 𝐵∣
𝑅𝑆𝑉 (Q⃗ , D⃗ )= ∑𝑤𝑖Q ×𝑤 𝑖D
∑𝑤𝑖Q+∑𝑤𝑖D −∑𝑤𝑖Q ×𝑤 𝑖D
∣ 𝐴∩𝐵∣∣ 𝐴∪𝐵∣
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
23
Modèle vectoriel – résumé
• On représente la requête comme un vecteur (quelle pondération ?)
• On représente chaque document comme un vecteur pondéré
• On calcule la similarité (cosinus par exemple) entre chaque vecteur document et le vecteur requête
• On ordonne les résultats dans l’ordre inverse des scores obtenus
• On fournit les k premiers résultats à l’utilisateur
À retenir pour le projet !
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle vectoriel : avantages et inconvénients• Avantages :
– Le langage de requête est plus simple (liste de mot-clés)– Les performances sont meilleures grâce à la pondération des termes– Le renvoi de documents à pertinence partielle est possible– La fonction d'appariement permet de trier les documents
• Inconvénients :– Le modèle considère que tous les termes sont indépendants
(inconvénient théorique)– Le langage de requête est moins expressif– L'utilisateur voit moins pourquoi un document lui est renvoyé
Le modèle vectoriel est le plus populaire en RI
24
Autres modèles
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle probabiliste (1/4)• Estimation de la probabilité de pertinence d'un document par rapport à une requête• Probability Ranking Principle (Robertson 77)• R : D est pertinent pour Q• ¬R : D n'est pas pertinent pour Q• Le but : estimer
– P(R/D) : probabilité que le document D soit contienne de l'information pertinente pour Q– P(¬R/D)
26
variables indépendantes, deux ensembles de documents séparés
si 𝑃 (𝑅/ D )𝑃 (¬𝑅/ D )
>1 ou si log 𝑃 (𝑅 / D )𝑃 (¬𝑅 / D )
>0 alors D est pertinent
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle probabiliste• Rappel du théorème de Bayes :
• On ne sait pas calculer P(R/D), mais on peut calculer P(D /R)
27
)()()/()/(
BPAPABPBAP
)()()/()/(
DPRPRDPDRP
Probabilité d'obtenir D en connaissant les pertinents
Probabilité d'obtenir un document pertinent en piochant au hasard
Probabilité de piocher D au hasard
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle probabiliste• En utilisant l'hypothèse d'indépendance des termes :
• Pour estimer les probabilités sur les termes, on peut utiliser des requêtes déjà résolues (apprentissage) puis des pondérations
• Exemple (système Okapi) :– le tf.idf– la longueur du document– la longueur moyenne des documents
28
n
ii RDtPRDP
1
)/()/(
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle probabiliste : conclusion• Deux modèles phares :
– 2-poisson– Okapi
• Autres modèles de type probabiliste :– Réseaux bayésiens– Modèle de langage
• Conclusion :– Problème des probabilités initiales– Termes indépendants– Résultats comparables à ceux du modèle vectoriel
29
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Modèle booléen étendu• Idée : permettre l'utilisation des opérateurs logiques tout en proposant une pertinence graduée• Combinaison des modèles booléen et vectoriel• Utilisation de la pondération des termes dans un document (tf.idf)• Comme dans le modèle vectoriel, positionnement des documents dans un espace euclidien dont les axes sont les termes de la requête
• Calcul de la distance entre les coordonnées du document et :– les coordonnées idéales (requête ET)– les coordonnées nulles (requête OU)
30
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Modèle booléen étendu : exemple (1/2)
31
Requête Q : t1 AND/OR t2
Document D1 : ... t1 ... t2 ...
poids wD1,t1 = 0.75
poids wD1,t2 = 0.65
Document D2 : ... t1 ... t2 ...
poids wD2,t1 = 0.25
poids wD2,t2 = 0.50
D1D2
t2
0,65
0,75t1
1
1
0,5
0,25(0,0)
(1,1)
x2 x1
y2
y1
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Modèle booléen étendu : exemple (2/2)
32
t2
0,65
0,75t1
1
1
0,5
0,25(0,0)
(1,1)
D1D2
x2 x1
y2
y1
t2
0,65
0,75t1
1
1
0,5
0,25(0,0)
(1,1)
D1D2y2
y1
t1 OR t2 t1 AND t2
𝑅𝑆𝑉 (D⃗ , Q⃗OR )=√ 𝑥2+𝑦 2
2 𝑅𝑆𝑉 (D⃗ , Q⃗AND )=1 −√ (1− 𝑥 )2+(1 − 𝑦 )2
2
x2 x1
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Modèle booléen étendu : formule finale
33
𝑅𝑆𝑉 (D⃗ , Q⃗OR )=𝑝√ ∑
𝑖=1. .m𝑐𝑚𝑝
𝑚
𝑅𝑆𝑉 (D⃗ , Q⃗AND )=1 −𝑝√ ∑
𝑖=1. .m(1−𝑐 )𝑚
𝑝
𝑚
avec :• c les coordonnées des mots• m le nombre de termes
de la requête• 1 ≤ p ≤ ∞ p = 1 modèle booléen classique
p = 2 exemple précédent
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Autres modèles algébriques• Modèle vectoriel généralisé
– Représente les dépendances entre termes– Théoriquement intéressant, mais efficacité non démontrée
• Latent Semantic Indexing– Propose d'étudier les "concepts" plutôt que les termes, car ce sont eux qui relaient les idées d'un texte.– Lie les documents entre eux et avec la requête– Permet de renvoyer des documents ne contenant aucun mot de la requête– Moins de dimensions
• Réseaux de neurones• ...
34
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Pour aller plus loin...
35
(Dominik Kuropka 04)
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Quelques outils
36
• lucy/zettair• cheshire• dataparksearch engine• lemur• lucene (et solr)• terrier• wumpus• xapian
http://www.seg.rmit.edu.au/zettair/http://cheshire.lib.berkeley.edu/http://www.dataparksearch.org/http://www.lemurproject.org/http://jakarta.apache.org/lucene/docs/http://ir.dcs.gla.ac.uk/terrier/http://www.wumpus-search.org/http://www.xapian.org/
liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html
Relevance feedback
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Relevance feedback (1/2)• "Réinjection de la pertinence"• Hypothèse : la requête initiale de l'utilisateur n'est pas la requête idéale pour obtenir les documents qu'il cherche• But : déplacer le vecteur de la requête pour la rapprocher des documents pertinents
38
Q Q'
documents non pertinents
documents pertinents
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Relevance feedback (2/2)• "Manuel explicite" :
– L'utilisateur visualise les n premiers résultats– Il estime la pertinence de chacun (0 ou 1)– Nouvelle requête obtenue à partir des documents jugés pertinents et non pertinents
• Automatique (blind relevance feedback) :– Les n premiers résultats du premier run sont supposés pertinents – Même processus que pour le relevance feedback manuel (sans les documents non pertinents)
39
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Relevance feedback : formule de Rocchio
40
𝑄 ′=α �⃗�+ β𝑃+γ �⃗�𝑃
moyenne des vecteurs des documents non pertinents
moyenne des vecteurs des documents pertinents
vecteur requête initial
nouveau vecteur requête
valeur négative (ex : -0,25)
valeur positive (ex : 0.5)
valeur positive supérieure aux autres (ex : 1)
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Formule de Rocchio : exemple
41
�⃗�=(5,0,3,0,1 )
�⃗�= (2,1,2,0,0 )=D1
�⃗�𝑃= (1,0,0,0,2 )=D 2
𝑄 ′=�⃗�+ �⃗� − �⃗�𝑃𝑄 ′= (5.75,0 .5,4,0,0 .5 )
𝑄 ′=α �⃗�+ β𝑃+γ �⃗�𝑃
cosinus D1 D2Q1 0,90 0,53
Q2 0,95 0,43
Divers
42
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Recherche multimédia• Texte et/ou image et/ou audio et/ou vidéo...• Des collections très volumineuses :
– ex : collection Wikipédia pour INEX– 4.6 Go en texte seul, 60 Go avec les images
• Documents structurés (MPEG-7...)
• Utilisation :– des métadonnées– du texte "environnant" les images (légende, point de référence...)– des caractéristiques propres des documents autres que le texte :
• Analyse d'image• Speech-to-text• ...
43
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Quels résultats présenter ?• Il est inutile et coûteux de présenter trop de résultats• Où s'arrêter ?• Un seuil :
– Fixe• Difficile à trouver• Risque de ne rien présenter
– Fonction du meilleur score• Quelle signification ?• Comportement variable
• Augmentation brutale de la pente• La méthode du « coude »
44
cosinus
rang
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Expansion de la requête• Ajouter des mots pertinents à la requête initiale et les pondérer
efficacement
• Méthodes pour palier les problèmes liés au langage naturel– « bateau » ne ramène pas le mot « navire »– « thermodynamique » ne ramène pas « chaleur »– « félin » ne ramène pas « chat »– …
• Le relevance feedback sert aussi à ça (en partie)
45
Pourquoi ?
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Expansion de la requête• Les thesaurus « manuels »
• Les thesaurus automatiques (voir page suivante)
• L’analyse des logs de requêtes
46
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Génération automatique de thesaurus• Fondée sur la similarité entre deux mots• Co-occurrence de deux mots : deux mots qui apparaissent
fréquemment ensemble possèdent une relation sémantique entre eux– Ex: « location » et « appartement »– Conduit à des relations sémantiques non spécifiées
• Co-occurrence des contextes : deux mots sont similaires s’ils co-occurrent avec des mots similaires– Ex: « bateau » et « navire », « chat » et « félin », mais aussi « chat » et
« chien », « PS » et « UMP », etc.– Conduit plutôt à des relations lexicales de synonymie ou hyperonymie, mais
peut également être plus large– Possibilité d’utiliser les relations syntaxiques également
47
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Génération automatique de thesaurus• chat animal de compagnie, siamois, client IRC, persan, chien, …• télévision TV, séries, programme, radio, images, …
• Expansion de requêtes à base de thesaurus :– Ajouter les mots jugés similaires à la requête– Éventuellement, donner des pondérations en fonction du niveau de similarité
• Quand s’arrête-t-on d’étendre la requête ?
48
Quels sont les effets de ces expansions de requêtes sur la précision et le rappel ?
Évaluation
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Recherche d'Information
50
Collections dynamiquesvs. statiques
Requête
Indexation(modèle de document)
Modèle derecherche
Évaluation
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Qu’est-ce qu’un bon moteur de recherche ?• Il est rapide !
Une analyse rapide de la requête Une recherche rapide dans l’index Un tri rapide des résultats
• Il est complet et à jour !– Tous les (ou de nombreux) documents de la collection sont traités– Les nouveaux documents sont incorporés rapidement aux résultats Une construction rapide de l’index (sur le Web) Une découverte permanente, efficace et rapide des nouveaux
documents
51
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Qu’est-ce qu’un bon moteur de recherche ?• Son langage de requêtes est simple et expressif
– Ces notions dépendent des types d’utilisateurs Un modèle de recherche et d’indexation approprié
• Son interface est sympa De nombreuses recherches dans ce domaine
• Il est gratuit ou pas cher Les moteurs de recherche (sur le Web mais pas seulement) sont un enjeu économique très important (et il faut trouver des recettes)
52
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Qu’est-ce qu’un bon moteur de recherche ?• Mais surtout… il est pertinent !
– Ses résultats doivent satisfaire le besoin d’information de l’utilisateur– Mais ce point est plus difficile à mesurer– Il n’est pas indépendant des autres points
(la satisfaction de l’utilisateur dépend de l’ensembledes critères)
• Ce point dépend des utilisateurs– Les humains sont subjectifs– Ils ont leurs propres connaissances– Ils ont des besoins différents qui n’apparaissent
pas toujours dans leur expression de ces besoins
53
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Comment mesurer la pertinence ?• Un moteur sur le Web
– L’utilisateur clique sur certains liens et pas sur d’autres– L’utilisateur retourne sur le moteur– L’utilisateur effectue une certaine tâche
• Un site de e-commerce– L’utilisateur achète (mais alors de qui mesure-t-on la satisfaction ?)
– Il achète vite– Une forte proportion de visiteurs achètent
• Un site d’entreprise– L’utilisateur gagne-t-il en productivité ?– L’accès est-il sécurisé ?– Etc.
54
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Qu’est-ce qu’une bonne évaluation ?• Évaluer un système sert à :
– Savoir s’il remplit la tâche assignée– Savoir s’il est meilleur que la concurrence– Savoir où on peut l’améliorer
• Il faut donc une évaluation :– Reproductible
• Pour évaluer plusieurs systèmes de la même façon• Pour estimer les progrès accomplis
– Interprétable• Pour identifier les zones de progrès possible
– Rapide• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective
55
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Comment rendre la pertinence objective ?• Rappel :
– Le besoin de l’utilisateur est d’abord transformé en requête, ce qui comporte déjà une perte d’information.
– On mesure la pertinence des résultats par rapport au besoin d’information initial, pas par rapport à la requête ! (ex: « java »)
– Des résultats peuvent être « très pertinents », « pas du tout pertinent », mais aussi « un peu pertinents », « moui » ou « je le savais déjà »
• Pour rendre la pertinence objective :– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres• La pertinence est transformée en notion binaire
– On utilise des « collections de test »
56
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Collections de test
La collection de test rend les expériences reproductibles
• On met au point un protocole • On juge manuellement un nombre significatif d’exemples
– « Gold standard »– Une partie peut également servir d’ensemble de « développement » et/ou
d’ « apprentissage »• On calcule un accord inter-annotateurs
– Pour valider le caractère objectif• On compare les résultats du système aux résultats attendus• On définit des mesures imparfaites mais précises
57
Indexation et Recherche d'InformationXavier Tannier Recherche, évaluation
Documents pertinents P
Évaluation : précision et rappel
58
Retour dusystème S
Documents renvoyés ET pertinents
silence
bruit
SSP
Précision
PSP
Rappel Rappel- 1 Silence
Précision- 1 Bruit
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Précision et rappel• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision Ce n’est pas compatible avec la satisfaction de l’utilisateur !
• Pourquoi pas juste le rappel ?– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents
pertinents– Renvoyer tous les documents de la collection permet d’obtenir 100 % de
rappel Ce n’est pas compatible avec la satisfaction de l’utilisateur !
59
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Courbe rappel/précision• Le rappel augmente bien sûr avec le nombre de réponses• La précision diminue (en général)• On utilise la courbe rappel/précision pour caractériser les systèmes
de recherche d'information
60
0
0,2
0,4
0,6
0,8
1
,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Évaluation : F-mesure• Pour obtenir une valeur unique entre 0 et 1, on utilise la F-mesure
(moyenne harmonique)
• Pour donner autant d'importance à la précision qu'au rappel, on choisit = 1
• < 1 favorise la précision, > 1 favorise le rappel
61
RPRP
Rp
F
2
2 )1(1)1(1
1
11 avec 2
RPRPF
.2
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Évaluation : autres mesures• MAP (Mean Average Precision) : aire sous la courbe R/P• P@5, P@10 : précision après 10 documents retrouvés favorise
la haute/très haute précision• P@100, ...• Taux d'erreur = (faux positifs + faux négatifs) / pertinents• et de nombreuses autres...
62
MAP
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Le pooling (1/3)• Problème du rappel dans les collections importantes
– Le rappel impose en théorie de connaître tous les documents pertinents– Impossible en pratique
• Le pooling :– Une fusion "intelligente" des résultats– Les n premiers documents produits par les systèmes sont fusionnés
(n = 100 ou plus)– Seuls ces documents sont jugés par les experts humains– Les documents non jugés sont considérés comme non pertinents– Le calcul du rappel fait comme si tout avait été jugé
63
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Le pooling (2/3)• L’accord inter-annotateurs est d'environ 80%• Au mieux 50 à 70 % des documents pertinents seraient retrouvés par cette méthode (Zobel 98)• Le biais qui en résulte :
– Le rappel est surévalué– La précision est sous-évaluée– Les systèmes "originaux" qui s'entraînent sur ces collections peuvent être pénalisés
• Mais :– Le biais est faible s'il y a suffisamment de requêtes et de systèmes– L'évaluation "relative" (comparaison entre systèmes) reste valable– On n'a pas le choix
64
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Le pooling (3/3)
65
Documents
pertinentsDocumen
tspertinent
spooling
Retour du
Système
Précision perdue
Rappel gagné
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Campagnes d'évaluation• TREC (Text REtrieval Conference) :
– Événement phare du domaine, tous les ans depuis 1992– Sponsorisée par la DARPA– De nombreux axes de recherche :
• Multimédia : image, vidéo, Web• Types de recherche spécifiques : questions-réponses, interactif, filtrage,
"cross-language", "home page« • Domaines spécifiques : génomique, légal• Modes d'expression spécifiques : blogs, spams• ...
• CLEF (Cross-Language Evaluation Forum), spécialisée dans les langages européens• NTCIR, spécialisée dans les langages asiatiques
66
Retour sur la normalisation
Extraction d’Information dans les Textes I
Recherche, évaluationXavier Tannier
Influence de la normalisation
Quelle est l’influence des techniques de normalisation sur la précision et le rappel ?
• Utilisation des mots vides• Lemmatisation• Racinisation• …
Quelle peut être l’influence d’autres techniques sur la précision et le rappel ?
• Ajout de synonymes ?• Utilisation de la syntaxe des phrases ?• Requête
68
Recommended