14
Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Qu’est-ce qui marche le mieux ? BOUTTES Cédric

Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Embed Size (px)

Citation preview

Page 1: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Les techniques des

moteurs de recherche

Comment ça marche ?

Est ce que ça marche ?

Qu’est-ce qui marche le mieux ?

BOUTTES

Cédric

Page 2: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Plan

I - Le fonctionnement des moteurs de recherche

II – Un mode de recherche booléen basé sur le contenu des documents

indexation en texte intégral avec prise en compte de la localisation et de la fréquence des mots des documents

III – Application des traitements linguistiques pour une recherche plus efficace

utilisation d’ index de lemmes et technique d’expansion de requête

utilisation d’ index de groupes nominaux

indexation sémantique à l’aide des ontologies

IV – Des techniques pour améliorer le classement des résultats

tri par popularité et tri par clustering

outils d’aide à la reformulation des requêtes

Plan

Page 3: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

téléchargement des pages1

CrawlerServeur d’index

2indexation

Serveur Web

FONCTIONNEMENT DES MOTEURS DE RECHERCHES

3 interrogation de l’index et mis en forme des résultats

Base de données de documents indexés

Internet

INTRANET

requête

requin AND blanc

Fonctionnement des moteurs

Page 4: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Indexation en texte intégral

Page Web N°2url : www.dietetique.fr

Texte : … un homme mange le blanc d’œuf …

INDEX page 2www.dietetique.fr

F E U T I M PoidsHomme : 1 0 0 0 0 0 1

Blanc : 1 0 0 0 0 0 1

Recherche : 1 0 0 0 0 0 1INDEX page 1www.dents_de_la_mer.fr

F E U T I M PoidsRequin : 2 0 0 1 1 0 4

Blanc : 1 0 0 1 0 0 2

Homme : 1 0 0 0 0 0 1…

Page Web N°1url : www.dents_de_la_mer.fr

Titre : Le grand requin blanc.

Texte : ... le film où le requin attaquait l’homme …

Image :

INDEX inversé des motsPage PoidsBlanc :www.dents_de_la_mer.fr 2 www.dietetique.fr 1

Homme : www.dietetique.fr 1 www.dents_de_la_mer.fr 1

Requin : www.dents_de_la_mer.fr 4

Mange : www.dietetique.fr 1…

à lade d’dans lespar desle nos

Liste mots-vides

Page 5: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Bruit et Silence

Ensemble des documents trouvés

Ensemble des documents de la base

BRUIT = ensemble des documents non pertinents trouvés

Rappel Précision

SILENCE = ensemble des documents pertinents non trouvés

Documents pertinents trouvés

Ensemble des documents pertinents dans la base

Page 6: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Source de silence

REQUETE UTILISATEUR : « REQUIN BLANC ATTAQUE HOMME»

… ont attaqué …

… attaquera …

… attaquait…

… attaque …

Non trouvé et pertinent

= SILENCETrouvé et pertinent

Rappel

Page 7: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Extraction des mots bruts

attaquera attaquait ont attaqué

Dico de lemmes

INDEXATIONAnalyse Syntaxique

attaquer : Doc1 Doc2 Doc3

REQUETE UTILISATEUR : « … attaque … »

ANALYSE DE LA REQUETE Analyse Syntaxique

Dico de lemmes

Indexation libre par fichier inverse de lemmes

Doc1 Doc2 Doc3

Index de lemmes

Page 8: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Doc1 Doc2 Doc3

Extraction des mots bruts

attaquera attaquait ont attaqué

INDEXATION EN TEXTE INTEGRAL

attaquera : Doc1attaquait : Doc2ont attaqué : Doc3

REQUETE UTILISATEUR : « … attaque … »

ANALYSE DE LA REQUETE Analyse Syntaxique

Dico de lemmes

Technique d’expansion de requête

attaquera

attaquait

ont attaqué

Expansion de requête

Page 9: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Source de bruit

REQUETE UTILISATEUR : « GRAND REQUIN BLANC»

… blanc d’oeuf …

… requin blanc …

Trouvé et nonpertinent = BRUIT

Trouvé et pertinent

… requin baleine …Précision

Page 10: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Index de groupes nominaux

Doc1

Extraction de groupes nominaux

Le requin blanc a attaqué

Dico

INDEXATION

Attaque de requin blanc : Doc1 Doc2 Index inversé de

groupes nominaux

Analyse Syntaxique du texte

Nominalisation

Doc2

Des requins blancs ont attaqué

REQUETE UTILISATEUR : « Une attaque de requin blanc »

Dico

ANALYSE DE LA REQUETE Analyse Syntaxique

Nominalisation

Indexation libre par fichier inverse de groupes nominaux (ou syntagme)

Page 11: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

requin

REQUETE UTILISATEUR : « Les attaques de requin blanc sur l’homme »

Extraction de mots, groupes nominaux

Analyse statistique pour le choix des concepts qui serviront à indexer le document

INDEXATION

AGRESSION : Doc1 Index des concepts extraits des documents

Analyse MorphoSyntaxique du texte

ANALYSE DE LA REQUETE Analyse statistique

Ontologie

AGRESSION

victime

Analyse MorphoSyntaxique de la question

Doc1« … l’homme a été victime d’un grand requin blanc … »

Indexation sémantique à l’aide des ontologies

attaque

requin

Ontologie

AGRESSION

victimeattaque

Indexation sémantique

Page 12: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

52.8 7.7452.8

58

45.1

10045.1

10

25.8Méthode basée sur la co-citation

Techniques de classement

2) Tri par clustering

Classement des documents trouvés dans des dossiers eux même constitués de sous-dossiers

Autres techniques de classement

Sujets

Type

Source

Langue

Page 13: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

Techniques d’affinage : l’exemple de Kartoo

Kartoo

Page 14: Les techniques des moteurs de recherche Comment ça marche ? Est ce que ça marche ? Quest-ce qui marche le mieux ? BOUTTES Cédric

CONCLUSION

L’interrogation en mode booléen des index en texte intégral génère du bruit et du silence.

Les techniques linguistiques permettent de limiter ces problèmes.

Il existe des méthodes pour améliorer le classement des résultats.

Une autre piste : le Web Sémantique