Upload
rainier-durieux
View
104
Download
0
Embed Size (px)
Citation preview
BASSAND GuillaumeLE LAY Olivier
TANASCU AndreiNITU AlexandraHENRY GurvanMAHE JocelynFORM Nicolas
7 mai 2010
Introduction Présentation de l’application Présentation de l’application -
fonctionnement Le nettoyeur Le parseur L’élagueur Le stemmer L’application globale Conclusion
11/04/23 2
Moteur de recherche◦ Logiciel permettant de retrouver des ressources
associées à des mots quelconques
Objectif◦ Conception et programmation integrale d’un
moteur de recherche d’information◦ Fichier contenant une collection de 1460 articles
11/04/23 3
Plusieurs étapes
◦ Nettoyeur Fichiers d'entrée → XML
◦ Parseur XML → YAML
◦ Élagueur Stop-list + YAML → YAML
11/04/23 4
D o c u me n t c o n te n a n t to u s le s a rt ic le s s u iv a n t le fo rma tD e CISI.A LL(A n n e xe 1)
---------------------------
.I 1
.Tt it le 1.Aa u th o r1.Wa rt ic le 1.X....I 2.Tt it le 2.Aa u th o r2....
V er s ion X ML du doc ument
-------------------------------
<d o c u me n ts > <d o c u me n t> < id >1<id > < t it re > <mo ts > <mo t>o f</mo t> <mo t>th e </mo t> < /mo ts > < / t it re > .....
<n u mb e r>2</n u mb e r> < t it le >t it le 2</ t it le ><a u th o r>a u th .....
D ico inver s é V 1 for mat YA ML
-------------------------------
mo t1 n u m_ d o c : n bn u m_ d o c : n bn u m_ d o c : n b
mo t2 n u m_ d o c : n bn u m_ d o c : n b
....
D ico inv e rs é V 2 fo rma t YA M L
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
mo t1 num_ d o c : nb
mo t2 num_ d o c : nb
....
S to p-lis t
- - - - - - - - - - - - - - - - - - - - - - - - - - -
C a lcule ra les mo t sup erfic ie ls te l q ue « as » « a » « the »
11/04/23 6
Stemmer
Stop liste
Dico inversé
MDR
------------------ Interprète le Query
- Regarde le Dico Inversé et la Stop Liste- Génère le résultat
IN : Query en langage naturel
---------------
What is information science? Give definitions where possible.
OUT : Réponses---------------
Les articles 60 95 114 [...] peuvent vous intéresser
11/04/23 7
Liste de caractères à retirer
(?,!,<,>,...)
Prise d'un fichierEn entrée
Sortie d'unFichier XML
Standardisé pournotre application
4
1
5
2 3
D o cument co ntenant to us les a rtic les suivant le fo rmat
D e C IS I.A LL(A nnexe1 )- - - - - - - - - - - - - - - - - - - - - - - - - - -.I 1.Tt it le1.Aa u th o r1.Wa rt ic le1.X....I 2.Tt it le2.Aa u th o r2....
Versio n X M L d u d o cument
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
< n u m b er> 1 < /n u m b er>< t it le> t it le1 < /t it le>< a u th o r> a u th o r1 < /a u th o r>< w o rd s> a rt ic le1 < /w o rd s>
< n u m b er> 2 < /n u m b er>< t it le> t it le2 < /t it le>< a u th o r> a u th .....
N etto yeur1
Net
toye
ur2
Net
toye
ur3
Net
toye
ur 3
Net
toye
ur 2
Nettoyeur 1
Script PERL Entrée : fichier XML Sortie
◦ Dictionnaire inversé◦ Comptage d'occurrences de chaque mot dans
chaque document A cette étape aucun élagage n'a été fait Format de sortie
mot: id_article : nb_occurences
11/04/23 9
But : enlever les mots inutiles dans le fichier YAML précédemment généré
Stop-list : liste des mots inutiles
11/04/23 10
Regroupe les mots avec une racine commune
Exemple : « processed », « processing » et « process » seront regroupés sous la racine « process »
Utilisé dans la requête et dans la recherche
11/04/23 11
Module globale qui fait appel à chaque parties précédemment présentées
Traitement de la requête (même traitement que pour les articles)
11/04/23 12
Points atteints:◦ Utiliser un système de tokenisation sur le corpus de documents◦ Générer un dictionnaire inversé◦ Utiliser une stop-list◦ Accepter des requêtes en langage naturel◦ Appliquer un stemmer sur le système initial.
Améliorations:◦ Utiliser des poids globaux différents et une normalisation◦ Ajouter l'utilisation du coefficient de Dice ◦ Utilisation dans le dictionnaire inversé des termes d'indexation
uniquement
11/04/23 13
Questions?
11/04/23 14