14
BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Embed Size (px)

Citation preview

Page 1: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

BASSAND GuillaumeLE LAY Olivier

TANASCU AndreiNITU AlexandraHENRY GurvanMAHE JocelynFORM Nicolas

7 mai 2010

Page 2: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Introduction Présentation de l’application Présentation de l’application -

fonctionnement Le nettoyeur Le parseur L’élagueur Le stemmer L’application globale Conclusion

11/04/23 2

Page 3: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Moteur de recherche◦ Logiciel permettant de retrouver des ressources

associées à des mots quelconques

Objectif◦ Conception et programmation integrale d’un

moteur de recherche d’information◦ Fichier contenant une collection de 1460 articles

11/04/23 3

Page 4: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Plusieurs étapes

◦ Nettoyeur Fichiers d'entrée → XML

◦ Parseur XML → YAML

◦ Élagueur Stop-list + YAML → YAML

11/04/23 4

Page 5: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

D o c u me n t c o n te n a n t to u s le s a rt ic le s s u iv a n t le fo rma tD e CISI.A LL(A n n e xe 1)

---------------------------

.I 1

.Tt it le 1.Aa u th o r1.Wa rt ic le 1.X....I 2.Tt it le 2.Aa u th o r2....

V er s ion X ML du doc ument

-------------------------------

<d o c u me n ts > <d o c u me n t> < id >1<id > < t it re > <mo ts > <mo t>o f</mo t> <mo t>th e </mo t> < /mo ts > < / t it re > .....

<n u mb e r>2</n u mb e r> < t it le >t it le 2</ t it le ><a u th o r>a u th .....

D ico inver s é V 1 for mat YA ML

-------------------------------

mo t1 n u m_ d o c : n bn u m_ d o c : n bn u m_ d o c : n b

mo t2 n u m_ d o c : n bn u m_ d o c : n b

....

D ico inv e rs é V 2 fo rma t YA M L

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

mo t1 num_ d o c : nb

mo t2 num_ d o c : nb

....

S to p-lis t

- - - - - - - - - - - - - - - - - - - - - - - - - - -

C a lcule ra les mo t sup erfic ie ls te l q ue « as » « a  » « the  »

Page 6: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

11/04/23 6

Stemmer

Stop liste

Dico inversé

MDR

------------------ Interprète le Query

- Regarde le Dico Inversé et la Stop Liste- Génère le résultat

IN : Query en langage naturel

---------------

What is information science? Give definitions where possible.

OUT : Réponses---------------

Les articles 60 95 114 [...] peuvent vous intéresser

Page 7: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

11/04/23 7

Liste de caractères à retirer

(?,!,<,>,...)

Prise d'un fichierEn entrée

Sortie d'unFichier XML

Standardisé pournotre application

4

1

5

2 3

Page 8: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

D o cument co ntenant to us les a rtic les suivant le fo rmat

D e C IS I.A LL(A nnexe1 )- - - - - - - - - - - - - - - - - - - - - - - - - - -.I 1.Tt it le1.Aa u th o r1.Wa rt ic le1.X....I 2.Tt it le2.Aa u th o r2....

Versio n X M L d u d o cument

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

< n u m b er> 1 < /n u m b er>< t it le> t it le1 < /t it le>< a u th o r> a u th o r1 < /a u th o r>< w o rd s> a rt ic le1 < /w o rd s>

< n u m b er> 2 < /n u m b er>< t it le> t it le2 < /t it le>< a u th o r> a u th .....

N etto yeur1

Net

toye

ur2

Net

toye

ur3

Net

toye

ur 3

Net

toye

ur 2

Nettoyeur 1

Page 9: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Script PERL Entrée : fichier XML Sortie

◦ Dictionnaire inversé◦ Comptage d'occurrences de chaque mot dans

chaque document A cette étape aucun élagage n'a été fait Format de sortie

mot: id_article : nb_occurences

11/04/23 9

Page 10: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

But : enlever les mots inutiles dans le fichier YAML précédemment généré

Stop-list : liste des mots inutiles

11/04/23 10

Page 11: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Regroupe les mots avec une racine commune

Exemple : « processed », « processing » et « process » seront regroupés sous la racine « process »

Utilisé dans la requête et dans la recherche

11/04/23 11

Page 12: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Module globale qui fait appel à chaque parties précédemment présentées

Traitement de la requête (même traitement que pour les articles)

11/04/23 12

Page 13: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Points atteints:◦ Utiliser un système de tokenisation sur le corpus de documents◦ Générer un dictionnaire inversé◦ Utiliser une stop-list◦ Accepter des requêtes en langage naturel◦ Appliquer un stemmer sur le système initial.

Améliorations:◦ Utiliser des poids globaux différents et une normalisation◦ Ajouter l'utilisation du coefficient de Dice ◦ Utilisation dans le dictionnaire inversé des termes d'indexation

uniquement

11/04/23 13

Page 14: BASSAND Guillaume LE LAY Olivier TANASCU Andrei NITU Alexandra HENRY Gurvan MAHE Jocelyn FORM Nicolas 7 mai 2010

Questions?

11/04/23 14