Upload
kapono
View
21
Download
1
Embed Size (px)
DESCRIPTION
Indexation de Thèses Pharmaceutiques Françaises. JFIM 2002 MARY Vincent. Plan. Exposition de la problématique Moteur actuellement utilisé Nomindex Méthode de comparaison Résultats Conclusion. Problématique. Grande masse de connaissances validées : 1.ooo thèses annuelles - PowerPoint PPT Presentation
Citation preview
Indexation de Thèses Pharmaceutiques Françaises.
JFIM 2002MARY Vincent
Plan
Exposition de la problématique Moteur actuellement utilisé Nomindex Méthode de comparaison Résultats Conclusion
Problématique Grande masse de connaissances validées :
1.ooo thèses annuelles Validation par des professeurs HDR Sujets variés
Mais très peu utilisées car : Barrière de la langue Difficultés d’accès aux thèses Indexation peu commode
Docthèse - Sudoc
Docthèse : Mis à jour tout les 6
mois Sur CD Rom À la BU uniquement
Sudoc : Mis à jour en temps
réel Disponible en ligne
Moteurs actuels : Indexation manuelle, par les étudiants Pas de thésaurus définis Nombre de mots clefs limités Pas de scores de pertinence
Nomindex
Méta thesaurus
ADM UMLS
Réseau sémantique
Indexation automatique et conceptuelle.
Score de pertinence TFIDF : Score de pertinence d’un document Similarité de documents
Synonymies, flexions Traduction mots à mots
Navigation inter concepts
Comparatif
Sudoc NomIndex
Type d’indexation Manuelle Automatique
Thésaurus Non ADM et UMLS
Descripteurs Mots clefs Concepts
Nombre cinq -
Score Pertinence non TF-IDF
Méthode Formation d’un corpus de thèses :
Recupération de thèses au format électronique Conversion en HTML Indexation
Comparaison des deux moteurs: Utilisation des indices classiques :
Bruit Silence Pertinence
Résultats
Sudoc (a) Nomindex
Bruit (d)Silence Nomindex (b) Silence Sudoc (c)
Mot clefs manuels
Silence Nomindex
Silence manuel
Bruit Nomindex
5.16 2.32 7.12 9.76 / 20
Discussion Le Sudoc ne contient pas toutes les thèses
Distribution normale du bruit et du silence Bruit important, mais …
Dictionnaire ADM basé sur le diagnostic médical. Première expérience sur des textes
pharmaceutiques Mêmes erreurs souvent retrouvées Diminutions importantes par de petites
modifications du dictionnaire.
Discussion
Temps d’indexation compatible avec une utilisation à grande échelle.
Représentativité du corpus ? Issue de site personnels essentiellement 1/3 des thèses annuelles d’une faculté.
Découpage des phrases
Conclusion
Efficacité du couple ADM-UMLS Méta thésaurus Réseau sémantique
Mises à jour spécifiques du dictionnaire nécessaires
Utilisation possible en indexation semi-automatique