11
Indexation de Thèses Pharmaceutiques Françaises. JFIM 2002 MARY Vincent

Indexation de Thèses Pharmaceutiques Françaises

  • Upload
    kapono

  • View
    21

  • Download
    1

Embed Size (px)

DESCRIPTION

Indexation de Thèses Pharmaceutiques Françaises. JFIM 2002 MARY Vincent. Plan. Exposition de la problématique Moteur actuellement utilisé Nomindex Méthode de comparaison Résultats Conclusion. Problématique. Grande masse de connaissances validées : 1.ooo thèses annuelles - PowerPoint PPT Presentation

Citation preview

Page 1: Indexation de Thèses Pharmaceutiques Françaises

Indexation de Thèses Pharmaceutiques Françaises.

JFIM 2002MARY Vincent

Page 2: Indexation de Thèses Pharmaceutiques Françaises

Plan

Exposition de la problématique Moteur actuellement utilisé Nomindex Méthode de comparaison Résultats Conclusion

Page 3: Indexation de Thèses Pharmaceutiques Françaises

Problématique Grande masse de connaissances validées :

1.ooo thèses annuelles Validation par des professeurs HDR Sujets variés

Mais très peu utilisées car : Barrière de la langue Difficultés d’accès aux thèses Indexation peu commode

Page 4: Indexation de Thèses Pharmaceutiques Françaises

Docthèse - Sudoc

Docthèse : Mis à jour tout les 6

mois Sur CD Rom À la BU uniquement

Sudoc : Mis à jour en temps

réel Disponible en ligne

Moteurs actuels : Indexation manuelle, par les étudiants Pas de thésaurus définis Nombre de mots clefs limités Pas de scores de pertinence

Page 5: Indexation de Thèses Pharmaceutiques Françaises

Nomindex

Méta thesaurus

ADM UMLS

Réseau sémantique

Indexation automatique et conceptuelle.

Score de pertinence TFIDF : Score de pertinence d’un document Similarité de documents

Synonymies, flexions Traduction mots à mots

Navigation inter concepts

Page 6: Indexation de Thèses Pharmaceutiques Françaises

Comparatif

Sudoc NomIndex

Type d’indexation Manuelle Automatique

Thésaurus Non ADM et UMLS

Descripteurs Mots clefs Concepts

Nombre cinq -

Score Pertinence non TF-IDF

Page 7: Indexation de Thèses Pharmaceutiques Françaises

Méthode Formation d’un corpus de thèses :

Recupération de thèses au format électronique Conversion en HTML Indexation

Comparaison des deux moteurs: Utilisation des indices classiques :

Bruit Silence Pertinence

Page 8: Indexation de Thèses Pharmaceutiques Françaises

Résultats

Sudoc (a) Nomindex

Bruit (d)Silence Nomindex (b) Silence Sudoc (c)

Mot clefs manuels

Silence Nomindex

Silence manuel

Bruit Nomindex

5.16 2.32 7.12 9.76 / 20

Page 9: Indexation de Thèses Pharmaceutiques Françaises

Discussion Le Sudoc ne contient pas toutes les thèses

Distribution normale du bruit et du silence Bruit important, mais …

Dictionnaire ADM basé sur le diagnostic médical. Première expérience sur des textes

pharmaceutiques Mêmes erreurs souvent retrouvées Diminutions importantes par de petites

modifications du dictionnaire.

Page 10: Indexation de Thèses Pharmaceutiques Françaises

Discussion

Temps d’indexation compatible avec une utilisation à grande échelle.

Représentativité du corpus ? Issue de site personnels essentiellement 1/3 des thèses annuelles d’une faculté.

Découpage des phrases

Page 11: Indexation de Thèses Pharmaceutiques Françaises

Conclusion

Efficacité du couple ADM-UMLS Méta thésaurus Réseau sémantique

Mises à jour spécifiques du dictionnaire nécessaires

Utilisation possible en indexation semi-automatique