Upload
abes
View
341
Download
0
Embed Size (px)
DESCRIPTION
Journées ABES 2014 - 21 mai 2014 - Session "ISTEX et le Text and Data Mining" - Pourquoi fouiller les publications scientifiques ? Retours d'expériences d'un chercheur - Mathieu Roche , CIRAD - UMR TETIS : "Le TDM côté chercheur : besoins, méthodologie et résultats". Une illustration du potentiel de la "fouille de texte" (TDM) appliquée à la recherche environnementale et de santé publique.
Citation preview
Pourquoi fouiller les publicationsscientifiques ?
Mathieu Roche
ABES - 21 mai 2014
1 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Plan
1 Introduction
2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation
3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
4 Prospectives
2 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les 3V du "Big Data"
Volume : Données massives
Variété : Données hétérogènes "syntaxiquement" et"sémantiquement"
Vélocité : Données disponibles par flux
Et encore plein d’autres V : Versatilité, Véracité, Visualisation,Valorisation, etc.
3 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Fouille de données
4 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation
3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
4 Prospectives
5 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Extraction/Acquisition Exploitation/Filtrage
Processus de Fouille de Textes
- - - -- - - -- - - -- - - -
- - - -- - - -- - - -- - - -
- - - -- - - -- - - -- - - -
DonnéesTextuelles Connaissances
6 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Les descripteurs linguistiques
Exemple
Il vend son bien de Montpellier
7 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Traitement linguistique du mot
Sélection des mots ayant une fonction grammaticale définie(par exemple, noms, verbes, adjectifs)→ sélection des mots vend , bien et MontpellierRemarque : distinction du mot bien entre nom, adverbe et adjectif
Exemple - Etiquetage
Il/Pronom vend/Verbe son/AdjPoss bien/Nom de/PrepMontpellier/NomPropre
Principe de l’étiquetage grammatical (Brill’s tagger) :
lexiques
règles lexicales
règles contextuelles
8 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Traitement linguistique du mot
Rassemblement des mots d’une même famille présents sous formefléchie : lemmatisation ou radicalisation→ vend : vendre
Ajout de connaissances sémantiques→ vendre est lié au concept du Commerce
Résolution anaphorique→ remplacement du pronom
9 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Traitement linguistique du syntagme
Des collocations aux syntagmes/termes
Sens global déductible des unités composant le groupe(chapeau en paille)Connaissances sémantiquesConnaissances syntaxiques (patrons ADJ-NOM,NOM-PREP-NOM, etc)
Méthodes de TAL pour l’extraction de syntagmes/termes :linguistiques, statistiques, mixtes
10 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Résumé : du Corpus... aux descripteurs linguistiques
Mais pour des personnes très spontanées ...
Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ...
Etiquetage
Extraction des descripteurs (par
exemple, syntagmes)
fichier clientsconseiller clientèlefront pageassurance qualitélogiciel ciel...
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Corpus
Nettoyage
Normalisation
Processus de Fouille de textes
11 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation
3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
4 Prospectives
12 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Recherche d’Information
Première étape : représentation des textes... l’approche "sac demots"
Pondération statistique des descripteurs : TF, IDF, TF-IDF,13 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) :
But : déterminer les K plus proches voisins de textes à prédire
Principe : La classe majoritaire propre à ces K plus proches voisinsest choisie pour les textes à prédire (ou la classe majoritaire aprèspondération avec la mesure de similarité)
Paramètres : La valeur K et la mesure de similarité (par exemple,la mesure cosinus)
14 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Deuxième étape : Application d’un algorithme d’apprentissage
K plus proches voisins (KPPV) - Exemple :
15 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
1 Introduction
2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation
3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
4 Prospectives
16 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Précision = 910 = 90%
17 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Précision = 910 = 90%
18 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Les descripteurs linguistiquesLa Recherche d’InformationL’évaluation
Précision = 910 = 90% / Rappel = 9
50 = 18%
19 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
1 Introduction
2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation
3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
4 Prospectives
20 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
corpus Cirad (∼15 Mo)
corpus TETIS (∼500 Ko)
Merci à la Délégation à l’Information Scientifique Technique du Cirad
21 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique d’acronymes dans les textes (1)
Méthode
Étape 1 : Extraction des candidats (méthode par patron)
Étape 2 : Filtrage des candidats (méthode statistique)
Mesure Web (fouille du Web) :
WebDice(acro, def ) =2×hits(acro,def )
hits(acro)+hits(def )
Exemple :WebDice(BSV ,Banana streak virus) =2×hits(”BSV ” AND ”Banana streak virus”)
hits(”BSV ”)+hits(”Banana streak virus”)
22 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique d’acronymes dans les textes (2)
Résultats (données Cirad) :
Acronym Possible definition WebDice
ATPSM Agricultural Trade Policy Simulation Model 1.3014TYLCV Tomato yellow leaf curl virus 0.7167NRPS NonRibosomal Peptide Synthetase 0.4423CIAT Centro international de agricultura tropical 0.1408ACMV African cassava mosaic virus 0.0970CSSV Cacao swollen shoot virus 0.0245VLE Virtual Laboratory Environment 0.0222CLF Corynespora Leaf Fall 0.0208BSV Banana streak virus 0.0053BMR Bois Massif Reconstitué 0.0046ER Ehrlichia ruminantium 0.0004
BASIC Brésil, Afrique du Sud, Inde, Chine 0.0001ASA Articulation du Semi-aride 0MAE Mesures agrienvironnementales 0
[Roche, ISA workshop’2014]23 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique d’Entités Spatiales (ES) dans les textes
Utilisation de patrons d’extraction pour identifier
des indicateurs spatiaux (orientation, distance, adjacence, inclusion,figure géométrique)
des Entités Spatiales Absolues et Relatives
[Kergosien et al., IJGIS’2014]
24 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique des termes dans les textes (1)
Travaux menés avec Sophie Fortuno, (Cirad, TETIS)
Méthode
Étape 1 : Extraction des candidats termes (méthodes linguistiques +statistiques)
Exemple : "soft contact" vs. "soft contact lens"
Étape 2 : Filtrage des candidats (combinaison avec d’autres méthodes +des ressources comme Agrovoc)
25 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique des termes dans les textes (2) – Étape 1
[Lossio et al., IJKDB’2014]26 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Étape 2
+ prise en compte d’Agrovoc (vocabulaire contrôlé issu de la FAO –Food and Agriculture Organization)
27 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – Résultats
Résultats quantitatifs [stage étudiants en informatique (Master IPS)]
Corpus Cirad : 28% des termes simples / 12% des termescomposés de BioTex sont présents dans Agrovoc
Corpus TETIS : 25% des termes simples / 1% des termescomposés de BioTex sont présents dans Agrovoc
Résultats qualitatifs [stage étudiante "Ressources documentaires et basesde données"]
Définition de critères de pertinence liés à l’indexation :sélectivité, objectivité, cohérence, indépendance contextuelle
28 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
La recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
• Identification automatique des termes dans les textes (3) – RésultatsExemples de termes (en français) : développement durable, sécuritéalimentaire, croissance démographique, développement rural,aménagement du territoire, gouvernance territoriale, etc.
Publication en Open Data (CKAN – Comprehensive KnowledgeArchive Network) :Mise en correspondance des (1) termes extraits, (2) entités spatiales, (3)publications Cirad associées (numéros)
29 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
1 Introduction
2 Les algorithmes pour fouiller les documentsLes descripteurs linguistiquesLa Recherche d’InformationL’évaluation
3 La fouille des publications scientifiques au CiradLa recherche d’acronymesL’extraction d’entités spatialesL’extraction de la terminologie
4 Prospectives
30 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Veille d’épidémiologie animale : Comment détecter des signaux faiblesdans la masse de données ?
Croisement des publications avec d’autres types de données (dépêches,presse, tweets, etc.)
31 / 32
IntroductionLes algorithmes pour fouiller les documents
La fouille des publications scientifiques au CiradProspectives
Remerciements
Les chercheurs : Sophie Fortuno (Cirad, TETIS), MaguelonneTeisseire (Irstea, TETIS), Eric Kergosien (LIRMM), Juan AntonioLossio (LIRMM)
Les documentalistes : Marie-Claude Deboin (Cirad),Marie-Christine Duchamp (Cirad), Marie-Francoise Fily (Cirad),Josée Lessard (Cirad), Sylvie Blin-Sarah (Irstea)
Les étudiants : L3 - UM3 : Marie-Odile Aptel-Barral, M1 IPS -UM2 : Amira Akli, Thinhinan Lounis, Serigne Toure, Salim Belkebir
32 / 32