View
2
Download
0
Category
Preview:
Citation preview
1Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
Visa TM : une infrastructure pour s’approprier les technologies du Text
Mining − en partenariat avec OpenMinTed & ISTEX
Istex Tour 2018
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
2
Introduction
Text mining, fouille de texte. Une définition
l’ensemble des méthodes et des traitements informatiquesqui consistent à analyser le sens de textes en langage naturel
pour en donner une représentation utilisable par les humains et les ordinateurs.C'est une spécialisation de la fouille de données (data mining)
qui fait appel aux méthodes de l'Intelligence Artificielle, du Traitement Automatique des Langues et des Statistiques.
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
3
En utilisant des méthodes de
fouille de texte génériques
Intégrées dans un système intelligent
Centralisées dans une plateforme
Pour des applications
diverses
Mises à disposition sous
forme de services
1
5
3
4
2
Vers une Infrastructure de Services Avancés de text-mining
4Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
1. Pour des applications diverses
5Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
Filtrage de spam
Recommandation
Assistant personnel
Service client
Marketing
Intelligence économique
Gestion documentaire
Assistance au diagnostic medical
Intelligence stratégique sécurité
Recherche scientifique
Analyse thématique
Classification de documents
Recherche documentaire
Analyse d’opinion, de sentiment,
de controverse
Traduction
Question- réponse
Extraction d’information
Résumé
Construction de terminologie, d’ontologie
L’ensemble des technologies permettant
d’extraire des connaissances à partir de
documents textuels.
Caché dans bien des applications quotidiennes
TDM, Text and (data)-mining
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
6
De la donnée textuelle à la connaissanceAnalyser automatique les tweets pour extraire de la connaissance : ● e.g. : Signaux liés à l’utilisation de médicaments, pharmacovigilance
O’Connor et al., 2014 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4419871/
Exemple de Tweet Classification Annotations
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
7
Mots clefs identiques Moteur de recherche par mots clefs
"à la Google Scholar"cherche les mots
identiques
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
8
Mot clefs avec variations légères
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
9
Moteur de recherche sémantique interprète la requête et répond par des documents
dont le contenu a été préalablement analysé
10Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
Bacteria =
... à l’aide des connaissances du domaine
Ontologie Ontobiotope
Cheese =
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
11
Différences au niveau de l’indexation des textes
Appariement par mots exacts
Indexation manuelle par un thésaurus
Indexation automatique par taxonomie et ontologies
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
12
Du comptage de mots à la compréhension automatique de la langue : une grande diversité des approchesSelon les objectifs,
● une analyse plus ou moins approfondie de la langue● l'adaptation des outils de TDM au domaine
○ par apprentissage automatique○ par l'utilisation de connaissances externes au texte
Du sac de mots ... au robot apprenant à lireIllustration: Garey Freeman /Pixabay
13Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
2. En utilisant des méthodes de fouille de texte génériques
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
14
Des étapes d’analyse en fonction des besoins
Meilleure précision de la recherche par mot clef
Cibler la recherche sur les segments de texte pertinents
Ne rien manquer malgré les variations
Chercher le concept, pas sa formulation
Rechercher le rôle des objets
Chaque traitement repose sur les traitements précédents et produit un résultat directement exploitable
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Étapes d’analyse du texte
Besoins
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
15
SegmentationSegmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations● But: détecter les mots, les phrases● Indices: espace, ponctuation, tirets
...
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Quisque ante tellus, pulvinar vitae sollicitudin nec, posuere quis massa.
loremipsumdolorsitamet,consecteturadipiscingelit.quisqueantetellus,pulvinarvitaesollicitudinnec,posuerequismassa.
lorem | ipsum | dolor | sit | amet| , | consectetur | adipiscing | elit |. | quisque | ante | tellus| , | pulvinar | vitae | sollicitudin | nec |,| posuere | quis | massa| . |
Suite de caractères Suite de mots Mots et phrases
Cependant ce n’est pas aussi simple:
« Lactococcus sp. was found as the main microorganism in cheeses. »⇒ Traitement en amont pour conserver des structures de mots et de phrases qui ne respectent pas la structure « classique » et pourraient être segmentés par ces traitements.
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
16
Similarité entre documents
Les documents comme des sacs de mots ⇒ Vectorisation
Comparer les vecteurs par une mesure (ex. cosinus)
Hypothèse distributionnelle : les mots qui ont les mêmes distributions ont des sens proches
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
source: Florian Leitner
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
17
Classification de documents "non supervisée"
Basée sur une méthode de clustering Application: exploration et sélection de corpus, veille.
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
18
Identifier les entités nomméesi.e. noms de personnes, de lieux géographiques, de bactéries…Utilisation de la taxonomie du NCBI pour la détection en intégrant des
● variations morpho-syntaxiques○ Lactococcus lactis, L. lactis,
● synonymes○ Streptococcus lactis, Bacterium lactis
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
19
Identifier les entités nomméesi.e. noms de personnes, de lieux géographiques, de bactéries…Utilisation de la taxonomie du NCBI pour la détection en intégrant des
● variations morpho-syntaxiques○ Lactococcus lactis, L. lactis,
● synonymes○ Streptococcus lactis, Bacterium lactis
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Catégoriser, normaliserUne catégorie unique à différentes entitésici : Lactococcus lactis, L. lactis, Streptococcus lactis, Bacterium lactis représentent le même concept “Lactococcus lactis”, identifié par le TaxID 1358
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
20
Analyse linguistique
Chaque mot peut être identifié par différentes propriétés linguistiques: e.g. “Lactococcus sp. was found as the main microorganism in cheeses”
⇒ Permet de s’affranchir des variations : ● singulier/pluriel = nombre ● féminin/masculin = genre● conjugaisons etc ...
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
21
Identifier les termes
e.g. les habitats, les noms de maladies et leurs symptômes, les parties anatomiquesTermes d’intérêt du domaine étudié : ici groupes nominaux et des adjectifs Outil : YaTeA, qui utilise l’analyse syntaxique
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Étiquetage sémantique
Annotation de relations
Reconnaissance et normalisation de termes
The effect of high hydrostatic pressure on the survival of
the psychrotrophic organisms Listeria monocytogenes,
Bacillus cereus, and Pseudomonas fluorescens
was investigated in ultrahigh-temperature milk.
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
22
Identifier les termes
Outil : YaTeA, qui utilise l’analyse syntaxique et applique des “patrons” Ex. JJ NN = adjectif suivi d’un nom
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Étiquetage sémantique
Annotation de relations
The effect of high hydrostatic pressure on the survival of
the psychrotrophic organisms Listeria monocytogenes,
Bacillus cereus, and Pseudomonas fluorescens
was investigated in ultrahigh-temperature milk.
DTDT
DT
NN NN NN
NNS
NN
IN JJ JJ IN IN
JJ
VBD VBD IN JJ
Bacterie
BacterieBacterie
➢ effect of high hydrostatic pressure
➢ high hydrostatic pressure➢ hydrostatic pressure➢ hydrostatic➢ pressure➢ survival of the
psychrotrophic organisms➢ psychrotrophic organisms➢ psychrotrophic➢ organisms➢ ultrahigh-temperature milk➢ ultrahigh-temperature➢ milk
CC
Termes candidats
Reconnaissance et normalisation de termes
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
23
Catégoriser avec une ressource
Associer les termes extraits avec des catégories
Exemple d’appariement avec ToMap et Ontobiotope
➢ effect of high hydrostatic pressure
➢ high hydrostatic pressure➢ hydrostatic pressure➢ hydrostatic➢ pressure➢ survival of the psychrotrophic
organisms➢ psychrotrophic organisms➢ psychrotrophic➢ organisms➢ ultrahigh-temperature milk➢ ultrahigh-temperature➢ milk
Termes candidats
→ microbial habitat→ food
→ animal product and primary derivative thereof→ milk and milk
product→ butter→ cheese→ ice cream→ milk→ yogurt
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
24
Catégoriser avec une ressource
Comparaison des termes extraits et des noms des catégories
Exemple d’appariement avec ToMap et Ontobiotope
➢ effect of high hydrostatic pressure
➢ high hydrostatic pressure➢ hydrostatic pressure➢ hydrostatic➢ pressure➢ survival of the psychrotrophic
organisms➢ psychrotrophic organisms➢ psychrotrophic➢ organisms➢ ultrahigh-temperature milk➢ ultrahigh-temperature➢ milk
Termes candidats
→ microbial habitat→ food
→ animal product and primary derivative thereof→ milk and milk
product→ butter→ cheese→ ice cream→ milk→ yogurt
appariement exact
appariement des têtes
syntaxiques
Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
25
Apprendre à classer avec une classification fixée
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
26
Apprendre à classer avec une classification fixée
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
27
Identifier des relations Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Lives inMicrobe Habitat
Wigglesworthia glossinidia grows in the gut of the tsetse fly
?
« Wigglesworthia glossinidia grows in the gut of the tsetse fly »
Microbe Habitat
Habitat
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
28
Identifier des relations Segmentation en phrases et en mots
Filtrage de phrase et de documents
Reconnaissance et normalisation de termes
Étiquetage sémantique
Annotation de relations
Wigglesworthia glossinidia grows in the
Nom sujetPréposition
gut
Objet de la préposition
of the tsetse fly
PrépositionObjet de la préposition
Groupe nominal
modifieur
Chemin de dépendance syntaxique
Lives inMicrobe Habitat
Microbe Habitat
?
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
29
Ressources du TDM
Isolation site
Microbe Habitat
Lactococcus lactis
Goat’s milk
Lactococcus lactis
Valdeteja cheese
Données structuréesDonnées non-structurées
Comparison of the acidifying activity of Lactococcus lactis strains isolated from goat's milk and Valdeteja cheese.
Outils de TDM
Ressources extérieures
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
30
Ressources du TDM➔ Listes de mots, grammaires,
vocabulaires et lexiques
➔ Nomenclatures, thesaurus, ontologies
➔ Bases de données
AbricotFraisePomme
Nom Type Couleur
Abricot Fruit Orange
Fraise Fruit Rouge
Pomme Fruit Vert
Epinard Légume Vert
➔ Corpus annoté d'entraînement
➔ Modèles symboliques/statistiques
➔ Vecteurs
n di
men
sion
s
fruit fraise légume épinard
...
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
31
Ressources du TDM
Analyse linguistique
Projection lexicale
Analysedistributionnelle
Recherche de motifs
algorithmecorpus
motifs
grammaire
modèle de langue
lexique
corpus annoté
Apprentissage automatique
(Machine Learning)
32Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
3. Intégrées dans un système intelligent
33
Le TDM encapsulé dans un système intelligent
L’ensemble des techniques précédemment vues contribue à construire une représentation du/des texte(s) permettant une facilitation/automatisation de l’exploitation de leur contenu.
Suivant les besoins exprimés, les traitements pourront être différents et répondre à un niveau de complexité croissant. Il s’agira de réfléchir avant de les appliquer à un compromis raisonnable entre leur coût et leur valeur ajoutée.
34
Leur mise en place nécessite des niveaux de compétences divers également. Ces compétences peuvent:• faire l’objet de formations• être amenées par un accompagnement
spécifique par des personnes dédiées • relever de l’acquisition d’outils « sur étagère ».
Les compétences nécessaires relèvent de différents domaines des sciences et de l’intelligence artificielle.
Le TDM encapsulé dans un système intelligent
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
Isolation site
Microbe Habitat
Lactococcus lactis Goat’s milk
Lactococcus lactis Chicken meat
Conception d’une application TDM
Données structuréesDonnées non-structurées
Comparison of the acidifying activity of Lactococcus lactis strains isolated from goat's milk and Valdeteja cheese.
Outils de TDM
Ressources extérieures
Analyse du besoin
Mise en oeuvre
Recherche de ressources
Expérimentation
Evaluation
Itération et mise au point
Conception du corpus
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
Isolation site
Microbe Habitat
Lactococcus lactis Goat’s milk
Lactococcus lactis Cheese
Conception d’une application TDM
Données structuréesDonnées non-structurées
Comparison of the acidifying activity of Lactococcus lactis strains isolated from goat's milk and Valdeteja cheese.
Outils de TDM
Ressources extérieures
Analyse du besoin
Mise en oeuvre
Recherche de ressources
Expérimentation
Evaluation
Itération et mise au point
Conception du corpus
Mise à jour
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
37
Concevoir un service de TDM
● Exemples concrets d'objectifs à atteindreAnalyse du besoin
Réalisation des services
Analyse sémantique
Corpus et ressources
Test et Mises à jour
Application end-user
● Définition de critères de constitution de la collection documentaire
● Définition de l’information à extraire
● Définition des stratégies d’extraction● Identification de ressources (nomenclature, etc)● Configuration de la chaîne de traitement● Adaptation et évaluation des méthodes
● Application des méthodes à la collection de documents
● Evaluation des résultats, intégration, déploiement● Mise à jour des corpus, méthodes et ressources
● Accès aux résultats, visualisation, IHM
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
38
Accès aux données, processus et appui
Collecte TraitementsPrétraitement
Résultats
corp
us
corp
us
AppuiRequête
OntologiesThesaurus
Chercheu·r·se
Besoin
Accès licite
Copies techniquesFichiers bruts
Connaissances
Accès liciteRessources numériques
Interprétation
d'après A. Nazarenko & C. Nédellec
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
39
Accès aux données, processus et appui
Collecte TraitementsPrétraitement
Résultats
corp
us
corp
us
AppuiRequête
OntologiesThesaurus
Chercheu·r·se
Besoin
Accès licite
Copies techniquesFichiers bruts
Connaissances
Accès liciteRessources numériques
Interprétation
d'après A. Nazarenko & C. Nédellec
Expertise métierBiologie,
Médecine, Mathématiques,
…
Apprentissage automatiqueAnalyse des
données
Traitement automatique de
la langue
Informatique spécialisée
Bioinformatique
Gestion électronique de
documentBig Data
Ingénierie de connaissances
Accompagnement juridique
Ingénierie de services
Information scientifique et
techniqueAnalyste
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
40
Processus TDM et compétences
Expertise métierBiologie,
Médecine, Mathématiques,
…
Informatique spécialisée
Bioinformatique
Informatique spécialiséeBig Data
Ingénierie de connaissances
Accompagnement juridique
Ingénierie de services
Apprentissage automatiqueAnalyse des
données
Traitement automatique de la
langue
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
41
Enjeux des services innovants en fouille de texte
● Réutilisation des produits de la recherche: composants de TDM et contenus (publication, ressources)
● Développer des e-infrastructures et interconnexion (fouille de texte, bibliothèques, ressources, service métiers)
● Rendre les développeurs d'application autonomesdans l'exploitation d'outils de TDM
● Nouveaux métiers, nouvelles compétences : développeurs informatiques spécialisés, concepteurs d'applications, ingénieurs de la connaissance …
● Une proposition : OpenMinTed, un modèle à suivre et à étendre avec le projet Visa TM (Inra - Inist - Univ Montpellier) qui en pose les bases au niveau national.
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
42
Faisabilité, quelques critèresCritères de complexité de la tâche- "Propreté" du texte (origine, format)- Régularité des formulations- Evénement local à la phrase- Entités explicites ou non (anaphores)- Présence de marqueurs de la relation- Nombre réduit d’événements dans une même section
Mobilisation d'expertise- Définition détaillée du besoin- Formalisation dans un schéma et un document de consignes d’annotation- Choix d’un corpus de texte pertinents- Annotation homogène d'exemples d'apprentissage si nécessaire (dépend de la tâche)- Evaluation
43Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
4. Centralisées dans une plateforme
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
44
Le TDM scientifique, des enjeux de recherche et d'ingénierieConvergence● Maturité des technologies du TDM et du web
sémantique● Efficacité et disponibilité des moyens de calcul● Accessibilité des bases bibliographiques● Standardisation des accès et des
représentations, sécurité juridique grandissante● Développement des infrastructures de recherche
Un paysage fragmenté fournisseurs de contenus, chercheurs en TDM,
infrastructures de calcul, utilisateursDes outils très nombreux et hétéroclites
pour traiter la diversité
De nouvelles questions économiques, juridiques,
techniques et organisationnelles
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
45
Complémentarité des outils, plateformes et infrastructures
PlateformesPour répondre à la diversité des besoins, Apportent de la flexibilité : configuration en fonction des besoinsPouvoir varier les donnéesMutualiser et réutiliser des partiesAjouter de nouveaux services/composants
De nombreuses plateformes existantes pour les informaticiens : CoreNLP, OpenNLP, Mallet, GATE, Weka, UIMA, nltk
Outils sur étagère• Des outils clefs en main, facile d’utilisation, mais monolithiques• Des outils génériques, mal adaptés à des besoins spécifiques• Des outils dédiés spécialisés
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
TDM: Comment faire?
Fournir un cadre d'interopérabilité pour le traitement TDM
Partager des contenus
Développer une plateforme orientée service
46
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
47
OpenMinted (2015-2018) : Objectifs
Permettre aux acteurs TDM de partager leurs outils, leur corpus, ou des résultats ainsi que de créer et de partager des workflow d’analyse.
Proposer une infrastructure de Text et Data Mining (TDM), ouverte et pérenne, qui permette aux chercheurs un accès facilité aux technologies de fouille de textes applicables à un vaste éventail de sources de la littérature scientifique.
http://openminted.eu/
H2020
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
48
pensé comme un pont entre
The OpenMinTeD landscape, source OpenMinTeD
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
49
, aujourd’hui https://services.openminted.eu/home
1un catalogue de composants et applications clé en main de text-mining
2 une connexion à des bibliothèques numériques Open Access majeures
3 un environnement de composition de workflows et des moyens de calcul
50
Biologists ask questions to librarians and bioinformaticians to find relevant information
Where could I find information on microbes
for fermenting a new product, cucumber yogurt
sauce?
The answer is in literature,
let’s search OpenMinTeD
Démo vidéo
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
51
Le pas plus loin : l’infrastructure basée sur OpenMinTeD
OpenMinTeD, une solution accessible en ligne, résultant du projet H2020Avec une interface utilisateur très simpleInterconnectée avec les sources d ’information • Bibliothèques numériques• Portail d’ontologies et lexiques (ressources sémantiques)
Facilite l’adaptation des services par les ressources sémantiquesCentralise et facilite l’identification des services existants et des composants,Facilite leur composition, l’exécution et l’obtention de résultats à des formats standards
52Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
5. Mises à disposition sous forme de services
OpenMinTed - VisaTMune solution mutualisée, pour la recherche
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
53
Le projet Visa ™ : un pas de plus vers une généralisation des approches TM dans les activités de recherche
2 ans pour étudier les conditions de production de services de text-mining à haute valeur ajoutée basés sur l’analyse sémantique à destination des chercheurs.
INISTles partenaires
Un établissement de recherche
Un opérateur IST
Une université (Montpellier)
…sous l’égide du CoSO dans le cadre de sa stratégie « Open Science » et financé par
?
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
54
Notre démarche : basée sur une grande étude
1. Analyser les opportunités, qualifier les besoins des différents acteurs
Enquête VisaTMNovice ou expert, exprimez vos attentes !
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
55
Notre démarche : connecter les infrastructures
1. Analyser les opportunités, qualifier les besoins des différents acteurs2. Tester la faisabilité technique des interconnexions entre plateforme TDM,
bibliothèques numériques et portails de ressources sémantiques
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
56
Notre démarche : s’appuyer sur des cas concrets
1. Analyser les opportunités, qualifier les besoins des différents acteurs2. Tester la faisabilité technique des interconnexions entre plateforme TDM,
bibliothèques numériques et portails de ressources sémantiques 3. Démontrer l’utilité au travers de 3 applications pilote combinant TDM, corpus
documentaires et ressources sémantiques.
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
57
Notre démarche : s’appuyer sur des cas concrets
Aide à la sélection de génome→ identifier les preuves dans le texte
- extraction d’information fine- combiné aux données structurées- résultat du TM intégré dans l’environnement - du chercheur
1
Sélection de génomes
par l’expert pour la
comparaison
Aspergillus flavus
Listeria seeligeri
Yarrowia lipolytica
Génomes de références
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
58
Notre démarche : s’appuyer sur des cas concrets
2Editeur de workflows → faciliter l’édition de chaînes TM
- recherche des composants adéquats- combinaison flexible des composants- informations sur les étapes et résultats des processus
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
59
Notre démarche : s’appuyer sur des cas concrets
Outil d’aide à la construction et l’exploration d’un corpus de documents scientifiques issu de ISTEXCaractériser et affiner itérativement un corpus grâce à une représentation thématique de l’information, calculée à partir des fréquences des termes
Analyse thématique de 5000 documents de Geosciences
Extraction corpus
Visualisation information
Analyse corpus
3
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
60
Notre démarche : de l’informatique et plus1. Analyser les opportunités, qualifier les besoins des différents acteurs2. Tester la faisabilité technique des interconnexions entre plateforme TDM,
bibliothèques numériques et portails de ressources sémantiques3. Démontrer l’utilité au travers de 3 applications pilote combinant TDM, corpus
documentaires et ressources sémantiques.4. Proposer une infrastructure technique et humaine, ouverte et pérenne
proposant une offre de services en fouille de textes et de données dans le contexte français
+ des missions- développer les compétences
en fouille de texte au sein de l’ESR
- mettre les acteurs en synergie- accompagner l’évolution des
méthodes de recherche sc. (Science Ouverte, FAIR...)
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
61
En utilisant des méthodes de
fouille de texte génériques
Intégrées dans un système intelligent
Centralisées dans une plateforme
Pour des applications
diverses1
5
3
4
2
Vers une Infrastructure de Services Avancés de text-mining
Mises à disposition sous
forme de services
5
Visa TM : une infrastructure pour s’approprier les technologies du Text Mining
62
Merci !
Des questions
Contacts : estelle.chaix@inra.fr sophie.aubin@inra.frclaire.nedellec@inra.fr fabienne.kettani@inist.fr stephane.schneider@inist.fr
Recommended