23
L’action nationale de R&D SYNTAX Constat initial Objectif Durée Contenu Partenaires Organisation Budget Recoupements et apports Autres projets

L’action nationale de R&D SYNTAX

  • Upload
    qamar

  • View
    23

  • Download
    0

Embed Size (px)

DESCRIPTION

L’action nationale de R&D SYNTAX. Constat initial Objectif Durée Contenu Partenaires Organisation Budget Recoupements et apports Autres projets. Constat initial. nombreux travaux menés à l’INRIA sur la création, la gestion ou la diffusion de documents - PowerPoint PPT Presentation

Citation preview

Page 1: L’action nationale de R&D SYNTAX

L’action nationale de R&D SYNTAX

Constat initial

Objectif

Durée

Contenu

Partenaires

Organisation

Budget

Recoupements et apports

Autres projets

Page 2: L’action nationale de R&D SYNTAX

Constat initial nombreux travaux menés à l’INRIA sur la création, la gestion ou

la diffusion de documentsorganisation des bases documentaires

traitement des contenus textuels de ces bases

différents logiciels ont été réalisés mais jamais réunis dans des contextes opérationnels

maturation de l’ingénierie documentaire et linguistiqueTechnologies validées :

Couches basses: étiquetage morpho-syntaxique, chunking Modules de plus haut niveau: extraction de termes, classification de

documents, etc.

Stabilisation des technologies autour de XML (W3C)

Mise en place du comité de normalisation ISO TC37/SC4 sur les ressources linguistiques

Page 3: L’action nationale de R&D SYNTAX

Objectif

rassembler sur des plates-formes homogènes différents résultats existants pour répondre à des besoins d’intégration et de gestion de documents spécialisés  intégration : les documents proviennent de sources multiples

gestion : indexation, classification et extraction d’informations terminologiques 

documents spécialisés : documents présents sur un Intranet d’entreprise ( documents quelconques sur Internet)

cela supposede compléter certains développements issus de projets INRIA ou

industriels

de standardiser des formats d’échange entre de tels composants

de valider l’ensemble dans des conditions proches de l’opérationnel

Page 4: L’action nationale de R&D SYNTAX

Contenu (1)

3 sous-thèmes

gestion d’informations entrantes

acquisition et gestion de terminologies/lexiques multilingues

plate-forme de modélisation et de gestion de référentiels XML

Page 5: L’action nationale de R&D SYNTAX

Sous-thème 1 : gestion d’informations entrantes

tâchesacquisition de textes

gestion de formats hétérogènes (Word, LateX, …)

documents natifs XML

intégration dans une base semi-structurée méta-données

identification d’informations structurantes (date, auteur, noms propres)

annotation par les utilisateurs annotation de surface, enrichissement

publication des annotations

classification (taxonomie existante ou non) recherche de thèmes et segmentation (statistique)

identification de clefs d’indexation (linguistique)

Page 6: L’action nationale de R&D SYNTAX

Sous-thème 1 : gestion d’informations entrantes

documentshétérogènes

documentsnatifs XML

base de documents

métadonnées format vocabulaire édition accès

annotation de surface date, … entités nommées : personnes, lieux, …

structure

Segmentation(autour de la notion de thème) critères lexicaux (statistiques) Topic Detection & Tracking

classification non contrôlée

indexation

classification contrôlée(ontologies, …)

poste d’annotation qualifier établir des liens etc.

Page 7: L’action nationale de R&D SYNTAX

Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues

tâches

extraction de termes à partir de textes étiqueteur morphosyntaxique (Part Of Speech tagger)

chunker à base d’automates (Xerox), de patterns syntaxiques (IRIN) ou de statistiques markoviennes

bases de lien termes-textes

reprise de bases lexicales existantes

édition collaborative des bases terminologiques

Page 8: L’action nationale de R&D SYNTAX

Sous-thème 2 : acquisition et gestion de terminologies/lexiques multilingues

base de textes

rédacteur techniquetraducteur

terminologueliens

poste d’édition collaborative

graphe de termes

variabilité

importation debases lexicales

(Outilex)

reconnaissance de termes

ontologies

chunkerPart Of Speechtagger

extraction de termes

Page 9: L’action nationale de R&D SYNTAX

Sous-thème 3 : modélisation et gestion de référentiels XML

tâches

modélisation des structures (UML)

gestion du référentiel de modélisation

règles de passage et de génération de schéma XML, génération dynamique de modèles

récupération de sous-schémas XML existants, cohérence des référentiels

Force de proposition et de validation vis-à-vis du TC37/SC4 (cf. Normalangues)

Page 10: L’action nationale de R&D SYNTAX

Sous-thème 3 : modélisation et gestion de référentiels XML

réutilisation dedonnées existantes

squeletteformat

données externes

autres formats

filtreéchantillonvalider

(contrôler les postesd’édition)

UMLspécificationdes élémentsà identifier

modélisation

répertoires (ISO)= gestion du référentiel

de modélisation

schéma XML

catégories de données(genre, nombre, date de révision,

…)= ensemble des descripteurs

élémentaires

Page 11: L’action nationale de R&D SYNTAX

Durée et phasage (1)

3 ans3 à 6 mois de discussion avec les partenaires

affiner le programme de travail définir l’organisation à mettre en place mettre au point les contrats (propriété des résultats)

2 ans de travaux

6 à 9 mois de dissémination des résultats

sous-thème 3 permanent tout au long de l’action

sous-thèmes 1 et 2 reposent sur le sous-thème 3

sont relativement indépendants car ne sont reliés que par les ontologies

Page 12: L’action nationale de R&D SYNTAX

Durée et phasage (2) sous-thème 1

Définition de l’architecture logicielle globale, les protocoles d’interaction et la mise en place de la base de documents et de la base de liens

En parallèle: identification précise des besoins des industriels (scénario d’expérimentation)

Mise en conformité (formats, API) des composants à intégrer Intégration

sous-thème 2 Chaîne d’extraction de termes en parallèle, spécification précise de la plate-forme globale (identification des

outils à intégrer) Couplage à l’outil de gestion de la base de liens Intégration (outil d’édition de terminologies)

sous-thème 3 répertoire de catégories de données API, de filtres, catalogue de méta-modèles et le

Page 13: L’action nationale de R&D SYNTAX

Organisation

Principes l'INRIA apportera des résultats de travaux de recherche et du personnel

les partenaires apporteront certains travaux antérieurs et du personnel

tous les développements réalisés seront réutilisables par tous les partenaires

chaque industriel adaptera à son contexte propre les résultats obtenus

pour chaque sous-thème, une équipe = personnel INRIA + personnel fourni par partenaires intéressés

ces équipes pourront être hébergées par l'INRIA

elles seront coordonnées par un comité scientifique réduit

des séminaires techniques à intervalle régulier

étroite collaboration avec le groupe miroir français du TC37/SC4

Page 14: L’action nationale de R&D SYNTAX

Critères de réussite

transfert technologique  utilisation opérationnelle des plates-formes par au moins 2 partenaires

industriels diffusion de composants par une ou des sociétés de technologie

issues ou non de l’INRIA

impact sur le domaine : publication de normes pour l’ingénierie des langues et du document

création d’une dynamique dans la communauté françaiseune des retombées = mobilisation pour des réponses à des appels à

propositions

meilleure connaissance par les équipes INRIA des besoins opérationnels des industriels relance des travaux de recherchesmeilleur dialogue entre ces équipes

Page 15: L’action nationale de R&D SYNTAX

Budget : charges

conduite de l’action : 1 personne sur  3 ans ………..…………. = 36 h x m

gestion d’informations entrantes …………………………… …… = 114 h x m

acquisition et gestion de terminologies/lexiques multilingues = 60 h x m

plate-forme de modélisation et de gestion de référentiels …… = 50 h x m

total = 260 h x m

Page 16: L’action nationale de R&D SYNTAX

Budget : financement

autres projets dont RNIL et CODEX-termes (Technolangue) = 44 hommes x mois

6 partenaires industriels à 18 h x m chacun= 108 hommes x mois

DirDRI (action nationale de R&D) 3 personnes sur 2 ans l’équivalent d’1 personne à plein temps pour assurer la conduite de

l’action sur 3 ans

= 108 hommes x mois

total = 260 h x m

Page 17: L’action nationale de R&D SYNTAX

Autres projets projets Technolangue

RNIL (accepté, démarrage prévu début novembre) CODEX-termes (accepté, démarrage prévu début novembre)

projet ITEA JULES VERNE (accepté dans son principe, en phase de négociation avec le ministère

de l’industrie) rassemble TMM, Philips (Eindhoven), quelques PME et l’INRIA

projets RNTL OUTILEX (accepté, démarrage prévu début octobre)

concerne la modélisation de données lexicales

XMINER (accepté, a démarré début juillet)

projet européen E-content INTERA (accepté, démarrage prévu début octobre)

développe des outils de modélisation de données XML en lien avec la standardisation

Page 18: L’action nationale de R&D SYNTAX

Technolangue : RNIL (1)

objectif : définir, valider et diffuser des normes internationales pour l’ingénierie linguistique

participation à la définition de normes internationales pour représenter et gérer des ressources linguistiques

validation des propositions normatives développement de librairies informatiques facilitant la mise aux normes

des produits ou des composants logiciels issus de l’industrie

production de jeux de test

diffusion d’informations production d’une lettre d’information électronique régulière

organisation de séminaires techniques

Page 19: L’action nationale de R&D SYNTAX

Technolangue : RNIL (2)

Partenairesacadémiques et labos de recherche

AFNOR, ATILF, Imag (Clips), Limsi, université de Jussieu (Talana/Lattice et laboratoire de linguistique formelle), université de Nantes (IRIN), université de Rennes(RESO)

gros industriels CEA, XRCE, EDF R&D, Systran, EADS

(Dassault Aviation observateur)

PME Softissimo, Sinequa, Lucid-ID, J-way

INRIA Atoll, Langue & Dialogue, SYNTAX

Page 20: L’action nationale de R&D SYNTAX

Technolangue : RNIL (3)

Coût

coût total = 700 000 euros (TTC)

aide accordée = 450 000 euros (TTC)

Durée

36 mois

Page 21: L’action nationale de R&D SYNTAX

Technolangue : CODEX-termes

objectifélaboration d’un composant complet et performant d’extraction

terminologiqueproduction de données terminologiques dans le domaine du TALN et

pour la CN 36

partenairesAILF (Association des Informaticiens de Langue Française), CNSX SA

(PME de Carquefou), DASSAULT AVIATION, EADS Corporate Research Center, l’IRIN, le LORIA (projet L&D), LUCID’I.T, National Institute of Informatics (Japon)

coût total = 600 000 euros (TTC)

aide demandée = 350 000 euros (TTC)

durée prévue = 24 mois

Page 22: L’action nationale de R&D SYNTAX

Recoupements et apports

gestion d’informations entrantes <---- XMINER

acquisition de textes <---- XMINER  

intégration dans base semi-structurée <---- XMINER

annotation par les utilisateurs <---- OPERA (Annotea)

classification <---- ACACIA (Corese), TEXMEX, CORTEX, ORPAILLEUR

acquisition/gestion de terminologies multilingues <---- CODEX-termes

extraction de termes à partir de textes <---- CODEX-termes, TEXMEX, ORPAILLEUR

bases de lien termes-textes <---- Dassault Aviation

import de bases lexicales existantes <---- OUTILEX

édition collaborative des bases terminologiques <---- CODEX-termes, Lucid-IT

modélisation et gestion de référentiels XML <---- JULES VERNE, INTERA

Page 23: L’action nationale de R&D SYNTAX

Priorités immédiates

Validation d’une convention de participationEngagement des partenaires

Mise en place du comité de pilotage

Stabilisation de l’annexe techniqueBase: priorités définies aujourd’hui

Mise en place d’un groupe de travail (comité scientifique?) Responsables de sous-thème Localisation des forces de travail

Lancement du travail techniqueRodage: cf. Projets technolangues

Activation effective dès signature des conventions par une masse critique de partenaires