OUTILEX RNTL
OUTILEXPrésentation des résultats
Ministère de l'IndustrieVendredi 24 novembre 2006
OUTILEX RNTL
Ordre du jour Présentation synthétique des résultats - Eric Laporte - Université
de Marne-la-Vallée
Démonstrations Plate-forme - Matthieu Constant - Université de Marne-la-Vallée
Moteur de recherche interlingue - Romaric Besançon - CEA
Reconnaissance d'expressions multi-mots - Hugues de Mazancourt - Lingway
Moteur de recherche dans des documents XML - Massih Amini - Université Paris 6
Filtrage thématique de messages audio - Bénédicte Goujon - Thales R&T
Extraction d'information pour alimentation d'une base de connaissances - Catherine Gouttas - Thales Com
Discussion
OUTILEX RNTL
Objectifs et structure du projet
OUTILEX RNTL
Plate-forme du RNTL : traitement des langues naturelles
Budget et durée : environ 3,2 M€ / 4 ans
Démarrage : 1er octobre 2002
10 partenaires
Structure 2002-2005 : Spécifications, réalisation et tests de la plate-forme
2005-2006 : Réalisation de démonstrateurs
Répartition Grands groupes, grands instituts : 35 %
PME : 31 %
Instituts, universités : 34 %
OUTILEX RNTL
Thales R&T
Thales Com
CEA
LCI
Lingway
Systran
Université de Marne-la-Vallée (IGM), coordinateur
Université Paris 6 (LIP6)
Inria (Loria)
Université de Rouen (PSY.CO)
Industriels et grands instituts PME, start-ups
Instituts de recherche, universités
OUTILEX RNTL
Enjeux et objectifs du projet
Normalisation des formats des ressources linguistiques Mise à la disposition de la communauté d'outils logiciels et
de ressources linguistiques de base Interopérabilité avec les autres systèmes Fluidifier le marché des outils logiciels et des ressources
OUTILEX RNTL
Systèmes existants
GATE (Sheffield) FSM (AT&T) NLTK (communauté open-source) Intex (Univ. Franche-Comté) Unitex (Univ. Marne-la-Vallée)
OUTILEX RNTL
La plate-forme
OUTILEX RNTL
Architecture générale
OUTILEX RNTL
Ressources linguistiques dictionnaires morphosyntaxiques
pour le français (109 912 lemmes simples et 86 337 lemmes composés)
pour l'anglais (166 150 lemmes simples et 13 361 lemmes composés)
format XML (compatible avec LMF) jeu d'étiquettes riche et structuré (13 catégories
grammaticales, 18 codes flexionnels, divers traits syntactico-sémantiques)
niveau de généralité : langues européennes à suffixes
OUTILEX RNTL
Description du jeu d'étiquettes<lingdef lang='fr'>
<attrtype name="gender" type='enum'> <value name='m' alias='masculine'/> <value name='f' alias='feminine'/></attrtype><attrtype name='nounsubcat' type='enum'> <value name='abst' alias='Abst,abstract,abs'/> <value name='conc' alias='Conc,concret'/> <value name='hum' alias='Hum,human'/> [,,,] <value name='tps' alias='Tps,temporal'/></attrtype><pos name='noun' cutename='N'> <attribute name='subcat' type='nounsubcat' shortcut='yes'/> <attribute name='gender' type='gender' shortcut='yes'/> [,,,] <attribute name='proper' type='proper' default='false'/></pos>
OUTILEX RNTL
Ressources linguistiques dictionnaires terminologiques
aéronautique
dictionnaires bilingues une sélection des entrées des dictionnaires morphosyntaxiques
format XML
OUTILEX RNTL
Chaîne de traitement générale
OUTILEX RNTL
Segmentation
texte brut, HTML, RTF, PDF... en entrée segmentation en paragraphes, en phrases et en
tokens pré-étiquetage des tokens (information sur
l'alphabet, la casse, ponctuation ouvrante, etc.) opération réversible
OUTILEX RNTL
SegmentationLa police a saisi 164 procès-verbaux jeudi dernier
<document original_format="txt"><par id="1"><tu id="s0"><token type="word" id="t1" alph="latin" case="capit">La</token> <token type="word" id="t2" alph="latin">police</token> <token type="word" id="t3" alph="latin">a</token> <token type="word" id="t4" alph="latin">saisi</token> <token type="numeric" id="t5">164</token> <token type="word" id="t6" alph="latin">procès</token><token type="punctuation" id="t7" subt="Pc">-</token><token type="word" id="t8" alph="latin">verbaux</token> <token type="word" id="t9" alph="latin">jeudi</token> <token type="word" id="t10" alph="latin">dernier</token><token type="punctuation" id="t11">.</token></tu></par></document>
OUTILEX RNTL
Etiquetage morpho-syntaxique
étiquetage lexical par consultation des lexiques représentation de l'ambiguïté par automate (MAF) 4,7 % de silence suite à l'application des
dictionnaires livrés avec la plate-forme sur un corpus de dépèches AFP
silence de 0,4 % en déduisant les mots inconnus commençant par une majuscule
OUTILEX RNTL
Etiquetage morpho-syntaxique
consultation des lexiques tolérante redressage orthographique et typographique texte étiqueté : représentation compatible avec le
modèle MAF représentation plus compacte convertisseurs
OUTILEX RNTL
Etiquetage morpho-syntaxique
OUTILEX RNTL
Traitements par grammaires formalisme des RTN pondérés (ou WRTN)
plus puissant que les automates et transducteurs finis possibilité de sorties (cf. transducteurs) poids : peuvent être établis grâce à des méthodes statistiques
(démonstrateur Thales RT)
opérations sur les grammaires conversion de formats XML (graphique ou opérationnel) émondation, déterminisation, minimisation... import/export : Unitex, dot
OUTILEX RNTL
Traitements par grammaires moteur d'analyse basé sur l'algorithme d'Earley résultat sous la forme d'une forêt partagée d'arbres
d'analyse pondérés et annotés par les sorties de la grammaire
forêt fournie en entrée à des modules de traitement extérieurs durant l'analyse du corpus (phrase par phrase)
OUTILEX RNTL
Applications concordancier
format XML
annotation de textes reconnaissance et étiquetage d'entités nommées et autres motifs extraction d'informations options : sortie texte ou sortie automate (itération possible) options : les parties reconnues sont conservées ou supprimées option : seuil sur le poids du chemin dans la grammaire
analyse syntaxique avec unification
OUTILEX RNTL
Exemple de grammaire
OUTILEX RNTL
Annotation sur l'automate du texte
OUTILEX RNTL
Autre grammaire
OUTILEX RNTL
Gestion des ressources linguistiques
module de flexion flexion des mots composés
indexation des dictionnaires de formes fléchies efficace : 63 s pour 1,3 million de formes
transcodage des ressources dans différents formats : texte (lisible, édition, maintenance) XML (format d'échange, maintenance) binaires (traitements)
OUTILEX RNTL
Interfaces
interface graphique utilisateur mise au point des ressources linguistiques
utilisation en ligne de commande mise au point des traitements
API optimisation utile pour le traitement de documents nombreux
OUTILEX RNTL
Normalisation
OUTILEX RNTL
Textes
texte tokenisé texte étiqueté référence : MAF
cadre d'annotation morphosyntaxique
OUTILEX RNTL
Lexiques
référence : LMF cadre de balisage de lexiques
structuration de lexiques noms propres lexiques terminologiques
OUTILEX RNTL
Diffusion
OUTILEX RNTL
Le site web
communication entre partenaires après la fin du projet : distribution de la plate-
forme et des ressources cotisation annuelle : 100 euros
paiement sécurisé sur le site
OUTILEX RNTL
Publications
nationales et internationales formats applications présentations générales
OUTILEX RNTL
Conclusion http://www.at-lci.com/outilex opérations de base sur les textes utilisation de ressources à large couverture la plate-forme sera bientôt disponible et ouverte au
développement collaboratif (licence LGPL) nouvelles fonctionnalités nouvelles langues
Recommended