Consignes aux auteurs - lirmm.frlafourcade/pub/Art-PAPILLON-TAL03/papillon-tal-v2.doc · Web viewConstruction collaborative de données lexicales multilingues. Le projet Papillon

TAL. Volume 42 – n° 4/2001, pages 1 à X

Construction collaborative de données lexicales multilingues

Le projet Papillon

Mathieu Mangeot-Lerebours* — Gilles Sérasset**— Mathieu Lafourcade***

* National Institute of InformaticsHitotsubashi 2-1-2-1913 Chiyoda-ku Tokyo 101-8430 [email protected]** GETA-CLIPS — IMAG — Université Joseph FourierBP 53, 38041 Grenoble cedex [email protected]*** TAL-LIRMM — Université de [email protected]

RÉSUMÉ. Résumé

MOTS-CLÉS : mots-clés.

KEY WORDS : keywords.

Note : Article à envoyer le 5 janvier dernier délai à Michael Zock [email protected]

Note : l’article doit faire de 25 à 30 pages

mailto:[email protected]

2 TAL. Volume 42 – n° 3/2001

1. Introduction

S : Cet article présente un état de l’art du projet Papillon de construction collaborative sur Internet de données lexicales multilingues.

I : L’intérêt majeur est d’appliquer le paradigme de construction du système d’exploitation LINUX, construction collaborative sur Internet par des bénévoles, à celle de données lexicales multilingues qui seront disponibles gratuitement au grand public. Les enjeux scientifiques sont nombreux. En effet, il n’existe pas à l’heure actuelle de dictionnaire d’usage multilingue incluant un grand nombre de langues. Quelle structure faut-il adopter pour réduire les efforts de construction ? D’autre part, le choix d’interagir avec le serveur à travers le Web pose des problèmes de construction d’interfaces pour l’édition et la manipulation de grandes quantités de données.

P :

2. Motivations du projet

Le projet Papillon fait suite à un premier constat : il n’existe pas à l’heure actuelle de dictionnaire français-japonais électroniques et gratuits. De plus, les dictionnaires existants sont en général conçus pour les japonais. La transcription des kanjis (idéogrammes japonais) est donc la plupart des cas omise. Les francophones ne peuvent donc pas se servir de ces dictionnaires à moins de savoir lire les kanjis. De plus, d’autres informations necessaries pour la comprehension des mots japonais font aussi défaut. Il existe par exemple, une grande variété de spécificateurs numériques en japonais. Certains échappent à toute logique. Il est donc indispensable d’y avoir accès lorsque l’on veut utiliser un nom.

Une autre difficulté subsiste dans la construction de grandes quantités de données : les coûts de construction prohibitifs. Un exemple, le projet Electronic Dictionary Research (EDR) de construction de dictionnaire japonais-anglais a coûté plus de 1200 humains/années. Son prix de vente, 140 000 euros environ, est très inférieur aux coûts réels de construction qui ne seront probablement jamais rentabilisés. Il est cependant encore trop élevé pour un particulier. De ce fait, seules des institutions peuvent l’acquérir.

Pour contourner cette difficulté, nous avons choisi d’appliquer le paradigme de construction de LINUX à celui de l’élaboration de données lexicales : chaque utilisateur contribue bénévolement à la base lexicale et les ressources sont ensuite disponibles gratuitement pour tous. Les utilisateurs mutualisent leurs dictionnaires. Des projets similaires de construction collaboratives de données lexicales sur le Web existent parfois depuis plusieurs années. Le projet EDICT de construction de dictionnaire japonais-anglais dirigé par Jim Breen, professeur à l’université

Construction collaborative de données lexicales multilingues 3

Monash en Australie , a démarré il y a plus de 10 ans. De plus, des projets parallèles de traduction des gloses dans d’autres langues comme le français conduit par Jean-Marc Desperrier ont démarré avec succès. D’autres projets de construction bilingue de dictionnaires incluant le japonais ont été lancés plus récemment comme SAIKAM, japonais-thaï et WaDoKuJiten, allemand-japonais. Malgré leur succès, ces projets ont des limitations pour nos objectifs : la qualité des données et la simplicité des structures des articles. Edict est un dictionnaire japonais->anglais monodirectionnel. Il est donc très difficile de rechercher une traduction japonaise à partir de l’anglais. D’autre part, ces projets traitent toujours de dictionnaires bilingues. La construction de dictionnaires multilingue n’a pas encore à notre connaissance été abordée dans des projets de ce genre.

Des collaborations existantes entre les membres du projet de construction de dictionnaires avec d’autres langues : dictionnaire français-anglais-malais entre le GETA-CLIPS à Grenoble et l’UTMK en Malaisie, dictionnaires français-anglais thaï et français-anglais-vietnamen sur le même modèle d’une part et le projet SAIKAM entre le NII à Tokyo et l’unversité Kasetsart à Bangkok, Thaïlande d’autre part, nous ont décidé à étendre le nombre de langues et créer ainsi un dictionnaire multilingue. Actuellement, les langues couvertes sont l’allemand, l’anglais, le français, le japonais, le lao, le malais, le thaï et le vietnamien. Des discussions sont en cours concernant les langues indiennes et le chinois.

Une autre extension importante du but initial concerne les utilisateurs. Plutôt que de construire un dictionnaire pour chaque catégorie d’utilisateurs, il nous a semblé plus intéressant de construire une base lexicale riche d’informations puis ensuite d’en extraire des vues personnalisées pour chaque utilisateur ou catégorie d’utilisateur. Nous prévoyons des utilisations de la base par des humains (débutant, expert, traducteur) mais aussi par des machines (lemmatiseurs, traduction automatique, apprentissage assisté par ordinateur, etc.). Pour que les données soient utilsables par des machines, il faut donc prévoir de marquer explicitement toutes les informations.

Le défi est alors lancé : comment construire bénévolement et collaborativement sur le Web un dictionnaire multilingue, multiutilisateurs, de qualité et gratuit.

3. Historique

Ce projet a été lancé en 2000 par Emmanuel Planas et François Brown de Colstoun, chercheurs français travaillant au Japon d’une part et Mutsuko Tomokiyo, chercheur japonaise travaillant en France d’autre part.

Note : est-ce que je parle de tous les principaux acteurs ?Une première réunion des principaux acteurs du projet a eu lieu au Japon en

août 2000. Elle a regroupé au départ, des chercheurs issus de la linguistique informatique (issus principalement du laboratoire GETA/CLIPS de Grenoble),

4 TAL. Volume 42 – n° 3/2001

plutôt que des linguistes ou lexicographes. Cette réunion a servi principalement à définir les bases de la structure du dictionnaire et les étapes nécessaires au lancement du projet.

Une deuxième réunion a suivi en juillet 2001 à Grenoble, en France. Cette réunion a permis de structurer le projet en s’inspirant de l’organisation du W3C : Un comité de pilotage du projet réunit une dizaine des principaux acteurs les plus influents. Ensuite, une liste des tâches a été établie avec pour chaque tâche, un groupe de travail, un comité directeur, et un cycle de requêtes pour commentaires et recommandations.

Le séminaire Papillon 2002 s’est tenue au Japon en juillet. Des acteurs reconnus dans le monde de la linguistique informatique sur le japonais ont rejoint le projet : Jim Breen, auteur du dictionnaire EDICT, Francis Bond, chercheur au centre de NTT de Keihanna au Japon, Yves Lepage, chercheur au centre ATR de Keihanna au Japon et Ulrich Appel, auteur du dictionnaire allemand-japonais WaDoKuJiten. Durant ce séminaire, il a nottament été décidé que les données du projet seraient disponibles sous licence de logiciel libre.

Le prochain séminaire aura lieu du 3 au 5 juillet 2003 à Sapporo, en marge de la conférence ACL. Le programme, en cours d’élaboration prévoit déjà des ateliers de construction d’articles de dictionnaires dans plusieurs langues.

Un des buts du projet étant de produire des ressources libres de droits, il est donc difficile de trouver des financements. La majorité des acteurs du projet y travaille donc à temps partiel en plus de leur charge habituelle. Nous avons cependant pu financer nottament plusieurs séjours postdoctoraux de français au Japon par le biais de la société japonaise pour la promotion de la science (JSPS).

4. Macrostructure du dictionnaire Papillon

Pur construire un dictionnaire bilingue, le choix d’une macrostructure composée d’un volume composé d’articles de la langue A traduits vers la langue B et d’un autre volume composé d’articles de la langue B traduits vers la langue A semble naturel. Mais, lorsque l’on s’attèle à la construction d’un dictionnaire multiligue avec plus de 5 langues au départ, cette solution n’est rapidement plus envisageable. Pour 5 langues, il faudrait alors (n*n-1)/2 = 10 volumes.

Une autre solution utilisée en terminologie avec succès (voir la base Eurodicautom du service de traduction de la Communauté Européenne) consiste à ne construire qu’un volume avec une colonne pour chaque langue. Chaque terme aura alors un équivalent (et un seul) dans chacune des langues. Cette solution est appliquable en terminologie lorsqu’on traite un domaine particulier mais elle ne peut être utilisée pour la construction d’un dictionnaire d’usage dont le domaine est général et où les mots sont la plupart du temps polysémiques.


La macrostructure que nous avons choisie provient en grande partie des travaux de thèse de Gilles Sérasset [SER94] et a été expérimentée à petite échelle pour la construction de petites bases lexicales multilingues [BLA96]. Elle consiste à construire un volume monolingue pour chaque langue présente dans le dictionnaire puis à relier chaque sens de mot de chaque article monolingue avec ses correspondants dans les autres langues au moyen de liens interlingues (appelés axies pour acceptions interlingues) regroupés dans un volume interlingue servant de pivot entre les langues. Cette macrostructure pivot, bien que expérimentée avec succès à petite échelle n’a pas encore à notre connaissance été appliquée à grande échelle pour la construction de dictionnaires généraux à usage humain. Cette expérimentation constitue donc pour nous un autre défi à relever.

À retraduireReal contrastive problems in lexical equivalence (not to be confused with

monolingual polysemy, homonymy or synonymy as clearly explained in Mel'cuk and Wanner (2001) are handled by way of a special kind of link between axies. Figure 2 illustrates this architecture using a classical example involving "Rice" in 4

languages. In this example, we used the word senses as given by the "Petit Robert" dictionary for French and the "Longman Dictionary of Contemporary English" for English. As shown, the French and English dictionaries do not make any word sense distinction between cooked and uncooked rice seeds. However, this distinction is clearly made in Japanese and Malay. No axie may be used to denote the union of the word senses for Malay "nasi" and "beras" unless we want to consider them as true synonyms in Malay (which would be false). Hence, we have to create 3 different axies: one for the union of "nasi" and å‰î— (gohan), the other for the union of "beras" and ïƒ (kome) and one for the union of "rice" and "riz". A link (non-continuous line in Figure 1 has to be added between the third axies and the others in order to keep the translation equivalence between the word-senses.

Note that the links between axies do not bear any particular semantics and should not be confused with some kind of ontological links.

6 TAL. Volume 42 – n° 3/2001

Bilingual dictionaries can then be obtained from the multilingual dictionary.

5. Microstructure des articles

Pour la structure des articles, nous aurions pu définir notre propre structure. Cependant, il nous a semblé plus judicieux de s’appuyer sur une théorie existante. Nous avons choisi la lexicographie explicative et combinatoire, issue de la théorie sens-texte principalement pour les raisons suivantes :

- Cette théorie est indépendante des langues. Ce qui permet entre autres d’avoir une seule structure d’article valable pour toutes les langues.

- Elle apporte un cadre théorique et des outils précis pour distinguer les différents sens sémantiques d’un vocable.

- Il existe déjà des dictionnaires basés sur cette théorie.La théorie sens-texte a été élaborée en Russie par Igor Mel‘cuk et ses collègues

à partir de 1965. Cette théorie les outils nécessaires pour passer d’une idée (un sens) à sa réalisation dans une langue donnée (le texte). Elle a été développée par la suite à l’Observatoire de la Linguistique Sens-Text (OLST) de l’université de Montréal et a donné naissance au Dictionnaire Explicatif et Combinatoire (DEC) du français contemporain [MEL84].

Les articles de ce dictionnaire ne sont pas des articles traditionnels regroupant plusieurs sens. Ce sont des lexies. Nous reprenons ici la définition d’une lexie de [POL02] page 41 :

Une lexie, aussi appelée unité lexicale, est un regroupement 1) de mots-formes ou 2) de constructions linguistiques qui ne se distinguent que par la flexion.

Dans le premier cas, il s’agit de lexèmes et dans le second cas, de locutions.

Chaque lexie (lexème ou locution) est associée à un sens donné. Que l’on retrouve dans le signifié de chacun des signes (mots-forms ou constructions linguistiques) auxquels elle correspond.

Les lexies sont ensuite regroupées en vocables. Nous reprenons ici la définition d’un vocable de [POL02] page 42 :

Un vocable est un regroupement de lexies qui sont associées aux mêmes signifiants et qui ont un lien sémantique évident.

Le DEC est actuellement constitué de 4 volumes regroupant 558 vocables en tout. C’est un dictionnaire expérimental avec une structure assez complexe et qui ne peut (encore) servir à un usage général. C’est pourquoi un projet de simplification du DEC a été lancé récemment par Alain Polguère et Igor Mel’cuk avec l'aide des étudiants de l'Observatoire de Linguistique Sens-Texte de l'université de Montréal au Canada.


Le projet DiCo [POL00] vise à construire une base lexicale du français de grande taille et à générer à partir de cette base un dictionnaire d'usage public : le Lexique Actif du Français (LAF). La base DiCo est en cours de rédaction. Il est prévu à terme d'obtenir environ 3 000 vocables ayant chacun plusieurs lexies (en moyenne trois lexies).

Cette base lexicale est gérée par l'outil FileMaker®. Chaque entrée de la base correspond à une lexie. Un vocable peut avoir une ou plusieurs lexies selon qu'il est monosémique ou polysémique. Les lexies d'un même vocable auront généralement le même nom et les mêmes propriétés grammaticales. chaque lexie est composée de huit champs différents. Nous donnons dans l'exemple de la figure xxx représentant l'unique lexie du vocable monosémique MEURTRE le nom de tous les champs suivis de leur valeur.

1. Nom de l'unité lexicale : MEURTRE

2. Propriétés grammaticales : nom, masc

3. Formule sémantique : action de tuer: ~ PAR L'individu X DE L'individu Y

4. Régime : X = I = de N, A-possY = II = de N, A-poss

5. (Quasi-)synonymes: {QSyn} assassinat, homicide#1; crime

6. Fonctions lexicales

- {V0} tuer

- {A0} meurtrier-adj

- {S1} auteur [de ART ~ ]//meurtrier-n /* Nom pour X*/

7. Exemples: La mésentente pourrait être le mobile du meurtre.

8. Idiomes: _appel au meurtre_, _crier au meurtre_

Figure xxx : extraits de la lexie MEURTRE de la base DiCo

Les fonctions lexicales de base sont au nombre de 52. Elles peuvent s’appliquer pour toutes les langues même si quelques fonctions n’auront pas de résultat dans certaines langues. Cette microstructure est donc indépendante des langues.

Depuis la base DiCo, il est possible de générer semi-automatiquement des dictionnaires à usage humain tel que le Lexique Actif du Français (LAF). Ce dictionnaire tente de rapprocher la lexicographie "théorique" et la lexicographie "commerciale" en utilisant la lexicologie explicative et combinatoire.

Ce formalisme est très intéressant puisque, à partir des mêmes données, il permet de produire des ressources aussi bien pour des systèmes lexicaux que pour des dictionnaires d'usage grand public. De plus, il permet de populariser la lexicologie explicative et combinatoire provenant de la théorie sens-texte. Nous avons ici un net progrès par rapport aux autres dictionnaires vus précédemment qui

8 TAL. Volume 42 – n° 3/2001

n'étaient destinés qu'à un usage uniquement humain et ne pouvaient donc pas être facilement utilisables par une machine sans transformation.

L'utilisation d'une base de donnée limite cependant la structuration des entrées en champs. Pour nos besoins, nous avons donc redéfini la structure d’une lexie au format XML. Ce système de structuration plus élaboré nous permet de noter explicitement toute la structure des articles.

6. Architecture générale de la plateforme

6.1. Cadre théorique de manipulation de données

Gilles Sérasset définit dans sa thèse [SER94] un Système Universel de gestion de Bases Lexicales Multilingues (SUBLIM). Il consiste principalement en deux langages spécialisés pour la manipulation de données lexicales et d’un langage de vérification de contraintes sur ces données. Ces langages s’expriment dans une syntaxe tirée de LISP.

LINGARD est un langage de description de l’architecture linguistique ou la macrostructure de dictionnaires. Ce language générique permet de définir l’organisation des volumes d’un dictionnaire et les liens entre ces volumes : dictionnaires monolingues, bilingues, multilingues à structure pivot, etc.

LEXARD est un langage de description de l’architecture lexicale ou la microstructure des articles des dictionnaires. Le lexicographe doit pouvoir utiliser n’importe quel formalisme pour décrire ses articles. C’est pourquoi LEXARD permet de décrire un grand nombre de types de données différents comme des structures de traits, des arbres, des graphes, des automates, des ensembles, des listes, etc. Ce langage n’est donc pas spécialisé pour une théorie particulière de représentation de données lexicales.

6.2. DML : description de dictionnaires en XML

Malgré la puissance de description de SUBLIM, il n’existait aucune implémentation de ce système. C’est pourquoi nous l’avons repris en l’enrichissant avec les lacunes constatées lors de notre étude [MAN01] puis nous l’avons réexprimé en XML [MAN02a]

We then defined a complete framework for the consultation and the construction of dictionaries. The framework is completely generic in order to

Database

Entry

DictionaryClientAPI

SupplierAPI

VolumeUser

History

GroupCDM set•headword•pos•pronunciation•translation•example•idiom

Basic Types•boolean•integer•date

function

treegraph

automatonlink


manage heterogeneous dictionaries with their own proper structures. It is extensively used in Papillon project. The framework consists in the definition of an XML namespace called DML (Dictionary Markup Language). All lexical data of a lexical database can be described with DML elements. The entire hierarchy of the XML files, elements and attributes is described using XML schemata and grouped into the DML namespace. Figure xxx describes the organisation of the main DML elements. The XML schemata are available online. This allows users to edit and validate their files online with an XML schema validator.

Figure xxx : architecture de DML

6.3. Architecture de la plateforme de travail

Architecture de ma thèse [MAN01] avec API et modules pré et post consultation, échange de services, Personnalisation du résultat avec feuilles de

style,

Figure xxx : architecture de la plateforme

La plateforme est générique. Elle peut servir à la consultation de n’importe quel type de dictionnaire au format XML. Elle peut aussi servir à la construction de dictionnaires dont la structure des articles est compatible avec l’interface d’édition.

10 TAL. Volume 42 – n° 3/2001

7. Architecture informatique du serveur

Suivant la logique du paradigme de construction de LINUX, nous avons fait le choix de n’utiliser que des outils OpenSource.

Enhydra, serveur Web d’objets dynamiques en Java, architecture classique de serveur web 3/tiers.

Figure avec plateforme + 3 couches enhydra

La couche de business pour la manipulation des données

la couche de présentation pour la communication avec les clients à travers des pages HTML/CSS/Javascript et des formulaires HTML/CGIs.

La couche de données data pour le stockage des données. L’architecture de la palteforme est conçue pour être indépendante de la couche de données. Les données sont pour l’instant stockées dans un SGBD classique. Nous avons choisi PostgreSQL car il répond à notre cahier des charges en gérant de manière transparente les données multioctets comme du texte en UTF-8. La communication se fait à travers le JDBC. Il est donc possible de changer de SGBD en limitant les développements.

Nous avons ajouté des fonctionnalités pour le travail en communauté :gestion de listes de distributions, entrepôt de documents rédigés par les utilisateurs directement sur le serveur, etc.

8. Récupération de données existantes

8.1. Gestion des données existantes : limbes, purgatoire et paradis

The lexical data repository of the Papillon project is divided into 4 subdirectories: Administration contains guidelines and administrative files Limbes (data in original format) Purgatory (data in XML & UTF-8) Paradise (data in Papillon format)The name of the files and directories is normalised in order to allow easy navigation into the repository.All lexical data stored in the repository is free of rights or protected by a GPL-like licence.


8.1.1. Les limbes

This directory contains lexical data in their original format. When a dictionary is received, it is first stored there while waiting to be “recycled”. For each dictionary, we create a metadata file containing all available information concerning the dictionary (name, languages covered, creation date, size, authors, domain, etc.). It is then used to evaluate the quality of the dictionary and to guide the recycling process. These dicitonaries are freely downloadable as they are.

8.1.2. Le purgatoire

The Purgatory directory receives the lexical data once the recuperation process is over. This process consists in converting the lexical data from its original format into XML encoded in UTF-8. To perform this task, we use the RECUPDIC methodology described in Doan-Nguyen (1998) regular expression tools like Perl scripts.If a dictionary is already encoded in XML, the recuperation process consists in mapping the elements of information into CDM elements and storing the correspondence into the metadata file. Internet users access these dictionaries as classical online dictionaries, retrieving individual entries by way of requests on the Papillon web site.

8.1.3. Le paradis

The Paradise directory contains only one dictionary often called the "Papillon dictionary".

This dictionary has a particular DML structure. Internet users access entries of this dictionary by way of requests to the Papillon web site.

12 TAL. Volume 42 – n° 3/2001

It is possible to retrieve only one entry, or any subset of entries in any available output format. The “native” format is the Papillon textual XML DML format in UTF-8. Users also have ways to add new entries or correct existing ones online.

Other purgatory dictionaries may be integrated into the Papillon dictionary with the help of the CDM elements.

8.2. Un mécanisme des pointeurs communs : CDM

The DML framework may be used to encode many different dictionary structures. Indeed, two dictionary structures can be radically different. In order to handle such heterogeneous structures with the same tools, we have defined a subset of DML element and attributes that are used to identify which part of the different structures represent the same lexical information. This subset is called Common Dictionary Markup (CDM). This set is in constant evolution. If the same kind of information is found in several dictionaries then a new element representing this piece of information is added to the CDM set. It allows tools to have access to common information in heterogeneous dictionaries by way of pointers into the structures of the dictionaries.

Element CDM équivalent TEI FeM OHD NODE<entry> (entry) <fem-entry> <se> <se><headword> (hom)(orth) <entry> <hw> <hw>

<pronunciation> (pron) <french_pron> <pr><ph> <pr><ph><etymology> (etym) <etym>

<syntactic-sense> (sense level="1") <sense n=1> <s1>

<pos> (pos)(subc) <french_cat> <pos> <ps><lexie> (sense level="2") <sense n=2> <s2>

<indicator> (usg) <gloss> <id><label> (lbl) <label> <li> <la>

<example> (def) <french_sentence> <ex> <ex>

<definition> (eg) <df>

<translation> (trans)(tr) <english_equ><malay_equ> <tr>

<collocate> (colloc) <co>

<link> (xr) <cross_ref_entry> <xr> <xg>

<vg>


<note> (note) <ann>

8.3. Vecteurs conceptuels pour la fusion de dictionnaires existants

Il est plus facile de corriger des articles existants que d’écrire un article en partant de zéro. De plus, il existe des dictionnaires libres et gratuits sur Internet. Partant de ce constat, nous avons mis en place une méthodologie de récupération de dictionnaires existants pour construire un squelette de dictionnaire. Les articles seront ensuite révisés et complétés par les contributeurs.

9. Adaptation de l’interface de saisie

L’interface de saisie est générée semi-automatiquement à partir d’un schéma XML décrivant l’article à éditer. La génération est contrôlée par l’outil ArtStudio. L’interface ainsi générée s’adapte automatiquement à plusieurs types de plateformes (HTML, WML, CHTML, java, waba, etc).

David et moi avons rédigé des rapports techniques pouvant s’intégrer dans ce cadre. On peut supprimer ce paragraphe si on rajoute des détails sur les vecteurs conceptuels.

10. Gestion des contributions

Pour éviter les problèmes de pollution involontaire de la base par des contributions erronées détéctés dans les projets de construction collaborative précédents, les contributions sont d’abord stockées dans l’espace utilisateur avant d’être révisées par des spécialistes et intégrées définitivement à la base.

Contributions espace utilisateur avant integration, possibilité de visualiser ses contributions et celles de ses groupes comme si elles étaient déjà intégré au dictionnaire.

Chacun contribue à son niveau.

Le volume interlingue de base lexicale est considéré comme une soupe chaude toujours en évolution. Des agents travaillent sans cesse à son amélioration.

Les agents automatiques travaillent en tâche de fond en calculant les vecteurs conceptuels de chaque article relié à un lien interlingue et les distances entre ces vecteurs.

Les agents humains corrigent et modifient certains liens en fonction de leurs connaissances. Bien sûr, un lien calculé par un humain aura plus de poids qu’un lien calculé automatiquement.

14 TAL. Volume 42 – n° 3/2001

Comment ne pas être débordé par les vérifications, d’autant plus que les spécialistes devront certainement être rémunérés pour leur travail ?

3 solutions peuvent s’appliquer :

Les contributeurs peuvent acquérir une note de confiance au fur et à mesure que leur travail est évalué positivement. Les contributeurs de confiance pourront alors intégrer directement leurs contributions à la base.

Il est possible de mettre en place un système de vote et de révision par les pairs : les autres contributeurs voteront sur la qualité d’une contribution.

La troisième solution concerne les agents automatiques qui travaillent en tâche de fond sur l’évaluation de la base lexicale. Il faut donc mettre en place des systèmes de vérifications de contraintes adaptés à la nouvelle architecture de la base.

Le projet ne peut réussir sans l’adhésion du grand public. Il faut donc prendre grand soin à la mise en œuvre du serveur sous peine de ne pas voir les contributeurs revenir.

Il faut aussi trouver le moyen de motiver ces contributeurs avec un tableau des meilleurs contributeurs du mois, etc.

11. Vecteurs conceptuels et Amorçage de la base d’acceptions

11.1. Vecteurs conceptuels

On représente les aspects thématiques de segment textuels (documents, paragraphes, etc ;) à l’aide de vecteurs conceptuels (ref ML). Les vecteurs (lexicalisés) ont largement été utilisés en recherche d’information (Salton, MacGill, 83) et pour la représentation du sens dans le modèle LSI (Deerwester et al, 90). En TAL, (Chauché 90) a proposé un formalisme pour la projection de la notion de champ sémantique dans un espace vectoriel. Notre modèle en est fortement inspiré.

A partir d’un ensemble de notions élémentaires (les concepts), il est possible de construire des vecteurs (dits conceptuels) et de les associer à des items lexicaux. L’hypothèse forte (originellement discutée dans (Rodget, Kirkpatrick) est que le jeu de concepts constitue un ensemble générateur du langage. De façon similaire, l’ensemble des concepts consitue un espace générateur dans lequel est plongé l’espace vectoriel des sens. L’utilisation de vecteur permet d’accéder à des fonctions et des propriétés mathématiques bien fondées auxquelles il est nécessaire d’attacher des intréprétation linguistique (ou cognitives) raisonnables.


Dans le système à la base de nos expérimentations, les concepts sont issues d’un thésaurus (Larousse, 92) où 873 idées principales sont identifiées. Cet ensemble consitute donc un espace générateur pour les items lexicaux et leur sens. Cet espace n’est probablement pas libre (pas de base vectorielle propre) et donc, n’importe quel terme peut y projeter son sens.

11.1.1. Principe de la projection thématique

Soit E, un ensemble fini de n concepts. Un vecteur conceptuel V est une combinaison linéaire des élements de E. Pour un sens A, le vecteur V(A) est une description (en extension) des activations de tous les concepts de E. Par exemple, les différents sens de « couper» peuvent être projeter sur les concepts (ordonnés par intensité décroissante)

V(« couper ») = (JEU 0.8, LIQUIDE 0.8, CROIX 0.79, PARTIE 0.78, MELANGE 0.78, FRACTION 0.75, SUPPLICE 0.75, BLESSURE 0.75, BOISSON 0.74 …).

En pratique, plus E est grand plus fine sera description, par contre la manipulation sera d’autant moins aisée. Il est clair, que pour des vecteurs denses (avec peu de composantes valant 0), l’énumération des concepts est longue et difficile à évaluer. C’est pourquoi, le calcul des vecteur se fait par apprentissage à partir de définitions. Les définitions issues de dictionnaires à usages humain (ou encore de liste de synonymes, etc.) sont l’objet d’une analyse morpho-syntaxique dont l’arbre résultat constitue la structure sur laquelle les vecteurs sont projeté . un recuit-simulé permet d’obtenir un vecteur global (sur la racine de l’arbre). Les sens des termes présente dans la définition se sont implicitement désambiguïsés par partage d’information mutuelles.

11.1.2. Distance angulaire

On défini Sim(A,B) comme une distance de similarité entre deux vecteurs A et B souvent utilisé en recherche d’information (Morin 99). On peu exprimer cette fonction comme :

Sim(A, B) = Cos(A,B) = A.B/|A|*|B|

Ou “.” Est la produit scalaire. On suppose ici que toutes les composantes des vecteurs sont positives ou nulles. On définit alors la distance angulaire D entre deux vecteurs A et B comme

D(A,B) = arcos(Sim(A,B))

Intuitivement, cette fonction constitue une évaluation de la proximité thématique et est une mesure de l’angle entre deux vecteurs. On considérera, en général, qu’une distance D ≤ π/4 (moins de 45°) indique de A et B sont thématiquement proches et partagent beaucoup de concepts. Aux alentours de π/2,

16 TAL. Volume 42 – n° 3/2001

il n’y a pas de relation entre A et B. D est une vraie distance et vérifie les propriétes de reflexivité, symétrie et inégalité triangulaire.

Figure ml : Représentation graphique des termes échange (très polysémique) et cession.

11.1.3. Opérations sur les vecteurs

Somme de deux vecteurs. Soit A et B deux vecteurs, on définit leur somme normé comme : V = A + B | vi = (ai + bi)/|V|

Cet opérateur est idempotent, car nous avons A+ A = A. Le vecteur nul 0 est par définition l’élement neutre .

Produit termes à termes. Soit A et B deux vecteurs, on définit leur produit termes à ptermes normalisé comme : V = A * B | vi = √(ai * bi)

Cet opérateur est idempotent, et le vecteur 0 est absorbant.

Contextulisation. Qaund deux termes sont en présence, certains de leur sens se sélectionnent mutuellement. Par exemple, il n’y plus de difficulté à saisir le sens probable de botte en présente de chaussure. Plus les termes sont polysémiques plus la sélectione peut être délicates, mais en général deux termes fortement polysémiques peuvent se conetxtualiser en sélectionnant le sous-ensemble des sens qui sont thématiquement communs. Par exemple (à faire)

Soit A un vecteur cible et B un vecteur dit de contexte. On définit la contextualisation de A par B, comme :

Cx(A,B) = A + ( A * B)


Figure ml : Représentation géométrique de la fonction de contextualisation. L’angle alpha represente la distance thématique entre les vecteurs A et B mutuellement contextualisés.

La fonction Cx rapproche les vecteur A et B en proportion à leur intersection.

11.2. Peuplement automatique de la base d’acceptions

Afin de peupler automatiquement la base d’acceptions, plusieurs étapdes doivent être considérées. En premier lieu, un amorçage est nécessaire afin de construire un ensemble initial d’acceptions. Ensuite, à partir de deux dictionnaires bilingues (que l’on nommera source et cible), nous associons chaque ensemble de lexies à l’ensemble de sens correspondants dans le dictionnaire monolingue vectorisé puis enseuite aux accpetions.

11.2.1. Constainteset vocabulaire

L’automatisation nous impose un certains nombre de contraintes en ce qui concerne les lexies, les liens et les acceptions :

1) Il y a, au plus, un seul lien possible d’un sens monolingue vers une acception. Une entrée avec n sens sera indirectement liée à, au plus, n

18 TAL. Volume 42 – n° 3/2001

acceptions via ses sens. Certains sens peuvent encore ne pas avoir été mis en correspondance avec une acception.

2) Deux sens ne peuvent pas être liée à la même acception. Si ces sens sont synonymes, cette relation sera explicitée à l’aide d’une fonction lexicales.

Précisement, nous utiliserons les termes suivants : Un terme est simplement un mot ou plus généralement une unité lexicale. Ce mot dipose d’un (monosémique) ou de plusieurs sens (polysémique). On parlera de sens, si nous somme dans un contexte monolingue, d’acception sinon. La problématique est bien ici, de rattacher des sens à des acceptions.

Figure ml 4 : L’architecture générale est augmenté d’une base (fictive) de vecteurs conceptuels. Cet base permet d’associer aux acceptions une représentation thématique calculée à partir de chacuns des vecteurs disponibles dans les base monolingues.

11.2.2. Ammorçage

L’ammorcage consite à créer une acception pour chaque sens défini dans le dictionnaire monolingue. Notre approche consiste à utiliser les vecteurs conceptuel (associé à un sens) pour produire une base de vecteur associé aux accpetions.


Figure ml4 : chaque entrées monolingue est vectorisé, c’est-à-dire qu’une vecteur conceptuel est associé à chaque sens.Un sens monolingue est associé à une et une seule acception. En théorie chaque sens monolingue et chaque accpetion doit disposer d’un lien. En pratique, le processus de construction (qui est any time) et la base est potentiellement toujours dans un état incomplet ou il y a des objets orphelins.

11.2.3. Liage Lexie-sens

On considère en toute généralité un dictionnaire bilingue Da-b d’une langue source A evrs une langue cible B. On utilise aussi le dictionnaire inverse Db-a. Dans les deux dictionnaire, la structure (simplifiée) d’une association bilingue est la suivante:

S(Dab,w) = (cat, glose*, equiv+)+

Dans le dictionnaire Dab, le terme w est associée à n définitions (des lexies). Chaque lexie contient: une information morphologique (au moins la catégorie morphosyntaxique, Nom, Verbe, Adjectif, Adverbe), zéro ou plus gloses, et au moins un equivalent dans la langue cible. Les gloses sont des termes optionnels qui permettent à l’utilisateur de sélectionner le sens dont il est question si le terme est polysémique. Un exemple typique est :

demand =1 (VT, {money, explanation, help},{exiger, réclamer})2 (VT, {higher pay},{revendiquer, réclamer})3 (N, {person}, {demande})4 (N, {duty, problem, siutation}, {revendication, réclamation})5 (N, {for help, for money}, {demande})

La structure de nos dictionnaires monolingues vectorisés est la suivante

S(Dab,w) = (cat, def, vecteur)

Dans un dictionnaire vectorisé Dva, une entrée w dispose de n sous-entrées wi (n≥1). Si n=1 le terme w est strictement monosémique (selon ce dictionnaire). De façon abusive on qualifiera une sous-entrée de sens. Les sens peuvent être organisés hiérarchiquement, ce qui est reflété par les liens de raffinement dans la base d’acceptions. La définition est l’information principale à partir de laquelle est calculé le vecteur conceptuel correspondant.

Pour un sens S issu d’un dictionnaire bilingue S(Dab,w) = (cat, glose*, equiv+), on cacule un vecteur contexte de la façon suivante :

Vc(S) = V(glose 1) + V(glose 2) + …

20 TAL. Volume 42 – n° 3/2001

On sélectionne les sens dont les catégories morphosyntaxique sont compatibles. Le vecteur associé à un sens S est le calcul de la contextualisation faible (fonction C) entre le vecteur issu du dictionnaire monolingue et le vecteur contexte.

V(S) = C(V(w),Vc(S))

A la fin de ce processus, certains des sens d’un terme du dictionnaire monolingie vectorisé disposent d’un lien unique vers une entrée du dictionnaire bilingue

Figure ml 5: Amorçage du peuplement automatique. Chaque sens S d’un dictionnaire monosémique est promus au rang d’acception. Une base de vecteurs liés aux acceptions est crée. Ces vecteurs traduiront les activations thématique des acceptions et devront rester raisonnablement proches de leur vecteurs d’origine (côté monosémique) au fûr et mesure que d’autres dictionnaires monolingues vectorisés sont arjoutés.

11.2.4. Liage Sens-acceptions

Il s’agit ici d’associer un sens Sb du langage cible à une sens du langage souce Sa. Comme un sens est lié de manière univoque à une seule acception A, on étend le lien par transitivité : Sb Sa & Sa A alors Sb A.


On considèrera deux vecteur conceptuel comme “suffisement proche” si leur distance thématique est un inférieur à un seuil t. Plus ce seuil est faible, plus le niveau de confiance du lien vers l’acception est fort. En retour, il risque d’être difficile d’automatiquement réaliser l’association. Un valeur de seuil acceptbale s’avère être π/4. Les différents situations sont les suivantes :

Un sens S vers un seul équivalent monosémique.

Ce cas consiste à sélectionner directement les term. Les vecteurs conceptuels ne sont pas utilisé ici, si ce n’est pour effectuer une vérification. Si les deux vecteurs conceptuels ne sont pas raisonnablement proches, un message d’alerte est envoyé au lexicographe. Le problème peut aussi bien venir d’une erreur des dictionnaires bilingue, ou qu’un des vecteurs (ou les deux) à des activations inadequates.

Un sens S vers un équivalent polysémique

Il faut alors sélectionner le sens equivalent Sb qui pourrait être acceptable (fig xx – bas) Un filtre consiste à selectionner les equivalents inverses, puis parmis les sens restant (s’il y en a plusieurs) choisir celui don't le vecteur est le plus proche.

Un sens S vers plusieurs équivalent polysémique. Ce cas est une genéralisation des cas précédents (cf Fig xx)

Cas d’erreur L’erreur principale provient de la consitution d’un ensemble vide. Cela peut arriver si les informations dans le dictionnaire bilingue sont inconsistant. On remarquera que cela arrive relativement souvent en pratique.

22 TAL. Volume 42 – n° 3/2001

Figure ml6 : Processus d’associations de n entrées bilingue vers p entrés monolingues. Chaque entrés dispose d’un vecteur conceptuel qui est un réprésentation thématique du sens. Les associations sont faites par minimisation des disnatce entre deux vecteurs.


11.2.5. Netoyage des liens

Le nettoyage des liens consiste à détruire des liens qui aurait été créés abusivement (au vue des contraintes que nous nous somme imposés) et d’en réévaluer certains. Deux cas peuvent se présenter : un sens particulier est lié à plusieurs acceptions), ou une acception particulière est liée à plus d’un sens.

1) Liens multiples. Pour résoudre ce problème, il est nécessaire de créer une acception intermédiaire. The sens est alors lié seulement à la nouvelle acception (les liens précédent sont détruits). Des liens de raffinement de sens sont créés entre la nouvelle acception et les précédentes. (cf figure xx)

2) Sens multiples. Nous avons à choisir parmi les sens lequel doit être retenu comme liable à l’acception, les autres liens étant détruits. La sélection se fait sur la base du plus proche vecteur.

En toute généralité, les deux situation peuvent survenir en même temps. The processus de nettoyage et apppliqué itérativement avec une priorité en faveur de la création d’acceptions intermédiaire.

Figml 7 Partie supérieure : xxx Partie inférieure :

11.2.6. Extensions

24 TAL. Volume 42 – n° 3/2001

Fugure ml :


Figure ml : Netoyyage de liens. Partie supérieure :Liens multiples. Une acception intermédiaire est créeé aisni que des liens de raffinement de sens. Partie inférieure : Sens multiples. Seul un lien doit être conservé. Celui dont les vecteur conceptuels entre l’acception et le sens est le plus proche est retenu. Les autres sens sont orphelins et seront traités par la suite (identification d’une acception acceptable, ou création d’une nouvelle acception).

Refml (je n’ai pas inclus les ref à MML, GS, Meltchuk)

M. Lafourcade (2002) Guessing Hierarchies ans Symbols for Word Meanings through Hyperonyms and Conceptual Vectors. In Procs of OOIS 2002 Workshop, Montpellier, France, September 2002, Springer, LNCS 2426, pp. 84-93.

M. Lafourcade (2002) Lens effects in autonomous terminology learning with conceptual vectors. In Procs of Seminar on linguistic meaning representation and their applications over the World Wide Web, Penang, Malaysia, 12 p.

M. Lafourcade, D. Schwab, et V. Prince (2002) Vecteurs conceptuels et structuration émergent de terminologies. In Traitement Automatiques des Langues (TAL), Vol 43, n°1/2002, pp. 43-72.

M. Lafourcade (2002) Automatically Populating Acception Lexical Database through Bilingual Dictionaries and Conceptual Vectors. In proc. of PAPILLON-2002, Tokyo, Japan, August 2002

26 TAL. Volume 42 – n° 3/2001

D. Schwab et M. Lafourcade (2002) Hardening of Acception Links through Vectorized Lexical Functions. In proc. of PAPILLON-2002, Tokyo, Japan, July 2002

Lafourcade M. et E. Sandford (1999) Analyse et désambiguïsation lexicale par vecteurs sémantiques. In proc. of Traitement Automatique du Langage Naturel (TALN'1999), Cargèse, France, Juillet 1999, pp 351-356.

[Chauché, 90] Jacques Chauché, Détermination sémantique en analyse structurelle :une expérience basée sur une définition de distance. TAL Information, 31/1, pp 17-24, 1990.

[Chauché and E. Sandford, 96] Jacques Chauché, Détermination sémantique en analyse structurelle : une expérience basée sur une définition de distance. Actes de MIDDIM-96, Le Col de Porte, France, August, 1996, pp 56-66.

[Deerwester et al, 90] Deerwester S. et S. Dumais, T. Landauer, G. Furnas, R. Harshman, Indexing by latent semantic anlysis. In Journal of the American Society of Information science, 1990, 416(6), pp 391-407.

[Larousse, 1992] Larousse. Thésaurus Larousse - des idées aux mots, des mots aux idées. Larousse, ISBN 2-03-320-148-1, 1992.

[Lehmann et Martin-Berthet, 98] Lehmann A. et Martin-Berthet F. Introduction à la lexicologie. Sémantique et morphologie, Paris, Dunod (Lettres Sup), 1998.

[Lyons, 1977] Lyons J. Semantics Cambridge : Cambridge University Press, 1977.

[Morin, 1999] Morin, E. Extraction de liens sémantiques entre termes à partir de corpus techniques. Thèse de doctorat de l’Université de Nantes, 1999.

[Palmer, 1976 ] Palmer, F.R. Semantics : a new introduction Cambridge University Press, 1976.

[Polguère, 2001 ] Polguére A. Notions de base en lexicologie Observatoire de linguistique sens-texte, 2001.

[Quah all, 2001 ] C. K. Quah and F. Bond and T. Yamazaki Design and Construction of a machine-tractable Malay-English Lexicon. Proc of AsiaLex, Seoul, 2001, pp 200-205.

[Robert, 2000] Robert Le Nouveau Petit Robert, dictionnaire alphabétique et analogique de la langue fran¸caise. Ed. Robert, 2000.

[Rodget, 1852] Rodget P. Thesaurus of English Words and Phrases. Longman, London, 1852.

[Rilo_, 1995] Rilo_ E. and J. Shepherd A corpus-based bootstrapping algorithm for Semi-Automated semantic lexicon construction. In. Natural Language Engineering 5/2, 1995, pp. 147-156.

[Salton et MacGill, 1983] Salton G. et MacGill M.J. Introduction to modern Information Retrieval McGraw-Hill, New-York, 1983.


[Schwab and al, 2002] Schwab D., Lafourcade M. et Prince V. Antonymy and Conceptual Vectors, COLING 2002 processings.

[Vèronis, 92] J. Vèronis and N. Ide. A feature-based model for lexical databases. In Proc. of the Fourteenth International Conference on Computational Linguistic COLING’92, 1992, Nantes, France, 8 p.

12. Conclusion

13. Bibliographie

[BLA 96] BLANC E., « Une maquette de base lexicale multilingue à pivot lexical: PARAX », Lexicomatique et Dictionnairique, Actes du colloque LTT, Lyon septembre 1995, ed. AUPELF-UREF, Montréal, Canada, pp. 43-58.

[MAN 01] MANGEOT-LEREBOURS M., Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue. Thèse de nouveau doctorat, Spécialité Informatique, Université Joseph Fourier Grenoble I, jeudi 27 septembre 2001, 280 p.

[MAN 02a] MANGEOT-LEREBOURS M., « An XML Markup Language Framework for Lexical Databases Environments: the Dictionary Markup Language », LREC Workshop on International Standards of Terminology and Language Resources Management , Las Palmas, Islas Canarias, Spain, 28 May 2002, pp 37-44.

[MAN 02b] MANGEOT-LEREBOURS M., SÉRASSET G., « Frameworks, Implementation and Open Problems for the Collaborative Building of a Multilingual Lexical Database. », COLING Workshop on Building and Using Semantic Networks SEMANET02, Ed. Grace Ngai, Pascale Fung & Kenneth W. Church Taipei, Taiwan, 31 August 2002, pp 9-15.A formater

[MEL84] Mel'ãuk, I. A. et al. 1984, 1988, 1992, 1999. Dictionnaire explicatif et combinatoire du français contemporain: Recherches lexico-sémantiques I, II, III, IV. Presses de l'Université de Montréal, Montreal.[POL00] Alain Polguère (2000) Towards a theoretically-motivated general public dictionary of semantic derivations and collocations for French. Proceedings of EURALEX'2000, Stuttgart, pp. 517-527.[POL02] Alain Polguère (2002) Notions de base en lexicologie. OLST-Département de linguistique et de traduction, Université de Montréal, 210 p.

[SER 94] SÉRASSET G., SUBLIM: un Système Universel de Bases Lexicales Multilingues et NADIA: sa spécialisation aux bases lexicales interlingues par acceptions. Thèse de

28 TAL. Volume 42 – n° 3/2001

nouveau doctorat, Spécialité Informatique, Université Joseph Fourier Grenoble I, 1994, 280 p

[SER 01] SÉRASSET G., MANGEOT-LEREBOURS M., « Papillon Lexical Database Project: Monolingual Dictionaries & Interlingual Links. », Proc. NLPRS'2001 The 6th Natural Language Processing Pacific Rim Symposium, Hitotsubashi Memorial Hall, National Center of Sciences, Tokyo, Japon, 27-30 novembre 2001, vol 1/1, pp. 119-125.

14. Biographie

Mathieu Lafourcade est docteur de l’université Joseph Fourier en informatique. Il est actuellement maître de conférences à l’université Montpellier II et membre du groupe Traitements Algorithmiques des Langages du laboratoire LIRMM. Ses activités de recherche portent sur la mise au point des horloges tournant dans le sens trigonométriques.

Mathieu Mangeot-Lerebours est docteur de l’université Joseph Fourier en Informatique. Il est actuellement chercheur invité à l’Institut National d’Informatique de Tokyo au Japon, financé par la Société Japonaise pour la Promotion de la Science. Se travaux portent sur les environnements de création, manipulation et édition de données lexicales multilingues en collaboration.

Gilles Sérasset est docteur de l’université Joseph Fourier en informatique. Il est actuellement maître de conférences à l’université Joseph Fourier et membre du Groupe d’Études sur la Traduction Automatique du laboratoire CLIPS. Ses activités de recherche portent sur la confection des carambars à la noix de coco.

Documents

Consignes aux auteurs - lirmm.frlafourcade/pub/Art-PAPILLON-TAL03/papillon-tal-v2.doc · Web viewConstruction collaborative de données lexicales multilingues. Le projet Papillon