Lundi 23 juin - examenscorriges.orgexamenscorriges.org/doc/28510.doc · Web viewASILA – RTP 14. Workshop 23-25 juin – La Bresse. Lundi 23 juin. Session 1 : Bilan « personnel

ASILA – RTP 14

Workshop 23-25 juin – La Bresse

Lundi 23 juin

Session 1 : Bilan « personnel »Tour de table, les participants exposant leurs travaux personnels et leurs attentes :

Emmanuel Schang (linguistique, Université d'Orléans, [email protected]). A partir de corpus anciens (corpus d’Orléans, 4,5 M mots) et de corpus en cours (créoles portugais, langues de Guyane, projets IRD avec le Burkina-Faso) se pose les problème de la linguistique de corpus, du traitement de données moins artisanal, de la mise à disposition des données. Quels outils ? Comment mettre à disposition les données recueillies ? Faut-il inclure le visuel ? Qu’en est-il du droit en la matière ?

Olivier Baude (linguistique, Université d'Orléans, [email protected]). Participe à l’observatoire des pratiques linguistiques (DGLFLF), au groupe de pilotage pour le traitement informatique de la langue, avec un travail prioritaire sur les questions juridiques (archives, INA, BNF – tout ce qui concerne le patrimoine). Mêmes questions que précédemment : peut-on utiliser la même technologie pour gérer les corpus anciens et les corpus nouveaux ?

Maria Caterina Manes Gallo. (psychologie, Université de Nantes, [email protected]). Membre du comité de pilotage du RTP 14, développe des projets sur la sémantique dans des corpus écrits et oraux. Intéressée par les méthodologies développées dans des cadres différents.

Lukas Balthasar (linguistique, informatique, GRIC-ICAR, [email protected]). Travaille sur les interactions (audio/vidéo), participe au projet ACI TTT corpus, notamment : développement CLAPI.2 (descripteurs, gestion de droits d’accès), conventions et logiciels de transcription (Praat, Clan, NITE tools, etc.), développement du format de base CLAPI.2 (format Xi-NITE), développement de convertisseurs (Praat<->Xi-NITE/<->Clan/<->TASX, etc.). Quelles conventions, quels logiciels, quels formats informatiques pour quel type de représentation/transcription de données linguistiques/audiovisuelles ? Quelles composantes/outils pour un environnement de développement de corpus oraux ? Quels outils et quelles méthodes d’exploitation pour les requêtes sur bases de données audio-visuelles en linguistique (linguistique interactionnelle en particulier) ? Quel peut être l’impact de l’informatisation de la linguistique interactionnelle au niveau méthodologique ? Quels sont les liens possibles entre Linguistique interactionnelle et Linguistique de corpus ?

Lorenza Mondada (linguistique, ICAR, depuis 2 ans, [email protected]). S’intéresse travail sur et à partir des corpus, dans une démarche de terrain inspirée de l'ethnographie, ainsi qu’aux formats de transcription et aux descripteurs de corpus, tout en s’interrogeant sur la nature des phénomènes observables : sont-ils saisis par un enregistrement ? sont-ils transcriptibles ? Les données se fabriquent selon des choix, alors qu’une transcription reflète aussi d'autres choix. Mettre à disposition ne signifie-t-il pas nécessairement éliminer des phénomènes ?.

Workshop ASILA RTP 14, 23-25 juin 2003 – La Bresse CR, version de relecture

1

mailto:[email protected]





Anne Lacheret (linguistique, IF-CRISCO, [email protected]). Souci de faire partir le chantier, que ce soit avec des corpus existants ou des corpus nouveaux (homme-homme, audio-vidéo…). Il faut déboucher sur un projet qui doit être large (communication et dialogue, gestes) avec une plate-forme Web pas nécessairement en un lieu unique. Différentes plates-formes, avec des variantes (contenu, voire codage), peuvent être développées en parallèle, si elles sont accessibles et partagées. Organisation d’une Université d’été sur le sujet à Caen en 2004.

Jean-Jacques Girardot (informatique, Ecole des Mines de St Etienne, [email protected]). Déjà impliqué dans le projet corpus, participe au projet ACI TTT sur les corpus avec ICAR et le laboratoire ERIC (Lyon 2). Tout particulièrement intéressé par la recherche d’information dans des documents structurés (XML). Il faut rechercher un format pivot pour y exercer les requêtes les plus signifiantes. Serge Heiden (informatique-linguistique, ICAR, ENS-LSH/CNRS, [email protected]). Expérience en linguistique de corpus écrits : textes politiques, médiévaux, etc. De la lexicométrie au data mining. Particulièrement intéressé par les problème de descripteurs, de granularité, de formats de textes (SGML, XML TEI). Les outils travaillant en XML sont-ils applicables aux corpus oraux, qui présentent des phénomènes différents ? Il est très difficile de parvenir à des formats communs de description des phénomènes. Sur le plan juridique (patrimoine, droit de propriété, protection de la vie privée), l’écrit est déjà très chargé, mais l’oral peut dépasser l’écrit. Il faut construire des fiches sur les formats d’outils (Xitools) et répertorier les formats, avec leurs avantages et inconvénients, en tendant vers des passerelles entre outils. Chaque utilisation d'un corpus suppose une nouvelle annotation : dans un tel contexte, comment penser la mutualisation des outils ?

Philippe Martin (linguistique-informatique, Paris VII, [email protected]). Depuis longtemps soucieux de préserver la représentation et l’accès à la prosodie dans les corpus oraux, a développé WinPitchPro, utilisé pour un corpus de 1,2 M mots dans le cadre d'un projet européen, avec sortie XML, alignement syntaxique, unicode, et compatible Transcriber. Travaille sur différentes langues (Italien, Espagnol, Portugais, Français) de conversation, en relation avec le GARS (J. Veronis). Il faut être très attentifs avec les questions juridiques : on ne peut plus éditer quoi que ce soit sans les autorisations des locuteurs intervenants, et les autorisations papiers signées ne sont pas forcément légalement suffisantes. En fait de ce point de vue on est fragile car on avance en faisant la loi.

Michel Jacobson (informatique, LACITO, [email protected]). Travaille sur des langues et des civilisations à tradition orale, c’est-à-dire en général des langues minoritaires, parfois en danger et sans écriture. Les données recueillies depuis 30 ans (un peu partout dans le monde : Océanie, Népal…) comportent des enregistrements audio, des annotations de ces derniers (transcriptions en API, des analyses en mots et morphèmes des lexiques, etc.). Depuis 5 ans, ces données sont numérisées en vue de leur pérennisation, en XML avec une DTD proche de la TEI (à l’heure actuelle une centaine de contes, chants, dans une quinzaine de langues sont disponibles sur le web). Les problèmes sont actuellement de trouver une institution d’accueil pour la conservation et la diffusion (la BNF ?) et un formalisme de normalisation pour les données (TEI ?) les méta-données (OLAC ?) la diffusion des méta-données (OAI est-il un protocole qui fait l’unanimité ?).

Jean-Yves Antoine (informatique, VALORIA, [email protected]). S’intéresse au dialogue oral homme-machine, et à la communication assistée par ordinateur pour handicapés. Dans ce cadre, les corpus oraux servent à l'apprentissage et les besoins de corpus de dialogue oraux sont importants. Il n’y a pas de politique française de collecte et de diffusion de corpus de français (comme aux USA par exemple). Au VALORIA, on anonymise les corpus pour qu’on ne puisse pas reconnaître les locuteurs, et on diffuse librement les corpus (XML avec dtd de Transcriber) en prenant le risque (transcription uniquement + signal sur CD avec convention de citation), dans le but d’amorcer un cercle vertueux sur les corpus. En tant que consommateurs, on a tous intérêt à faire avancer la normalisation. Dans le cadre du projet techno-langue, dans des dialogues centrés sur une tâche, travail sur un corpus de 0,2 M mots qui seront annotés


2







morpho-syntaxiquement, à partir de Cordial (l’idée des étiquettes GRACE est pratiquée par plusieurs laboratoires en France).

Daniel Luzzati (linguistique, LIUM, [email protected]). Expérience à la fois de la morphosyntaxe de l’oral et du dialogue homme-machine, avec une observation (un corpus est un objet fabriqué, de la langue rendue objet) et une question (est-ce possible avec le dialogue, où la langue est partie prenante d’un processus davantage qu’un objet ?). Le fait est que cela devrait exister depuis un certain temps et que c’est loin d’être le cas, d’où l’urgence du propos, qui est de proposer un cadre et d’aider à la mise à disposition du plus grand nombre de données et d’outils. Le cadre peut en l’occurrence être à la fois ASILA (dont c’est la fin), et les RTP 14 et 38, pour lancer un nouveau projet orienté vers les corpus, tout comme d’autres initiatives en cours (DGLFLF par exemple). Se pose en somme à la fois un problème d’initiative et un problème de coordination.

Matthieu Quignard (informatique, LORIA, [email protected]). Antérieurement au GRIC, a notamment largement contribué à l’élaboration de la base CLAPI. Centres d’intérêt : interactions médiatisées par ordinateurs, apprentissages humain, production et analyse de traces. Comment mettre des données de ce type en forme ? Quels standards pour la diffusion des corpus (PDF, SMIL) ? Comment parvenir à une diffusion efficace des corpus, et à leur intégration dans des documents ?

Christian Plantin (linguistique, ICAR, [email protected]). Peut-être faut-il affirmer le droit plutôt que de chercher à le lire quelque part, par exemple affirmer le droit à échanger nos corpus. Il importe d'échanger des informations à ce sujet : un document circule en ce moment sur le photocopillage, quid du droit à l'utilisation didactique ? C'est une forme du droit à la citation, bien que tout soit à négocier. Il ne faut pas sous-estimer la complexité du problème : pour tous les aspects didactiques, il faut travailler avec des éditeurs, ce qui fait sortir du cercle des chercheurs. Attentes : une extériorisation des problèmes et un état des lieux, ce qui pourrait servir dans bien des directions (exemple du bof ou du quoi dans les dictionnaires qui ignorent massivement l’oral). Sous l’angle FLE/francophonie, la langue est un produit qu’on exporte : le français est sous-équipé car on ne peut exporter l’oral. Il faut afficher un réseau, qui faciliterait le travail de réponse aux appels d'offres, et approfondir les contacts avec les grands centres étranger. Le travail à faire relève en grande partie de l’action. Il faut faire des propositions : dictionnaire greffé sur un système en ligne, pouvant aller chercher des occurrences de bof par exemple. Il existe une couche déontologique et une couche éthique : quelles relations ai-je avec la personne que je veux mettre en ligne ?

Arrivés plus tard : Laurence Devillers ([email protected]), Anne Nicolle, Christian Brassac, Laurent Romary, Christine Fay ([email protected]).

Christian Brassac (psychologue, Equipe Codisant, LPI-Université Nancy2, [email protected]). S’intéresse aux processus cognitifs se déployant dans des situations de conception collaborative. Recueil de corpus vidéo pour avoir accès non seulement aux productions langagières mais aussi corporelles et à la mobilisation des objets. Appui sur l’idée qui soutient la logique interlocutoire (la co-construction rétroactive du sens avec coresponsabilité des conversants) sans en retenir l’aspect logiciste. Travail d’intégration de la dynamique des formes artefactuelles et corporelles dans l’histoire conversationnelle qui génère les processus de décision dans ces groupes de conception. Responsable du RTP 38 (Processus cognitifs et construction du sens), considère que ces travaux conduits conjointement (même si ici le RTP 14 qui pilote) entre RTP doivent être actuellement (octobre 2003) mis en avant auprès du département.

Laurent Romary (informatique-linguistique, LORIA, [email protected]). Dirige l’équipe Langue et Dialogue qui travaille à la définition de modèles et de systèmes pour le dialogue homme-machine multimodal. Dans ce cadre, la mise à disposition de ressources linguistiques normalisées est un élément essentiel pour faire progresser les connaissances et tester les résultats. Il est important d'une part de savoir


3









réutiliser les différents corpus qui ont été recueilli au fil des années et de les distribuer largement et, d'autre part, de définir des directives minimales permettant à un réseau d'équipes de travailler sur les mêmes bases à la production de nouvelles ressources. De telles directives doivent s'appuyer sur les initiatives internationales de normalisation (TEI, ISO/TC 37/SC 4, MPEG).

Anne Nicolle (informatique et linguistique, GREYC, [email protected]). Responsable du RTP 14. Conserver les corpus réalisés dans de bonnes conditions de conservation et d’accessibilité semble essentiel : ceci passe par la numérisation et par une certaine normalisation. L’accès aux corpus audio et vidéo permet de mieux comprendre les articles qui s’appuient sur ces corpus. Il serait possible maintenant de faire voir et entendre les exemples sur un site Web référencé dans les articles. Des commentaires pourraient être ajoutés par les lecteurs pour enrichir les analyses. Souhaite participer à des expériences de travail collectif interdisciplinaire sur certains corpus, peut-être réalisés spécialement, pour l’enrichissement mutuel des théories et des techniques. Dans de nombreuses disciplines, les étudiants et des chercheurs font des corpus par des moyens artisanaux, ils y passent beaucoup de temps et ils sont ensuite perdus ou oubliés. Il faut donc faire connaître et développer les techniques informatiques d’aide à la transcription et à la recherche dans les corpus pour faciliter leur travail. Il faudrait conserver ces corpus, en faciliter l’accès dans des conditions juridiques correctes et en respectant le travail de chacun.Laurence Devillers (informatique, LIMSI-ORSAY groupe Traitement du Langage Parlé, [email protected]). Travaille à la définition de modèles à partir de corpus oraux en reconnaissance de la Parole et dialogue oral Homme-Machine. S'intéresse aussi aux corpus multi-modaux, notamment pour étudier les manifestations des états émotionnels. Nombreuses expériences d'acquisition, de transcription et d'annotation de corpus oraux. Volonté de participer à la réflexion et à l'élaboration d'un projet commun pour partager des ressources et proposer des protocoles d'annotation. Pense qu'il est très intéressant de mettre en place un projet d'acquisition et d'annotation d'un corpus multi-modal enrichi des différents types d'annotations utilisés par les partenaires de différentes disciplines dans un format commun. Est à l'initiative du projet MEDIA/EVALDA dans Technolangue, dont le but est de partager des données et de définir des représentations et métriques communes au sein de la communauté scientifique travaillant sur l'évaluation des systèmes de dialogue oraux.

Session 2 : bilan « structurel »

Le CNRS- La section 34° « Langages, Représentation, Communication » devient « Langues, Langages,

Discours ».

- En octobre, il y aura un colloque d’orientation du CNRS. CP sera présent. Quel message faire passer ?

- Profils de postes fléchés : pourquoi ne pas proposer un profil, où tous les labos ici présents soient en concurrence pour l’accueil ?

- Cadre actuel : une AS qui s’achève dans la structure RTP. D’où la question du devenir, pour laquelle différentes options sont envisageables, qui tendent vers un même but (avoir une institution commune qui rassemblerait les corpus, et pourrait s’insérer dans les projets européens) :

GDR : plus informel qu'une équipe, c'est un groupe qui ne peut pas recevoir de chercheur, mais qui peut disposer de moyens limités pour du fonctionnement. Il s’agit d’animation. Du fait des RTP et AS, on ne sait plus bien quel est l'objet d'un GDR. Si ce qui est recherché c'est l'animation et la création d'une communauté, avec participants au workshop, cela peut fonctionner : le GDR permet les contacts et la mise en route.


4



Equipe-Projet : consortium de laboratoires qui présente un projet assez avancé sur une thématique spécifique dont le but est de créer des synergies entre les équipes (10 labos sont représentés au workshop). Il peut y avoir des EP sur plusieurs RTP (14 et 38, voire 39 par exemple). Un des avantages est qu’une EP peut répondre à un appel d’offre européen. Fonctionne sur un projet de recherches de 4 ans.

Plate-Forme : centre de moyens pour lesquels il y a des appels d’offre envisagés (réalité virtuelle, EIAH). Là aussi, les RTP 14/38 seraient concernés.

UMS : les unités mixtes de service n’ont pas pour but de financer des recherches mais de mettre des moyens au service d’une collectivité. Cela pourrait prendre en charge l’activité de maintenance, de documentaliste… Ce serait nécessairement localisé et cela permettrait aux laboratoire (et aux chercheurs) de se décharger d’un gros travail.

- A l’étranger, les fonctionnements sont divers :

BNC (GB) : un grand recueil centralisé de données

RAE (Espagne) : ramasser sur une base commune de tous les centres de recueil

IDS (Allemagne) : lancement itératif de programmes de recueil de données. Encadré par une institution équivalente à l’Académie Française avec la vocation patrimoniale de conservation.

Autres institutions- INALF : actuellement en cours d’évolution. Pourquoi ne serait-elle pas le point central d’accueil de

notre initiative ? Une intégration de la plate-forme corpus permettrait-elle d’obtenir des financements supplémentaires ?

- DGLFLF : également concernée dans la mesure où une partie du problème peut être vu comme celui de la gestion d’un patrimoine (ce n’est d’ailleurs pas seulement vrai pour le français, et ces questions se posent dans des termes similaires au LACITO). Un important travail a déjà été effectué (rapports sur les corpus existants et les outils informatiques, examen des questions juridiques, politique d’archivage, indexation/valorisation des corpus oraux…) et des réunions sont programmées (sur les questions juridiques, avec des scientifiques, des juristes de la BNF, Fina archives ; réunion interministérielle MEN, MAE, affaires culturelles). O. Baude est partie prenante et pourrait faire le lien. A noter : il existe 800 centres d’archives historiques en France, cad des kilos de ressources orales (elles sont certes souvent traitées de manière amateur, mais certains aspects, juridiques par exemple, sont très affûtés).

- MEN : un PNER, plan de numérisation pour l’enseignement et la recherche, a été lancé (www.pner.org, S. Heyden y a participé). Pendant trois ans, le droit comparé européen (par comparaison avec le droit américain, particulièrement restrictif) a donné lieu à études et analyses. Là encore il faut faire des efforts pour aller chercher l’information et la faire remonter. Le MEN est sûrement une de nos tutelles prioritaires.

Conclusions :1. La 1ère chose à faire est de définir un projet, des objectifs…

2. Le format équipe-projet sur 2/3 RTP peut être une solution à un 1er niveau (davantage qu’un GDR par exemple).

3. Une UMS peut également être envisagée, à ceci près que le projet aurait tendance à être interprété comme celui du laboratoire hébergeant.

4. Le concept de plate-forme est de toutes façons un concept pivot.


5

5. La diversité, la descente d’information, le partage du travail… sont des points fondamentaux.

6. Il faut pouvoir travailler au niveau européen (contacts, relations…) et s’insérer dans les projets en cours comme Technolangues.

7. L’école d’été de juin 2004 à Caen (cf. A. Lacheret) est une initiative à suivre et peut-être à poursuivre (instrumentation et codage réclament une formation).

Mardi 24 juin

Session 3 : StandardisationLa normalisation est une démarche qui permet de partager des ressources (corpus annotés), des outils (annotation, visualisation, accès sur la base de formats communs, passerelles sur formats proches), des pratiques (recueil de données, manuels pour la collecte, pour la transcription, pour l’annotation).

Permet également d’évaluer la qualité d’une annotation :

- Standard : pratique d’un groupe, d’une communauté ou d’un industriel. Flexible mais pas nécessairement très documenté, dur à faire évoluer ou à comparer / rapprocher d’autres standards

- Norme : Standard officialisé par une décision consensuelle (moins flexible), sous l’égide d’une organisation reconnue et pérenne : W3C, ISO, TEI…

Il peut y avoir plusieurs niveaux de normalisation :

- Normaliser la documentation des données (les conditions de recueil, la description du contenu, les droits associés, etc.) : ce niveau est indispensable pour le recensement et l’identification des ressources disponibles, et peut accompagner la création de la ressource elle-même.

- Normaliser la transcription1 des données : comme c’est à ce niveau que les données sont susceptibles d’être réutilisées pour d’autres études, les spécifications concernant cette phase doivent être précises, stables et largement partagées.

- Normaliser l’annotation : il s’agit d’accompagner une étude précise, appuyée par une théorie, une grille d’observation… Les normes utilisées à ce niveau doivent être flexibles, évolutives, de façon à tenir compte des multiples options scientifiques qui peuvent être prises.

Bases de travail. Quelles initiatives devons-nous considérer ? De multiples projets ont visité le domaine. EAGLES (Projet Européen sur la représentation de différents niveaux linguistiques, mais résultats peu utilisés car peu connus ou disséminés), ISLE, Mate (Anvil), NITE (suite de Mate), OLAC (Open Language Archive Consortium), ATLAS. Il y a eu de gros financements sur les différentes initiatives. OLAC et ISLE ont identifié nettement les méta-données. Quelques points de référence : W3C, TEI, ISO. Autres ?

- W3C :principalement des industriels, 3 partenaires académiques (MIT, ERCIM -dont fait partie l'INRIA-, Keio). Apporte des normes (recommandations) horizontales. XML, XSLT, chemins, pointeurs, liens. RDF (ressource description framework), RDFS (RDF schémas), OWL (ontologies),

1 Une possible définition pourrait être le passage d’un matériau primaire brut à une représentation élémentaire peu sensible aux choix théoriques particuliers (texte, phonétique etc.). L’annotation au contraire accompagne l’étude un phénomène et vise à stabiliser l’observation.


6

SVG, SMIL. XML a une syntaxe simple, très lisible par une machine et un humain. Il vient avec des recommandations.

- TEI (Text encoding initiative) : consortium académique à forte orientation sciences humaines. Il existe 4 sites (Providence, Oxford, Virginie, Bergen) et des adhérents (qui peuvent voter, donc influer sur les décisions). Création en 1987 ; TEI P3 en 1992 ; TEI P4 (XML) en 2002 ; TEI P5 (plus modulaire, cf. Pizza Chef en ligne) en cours. Éléments principaux : en-tête avec base documentaire riche. Composants de base : prose, poésie, théâtre, oral. Modules spécifiques : liens, noms & dates, apparat critique, etc. On peut créer des dtd appropriées au document que l'on veut définir. Il y a aussi des feuilles de style permettant de présenter les documents en HTML, TEX, etc. La documentation (accessible par Google) est très riche. Le travail de M. Quignard sur la transcription en TEI des dialogues pourrait conduire à une proposition de révision du module correspondant.

- ISO (International Standard Organisation) : en liaison avec les organisations nationales (AFNOR, ANSI, DIN, BSI etc.), avec comités techniques et sous-comités. Différentes étapes : ASCII norme 646 (7 bits) ; ISO 8859-1 (ISO Latin (8 bits)) ; ISO 10646, qui introduit un jeu universel de caractères. XML est compatible Unicode et ISO 10646 ; UTF8, qui est une norme de codage. Il y a une zone pour l'alphabet phonétique international, les hiéroglyphes, et les espaces privés. C'est en standard dans la suite Office. On peut faire du minimalisme en XML avec la convention &xhhhh.

- ISO exemples : JTC1 (avec IEC sur les technologies de l'information) ; ISO 10460/Unicode ; MPEG ; Education and learning (SC 36) ; ISO TC 37 terminologies et autres ressources linguistiques. Méthodes en terminologie (SC 1), codes langues (SC 2) : ISO 639-1 (en, fr, etc.), ressources linguistiques (SC 4).

- ISO/TC37/SC4 : définir des plates-formes de représentation et d'annotation de ressources linguistiques, formats d'échange. Mécanismes de base, ex, structures de traits, répertoire de catégories de données, processus souple de spécification d'un format d'annotations. Domaines abordés/à aborder : morpho-syntaxe, syntaxe, contenus sémantiques, discours, lexique, données multilingues, langages de requêtes, évaluation. Actuellement, 50% industriels, 50% académiques. L. Romary est chairman du SC4. Dans le cadre de Technolangue, un groupe (RNIL) a été constitué en relation avec l’AFNOR (actuellement = 50% industriels + 50 % académique : LORIA, LIMSI, CLIPS, ATILF…).

Stratégie à adopter Choisir des formats de référence et les défendre. Permettre différents niveaux de compatibilité et d'exigence, tenir compte de la disponibilité d'outils. Participer aux groupes de travail (TEI-speech, ISO/TC37/SC4). Dissémination : École ; Web ASILA : ressources, formats, documentation, pointeurs ; expériences pilotes.

DiscussionOn parle des acteurs européens, mais non français. Citons le projet Multext (Multilingual Text Tools and Corpora, Jean Véronis). Philippe Blache (CNRS - Université Provence) se réinvestit autour des schémas de graphe d'annotation (cf. texte de L. Romary sur les grandes initiatives, co-écrit avec K.-S. Choi, secrétaire du TC 37/SC 4). Il y a eu quantité d'initiatives, de projets. Pour tous, le même diagnostic : un groupe d'experts, et des résultats un peu décevants car non stabilisés. Des ontologies sur les aspects syntaxiques ont été développées en OWL. Ces expériences peuvent au moins servir de guide.

Q : ne va-t-on pas tomber avec la TEI dans du traitement de masse, en abandonnant certaines ambitions ? R : il y a peu d'exemples de gens pour lesquels cela ne convient pas : cf. chapitre 11 de la TEI (Transcriptions of speech). Mais nombre de propositions (TEI, GARS) ne conviennent pas aux interactions. La TEI donnerait volontiers sa bénédiction à un groupe de travail. Il faudrait des exemples


7

simples que l'on puisse traiter. Architecture générale, avec différents niveaux : interaction, mais aussi analyse morpho-syntaxique, prosodique, syntaxe, etc. Une transcription minimale peut-elle servir à tout le monde ? Qui dit qu'une transcription réalisée par X est compréhensible par Y ? qui peut avoir une compréhension différente des phénomènes ? Une tâche d'annotation nécessite une validation en continu qui peut être très lourde. Il n'y a pas pour l'instant de volet théorique dans cette validation. Mais le corpus peut rendre compte des visions théoriques de chercheurs. Les transcriptions sont informées théoriquement. Elles relèvent d'une philosophie qui doit être explicitée.

On peut, au travers de ces transcriptions rechercher des phénomènes. Une fois trouvées les parties intéressantes d’une transcription, il faut pouvoir remonter à la source (audio, vidéo). Les défauts de transcription deviennent alors plus véniels. Gestes, mimétiques, intonations, doivent être ingérées par les yeux et les oreilles. Les transcriptions (de plus en plus complexes) sont une fuite en avant (et impliquent une théorie derrière la tête ). Elle ne doivent pas se substituer aux sources. Le multi-strates est-il possible pour des millions de mots ? Il existe actuellement des efforts de transcription en TEI de corpus existants (qui n'ont pas toujours les fichiers audio ou vidéo associés).

Danger du positivisme inhérent : croire que la technologie peut résoudre les problèmes. Mais les comités AFNOR représentent une zone de travail et de stabilisation, où les communautés peuvent se retrouver. Programme de travail : les mécanismes de base (dont structures de traits, reprenant les bases de la TEI), les catégories de données, les spécifications de formats d'annotation (cadre général, plus paramétrisation, etc.).

Le CEN est l'organisme de normalisation européen. Tout ce qui se fait à l'ISO est accepté au CEN.

Utiliser Multext ? Il y a eu du travail de fait, mais pas assez de documentation. Les partenaires de Multext sont intégrés au TC37/SC4. Le SC4 peut avoir pour but de stabiliser les usages. En résumé : implication pédagogique autour de choses stables comme la TEI. Donner des recommandations. Mais aussi regarder de l'avant, voir ce qui manque.

Ne pas être manichéen : l'opportunité existe pour trouver un cadre fédérateur et introduire des normes. Voir aussi que les normes sont liées aux outils qui les implémentent, et donc souvent liées aux industriels : exemples de HTML. Ce peut être dangereux, aussi, de construire un outil autour d'un formalisme. Il peut y avoir des postulats sur les formats : les outils peuvent intégrer des dumps compatibles.

Si un besoin est propre à une équipe, comment ensuite se référer aux couches (stables) de TEI. Quelle communauté pertinente ? Il y en a plusieurs. Pas de cercle unifié ! Rencontres possibles ? La communauté parole est spécifique, différente de la communauté interaction, etc. Quel cadre fédérateur ? Les étiquetages doivent pouvoir être exploités par le plus grand nombre.

Session 4 : Instrumentation

L. BaltasarExemple de la chaîne de travail du GRIC/ICAR : construction des données (vidéo, audio) à partir de corpus enregistrés depuis 30 ans qui existent sous forme de documents Word (ou d’autres logiciels), sous forme des cassettes ou sur support papier (il faut alors passer par une numérisation des textes). Les données sont stockées dans la base, puis transcrites avec annotations. Souvent les transcriptions sont anciennes, en texte brut. Les transcriptions actuelles se font avec des outils peu inter-opérables. Cela pose un grand nombre de questions :

- Les compétences pour la prise de données multisources.

- Pour la capture et la numérisation : quels formats sont accessibles ou traitables dans les outils de transcription ?


8

- Pour la base de données : faut-il une architecture relationnelle ou XML ? avec quels descripteurs, quels formats de documents ?

- GRIC/ICAR commence à avoir ses champs et ses descripteurs. Comment les structurer par rapport aux standards.

- La construction des données est de plus en plus technologique, avec intervention de l'informatique. Les corpus anciens, non alignés, posent de gros problèmes.

- Les formats audio et vidéo posent des problèmes de fusion et de compression. Nombre d'outils n'acceptent pas les formats récents, comprimés, ce qui pose des problèmes de CODEC, de paramétrages audio/vidéo. Quelles recommandations suivre ?

- Pour les BD : faut-il une architecture relationnelle ou XML ? Quels descripteurs adopter ? Est-il préférable de s’orienter vers OLAC, OAI, RDF ? Quels formats et structures adopter pour les documents XML ?

- Pour la transcription et la conversion quels code faut-il privilégier : API, AGTK ? Quelles interfaces utilisateur ? Comment assurer le formatage des documents et leur convertibilité ?

En ce qui concerne les outils, il en existe un certain nombre : PRAAT, (Shoebox), CORDIAL, CLAN (de l’Université de Pensylvanie, qui date d’il y a 25 ans, mais qui est très répandu), TASX (java) et EXMERaLDA (éditeur de transcription, conversion de formats), ANVIL (java), ELAN (java)… tous des logiciels gratuits (ou gratuitement disponibles). Si TRANCRIBER n'est pas noté ici, c’est qu’il rend mal les chevauchements (plus de 2 interlocuteurs, difficulté quand le chevauchement se produit à l'intérieur d'un tour de parole, etc.). PRAAT génère du Textgrid, et on peut aisément le transformer en XML. De même, KRONOS, surtout un logiciel de codage des activités, est utilisé dans une partie du laboratoire. Il existe d’autres outils en cours de conception, abandonnés… et il existe un site (xitools : weblex.ens-lsh.fr/projects/xitools/ et kiwi.emse.fr /ANON/).

Réciproquement, qu'attend-on d'un logiciel ? En fait, aucun logiciel ne permet actuellement de décrire tous les niveaux souhaitables. On attend des outils puissants et des environnements qui permettent d'utiliser tous les logiciels, cad des outils de reconnaissance de parole, de segmentation, de reconnaissance de l'intonation, d'images fixes, animées… Il existe également des convertisseurs, autour d’un format pivot Xi, à définir et à décrire.

Ces logiciels ne sont pas tous gratuits et libres (les plus chers ne sont pas forcément les meilleurs), et il faudrait pouvoir faire des allers-retours avec les concepteurs. Il convient également de toujours disposer d’un format papier. Il faut enfin prendre en compte le data-mining, les architecture multi-base, les formalismes de requête (XQUERY, CQP) et, en matière de diffusion, le data streaming (SMIL), et les utilisations distribuée (consultation, dépôt, annotation).

Conclusion

Les fonctionnalités attendues dépendent des niveaux étudiés et la question est sans doute : faut-il se fixer sur un logiciel particulièrement complet, ou faut-il s’orienter vers les passerelles, vers un environnement qui intègre ?

Présentation rapide de la base CLAPI

P. MartinPrésentation de son logiciel, WinPitchPro, un outil pour l'alignement texte paroles de grands corpora :

- Développé dans le cadre d’un Projet Européen CORAL ROM, qui s’achève fin mars 2004.


9

- Permet l’alignement multilingue de corpus de langues romanes, 8 couches de chevauchements, de sélectionner des segments, de les réentendre avec signal, en intensité et en fréquence spectrale, de détecter la fréquence fondamentale en milieu bruité.

- Fondé sur l’idée de ralentir l’enregistrement jusqu’à 7 fois.

- Disponible sur www.winpitch.com, à un prix de $ 100. Il peut devenir gratuit, mais se pose alors le problème de la maintenance, qui peut trouver seulement sa solution dans l’open source (l concepteur initial a valeur d'autorité, mais l'effort de maintenance est distribué entre les mainteneurs, les utilisateurs, etc.).

- La sortie est sous Excel, avec sortie image et sortie texte. On peut segmenter en écoutant.

- A la différence de PRAAT, son interface est bien plus conviviale et ergonomique, mais n’autorise pas un fonctionnement en batch.

- Programmé en C++, utilise Unicode ; aisément portable. Il y a une liste de discussion.

Tour de table « outils de transcription »

Intervention de Serge Heiden

Exemple du site d'ICAR : utilisation de Xi tools, cad de formats de représentation, assortis de recommandations (il existe une initiative, AGTK, fondée sur les graphes d'annotations, avec des informations arborescentes, ainsi que des librairies pour manipuler ces objets). Les conventions de transcription sont disponibles sur le site. Un travail d'inventaire (raisonné et décrit) et de répertoire des différents phénomènes est présenté, ce qui est différent des conventions de transcription elles-mêmes. Les conventions ICAR sont unies depuis le 6 Juin ; elles s'appuient sur très peu de phénomènes. Elles ont été testées sur PRAAT, et vont l'être sur d'autres logiciels. Elles sont par exemple orientées partition et analyse conversationnelle, et moins prosodie. Il faut être pragmatique, et faire des choix de transcription explicites. Il faut connaître le niveau de la personne qui a fait les annotations, en sachant que l'oreille se forme aux phénomènes intonatifs. Dans TEI, on peut maintenir un historique des interventions sur le corpus, ainsi que les degrés de certitude des intervenants.

Les descriptions des logiciels ne sont pas fonctionnelles. Elles décrivent des caractéristiques, vues du point de vue des utilisateurs. En général, il y a le format partition, avec une ligne par locuteur, et le format vertical, avec un bloc par interaction. Sont également utilisés ATLAS, qui permet de caractériser le format d'annotation que l'on veut utiliser, et CLAN, qui utilise un format dont la description est de type Backus-Naur Form (BNF). L’enjeu est de passer de la codification à la représentation interne puis à présentation utilisateur, pour obtenir si besoin une autre présentation utilisateur fondée sur une autre codification.

Intervention de Matthieu Quignard

Échanger et diffuser ses corpus pose des questions de fonds et de forme. Il faut s’intéresser aux destinataires. Transcrire n'est pas la même chose que publier. Annotations et conventions sont 2 choses différentes : le transcripteur repère des phénomènes, l'éditeur les représente (ou non). La temporalité de l'interaction n’est pas celle de sa lecture. Pour la mise en forme, LATEX peut être une bonne solution : le travail de compilation peut être fait par un serveur distant.

Les annotations doivent être standardisées, avec différents choix : de l'alphabet (original, alphabet romain, etc.), du sens de la lecture (horizontale, verticale, etc.), des phénomènes intonatifs, de la structure temporelle, des recouvrements etc. Faut-il par exemple aligner systématiquement transcription phonétique, transcription romane et français standard ?


10

http://www.winpitch.com/

Actuellement un certains nombre de passerelles ont été mises au point : LATEX vers PDF. (conversions Bruxelles/Traverso), XML vers LATEX, toujours dans une compatibilité avec la TEI. Les passerelles XML vers HTML ou SMIL, et la synchronisation sont en cours. A terme, cette plate-forme pourrait permettre à chacun d'éditer son corpus sous la forme désirée.

Interventions autour de la transcription automatiqueDans quelle mesure la transcription automatique est une solution d’avenir ?

Au LIMSI, les taux d’erreur sont actuellement de 7% sur journaux lus, de 20% sur les journaux télévisés, et de 35% sur des bornes d’interrogation en langue naturelle orale (un locuteur spontané en milieu bruité). Ces performances sont équivalentes pour 200 heures de transcription fine ou pour 1h de transcription fine en boucle avec apprentissage sur 500h de transcription grossière issue d’un recalage sur monologue à base de dico phonétique. Il est toujours difficile de régler la procédure d’apprentissage.

Pour la morpho-Syntaxe, on peut utiliser EASY (technolangues), dont une partie a été testée sur l’oral.

Il semblerait (J. Veronis) qu’une petite adaptation de CORDIAL permette d’aboutir à des taux de 95%. Cela vaut peut-être la peine pour de gros corpus, mais c’est à prendre en compte avant la collecte.

En tout état de cause, il faut toujours expliciter les phénomènes que l’on chasse pour ajuster les outils à cette quête.

Restera 1 question fondamentale : peut-on travailler sur les données naturelles sans faire avancer la normalisation ?

Conclusions :- Le choix des outils dépend de ce que l’on cherche.

- Il faut encourager les développements actuels surtout quand ils sont de qualité (WinPitchPro).

- Il est impératif de soutenir aussi les démarche de formation pour la maîtrise des outils, comme l’école d’été de Caen. Il faudra envisager une pérennisation, éventuellement sur d’autres sites.

- On peut se demander si on est bien une communauté où, malgré des différences, il y a une construction commune dans des rapports gagnant-gagnant ? Des collaborations en tout cas paraissent pour le moins concevables.

- Compatibilité et souplesse sont ici au centre : les choix théoriques étant parfois orthogonaux, il faut tendre vers la compatibilité, mais sans les remettre en cause. Il faut se donner les moyens techniques d'être pluriels, flexibles, ce que permettent les moyens techniques (outils, langages, représentations, etc). Données et représentations doivent être déconnectées : on peut toujours multiplier les représentations des données.


11

Mercredi 25 juin

Session bilan

M. JacobsonPrésentation/démonstration de la plate-forme de mise à disposition de corpus de langues à tradition orale du CNRS/LACITO :

- Il s’agit d’un programme de sauvegarde et de mise à disposition de données d’enquêtes linguistiques de terrain. Il y a plus de 30 ans les enregistrements étaient stockées sur des bandes et les analyses consignées dans des cahiers. Tous ces matériaux se dégradent, les langues disparaissent et les connaissances sur ces langues et sur l’existence de ces matériaux sont elles aussi en train de disparaître.

- La sauvegarde des enregistrements (bandes, cassettes, etc.) se fait par une numérisation et un stockage des fichiers sur des CD-ROM.

- Le format choisi pour le codage des analyses de nos archives numérique est XML avec une DTD inspirées de la TEI (comprenant des transcriptions en API (Unicode), des traductions, des gloses, etc.). Nous tentons d’automatiser le plus possible les transformations des anciens formats (traitements de texte, Lexware, Shoebox, etc.) en créant des outils de rétro-conversion. Mais certains formats (les manuscrits pas exemple) nécessitent toujours énormément d’interventions manuelles.

- Les liens enregistrement/annotation se font via des méta-données elles aussi en XML.

- La consultation des données se fait à travers le web avec un navigateur standard. Les différentes visions et requêtes possibles sur un document sont implémentées par des transformations XSL. La lecture de l’audio peut se faire suivant les plates-formes par une applet java (JMF ou QT4J) par des plug-in (QT, Real), ou une application externe (Winamp, etc.).

- La recherche et l’identification des ressources se fait grâce au protocole OAI (Open Archive Initiative). Les requêtes, quotidiennes, sont notamment faites par différentes universités américaines (bibliothèques, plutôt qu'utilisateurs).

- Il faut distinguer différents rôles dans ce processus d’archivage : les locuteurs, les auteurs (linguistes), le conservateur, les éditeurs (diffuseurs), les utilisateur (souvent linguistes).

- Pour le moment le laboratoire prend en charge tous les rôles, et une seule personne fait tout (M. Jacobson). Il faudrait pouvoir déléguer, sous-traiter, à la fois l’édition, la conservation et la maintenance. Une recherche d’association est donc en cours.

- Pour l’aspect conservation, des contact sont en cours avec la BNF.

- Côté éditeur, cela reste artisanal dans la mesure où le CNRS ne dispose pas d’une structure adéquate dédiée à cette tâche.

On retrouve en somme le problème des intervenants institutionnels évoqués session 2 :

- Qui gère cette base ? Le CNRS peut-il servir de conservateur/diffuseur ? Un laboratoire n'est pas pérenne, un chercheur encore moins. Il faudrait donc parvenir à sous-traiter les fonctions d'archivage et de diffusion. Il faudrait pouvoir se faire aider par la DGLFLF (Ministère de la Culture) pour faire pression sur l’INA ou la BNF.


12

- Est-ce que les missions de l’ATILF pourraient être l’archivage et la diffusion de nos corpus. C’est déjà le cas pour les textes de langue française, mais c’est désormais une UMR qui a ses objectifs quadriennaux et qui ne peut pas avoir un rôle de prestation de service autre que ponctuel.

- Au CNRS, deux fédérations s'intéressent à la langue : Typologie et ILF (où se trouve l'ATILF, ICAR, etc.).

- La DGLFLF, qui dépend du ministère de la culture pourrait être concernée.

- Le Musée de l’Homme (Quai Branly) pourrait également être concerné, mais il s’agit d’une question très politique.

- L’INRIA enfin pourrait être intéressé : le TAL et le Dialogue font partie de ses thèmes prioritaires

Définitions de types/sens/fonctions de corpusUne classification des corpus de dialogue peut être ébauchée, par exemple en fonction de leur finalité :

- Corpus de référence ou patrimoniaux : conserver des données à titre de référence pour diverses raisons (exemple : Brown Corpus, Frantext, etc.). Les corpus en question ont par définition une longue durée de vie et une valeur à long terme.

- Corpus d'apprentissage : il s’agit de grands flux de données, avec ou sans annotations, qui servent à caler ou tester des systèmes qui font du traitement automatique, généralement à partir de modèles stochastiques. Les corpus en question peuvent avoir des durées de vie très courte, et disparaître après usage.

- Corpus d'observation : en général petits, alignés, avec des sources audio et/ou vidéo, des transcriptions annotées, recourant parfois à des traitements automatiques… et contenant des commentaires, des méta-données, qui portent sur le corpus entier ou des parties spécifiques, avec des références de publications et/ou des documents annexes. Les corpus en question ont une durée de vie et une valeur très variables souvent épuisées par les analyses et publications qui en découlent.

Notre propos est de travailler sur l’interopérabilité, cad à assurer les maillons conservation / édition de façon à ce qu’ils soient utilisables en amont comme en aval. Il faut en somme tendre vers des outils qui s’adaptent aussi bien à la diversité des auteurs-concepteurs qu’à celle des utilisateurs :

- Cela renvoie à ce qu’on pourrait appeler la chaîne LACITO : Auteurs – Conservateur – Editeur – Utilisateurs.

- Pour simplifier, on est dans un paradigme réalisation-conservation-exploitation avec, en perspective, le souci de pouvoir passer aisément d'un usage à un autre. Il faut à la fois favoriser les réalisations, aider à la conservation et simplifier l'édition en vue d'adaptation à des exploitations diverses.

- Cela pose également le problème des corpus communs susceptibles d’être enrichis par des utilisateurs multiples, et celui d’une transcription minimale hypothétique : quel est le minimum syndical ? N’y a-t-il pas un clivage total entre les usages divers ?

- La notion de référence est-elle un désir ou une qualité ? Observer correctement, c'est se donner les moyens de créer la référence. Peut-être faut-il parler de visions ou de facettes plutôt que de classes pour ces corpus. Un corpus est créé pour une vision. On essaye maintenant de les créer ou les conserver pour plusieurs visions.

- Il y a autant de discussions sur les descripteurs que sur les annotations. En TEI, le descripteur est parfois plus gros que le corpus. Le cumul des descripteurs peut être un problème. C'est un problème aussi difficile que celui des corpus.


13

- Personne ne conteste la nécessité d’une normalisation. Certains sont sceptiques sur ses effets. Des concepts tels que « format-pivot », interopérabilité, mutualisation des outils… peuvent remporter une certaine unanimité. En tout état de cause les entreprises de normalisation sont un moyen et on un but.

- Il est difficile de penser à ces fonctions de conservation, d'archivage, etc. sans lieu matériel, et sans personne dédiée. Pour avancer, il faut des contacts entre ce groupe, l'ATILF, la DGLFLF et les deux fédérations de la 34. Peut-être faudrait-il commencer par un travail commun à partir d’un exemple.

- La formation est un point capital (cf. école d’été de Caen) : si on veut voir émerger des corpus réutilisables, il faut proposer des outils et former les auteurs à leur utilisation.

Organisation de la communauté1. Du point de vue institutionnel, on a le sentiment qu’il faudra passer par une équipe-projet à cheval

sur RTP 14-38 (crédits : 9 à 12 k€ par an), dont l’objet serait de démontrer qu’un projet / plate-forme « corpus de dialogue » est faisable, scientifiquement intéressante, et articulable avec les autres initiatives dans le domaine.

2. Il faudra faire des essais à partir de quelques corpus communs (corpus TP physique COAST évoqué). Une bonne méthode consisterait à identifier des corpus candidats, les expertiser à partir de critères intéressants à expliciter (cela peut devenir des directives), et à en sélectionner quelques-uns.

3. 5 groupes de travail sont proposés, avec responsables potentiels :

corpus existants (L. Romary, M. Bert)

nouveaux corpus (L. Montada, D. Luzzati)

comment cataloguer, comment coder (S. Heyden)

intégration des outils (L. Baltasar, P. Martin)

aspects juridiques (O. Baude)

4. Il faudra gérer la question du/des sites. 2 sont représentés (ASILA, CLAPI), mais il faut prendre le problème dans sa complexité, car cela oriente vers une plate-forme.

5. Financement et institutions : il faut rechercher des soutiens institutionnels pas seulement au CNRS. Idem pour les financement (DGLFLF par exemple).


14

Documents

Lundi 23 juin - examenscorriges.orgexamenscorriges.org/doc/28510.doc · Web viewASILA – RTP 14. Workshop 23-25 juin – La Bresse. Lundi 23 juin. Session 1 : Bilan « personnel