49
Annotation du français médiéval morphosyntaxe et syntaxe Alexei Lavrentiev , Sophie Prévost Lattice, ICAR Ecole thématique « Annotation de données langagières » Biarritz, 10-16 septembre 2011

Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Embed Size (px)

Citation preview

Page 1: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Annotation du français médiévalmorphosyntaxe et syntaxe

Alexei Lavrentiev , Sophie Prévost

Lattice, ICAR

Ecole thématique « Annotation de données langagières »Biarritz, 10-16 septembre 2011

Page 2: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Plan

� Présentation� Contexte : Projets de corpus et de recherches� Problèmes spécifiques d’annotation du français médiéval� Étiquetage morphosyntaxique : outils et procédure BFM� (Annotation syntaxique : outils et procédure SRCMF)?

� Atelier� Installation des outils

� TXM & TreeTagger� et/ou NotaBene & Tiger Search

� Manipulation des outils d’annotation� Exploitation d’un corpus annoté

Page 3: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Projets

� Morpho MultiDim�Projet ILF, dir. Serge Heiden, ENS Lyon,

2006-2008.�Etiquetage morpho-syntaxique de textes de

français médiéval dans un cadre multidimensionnel (avec prise en compte des types de textes)

Page 4: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Projets

� CoRPTeF - Corpus représentatif des premiers textes français � Projet ANR, dir. Céline Guillot, ENS Lyon, 2008-2010� http://corptef.ens-lyon.fr/� Elaboration d’un corpus de référence pour le très

ancien français (du IXe au XIIe siècle) : représentatif sur les plans qualitatif et quantitatif pour permettre des recherches sur le très ancien français.

� 47 textes (+ d’1 million de mots) ; corpus exhaustif pour la période antérieure à 1100.

� Plusieurs textes étiquetés morpho-syntaxiquement

Page 5: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Projets

� SRCMF - Syntactic Reference Corpus of Medieval French � Projet ANR-DFG franco-allemand, dir. Achim Stein et Sophie

Prévost, 2009-2011� https://listes.cru.fr/wiki/srcmf/� Annotation syntaxique d’un corpus de français médiéval� Annotation syntaxique manuelle (modèle de type dépendantiel). � Etiquetage morpho-syntaxique automatique avec vérification

manuelle.� 18 textes, 351 000 mots

Page 6: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Projets

� GGHF - Grande Grammaire Historique du Français � dir. Ch. Marchello-Nizia, B. Combettes, T. Scheer et

S. Prévost, 2008-� Projet de grammaire historique qui s’appuie sur un

corpus pour l’ensemble des siècles. � Pour la période ancien français, l’ensemble des

textes bénéficie de l’étiquetage morpho-syntaxiqueréalisé dans le cadre des deux autres projets, et certains bénéficient de l’annotation réalisée dans SRCMF.

Page 7: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Projets

� Au centre des projets : la Base de Français Médiéval(BFM)� http://bfm.ens-lyon.fr/� Les 4 projets précédents s’appuient sur des textes de la BFM

(lancée en 1989 par Ch. Marchello-Nizia)� Direction : C. Guillot, gestion : A. Lavrentiev� 26 textes (environ 1 500 000) / 80 textes (plus de 3 millions de

mots) du 9ème au 15ème siècle� Projet d’étiquetage morpho-syntaxique des textes de la BFM

lancé en 2001, puis développé dans le cadre des différents projets

� Interactions entre les projets : � mutualisation partielle des textes

Page 8: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� Pas de compétence et pas de recours possible à des informateurs

� Pas d’accès à l’oral « oralisé »

� Authenticité des données : travail sur édition ou sur manuscrit � Travail d’enrichissement plutôt sur des textes édités (versus manuscrit)� Choix d’éditions peu interventionnistes� Edition numérique de la Quête du Graal

� Deux points communs entre Langue ancienne et Oral moderne :� variation� segmentation

� Remarque : la variation opère en diachronie, mais aussi en synchronie

Page 9: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� a) Forte variation graphique et morphologique : problème pour les outils de TAL� Variation d’un texte à l’autre :

� fet/fait � aviiens, avïens, aviens, aviions, avyons,� molt, mult, mout, moult: propos, propoz, propost, propous, proppoz,

proupoz, propotz, propoux, propox� mais aussi dans un même texte (Quinze joyes de Mariage, deb.

15ème):� auxi, aussi, aussy

� Variation accrue par l’existence d’une déclinaison casuelle: � cils, cilz / cels, celz, ceulx, ceus, ceuz, ceux, ceulz,ceuls.

� Apport précieux de la lemmatisation, quand elle existe

Page 10: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� b) Souplesse de l’ordre des mots : �Position des pronoms personnels clitiques,

position pré- ou postverbale du sujet , ...

Page 11: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� c) Unités graphiques et unités linguistiques : coïncidence non systématique� Etiquetage et segmentation en mots des textes de la BFM s’opèrent sur

la forme de surface des textes telle que définie par l’éditeur scientifique. � => Respect des segmentations (et graphies) de l’éditeur (malgré des

principes et des pratiques d’édition hétérogènes).� par mi / parmi ; � ja mes / jamais, � sicom / si com

� Cas général : une unité graphique = une unité linguistique = une étiquette

� Mais quelques exceptions

Page 12: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� c) Unités graphiques et unités linguistiques : coïncidence non systématique� => Dissociation des unités graphiques et des unités linguistiques� Mais sans modifier la surface des textes : l’étiquetage opère sur des

unités linguistiques différentes des formes graphiques apparentes.

� i) fusion : regroupement de 2 formes graphiques pour leur associer une seule étiquette

� quel que lieu que et ambes II : traités comme une seule unité linguistique (difficiles à analyser séparément) : déterminant relatif et déterminant (ou adjectif ou pronom) cardinal.

� le dit = ledit : determinant défini composé� le quel (et ses composés) = lequel : déterminant ou pronom relatif

� Remarque : espace blanc et apostrophe font partie de la forme graphique.

Page 13: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� c) Unités graphiques et unités linguistiques : coïncidence non systématique� ii) segmentation d’1 unité graphique pour lui associer 2 étiquettes.

� parce : on segmente en par ce : préposition + pronom démonstratif� sil : segementation dans les cas où sil = s’il = se + il (versus enclise si + le) :

conjonction de sub + pro.perso.

� iii) formes contractées et étiquettes complexes : � Plus nombreuses et diversifiées qu’en français moderne ; � Phénomènes d’enclise et de proclise � Etiquette complexe : rend compte du caractère compositionnel/complexe de

la forme, en incluant la catégorie (et le type) des 2 composantes. � Par exemple : nel = ne + le (adverbe négatif + pronom personnel ->

ADVneg.PROper

Page 14: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� d) Pertinence des catégories de la grammaire moderne� Projeter sur la langue ancienne des catégories en

partie conçues pour la langue moderne (surtout en syntaxe), par des locuteurs modernes.

� Penser la langue ancienne avec la compétence de locuteur moderne.

� « Anachronisme » assumé

Page 15: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Problèmes d’annotation du français médiéval

� e) impossibilité de recourir à l’intuition, passages ambigus ou inanalysables� Evolution diachronique avec phase de transition et indétermination

entre 2 valeurs (infra)� Cas d’indétermination synchronique :

� bien : nom commun ou adverbe ? � Je sui prest que je face voz volentez por quoi je voie que ce soit bien a fere

(qgraal)� Por lui fu ce bien quant vos por la dame l'empreïstes (qgraal)

� A noter que l’étiquette Adverbe est assez « large ».

� difficulté à analyser la portée d’une forme : � A s’espee tot le desmenbre (Beroul)

� Portée sur desmembre ou sur le ? � Principe de rattachement au « plus haut » => Circonstant

Page 16: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Élaboration d’un jeu d’étiquettes morpho-syntaxiques (Cattex2009)� 2 documents : principes d’annotation + manuel de

référence (voir biblio)� Jeu conçu pour une diachronie large : des catégories

apparaissent, d’autres diparaissent� Règles d’étiquetage constantes mais une unité

linguistique peut changer de valeur

� Etiquettes structurées en 2 champs : <catégorie> et <type>, avec 3 lettres par champ

Page 17: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Cattex2009� Catégories : parties du discours : VER (verbe) ; NOM (nom) ;

ADJ (adjectif) ; PRO (pronom) ; DET (déterminant) ; ADV (adverbe) ; PRE (préposition) ; CON (conjonction) ; INJ (interjection)

� Autres catégories : PON (ponctuation) ; ETR (mot étranger) ; ABR (abréviation), RED (mot redondant)

� Types : sous-classes des catégories, s’il y a lieu (démonstratif, personnel, conjugué...)

� Exemples :� ‘de’ : <catégorie> = ‘PRE’ (préposition) � ‘chevalier’ : <catégorie> = ‘NOM’,

<type> = ‘com’ pour ‘commun’ => ‘NOMcom’

Page 18: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique� Cattex2009

Page 19: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Cattex2009� Formes contractées

� ‘nel’ : ADVneg.PROper (adverbe de négation + pronom personnel)

� Chaque champ de l’étiquette comporte une valeur et une seule : non traitement de l’ambiguïté.

� Mais ajout possible d’une seconde étiquette avec une autre valeur (voir infra)

Page 20: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Etiquetage morphosyntaxique : � Les catégories et les types sont déterminés en contexte selon

des principes avant tout morphologiques.� Mais recours à des critères distributionnels pour déterminer plus

précisément la valeur des étiquettes. � Par exemple pour les démonstratifs, distinction entre emplois

‘déterminants’/ ‘pronoms’: � Et la damoisele torne cele part si tost come il sont pres (Graal)

[cele = DETdem]� Et cele dit que onques deseritee n' en fu (Graal) [cele = PROdem]

� Distinction entre les différentes valeurs s’appuie sur des critères morphosyntaxiques bien identifiés;

� Aucune des valeurs n’est plus essentielle à la forme que l’autre.

Page 21: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Autres cas de polycatégorisation: � i) Evolution diachronique : chevauchement

possible de 2 valeurs. � Exemple de plaisir :

� Itels briefs enveieient al saint humme ultre mer, Plusurs altres asez, dunt rien ne sai conter, Pur mielz plaisir al rei e pur lur sens mustrer(Saint Thomas Becket, fin 12ème)

� Car ço n’est pas aumosne, s’il en fait sun plaisir : Quant l’a dunee a Deu , ne li puet retolir(Saint Thomas Becket, fin 12ème)

Page 22: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Autres cas de polycatégorisation: � ii) Différentes valeurs selon les contextes

mais critères de distinction moins clairs.� Association à ces formes de la catégorie la plus

appropriée contextuellement.� ADJqua/ NOMcom: ami ; ennemi ; fel/felon ;

vassal ; ber/baron ...� NOMcom/ADVgen ou ADJqua : bien, mal, voir...

Page 23: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Autres cas de polycatégorisation: � iii) Différentes valeurs possibles, mais qui ne sont pas toutes

enregistrées dans le lexique : une valeur morphologique de référence / autres valeurs ponctuelles.

� Et cele qui estoit la plus dame le menoit par la main et ploroit mout tendrement (graal),

� => Restitution de la double valeur : NOMcom et ADJqua, avec recours à 2 étiquettes : étiquette M (morphologique) + étiquette MS (morphosyntaxique).

� Principaux changements de catégorie : � NOMcom <->ADJqua� VERinf > NOMcom� ADJqua > ADVgen� VERppe/VERppa > ADJqua / NOMcom

Page 24: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Autres cas de polycatégorisation: � iv) Traitement complexe des infinitifs :

� A cel encontrer furent toutes lances brisiees (Queste del Saint Graal),

� Présence du déterminant démonstratif => MS = NOMcom. � A l’inverse, la présence d’un complément favorise

l’interprétation ‘infinitif’. � Mais 2 cas difficiles :

� Ore dist li contes que a heure de disner , quant les tables... (Merlin, début. 13ème ) ,

� Ostes, ja fustes vous compaing, Puisque che vient au dire voir(Bodel, Jeu de Saint Nicolas, fin 12ème)

Page 25: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation morphosyntaxique

� Autres cas de polycatégorisation: �v) Changement de catégorie sans

changement de contexte : � om ( (l’)on, (l’) om,(l’)en, hom…) :

NOMcom > PROind

Page 26: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Étiquetage morphosyntaxique de la BFM (‘workflow’)

Texte édité (Word…)

Texte balisé XML-TEI

TXM

Texte tokenisé

TreeTagger

corpus d’apprentissage

modèle linguistique

Texte étiqueté autoExcel, Calc, SATO

Vérification Texte étiqueté vérifié

Concordances, index, cooccurrences, graphes…

Page 27: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Plateforme TXM (architecture)

Web

Windows, Linux, (Mac)

Page 28: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Plateforme TXM (Interface)

� Locale(RCP)

Page 29: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Plateforme TXM (Interface)

� Web(GWT)

� http://txm.risc.cnrs.fr/bfm (tests en cours) Messages

Explorateur Résultats

Page 30: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Importation de corpus dans TXM

� Préparation des textes et des métadonnées� Paramétrage du script

� plusieurs scripts disponibles selon le format des textes� Lancement d’importation

� tokenisation� étiquetage par le TreeTagger� construction d’index CWB

� structures, formes, propriétés� génération d’édition

� On peut « charger » un corpus pré-compilé (« binaire »)� On peut importer des textes déjà tokenisés et étiquetés. On peut

dans ce cas comparer l’étiquetage automatique et manuel

Page 31: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Préparation des textes

� Texte « brut » ou balisé ?� Balisage XML-TEI

� métadonnées (descripteurs) � teiHeader� références (pages, vers…) � milestone� structures (divisions, paragraphes, strophes)� discours direct � q� mots ou phrases en langue étrangère� marques éditoriales

� corrections, ajouts� résolutions d’abréviations� notes

� voir fichier : /ea2011_ancienfrancais/preparation/qgraalcma.xml

Page 32: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Préparation des textes

� Tokenisation <w>� caractères séparateurs (blanc, ponctuations…)� balises

� hors-texte (<note>, <biblio>…)� ≥ 1 mot (<p>, <foreign>, <name>…)� = 1 mot (<abbr>, <expan>, <num>…)� ≤ 1 mot (<g>, <ex>)� « flottantes » (<supplied>, <del>)

� mots composés� locutions en cours de figement

� par-mi, ja-mais…

Page 33: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Préparation des textes

� Délimitation de phrases graphiques <s>� importante pour l’efficacité des outils de TAL�ponctuations fortes

� sauf les points d’abréviations, chiffres (.ii.)

�balises de structure textuelle � <p>, <title>, <q>, <sp>� problème des vers/strophes <lg>/<l> � <ab>/<lb/>

�problèmes des balises « flottantes »

Page 34: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Préparation des textes

� Outils d’édition XML�Oxygen

� validation immédiate� raccourcis clavier� plusieurs moteurs de transformation XSL� recherche/remplacement d’expressions régulières� diff

Page 35: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Préparation des textes

� Outils de tokenisation� fonction tokenize() en XSLT2

� ne gère pas les balises à l’intérieur des mots� tokeniseur du TreeTagger

� fonctionne sur texte brut� paramétrable pour une langue

� aujourd’hui, parce que, fait-il vs. arc-en-ciel

� tokeniseur de la BFM� intégré dans TXM� classes de balises paramétrables� les balises à l’intérieur des mots doivent être « pré-traitées »

� <w>qua<supplied>n</supplied>t</w>

Page 36: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Étiquetage morphosyntaxique

� Tree Tagger� Logiciel d’étiquetage et de lemmatisation statistique développé à l’IMS

de Stuttgart (resp. Helmut Schmid)� http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/

� Utilisation libre pour l’enseignement et la recherche� usage commercial interdit� redistribution soumise à un accord préalable

� Pas d’interface graphique utilisateur� Les modèles linguistiques (*.par) peuvent être téléchargés sur le site de

l’IMS ou fabriqués à partir d’un corpus annoté� apprentissage sur un corpus annoté

� texte annoté (forme�etiquette�lemme) ~ TXM : concordance sans contextes� lexique (forme�etiquette1�lemme1�etiquette2�lemme2…) ~ TXM : index� paramètres (classes ouvertes…)

Page 37: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Étiquetage morphosyntaxique

� Tree Tagger et TXM�s’installe indépendamment (licence)�modèle(s) linguistique(s) (*.par)

� http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/(cas général)

� BFM : rgaqcj.par (6 textes), fro.par (14 textes)

� intégré dans le script d’import BFM� fropos= et rgaqcjpos=� pas de lemmatisation

Page 38: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Étiquetage morphosyntaxique

� Vérification de l’annotation� export d’une concordance vers un tableur (format

.csv)� requête : [], � contexte : 0 à gauche et à droite� pivot : word_fropos_rgaqcjpos� référence : id_ref

� relecture et correction� « ré-injection » des résultats vers le fichier TEI-TXM

� scripts groovy ou perl� ré-importation du texte étiqueté

Page 39: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Étiquetage morphosyntaxique

� Vérification de l’annotation (Excel)

Page 40: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Étiquetage morphosyntaxique

� Vérification de l’annotation (SATO)� logiciel en ligne http://ling.uqam.ca/sato�corpus personnels

� possibilité de partage

� import et export par copier-coller�possibilité d’annotation à base de règles�moins pratique pour la vérification de

l’annotation morphosyntaxique

Page 41: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Exploitation d’un corpus étiqueté

� CQL� langage de requêtes sur corpus implémenté par la technologie IMS Open

Corpus Workbench http://cwb.sourceforge.net� intro rapide : Manuel TXM (section 5) :

http://textometrie.sourceforge.net/doc/refman/ManueldeReferenceTXM0.5_FR.xhtml� référence complète :

http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/CQPUserManual/HTML

� Interrogation avec TXM� Vocabulaire des étiquettes� Concordandces : requêtes sur des étiquettes

� [pos="CONsub"]� export pour la vérification des étiquettes

� Index et concordances : requêtes croisées forme/étiquette� [word="[Ss]e" & pos="CONsub"]

� Spécificité des étiquettes� partition DD / non DD (Guillot&al à par.)

Page 42: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation syntaxique

� Modèle linguistique SRCMF� syntaxe dépendancielle (Tesnière, Mel’čuk)� catégories hiérarchisées� utilisation de catégories sous-déterminées en cas

d’ambigüité� e.g. ‘Régime’ pour les constuctions infinitives

� rattachement « au plus haut » en cas de doute� 1 verbe principal = 1 phrase

Page 43: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation syntaxique

� Workflow projet SRCMF� sélection et préparation d’un texte� annotation indépendante par 2 experts� comparaison� élimination d’erreurs, discussion sur les points

difficiles� vérification et validation par les chefs du projet� export et interrogation avec TigerSearch

Page 44: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation syntaxique

� Préparation du texte� tokenisation (chaque mot doit avoir un @id)�découpage en tranches de 2000 tokens

� pour des raisons de performance� se fait avec un script perl qui utilise une feuille de

style XSL

�édition d’un projet NotaBene� via l’interface NotaBene� ou directement au format .xml

Page 45: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation syntaxique

� Logiciel NotaBene� http://notabene.sourceforge.net/� conçu et développé par N. Mazziotta� utilise le format RDF (graphes)� destiné à un usage générique, mais développé

surtout pour l’annotation syntaxique dans le cadre du projet SRCMF

� ontologie SRCMF� comparaison d’annotations� export vers TigerSeach

Page 46: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation syntaxique

� Interrogation avec TigerSearch� http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERSearch/ � logiciel open-source, n’est plus développé, mais reste utilisable

� Tiger-XML� Format flexible pour l’annotation d’arbres syntaxiques� 2 types d’éléments

� nœuds terminaux (feuilles)� éléments non terminaux

� Structure de l’arbre� les nœuds terminaux sont des mots (tokens), ils ont un ordre linéaire� toute autre structure est un élément non terminal� les éléments non terminaux peuvent être discontinus� chaque élément peut avoir un seul parent

Page 47: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation syntaxique

� Requête TigerSearch

Page 48: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Annotation syntaxique

� Graphe TigerSearch

Page 49: Alexei Lavrentiev , Sophie Prévost Lattice, ICAR · pour la période antérieure à 1100. ... mots) du 9ème au 15ème siècle Projet d’étiquetage morpho-syntaxique des textes

Ecole thématique « annotation de données langagières »

Merci !