42
1 Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques Éric Laporte Université Paris-Est Marne-la-Vallée

Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

Embed Size (px)

DESCRIPTION

Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques. É ric Laporte Université Paris-Est Marne-la-Vallée. Sommaire. É tiquetage morpho-syntaxique Critères de qualité Applications Méthodes Coût L'étiquetage préparatoire à l'analyse syntaxique - PowerPoint PPT Presentation

Citation preview

Page 1: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

1

Outils pour le traitement des textes

Levée d'ambiguïtésmorpho-syntaxiques

Éric LaporteUniversité Paris-Est Marne-la-

Vallée

Page 2: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

2

Sommaire

Étiquetage morpho-syntaxiqueCritères de qualitéApplicationsMéthodesCoûtL'étiquetage préparatoire à l'analyse syntaxiqueContrôle de l'évolution des performances d'un systèmeNormalisation

Page 3: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

3

Étiquetage morpho-syntaxique

Entrée : texte écritRésultat : texte écrit et étiquettes lexicales donnant des informations morpho-syntaxiques

Mot Étiquette morphosyntaxiqueSignification

Nous Pp1mpn- pronom personnel 1e personne masculin pluriel nominatif

avons Vaip1p- verbe auxiliaire indicatif présent 1e personne pluriel

tout Pi-ms— pronom indéfini masculin singulier

rétréci Vmps-sm verbe principal participe passé singulier masculin

de Sp préposition

nos Ds1mpp- déterminant possessif 1e personne masculin pluriel (possesseur) pluriel (possédé)

jours Ncmp nom commun masculin pluriel

. F ponctuation

Source : Paroubek (2006) http://www.technolangue.net/

Page 4: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

4

Architecture

Texteécrit

Texteétiquet

éhors

contexte

Texteétiquet

é

étique-tageinitial

levéed'ambi-guïtés

lexique ressource

Page 5: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

5

Un problème résolu ?

Un problème considéré comme facileL’étiquetage morphosyntaxique a la réputation d’être la tâche d’analyse linguistique automatique la plus facile à réaliser (Paroubek, 2006, http://www.technolangue.net/)

Un problème considéré comme résoluLe bon niveau de performance atteint par la technologie et le grand nombre de systèmes de qualité disponibles... (Paroubek, 2006, http://www.technolangue.net/)Aucun laboratoire de recherche français n'affiche comme objectif l'étiquetage morpho-syntaxiqueDe même pour l'anglais, l'espagnol, le coréen, le japonais...

Page 6: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

6

Paradoxe : le taux de succès

2 à 4 % d'erreursPour des phrases de 15 mots en moyenne, un taux d’étiquetage correct de 96 % au niveau des mots ne se traduira (...) que par un taux d’étiquetage correct de 54 % au niveau des phrases (presque une phrase sur deux contiendra au moins une erreur d’étiquetage) (Paroubek, 2006, http://www.technolangue.net/)L'exemple cité sur cette page (7 mots) comporte une erreur : de nos jours est un adverbeParadoxal pour un problème facileUne solution par motLa plupart des systèmes donnent une solution par mot C'est une précision élevée

Page 7: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

7

Critères de qualité de l'étiquetage (1/3)

Taux de succès : pas un critère satisfaisant- ne tient pas compte de la quantité d'information dans les étiquettes !- non applicable si le système donne plusieurs solutions

1. Finesse du jeu d'étiquettes (nombre d'étiquettes différentes)

Jeu de 15 étiquettes (catégories grammaticales) : 1,6 étiquette par mot simple

Jeu de 1000 étiquettes (catégories grammaticales, traits flexionnels, délimitation des mots composés, lemmes) : 2,0 étiquettes par mot simple

Page 8: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

8

Critères de qualité de l'étiquetage (2/3)

2. Rappel (présence des analyses correctes) : a/(a+b)3. Précision (absence d'analyses incorrectes) : a/(a+c)

analyses retenues rejetées

correctes a b

incorrectes

c d

Page 9: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

9

Critères de qualité de l'étiquetage (3/3)

Finesse, rappel, précision sont antagonistesQuand la couverture lexicale augmente (par.N, luire, celer, huir...), la finesse du jeu d'étiquettes et le rappel augmentent, mais la précision devient plus difficile à obtenir : {par,.N}, {lui,luire.V:Kms}, {cela,celer.V:J3s}, {huit,huir.V:P3s}...En imposant une seule solution par mot, on augmente la précision, mais le rappel devient plus difficile à obtenir

Donc ces 3 critères sont indépendantsSatisfaisants pour couvrir tous les aspects de la qualité

Page 10: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

10

Étiquetage morpho-syntaxique : applications (1/4)

Applications documentairesRecherche d'informationsExtraction d'informationsMoteurs de rechercheExtraction de termes

Objectif : trouver les catégories grammaticales, parfois les lemmesDes erreurs, même nombreuses, ne perturbent pas les statistiquesUne solution par mot pour simplifier les calculs

Page 11: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

11

Étiquetage morpho-syntaxique : applications (2/4)

Applications nécessitant une analyse syntaxiqueTraduction automatiqueSynthèse de paroleApplications moins courantes que les précédentes

Objectifs- délimiter les constituants- identifier les mots composés- identifier les entrées lexicales des motspasser/drop by passer/spend{convergent.A:ms}{convergent,converger.V:P3p:S3p})

Page 12: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

12

Étiquetage morpho-syntaxique : applications (3/4)

Finesse du jeu d'étiquettesBeaucoup d'informations : lemmes, délimitation des mots composés, traits sémantiques (humain), traits syntaxiques (compléments)...RappelL'absence de l'étiquette correcte d'un mot peut facilement empêcher le traitement de toute la phrasePrécisionSimplifie un peu les calculs, mais les étiquettes incorrectes peuvent être éliminées par l'analyse syntaxiqueNous avons {tout.PRO:ms} rétréci (cf. Tout m'énerve)Nous avons {tout.ADV} rétréci (cf. Le sol est tout froid)

Page 13: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

13

Étiquetage morpho-syntaxique : applications (4/4)

Utilisation de l'analyse syntaxique{Tout.PRO:ms} m'énerve Le sol est {tout.ADV} froidIls ont {tout.PRO:ms} installé Luc est {tout.ADV} étonné

Conditions syntaxiques d'emploi de {tout.ADV} avec un verbe à un temps composéAvec un complément direct ou un verbe pronominal :

?La situation a {tout.ADV} étonné Luc?La lessive a {tout.ADV} rétréci le pull?Les pneus se sont {tout.ADV} abîmés

Jamais sans complément direct :*Le pull a {tout.ADV} rétréci*L'eau a {tout.ADV} disparu

Donc dans Nous avons tout rétréci il ne peut pas s'agir de {tout.ADV} à cause de la syntaxe

Page 14: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

14

Applications et critères de qualité (1/2)

Finesse

Rappel

Précision

Applications documentaires

- - +

Applications nécessitant une

analyse syntaxique

+ + -

Page 15: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

15

Applications et critères de qualité (1/2)

Applications documentaires (les plus courantes)Le problème de l'étiquetage morpho-syntaxique est facile, ou même résolu

Applications nécessitant une analyse syntaxique (moins courantes)Finesse : nécessaire mais faible dans les systèmes actuelsRappel : nécessaire mais faible dans les systèmes actuelsPrécision : si possibleC'est donc un sujet de recherche ouvert

Page 16: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

16

Étiquetage : méthodesÉtat de l'artApprentissage statistique à partir de corpus étiquetés (annotation corrigée manuellement)- probabilités (ex. TreeTagger)- modèles de règles (ex. Brill)Finesse : complique les calculs exponentiellementPrécision : facile à obtenir (prendre le meilleur score)Rappel : difficile à obtenir si on privilégie la précision

Systèmes minoritairesRègles construites manuellement (ex. Elag, ENGCG)Finesse : fournit des informations, facilite la constructionRappel : nécessite du travail par des linguistesPrécision : difficile à obtenir si on privilégie le rappel

Page 17: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

17

Méthodes et critères de qualité

L'apprentissage statistique est bien adapté aux applications les plus courantes, d'où sa popularité

Finesse

Rappel

Précision

Apprentissage statistique

- - +

Règles construites

manuellement+ + -

Page 18: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

18

Limite entre levée d'ambiguïtés et analyse syntaxique

Où s'arrête la levée d'ambiguïtés ?Où commence l'analyse syntaxique ?

Texteécrit

Texteétiquet

éhors

contexte

Texteanalys

é

Texteétiquet

é

étique-tage

levéed'ambi-guïtés analyse

synta-xique

lexique

ressource

grammaire

Levée d'ambiguïtés : par reconnaissance de propriétés locales (portée inférieure à la phrase)Analyse syntaxique : au niveau de la phrase

Page 19: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

19

Méthodes et coût

Apprentissage statistiqueMarge de progrès : le corpus étiquetéQualité de l'étiquetage, tailleRévision de l'étiquetage : manuelle, peu automatisable, coûteuseDifficultés linguistiques : analyse de cas, tâche répétitive

Règles construites manuellementMarge de progrès : le lexique, les règlesConstruction : manuelle, peu automatisable, coûteuseDifficultés linguistiques : analyse de cas, généralisation, création d'exemples, jugement d'acceptabilité...

Page 20: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

20

Compétition entre méthodes (1/2)

ObjectifsFinesse et rappel pour l'analyse syntaxique

Apprentissage statistiqueAnalyse de cas : les réviseurs de l'annotationGénéralisation : l'algorithme d'apprentissage

Règles construites manuellementAnalyse de cas et généralisation : les constructeurs des règles

Page 21: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

21

Compétition entre méthodes (2/2)

Une compétition d'intelligence entre- le linguiste concepteur des règles- les algorithmes d'apprentissage

Avantages du linguiste- l'intuition et la créativité humaines- les algorithmes d'apprentissage connus sont basés sur des hypothèses simplistes

Une compétition peu activeTravail coûteux dans les deux casIssue incertaineApplications peu utilisées

Page 22: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

22

Étiquetage morpho-syntaxiqueavant analyse syntaxique (1/3)

Une autre exigence de qualité spécifiqueOn doit pouvoir rendre le système conforme à un cahier des charges précisCouplage entre les ressources de l'étiqueteur et la grammaire de l'analyseur syntaxique

Texteécrit

Texteétiquet

éhors

contexte

Texteanalys

é

Texteétiquet

é

étique-tage

levéed'ambi-guïtés analyse

synta-xique

lexique

ressource

grammaire

Page 23: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

23

Étiquetage morpho-syntaxiqueavant analyse syntaxique (2/3)

Couplage entre ressourcesLexique et ressource de levée d'ambiguïtésJe le considère {comme,.ConjS} mon frèreIl voyait {comme,.DET+Pred} un brouillardGrammaire d'analyse syntaxiqueP --> NP Ppv <considérer.V> {comme,.ConjS} NPNP --> <DET+Pred> NP

Un cahier des charges précis, alors que d'autres codages seraient possibles :{comme,.PREP}, {comme,.ADV}

Page 24: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

24

Étiquetage morpho-syntaxiqueavant analyse syntaxique (3/3)

Couplage entre ressources

Lexique et ressource de levée d'ambiguïtésMon sentiment est {mitigé,.A:ms}

Grammaire d'analyse syntaxiqueP --> NP <être.V> {mitigé,.A:ms}

Autre codage possible : {mitigé,.V:Kms}

Les ressources doivent être maintenues ensemble

Page 25: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

25

Étiquetage morpho-syntaxiqueavant applications documentaires

(1/3)

Cette conformité à un cahier des charges précis n'est pas nécessaire lorsque l'étiquetage sert à des applications documentaires

Seul couplage : le jeu d'étiquettes utilisé dans l'application (N, Adj...)

Seul cahier des charges : les opinions des linguistes en général sur les propriétés morpho-syntaxiques des mots (opinions très variables)

Page 26: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

26

Étiquetage morpho-syntaxiqueavant applications documentaires

(2/3)

Le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d’étiquetage (Paroubek, 2006, http://www.technolangue.net/)

Tend à prouver que les systèmes actuels ont atteint la meilleure qualité possible

La "performance des humains" mentionnée ici est évaluée en combinant les opinions de plusieurs linguistes, qui sont en désaccord quand plusieurs codages sont possibles

Page 27: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

27

Étiquetage morpho-syntaxiqueavant applications documentaires

(3/3)

Le niveau de performance atteint par les systèmes est comparable à celui des humains en terme de qualité d’étiquetage (Paroubek, 2006, http://www.technolangue.net/)

En fait, la "performance des humains" peut être bien meilleure lorsqu'ils ont un cahier des charges précis (couplage avec une grammaire d'analyse syntaxique)

Et les systèmes actuels ?...

Page 28: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

28

Comment assurer la conformité d'un système à un cahier des charges précis ?

Il faut pouvoir corriger le système en cas de fonctionnement insatisfaisant,- pour obtenir la performance désirée sur l'entrée en question- sans dégrader le fonctionnement déjà satisfaisant sur les autres entrées

Contrôler l'évolution des performances du système

Étiquetage morpho-syntaxiqueavant analyse syntaxique

Page 29: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

29

Dans le cas de l'apprentissage statistiquePas de contrôle sûrOn peut refaire un apprentissage, sans garantie que les performances- s'améliorent sur l'entrée en question- ne régressent pas sur les autres entréesL'état de l'art n'est donc pas satisfaisant, sans possibilité d'amélioration sur ce point

Dans le cas de ressources construites manuellementUn contrôle direct des ressources doit être possible : mise à jour

Contrôler l'évolution des performances d'un système

(1/8)

Page 30: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

30

Conditions pour qu'une ressource construite à la main soit maintenable

LisibilitéFormat d'édition conforme à la visualisation habituelle (wysiwyg) ; simple, compréhensible

CumulativitéConstruction progressive d'une ressource avec possibilité d'évaluer au fur et à mesure

Contrôler l'évolution des performances d'un système

(2/8)

Page 31: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

31

StructurationEléments lisibles (petits, simples, compréhensibles), indépendants si possibleLexique : par entrée, par propriétéGrammaire : par règleRTN : par graphe

Contrôler l'évolution des performances d'un système

(3/8)

Page 32: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

32

MonotonieIl doit être impossible de dégrader le fonctionnement d'une ressource existante quand on lui ajoute de nouveaux éléments

Contrôler l'évolution des performances d'un système

(4/8)

motsdécrits

motsmots non

décrits décrits

Page 33: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

33

MonotonieExemples :- augmenter la couverture lexicale (rappel)- augmenter la couverture grammaticale (rappel)- diminuer l'ambiguïté artificielle (précision)On fait évoluer un paramètre dans un seul sensOn évalue l'évolution des performances pour vérifier que le système ne régresse pas

Contrôler l'évolution des performances d'un système

(5/8)

motsdécrits

motsmots non

décrits décrits

Page 34: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

34

Cas d'un système de levée d'ambiguïtésOn se limite à reconnaître des propriétés locales (portée inférieure à la phrase)Une propriété locale peut suffire à prouver qu'une analyse est incorrecte quel que soit le reste :{Ils,il.PRO} {convergent,.A:ms} vers la sortieUne propriété locale ne peut pas suffire à prouver qu'une analyse est correcte, le reste peut être incorrect :{Ils,il.PRO} {convergent,converger.V:P3p} vers la {sortie,sortir.V:Kfs}

Contrôler l'évolution des performances d'un système

(6/8)

Page 35: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

35

Cas d'un système de levée d'ambiguïtésOn peut décrire des propriétés locales qui suffisent à prouver qu'une analyse est incorrecteSi le système est monotone, cela ne peut être que dans un seul sens : le nombre d'analyses retenues diminue, la précision augmente

Contrôler l'évolution des performances d'un système

(7/8)

analysesretenues

analysesanalyses rejetéesretenues

Page 36: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

36

Évolution monotone d'une grammaire de levée d'ambiguïtés préparatoire à l'analyse syntaxique Au départAucune règle : toutes les analyses fournies par l'étiquetage initial sont conservéesSi la couverture du lexique est suffisante, le rappel est de 100 %, mais la précision est faibleEn cours de construction ou de mise à jourChaque nouvelle règle peut faire croître la précisionNe pas diminuer le rappel

Contrôler l'évolution des performances d'un système

(8/8)

Page 37: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

37

Levée d'ambiguïtés lexicales par grammaire construite manuellement

grammaire :n règles

texte étiqueté :

m analyses

texteétiqueté :

m' analysesm' m

levéed'ambiguïtés

lexicales

Un processus de sélection

Page 38: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

38

Normalisation (1/4)

Rôle de la normalisationSimplifier les grammaires de levée d'ambiguïtésSimplifier les grammaires d'analyse syntaxique

grammairen règles

texte étiqueté :

m analyses texte

étiqueté :m'

analysesm' m

levéed'ambiguïtés

lexicales

ressource

texte étiqueté :

p analyses norma-

lisation

Page 39: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

39

Normalisation (2/4)

Avant normalisationJe l'ai toujours considéré comme mon frère

Après normalisationJe le ai toujours considéré comme mon frèreJe la ai toujours considéré comme mon frère

Les grammaires seront plus simples car on s'est rapproché des autres formes :Je le considère comme mon frèreJe la considère comme ma soeur

Page 40: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

40

Normalisation (3/4)

Après normalisationJe le ai toujours considéré comme mon frèreJe la ai toujours considéré comme mon frère

Lorsque la normalisation se fait sur du texte étiqueté, les formes normalisées produites sont étiquetées{le,le.PRO+PpvLE:ms}{la,le.PRO+PpvLE:fs}{le,le.DET+Def:ms}{la,le.DET+Def:fs}

Page 41: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

41

Normalisation (4/4)Normalisation d'Unitex à la construction de l'automate du texte : ne peut qu'ajouter de nouvelles analyses

Avant normalisationJe l'ai toujours considéré comme mon frère

Après normalisation (dans l'automate)Je l'ai toujours considéré comme mon frèreJe le ai toujours considéré comme mon frèreJe la ai toujours considéré comme mon frère

La levée d'ambiguïtés est utilisée pour éliminer les formes non désirées, y compris la forme avant normalisation

Page 42: Outils pour le traitement des textes Levée d'ambiguïtés morpho-syntaxiques

42

Levée d'ambiguïtés lexicales par grammaire construite manuellement

Ressources linguistiques couplées :- lexique- ressource de normalisation- grammaire de levée d'ambiguïtés- grammaire d'analyse syntaxique

ExemplesL'extension du lexique produit de nouvelles analysesUne modification de la grammaire d'analyse syntaxique peut nécessiter une révision du lexique, de la ressource de normalisation ou de la grammaire de levée d'ambiguïtés