44
Amalia Todirascu 1 Chaînes de références Amalia Todirascu [email protected]

Amalia Todirascu1 Chaînes de références Amalia Todirascu [email protected]

Embed Size (px)

Citation preview

Page 1: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 1

Chaînes de références

Amalia [email protected]

Page 2: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 2

Plan Les chaînes de référence systèmes à base de contraintes vs

systèmes d'apprentissage automatique

RefGen : un outil de détection automatique de chaînes de références

propriétés utilisées pour la resolution de la coréférence

Page 3: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 3

Chaînes de réference une séquence de plusieurs

expressions réferentielles et anaphores qui denomment la même entité expression réferentielle: nom propre,

groupe nominal avec article défini, groupe nominal avec article demonstratif

anaphore: pronom personnel, pronom possessif

Page 4: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 4

Exemple M.Barack Obama a tenu un

discours devant le Congrès sur la reforme de l'assurance maladie. Le président des Etats Unis a souligné l'importance qu'il accorde à cette reforme. M.Barack Obama = antécédent de

Le président ... La reforme = antécédent de cette

reforme

Page 5: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 5

Expressions référentielles introduisent des entités du discours exprimées par:

des entités nommées Le président de la République française,

l'ONU, M.Pons par des groupes nominaux définis ou

indéfinis complets un chat noir, les experts de la Commission

pour l'environnement

Page 6: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 6

Anaphores l'entité dont il réfère à été déjà introduite

dans le discours (le président... il ...son) exprimée par le biais d'un élément

antérieur plusieurs catégories (Kleiber, 1994)

anaphore pronominale pronoms personnels (il, elle, lui, leur) pronoms reflexifs (s) possessifs (son)

Page 7: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 7

Anaphores (II) Anaphores nominales

fidèle : coréférence directe groupe nominal avec article demonstratif (Le président ...ce président)

infidèle - différence lexicale hyperonymes/hyponymes (le chien...cet animal) synonymes (le changement...la modification)

associative (L'eglise du village...ce clocher) plurielle (Jean et Marie ...Marie.... Jean ...ils)

Page 8: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 8

Anaphores (III) anaphore conceptuelle

antécédent = phrase anaphore = resumé de l'antécédent

Les footballeurs français ont battu les brésiliens. Cette victoire les a faits champions du monde

anaphore zéro : élement anaphorique elliptique

Page 9: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 9

Contexte et motivation regrouper les expressions référentielles

qui indiquent le même référent = identifier les chaînes de référence souvent deux élements : chaînes

anaphoriques applications TAL

extraction d'informations détection de thèmes resumé automatique systèmes de questions-réponses

Page 10: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 10

Contexte et motivation (II) modèles linguistiques du discours

théorie de l'accessibilité (Ariel, 1990, 1996) expressions réferentielles peu accessibles :

entités nouvelles introduites dans le discours expressions accessibles : pronoms reflexifs,

personnels théorie du centrage (Grosz et Sidner)

notion du centre et des transitions contraintes syntaxiques pour les pronoms

Page 11: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 11

Contexte et motivation (III) rôles des anaphores et de chaînes

de référence dans le discours marqueurs de cohesion textuelle

(Charolles, 1997) fonctionnement des chaînes

(Schnedecker, 1997) thème et chaînes de référence

(Cornish, 2005)

Page 12: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 12

Plan Les chaînes de référence systèmes à base de contraintes vs

systèmes d'apprentissage automatique

RefGen : un outil de détection automatique de chaînes de références

propriétés utilisées pour la resolution de la coréférence

Page 13: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 13

Systèmes automatiques (I) systèmes à base de règles

français(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010)

anglais (Mitkov, 2003), (Bontcheva et al, 2004)

vérification de plusieurs contraintes lexicales, syntaxiques, sémantiques pour trouver les affinités entre les possibles antécédents (entités nommées, groupes nominaux définis)

dépendentes de langue

Page 14: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 14

Systèmes automatiques (II) systèmes de classification

systèmes supervisées (Ng et Cardie, 2002) (Yang et al, 2004) (Weisenbacher & Nazarenko, 2008)

nécessitent des données d'apprentissage de grande taille (500,000 – 1,000,000 tokens) annotées au niveau de relations de coréférence et anaphorique

données disponibles pour EN, DE, NL, ES, IT mais pas pour le français !!! propriétés:

contraintes lexicales, syntaxiques, sémantiques la position dans la phrase, la distance entre les

candidats type d'expressions réferentielles (déterminant, nom

commun/nom propre etc.)

Page 15: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 15

Systèmes automatiques (III) systèmes non-supervisés (Lang et al,

2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004), BART (Versley et al, 2008) exploitation des informations morpho-

syntaxiques la position ou la distance le type d'antécédent données : corpus étiquétés lemmatisés,

eventuellement annotés syntaxiquement mais pas besoin d'avoir d'annotation des relations de coréférence

Page 16: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 16

Problèmes systèmes à base de règles

nécessite beaucoup d'effort pour construire les ressources

connaissances complexes : étiquetage, lemmatisation, analyse syntaxique, identification des entitées nommées

systèmes de classification volume important de données données insuffisantes

Page 17: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 17

Plan Les chaînes de référence systèmes à base de contraintes vs

systèmes d'apprentissage automatique

RefGen : un outil de détection automatique de chaînes de références

propriétés utilisées pour la resolution de la coréférence

Page 18: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 18

RefGen Identification automatique de chaînes de

référence pour le français RefGen (Longo et Todirascu, 2010) dépendent du genre textuel ordonner les candidats au premier maillon

(théorie de l'accessibilité (Ariel, 1990)) trouver des pairs antécédent-anaphore

utilisation des filtres (lexicales, syntaxiques, sémantiques)

thèse de L.Longo (RBS) utilisée pour un système de détection

automatique de thèmes

Page 19: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 19

Architecture RefGen

Annotation des groupes nominaux complexes (CNp)

Annotation des Entités Nommées(type Org /Pers)

Annotation du il impersonnel

Annotations

Texte étiquetéTTL (Ion, 2007)

Calcul de la référence

Page 20: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 20

Outils d'annotation TTL (Ion, 2007)

Étiquetage selon le jeu d'étiquettes MULTEXT (Ide & Veronis 2004)

CNP (Longo, Todirascu, 2010) Groupes nominaux complexes

EN Entités nommées (Personne,

Organisation, Lieu) Fonction syntaxique

Page 21: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 21

TTL (Ion, 2007) étiquetage et lemmatization

jeu d'étiquettes MULTEXT disponible pour le français, le roumain,

l'anglais service Web (integré dans la plateforme

Weblicht (développé dans le cadre du projet CLARIN)) format de sortie: Text Corpus Format (TCF) ou

XCES limité dans la taille du fichier

Page 22: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 22

Groupes nominaux complexes

groupes nominaux complexes (plus informatifs) groupes nominaux simples avec plusieurs modifieurs: groupes

prépositionnels, relative utilise les annotations de TTL patrons disponibles pour le français

Page 23: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 23

Entités nommées catégories : personnes,

organisations, lieux patrons qui utilisent des preuves

externes ou internes

Page 24: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 24

"Il" impersonnel plusieurs patrons proposés pour

identifier les tournures impersonnelles (stage de Y.Lutz) verbes et adjectifs météorologiques

(il pleut, il fait beau) adjectifs (il est nécessaire de...) verbes (il faut+Vinf, il s'agit de...) 77% de il impersonnels reconnus

correctement

Page 25: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 25

Named Entities

Lemmas, chunks

Complex noun phrases

Impersonal pronoun « il »

Page 26: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 26

Calcul de la référence

configurationtexte annoté

sélection d'antécédents

liste desmaillons

chaînes de

référencecalcul de la référence

Règles heuristiques pourla fonction syntaxique

Paramètres spécifiquesau genre textuel

contraintes syntaxiques,sémantiques

sélection du1er maillon

recherche demaillons possibles

identification des relations anaphoriques

Comparaison des chaînes avec annotation manuelle

configurationtexte annoté

sélection d'antécédents

liste desmaillons

chaînes de

référencecalcul de la référence

Règles heuristiques pourla fonction syntaxique

Paramètres spécifiquesau genre textuel

contraintes syntaxiques,sémantiques

sélection du1er maillon

recherche demaillons possibles

identification des relations anaphoriques

Comparaison des chaînes avec annotation manuelle

algorithme d’identification des chaînes de référence

Page 27: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 27

Sélection des 1ers maillons

Expression Référentielle

Informativité

Rigidité Atténuation

Accessibilité Globale

Groupe nominal indéfini

110 110 10 230

Np complet avec modifieur

100 100 20 220

Np complet 90 90 30 210

Description définie longue

80 80 40 200

Description définie courte

70 70 50 190

Nom de famille 60 60 60 180

Prénom 50 50 70 170

Démonstratif 40 40 80 160

Pronom 30 30 90 150

Réfléchi 20 20 100 140

Possessif 10 10 110 120

A partir de l’échelle d’Accessibilité d’(Ariel, 1990)

Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf, rig, att)

Page 28: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 28

Sélection des autres maillons

On détermine les liens de coréférence entre les candidats d’accessibilité haute et ceux d’accessibilité basse

Identification des paires antécédent-anaphore dans la distance moyenne spécifique au genre liste de contraintes à satisfaire = des filtres pour limiter

les candidats Lexicaux Morphosyntaxiques Sémantiques De proximité

Regroupement des anaphores ayant un référent commun pour former les chaînes de référence

Page 29: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 29

Contraintes

(Gegg-Harrison & Byron, 2004) – Optimisation theory (Beaver, 2004)

Paires antécédent-anaphore impossibles Pas d'imbrication possible [la soeur [de Marie]] Si les éléments sont les arguments du même

verbe (La voiture qu'il a achété...) maximum de contraintes

Lexicales Syntaxiques sémantiques

Page 30: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 30

Contraintes (II)

Lexicale Reprise du même tête

Syntaxiques Parallèlisme syntaxique

Sémantique Synonymes hyponymes

Page 31: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 31

Exemple

Page 32: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 32

Exemple (II)

Page 33: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 33

Evaluation

CNpNER reference chains

pairs

0,630,730,890,88f-measure

0,700,780,910,91precision

0,580,690,870,85recall

CalcRef Annotations

0,540,70F-measure

•With newspapers genre parameters:

Page 34: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 34

RefGen évaluation sur d'autres genres

corpus de référence annoté manuellement (E.Vallette d'Osia)

format SEMEVAL système modulaire, extensible

ajout de contraintes sémantiques (ontologies) peu de connaissances extérieures

utilisation pour une annotation automatique de corpus – apprentissage automatique

Page 35: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 35

Plan Les chaînes de référence systèmes à base de contraintes vs

systèmes d'apprentissage automatique

RefGen : un outil de détection automatique de chaînes de références

propriétés utilisées pour la resolution de la coréférence

Page 36: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 36

Quel outil pour la classification?

supervisée vs. semi-supervisée quelle taille de corpus? classification spécialisée

en fonction de types d'antécédents

Page 37: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 37

Coréférence comme une tâche de classification

hypothèse: sur l'ensemble des paires antécédent-anaphore, appliquer un algorithme de classification même chaîne de référence = même

classe chaque paire = caractérisée par

plusieurs propriétés lexicales, syntaxiques, sémantiques

Page 38: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 38

Corpus disponibles - LiLPa

corpus étiquétés et lemmatisés catégorie lexicale informations morpho-syntaxiques lemme possibilité d'obtenir d'autres annotations

corpus corrigés manuellement Journalistiques (500 000 tokens) Textes de loi (500 000 tokens) informatique (500 000 tokens)

Page 39: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 39

Corpus disponibles (LiLPa)

<segments><seg lang="fr"><s id="ttlfr.1"><w lemma="le" chunk="Np#1" ana="Da-fs" coref="1">La</w><w lemma="décision" chunk="Np#1" ana="Ncfs"

coref="1">décision</w><w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w><w lemma="t" ana="U">-t</w><w lemma="il" ana="Pp3fs" coref="1">-elle</w><w lemma="forcer" ana="Vmn">forcer</w><w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org"

coref="2">Google</w><w lemma="à" chunk="Vp#2" ana="Spa">à</w><w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w><w lemma="son" chunk="Np#3" ana="Ds3fp" coref="2">ses</w><w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w><c>?</c></s>

Page 40: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 40

Annotations

Catégorie lexicale + propriétés morpho-syntaxiques (attribut “ana”)

Lemme (la forme infinitif du verbe, la forme masculin singulier)(attribut “lemma”)

Chunks (groupes non-recursifs) (attribut “chunk”) Det Nom Adj Prep Det Nom

Page 41: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 41

Autres annotations

Entités nommées, CNP Fonctions syntaxiques Relations sémantiques

Synonymie (French Wordnet) Hyponymie/Hyperonymie (French

WordNet)

Page 42: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 42

Propriétés pour la classification Type d'antécédent Informations morpho-syntaxiques Position dans la phrase Fonction syntaxique autres?

Page 43: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 43

Références Ailloud, E, Klenner, M (2009) Vers des contraintes plus

linguistiques en résolution d de coréférences, TALN 2009 Cornish, (1998). Les “chaînes topicales” : leur rôle dans

la gestion et la structuration du discours, Cahiers de Grammaire, 23 : 19-40.

Dupont M. (2003) Une approche cognitive du calcul de la référence, thèse de l’université de Caen, 308 p.

Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised Coreference Resolution with HyperGraph Partitionning, Computer and Information Science, Vol 2, no 4.

Longo, L, Todirascu, A (2010) RefGen – un module d'identification de chaînes de référence, TALN 2010

Page 44: Amalia Todirascu1 Chaînes de références Amalia Todirascu todiras@unistra.fr

Amalia Todirascu 44

Références (II)

Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a framework for modeling the local coherence of discourse”. Computational Linguistics 21(2), 203-225.

Ng V., Cardie C. (2002). Improving machine learning approaches to coreference resolution. Actes de ACL (Association For Computational Linguistics), Morristown, 104-111.

YANG X., SU J., ZHOU G. & TAN C. (2004). An NP-cluster based approach to coreference resolution. Proceedings of COLING'04