Chaînes de références

  • View
    52

  • Download
    0

Embed Size (px)

DESCRIPTION

Chaînes de références. Amalia Todirascu todiras@unistra.fr. Plan. Les chaînes de référence systèmes à base de contraintes vs systèmes d'apprentissage automatique RefGen : un outil de détection automatique de chaînes de références propriétés utilisées pour la resolution de la coréférence. - PowerPoint PPT Presentation

Text of Chaînes de références

  • Chanes de rfrencesAmalia Todirascutodiras@unistra.fr

    Amalia Todirascu

  • PlanLes chanes de rfrencesystmes base de contraintes vs systmes d'apprentissage automatiqueRefGen : un outil de dtection automatique de chanes de rfrencesproprits utilises pour la resolution de la corfrence

    Amalia Todirascu

  • Chanes de rferenceune squence de plusieurs expressions rferentielles et anaphores qui denomment la mme entitexpression rferentielle: nom propre, groupe nominal avec article dfini, groupe nominal avec article demonstratifanaphore: pronom personnel, pronom possessif

    Amalia Todirascu

  • ExempleM.Barack Obama a tenu un discours devant le Congrs sur la reforme de l'assurance maladie. Le prsident des Etats Unis a soulign l'importance qu'il accorde cette reforme.M.Barack Obama = antcdent de Le prsident ...La reforme = antcdent de cette reforme

    Amalia Todirascu

  • Expressions rfrentiellesintroduisent des entits du discours exprimes par: des entits nommes Le prsident de la Rpublique franaise, l'ONU, M.Ponspar des groupes nominaux dfinis ou indfinis complets un chat noir, les experts de la Commission pour l'environnement

    Amalia Todirascu

  • Anaphoresl'entit dont il rfre t dj introduite dans le discours (le prsident... il ...son)exprime par le biais d'un lment antrieurplusieurs catgories (Kleiber, 1994)anaphore pronominalepronoms personnels (il, elle, lui, leur) pronoms reflexifs (s)possessifs (son)

    Amalia Todirascu

  • Anaphores (II)Anaphores nominalesfidle : corfrence directe groupe nominal avec article demonstratif (Le prsident ...ce prsident)infidle - diffrence lexicale hyperonymes/hyponymes (le chien...cet animal)synonymes (le changement...la modification)associative (L'eglise du village...ce clocher)plurielle (Jean et Marie ...Marie.... Jean ...ils)

    Amalia Todirascu

  • Anaphores (III)anaphore conceptuelle antcdent = phraseanaphore = resum de l'antcdentLes footballeurs franais ont battu les brsiliens. Cette victoire les a faits champions du mondeanaphore zro : lement anaphorique elliptique

    Amalia Todirascu

  • Contexte et motivationregrouper les expressions rfrentielles qui indiquent le mme rfrent = identifier les chanes de rfrencesouvent deux lements : chanes anaphoriquesapplications TALextraction d'informationsdtection de thmesresum automatiquesystmes de questions-rponses

    Amalia Todirascu

  • Contexte et motivation (II)modles linguistiques du discoursthorie de l'accessibilit (Ariel, 1990, 1996)expressions rferentielles peu accessibles : entits nouvelles introduites dans le discoursexpressions accessibles : pronoms reflexifs, personnelsthorie du centrage (Grosz et Sidner)notion du centre et des transitions contraintes syntaxiquespour les pronoms

    Amalia Todirascu

  • Contexte et motivation (III)rles des anaphores et de chanes de rfrence dans le discoursmarqueurs de cohesion textuelle (Charolles, 1997)fonctionnement des chanes (Schnedecker, 1997)thme et chanes de rfrence (Cornish, 2005)

    Amalia Todirascu

  • PlanLes chanes de rfrencesystmes base de contraintes vs systmes d'apprentissage automatiqueRefGen : un outil de dtection automatique de chanes de rfrencesproprits utilises pour la resolution de la corfrence

    Amalia Todirascu

  • Systmes automatiques (I)systmes base de rgles franais(Hernandez, 2004), (Dupont, 2003) (Victorri 2005), (Popescu Belis, 1996), (Longo, Todirascu, 2010) anglais (Mitkov, 2003), (Bontcheva et al, 2004)vrification de plusieurs contraintes lexicales, syntaxiques, smantiques pour trouver les affinits entre les possibles antcdents (entits nommes, groupes nominaux dfinis)dpendentes de langue

    Amalia Todirascu

  • Systmes automatiques (II)systmes de classificationsystmes supervises (Ng et Cardie, 2002) (Yang et al, 2004) (Weisenbacher & Nazarenko, 2008)ncessitent des donnes d'apprentissage de grande taille (500,000 1,000,000 tokens) annotes au niveau de relations de corfrence et anaphoriquedonnes disponibles pour EN, DE, NL, ES, ITmais pas pour le franais !!!proprits: contraintes lexicales, syntaxiques, smantiques la position dans la phrase, la distance entre les candidats type d'expressions rferentielles (dterminant, nom commun/nom propre etc.)

    Amalia Todirascu

  • Systmes automatiques (III)systmes non-superviss (Lang et al, 2009) (Ailloud, Klenner, 2009) (Bean et Riloff, 2004), BART (Versley et al, 2008)exploitation des informations morpho-syntaxiquesla position ou la distancele type d'antcdentdonnes : corpus tiquts lemmatiss, eventuellement annots syntaxiquement mais pas besoin d'avoir d'annotation des relations de corfrence

    Amalia Todirascu

  • Problmessystmes base de rglesncessite beaucoup d'effort pour construire les ressourcesconnaissances complexes : tiquetage, lemmatisation, analyse syntaxique, identification des entites nommes systmes de classificationvolume important de donnesdonnes insuffisantes

    Amalia Todirascu

  • PlanLes chanes de rfrencesystmes base de contraintes vs systmes d'apprentissage automatiqueRefGen : un outil de dtection automatique de chanes de rfrencesproprits utilises pour la resolution de la corfrence

    Amalia Todirascu

  • RefGenIdentification automatique de chanes de rfrence pour le franais RefGen (Longo et Todirascu, 2010)dpendent du genre textuelordonner les candidats au premier maillon (thorie de l'accessibilit (Ariel, 1990))trouver des pairs antcdent-anaphoreutilisation des filtres (lexicales, syntaxiques, smantiques)thse de L.Longo (RBS)utilise pour un systme de dtection automatique de thmes

    Amalia Todirascu

  • Architecture RefGen

    Amalia Todirascu

  • Outils d'annotationTTL (Ion, 2007)tiquetage selon le jeu d'tiquettes MULTEXT (Ide & Veronis 2004)CNP (Longo, Todirascu, 2010)Groupes nominaux complexes EN Entits nommes (Personne, Organisation, Lieu)Fonction syntaxique

    Amalia Todirascu

  • TTL (Ion, 2007)tiquetage et lemmatizationjeu d'tiquettes MULTEXTdisponible pour le franais, le roumain, l'anglaisservice Web (integr dans la plateforme Weblicht (dvelopp dans le cadre du projet CLARIN))format de sortie: Text Corpus Format (TCF) ou XCESlimit dans la taille du fichier

    Amalia Todirascu

  • Groupes nominaux complexesgroupes nominaux complexes (plus informatifs)groupes nominaux simples avec plusieurs modifieurs: groupes prpositionnels, relativeutilise les annotations de TTLpatrons disponibles pour le franais

    Amalia Todirascu

  • Entits nommescatgories : personnes, organisations, lieuxpatrons qui utilisent des preuves externes ou internes

    Amalia Todirascu

  • "Il" impersonnelplusieurs patrons proposs pour identifier les tournures impersonnelles (stage de Y.Lutz) verbes et adjectifs mtorologiques (il pleut, il fait beau)adjectifs (il est ncessaire de...)verbes (il faut+Vinf, il s'agit de...)77% de il impersonnels reconnus correctement

    Amalia Todirascu

  • Amalia Todirascu

  • Calcul de la rfrence algorithme didentification des chanes de rfrence

    Amalia Todirascu

  • Slection des 1ers maillonsA partir de lchelle dAccessibilit d(Ariel, 1990)Attribution dun poids chaque ER (de 10 110) pour chaque critre (inf, rig, att)

    Amalia Todirascu

  • Slection des autres maillonsOn dtermine les liens de corfrence entre les candidats daccessibilit haute et ceux daccessibilit basseIdentification des paires antcdent-anaphoredans la distance moyenne spcifique au genreliste de contraintes satisfaire = des filtres pour limiter les candidatsLexicauxMorphosyntaxiquesSmantiquesDe proximitRegroupement des anaphores ayant un rfrent commun pour former les chanes de rfrence

    Amalia Todirascu

  • Contraintes (Gegg-Harrison & Byron, 2004) Optimisation theory (Beaver, 2004)Paires antcdent-anaphore impossiblesPas d'imbrication possible [la soeur [de Marie]]Si les lments sont les arguments du mme verbe (La voiture qu'il a acht...)maximum de contraintes LexicalesSyntaxiquessmantiques

    Amalia Todirascu

  • Contraintes (II)LexicaleReprise du mme tteSyntaxiquesParalllisme syntaxiqueSmantique Synonymeshyponymes

    Amalia Todirascu

  • Exemple

    Amalia Todirascu

  • Exemple (II)

    Amalia Todirascu

  • Evaluation

    Amalia Todirascu

  • RefGenvaluation sur d'autres genrescorpus de rfrence annot manuellement (E.Vallette d'Osia)format SEMEVALsystme modulaire, extensibleajout de contraintes smantiques (ontologies)peu de connaissances extrieuresutilisation pour une annotation automatique de corpus apprentissage automatique

    Amalia Todirascu

  • PlanLes chanes de rfrencesystmes base de contraintes vs systmes d'apprentissage automatiqueRefGen : un outil de dtection automatique de chanes de rfrencesproprits utilises pour la resolution de la corfrence

    Amalia Todirascu

  • Quel outil pour la classification?supervise vs. semi-supervisequelle taille de corpus?classification spcialiseen fonction de types d'antcdents

    Amalia Todirascu

  • Corfrence comme une tche de classificationhypothse: sur l'ensemble des paires antcdent-anaphore, appliquer un algorithme de classificationmme chane de rfrence = mme classechaque paire = caractrise par plusieurs proprits lexicales, syntaxiques, smantiques

    Amalia Todirascu

  • Corpus disponibles - LiLPacorpus tiquts et lemmatisscatgorie lexicaleinformations morpho-syntaxiqueslemmepossibilit d'obtenir d'autres annotationscorpus corrigs manuellementJournalistiques (500 000 tokens)Textes de loi (500 000 tokens)informatique (500 000 tokens)

    Amalia Todirascu

  • Corpus disponibles (LiLPa)

    Ladcisionva-t-elleforcerGoogleinflchirsesp