31
Ressources électroniques pour l’analyse syntaxique Amalia Todirascu [email protected]

Ressources électroniques pour lanalyse syntaxique Amalia Todirascu [email protected]

Embed Size (px)

Citation preview

Page 1: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Ressources électroniques pour l’analyse syntaxique

Amalia Todirascu

[email protected]

Page 2: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Plan

• Quelles ressources pour une analyse syntaxique «classique»?– Utilisations possibles

• Les grammaires d’arbres adjoints lexicalisés– Lexique– Grammaire

• Un exemple d’analyseur: LTAG

Page 3: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Analyse syntaxique « classique »

• identifier les formes des mots et les parties du discours – un lexique complet (toutes les formes)Ou- un étiqueteur + dérivation de formes fléchies

• construire les arbres syntaxiques pour un texte donné– Un ensemble de règles de grammaires et des

contraintes associés• Accord sujet-prédicat, dépendences à distance etc.• modèles linguistiques

Page 4: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Utilisation des ressources

• analyse syntaxique et sémantique• aide à la traduction

– phénomènes linguistiques à traiter: règles d'accord, verbes transitives et intransitives, dépendences à distance

– lexique (expressions figées)

• traduction automatique– systèmes à base d'arbre syntaxiques

• apprentissage d'une langue etrangère– consulter les règles de grammaire

Page 5: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Lexique

• Informations– Toutes les formes– lemmes– Propriétés

• morphologiques • sémantiques

• unités lexicales vs. mots composés

• exhausitivité

Page 6: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Exemples de lexiques

• Sur le CNRTL (Centre national de ressources textuelles et lexicales) http://www.cnrtl.fr/lexiques/

• Morphalou– 400000 formes fléchies– Format XML– Propriétés mophologiques et lemmes

• Prolex : un lexique de noms propres

Page 7: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Exemples de lexiques

• Anglais– http://www.ahds.ac.uk/litlangling  

• Multext-EAST :dictionnaires pour plusieurs langues de l’Europe Centrale et de l’Est– http://nl.ijs.si/ME/V3/

Page 8: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Grammaires

• Plusieurs aspects– organisation du lexique– stratégies d'analyse automatique

• Plusieurs modèles pour la grammaire– GPSG (Generalized Phrase Structure Grammar)

(Gazdar)– LFG (Lexical Function Grammar) (Kaplan)– HPSG (Head Phrase Structure Grammar) (Pollard,

Sag, 1994)– TAG (Joshi, 1985), LTAG (Joshi, 1995)

Page 9: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Exemples de ressources

• Une grammaire HPSG pour plusieurs langues– http://www.delph-in.net/index.php?page=3– ERG: pour l'anglais

• http://www.delph-in.net/erg/

– espagnol http://www.upf.edu/pdi/iula/montserrat.marimon/spanish_resource_grammar.html

• LFG (anglais, allemand, norvégien)– http://decentius.aksis.uib.no/logon/xle.xml

Page 10: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

TAG

• Tree Adjoining Grammars (Joshi, 1975, 1995)– l'hypothèse: représenter les contextes

syntaxiques locales (des arbres syntaxiques)– contraintes sur les combinaisons entre ces

arbres syntaxiques – justification linguistique (structure prédicat-

argument)– prise en compte de l'ordre locale des mots

Page 11: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

TAG (II)

• La grammaire: un symbole initial, des symboles non-terminaux, des symboles terminaux

• Les règles de réécriture: un ensemble d'arbres – arbre initial: un arbre ayant le noeud racine étiqueté

avec le symbole initial• noeuds feuilles: symboles terminaux

– arbre auxiliaire: un seul noeud feuille étiqueté X, la même étiquete que l'étiquette du noeud racine

Page 12: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Arbre initial et arbre auxiliaire

W

Arbre initial α

Phrase

W T* (T l'ensemble de symboles terminaux)

α :

Arbre auxiliaire

X

W1, W2 T* (T l'ensemble de symboles terminaux)X NT (NT – symbole non-terminal)

:

W1 W2X

Page 13: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Adjonction

Phrase

t – sous arbre avec la racine X

: X :

X

X

t

X' :

X

X

t

Page 14: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Lexicalized Tree Adjoining Grammars (LTAG)

• association entrée lexicale - arbres– description complète de l'environnement

syntaxique– possibilité de traiter les expressions figées

• modifications par rapport au TAG– ancrage lexical– deux opérations: substitution (obligatoire) et

adjonction (facultative)

Page 15: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Arbres LTAG

• Arbres élémentaires – décrivent des arguments obligatoires avec d'autres arbres: tête-complément– au moins un noeud ancre (l'unité lexicale)– des noeuds de substitution ()

• Arbres auxiliaires – relations tête-modifieurs– un noeud ancre– un noeud pied (*), l'étiquette est identique au noeud

racine

Page 16: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Exemples

S

V GN

V

Adv V*

S

V GN GN

GN

Np

nv1: nvn1:

adv1: np1:

Page 17: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Propriétés

• Grammaire lexicalisée:– arbres– unités lexicales associées aux arbres– opérations

• localité– un arbre élémentaire contient tous les arguments

dans la même structure– pour chaque unité lexicale, on associe plusieurs

arbres

• recursivité: arbres auxiliaires

Page 18: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Arbres dérivés et arbres de dérivation• arbres dérivés:

– le résultat obtenu suite aux opération de substitution et d'adjonction, sur les arbres associés aux unités lexicales de la phrase d'entrée

• arbres de dérivation– les noeuds étiquetés avec le nom de l'arbre et l'ancre

(le lemme) – les liens – opérations d'adjonction ou de substitution

• arbre de dépendances– on supprime les noms des arbres dans l'arbre de

dérivation

Page 19: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Ressources

• XTAG (Doran et al, 1994)– grammaire de grande couverture– étiqueteur, analyseur morphologique,

analyseur syntaxique– http://www.cis.upenn.edu/~xtag/

• FTAG (Abeillé, 2002)– grammaire de grande couverture pour le

français

Page 20: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

L'analyseur syntaxique LTAG

• développé par Langue et Dialogue, LORIA, INRIA-Lorraine– http://www.loria.fr/~azim/LLP2/help/fr/index.html

• utilise un lexique et une grammaire d'arbres adjoints (Joshi 1995)– chaque mot est associé à une famille d'arbres – un arbre décrit le comportement syntaxique de

chaque mot– grammaire d'arbres adjoints lexicalisée (LTAG)

(Abeillé et al, 2001)– possible extensions pour les structures de traits

Page 21: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

L'analyseur syntaxique LTAG (II)

• Combiner les arbres associés aux mots de la phrase – opération de substitution: structure prédicat-

argument– opération d'adjonction: les modifieurs

• coût important d'adaptation des ressources aux domaines nouveaux

Page 22: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Jean dort énormément

Jean

dormir

S

VN

énormément

N

Np

Lexique

Arbres

N

Jean

dort

S

VNS

VN

Jean dort

substitution

adjonctionV

Adv V*

V

AdvV*

énormément

Adv

S

VN

Jean dort énormément

Page 23: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Ressources

• une DTD qui décrit les familles d'arbres, de lemmes et d'unités lexicales

• un arbre: – au moins un noeud ancre (attribut type)– un noeud tête (l'élément central qui porte les

propriétés du constituant)– des noeuds de type substitution (subst) ou adjonction

(foot)

• lien avec le lemme: lexicalisation• unités lexicales: morphoLib

Page 24: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Exemple d'arbre

<tree id="prep_mod_temp">

<node cat="VP">

<node cat="VP" type="foot"/>

<node cat="PP">

<node cat="Prep" name="_head" type="anchor">

</node>

<node cat="N" type="subst">

</node>

</node>

</node>

</tree>

Page 25: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Exemples de ancrage

<lexicalization><family>

<tree id="for_n_adj"/></family>

<anchor noderef="_head">

<lemmaref cat="Prep" name="FOR"/>

</anchor>

</lexicalization>

Page 26: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Exemple d'entrée

<morph lex="for">

<fs>

<f name="cat">

<sym value="prep"/>

</f>

</fs>

<lemmaref cat="Prep" name="FOR"/>

</morph>

Page 27: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Autres outils

• French MetaGrammar parser http://alpage.inria.fr/alpi.fr.html

• autres parseurs– http://alpage.inria.fr/software.fr.html 

• XTAG parser (Bangalore, 1997) utilisant des informations statistiques pour réduire le nombre d'arbres

Page 28: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Avantages et Limites

• avantages– modèle opérationnel– adaptable pour l'analyse partielle– motivation linguistique

• limites– coût important pour créer les ressources– nécessite une sélection préalable des arbres

Page 29: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Réferences• Abeillé, A., L. Clément, and F. Toussenel. 2003.

`Building a treebank for French', in A. Abeillé (ed) Treebanks , Kluwer, Dordrecht

• Abeillé, A., Schabes, Y., Joshi, A. 1990. Using Lexicalized Tags for Machine Translation. COLING 1990: 1-6

• Abeillé, A. 2002. Une grammaire électronique du français, CNRS Editions, Paris.

• Doran et al 1994. XTAG System – A Wide Coverage Grammar for English. In Proceedings of COLING'94.

Page 30: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Réferences (II)

• Kaplan, R., Bresnan, J. 1983. Lexical Functional Grammar: A Formal System for Grammatical Representation. In J.Bresnan (ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts

• Joshi, A. 1995. Introduction to Tree Adjoining Grammars. In Computational Intelligence

• Joshi, A., Levy, L., Takahashi, M. 1975. Tree Adjunct Grammars. J. Comput. Syst. Sci. 10(1): 136-163

Page 31: Ressources électroniques pour lanalyse syntaxique Amalia Todirascu todiras@unistra.fr

Sujet

• Réalisez un dossier de 6-8 pages qui présente un outil d'analyse automatique (étiqueteur, analyseur syntaxique) ou une ressources (lexique, grammaire), avec les avantages et les inconvenients de chaque modèle.