L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Preview:

DESCRIPTION

L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale. Bernard Victorri et Nabil Abdellaoui Lattice-CNRS, ENS. La « révolution » technologique. Un dispositif expérimental d’observation tout à fait inédit qui permet de « voir » la langue (cf. la lunette de Galilée) - PowerPoint PPT Presentation

Citation preview

L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Bernard Victorri et Nabil Abdellaoui

Lattice-CNRS, ENS

La « révolution » technologique

• Un dispositif expérimental d’observation tout à fait inédit qui permet de « voir » la langue (cf. la lunette de Galilée)

• Des méthodes « brutales » d’une efficacité redoutable

• Un discours très modeste sur des objectifs limités de TAL

A quand l’émergence d’une assise théorique à la hauteur de ces bouleversements ?

• Les méthodes quantitatives apportent du continu

• Ce continu n’est pas une tare dont il faudrait se débarrasser.

Au contraire : cela rejoint des intuitions de linguistes

et des résultats de psycholinguistique.

• Il faut un cadre mathématique adapté au continu pour donner

une légitimité aux méthodes quantitatives : notamment, il faut

pouvoir retrouver le qualitatif à l’intérieur de ce nouveau cadre.

Méthodes quantitatives et géométrie

Le cadre de la géométrie différentielle et des systèmes dynamiques correspond à ce besoin

L’apport des graphes lexicaux(Bruno Gaume)

Comment définir une distance sémantique lexicale ?

La méthode des cliques(Ploux et Victorri 1998)

1. Détermination des cliques du graphe de synonymie

2. Détermination d’une distance entre cliques

3. Détermination des axes de l’espace sémantique local associé à une unité lexicale

Un exemple : l’adjectif sec

sans eau: La route était sèche

maigre: Un vieil homme sec et ridé

sec improductif: Rester sec à un examen

insensible: Un homme au cœur sec

abrupt: Donner un coup sec

seul: Avoir un atout sec dans son jeu

… (TLF: plus de 30 subdivisions)

Le dictionnaire de synonymes

56 synonymes (adjectivaux) de sec

aigre

aride

austère

autoritaire

blessant

bourru

bref

brusque

brutal

cassant

concis

cru

desséché

dur

décharné

déplaisant

désagréable

désertique

désobligeant

efflanqué

endurci

fauché

ferme

froid

glacial

glacé

improductif

indifférent

ingrat

insensible

...

Une partie du graphe de synonymie de sec

sec

aride

maigre

stérile

décharné

rude

austère

brusque

Cliques : - sec, aride, maigre, stérile - sec, aride, maigre, décharné - sec, rude, austère - sec, rude, brusque

Calcul des cliques du graphe

75 cliques pour sec

aride;desséché;décharné;maigre;sec aride;désertique;ingrat;sec;stérile aride;desséché;maigre;sec;stérile aride;improductif;pauvre;sec;stérile;vide austère;rude;sec;simple;sévère autoritaire;brusque;cassant;sec;tranchant bourru;brusque;brutal;cru;rude;sec bref;brusque;brutal;sec bref;concis;sec dur;froid;indifférent;insensible;sec fauché;pauvre;sec indifférent;insensible;sec;égoïste sec;seul;simple...

Métrique du 2

Soit : u1, u2, …, un les synonymes,

c1, c2, …, cp les cliques,

xk1, xk2,….;, xkn les coordonnées de ck,

(xki = 1 si ui ck et xki = 0 si ui c )

x xi jij

p

1

x xk kii

n

1

x x jij

p

i

n

11

Calcul de la distance entre les cliques

x

x

x

x

x

xi

ki

k

li

li

n

2

1

d2(ck, cl) =

avec :

VisuSyn : les cliques

VisuSyn : sec (56 unités, 75 cliques, 163 cooccurrences) - composantes 1 et 2

décharné;maigre;sec;squelettique;émacié;étique

décharné;maigre;pauvre;sec;squelettique

desséché;décharné;maigre;sec;étique

aride;improductif;ingrat;maigre;pauvre;sec;stérile

aride;désertique;ingrat;sec;stérile

aride;desséché;froid;insensible;sec

froid;glacial;glacé;insensible;sec

indifférent;insensible;sec;égoïste

dur;froid;insensible;sec;sévère

austère;dur;raide;rigide;rude;sec;sévère

bourru;cru;dur;raide;rude;sec

aigre;blessant;déplaisant;désagréable;sec

bref;brusque;brutal;sec

bref;concis;sec

bref;brusque;sec;tranchant

pauvre;sec;simple

desséché;sec;séché

sec;seul;simple

aride;rébarbatif;sec;sévère

VisuSyn : les synonymes

VisuSyn : sec (56 unités, 75 cliques, 163 cooccurrences) - composantes 1 et 2

maigre

desséché

stérile

ingrat

simple brusque

autoritaire

indifférent

dur

Zone de pertinence de aride

Calcul du sens à l’aide d’un corpus (Frantext)(Fabienne Venant, Guillaume Jacquet)

Nombre d’occurrences dans le corpus

terre aride

terre maigre

terre stérile

terre sèche

8

2

6

3

terre austère

terre rude

terre brusque

terre décharnée

1

1

0

0

Calcul du degré d’affinité d’un nom épithète Exemple : le nom terre

Cliques Degré d’affinité

sec, aride, maigre, stérilesec, aride, maigre, décharnésec, rude, austèresec, rude, brusque

98 %57 %42 %28 %

Soit : u1, u2, …, un les synonymes,

c1, c2, …, cp les cliques,

e1,e2,......,em les noms,

nij le nombre d’occurrences du couple (ei, uj) dans le corpus.

Degré d’affinité du nom ei avec l’adjectif uj

Calcul du degré d’affinité

Degré d’affinité aik du nom ei avec la clique ck

c

kkj

ij

xm

1

et xkj=1 ssi uj ckoù le facteur de pondération pij vaut

nnnnf

ij

ji

.. )1,

2min(xdij = avec f(x) =

n

jkjij

kjij

n

jij

ik

xp

xpda

1

1

VisuSyn : sec - fonction associée à coupFonction potentielle induite par le nom régissant

Exemple: coup

VisuSyn : sec - fonction associée à herbe

Fonction potentielle induite par le nom régissant

Cas d’un sens précis: herbe

VisuSyn : sec - fonction associée à homme

Fonction potentielle induite par le nom régissant

Cas d’ambiguïté-alternative : homme

VisuSyn : sec - fonction associée à ton

Fonction potentielle induite par le nom régissant

Cas d’indétermination : ton

Evaluation quantitative des résultats

(Venant 2002)

• Calcul du taux d’adéquation d’un synonyme pour désambiguïser sec dans le contexte d’un nom donné :

fj : fonction de pertinence associée à

l’adjectif

gi : fonction de pertinence associée au nom

22

.

ij

ij

ij

gf

gfT

• Evaluation des performances du système à l’aide d’un test sur les 20 noms les plus fréquents et sur 5 synonymes désambiguïsants

→ Taux de réussite : 79%

COUP Visusyn Sujets Réussite

brusque A A 100 %

décharné D D 100 %

desséché D D 100 %

stérile D D 100 %

glacial D D 100 %

MOYENNE 100 %

TERRE Visusyn Sujets Réussite

brusque D D 100 %

décharnée C C 100 %

desséchée A A 100 %

stérile B B 100 %

glaciale C D 80 %

MOYENNE 96 %

MANIERES Visusyn Sujets Réussite

brusques A B 80 %

décharnées D D 100 %

desséchées D D 100 %

stériles D D 100 %

glaciales D B 0 %

MOYENNE 76 %

BOUE Visusyn Sujets Réussite

brusque D D 100 %

décharnée D D 100 %

desséchée D A 0 %

stérile D D 100 %

glaciale A D 0 %

MOYENNE 60 %

LIT Visusyn Sujets Réussite

brusque C D 80 %

décharné D D 100 %

desséché D A 0 %

stérile D D 100 %

glacial C D 80 %

MOYENNE 72 %

FLEUR Visusyn Sujets Réussite

brusque D D 100 %

décharnée D C 80 %

desséchée C A 0 %

stérile B D 0 %

glaciale D D 100 %

MOYENNE 56 %