22
L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale Bernard Victorri et Nabil Abdellaoui Lattice-CNRS, ENS

L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Embed Size (px)

DESCRIPTION

L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale. Bernard Victorri et Nabil Abdellaoui Lattice-CNRS, ENS. La « révolution » technologique. Un dispositif expérimental d’observation tout à fait inédit qui permet de « voir » la langue (cf. la lunette de Galilée) - PowerPoint PPT Presentation

Citation preview

Page 1: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Bernard Victorri et Nabil Abdellaoui

Lattice-CNRS, ENS

Page 2: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

La « révolution » technologique

• Un dispositif expérimental d’observation tout à fait inédit qui permet de « voir » la langue (cf. la lunette de Galilée)

• Des méthodes « brutales » d’une efficacité redoutable

• Un discours très modeste sur des objectifs limités de TAL

A quand l’émergence d’une assise théorique à la hauteur de ces bouleversements ?

Page 3: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

• Les méthodes quantitatives apportent du continu

• Ce continu n’est pas une tare dont il faudrait se débarrasser.

Au contraire : cela rejoint des intuitions de linguistes

et des résultats de psycholinguistique.

• Il faut un cadre mathématique adapté au continu pour donner

une légitimité aux méthodes quantitatives : notamment, il faut

pouvoir retrouver le qualitatif à l’intérieur de ce nouveau cadre.

Méthodes quantitatives et géométrie

Le cadre de la géométrie différentielle et des systèmes dynamiques correspond à ce besoin

Page 4: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

L’apport des graphes lexicaux(Bruno Gaume)

Comment définir une distance sémantique lexicale ?

Page 5: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

La méthode des cliques(Ploux et Victorri 1998)

1. Détermination des cliques du graphe de synonymie

2. Détermination d’une distance entre cliques

3. Détermination des axes de l’espace sémantique local associé à une unité lexicale

Page 6: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Un exemple : l’adjectif sec

sans eau: La route était sèche

maigre: Un vieil homme sec et ridé

sec improductif: Rester sec à un examen

insensible: Un homme au cœur sec

abrupt: Donner un coup sec

seul: Avoir un atout sec dans son jeu

… (TLF: plus de 30 subdivisions)

Page 7: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Le dictionnaire de synonymes

56 synonymes (adjectivaux) de sec

aigre

aride

austère

autoritaire

blessant

bourru

bref

brusque

brutal

cassant

concis

cru

desséché

dur

décharné

déplaisant

désagréable

désertique

désobligeant

efflanqué

endurci

fauché

ferme

froid

glacial

glacé

improductif

indifférent

ingrat

insensible

...

Page 8: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Une partie du graphe de synonymie de sec

sec

aride

maigre

stérile

décharné

rude

austère

brusque

Cliques : - sec, aride, maigre, stérile - sec, aride, maigre, décharné - sec, rude, austère - sec, rude, brusque

Page 9: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Calcul des cliques du graphe

75 cliques pour sec

aride;desséché;décharné;maigre;sec aride;désertique;ingrat;sec;stérile aride;desséché;maigre;sec;stérile aride;improductif;pauvre;sec;stérile;vide austère;rude;sec;simple;sévère autoritaire;brusque;cassant;sec;tranchant bourru;brusque;brutal;cru;rude;sec bref;brusque;brutal;sec bref;concis;sec dur;froid;indifférent;insensible;sec fauché;pauvre;sec indifférent;insensible;sec;égoïste sec;seul;simple...

Page 10: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Métrique du 2

Soit : u1, u2, …, un les synonymes,

c1, c2, …, cp les cliques,

xk1, xk2,….;, xkn les coordonnées de ck,

(xki = 1 si ui ck et xki = 0 si ui c )

x xi jij

p

1

x xk kii

n

1

x x jij

p

i

n

11

Calcul de la distance entre les cliques

x

x

x

x

x

xi

ki

k

li

li

n

2

1

d2(ck, cl) =

avec :

Page 12: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

VisuSyn : les cliques

VisuSyn : sec (56 unités, 75 cliques, 163 cooccurrences) - composantes 1 et 2

décharné;maigre;sec;squelettique;émacié;étique

décharné;maigre;pauvre;sec;squelettique

desséché;décharné;maigre;sec;étique

aride;improductif;ingrat;maigre;pauvre;sec;stérile

aride;désertique;ingrat;sec;stérile

aride;desséché;froid;insensible;sec

froid;glacial;glacé;insensible;sec

indifférent;insensible;sec;égoïste

dur;froid;insensible;sec;sévère

austère;dur;raide;rigide;rude;sec;sévère

bourru;cru;dur;raide;rude;sec

aigre;blessant;déplaisant;désagréable;sec

bref;brusque;brutal;sec

bref;concis;sec

bref;brusque;sec;tranchant

pauvre;sec;simple

desséché;sec;séché

sec;seul;simple

aride;rébarbatif;sec;sévère

Page 13: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

VisuSyn : les synonymes

VisuSyn : sec (56 unités, 75 cliques, 163 cooccurrences) - composantes 1 et 2

maigre

desséché

stérile

ingrat

simple brusque

autoritaire

indifférent

dur

Page 14: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Zone de pertinence de aride

Page 15: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Calcul du sens à l’aide d’un corpus (Frantext)(Fabienne Venant, Guillaume Jacquet)

Nombre d’occurrences dans le corpus

terre aride

terre maigre

terre stérile

terre sèche

8

2

6

3

terre austère

terre rude

terre brusque

terre décharnée

1

1

0

0

Calcul du degré d’affinité d’un nom épithète Exemple : le nom terre

Cliques Degré d’affinité

sec, aride, maigre, stérilesec, aride, maigre, décharnésec, rude, austèresec, rude, brusque

98 %57 %42 %28 %

Page 16: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Soit : u1, u2, …, un les synonymes,

c1, c2, …, cp les cliques,

e1,e2,......,em les noms,

nij le nombre d’occurrences du couple (ei, uj) dans le corpus.

Degré d’affinité du nom ei avec l’adjectif uj

Calcul du degré d’affinité

Degré d’affinité aik du nom ei avec la clique ck

c

kkj

ij

xm

1

et xkj=1 ssi uj ckoù le facteur de pondération pij vaut

nnnnf

ij

ji

.. )1,

2min(xdij = avec f(x) =

n

jkjij

kjij

n

jij

ik

xp

xpda

1

1

Page 17: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

VisuSyn : sec - fonction associée à coupFonction potentielle induite par le nom régissant

Exemple: coup

Page 18: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

VisuSyn : sec - fonction associée à herbe

Fonction potentielle induite par le nom régissant

Cas d’un sens précis: herbe

Page 19: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

VisuSyn : sec - fonction associée à homme

Fonction potentielle induite par le nom régissant

Cas d’ambiguïté-alternative : homme

Page 20: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

VisuSyn : sec - fonction associée à ton

Fonction potentielle induite par le nom régissant

Cas d’indétermination : ton

Page 21: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

Evaluation quantitative des résultats

(Venant 2002)

• Calcul du taux d’adéquation d’un synonyme pour désambiguïser sec dans le contexte d’un nom donné :

fj : fonction de pertinence associée à

l’adjectif

gi : fonction de pertinence associée au nom

22

.

ij

ij

ij

gf

gfT

• Evaluation des performances du système à l’aide d’un test sur les 20 noms les plus fréquents et sur 5 synonymes désambiguïsants

→ Taux de réussite : 79%

Page 22: L’utilisation de méthodes quantitatives dans l’étude de la polysémie lexicale

COUP Visusyn Sujets Réussite

brusque A A 100 %

décharné D D 100 %

desséché D D 100 %

stérile D D 100 %

glacial D D 100 %

MOYENNE 100 %

TERRE Visusyn Sujets Réussite

brusque D D 100 %

décharnée C C 100 %

desséchée A A 100 %

stérile B B 100 %

glaciale C D 80 %

MOYENNE 96 %

MANIERES Visusyn Sujets Réussite

brusques A B 80 %

décharnées D D 100 %

desséchées D D 100 %

stériles D D 100 %

glaciales D B 0 %

MOYENNE 76 %

BOUE Visusyn Sujets Réussite

brusque D D 100 %

décharnée D D 100 %

desséchée D A 0 %

stérile D D 100 %

glaciale A D 0 %

MOYENNE 60 %

LIT Visusyn Sujets Réussite

brusque C D 80 %

décharné D D 100 %

desséché D A 0 %

stérile D D 100 %

glacial C D 80 %

MOYENNE 72 %

FLEUR Visusyn Sujets Réussite

brusque D D 100 %

décharnée D C 80 %

desséchée C A 0 %

stérile B D 0 %

glaciale D D 100 %

MOYENNE 56 %