Upload
internet
View
103
Download
0
Embed Size (px)
Citation preview
Extraction de synonymes à partir d’un corpus multilingue aligné
Jean-Luc MANGUIN
Jörg TIEDEMANN
Lonneke Van der PLAS
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Introduction
• Traitement automatique d’un corpus.
• Corpus monolingue : si 2 mots partagent les mêmes contextes, alors ils sont sémantiquement liés.
• Corpus multilingue : si 2 mots partagent les mêmes traductions, alors ils sont sémantiquement proches.
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Qui fait quoi ? (ou : le plan)
• Alignement mot à mot du corpus multilingue (J. Tiedemann)
• Extraction de synonymes (L. van der Plas)
• Evaluation par comparaison avec un dictionnaire de référence (JL Manguin)
• Comparaison avec les résultats en corpus monolingue (D. Bourigault – JL Manguin)
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Le corpus utilisé
• Corpus Europarl : actes du parlement européen (Ph. Koehn)
• 11 langues différentes (par la suite, 9 en ôtant le grec et le finnois)
• Partie française : 33 millions d’occurrences dans 1 million de phrases
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
L’alignement
• Premier alignement par phrases (nécessaire avant l’étape suivante)
• Alignement mot à mot avec l’outil Open Source GIZA++ (F.J. Och)
• Lemmatisation
• Pas de détection préalable des unités composées
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Les vecteurs caractéristiques
automne_FR outono_PT autumn_EN fall_EN
herfst 102 92 75 67
najaar 89 78 90 69
Un exemple en néerlandais :
La fréquence est utilisée pour les traitements.
On impose un double seuil sur les colonnes et les lignes.
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Les traitements• La similarité est calculée avec l’indice de
Dice « pondéré » :
• La pondération est faite par l’information mutuelle spécifique :
fW2,weight+fW1,weight
fW2,weight,fW1,weightmin
2W2)Sim(W1,
P(W)P(f)
) P(W,fI(W,f) log
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Exemple de résultats
accident : (0.172) catastrophe, (0.172) incident, (0.134) naufrage, (0.110) désastre, (0.103) malheur, (0.096) sinistre, (0.089) tragédie, (0.068) drame, (0.056) événement, (0.051) calamité, (0.044) épisode, (0.033) catastrophique, (0.032) désastreux, (0.031) cataclysme, (0.025) hasard, (0.023) ravage, (0.022) lésion, (0.022) dommage, (0.019) blessure, (0.018) catastropher, (0.018) route, (0.018) mégarde, (0.017) malheureux, (0.016) fléau, (0.016) affaire, (0.015) blessé, (0.015) tort, (0.015) débâcle, (0.015) dégât
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : méthode
• Filtrage catégoriel (avec dictionnaire externe)
• Mesures sur les synonymes proposés pour une liste de 950 mots
• Comparaison avec les synonymes proposés pour cette liste par une méthode monolingue
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : les mesures
• Couverture
• Précision
• Rappel
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : les résultats (1)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 0,1 0,2 0,3 0,4 0,5
Seuil
précision
couverture
précision_mono
couverture_mono
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Évaluation : les résultats (2)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0 0,1 0,2 0,3 0,4 0,5
Seuil
rappel
couverture
rappel_mono
couverture_mono
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Bilan et perspectives
• Technique améliorable par la prise en compte des unités composées
• Méthode déjà plus précise que le traitement monolingue basé sur la syntaxe
• Importantes perspectives lexicographiques
Van der Plas, Tiedemann, Manguin - JLC Lorient 2007
Merci de votre attention !
• Des questions ?• Any questions ?• ¿ Preguntas ? • Irgendwelche Fragen ?• Vragen ?• Domande ?• Alguma pergunta ?