View
638
Download
3
Category
Preview:
DESCRIPTION
Présentation de Xavier Aimé, Frédéric Fürst, Pascale Kuntz et Francky Trichet à IC 2009
Citation preview
SEMIOSEM : une mesure de similarité
conceptuelle fondée sur une approche
sémiotique
X. AIME, F. FURST, P. KUNTZ & F. TRICHET
xaime@tennaxia.comfrederic.furst@u-picardie.fr
pascale.kuntz,francky.trichet@univ-nantes.fr
LINA - UMR CNRS 6241 – Université de Nantes – FRANCEMIS – Université d’Amiens – FRANCE
TENNAXIA – Paris – FRANCE
IC'09 – Hammamet, Mai 2009 - 2/32
Approche sémiotique
Extension
( instances )
Expression
( termes )
Intension
( propriétés )
IC'09 – Hammamet, Mai 2009 - 3/32
Mesures de type intensionnel (1/3)
hiérarchie de concepts
= graphe orienté
� Rada (1989) :
cCarte débit différé d
Carte
e f
Monnaie
Moyen de paiement
Le plus court chemin dans la hiérarchie is-a
= 0,33
IC'09 – Hammamet, Mai 2009 - 4/32
Mesures de type intensionnel (2/3)
� Resnik (1995) :
e fg h
a
b
racine � Leacock (1998) :
Le plus court chemin dans la hiérarchie is-a associé à la profondeur maximale
Carte débit différé
Carte Monnaie
Moyen de paiement
= 0,42
IC'09 – Hammamet, Mai 2009 - 5/32
Mesures de type intensionnel (3/3)
� Wu & Palmer (1994) :
df
g h
a
b
racine
Similarité entre deux concepts basée sur le PPPC (Plus Petit Père Commun)
Carte débit différé
Carte Monnaie
Moyen de paiement = 0,57
IC'09 – Hammamet, Mai 2009 - 6/32
Mesures de type extensionnel (1/3)
� Jaccard (1901) :
Ic1Ic2
Ic1 ∩∩∩∩ Ic2
IC'09 – Hammamet, Mai 2009 - 7/32
Mesures de type extensionnel (2/3)
� SimDice (c1 ,c2) = | Ic1 ∩ Ic2 |
Moy ( | Ic1 | , | Ic2 | )
� Plus régulier, même ordre et intervalle [0,1]
Ic1Ic2 Moy (Ic 1 , Ic2)
Ic1 ∩∩∩∩ Ic2
Ic1 ∩∩∩∩ Ic2
IC'09 – Hammamet, Mai 2009 - 8/32
Mesures de type extensionnel (3/3)
� d’Amato & Staab (2008) :
Ic1 Ic2Ic1 ∩∩∩∩ Ic2
Ipppc (c1,c2)
I
IC'09 – Hammamet, Mai 2009 - 9/32
Mesures de type expressionnel (1/4)
� Resnik :
t1............……. t2...….t2……………….…………
..............……. t2...….t2……………….…………
t2............……. t2...….t1……………….……t1……
..............……. ...….……………….…………
t1............……. t1...….t1…………t1….…………
t2............……. t2...….t2………t2…….………t2
............……. ....….t2……………….…………
..............……. ...………………….…………
t1............t1…. .....….t1……………….………t2
..............……. .....…………………….…………
..............……. t1...….t2……………….…………
IC'09 – Hammamet, Mai 2009 - 10/32
Mesures de type expressionnel (2/4)
� Resnik 2 :
df
g h
a
Objet de commerce
racine
Carte débit différé
Carte Monnaie
Moyen de paiement
Combinaison chemin dans la hiérarchie is-a + contenu information
IC'09 – Hammamet, Mai 2009 - 11/32
Mesures de type expressionnel (3/4)
� Lin (1998) :
df
g h
a
racine
Objet de commerce
Carte débit différé
Carte Monnaie
Moyen de paiement
Combinaison plus court chemin dans la hiérarchie is-a + contenu information
IC'09 – Hammamet, Mai 2009 - 12/32
Mesures de type expressionnel (4/4)
� Jiang (1997) :
df
g h
a
Objet de commerce
Carte débit différé
Carte Monnaie
Moyen de paiement
Combinaison chemin dans la hiérarchie is-a + contenu information
IC'09 – Hammamet, Mai 2009 - 13/32
Approche sémiotique
Extension
( instances )
Expression
( termes )
Intension
( propriétés )
Zoologue
IC'09 – Hammamet, Mai 2009 - 14/32
Approche sémiotique
Extension
( instances )
Expression
( termes )
Intension
( propriétés )
Visiteur d’un zoo
IC'09 – Hammamet, Mai 2009 - 15/32
Mesure de similarité à base sémiotique
� SEMIOSEM(c1,c2) = (αααααααα . intension (c1,c2)
+ ββββββββ . expression (c1,c2)
+ γγγγγγγγ . extension (c1,c2)) δδδδδδδδ
� Avec :
�� αααααααα + ββββββββ + γγγγγγγγ = 1, αααααααα ∈∈∈∈ [0,1], ββββββββ ∈∈∈∈ [0,1], γγγγγγγγ∈∈∈∈ [0,1]
�� αααααααα , ββββββββ , γγγγγγγγ pondération de l’influence des 3 composantes
�� δδδδδδδδ∈∈∈∈ ]0,+ ∝∝∝∝ [ pondération de l’état émotionnel
IC'09 – Hammamet, Mai 2009 - 16/32
Facteur émotionnel
delta < 1
delta > 1
SEMIOSEm
alpha . intension + bêta . expression + gamma . ext ension
delta > 1
Un état mental négatif affaiblit la similarité
delta < 1
Un état mental positif atténue la force dedissimilarité.
IC'09 – Hammamet, Mai 2009 - 17/32
Composante Intensionnelle (1/7)
� Propriété “peut flotter”
� Comment pouvons-nous déterminer l’importance de
cette propriété quand nous définissons ces concepts ?
Pondération des propriétés (Au Yeung 2006)
IC'09 – Hammamet, Mai 2009 - 18/32
Composante Intensionnelle (2/7)
� Propriété “peut flotter”
0 0.75 1
Peu important Très important
Pondération des propriétés
!!! Possibilité d’une pondération binaire : 0 ou 1 pour possède ou ne possède pas
IC'09 – Hammamet, Mai 2009 - 19/32
Composante Intensionnelle (3/7)
� Concept “Canard”
(… , 0.3 , 0.75 , 0.8, 0.4 , …)
A des plumes Peut flotter Peut voler Pond un oeuf
Vecteur caractéristique
IC'09 – Hammamet, Mai 2009 - 20/32
Composante Intensionnelle (4/7)
p0
p1
p2
Sous concepts de cp
=
Nuage de points
Vecteur caractéristique
IC'09 – Hammamet, Mai 2009 - 21/32
Composante Intensionnelle (5/7)
p0
p1
p2
Prototype de bateau
~
Barycentre du nuage de points
Vecteur prototype
IC'09 – Hammamet, Mai 2009 - 22/32
Composante Intensionnelle (6/7)
p0
p1
p2
Prototype de canard
~
Barycentre du nuage de points
Vecteur prototype
IC'09 – Hammamet, Mai 2009 - 23/32
Composante Intensionnelle (7/7)
p0
p1
p2
Intension ( c1 , c2 )
=
1 – distance ( prototype(c1) , prototype(c2) )
Intension
Distance euclidienne normée
IC'09 – Hammamet, Mai 2009 - 24/32
Composante Extensionnelle (1/2)
� Extension (c1 ,c2) = | Ic1 ∩ Ic2 |
| Ic1 | + | Ic2 | - | Ic1 ∩ Ic2 |
Ic1Ic2
Ic1 ∩∩∩∩ Ic2
Jaccard
Initialement
IC'09 – Hammamet, Mai 2009 - 25/32
Composante Extensionnelle (2/2)
� Extension (c1 ,c2) = | Ic1 ∩ Ic2 |
Moy ( | Ic1 | , | Ic2 | )
� Plus régulier, même ordre et intervalle [0,1]
Ic1Ic2
Dice
Moy (Ic 1 , Ic2)
Ic1 ∩∩∩∩ Ic2
Ic1 ∩∩∩∩ Ic2
Aujourd’hui
IC'09 – Hammamet, Mai 2009 - 26/32
Composante Expressionnelle (1/2)
� Fondée sur le nombre d’occurrences des termes
t1............……. t2...….t2……………….…………
..............……. t2...….t2……………….…………
t2............……. t2...….t1……………….……t1……
..............……. ...….……………….…………
t1............……. t1...….t1…………t1….…………
t2............……. t2...….t2………t2…….………t2
............……. ....….t2……………….…………
..............……. ...………………….…………
t1............t1…. .....….t1……………….………t2
..............……. .....…………………….…………
..............……. t1...….t2……………….…………
IC'09 – Hammamet, Mai 2009 - 27/32
Composante Expressionnelle (2/2)
Avec :
� t1∈terms(c1) , t2∈terms(c2) et terms(c) l’ensemble des termes désignant le
concept c ou un de ses descendants (direct ou non)
� count(ti) est le nombre d’occurrences du terme ti dans les documents du
corpus
� count(t1, t2) est le nombre de documents du corpus où les termes t1 et t2
apparaissent simultanément
� Ndoc est le nombre total de documents du corpus
� Nocc est la somme de tous les nombres d’occurrences de tous les termes du
corpus
IC'09 – Hammamet, Mai 2009 - 28/32
Proximité ou Similarité ?
� Composante Intensionnelle
� Comparaison des propriétés descriptives et fonctionnelles
� similarité
� Composante Extensionnelle
� Comparaison de la quantité d’individus extensions des deux concepts
simultanément
� similarité
� Composante Expressionnelle
� ~ probabilité d’avoir l’expression des deux concepts dans le même
document
� proximité
Faux jumeaux et vrais jumeaux
a aA A A A a
a aA A A A a
IC'09 – Hammamet, Mai 2009 - 29/32
Expérimentations
A (alpha = 0.7, bêta= 0.2 , gamma= 0.1, delta = 1)
B (alpha = 0.2 , bêta= 0.7, gamma= 0.1, delta = 1)
C (alpha = 0.2 , bêta= 0.1, gamma = 0.7, delta = 1)
D (alpha = 0.33 , bêta= 0.33, gamma = 0.33, delta = 1)
E (alpha = 0.7, bêta=0.2 , gamma=0.1 , delta = 0.1)
F (alpha = 0.7 , bêta= 0.2 , gamma= 0.1, delta = 5)
IC'09 – Hammamet, Mai 2009 - 30/32
Limites
� Composante Intensionnelle
� La pondération des propriétés est assez chronophage (pour les
ontologies volumineuses)
� Composante Expressionnelle
� Termes ambiguës
� Contexte autour du terme (“ni m1 ni …”, “opposé de m1”…)
� Anaphores (“Pierre a une voiture, c’est la même que la mienne”)
� Facteur Émotionnel
� Pondération de l’état émotionnel de l’utilisateur
Conclusion
� SEMIOSEM, une mesure de (quasi-)similarité :
� Adaptée au profil de l’utilisateur via
� la pondération des propriétés ;
� la définition d’un corpus caractéristique ;
� l’état émotionnel.
� Couvrant les trois dimensions d’une conceptualisation
� Qui n’est pas une distance (pas d’inégalité triangulaire)
� Indépendante du Plus Petit Père Commun, et par conséquent des choix
de modélisation.
IC'09 – Hammamet, Mai 2009 - 31/32
SEMIOSEM : une mesure de similarité
conceptuelle fondée sur une approche
sémiotique
X. AIME, F. FURST, P. KUNTZ & F. TRICHET
xaime@tennaxia.comfrederic.furst@u-picardie.fr
pascale.kuntz,francky.trichet@univ-nantes.fr
LINA - UMR CNRS 6241 - Université de Nantes – FRANCEMIS – Université d’Amiens – FRANCE
TENNAXIA – Paris – FRANCE
Recommended