View
4
Download
0
Category
Preview:
Citation preview
Méthodes en classification automatique, ISI
Méthodes en classification automatique
Yves LechevallierINRIA-Rocquencourt
78153 Le Chesnay CedexE_mail : Yves.Lechevallier@inria.fr
Introduction
Méthodes en classification automatique, ISI
Exploitation des données
Quantité
Qualité
Données
patterns
Meta Data / Modèles
Méthodes en classification automatique, ISI
Population ou échantillonnage des observations
Notre information est contenue dans un ensemble E d’observations expérimentales. Chaque individu est associé une description qui est un vecteur de dimension p:
[ ]Z z z z= =
1
11
1 11
1
, , , ,L Li N
j p
i ij
ip
N Nj
Np
z z z
z z z
z z z
Le tableau de données Z associé àl’ensemble E de N individus est une matrice ayant p colonnes et N lignes
{ }NE zz ,,1 L= est l’ensemble d’apprentissageEn statistique on suppose que l’ensemble E est un échantillonissu d’une population ayant une distribution inconnue.
Méthodes en classification automatique, ISI
Espace de description
Ω
élément de E
D
+
+ ++
+
++
XXj
X1
Xp
+ valeur dans D
Méthodes en classification automatique, ISI
Exemple
1 asticots 16,1343 8,46391
… … … …
247 carres 16,6233 13,1452
asticots00.pgm
carres01.pgm
No Groupe X 1 X2
Nom
Image
Tableau de données
Méthodes en classification automatique, ISI
Tableau de données
X1 … X j … Xp
e1 … …
… … …
ei …
… … …
eN … …
11x
1ix
jix
jx1
1Nx
pix
pNx
px1
jNx
N objets ou individus E={e1,…, ei ,…, eN }
p descripteurs X={X1,…, Xj,…, Xp}
À chaque objet ei de E est associéun vecteur de description( )pijii xxx ,...,,...,1représentant les p mesures
À chaque variable ou paramètre Xj est associé un vecteur ( )jNjij xxx ,...,,...,1représentant l’ensemble des valeurs observéesde E sur Xj
Méthodes en classification automatique, ISI
Mesure de proximité
E={e1,…, ei ,…, eN } ensemble de N individus
d une mesure de proximité entre les individus de E+ℜ→× EEd :
(E,d)
Mesure de ressemblance:
Plus deux individus sont proches plus la valeur de la mesure de ressemblance entre ces individus est élevée.
Mesure de dissemblance:
Plus deux individus sont proches plus la valeur de la mesure de dissemblance entre ces individus est petite.
Méthodes en classification automatique, ISI
Variables
Chaque variable aléatoire Xj est une fonction mesurable de
Ω⊆EΩ est l’ensemble des observables
jD→Ω
Xj est une variable continueou quantitativesi Dj est R
Xj est une variable discrèteou qualitativesi Dj est un ensemble fini {m1,…,mj}. Les éléments de Dj sont appelés modalitésde la variable Xj .
Xj est une variable ordonnée s’il existe un ordre sur Dj .
Méthodes en classification automatique, ISI
Distance et similarité
+ℜ→× DDd :Distance d
espace de description de E∏=
=p
jjDD
1
),(),(),(,,)3(
),()(,)2(
siseulement et si 0),()1(
yzzxyxzyx
xyyxyx
yxyx
ddd
d,d
d
+≤∀=∀
==
Sss
s,s
Ss
=≤∀=∀
=∀
),(),(,)3(
),()(,)2(
),()1(
xxyxyx
xyyxyx
xxxSimilarités
+ℜ→× DDs:
Méthodes en classification automatique, ISI
La Classification Automatique (1/2)
La classification non superviséepropose la recherche de classes homogènesà partir d’un ensemble d’observations.
Objectif : les observations les plus semblables doivent appartenir à la même classe.
C'est un objectif très intuitif mais ce n’est pas une définition précise de la notion de classe.
Méthodes en classification automatique, ISI
La Classification Automatique (2/2)
Les principales approches
�Il existe des classes sous-jacenteset que le défi est de les découvrir,
�il faut construire les classes dans un sens structurel, à travers les structures classificatoires,
�il faut trouver les classes utilesà l'utilisateur.
�Associer un conceptà chaque classe
Méthodes en classification automatique, ISI
Problèmes de classification
Il y a deux grandes catégoriesde problèmes de classification.
Si, à chaque observation est associée une classe a priori et que l’objectif de la classification est de respecter, au mieux, ces classes a priori alors nous sommes dans un problème de discrimination ou de classification superviséeou de l’apprentissage avec professeur.
S’il n’y a pas de classification a priori et que l’objectif de ce classement est de regrouper ces individus dans des classes homogènes en fonction de l’ensemble de variables sélectionnées. Ce type de problème est un problème de classification automatiqueou de classification non superviséeou bien d’apprentissage sans professeur.
Méthodes en classification automatique, ISI
Difficultés
Cette classification d’objets est réalisée à partir d’un vecteur de mesures. Ce vecteur correspond aux réponses de cet objet à un ensemble de paramètres ou variables définis a priori.
La nature multidimensionnelle de la descriptionde ces objets présente l’une des difficultés les plus importantes dans la résolution d’un problème de classification.
En général l’information initiale s’exprime sous la forme d’un système d’hypothèses probabilistesou sous la forme d’un critère objectifqui doit être optimisé.
Méthodes en classification automatique, ISI
Hypothèses initiales
On considère qu’un objet ou individu à classer est une entitéappartenant à une population théorique Π constituant l’ensemble des objets susceptibles être classés.
Nous affirmons qu’il existe sur cette population Π une structure classificatoire.
D’autre part on suppose qu’il existe une description des individus de Π. Cette description est un élément de l’ensemble appeléespace de descriptionou espace des données.
Méthodes en classification automatique, ISI
Structures classificatoires
0
1
2
3
4
5
0 1 2 3 4 5
ee
ee
e
1
2
3
4
5
1 1
21
) , ,
)
∀ = ≠ ∅
==
l L l
l
U
K P
P ElK
on a
0
1
2
3
4
5
0 1 2 3 4 5
ee
ee
e
1
2
3
4
5
∅=∩≠=∀
mPP alors
m et Km
l
lLl ,,1,)3
PartitionRecouvrement
Méthodes en classification automatique, ISI
Structures classificatoires
Hiérarchie
{ }
hhhhhh
Hhh
HeEe
HE
⊂′′⊂⇒∅≠′∩∈′∀
∈∈∀∈
ou
:aon ,)3
alors )2
)1
0
1
2
3
4
5
0 1 2 3 4 5
ee
ee
e
1
2
3
4
5
Méthodes en classification automatique, ISI
Classification « numérique »
0
1
2
3
4
5
0 1 2 3 4 5
ee
ee
e
1
2
3
4
5
Distance
e1 0
e2 1,1 0
e3 1,6 1,8 0
e4 2,2 2,5 0,7 0
e5 3,2 3,6 1,8 1,1 0
Tableau des distances entre ces 5 individus
Représentation d’un ensemble de 5 individus dans un plan.
Chercher la structure classificatoire qui optimise un critère objectif sur ce tableau de distances
Méthodes en classification automatique, ISI
Classe « homogène »
Approche géométrique
∑∑∈ ∈
=ki kPe Pe
k dPwl
l ),()(2 zzi
Classe Pk Critère
Modèle probabiliste
Prototype
∑∈
=ki Pe
kkk LDLPw ),(),( iz
jj
K
j
pp πθ=θ ∑=
)./()/(1
zz ∏∈
θ=θki Pe
kikk pPL )/()/( z
d distance
Lk prototype
Méthodes en classification automatique, ISI
Classification
Cuvier :
Pour qu’une partition soit bonne il faut que deux objets pris dans la même classe se ressemblent plus que deux objets pris dans deux classes différentes
Construire une partition P qui vérifie les deux conditions :
� si d(x,y) < α alors x et y doivent être mis dans la même classe
�si d(x,y)> α alors x et y doivent être mis dans deux classes différentes
Exemple : d(A,B)=2, d(B,C)=3 et d(A,C)=4
Pour α =3 il est impossible de construire une partition
Méthodes en classification automatique, ISI
Classification
Si d est une distance ultramétrique
{ }),(),,(Max),(,,)4( yzzxyxzyx ddd ≤∀alors α≤⇔ ),( yxyx dR est une relation d’équivalence
Solution 1 :Construire un espace ultramétrique
(méthodes hiérarchiques)
Solution 2 :Construire une partition optimisant un critère a priori
(méthodes itératives)
Méthodes en classification automatique, ISI
La classification automatique
Méthodes
de
classification
Tableau
de
données
Tableau
de distances
Structures classificatoires
partition
e1 e2 e5 e4 e3
hiérarchie
Recommended