Upload
thierri-brun
View
107
Download
2
Embed Size (px)
Citation preview
RECONNAISSANCE DE FORMES
IAR-6002
Sélection et/ou extraction des caractéristiques
Introduction Critères d’évaluation de caractéristiques Sélection des caractéristiques Extraction des caractéristiques
Introduction
Le but recherché par la sélection et l’extraction des caractéristiques est de diminuer le plus pos-sible le nombre de caractéristiques utilisées pour représenter les formes à classifier
De plus, nous pouvons alors estimer le pouvoir discriminant des caractérisques permettant la différenciation d’objets de classes distinctes
Introduction
Nous pouvons réduire le nombre de caractéris-tiques requises de deux façons:– Une approche consiste à trouver les d caractéris-
tiques parmi les D possibles qui discriminent le mieux les formes à classer
Introduction
Une seconde approche consiste à projeter l’en-semble des caractéristiques originales dans un autre espace de caractéristiques de dimension inférieure (extraction de caractéristiques)
Introduction
Pour résoudre le problème de sélection ou d’extraction de caractéristiques nous devons spécifier:– Les critères d’évaluation des caractéristiques
– La dimension des espaces de caractéristiques
– La procédure de recherche optimale
– Le type de transformation (extraction)
Introduction
Nous utilisons les notations suivantes:
– Caractéristiques originales yk, k = 1,2,....,D
y = [y1,y2,...,yD]T
– Chaque observation (objets, formes) y appartient à une des m classes possibles Ci, i= 1,2,....,m
– Nous savons que l’occurrence des vecteurs y est modélisée par un processus aléatoire représenté par la probabilité conditionnelle p(y|Ci) et la probabilité à priori P(Ci)
Introduction
Nous utilisons les notations suivantes:– Un ensemble contient les caractéristiques
candidates j, j=1,2,...,d
– Les caractéristiques optimales sont dénotées par X={xj|j=1,...,d} et découle du calcul d’un critère d’évaluation J()
– Pour la sélection, nous cherchons:
J(X) = maxJ()
qui représente les caractéristiques qui maximise le critère de sélection
Introduction
Nous utilisons les notations suivantes:– Pour l’extraction, nous cherchons:
J(A) = maxAJ(A)
où A est un extracteur optimal
– Avec A connu nous pouvons déduire x par:
x = A(y)
Critères d’évaluation de caractéristiques
Basé sur la probabilité d’erreur– Dans un espace de caractéristiques de dimension
d définit par un ensemble de caractéristiques = [1,...,d] la probabilité d’erreur est donnée par
)(
)()()(
)()()(
,...,
)()(max1)(
1
1
p
CPCpCP
CPCpp
dpCPEP
iii
i
m
ii
Td
ii
Pdf mixte de
Pdf à posteriori
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances probabilistes– Le concept de distance probabiliste fait référence
à la distance entre 2 pdf et est aussi fonction du degré de chevauchement des 2 pdf
diCPCpfJ ii 2,1),(),()(
• J = 0 quand p(|Ci) pour i = 1 et 2 se chevauchent• J est maximum quand il n’y a pas de chevauchement
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances probabilistes– Les principales distances probabilistes sont:
Bhattacharyya et Patrick-Fisher
2/12
21
2/1
21
)()(
)()(ln
dCpCpJ
dCpCpJ
P
B
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances probabilistes– Les principales distances probabilistes dans leurs
formes moyenne sont: Bhattacharyya et Patrick-Fisher
2/12
2211
2/1
2211
)()()()(
)()()()(ln
dCPCpCPCpJ
dCPCpCPCpJ
P
B
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances probabilistes– Si nous supposons que les pdf conditionnelles
sont normales alors
)()(2
1 1
)2(det
1)(
iiT
i
eCpd
i
i
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances probabilistes– La distance de Batthacharyya devient
21
21
121
2112
21
ln2
1
4
1 TBJ
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances probabilistes– La distance de Mahalanobis est donnée par
2112
112 SIJ T
M
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances probabilistes– Un critère d’évaluation dans le cas multi-classe
peut être déduit par une moyenne pondérée des distances entre 2 classes ij Jij() de la forme
m
i
m
ijijji JCPCPJ
1 1
)()()(
Critères d’évaluation de caractéristiques
Basé sur des mesures de dépendances probabi-listes
– La dépendance des variables aléatoires et Ci est incorporée dans la pdf conditionnelle p(|Ci), pour i=1,...,m
– Si et Ci sont indépendants alors p(|Ci) = p(), ce qui veut dire que la iieme pdf conditionnelle est identique à la pdf mixte
– Dans ces circonstances, une observation sera difficile à classer
Critères d’évaluation de caractéristiques
Basé sur des mesures de dépendances probabi-listes– Le degré de dépendance entre les variables et
Ci peut alors être donné par une distance entre la pdf conditionnelle p(|Ci) et la pdf mixte p()
– Mesure de dépendance probabiliste (Patrick-Fisher)
2/12
1
)()()( dpCpCPJ i
m
iiR
Critères d’évaluation de caractéristiques
Basé sur des mesures d’entropie– Le degré de dépendance entre les variables et
Ci peut aussi être donné par des mesures d’entro-pie
– L’entropie mesure le degré d’incertitude. Lors-que le gain d’information est faible l’incertitude est maximale. Si nous avons une observation et que nous calculons P(Ci |) pour i=1,...,m, et que P(Ci |) est équiprobable, l’incertitude est dans ce cas maximale
Critères d’évaluation de caractéristiques
Basé sur des mesures d’entropie– Mesure d’entropie (Distance Bayesienne)
dpCPJm
iiQ
1
2
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances inter-classe– Si nous avons un ensemble d’observations repré-
sentatives de chacune de nos classes et que nous supposons que les observations associées à chaque classe occupe une région distincte dans l’espace des observations
– La distance moyenne entre les paires d’observa-tions d’entraînement devient alors une mesure de discrimination des classes
Critères d’évaluation de caractéristiques
Basé sur des mesures de distances inter-classe
– Une métrique (ik,jl) permet de mesurer la distance entre l’observation k de la iième classe et l’observation l de la jième classe
– La distance moyenne
est donnée par
2/1
1
2
1
1 111
,
,
,1
)()(2
1
d
jljkjlkE
d
jljkjlkC
N
k
N
ljlik
m
j jij
m
ii
i j
NNCPCPJ
Sélection des caractéristiques
Basé sur le mérite individuel
– Si nous avons un ensemble de caractéristiques yj pour j=1,...,D, à partir d’un sous-ensemble de caractéristiques de cardinalité d nous cher-chons le vecteur de caractéristiques optimal X
– Pour trouver ce vecteur X il faut alors considérer D!/(D-d)!d! combinaisons de vecteurs de carac-térisques ce qui est excessif
Sélection des caractéristiques
Basé sur le mérite individuel– Si nous avons m=2 (2 classes) avec des pdf
conditionnelles p(|Ci) distribuées de façon normale avec 1=2 sur la diagonale (les mesures sont indépendantes) la distance de Mahalanobis s’exprime alors par
d
j jj
jjMJ
1
221
Sélection des caractéristiques
Basé sur le mérite individuel– La contribution de chaque mesure pour la discri-
mination des classes est indépendantes des autres mesures
– Nous pouvons alors sélectionner les d meilleures caractéristiques en sélectionnant les d meilleures mesures individuelles
Sélection des caractéristiques
Basé sur le mérite individuel– Procédure
• Calculer JM(yj), pour j=1,2...,D et les classer selon un ordre décroissant
JM(y1) > JM(y2) > .... > JM(yD)
• Le meilleur vecteur de caractéristiques X = {yj|j=1,...,d}
Sélection des caractéristiques
Basé sur une sélection séquentielle avant SFS et arrière SBS– La méthode SFS est buttom-up. Partant d’un
ensemble vide nous sélectionnons comme pre-mière caractéristique celle qui discrimine le mieux nos classes
– À chaque itération, nous choisissons une caractéristique qui jumelée à celle trouvées aux étapes précédentes permet une discrimination maximale des classes
Sélection des caractéristiques
Basé sur une sélection séquentielle avant SFS et arrière SBS– L’algorithme SFS
• Initialisation X0 =
• Si nous avons sélectionné k caractéristiques de l’ensem-ble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques Xk.
• La (k+1)ième caractéristique est alors choisie à partir de l’ensemble des mesures disponibles Y - Xk tel que
J(Xk+1) = max J(Xk yj), yj Y - Xk.
Sélection des caractéristiques
Basé sur une sélection séquentielle avant SFS et arrière SBS– La méthode SBS est top-down. Partant de l’en-
semble des mesures Y nous éliminons alors une mesure à la fois
– À chaque itération, nous éliminons une caracté-ristique qui diminue peu le critère J(). Ce qui veut dire que cette caractéristique contribue fai-blement à la discrimination des classes
Sélection des caractéristiques
Basé sur une sélection séquentielle avant SFS et arrière SBS– L’algorithme SBS
• Initialisation XD = Y
• Si nous avons éliminé k caractéristiques de l’ensemble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques XD-k.
• La (k+1)ième caractéristique à éliminer est alors choisie à partir de l’ensemble des mesures disponibles XD-k tel que
J(XD-k-1) = max J(XD-k - yj), yj XD-k.
Sélection des caractéristiques
Basé sur une sélection séquentielle avant SFS et arrière SBS– L’algorithme SFS est sous optimal
• Aucun mécanisme ne permet d’éliminer une caractéris-tique qui devient superflue après l’inclusion d’autres ca-ractéristiques
– De même, l’algorithme SBS est aussi sous optimal
• Aucun mécanisme ne permet de rajouter une caractéris-tique éliminer
Sélection des caractéristiques
Basé sur l’algorithme Plus l-Take Away r– Nous pouvons réduire les problèmes de sous
optimalité dénoté dans les méthodes SFS et SBS par un processus d’alternance d’ajout et de retrait de caractéristiques
– Après avoir ajouté l caractéristiques à l’ensemble des caractéristiques courante, r caractéristiques sont alors retirée
– La dimension de l’ensemble des caractéristiques change alors de l-r
Sélection des caractéristiques
Basé sur l’algorithme Plus l-Take Away r– Ce processus continu jusqu’à ce que la dimen-
sion requise soit atteinte
– Si l > r la sélection progresse de façon BUTTOM-UP et TOP-DOWN si l < r
Sélection des caractéristiques
Basé sur l’algorithme Plus l-Take Away r– L’algorithme Plus l-Take Away r (l > r)
– Si nous avons Xk l’ensemble des caractéristiques actuelles
• Appliquer SFS l fois pour générer un ensemble Xk+l
• Appliquer SBS r fois pour générer un ensemble Xk+l-r
• Continuer TANT QUE k + l - r != d
Sélection des caractéristiques
Basé sur l’algorithme Plus l-Take Away r– L’algorithme Plus l-Take Away r (l < r)
– Si nous avons Xk l’ensemble des caractéristiques actuelles
• Appliquer SBS r fois pour générer un ensemble Xk-r
• Appliquer SFS l fois pour générer un ensemble Xk-r+l
• Continuer TANT QUE k - r + l != d
Cas particulier– (l,r)=(l,0) => algorithme SFS
– (0,r) => algorithme SBS
Sélection des caractéristiques
Basé sur l’algorithme MIN-MAX– La sélection est basée sur le mérite des caractéristi-
ques prises individuellement ou par paire
– Supposons que nous avons déjà sélectionné k carac-téristiques, nous pouvons alors évaluer le mérite de l’ensemble de caractéristiques restantes Y-Xk en déterminant la quantité d’information nouvelle quelles ajoutent si elles sont ajoutées à l’ensemble des caractéristiques
Sélection des caractéristiques
Basé sur l’algorithme MIN-MAX– La quantité d’information nouvelle ajoutée de l’ajout
d’une caractéristique yj Y - Xk à une autre xl Xk est donnée par:
)(),(),( lljlj xJxyJxyJ
Sélection des caractéristiques
Basé sur l’algorithme MIN-MAX
– Nous cherchons alors une caractéristique yj dont l’ajout d’information est grand pour toutes les caractéristiques Xk
– Nous cherchons yj qui maximise pour tout les j le minimum de J(yj,xl) pour tout les l
Sélection des caractéristiques
Basé sur l’algorithme MIN-MAX– Algorithme MIN-MAX
• Si xk est l’ensemble des caractéristiques courantes. Nous cherchons la caractéristique Xk+1 = yj Y - Xk qui satisfait
klljlj
rk XxxyJxxJ ),,(minmax),( 1