RECONNAISSANCE DE FORMES IAR-6002. Sélection et/ou extraction des caractéristiques u Introduction u Critères dévaluation de caractéristiques u Sélection

RECONNAISSANCE DE FORMES

IAR-6002

Sélection et/ou extraction des caractéristiques

Introduction Critères d’évaluation de caractéristiques Sélection des caractéristiques Extraction des caractéristiques

Introduction

Le but recherché par la sélection et l’extraction des caractéristiques est de diminuer le plus pos-sible le nombre de caractéristiques utilisées pour représenter les formes à classifier

De plus, nous pouvons alors estimer le pouvoir discriminant des caractérisques permettant la différenciation d’objets de classes distinctes

Introduction

Nous pouvons réduire le nombre de caractéris-tiques requises de deux façons:– Une approche consiste à trouver les d caractéris-

tiques parmi les D possibles qui discriminent le mieux les formes à classer

Introduction

Une seconde approche consiste à projeter l’en-semble des caractéristiques originales dans un autre espace de caractéristiques de dimension inférieure (extraction de caractéristiques)

Introduction

Pour résoudre le problème de sélection ou d’extraction de caractéristiques nous devons spécifier:– Les critères d’évaluation des caractéristiques

– La dimension des espaces de caractéristiques

– La procédure de recherche optimale

– Le type de transformation (extraction)

Introduction

Nous utilisons les notations suivantes:

– Caractéristiques originales yk, k = 1,2,....,D

y = [y1,y2,...,yD]T

– Chaque observation (objets, formes) y appartient à une des m classes possibles Ci, i= 1,2,....,m

– Nous savons que l’occurrence des vecteurs y est modélisée par un processus aléatoire représenté par la probabilité conditionnelle p(y|Ci) et la probabilité à priori P(Ci)

Introduction

Nous utilisons les notations suivantes:– Un ensemble contient les caractéristiques

candidates j, j=1,2,...,d

– Les caractéristiques optimales sont dénotées par X={xj|j=1,...,d} et découle du calcul d’un critère d’évaluation J()

– Pour la sélection, nous cherchons:

J(X) = maxJ()

qui représente les caractéristiques qui maximise le critère de sélection

Introduction

Nous utilisons les notations suivantes:– Pour l’extraction, nous cherchons:

J(A) = maxAJ(A)

où A est un extracteur optimal

– Avec A connu nous pouvons déduire x par:

x = A(y)

Critères d’évaluation de caractéristiques

Basé sur la probabilité d’erreur– Dans un espace de caractéristiques de dimension

d définit par un ensemble de caractéristiques = [1,...,d] la probabilité d’erreur est donnée par

)(

)()()(

)()()(

,...,

)()(max1)(

1

1

p

CPCpCP

CPCpp

dpCPEP

iii

i

m

ii

Td

ii

Pdf mixte de

Pdf à posteriori


Basé sur des mesures de distances probabilistes– Le concept de distance probabiliste fait référence

à la distance entre 2 pdf et est aussi fonction du degré de chevauchement des 2 pdf

diCPCpfJ ii 2,1),(),()(

• J = 0 quand p(|Ci) pour i = 1 et 2 se chevauchent• J est maximum quand il n’y a pas de chevauchement


Basé sur des mesures de distances probabilistes– Les principales distances probabilistes sont:

Bhattacharyya et Patrick-Fisher

2/12

21

2/1

21

)()(

)()(ln

dCpCpJ

dCpCpJ

P

B


Basé sur des mesures de distances probabilistes– Les principales distances probabilistes dans leurs

formes moyenne sont: Bhattacharyya et Patrick-Fisher

2/12

2211

2/1

2211

)()()()(

)()()()(ln

dCPCpCPCpJ

dCPCpCPCpJ

P

B


Basé sur des mesures de distances probabilistes– Si nous supposons que les pdf conditionnelles

sont normales alors

)()(2

1 1

)2(det

1)(

iiT

i

eCpd

i

i


Basé sur des mesures de distances probabilistes– La distance de Batthacharyya devient

21

21

121

2112

21

ln2

1

4

1 TBJ


Basé sur des mesures de distances probabilistes– La distance de Mahalanobis est donnée par

2112

112 SIJ T

M


Basé sur des mesures de distances probabilistes– Un critère d’évaluation dans le cas multi-classe

peut être déduit par une moyenne pondérée des distances entre 2 classes ij Jij() de la forme

m

i

m

ijijji JCPCPJ

1 1

)()()(


Basé sur des mesures de dépendances probabi-listes

– La dépendance des variables aléatoires et Ci est incorporée dans la pdf conditionnelle p(|Ci), pour i=1,...,m

– Si et Ci sont indépendants alors p(|Ci) = p(), ce qui veut dire que la iieme pdf conditionnelle est identique à la pdf mixte

– Dans ces circonstances, une observation sera difficile à classer


Basé sur des mesures de dépendances probabi-listes– Le degré de dépendance entre les variables et

Ci peut alors être donné par une distance entre la pdf conditionnelle p(|Ci) et la pdf mixte p()

– Mesure de dépendance probabiliste (Patrick-Fisher)

2/12

1

)()()( dpCpCPJ i

m

iiR


Basé sur des mesures d’entropie– Le degré de dépendance entre les variables et

Ci peut aussi être donné par des mesures d’entro-pie

– L’entropie mesure le degré d’incertitude. Lors-que le gain d’information est faible l’incertitude est maximale. Si nous avons une observation et que nous calculons P(Ci |) pour i=1,...,m, et que P(Ci |) est équiprobable, l’incertitude est dans ce cas maximale


Basé sur des mesures d’entropie– Mesure d’entropie (Distance Bayesienne)

dpCPJm

iiQ

1

2


Basé sur des mesures de distances inter-classe– Si nous avons un ensemble d’observations repré-

sentatives de chacune de nos classes et que nous supposons que les observations associées à chaque classe occupe une région distincte dans l’espace des observations

– La distance moyenne entre les paires d’observa-tions d’entraînement devient alors une mesure de discrimination des classes


Basé sur des mesures de distances inter-classe

– Une métrique (ik,jl) permet de mesurer la distance entre l’observation k de la iième classe et l’observation l de la jième classe

– La distance moyenne

est donnée par

2/1

1

2

1

1 111

,

,

,1

)()(2

1

d

jljkjlkE

d

jljkjlkC

N

k

N

ljlik

m

j jij

m

ii

i j

NNCPCPJ

Sélection des caractéristiques

Basé sur le mérite individuel

– Si nous avons un ensemble de caractéristiques yj pour j=1,...,D, à partir d’un sous-ensemble de caractéristiques de cardinalité d nous cher-chons le vecteur de caractéristiques optimal X

– Pour trouver ce vecteur X il faut alors considérer D!/(D-d)!d! combinaisons de vecteurs de carac-térisques ce qui est excessif


Basé sur le mérite individuel– Si nous avons m=2 (2 classes) avec des pdf

conditionnelles p(|Ci) distribuées de façon normale avec 1=2 sur la diagonale (les mesures sont indépendantes) la distance de Mahalanobis s’exprime alors par

d

j jj

jjMJ

1

221


Basé sur le mérite individuel– La contribution de chaque mesure pour la discri-

mination des classes est indépendantes des autres mesures

– Nous pouvons alors sélectionner les d meilleures caractéristiques en sélectionnant les d meilleures mesures individuelles


Basé sur le mérite individuel– Procédure

• Calculer JM(yj), pour j=1,2...,D et les classer selon un ordre décroissant

JM(y1) > JM(y2) > .... > JM(yD)

• Le meilleur vecteur de caractéristiques X = {yj|j=1,...,d}


Basé sur une sélection séquentielle avant SFS et arrière SBS– La méthode SFS est buttom-up. Partant d’un

ensemble vide nous sélectionnons comme pre-mière caractéristique celle qui discrimine le mieux nos classes

– À chaque itération, nous choisissons une caractéristique qui jumelée à celle trouvées aux étapes précédentes permet une discrimination maximale des classes


Basé sur une sélection séquentielle avant SFS et arrière SBS– L’algorithme SFS

• Initialisation X0 =

• Si nous avons sélectionné k caractéristiques de l’ensem-ble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques Xk.

• La (k+1)ième caractéristique est alors choisie à partir de l’ensemble des mesures disponibles Y - Xk tel que

J(Xk+1) = max J(Xk yj), yj Y - Xk.


Basé sur une sélection séquentielle avant SFS et arrière SBS– La méthode SBS est top-down. Partant de l’en-

semble des mesures Y nous éliminons alors une mesure à la fois

– À chaque itération, nous éliminons une caracté-ristique qui diminue peu le critère J(). Ce qui veut dire que cette caractéristique contribue fai-blement à la discrimination des classes


Basé sur une sélection séquentielle avant SFS et arrière SBS– L’algorithme SBS

• Initialisation XD = Y

• Si nous avons éliminé k caractéristiques de l’ensemble des mesures Y = {yj|j=1,...,D} pour produire le vecteur de caractéristiques XD-k.

• La (k+1)ième caractéristique à éliminer est alors choisie à partir de l’ensemble des mesures disponibles XD-k tel que

J(XD-k-1) = max J(XD-k - yj), yj XD-k.


Basé sur une sélection séquentielle avant SFS et arrière SBS– L’algorithme SFS est sous optimal

• Aucun mécanisme ne permet d’éliminer une caractéris-tique qui devient superflue après l’inclusion d’autres ca-ractéristiques

– De même, l’algorithme SBS est aussi sous optimal

• Aucun mécanisme ne permet de rajouter une caractéris-tique éliminer


Basé sur l’algorithme Plus l-Take Away r– Nous pouvons réduire les problèmes de sous

optimalité dénoté dans les méthodes SFS et SBS par un processus d’alternance d’ajout et de retrait de caractéristiques

– Après avoir ajouté l caractéristiques à l’ensemble des caractéristiques courante, r caractéristiques sont alors retirée

– La dimension de l’ensemble des caractéristiques change alors de l-r


Basé sur l’algorithme Plus l-Take Away r– Ce processus continu jusqu’à ce que la dimen-

sion requise soit atteinte

– Si l > r la sélection progresse de façon BUTTOM-UP et TOP-DOWN si l < r


Basé sur l’algorithme Plus l-Take Away r– L’algorithme Plus l-Take Away r (l > r)

– Si nous avons Xk l’ensemble des caractéristiques actuelles

• Appliquer SFS l fois pour générer un ensemble Xk+l

• Appliquer SBS r fois pour générer un ensemble Xk+l-r

• Continuer TANT QUE k + l - r != d


Basé sur l’algorithme Plus l-Take Away r– L’algorithme Plus l-Take Away r (l < r)

– Si nous avons Xk l’ensemble des caractéristiques actuelles

• Appliquer SBS r fois pour générer un ensemble Xk-r

• Appliquer SFS l fois pour générer un ensemble Xk-r+l

• Continuer TANT QUE k - r + l != d

Cas particulier– (l,r)=(l,0) => algorithme SFS

– (0,r) => algorithme SBS


Basé sur l’algorithme MIN-MAX– La sélection est basée sur le mérite des caractéristi-

ques prises individuellement ou par paire

– Supposons que nous avons déjà sélectionné k carac-téristiques, nous pouvons alors évaluer le mérite de l’ensemble de caractéristiques restantes Y-Xk en déterminant la quantité d’information nouvelle quelles ajoutent si elles sont ajoutées à l’ensemble des caractéristiques


Basé sur l’algorithme MIN-MAX– La quantité d’information nouvelle ajoutée de l’ajout

d’une caractéristique yj Y - Xk à une autre xl Xk est donnée par:

)(),(),( lljlj xJxyJxyJ


Basé sur l’algorithme MIN-MAX

– Nous cherchons alors une caractéristique yj dont l’ajout d’information est grand pour toutes les caractéristiques Xk

– Nous cherchons yj qui maximise pour tout les j le minimum de J(yj,xl) pour tout les l


Basé sur l’algorithme MIN-MAX– Algorithme MIN-MAX

• Si xk est l’ensemble des caractéristiques courantes. Nous cherchons la caractéristique Xk+1 = yj Y - Xk qui satisfait

klljlj

rk XxxyJxxJ ),,(minmax),( 1

Documents

RECONNAISSANCE DE FORMES IAR-6002. Sélection et/ou extraction des caractéristiques u Introduction u Critères dévaluation de caractéristiques u Sélection