Méthodes en classification automatiqueantoine/Courses/Master-ISI/ISI... · Méthodes en...

Méthodes en classification automatique, ISI

Méthodes en classification automatique

Yves LechevallierINRIA-Rocquencourt

78153 Le Chesnay CedexE_mail : Yves.Lechevallier@inria.fr

Introduction


Exploitation des données

Quantité

Qualité

Données

patterns

Meta Data / Modèles


Population ou échantillonnage des observations

Notre information est contenue dans un ensemble E d’observations expérimentales. Chaque individu est associé une description qui est un vecteur de dimension p:

[ ]Z z z z= =

1

11

1 11

1

, , , ,L Li N

j p

i ij

ip

N Nj

Np

z z z

z z z

z z z

Le tableau de données Z associé àl’ensemble E de N individus est une matrice ayant p colonnes et N lignes

{ }NE zz ,,1 L= est l’ensemble d’apprentissageEn statistique on suppose que l’ensemble E est un échantillonissu d’une population ayant une distribution inconnue.


Espace de description

Ω

élément de E

D

+

+ ++

+

++

XXj

X1

Xp

+ valeur dans D


Exemple

1 asticots 16,1343 8,46391

… … … …

247 carres 16,6233 13,1452

asticots00.pgm

carres01.pgm

No Groupe X 1 X2

Nom

Image

Tableau de données


Tableau de données

X1 … X j … Xp

e1 … …

… … …

ei …

… … …

eN … …

11x

1ix

jix

jx1

1Nx

pix

pNx

px1

jNx

N objets ou individus E={e1,…, ei ,…, eN }

p descripteurs X={X1,…, Xj,…, Xp}

À chaque objet ei de E est associéun vecteur de description( )pijii xxx ,...,,...,1représentant les p mesures

À chaque variable ou paramètre Xj est associé un vecteur ( )jNjij xxx ,...,,...,1représentant l’ensemble des valeurs observéesde E sur Xj


Mesure de proximité

E={e1,…, ei ,…, eN } ensemble de N individus

d une mesure de proximité entre les individus de E+ℜ→× EEd :

(E,d)

Mesure de ressemblance:

Plus deux individus sont proches plus la valeur de la mesure de ressemblance entre ces individus est élevée.

Mesure de dissemblance:

Plus deux individus sont proches plus la valeur de la mesure de dissemblance entre ces individus est petite.


Variables

Chaque variable aléatoire Xj est une fonction mesurable de

Ω⊆EΩ est l’ensemble des observables

jD→Ω

Xj est une variable continueou quantitativesi Dj est R

Xj est une variable discrèteou qualitativesi Dj est un ensemble fini {m1,…,mj}. Les éléments de Dj sont appelés modalitésde la variable Xj .

Xj est une variable ordonnée s’il existe un ordre sur Dj .


Distance et similarité

+ℜ→× DDd :Distance d

espace de description de E∏=

=p

jjDD

1

),(),(),(,,)3(

),()(,)2(

siseulement et si 0),()1(

yzzxyxzyx

xyyxyx

yxyx

ddd

d,d

d

+≤∀=∀

==

Sss

s,s

Ss

=≤∀=∀

=∀

),(),(,)3(

),()(,)2(

),()1(

xxyxyx

xyyxyx

xxxSimilarités

+ℜ→× DDs:


La Classification Automatique (1/2)

La classification non superviséepropose la recherche de classes homogènesà partir d’un ensemble d’observations.

Objectif : les observations les plus semblables doivent appartenir à la même classe.

C'est un objectif très intuitif mais ce n’est pas une définition précise de la notion de classe.


La Classification Automatique (2/2)

Les principales approches

�Il existe des classes sous-jacenteset que le défi est de les découvrir,

�il faut construire les classes dans un sens structurel, à travers les structures classificatoires,

�il faut trouver les classes utilesà l'utilisateur.

�Associer un conceptà chaque classe


Problèmes de classification

Il y a deux grandes catégoriesde problèmes de classification.

Si, à chaque observation est associée une classe a priori et que l’objectif de la classification est de respecter, au mieux, ces classes a priori alors nous sommes dans un problème de discrimination ou de classification superviséeou de l’apprentissage avec professeur.

S’il n’y a pas de classification a priori et que l’objectif de ce classement est de regrouper ces individus dans des classes homogènes en fonction de l’ensemble de variables sélectionnées. Ce type de problème est un problème de classification automatiqueou de classification non superviséeou bien d’apprentissage sans professeur.


Difficultés

Cette classification d’objets est réalisée à partir d’un vecteur de mesures. Ce vecteur correspond aux réponses de cet objet à un ensemble de paramètres ou variables définis a priori.

La nature multidimensionnelle de la descriptionde ces objets présente l’une des difficultés les plus importantes dans la résolution d’un problème de classification.

En général l’information initiale s’exprime sous la forme d’un système d’hypothèses probabilistesou sous la forme d’un critère objectifqui doit être optimisé.


Hypothèses initiales

On considère qu’un objet ou individu à classer est une entitéappartenant à une population théorique Π constituant l’ensemble des objets susceptibles être classés.

Nous affirmons qu’il existe sur cette population Π une structure classificatoire.

D’autre part on suppose qu’il existe une description des individus de Π. Cette description est un élément de l’ensemble appeléespace de descriptionou espace des données.


Structures classificatoires

0

1

2

3

4

5

0 1 2 3 4 5

ee

ee

e

1

2

3

4

5

1 1

21

) , ,

)

∀ = ≠ ∅

==

l L l

l

U

K P

P ElK

on a

0

1

2

3

4

5

0 1 2 3 4 5

ee

ee

e

1

2

3

4

5

∅=∩≠=∀

mPP alors

m et Km

l

lLl ,,1,)3

PartitionRecouvrement



Hiérarchie

{ }

hhhhhh

Hhh

HeEe

HE

⊂′′⊂⇒∅≠′∩∈′∀

∈∈∀∈

ou

:aon ,)3

alors )2

)1

0

1

2

3

4

5

0 1 2 3 4 5

ee

ee

e

1

2

3

4

5


Classification « numérique »

0

1

2

3

4

5

0 1 2 3 4 5

ee

ee

e

1

2

3

4

5

Distance

e1 0

e2 1,1 0

e3 1,6 1,8 0

e4 2,2 2,5 0,7 0

e5 3,2 3,6 1,8 1,1 0

Tableau des distances entre ces 5 individus

Représentation d’un ensemble de 5 individus dans un plan.

Chercher la structure classificatoire qui optimise un critère objectif sur ce tableau de distances


Classe « homogène »

Approche géométrique

∑∑∈ ∈

=ki kPe Pe

k dPwl

l ),()(2 zzi

Classe Pk Critère

Modèle probabiliste

Prototype

∑∈

=ki Pe

kkk LDLPw ),(),( iz

jj

K

j

pp πθ=θ ∑=

)./()/(1

zz ∏∈

θ=θki Pe

kikk pPL )/()/( z

d distance

Lk prototype


Classification

Cuvier :

Pour qu’une partition soit bonne il faut que deux objets pris dans la même classe se ressemblent plus que deux objets pris dans deux classes différentes

Construire une partition P qui vérifie les deux conditions :

� si d(x,y) < α alors x et y doivent être mis dans la même classe

�si d(x,y)> α alors x et y doivent être mis dans deux classes différentes

Exemple : d(A,B)=2, d(B,C)=3 et d(A,C)=4

Pour α =3 il est impossible de construire une partition


Classification

Si d est une distance ultramétrique

{ }),(),,(Max),(,,)4( yzzxyxzyx ddd ≤∀alors α≤⇔ ),( yxyx dR est une relation d’équivalence

Solution 1 :Construire un espace ultramétrique

(méthodes hiérarchiques)

Solution 2 :Construire une partition optimisant un critère a priori

(méthodes itératives)


La classification automatique

Méthodes

de

classification

Tableau

de

données

Tableau

de distances


partition

e1 e2 e5 e4 e3

hiérarchie

Méthodes en classification automatiqueantoine/Courses/Master-ISI/ISI... · Méthodes en...

Documents

Méthodes de classification. Création aléatoire de centres de gravité. Au départ Etape 1 Chaque observation est classée en fonction de sa proximité aux

QoS Classification

Classification des méthodes d'évaluation du stress en entreprise

Modèles Mathématiques pour l'Image Méthodes de Classification (I)

Utilisation de méthodes statistiques de classification ... · PDF filesignal, qui a lui seul nous a permit d'obtenir un taux de 16%1 de réussite pour la classification de 22 classes

MÉTHODES DE CLASSIFICATION - maths.cnam.frmaths.cnam.fr/IMG/pdf/Classification-2008-2.pdf · Démonstration: Soit Eg i la classe ... D’après le théorème de Konig-Huygens, gi

Méthodes statistiques pour la classification de données de maintien

gingivitis classification

Guy Benchimol - Accueil · Web viewLa TGAO est basée sur des méthodes mathématiques et de classification (identificateurs à grand nombre de chiffres) aboutissant à un classement

Cours L3 - 4 - La reconstruction des langues et la ...helene.brochard.free.fr/Sciences%20du%20langage/L2%20SDL/Seme… · Introduction aux méthodes de classification et de reconstruction

OPTIMISATION DES MÉTHODES DE CLASSIFICATIONprofs.etsmtl.ca/jalandry/Recherche/Bouchard/pdf/... · Rapport final : Optimisation des méthodes de classification Page 7 sur 22 29/06/2010

EXCITATION - CIMI - Centre de formation et conseil … · 2014-04-03 · Classification des méthodes de contrôle non destructif Méthodes de volume • rayons X ( argentique, numérique,

INGÉNIERIE STATISTIQUE ET FINANCIÈRE MATHÉMATIQUES ...€¦ · ANALYSE DE DONNÉES ET SCORING Ce cours a pour objet la présentation des méthodes de classification supervisée,

La classification

fmed.ummto.dzfmed.ummto.dz/images/fichiers/Programme-3me-anne-pharmacie.pdf · 2-Principe Général de la chromatographie 3-Classification des méthodes chromatographiques ... Les

Développement et automatisation de méthodes de classification à partir de séries temporelles d’image

fmed.univ-tlemcen.dzfmed.univ-tlemcen.dz/ressources/documents_actualites/scolimed_23.pdf · 2-Principe Général de la chromatographie 3-Classification des méthodes chromatographiques

Classification: signatures spectrales. Lespace de représentation et les méthodes de classification Dans une situation idéale, chaque classe dobjets est

Atelier de renforcement de capacitésAtelier de renforcement de capacités ... 26/09 Méthodes de classification numérique 24/10 Méthodes de validation de la classification . Webinaire

MODULE APPROCHES PÉDAGOGIQUES Formations · techniques pédagogiques utilisés en animation Contenu • Biologie, classification, introduction aux ordres d’Insectes • Méthodes