49
Ansaf SALLEB - Décembre 2004 1 La Classification [email protected]

Ansaf SALLEB - Décembre 20041 La Classification [email protected]

Embed Size (px)

Citation preview

Page 1: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 1

La Classification

[email protected]

Page 2: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 2

Fouille de données (Data mining)

« Extraction de connaissances implicites

non connues à l’avance et

potentiellement utiles dans de gros

volumes de données »

Fayyad et al. 1996

Page 3: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 3

Fouille de données: pourquoi ?

DonnéesDonnées

Données Données

Données

Données

II y en a beaucoup

trop !

Page 4: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 4

Fouille de données: approches

STAT

BD

RN

VISU

ASA

AD

Fouillede

Données

Page 5: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 5

Fouille de données : types de données

Tables (BD relationnelles)

Texte

Multimédia

Spatiales

Temporelles (time series)

Web

Page 6: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 6

Fouille de données : tâches

Description

Associations

Classification

Détection d’anomalies

Page 7: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 7

La classification : un exemple

Problème :

Un client demande à son banquier un crédit

Le banquier souhaite savoir à l’avance si le client sera solvable ou non à la fin du crédit. Il doit anticiper le comportement du client !

Le banquier va décider en comparant ce client aux clients auxquels il a déjà accordé un prêt.

Page 8: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 8

Classer Construction d’un modèle à partir d’exemples (historique des clients) dont les classes sont connues à l’avance (solvable, non solvable)

PrédireUtiliser le modèle pour classer le client

La classification : un exemple

Page 9: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 9

La classification

Supervisée : on connaît les classes

Grp1

Grp2

Grp3

Cl1 Cl2 Cl3 Cl2 Cl1 Cl3

Non supervisée : on ne connaît pas les classes

Page 10: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 10

La classification

Supervisée : on connaît les classes

Bayésienne

Réseaux neuronaux

Arbres de décision (Apprentissage)

Non supervisée : on ne connaît pas les classes

K-moyennes, nuées dynamiques, CLARANS,...

Classification Ascendante Hiérarchique (Analyse des données)

Page 11: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 11

Classification: arbre de décision

Entrée:BD = Exemples classés décrits par des attributs

Sortie:Arbre classifiant les exemples en classes

Approche:Organiser les exemples en arbre, les feuilles sont

lesclasses

Méthodes: Cart, C4.5 ...

Page 12: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 12

Exemple de données météorologiques

Attribut de

classes

Attributs prédictif

s

14 Exemple

s

Temps Température Humidité Vent Tennis ?

Ensoleillé Chaude Élevée FAUX Non

Ensoleillé Chaude Élevée VRAI Non

Couvert Chaude Élevée FAUX Oui

Pluvieux Modérée Élevée FAUX Oui

Pluvieux Fraîche Normale FAUX Oui

Pluvieux Fraîche Normale VRAI Non

Couvert Fraîche Normale VRAI Oui

Ensoleillé Modérée Élevée FAUX Non

Ensoleillé Fraîche Normale FAUX Oui

Pluvieux Modérée Normale FAUX Oui

Ensoleillé Modérée Normale VRAI Oui

Page 13: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 13

Exemple de données météorologiques

Temps{ensoleillé, couvert, pluvieux}3Température {chaud, modéré, frais}3Humidité {élevée, normale}2Vent {VRAI, FAUX} 2

nombre d’exemples possibles: 3*3*2*2 = 36

14 exemples sont présents dans la BD

Page 14: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 14

Arbre de décision

Nouvelle journée

Temps Température Humidité Vent Tennis ?Ensoleillé Frais Élevée VRAI ?

Page 15: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 15

Deux étapes:

1. Construction du modèle sur les exemples

d’apprentissage (training set)

2. Évaluation du modèle sur des exemples test(test set)

Arbre de décision

Page 16: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 16

1. Au départ, la racine contient tous les exemples

2. Si tous le exemples sont de même classe, c’est

une feuille sinon trouver le meilleur attribut

3. Diviser les exemples

4. Recommencer pour chacun des nouveaux nœuds

Construction du modèle

Page 17: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 17

un nœud-> une quantité d’information qui représente le degré de mélange des classes

quantité d’information -> mélange

quantité d’information = MAX si les exemples sont équitablement répartis

quantité d’information = MIN si le nœud est pur (que des exemples de même classe)

Construction du modèle

Page 18: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 18

Construction du modèle

Temps

oui(9), non(5)

oui(2) non(3)

oui(4)

oui(3) non(2)

Info(9,5)

5/14 * Info(2,3) 4/14 * Info(4,0) 5/14 * Info(3,2)

Ensoleillé Couvert Pluvieux

Page 19: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 19

Construction du modèle

4/14 * Info(3,1)

Température

oui(9), non(5)

oui(2) non(2)

oui(4) non(2)

oui(3) non(1)

Info(9,5)

4/14 * Info(2,2) 6/14 * Info(4,2)

Chaude Modérée Fraîche

Page 20: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 20

Construction du modèle

Humidité

oui(9), non(5)

oui(3) non(4)

oui(6) non(1)

Info(9,5)

7/14 * Info(3,4) 7/14 * Info(6,1)

Élevée Normale

Page 21: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 21

Construction du modèle

vent

oui(9), non(5)

oui(6) non(2)

oui(3) non(3)

Info(9,5)

8/14 * Info(6,2) 6/14 * Info(3,3)

FAUX VRAI

Page 22: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 22

Gain d’information(outlook) = info(9,5)-5/14 info(2,3)- 4/14 info(4,0)- 5/14 info(3,2)

Construction du modèle

Attribut Gain d'informationTemps 0,247Températue 0,029Humidité 0,152Vent 0,048

Page 23: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 23

Fonction info qui vérifie ces propriétés, entropie,

gini,...

Fonction Entropie

info(m1,m2) = Entropie(p1,p2)

= -p1log2(p1)-p2log2(p2)

où p1=m1/(m1+m2) p2=m2/(m1+m2)

pi proportion d’exemples dans la classe Ci

Construction du modèle

Page 24: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 24

processus récursif, le raisonnement fait à

la racine est analogue à tout autre

sommet

critères d’arrêt:

contrainte sur nombre d’exemples dans un nœud;

on fixe un seuil d’entropie en dessous duquel on

refuse d’éclater un sommet;

Arrivée à un nœud pur.

Construction du modèle

Page 25: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 25

Construction du modèle

Temps

Info(2,3)Ensoleillé ...

...

Température

Chaude FraîcheModérée

non non

Oui non

oui

2/5 * Info(0,2) 2/5 * Info(1,1) 1/5 * Info(1,0)

Page 26: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 26

Construction du modèle

Temps

Info(2,3)Ensoleillé ...

...

humidité

Élevée Normale

non(3) oui(2)

3/5 * Info(0,3) 2/5 * Info(2,0)

Page 27: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 27

Arbre de décision

Page 28: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 28

Attributs numériques sont discrétisés

Discrétisation?Ordonner les k valeurs de l’attribut numérique X j

Déterminer le point xj qui conduit à la meilleure bi-partition sur la population considérée à un nœud de l’arbre

Ce point est à déterminer parmi les k-1 « milieu d ’intervalle » possibles définissant k-1 discrétisations possibles

on teste chaque discrétisation possible par rapport au Gain d’information, on garde la meilleure.

Construction du modèle: attributs numériques

Page 29: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 29

Construction du modèle: attributs numériques

Temps Température Humidité Vent Tennis ?

Ensoleillé 85 85 FAUX Non

Ensoleillé 80 90 VRAI Non

Couvert 83 86 FAUX Oui

Pluvieux 70 96 FAUX Oui

Pluvieux 68 80 FAUX Oui

Pluvieux 65 70 VRAI Non

Couvert 64 65 VRAI Oui

Ensoleillé 72 95 FAUX Non

Ensoleillé 69 70 FAUX Oui

Pluvieux 75 80 FAUX Oui

Ensoleillé 75 70 VRAI Oui

Page 30: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 30

Temps

Info(2,3)

Ensoleillé ......

Humidité

? ?

Info(9,5)

Construction du modèle: attributs numériques

Page 31: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 31

77,5 87,5 92,5

• Attribut à discrétiser: Humidité• nœud avec Info(2,3)

70 85 90 95

75

oui

ouinon nonnon

Construction du modèle: attributs numériques

Humidité

Page 32: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 32

Temps

Info(2,3)Ensoleillé ...

...

Humidité

>75 <=75

non(3) oui(2)

3/5 * Info(0,3) 2/5 * Info(2,0)

Construction du modèle: attributs numériques

Page 33: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 33

Évaluation du modèle

Partitionner la BD en deux ensembles:

un ensemble d’apprentissage training set (2/3 de BD)

un ensemble test test set (1/3)

Validation croisée cross validation:

diviser BD en K parties

apprentissage et test en k étapes

A chaque étape: utiliser k-1 parties pour apprentissage et

1 partie pour le test

précision estimée par le nombre total de classifications

correctes

Page 34: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 34

Évaluation du modèle

10 instances correctement classées 71,42%

4 instances incorrectement classées 28,58%

classe prédite

oui non

réel

le ou

i

7 2C

lass

e

no

n2 3

matrice de confusion

Page 35: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 35

Arbres de décision : conclusion

+ Facilement interprétables

+ Construction rapide des arbres

+ Pouvoir prédictif comparable aux autres méthodes

- Choix d'un attribut n'est jamais remis en question

- Un partitionnement dépend tjrs du précédent

- Univarié: ne s’intéresse qu’à une seule variable à un nœud

Page 36: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 36

Analyse des données : un petit mot

1 2 ... ...12

Jj Pp

.

.

.Ii...Nn

P variables

N individus

Xij

Nuage de n points dans un espace de

dimension p

Page 37: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 37

Analyse des données : un petit mot

Visualisation dans le meilleur espace réduit

Méthodes factorielles (ACP, AFC, AFCM)

Regroupement dans tout l'espace

Méthodes de classification (CAH, Aggrégation autour

des centres mobiles,... )

Inspiré de Lebart et al.

Page 38: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 38

On ne connaît pas les classes des individus

Une méthode simple et efficace sur de petits volumes de données

Se base sur une distance entre individus (similarité, dissimilarité)

Agrége progressivement les individus deux à deux selon leur ressemblance

Produit un Dendrogramme (arbre hiérarchique)

Classification Ascendante Hiérarchique

Page 39: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 39

Classification Ascendante Hiérarchique

Agglomération progressive des 5 points (Lebart et al.)

Étape 1 Étape 2 Étape 3 Étape 4 Étape 5

Page 40: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 40

Exemple d'Application à SACADEAUville annee somme_pluies somme_SI>2 somme_temp nb_pics>10

Quimper93 1993 239,5 58,5 1557,2 5Quimper94 1994 64 11 1568,6 1Quimper95 1995 135 37,5 1372,3 5Quimper96 1996 200 36,5 1522,8 7Quimper97 1997 232,5 41,5 1586,6 6Quimper98 1998 294 59 1566,6 9Quimper99 1999 245 45 1689,7 8Quimper00 2000 325,5 71,5 1579,6 11Quimper01 2001 219,5 33 1583,4 8Quimper02 2002 334,5 78 1501,2 10Naizin94 1994 235,5 81,5 1569,7 10Naizin95 1995 126,5 37 1593,1 4Naizin96 1996 110 19 1498,3 3Naizin97 1997 132,5 37 1539,7 2Naizin98 1998 264,5 61 1516,7 8Naizin99 1999 150 28 1613 2Naizin00 2000 258 43,5 1532,3 7Naizin01 2001 189 31 1545,6 4Naizin02 2002 202 35,5 1495,2 7leRheu94 1994 209,5 64 1674,1 5leRheu95 1995 125 16,5 1687,4 2leRheu96 1996 118 19 1573,7 3leRheu97 1997 200 41,5 1614,2 4leRheu98 1998 214,5 29 1613,8 4leRheu99 1999 163 27 1742 3leRheu00 2000 251 68 1681,8 6leRheu01 2001 194 33,5 1642,3 5leRheu02 2002 138,7 22,3 1599,1 2

Page 41: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 41

Ce qu'on voudrait faire...

1)Regrouper les climats par groupes CAH

Outil XLStat

2)Trouver des règles de classification des climats selon les groupes trouvés C4.5

Outil Weka

Page 42: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 42

1) CAH (SI_2,Nb_Pics10)

0 5 10

15

20

25

30

Dissimilarité

Dendrogramme

leRheu02Naizin99

leRheu99leRheu96Naizin96

leRheu95Quimper94

leRheu01Quimper95Quimper97

leRheu98Naizin01

leRheu97Naizin95Naizin97Naizin02

Quimper96Quimper01

Naizin00Quimper99

leRheu00leRheu94

Quimper93Naizin98

Quimper98Naizin94

Quimper02Quimper00

G5

G4

G3

G2

G1

Page 43: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 43

1) CAH (SI_2,Nb_Pics10)

ville annee somme_pluies somme_SI>2 somme_temp nb_pics>10 GRPQuimper93 1993 239,5 58,5 1557,2 5 4Quimper94 1994 64 11 1568,6 1 1Quimper95 1995 135 37,5 1372,3 5 2Quimper96 1996 200 36,5 1522,8 7 3Quimper97 1997 232,5 41,5 1586,6 6 2Quimper98 1998 294 59 1566,6 9 5Quimper99 1999 245 45 1689,7 8 3Quimper00 2000 325,5 71,5 1579,6 11 5Quimper01 2001 219,5 33 1583,4 8 3Quimper02 2002 334,5 78 1501,2 10 5Naizin94 1994 235,5 81,5 1569,7 10 5Naizin95 1995 126,5 37 1593,1 4 2Naizin96 1996 110 19 1498,3 3 1Naizin97 1997 132,5 37 1539,7 2 2Naizin98 1998 264,5 61 1516,7 8 5Naizin99 1999 150 28 1613 2 1Naizin00 2000 258 43,5 1532,3 7 3Naizin01 2001 189 31 1545,6 4 2Naizin02 2002 202 35,5 1495,2 7 3leRheu94 1994 209,5 64 1674,1 5 4leRheu95 1995 125 16,5 1687,4 2 1leRheu96 1996 118 19 1573,7 3 1leRheu97 1997 200 41,5 1614,2 4 2leRheu98 1998 214,5 29 1613,8 4 2leRheu99 1999 163 27 1742 3 1leRheu00 2000 251 68 1681,8 6 4leRheu01 2001 194 33,5 1642,3 5 2leRheu02 2002 138,7 22,3 1599,1 2 1

Page 44: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 44

2) Arbre de décision (toutes var)

Somme_Si_2

C4 (3)

>45<= 45

Nb_Pics_10

>6<= 6 >6<= 6

C5 (5)C3 (5)Somme_Si_2

>28<= 28

C1 (7) C2 (8)

Nb_Pics_10

Page 45: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 45

Si Somme_SI_2 <= 45:

Si Nb_Pics_10 > 6: 3 (5) Si Nb_Pics_10 <= 6: Si Somme_SI_2 <= 28: 1 (6)

Si Somme_SI_2 > 28: 2 (7)Si Somme_SI_2 > 45 Si nb_Pics_10 <= 6: 4 (3) Si nb_Pics_10 > 6: 5 (4)

2) Arbre de décision -> règles

Page 46: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 46

2) Arbre de décision (toutes var)

Somme_Si_2

C3 (3)

>45<= 45

>3<= 3 >6<= 6

C5 (5)C1 (8)

>5<= 5

C2 (6) C4 (6)

Nb_Pics_10 Nb_Pics_10

Nb_Pics_10

1) CAH (SI_2,Nb_Pics10,Cumul_pluie)

Page 47: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 47

2) Arbre de décision

<= 28

C1 (7)

Somme_Si_2

C4 (3)

>45<= 45

Nb_Pics_10

>6<= 6 >6<= 6

C5 (5)C3 (5)Somme_Si_2

>28

C2 (8)

Nb_Pics_10

Somme_Si_2

C3 (3)

>45<= 45

Nb_Pics_10

>3<= 3 >6<= 6

C5 (5)C1 (8)

Nb_Pics_10

Nb_Pics_10

>5<= 5

C2 (6) C4 (6)

Arbre après CAH sur(SI_2,Nb_Pics10)

Arbre après CAH sur(SI_2,Nb_Pics10,Cumul_pluie)

Page 48: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 48

Conclusion et Perspectives

Variables temporelles sur des périodes... lesquelles ?

Séries temporelles... sujet de recherche

Intérêt d'une classification de climats, problème du volume de données

Page 49: Ansaf SALLEB - Décembre 20041 La Classification Ansaf.Salleb@irisa.fr

Ansaf SALLEB - Décembre 2004 49

Bibliographie

(1) J. Han et M. Kamber « Data Mining: Concepts and Techniques » Morgan Kaufmann

(2) L. Lebart, A. Morineau et M. Piron « Statistique exploratoire multidimensionnelle » Dunod

(3) A. Cornuéjols et L. Miclet « Apprentissage artificiel; Concepts et Algorithmes » Eyrolles

(4) J.R. Quinlan « Induction of Decision Trees » Machine Learning 1986 - Kluwer Academic Publisher, pages 81-106

(5) XLStat Analyse de données et statistique avec MS Excel - Addinsoft http://www.xlstat.com/indexfr.html

(6) Weka implémentations de quelques algorithmes d'apprentissage en JAVA. (Open source software issued under the GNU General Public License) http://www.cs.waikato.ac.nz/ml/weka/