ENSIIE-WIA1 IntelligenceArtiﬁcielle - Benjamin ... · Arbres de décision Plan 1...

ENSIIE - WIA1Intelligence Artificielle

3ème cours - Arbres de décision

Benjamin Piwowarski

13 octobre 2014

Benjamin Piwowarski WIA1 - IA - 3ème cours 13 octobre 2014 1 / 41

Episode précédent

ApprentissageAu lieu de programmer un ordinateur manuellement, donner à l’ordinateurles moyens de se programmer lui-même

Apprentissage superviséOn se limite à la problématique de classification binaireFournir au système un ensemble d’exemples étiquetésd’apprentissage

Se programmer lui-même = trouver les paramètres optimaux

Arbres de décision

1 Arbres de décisionPrincipesDescriptionApprentissageAttributs continusSur-apprentissageConclusion

Arbres de décision Principes

Arbres de décision : principes

DéfinitionUn arbre de décision est un classifieur représenté sous forme d’arbre telque :

Les noeuds de l’arbre testent les attributsIl y a une branche pour chaque valeur possible de l’attribut testéLes feuilles spécifient les catégories (deux ou plus)

Exemple

Arbres de décision Description

Intérêt

IntérêtsLes arbres de décision sont des classifieurs interprétables -contrairement aux perceptrons où KNN par exempleIls fonctionnent facilement sur données qualitativesIls fonctionnent bien (tant que le nombre de caractéristiques n’est pastrop grand)

InconvénientsIls ne sont pas si interprétables que cela...Ils sont lents et instables pendant l’apprentissage

Interprétabilité

AvantageLes Arbres de décisions permettent d’obtenir des fonctions de décisionutilisables ”par un humain”

d’où utilisation de ces arbres pour la découvertes de propriétés.

Interprétabilité....

Toute fonction booléenne peut se représenter comme un arbre dedécision

Rappel : avec n attributs booléens, on peut définir 22n

fonctionsbooléennes... Pour n = 6, on a ∼ 1019 possibilités !

Selon les fonctions à représenter les arbres sont plus ou moins grands

La taille de l’arbre peut grandir exponentiellement !

Un arbre peut se représenter par une disjonction de règles

Limité à la logique des propositions (on ne représente pas de relations)

Interprétabilité....

Arbres de décision Apprentissage

Apprentissage

Apprentissage des arbres de décisionA partir d’un jeu de données d’apprentissage, comment construireautomatiquement un arbre de décision efficace ?

Il y a le plus souvent de nombreux arbres de décision possibles corrects.Enumération exhaustive impossible (NP-complet)

4 attributs et 3 valeurs = 55 296 arbres possibles

Apprentissage

Soit la basse de donnée suivante :

Quel arbre est la plus approrié ?

Construction de l’arbre

Apprentissage des DTsA partir d’un jeu de données d’apprentissage, comment construireautomatiquement un arbre de décision efficace ?

Enumeration NP-complet

Solution : Construction itérative de l’arbre (méthode gloutonne)

Apprentissage

Construction de la racine vers les feuilles

l’attribut le plus informatif est sélectionné pour construire un nœudde l’arbre

Utilisation d’une mesure de discriminationcas classique : entropie de Shannon, index de Gini,...

Critères d’une bonne mesure de discrimination :

obtenir des nœuds cohérentsminimiser la taille de l’arbrefournir de bons résultats en classification

Rôle de la mesure de discrimination :

mesure de la prédictabilité de la valeur ck de C à partir d’une valeurvi de Amesure du pouvoir de discrimination de l’attribut A envers la classe C

Principes

Trois concepts fondamentaux :1 Quel attribut ?2 Quand arrêter ?3 Comment bien généraliser ?

Gain d’information

Gain d’information = différence entre1 Entropie (théorie de l’information - Shannon, 1948)

H(C ) = −∑

P(c) logP(c)

2 Espérance de l’entropie connaissant la valeur de l’attribut

H(C |A) = −∑a∈A

P(a)∑c

P(c |a) logP(c |a)︸︷︷︸H(C |A=a)

IG (C ,A) = H(C )− H(C |A)

Mesure de discrimination classique : 2 Classes

Entropie de Shannon - Si 2 classes :

HS(C ) = −P+ logP+ − P− logP−

Attributs avec beaucoup de valeurs

Problème (en général)

Attributs avec beaucoup de valeurs => Gain d’information haut

Une solution

GainRatio (C ,A) =IG (C ,A)

où H(A) est l’entropie de l’attribut A

Régression

Ces critères ne sont pas valables pour de la régressionDans CART, critère des moindres carrés

LS(C ,A) = min{xa}

(xa − y)2

Autres critères

Rapport de gainIndice de GiniRapport de vraissemblance Chi-CarréDKM....

Construction de l’arbre : cas général

Algorithme d’apprentissage (Algorithme C4.5)1 Calculer Φ (Aj) pour tous les attributs Aj

1 Choisir l’attribut Aj qui minimise Φ (Aj)

créer un nœud dans l’arbre de décision

2 A l’aide de Aj , partitionner la base d’apprentissage

Exemple

H(C |DF ) = 58H (C |DF = vrai) + 3

8H(C |DF = faux)

H (C |DF = vrai) = − 35 log

35 −

25 log

25 ≈ 0.67

H (C |DF = faux) = − 13 log

13 −

23 log

23 ≈ 0.63

...H(C |DF ) ≈ 0.65, H(C |BH) ≈ 0.65, H(C |TB) = 0.56 etH(C |GP) = log 2 ≈ 0.69

Exemple

Arbres de décision Attributs continus

Discrétisation

ProblématiqueQue faire dans le cas d’entrées à valeurs continues i.e vecteurs ?

Solution :On discrétise : transformation d’une variable continue en une ou plusieursvariables discrète

Exemple

Comment faire ?

Les essayer tousEssayer à intervalles réguliers (« grid search »)?

Arbres de décision Sur-apprentissage

Sur-apprentissage

Grande complexité = RISQUE DE SUR-APPRENTISSAGEDeux moyens de le limiter

1 Arrêter la construction de l’arbre2 Élaguer

Critère d’arrêt

Erreur d’apprentissageProfondeur maximumTaille de l’échantillonCritère numérique (ex. IG en-dessous d’un seuil)

Élagage

Elagage à posterioriIdée : Elaguer après la construction de l’arbre entier, en remplaçant lessous-arbres optimisant un critère d’élagage par un noeud. Nombreusesméthodes. Encore beaucoup de recherches.

Minimal Cost-Complexity Pruning (MCCP) (Breiman et al.,84)Reduced Error Pruning (REP) (Quinlan,87,93)Minimum Error Pruning (MEP) (Niblett & Bratko,86)Critical Value Pruning (CVP) (Mingers,87)Pessimistic Error Pruning (PEP) (Quinlan,87)Error-Based Pruning (EBP) (Quinlan,93) (utilisé dans C4.5)...

Reduced Error Pruning (REP)

Récursion depuis le bas de l’arbreAvec un jeu de validationÀ chaque nœud, on regarde

taux d’erreur si on remplace par la classe majoritairesi < au taux d’erreur global => on remplace

Error-Based Pruning (EBP)

Récursion depuis le haut de l’arbreSans jeu de validationBasé sur une borne supérieure sur l’erreur de classification

Emax (T , S) = ε(T ,S) + Zα

√ε (T ,S) (1− ε (T ,S))

ε est le taux de mauvaise classificationZα est l’inverse de la distribution cumulative normaleα seuil pour que le test soit significatif

Arbres de décision Conclusion

Conclusion

Approprié pour :Classification de formes décrites en attributs-valeursAttributs à valeurs discrètesRésistants au bruit

Stratégie :Recherche par construction incrémentale d’une hypothèseCritère local (gradient) fondé sur critère statistique

EngendreArbre de décision interprétable (e.g. règles de production)

Nécessite contrôle de la taille de l’arbre

Arbres de décision Conclusion

Applications

Principalement, exploration de données...un arbre... et des forêts !

Plus d’interprétation possiblemais modèles très robustes

ENSIIE-WIA1 IntelligenceArtiﬁcielle - Benjamin ... · Arbres de décision Plan 1...

Documents

Incendeia (Ele Vem) - David Quinlan

David Quinlan - Meu Respirar

Chapitre 1 : Programmation dynamique - ENSIIE - Module de

Rapport discrimination-fonction-publique

general discrimination

Ld0542 - Eu Sou Livre - David Quinlan

La discrimination au logement - snpc-web.s3-eu-west-1 ...snpc-web.s3-eu-west-1.amazonaws.com/Brochure discrimination au... · La discrimination au logement Informations aux locataires,

et absence de discrimination

STÉRÉOTYPES, PRÉJUGÉS ET DISCRIMINATION

Price Discrimination in Telecommunications

Manifold discrimination

EKKE Discrimination Book El

1 Inégalités valides ENSIIE-Master MPRO Alain Faye

第2章イギリス...Schedule 11 — Schools: exceptions Part 1 — Sex discrimination Part 2 — Religious or belief-related discrimination Part 3 — Disability discrimination

MST2 - Statistiquescordier.iiens.net/cours/mst/cours1.pdf · MST2 - Statistiques N. Brunel1 ENSIIE / Lab. Stat & Génome 1. nicolas.brunel@ensiie.fr, bureau 108 N. Brunel (ENSIIE

Who experiences discrimination in Ireland? - IHREC · Who experiences discrimination in Ireland? RESEARCH SERIES Who experiences discrimination in Ireland? Evidence from the QNHS

Discrimination des-sons

David Quinlan - Agnus Dei Versão 2

Discrimination Corrigé à l’école?

Discrimination Towards Hispanics