La sélection de variables : aspects théoriques et appliquésmalot/dauphine.pdf · ⇒ collection de modèles : {SM,T; M ∈ P(Λ), T T(M) ... procédure décrite difﬁcile à appliquer

C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 1/??

La sélection de variables :aspects théoriques et appliqués

Christine TULEAU

UFR SEGMI,Université de Paris X - Nanterre

&

Laboratoire de mathématiques,Equipe de Probabilité Statistique,

Université Paris XI., ORSAY


Le plan

Plan de la présentation :

■ La sélection de variables à travers l’algorithme CART

◆ une procédure de sélection de variables

◆ un pas vers la pratique

⇒ Travail réalisé en collaboration avec Marie Sauvé

■ L’objectivation de l’agrément de conduite

◆ le traitement des données

◆ la phase de sélection

⇒ Travail mené en partenariat avec la Direction de laRecherche de Renault


La sélection de variables à traversl’algorithme CART


Le problème

On dispose d’un échantillon d’apprentissage

L = {(X1, Y1), . . . , (Xn, Yn)}

où ∀i ∈ {1, . . . , n}, Xi = (X1i , . . . , Xp

i ) ∈ Rp.


Le problème

On dispose d’un échantillon d’apprentissage

L = {(X1, Y1), . . . , (Xn, Yn)}

où ∀i ∈ {1, . . . , n}, Xi = (X1i , . . . , Xp

i ) ∈ Rp.

On souhaite déterminer, parmi ces p variables, le pluspetit paquet de variables capable, à lui seul, d’expliquerla variable Y .

Autrement dit, on cherche à mettre en oeuvre uneprocédure de sélection de variables.


Les méthodes existantes

Dans le cadre linéaire :

■ Ridge Regression et Lasso : méthodes pénalisées desmoindres carrés

■ Subset Selection : méthode exhaustive

■ Forward, Backward et Stepwise Selection ou la régressionFurnival et Wilson : méthodes algorithmiques

■ LARS


Le contexte

Le cadre d’étude :

■ La régression : Y = s(X) + ε

- E[ε|X ] = 0

- ∃ρ ≥ 0 et σ > 0 tels que pour tout λ ∈ (−1/ρ, 1/ρ),log E[eλεi |Xi] ≤

σ2λ2

2(1−ρ|λ|)

avec la convention 1/0 = +∞

- ‖s‖+∞ ≤ R avec R > 0


Le contexte

Le cadre d’étude :

■ La régression : Y = s(X) + ε

- E[ε|X ] = 0

- ∃ρ ≥ 0 et σ > 0 tels que pour tout λ ∈ (−1/ρ, 1/ρ),log E[eλεi |Xi] ≤

σ2λ2

2(1−ρ|λ|)

avec la convention 1/0 = +∞

- ‖s‖+∞ ≤ R avec R > 0

■ La classification binaire :

- Y ∈ {0; 1}

- ∃h > 0, ∀x ∈ Rp, |2η(x) − 1| > h avecη(x) = P (Y = 1|X = x)


Le contexte

Deux situations :

(M1) L’échantillon L est scindé en trois sous-échantillonsindépendants :

◆ L1 : échantillon d’apprentissage

◆ L2 : échantillon de validation

◆ L3 : échantillon test


Le contexte

Deux situations :

(M1) L’échantillon L est scindé en trois sous-échantillonsindépendants :

◆ L1 : échantillon d’apprentissage

◆ L2 : échantillon de validation


(M2) L’échantillon L est scindé en deux sous-échantillonsindépendants :

◆ L1 : échantillon d’apprentissage et de validation



Quelques notations

■ contraste : γn(u) = 1n

∑ni=1(Yi − u(Xi))

2


Quelques notations



2

■ fonction de perte l :

◆ régression : l(u, t) = ‖t − u‖µ

◆ classification binaire :l(u, t) = P (Y 6= t(X)) − P (Y 6= u(X))


Quelques notations



2

■ fonction de perte l :

◆ régression : l(u, t) = ‖t − u‖µ

◆ classification binaire :l(u, t) = P (Y 6= t(X)) − P (Y 6= u(X))

■ meilleure règle de décision s :

◆ régression : s(x) = E[Y |X = x]

◆ classification : s(x) = 1Iη(x)≥1/2


La procédure

1. Échantillon L1 : création d’une famille de modèlesPour M ∈ P({X1, . . . , Xp}) (= P(Λ)),

MCART−−−−→ T

(M)max

⇒ collection de modèles : {SM,T ; M ∈ P(Λ), T � T (M)max}


La procédure

1. Échantillon L1 : création d’une famille de modèles


2. Échantillon L2 : estimateur par pénalisation- sM,T minimiseur du risque empirique sur SM,T

- méthode de pénalisation :

M, T = argmin(M,T )

{γn2(sM,T ) + pen(M, T )}

⇒ obtention d’un estimateur s = sM,T


La procédure

1. Échantillon L1 : création d’une famille de modèles


2. Échantillon L2 : estimateur par pénalisation

⇒ obtention d’un estimateur s = sM,T

3. Échantillon L3 : sélection finale- on a une famille d’estimateurs s

- minimisation du risque empirique :

˜s = argmins

γn3(s)

⇒ obtention d’un estimateur final


L’objectif

⇒ Trouver la fonction de pénalité pen(M, T ) à appliquer

On cherche pen(M, T ) telle que :

E[l(s, s)|L1] ≤ C inf(M,T )

E[l(s, sM,T )|L1]

avec C proche de 1 et s le classifieur de Bayes.


Les résultats

Classification et (M1) :

étape de sélection

∀M ∈ P(Λ), ∀T � T (M)max

pen(M, T ) = α|T |

n2h+ β

|M |

n2h

(1 + log

(p

|M |

))

Si α ≥ α0 et β ≥ β0, alors :

E[l(s, s)|L1] ≤ C1 inf(M,T )

{l(s,SM,T ) + pen(M, T )} + C21

n2h


Les résultats

Classification et (M1) :

étape de sélectionSi α ≥ α0 et β ≥ β0, alors :

E[l(s, s)|L1] ≤ C1 inf(M,T )

{l(s,SM,T ) + pen(M, T )} + C21

n2h

phase de sélection finale

∀η ∈ [0; 1]

E[l(s, ˜s)|L1,L2

]≤ c1(η) inf

(α,β){l(s, s(α, β))}+

c2(η)

n3hlog(K)+

c3(η)

n3h


les résultats(2)

■ résultats similaires dans le contexte de la régression etdans la situation (M2)

■ classification : même fonction de perte entre l’étape desélection et la phase de sélection finale

⇒ inégalité qui permet de comparer l’estimateur final ˜savec toute la collection d’estimateurs

■ régression : les fonctions de perte diffèrent entre les deuxétapes


L’aspect pratique

procédure décrite difficile à appliquer pour p grand

⇒ procédure orientée vers la pratique


L’aspect pratique

procédure décrite difficile à appliquer pour p grand

⇒ procédure orientée vers la pratique

restreindre la procédure à une famille de paquets pluspetite que P(Λ)

Concrètement : on remplace P(Λ) par P∗ avec :

P∗ = famille de paquets construite

selon l’importance des variables


Travail appliqué

Données simulées : exemple utilisé par Breiman et al.

10 variables explicatives X1, . . . , X10 telles que

P(X1 = −1) = P(X1 = 1) = 12 ,

∀i ∈ {2, . . . , 10}, P(Xi = −1) = P(Xi = 0) = P(Xi = 1) = 13

et une variable à expliquer Y donnée par :

Y = 3 + 3X2 + 2X3 + X4 + ε si X1 = 1 ,

= −3 + 3X5 + 2X6 + X7 + ε si X1 = −1 .


Travail appliqué


L’importance des variables :


Travail appliqué



échantillon d’apprentissage :1000 réalisations indépendantes de (X1, . . . , X10, Y ).


Travail appliqué



échantillon d’apprentissage :1000 réalisations indépendantes de (X1, . . . , X10, Y ).

famille restreinte :

P∗ =

{{1}; {1, 2}; {1, 2, 5}; {1, 2, 5, 6}; {1, 2, 5, 6, 3};

{1, 2, 5, 6, 3, 7}; {1, 2, 5, 6, 3, 7, 4}

}


Travail appliqué(2)

Etape de sélection :paquet sélectionné à α et β fixés


Travail appliqué(2)

Etape de sélection :paquet sélectionné à α et β fixés

Etape de sélection finale :paquet associé à l’estimateur final ˜s


L’objectivation de l’agrément deconduite


Le problème

On a dispose de 114 couples de variables (Xi, Yi)1≤i≤114 où :

■ Yi agrément associé à l’essai i : rang de satisfaction entre1 et 5;

■ Xi = (X1i , . . . , Xp

i ) vecteur contenant 24 variablesexplicatives.

⇒ les variables Xj sont des variables fonctionnelles


Le problème

On a dispose de 114 couples de variables (Xi, Yi)1≤i≤114 où :

■ Yi agrément associé à l’essai i : rang de satisfaction entre1 et 5;

■ Xi = (X1i , . . . , Xp

i ) vecteur contenant 24 variablesexplicatives.

⇒ les variables Xj sont des variables fonctionnelles

Donc ici deux phases de sélection :

■ trouver les variables fonctionnelles pertinentes

■ déterminer pour ces dernières les événementsresponsables de la pertinence


Un exemple

0 500 1000

−100

0

100

200

300

400

500

V4

Essai 7

0 500 1000

205

210

215

V14

0 500 1000

0

200

400

600

800

1000

V17

0 500 1000

−50

0

50

100

150

200

V22

0 500

0

200

400

600

800

Essai 19

0 500

204

206

208

210

212

214

0 500

0

200

400

600

800

1000

0 500

−100

0

100

200

300


La méthodologie

Trois grandes phases :


La méthodologie


■ prétraitement


La méthodologie


■ prétraitement

◆ définition d’une fenêtre active;

0 200 400 600 800 10000

200

400

V8

Essai 7

vrai debut

0 200 400 6000

500

1000

Essai 19

0 200 400 600 800 1000

1000

2000

3000

V21vraie fin

0 200 400 600

1000

2000

3000

0 200 400 600 800 10000

10

20

30

fenêtre active V7

0 200 400 6000

10

20


La méthodologie


■ prétraitement


◆ débruitage de signaux par ondelettes;

■ travail individuel;

■ ∀t ∈ Ti, Xji (t) = f j

i (t) + ηji (t);

■ une estimation {f ji (t)}t∈eTi

, ou encore un signal

débruité {Xji (t)}t∈eTi

;

■ ondelette de Daubechies presque symétrique d’ordre4 “sym4”, un niveau de décomposition entre 3 et 5(suivant les signaux) et un seuil “universel”.


La méthodologie


■ prétraitement


◆ débruitage de signaux par ondelettes;

◆ interpolation et normalisation.

■ élimination de la dépendance en i de la grilletemporelle;

- recalage linéaire en temps;

- interpolation linéaire en m = 512 points.

■ élimination partielle des conditions de roulage;

- normalisation en ordonnées.


La méthodologie


■ prétraitement

■ Compression par ondelettes

◆ après prétraitements : 21 variables fonctionnelles de 512points et 114 réalisations de chacune

◆ objectif final : déterminer 5 critères pertinents

sur information ⇒ Compression par ondelettes

→ Choix de la base de représentation?


La méthodologie


■ prétraitement

■ Compression par ondelettes

sur information ⇒ Compression par ondelettes

→ Choix de la base de représentation?

■ Sélection de variables

Stratégie en 5 phases qui mêle CART et une méthode pasà pas.


Compression

Choix de la base :

■ travail variable fonctionnelle par variable fonctionnelle

■ restriction aux espaces d’approximation

→ Choix du niveau de décomposition?

10


Compression

Choix de la base :

→ Choix du niveau de décomposition?

critère utilisé pour chaque variable fonctionnelle j :

EQj(p) =∑114

i=1 ‖Xji (t) − Aj

i,p(t)‖2

0 2 4 6 8 100

500

1000

1500

2000

2500

3000

3500variable fonctionnelle 1

0 2 4 6 8 100

100

200

300

400

500

600

variable fonctionnelle 2

0 2 4 6 8 100

500

1000

1500


0 2 4 6 8 100

200

400

600

800



Compression(2)

→ 16 coefficients retenus en moyenne

Illustration graphique :

0 200 400 6000

0.2

0.4

0.6

0.8

1

V4

0 200 400 6000

0.2

0.4

0.6

0.8

1

V22

0 5 10 15 20

0

1

2

3

4

5

0 10 20 30

0.5

1

1.5

2

2.5

3

3.5


La sélection de variables

1) sélection des coefficients “utiles”:pour chaque variable j:

◆ arbre CART Aj expliquant Y par Cj ;

◆ importance des variables de Aj ;

◆ importance supérieure à un seuil fixé

0 100 200 300 400 5000

0.5

1

V170 100 200 300 400 500

0

0.5

1

V22

0 5 10 150

2

4

6

8

0 10 20 30

1

2

3

0 5 10 150

20

40

60

80

0 10 20 300

20

40

60

80

→ nouveau paquet de coefficients Cj



1) sélection des coefficients “utiles”:→ nouveau paquet de coefficients Cj

2) ordre sur les variables fonctionnelles:◆ coût associé à Aj ;

◆ ordre croissant du coût

0 2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

1.2

erre

ur d

e cl

assi

ficat

ion

1316

12 1118

1722

5 21 4 3 24 14

23 8 1

10

7

2015

2

→ ordre pr eferentiel sur les signaux




2) ordre sur les variables fonctionnelles:→ ordre pr eferentiel sur les signaux

3) une suite emboîtée de modèles (M j)j

4) variables fonctionnelles pertinentes◆ coût de chacun des modèles;◆ M j0 minimisant le coût;

0 2 4 6 8 10 12

0.35

0.4

0.45

0.5

0.55

0.6

0.65

j, le nombre de paquets de coefficients introduits

erre

ur d

e cl

assi

ficat

ion

du m

odèl

e M

j

→ des variables pertinentes ( M j0 )




2) ordre sur les variables fonctionnelles:→ ordre pr eferentiel sur les signaux

3) une suite emboîtée de modèles (M j)j

4) variables fonctionnelles pertinentes→ des variables pertinentes ( M j0 )

5) sélection finale des variables◆ importance des variables de M j0 ;◆ sélection des variables : importance > seuil.


La sélection de variables(2)

quel seuil choisir?

0 5 10 15 20 25 30 35 400

10

20

30

40

50

60

70

80

90

impo

rtan

ce d

es v

arai

bles

13(4)

11(3)

4(11)

21(6)11(4)


La sélection de variables(2)

quel seuil choisir?

0 5 10 15 20 25 30 35 400

10

20

30

40

50

60

70

80

90

impo

rtan

ce d

es v

arai

bles

13(4)

11(3)

4(11)

21(6)11(4)

alternatives :

■ coût ou erreur de classification associé aux modèlesemboîtés d’après l’importance;

■ application du travail effectué avec Marie Sauvé.


Conclusions et perspectives


Conclusions

■ une procédure théorique de sélection de variables pourdes données multivariées

◆ justification par l’obtention d’inégalités dites “oracle”

◆ bons résultats appliqués lorsque p est faible

■ une procédure appliquée de sélection de variables pourdes données multivariées

◆ justification théorique car famille plus petite nondéterministe

◆ bons résultats sur données simulées et réelles

■ méthodologie pour la sélection de variables fonctionnelles

◆ travail entièrement appliqué sur des données réelles

◆ résultats cohérents avec l’application et intéressant pourl’industrie


Prolongements et perspectives

Divers prolongements et perspectives existent suite à cetravail, tant d’un point de vue théorique qu’appliqué etméthodologique.

■ calibration des constantes intervenant dans la fonction depénalité et justification de la procédure pratique

■ mise en concurrence de diverses méthodes avec cellesdéveloppées

■ thèse CIFRE qui débute à la Direction de la Recherche deRenault

■ rapprochement plus étroit entre théorie et application :problème du choix de la base de représentation

Documents

La sélection de variables : aspects théoriques et appliquésmalot/dauphine.pdf · ⇒ collection de modèles : {SM,T; M ∈ P(Λ), T T(M) ... procédure décrite difﬁcile à appliquer