Upload
vutram
View
213
Download
0
Embed Size (px)
Citation preview
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 1/??
La sélection de variables :aspects théoriques et appliqués
Christine TULEAU
UFR SEGMI,Université de Paris X - Nanterre
&
Laboratoire de mathématiques,Equipe de Probabilité Statistique,
Université Paris XI., ORSAY
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 2/??
Le plan
Plan de la présentation :
■ La sélection de variables à travers l’algorithme CART
◆ une procédure de sélection de variables
◆ un pas vers la pratique
⇒ Travail réalisé en collaboration avec Marie Sauvé
■ L’objectivation de l’agrément de conduite
◆ le traitement des données
◆ la phase de sélection
⇒ Travail mené en partenariat avec la Direction de laRecherche de Renault
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 3/??
La sélection de variables à traversl’algorithme CART
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 4/??
Le problème
On dispose d’un échantillon d’apprentissage
L = {(X1, Y1), . . . , (Xn, Yn)}
où ∀i ∈ {1, . . . , n}, Xi = (X1i , . . . , Xp
i ) ∈ Rp.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 4/??
Le problème
On dispose d’un échantillon d’apprentissage
L = {(X1, Y1), . . . , (Xn, Yn)}
où ∀i ∈ {1, . . . , n}, Xi = (X1i , . . . , Xp
i ) ∈ Rp.
On souhaite déterminer, parmi ces p variables, le pluspetit paquet de variables capable, à lui seul, d’expliquerla variable Y .
Autrement dit, on cherche à mettre en oeuvre uneprocédure de sélection de variables.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 5/??
Les méthodes existantes
Dans le cadre linéaire :
■ Ridge Regression et Lasso : méthodes pénalisées desmoindres carrés
■ Subset Selection : méthode exhaustive
■ Forward, Backward et Stepwise Selection ou la régressionFurnival et Wilson : méthodes algorithmiques
■ LARS
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 6/??
Le contexte
Le cadre d’étude :
■ La régression : Y = s(X) + ε
- E[ε|X ] = 0
- ∃ρ ≥ 0 et σ > 0 tels que pour tout λ ∈ (−1/ρ, 1/ρ),log E[eλεi |Xi] ≤
σ2λ2
2(1−ρ|λ|)
avec la convention 1/0 = +∞
- ‖s‖+∞ ≤ R avec R > 0
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 6/??
Le contexte
Le cadre d’étude :
■ La régression : Y = s(X) + ε
- E[ε|X ] = 0
- ∃ρ ≥ 0 et σ > 0 tels que pour tout λ ∈ (−1/ρ, 1/ρ),log E[eλεi |Xi] ≤
σ2λ2
2(1−ρ|λ|)
avec la convention 1/0 = +∞
- ‖s‖+∞ ≤ R avec R > 0
■ La classification binaire :
- Y ∈ {0; 1}
- ∃h > 0, ∀x ∈ Rp, |2η(x) − 1| > h avecη(x) = P (Y = 1|X = x)
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 7/??
Le contexte
Deux situations :
(M1) L’échantillon L est scindé en trois sous-échantillonsindépendants :
◆ L1 : échantillon d’apprentissage
◆ L2 : échantillon de validation
◆ L3 : échantillon test
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 7/??
Le contexte
Deux situations :
(M1) L’échantillon L est scindé en trois sous-échantillonsindépendants :
◆ L1 : échantillon d’apprentissage
◆ L2 : échantillon de validation
◆ L3 : échantillon test
(M2) L’échantillon L est scindé en deux sous-échantillonsindépendants :
◆ L1 : échantillon d’apprentissage et de validation
◆ L3 : échantillon test
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 8/??
Quelques notations
■ contraste : γn(u) = 1n
∑ni=1(Yi − u(Xi))
2
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 8/??
Quelques notations
■ contraste : γn(u) = 1n
∑ni=1(Yi − u(Xi))
2
■ fonction de perte l :
◆ régression : l(u, t) = ‖t − u‖µ
◆ classification binaire :l(u, t) = P (Y 6= t(X)) − P (Y 6= u(X))
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 8/??
Quelques notations
■ contraste : γn(u) = 1n
∑ni=1(Yi − u(Xi))
2
■ fonction de perte l :
◆ régression : l(u, t) = ‖t − u‖µ
◆ classification binaire :l(u, t) = P (Y 6= t(X)) − P (Y 6= u(X))
■ meilleure règle de décision s :
◆ régression : s(x) = E[Y |X = x]
◆ classification : s(x) = 1Iη(x)≥1/2
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 9/??
La procédure
1. Échantillon L1 : création d’une famille de modèlesPour M ∈ P({X1, . . . , Xp}) (= P(Λ)),
MCART−−−−→ T
(M)max
⇒ collection de modèles : {SM,T ; M ∈ P(Λ), T � T (M)max}
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 9/??
La procédure
1. Échantillon L1 : création d’une famille de modèles
⇒ collection de modèles : {SM,T ; M ∈ P(Λ), T � T (M)max}
2. Échantillon L2 : estimateur par pénalisation- sM,T minimiseur du risque empirique sur SM,T
- méthode de pénalisation :
M, T = argmin(M,T )
{γn2(sM,T ) + pen(M, T )}
⇒ obtention d’un estimateur s = sM,T
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 9/??
La procédure
1. Échantillon L1 : création d’une famille de modèles
⇒ collection de modèles : {SM,T ; M ∈ P(Λ), T � T (M)max}
2. Échantillon L2 : estimateur par pénalisation
⇒ obtention d’un estimateur s = sM,T
3. Échantillon L3 : sélection finale- on a une famille d’estimateurs s
- minimisation du risque empirique :
˜s = argmins
γn3(s)
⇒ obtention d’un estimateur final
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 10/??
L’objectif
⇒ Trouver la fonction de pénalité pen(M, T ) à appliquer
On cherche pen(M, T ) telle que :
E[l(s, s)|L1] ≤ C inf(M,T )
E[l(s, sM,T )|L1]
avec C proche de 1 et s le classifieur de Bayes.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 11/??
Les résultats
Classification et (M1) :
étape de sélection
∀M ∈ P(Λ), ∀T � T (M)max
pen(M, T ) = α|T |
n2h+ β
|M |
n2h
(1 + log
(p
|M |
))
Si α ≥ α0 et β ≥ β0, alors :
E[l(s, s)|L1] ≤ C1 inf(M,T )
{l(s,SM,T ) + pen(M, T )} + C21
n2h
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 11/??
Les résultats
Classification et (M1) :
étape de sélectionSi α ≥ α0 et β ≥ β0, alors :
E[l(s, s)|L1] ≤ C1 inf(M,T )
{l(s,SM,T ) + pen(M, T )} + C21
n2h
phase de sélection finale
∀η ∈ [0; 1]
E[l(s, ˜s)|L1,L2
]≤ c1(η) inf
(α,β){l(s, s(α, β))}+
c2(η)
n3hlog(K)+
c3(η)
n3h
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 12/??
les résultats(2)
■ résultats similaires dans le contexte de la régression etdans la situation (M2)
■ classification : même fonction de perte entre l’étape desélection et la phase de sélection finale
⇒ inégalité qui permet de comparer l’estimateur final ˜savec toute la collection d’estimateurs
■ régression : les fonctions de perte diffèrent entre les deuxétapes
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 13/??
L’aspect pratique
procédure décrite difficile à appliquer pour p grand
⇒ procédure orientée vers la pratique
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 13/??
L’aspect pratique
procédure décrite difficile à appliquer pour p grand
⇒ procédure orientée vers la pratique
restreindre la procédure à une famille de paquets pluspetite que P(Λ)
Concrètement : on remplace P(Λ) par P∗ avec :
P∗ = famille de paquets construite
selon l’importance des variables
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 14/??
Travail appliqué
Données simulées : exemple utilisé par Breiman et al.
10 variables explicatives X1, . . . , X10 telles que
P(X1 = −1) = P(X1 = 1) = 12 ,
∀i ∈ {2, . . . , 10}, P(Xi = −1) = P(Xi = 0) = P(Xi = 1) = 13
et une variable à expliquer Y donnée par :
Y = 3 + 3X2 + 2X3 + X4 + ε si X1 = 1 ,
= −3 + 3X5 + 2X6 + X7 + ε si X1 = −1 .
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 14/??
Travail appliqué
Données simulées : exemple utilisé par Breiman et al.
L’importance des variables :
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 14/??
Travail appliqué
Données simulées : exemple utilisé par Breiman et al.
L’importance des variables :
échantillon d’apprentissage :1000 réalisations indépendantes de (X1, . . . , X10, Y ).
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 14/??
Travail appliqué
Données simulées : exemple utilisé par Breiman et al.
L’importance des variables :
échantillon d’apprentissage :1000 réalisations indépendantes de (X1, . . . , X10, Y ).
famille restreinte :
P∗ =
{{1}; {1, 2}; {1, 2, 5}; {1, 2, 5, 6}; {1, 2, 5, 6, 3};
{1, 2, 5, 6, 3, 7}; {1, 2, 5, 6, 3, 7, 4}
}
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 15/??
Travail appliqué(2)
Etape de sélection :paquet sélectionné à α et β fixés
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 15/??
Travail appliqué(2)
Etape de sélection :paquet sélectionné à α et β fixés
Etape de sélection finale :paquet associé à l’estimateur final ˜s
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 17/??
Le problème
On a dispose de 114 couples de variables (Xi, Yi)1≤i≤114 où :
■ Yi agrément associé à l’essai i : rang de satisfaction entre1 et 5;
■ Xi = (X1i , . . . , Xp
i ) vecteur contenant 24 variablesexplicatives.
⇒ les variables Xj sont des variables fonctionnelles
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 17/??
Le problème
On a dispose de 114 couples de variables (Xi, Yi)1≤i≤114 où :
■ Yi agrément associé à l’essai i : rang de satisfaction entre1 et 5;
■ Xi = (X1i , . . . , Xp
i ) vecteur contenant 24 variablesexplicatives.
⇒ les variables Xj sont des variables fonctionnelles
Donc ici deux phases de sélection :
■ trouver les variables fonctionnelles pertinentes
■ déterminer pour ces dernières les événementsresponsables de la pertinence
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 18/??
Un exemple
0 500 1000
−100
0
100
200
300
400
500
V4
Essai 7
0 500 1000
205
210
215
V14
0 500 1000
0
200
400
600
800
1000
V17
0 500 1000
−50
0
50
100
150
200
V22
0 500
0
200
400
600
800
Essai 19
0 500
204
206
208
210
212
214
0 500
0
200
400
600
800
1000
0 500
−100
0
100
200
300
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 19/??
La méthodologie
Trois grandes phases :
■ prétraitement
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 19/??
La méthodologie
Trois grandes phases :
■ prétraitement
◆ définition d’une fenêtre active;
0 200 400 600 800 10000
200
400
V8
Essai 7
vrai debut
0 200 400 6000
500
1000
Essai 19
0 200 400 600 800 1000
1000
2000
3000
V21vraie fin
0 200 400 600
1000
2000
3000
0 200 400 600 800 10000
10
20
30
fenêtre active V7
0 200 400 6000
10
20
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 19/??
La méthodologie
Trois grandes phases :
■ prétraitement
◆ définition d’une fenêtre active;
◆ débruitage de signaux par ondelettes;
■ travail individuel;
■ ∀t ∈ Ti, Xji (t) = f j
i (t) + ηji (t);
■ une estimation {f ji (t)}t∈eTi
, ou encore un signal
débruité {Xji (t)}t∈eTi
;
■ ondelette de Daubechies presque symétrique d’ordre4 “sym4”, un niveau de décomposition entre 3 et 5(suivant les signaux) et un seuil “universel”.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 19/??
La méthodologie
Trois grandes phases :
■ prétraitement
◆ définition d’une fenêtre active;
◆ débruitage de signaux par ondelettes;
◆ interpolation et normalisation.
■ élimination de la dépendance en i de la grilletemporelle;
- recalage linéaire en temps;
- interpolation linéaire en m = 512 points.
■ élimination partielle des conditions de roulage;
- normalisation en ordonnées.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 19/??
La méthodologie
Trois grandes phases :
■ prétraitement
■ Compression par ondelettes
◆ après prétraitements : 21 variables fonctionnelles de 512points et 114 réalisations de chacune
◆ objectif final : déterminer 5 critères pertinents
sur information ⇒ Compression par ondelettes
→ Choix de la base de représentation?
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 19/??
La méthodologie
Trois grandes phases :
■ prétraitement
■ Compression par ondelettes
sur information ⇒ Compression par ondelettes
→ Choix de la base de représentation?
■ Sélection de variables
Stratégie en 5 phases qui mêle CART et une méthode pasà pas.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 20/??
Compression
Choix de la base :
■ travail variable fonctionnelle par variable fonctionnelle
■ restriction aux espaces d’approximation
→ Choix du niveau de décomposition?
10
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 20/??
Compression
Choix de la base :
→ Choix du niveau de décomposition?
critère utilisé pour chaque variable fonctionnelle j :
EQj(p) =∑114
i=1 ‖Xji (t) − Aj
i,p(t)‖2
0 2 4 6 8 100
500
1000
1500
2000
2500
3000
3500variable fonctionnelle 1
0 2 4 6 8 100
100
200
300
400
500
600
variable fonctionnelle 2
0 2 4 6 8 100
500
1000
1500
variable fonctionnelle 13
0 2 4 6 8 100
200
400
600
800
variable fonctionnelle 21
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 21/??
Compression(2)
→ 16 coefficients retenus en moyenne
Illustration graphique :
0 200 400 6000
0.2
0.4
0.6
0.8
1
V4
0 200 400 6000
0.2
0.4
0.6
0.8
1
V22
0 5 10 15 20
0
1
2
3
4
5
0 10 20 30
0.5
1
1.5
2
2.5
3
3.5
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 22/??
La sélection de variables
1) sélection des coefficients “utiles”:pour chaque variable j:
◆ arbre CART Aj expliquant Y par Cj ;
◆ importance des variables de Aj ;
◆ importance supérieure à un seuil fixé
0 100 200 300 400 5000
0.5
1
V170 100 200 300 400 500
0
0.5
1
V22
0 5 10 150
2
4
6
8
0 10 20 30
1
2
3
0 5 10 150
20
40
60
80
0 10 20 300
20
40
60
80
→ nouveau paquet de coefficients Cj
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 22/??
La sélection de variables
1) sélection des coefficients “utiles”:→ nouveau paquet de coefficients Cj
2) ordre sur les variables fonctionnelles:◆ coût associé à Aj ;
◆ ordre croissant du coût
0 2 4 6 8 10 12 14 16 18 20 220
0.2
0.4
0.6
0.8
1
1.2
erre
ur d
e cl
assi
ficat
ion
1316
12 1118
1722
5 21 4 3 24 14
23 8 1
10
7
2015
2
→ ordre pr eferentiel sur les signaux
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 22/??
La sélection de variables
1) sélection des coefficients “utiles”:→ nouveau paquet de coefficients Cj
2) ordre sur les variables fonctionnelles:→ ordre pr eferentiel sur les signaux
3) une suite emboîtée de modèles (M j)j
4) variables fonctionnelles pertinentes◆ coût de chacun des modèles;◆ M j0 minimisant le coût;
0 2 4 6 8 10 12
0.35
0.4
0.45
0.5
0.55
0.6
0.65
j, le nombre de paquets de coefficients introduits
erre
ur d
e cl
assi
ficat
ion
du m
odèl
e M
j
→ des variables pertinentes ( M j0 )
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 22/??
La sélection de variables
1) sélection des coefficients “utiles”:→ nouveau paquet de coefficients Cj
2) ordre sur les variables fonctionnelles:→ ordre pr eferentiel sur les signaux
3) une suite emboîtée de modèles (M j)j
4) variables fonctionnelles pertinentes→ des variables pertinentes ( M j0 )
5) sélection finale des variables◆ importance des variables de M j0 ;◆ sélection des variables : importance > seuil.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 23/??
La sélection de variables(2)
quel seuil choisir?
0 5 10 15 20 25 30 35 400
10
20
30
40
50
60
70
80
90
impo
rtan
ce d
es v
arai
bles
13(4)
11(3)
4(11)
21(6)11(4)
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 23/??
La sélection de variables(2)
quel seuil choisir?
0 5 10 15 20 25 30 35 400
10
20
30
40
50
60
70
80
90
impo
rtan
ce d
es v
arai
bles
13(4)
11(3)
4(11)
21(6)11(4)
alternatives :
■ coût ou erreur de classification associé aux modèlesemboîtés d’après l’importance;
■ application du travail effectué avec Marie Sauvé.
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 25/??
Conclusions
■ une procédure théorique de sélection de variables pourdes données multivariées
◆ justification par l’obtention d’inégalités dites “oracle”
◆ bons résultats appliqués lorsque p est faible
■ une procédure appliquée de sélection de variables pourdes données multivariées
◆ justification théorique car famille plus petite nondéterministe
◆ bons résultats sur données simulées et réelles
■ méthodologie pour la sélection de variables fonctionnelles
◆ travail entièrement appliqué sur des données réelles
◆ résultats cohérents avec l’application et intéressant pourl’industrie
C. TULEAU. Séminaire à Dauphine le 06/01/06 - p. 26/??
Prolongements et perspectives
Divers prolongements et perspectives existent suite à cetravail, tant d’un point de vue théorique qu’appliqué etméthodologique.
■ calibration des constantes intervenant dans la fonction depénalité et justification de la procédure pratique
■ mise en concurrence de diverses méthodes avec cellesdéveloppées
■ thèse CIFRE qui débute à la Direction de la Recherche deRenault
■ rapprochement plus étroit entre théorie et application :problème du choix de la base de représentation