Upload
pierre-hugues-carmichael
View
5.612
Download
0
Embed Size (px)
DESCRIPTION
Présentation des notions de base pour la régression pénalisée et comparaison de divers méthodes.
Citation preview
Quand le cowboy fait le tour de la montagne
Apprentissage automatique, régression Ridge et LASSO
Plan
La prédiction pour mieux comprendre Régression linéaire et sélection de modèle Régression Ridge LASSO Comparaison des méthodes de sélection
par simulation Comparaison des méthodes sur un
exemple pratique
La prédiction pour mieux comprendre
Inférence basée sur la signification statistique des paramètres d’un modèle
Inférence basée sur la précision des prédictions d’un modèle Biais des prédictions Variance des prédictions
La prédiction pour mieux comprendre
Sélection de modèle pour la prédiction Critère d’information d’Akaike (AIC) Données d’entraînement vs Données
de test Validation Croisée (CV)
Régression linéaire et sélection de modèle
€
Y = βX +ε
Régression linéaire et sélection de modèle
On trouve β qui minimise:
2
1 1∑ ∑= =
⎟⎟⎠
⎞⎜⎜⎝
⎛−
N
i
p
jjiji xy β
Régression linéaire et sélection de modèle
Estimation par moindres carrés Sélection de modèle
Procédure « stepwise » Conserver seulement les variables
significatives à chaque étape Conserver seulement la variable qui réduit
au maximum l’AIC
Régression Ridge
On trouve β qui minimise:
∑ ∑∑= ==
+⎟⎟⎠
⎞⎜⎜⎝
⎛−
N
i
p
jj
p
jjiji xy
1 1
2
2
1
βλβ
Régression Ridge
Estimation des β par moindres carrés
Estimation du λ par CV Ce choix fait effectivement la sélection
du modèle.
Régression Ridge
La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β
€
β j2 ≤ s
j=1
p
∑
Régression Ridge
Permet d’estimer un modèle en présence de covariables fortement corrélées.
Estimation dépendante de l’échelle des variables Centrer et réduire toutes les variables
continues
LASSO
On trouve β qui minimise:
∑∑ ∑== =
+⎟⎟⎠
⎞⎜⎜⎝
⎛−
p
jj
N
i
p
jjiji xy
1
2
1 1
βλβ
LASSO
À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés Algorithme quadratique employé pour
l’estimation Estimation du λ par CV
Ce choix fait effectivement la sélection du modèle
LASSO
Comme pour la régression Ridge, centrer et réduire les variables continues
Comparaison des méthodes
Avantage de la régression Ridge Les effets de variables explicatrices
très corrélées se combinent pour se renforcer mutuellement
Avantage du LASSO Les effets peu important sont estimés à
0, donc le modèle sélectionné aura un nombre de variables d < p.
Comparaison des méthodes
Désavantage de la régression Ridge Toutes les variables incluses
initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.
Désavantage du LASSO En présence de variables explicatrices
corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
Comparaison des méthodes
La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes
On cherche β qui minimise:
( )∑ ∑∑= ==
⎥⎦
⎤⎢⎣
⎡ +−+⎟⎟⎠
⎞⎜⎜⎝
⎛−
N
i
p
jjj
p
jjiji xy
1 1
2
2
1
12
1βαβαλβ
Comparaison des méthodes par simulation
Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates
Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
Données simulées
Variable Modèle Régression Stepwise Ridge LASSO Elastic Net
Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38
X2 -0.71 -0.42
X3 0.68 0.06
X4 -0.35 -0.60
X5 -5 -17.13 -17 -15.18 -15.63 -15.58
X6 1.66 1.83 0.63 0.35 0.33
X7 5 14.42 14.43 12.26 12.81 12.75
X8 0.17 -0.54
X9 -1.26 -1.21 -1.14 -0.24 -0.24
X10 1.43 1.48 0.89
X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62
X12 1.30 1.30 1.18
X13 -0.06 0.08
X14 3 46.71 46.47 42.86 44.52 44.42
X15 -0.45 -0.68
X16 0.02 0.84
X17 3.48 3.04 2.96 0.71 0.71
X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16
X19 -1.68 -0.81
X20 -1.24 0.14
X21 0.15 0.15
Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14
Écart-type 18.59 18.29 18.87 17.23 17.24
Comparaison de méthodesTrajectoire Ridge
Comparaison des méthodesTrajectoire LASSO
Comparaison des méthodesTrajectoire Elastic Net
Exemple pratique:Polychlorobiphényles et pesticides organochlorés
Données du CSHA: 1848 sujets 28 Covariables, dont 5 variables
dichotomiques et 1 variables catégoriques
Variable réponse: maladie d’Alzheimer
Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
Données pratiques
Variable Régression Stepwise Ridge LASSO Elastic Net
Intercepte -1.64 0.23 -1.29 -1.45 -1.45
BPC105 -0.38 0.001
BPC118 0.35 0.003
BPC138 -0.25 0.003
BPC153 -0.56 -0.10 0.004
BPC156 0.17 0.004
BPC163 0.74 0.11 0.005
BPC170 -0.14 0.001
BPC180 0.02 0.0001
BPC183 0.77 0.10 0.004
BPC187 -0.61 -0.08 0.0009
BPC99 0.08 0.003
cisNonachlor -0.63 -0.04 -0.005
Hexachlorobenzene 0.01 0.0004
Oxychlordane -0.43 -0.001
ppDDE 0.13 0.004
ppDDT -0.07 -0.002
BetaHCH -0.09 -0.003
transNonachlor 0.68 -0.003
Éducation -0.26 -0.04 -0.006 -0.03 -0.04
Âge 0.52 0.08 0.02 0.39 0.4
Lipides totaux -0.02 -0.007
IMC -0.16 -0.03 -0.01 -0.09 -0.1
Sexe 0.38 0.04 0.02 0.08 0.09
Région 2 -0.88 -0.14 -0.03 -0.2 -0.23
Région3 0.18 0.03 0.16 0.17
Région4 -0.05 -0.05 0.005
Région5 -1.20 -0.18 -0.04 -0.51 -0.54
APOE4 0.88 0.14 0.04 0.55 0.57
Area -0.01 0.004
Cigarette 0.22 -0.01
Alcohol -0.25 -0.03 -0.02 -0.006 -0.02
Erreur Entraînement 20% 20% 21% 21% 21%
Erreur Test 26% 25% 25% 26% 25%
Exemple pratiqueTrajectoire Ridge
Exemple pratiqueTrajectoire LASSO
Exemple pratiqueTrajectoire Elastic Net
Exemple pratiqueComparaison des courbes ROC: Entraînement
Exemple pratiqueComparaison des courbes ROC: Test
Logiciels
R glmnet (Friedman, Hastie, Tibshirani)
SAS Proc GLMSELECT (LASSO et Stepwise) Proc REG, MIXED, LOGISTIC, PHREG,
etc… (Ridge)
Référence
Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008