Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Exemple d’analyse de données
Fabrice Rossi
Université Paris 1
Présentation des données
ContexteI spectres proche infrarouge d’échantillons de vinI but pratique : calculer le taux d’alcool dans le vin à partir du
spectre
CaractéristiquesI 124 spectres, dont 30 réservés à l’évaluation finaleI 256 variables : nombre d’onde compris entre 400 et 4000 cm−1
AnalyseI trop de variables : 256 variables contre 94 objets (pour
l’apprentissage)I modèle linéaire simplifié
Spectres
0 50 100 150 200 250
−0.
20.
00.
20.
40.
6
abso
rban
ce
⇒ Quelques spectres atypiques
Spectres
0 50 100 150 200 250
−0.
20.
00.
20.
40.
6
abso
rban
ce
⇒ Trois spectres atypiques
Spectres « propres »
0 50 100 150 200 250
−0.
20.
00.
20.
40.
6
abso
rban
ce
On conserve les spectres atypiques les moins extrêmes
Variable à prédire
6 8 10 12 14 16
0.00
0.05
0.10
0.15
0.20
0.25
Densité estimée de la variable à prédire
Alcool
Den
sité
Quelques valeurs extrêmes : peuvent être utiles pour l’apprentissage
Lien variable à prédire / variables explicatives
−0.055 −0.050 −0.045 −0.040 −0.035
810
1214
X1
Alc
ool
Lien variable à prédire / variables explicatives
0.045 0.050 0.055 0.060 0.065 0.070
810
1214
X128
Alc
ool
Lien variable à prédire / variables explicatives
−0.020 −0.015 −0.010 −0.005
810
1214
X256
Alc
ool
Lien variable à prédire / variables explicatives
alcool
−0.055 −0.040 −0.020 −0.010
810
1214
−0.
055
−0.
040
spectre1
spectre128
0.04
50.
060
8 10 12 14
−0.
020
−0.
010
0.045 0.060
spectre256
Modèle linéaire simple
−0.055 −0.050 −0.045 −0.040 −0.035
810
1214
X1
Alc
ool
Modèle linéaire simple : Alcool = αX1 + β
Modèle linéaire simple : prévisions
−0.050 −0.045 −0.040 −0.035 −0.030
1011
1213
14
X1
Alc
ool
Prévisions du modèle
Représentation universelle
10 11 12 13 14
1011
1213
14
Cible
Pré
visi
on
Représentation des erreurs
0 5 10 15 20 25 30
−1.
0−
0.5
0.0
0.5
Observation
Err
eur
de p
révi
sion
Modèle linéaire plus riche
10 11 12 13 14
1112
1314
Cible
Pré
visi
on
3 variables1 variable
Modèle linéaire plus riche
0 5 10 15 20 25 30
−1.
0−
0.5
0.0
0.5
Observation
Err
eur
de p
révi
sion
3 variables1 variable
Choix du modèle
CandidatsI modèle linéaire réduit : choix des variablesI modèle linéaire régularisé ridgeI modèle linéaire régularisé lasso
MéthodeI validation croisée (3 blocs, par exemple)I choix du meilleur modèleI et choix du paramètre du modèle (nombre de variables,
paramètre de compromis)I construction du modèle completI évaluation sur l’ensemble de test
Choix de variables
0 10 20 30 40 50 60
1e−
021e
−01
1e+
001e
+01
1e+
02
Nombre de variables
Err
eur
quad
ratiq
ue to
tale
Validation croiséeApprentissage
Choix de variables
0 10 20 30 40 50 60
1e−
021e
−01
1e+
001e
+01
1e+
02
Nombre de variables
Err
eur
quad
ratiq
ue to
tale
Validation croiséeApprentissageTest
Remarques
Validation croiséeI chaque bloc correspond à un ordre spécifique pour les variablesI on agrège des prévisions pas des modèlesI on sélectionne une classe de modèles (des paramètres) pas un
modèleI on doit construire un modèle dans la classe après sélectionI le modèle final dépend de toutes les données d’apprentissage :
on ne peut pas estimer ses performances sur l’ensembled’apprentissage
Ensemble de testI données indépendantes pour l’évaluation finaleI ne doit jamais être utilisé pour autre choseI en particulier le choix du modèle final est fait sans utiliser
l’ensemble de test
Meilleur modèle30 variables
9 10 11 12 13 14 15
910
1112
1314
15
Cible
Pré
visi
on
testapprentissage
Meilleur modèle (tricherie)12 variables
9 10 11 12 13 14 15
910
1112
1314
15
Cible
Pré
visi
on
testapprentissage
Modèle trop faible3 variables
9 10 11 12 13 14 15
910
1112
1314
15
Cible
Pré
visi
on
testapprentissage
Modèle trop puissant90 variables
9 10 11 12 13 14 15
910
1112
1314
15
Cible
Pré
visi
on
testapprentissage
Meilleur modèle30 variables
1 2 3 4 5 6 7 8 9 11 13 15 17 19 21 23 25 27 29
Observation
Err
eur
de p
révi
sion
−0.
4−
0.2
0.0
0.2
0.4