Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
16 mai 2006 1
Introduction à la régressioncours n°1
ENSM.SE – 1AOlivier Roustant - Laurent Carraro
16 mai 2006 2
Problématique de la régression
Expliquer une réponse y grâce à des prédicteurs x1,…, xp
… dans un contexte incertain
… à partir d’expériences
… dans un but prédictif
16 mai 2006 3
But : prévoir la consommation électrique
Exemple 1 : entreprise d’énergie
Variables
• date
• température
• historique de
consommations
• ...
Modèle
StatistiquePrévision
Décision
Mise en marche ou non
de nouvelles unités de production
16 mai 2006 4
Température (°C)
Consommationélectrique (MgW)
16 mai 2006 5
Exemple 2 : société financière
But : estimer le risque d’un portefeuille
Variables
• rendement
d’indices
• rendement
d’obligations
...
Modèle
StatistiqueSimulations
Décision
Politique de gestion
16 mai 2006 6
Exemple. Soit un portefeuille constitué de40% d’actions Lafarge et 60% Carrefour Quel(s) prédicteur(s) choisir ? Quel modèle proposer ?
16 mai 2006 7
Portefeuille : 40% Lafarge ; 60% Carrefour
16 mai 2006 8
Exemple 3
Réponse : concentration en ions SO4 --Prédicteur : concentration en ions NO3-
Objectif : prévoir la concentration en ionsS04-- connaissant celle en ions NO3-
16 mai 2006 9
0,00
0,50
1,00
1,50
2,00
2,50
3,00
0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40 1,60
Concentration en NO3- (mgN/l)
Co
nc
en
tra
tio
n e
n S
04
= (
mg
S/l
)
Source : école des mines de Douai
16 mai 2006 10
-1,40
-1,20
-1,00
-0,80
-0,60
-0,40
-0,20
0,00
0,20
0,40
0,60
-1,50 -1,00 -0,50 0,00 0,50
Log de la concentration en NO3- (mgN/l)
Lo
g d
e l
a c
on
ce
ntr
ati
on
en
S0
4=
(m
gS
/l)
Résolution du problème d’hétéroscédasticité
Hétéroscédasticité= variance non
constante
16 mai 2006 11
Modélisation statistique : démarche
Travail préliminaire Etude des données Choix des prédicteurs⇒ proposition d’un modèle de régression Plusieurs modèles possibles
Etude statistique Estimation, analyse des résultats Validation du modèle : vérification des hypothèses Si non validé, retour à la 1ère étape !
16 mai 2006 12
Dans ce cours…
On se limite à 1 ou 2 prédicteurs
On n’étudiera pas de données temporellessauf si elles sont indépendantes dans le temps Nécessite des connaissances en séries temporelles
16 mai 2006 13
Définition du modèle linéaire
Y vecteur des réponsesX matrice du plan d’expériencesβ vecteurs des paramètresε vecteurs des écarts au modèle :
Y = Xβ + ε
ε1, ..., εn indépendants et de même loi N(0, σ²)
16 mai 2006 14
InterprétationGénérateur de jeux de n réponses i.i.d et de loi normale
i.i.d. =indépendantes etidentiquement
distribuées
16 mai 2006 15
Exemples (1/2)Que penser du modèle sur ces données ?
Poids (kg)
Taille (cm)
16 mai 2006 16
Exemples (2/2)
Température (°C)
Consommationélectrique (MgW)
Et là ?
16 mai 2006 17
Exercice
On suppose que ε1, ε2,… εn sont des v.a. i.i.d deloi N(0, σ2). Dans quels cas peut-on se ramener àun modèle de régression linéaire ?
1. yi = β0 + β1 xi2 + εi
2. log(yi) = β0 + β1 log(xi) + εi
3. yi = β0 exp(β1 xi) × |εi|
4. yi = β0 / (1 + β1 xi) + εi