48
Le modèle de régression linéaire Master1 SES A.K. Fermin et C. Hardouin Université Paris-Ouest-Nanterre-La Défense http://fermin.perso.math.cnrs.fr/

Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Le modèle de régression linéaireMaster1 SES

A.K. Fermin et C. Hardouin

Université Paris-Ouest-Nanterre-La Défense

http://fermin.perso.math.cnrs.fr/

Page 2: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

1 Introduction aux modèles de régression

2 Modèle "gaussien" de la régression linéaire

3 Tests Student et test Fisher

4 Sélection de variables

5 Validation de modèle

Fermin et Hardoin Régression linéaire Chapitre Régression 2 / 48

Page 3: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Motivation

Objectif

On souhaite “expliquer” une variable Y (variable réponse ou variableà expliquer) à partir d’une variable X (variable explicative) :

Y ≈ f (X ).

Fermin et Hardoin Régression linéaire Chapitre Régression 3 / 48

Page 4: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Motivation

Exemple : Pollution à l’ozoneY : concentration maximale en ozoneX : température à midi

mesurés en un lieu donné et une journée donnée pendant n jours.

Bibliographie : Pierre-André Cornillon, Eric Matzner-Lober

Fermin et Hardoin Régression linéaire Chapitre Régression 4 / 48

Page 5: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●●

15 20 25 30

4060

8010

014

0

Pollution à l'ozone

Temperature à midi

Con

cent

ratio

n m

axim

ale

en O

zone

Page 6: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Exemple : Pollution à l’ozoneY : concentration maximale en ozoneX : température à midi

mesurés en un lieu donné et une journée donnée pendant n = 112jours.

Moyennes

x =1n

∑xi = 90.304 y =

1n

∑yi = 21.527

Écart-types et variances

σx = 28.187 σy = 4.042 σ2x = 794.520 σ2

y = 16.340

Covariance et correlation

cov(x , y) = 89.360 cor(x , y) = 0.784

Fermin et Hardoin Régression linéaire Chapitre Régression 6 / 48

Page 7: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Les données ozone

Les 13 variables observées sont :MaxO3 : Maximum de concentration d?ozone observé sur lajournée en gr/m3T9, T12, T15 : Température observée à 9, 12 et 15hNe9, Ne12, Ne15 : Nébulosité observée à 9, 12 et 15hVx9, Vx12, Vx15 : Composante E-O du vent à 9, 12 et 15hMaxO3v : Teneur maximum en ozone observée la veillevent: orientation du vent à 12hpluie : occurrence ou non de précipitations

Fermin et Hardoin Régression linéaire Chapitre Régression 7 / 48

Page 8: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Données ozone

Fichier ozone.txt:

112 obs. of 13 variables:maxO3 : int 87 82 92 114 94 80 79 79 101 106 ...T9 : num 15.6 17 15.3 16.2 17.4 17.7 16.8 14.9 16.1 18.3 ...T12 : num 18.5 18.4 17.6 19.7 20.5 19.8 15.6 17.5 19.6 21.9 ...T15 : num 18.4 17.7 19.5 22.5 20.4 18.3 14.9 18.9 21.4 22.9 ...Ne9 : int 4 5 2 1 8 6 7 5 2 5 ...Ne12 : int 4 5 5 1 8 6 8 5 4 6 ...Ne15 : int 8 7 4 0 7 7 8 4 4 8 ...Vx9 : num 0.695 -4.33 2.954 0.985 -0.5 ...Vx12 : num -1.71 -4 1.879 0.347 -2.954 ...Vx15 : num -0.695 -3 0.521 -0.174 -4.33 ...maxO3v: int 84 87 82 92 114 94 80 99 79 101 ...vent : Factor w/ 4 levels "Est","Nord","Ouest",..: 2 2 1 2 3 3 3 2 2 3 ...pluie : Factor w/ 2 levels "Pluie","Sec": 2 2 2 2 2 1 2 2 2 2 ...

Fermin et Hardoin Régression linéaire Chapitre Régression 8 / 48

Page 9: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Modèle de régression

On dispose de n observations (x1, y1), (x2, y2), . . . , (xn, yn) ducouple (X ,Y ). On suppose que

yi = f (xi ) + εi pour tout i = 1, . . . , n

les xi son des valeurs connues non aléatoiresf est une fonction inconnueεi sont des réalisations inconnues d’une variable aléatoire.

Pour chaque individu i , la variable aleatoire εi represente l’erreurcomise. Généralement pour étudier le modèle "le statisticien"formule des hypothèses sur la loi des erreurs εi .

Fermin et Hardoin Régression linéaire Chapitre Régression 9 / 48

Page 10: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

1 Introduction aux modèles de régression

2 Modèle "gaussien" de la régression linéaire

3 Tests Student et test Fisher

4 Sélection de variables

5 Validation de modèle

Fermin et Hardoin Régression linéaire Chapitre Régression 10 / 48

Page 11: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Modèle gaussien de la régression linéaire simple

On veut expliquer Y (ozone) à partir de X (température). Onobserve des observations bruités

yi = β0 + β1xi + εi , i = 1, . . . , n

Le premier terme correspond à l’équation d’une droite (dansl’exemple ce terme est déterminé par la température)Le deuxième terme correspond à l’erreur et varie de façonaléatoire d’un individu à l’autre. Les εi sont les réalisationsinconnues d’une variable aléatoire ε.

Modèle Théorique sous "forme vectorielle"

Y = β0 + β1X + ε,

avec β0 et β1 inconnus et ε ∼ N (0, σ2In) où σ inconnue.

Fermin et Hardoin Régression linéaire Chapitre Régression 11 / 48

Page 12: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Modèle Théorique sous "forme vectorielle"

Y = β0 + β1X + ε,

avec β0 et β1 inconnus et et ε ∼ N (0, σ2In) où σ inconnue.

Rappel :La variable Y est aléatoire.La variable X est supposée non aléatoire, on la mesure sanserreur sur chaque individu.

Fermin et Hardoin Régression linéaire Chapitre Régression 12 / 48

Page 13: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

1 Coefficients estimés (para le méthode de MC):

β1 =cov(x , y)

var(x)= r(x , y)

√var(y)

var(x)

β0 = y − β1x

.2 Valeur prédite pour l’i-ème individu : yi = β0 + β1xi

3 Résidu pour l’i-ème individu : εi = yi − yi

4 Variation résiduelle ou non expliquée par la régression :

SCR =n∑

i=1

(yi − yi )2.

Fermin et Hardoin Régression linéaire Chapitre Régression 13 / 48

Page 14: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

5 Variation expliquée par la régression :

SCE =n∑

i=1

(yi − y)2.

6 Variation totale

SCT =n∑

i=1

(yi − y)2 = SCR + SCE

7 Coefficient de détermination

R2 =SCESCT

8 Estimateur de σ2 :σ2 =

SCRn − 2

.

Fermin et Hardoin Régression linéaire Chapitre Régression 14 / 48

Page 15: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●●

15 20 25 30

4060

8010

014

0

Pollution à l'ozone

Temperature à midi

Con

cent

ratio

n m

axim

ale

en O

zone

Page 16: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Sorties du logiel R

ozone<-read.table("ozone.txt");> O3=ozone[,"maxO3"]; T12=ozone[,"T12"]nrow(ozone)[1] 112> c(mean(O3),var(O3),sd(O3))[1] 90.30357 794.51963 28.18722> c(mean(T12),var(T12),sd(T12))[1] 21.526786 16.340357 4.042321> cov(O3,T12)[1] 89.36026> cov(O3,T12)/var(T12)[1] 5.468685mean(O3)-5.468685*mean(T12)[1] -27.41964

Fermin et Hardoin Régression linéaire Chapitre Régression 16 / 48

Page 17: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

●● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

15 20 25 30

4060

8010

012

014

016

0

Pollution à l'ozone : Ajustement paramétrique

Temperature à midi

Con

cent

ratio

n m

axim

ale

en O

zone

Page 18: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Sur R, on déclare le modèle O3i = β0 + β1T12i + εi, où les εi sonti.i.d. Gaussiennes centrées, par :

reg.lin.simple = lm(O3 ~ T12); summary(reg.lin.simple)

On obtient la sortie R :

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) -27.4196 9.0335 -3.035 0.003 **T12 5.4687 0.4125 13.258 <2e-16 ***---Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 17.57 on 110 degrees of freedomMultiple R-squared: 0.6151, Adjusted R-squared: 0.6116F-statistic: 175.8 on 1 and 110 DF, p-value: < 2.2e-16

Rappelons qu’on dispose d’un échantillon de taille n = 112Fermin et Hardoin Régression linéaire Chapitre Régression 18 / 48

Page 19: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Modèle gaussien de la régression linéaire multiple

On observe des observations bruitées

yi = β0 + β1xi1 + β2xi2 + . . .+ βpxip + εi , i = 1, . . . , n

Modèle Théorique sous “forme vectorialle”

Y = β0 + β1X1 + β2X2 + . . .+ βpXp + ε,

avec β0, β1, . . . , βp inconnus et ε ∼ N (0, σ2In) où σ inconnue.

On veut expliquer Y à partir de plusieurs variables explicativesX1,X2 . . . ,Xp. Tous les résultats précédents se généralisant dans lecas générale

Fermin et Hardoin Régression linéaire Chapitre Régression 19 / 48

Page 20: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Ecriture matricielle et écriture vectorielle :

Supposons qu’on dispose de p-variables explicatives X1,X2, . . . ,Xp.Soit X la matrice augmentée (matrice design) de taille n × (p + 1).

Modèle Théorique sous “forme vectorialle”

Y = β0 + β1X1 + β2X2 + . . .+ βpXp + ε,

avec β0, β1, . . . , βp inconnus et ε ∼ N (0, σ2In) où σ inconnue.

Modèle Théorique sous “forme matricielle”

Y = Xβ + ε

avec β = (β0, β1, . . . , βp) et ε ∼ N (0, σ2In) où σ inconnue.

Fermin et Hardoin Régression linéaire Chapitre Régression 20 / 48

Page 21: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Un exemple sur R

Fichier ozone.txt (Exo du TP):

112 obs. of 13 variables:maxO3 : int 87 82 92 114 94 80 79 79 101 106 ...T9 : num 15.6 17 15.3 16.2 17.4 17.7 16.8 14.9 16.1 18.3 ...T12 : num 18.5 18.4 17.6 19.7 20.5 19.8 15.6 17.5 19.6 21.9 ...T15 : num 18.4 17.7 19.5 22.5 20.4 18.3 14.9 18.9 21.4 22.9 ...Ne9 : int 4 5 2 1 8 6 7 5 2 5 ...Ne12 : int 4 5 5 1 8 6 8 5 4 6 ...Ne15 : int 8 7 4 0 7 7 8 4 4 8 ...Vx9 : num 0.695 -4.33 2.954 0.985 -0.5 ...Vx12 : num -1.71 -4 1.879 0.347 -2.954 ...Vx15 : num -0.695 -3 0.521 -0.174 -4.33 ...maxO3v: int 84 87 82 92 114 94 80 99 79 101 ...vent : Factor w/ 4 levels "Est","Nord","Ouest",..: 2 2 1 2 3 3 3 2 2 3 ...pluie : Factor w/ 2 levels "Pluie","Sec": 2 2 2 2 2 1 2 2 2 2 ...

Fermin et Hardoin Régression linéaire Chapitre Régression 21 / 48

Page 22: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Considérons le modèle théorique de régression linéaire multiple.1 Coefficients estimés (para le méthode de MC) :β = (β0, β1, . . . , βp)

β = (X′X)−1 X′Y

avec X′ la transposée de la matrice X.2 Valeur prédite pour l’i-ème individu

yi = β0 + β1xi1 + β2xi2 + . . .+ βpxip3 Somme des carrés des résidus

SCR =n∑

i=1

(yi − yi )2.

4 Estimateur sans biais de σ2 est

σ2 =SCR

n − (p + 1).

Fermin et Hardoin Régression linéaire Chapitre Régression 22 / 48

Page 23: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Démarche de modélisation :

1 Regarder les données.2 Choisir le type de modèle puis préciser les hypothèses.3 Ajuster le modèle.4 Valider le modèle.5 Selon les besoins, faire de l’inférence (tests, régions de

confiance...), de la prédiction etc.

Fermin et Hardoin Régression linéaire Chapitre Régression 23 / 48

Page 24: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Effet d’une variable explicativeEst-ce que la variable Xj a-t-elle réellement une influence surla variable Y ?On a besoin de d’un test d’hypothèse pour répondre à cettequestion

Le ModèleLe modèle est raisonnable ? c’est-à-dire est-ce-que que tousles coefficients sont supposés nuls, excepté la constante ?On a besoin de d’un test d’hypothèse pour répondre à cettequestion

Fermin et Hardoin Régression linéaire Chapitre Régression 24 / 48

Page 25: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

1 Introduction aux modèles de régression

2 Modèle "gaussien" de la régression linéaire

3 Tests Student et test Fisher

4 Sélection de variables

5 Validation de modèle

Fermin et Hardoin Régression linéaire Chapitre Régression 25 / 48

Page 26: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Test de Student

La variable Xj est-elle utile ?

Test sur le paramètre βjNous souhaitons tester une hypothèse nulle de la forme

H0 : βj = 0

L’hypothèse alternative est

H1 : βj 6= 0

Sous H0, T =βjσβj

suit la loi de Student à n − p − 1 degrés de

liberté (n − 2 degrés de liberté dans le cas simple, p = 1).

Fermin et Hardoin Régression linéaire Chapitre Régression 26 / 48

Page 27: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Supposons que le modèle est Y = β0 + β1X1 + . . .+ βpXp + ε,

SCR =∑

(yi − yi )2 et SCE =

∑(yi − y)2

Le modèle est raissonable ?

Test Global du modèleNous souhaitons tester une hypothèse nulle de la forme

H0 : βj = 0 pour tout j ∈ {1, . . . , p},

L’hypothèse alternative H1 est qu’il existe au moins unj ∈ {1, . . . , p} pour lequel βj 6= 0.

Sous H0, F = SCE/pSCR/(n−p−1) suit la loi de Fisher à p et n − p − 1

degrés de liberté.

Fermin et Hardoin Régression linéaire Chapitre Régression 27 / 48

Page 28: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

MLG1 O3i = β0 + β1T12i + β2Vx12i + εi

lm(O3 ~ T12 + Vx12)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) -14.4242 9.3943 -1.535 0.12758T12 5.0202 0.4140 12.125 < 2e-16 ***Vx12 2.0742 0.5987 3.465 0.00076 ***Residual standard error: 16.75 on 109 degrees of freedomMultiple R-squared: 0.6533, Adjusted R-squared: 0.6469F-statistic: 102.7 on 2 and 109 DF, p-value: < 2.2e-16

MLG2 O3i = β0 + β1T12i + β2Ne12i + εi

lm(O3 ~ T12 + Ne12)Coefficients:

Estimate Std. Error t value Pr(>|t|)(Intercept) 7.7077 15.0884 0.511 0.61050T12 4.4649 0.5321 8.392 1.92e-13 ***Ne12 -2.6940 0.9426 -2.858 0.00511 **Residual standard error: 17.02 on 109 degrees of freedomMultiple R-squared: 0.6419, Adjusted R-squared: 0.6353F-statistic: 97.69 on 2 and 109 DF, p-value: < 2.2e-16

Comparer MLG1 et MLG2 : Test de Fisher, R2, R2-ajusté, ...Fermin et Hardoin Régression linéaire Chapitre Régression 28 / 48

Page 29: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Attention :R2 ne s’interprète que dans les modèles comportant unintercept.R2 augmente si on ajoute des variables explicatives

Fermin et Hardoin Régression linéaire Chapitre Régression 29 / 48

Page 30: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

MLG1 O3i = β0 + β1T12i + β2Vx12i + εi

lm(formula = O3 ~ T12 + Vx12)Estimate Std. Error t value Pr(>|t|)

(Intercept) -14.4242 9.3943 -1.535 0.12758T12 5.0202 0.4140 12.125 < 2e-16 ***Vx12 2.0742 0.5987 3.465 0.00076 ***Residual standard error: 16.75 on 109 degrees of freedomMultiple R-squared: 0.6533, Adjusted R-squared: 0.6469F-statistic: 102.7 on 2 and 109 DF, p-value: < 2.2e-16

MLG3 O3i = β0 + β1T12i + β2Vx12i + β3Ne12i + εi

lm(formula = O3 ~ T12 + Vx12 + Ne12)Estimate Std. Error t value Pr(>|t|)

(Intercept) 3.8958 14.8243 0.263 0.7932T12 4.5132 0.5203 8.674 4.71e-14 ***Vx12 1.6290 0.6571 2.479 0.0147 *Ne12 -1.6189 1.0181 -1.590 0.1147Residual standard error: 16.63 on 108 degrees of freedomMultiple R-squared: 0.6612, Adjusted R-squared: 0.6518F-statistic: 70.25 on 3 and 108 DF, p-value: < 2.2e-16

Modèles Emboîtés :

Syntaxe sur R : anova(modèle réduit ,modèle complet)

Fermin et Hardoin Régression linéaire Chapitre Régression 30 / 48

Page 31: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Modèles Emboîtés

MLG1 O3i = β0 + β1T12i + β2Vx12i + εiMLG3 O3i = β0 + β1T12i + β2Vx12i + β3Ne12i + εi

anova(MLG1,MLG3)Model 1: O3 ~ T12 + Vx12Model 2: O3 ~ T12 + Vx12 + Ne12

Res.Df RSS Df Sum of Sq F Pr(>F)1 109 305802 108 29881 1 699.61 2.5286 0.1147

Remarque : Le test F entre ces deux modèles est équivalent au testT de nullité du coefficient de la variable Ne12 dans le modèleMLG3 (les deux p-values valent 0.1147).

Fermin et Hardoin Régression linéaire Chapitre Régression 31 / 48

Page 32: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Modèle Anova à un facteur

Fermin et Hardoin Régression linéaire Chapitre Régression 32 / 48

Page 33: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

●●

●●●

Est Nord Ouest Sud

4060

8010

014

0

Pollution à l'ozone

Con

cent

ratio

n m

axim

ale

en O

zone

Page 34: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Sur R, on déclare le modèle anova à un facteur par :

lm(O3 ~ vent)

On obtient la sortie R :

lm(formula = O3 ~ vent)Coefficients:Estimate Std. Error t value Pr(>|t|)(Intercept) 105.600 8.639 12.223 <2e-16 ***ventNord -19.471 9.935 -1.960 0.0526 .ventOuest -20.900 9.464 -2.208 0.0293 *ventSud -3.076 10.496 -0.293 0.7700Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1Residual standard error: 27.32 on 108 degrees of freedomMultiple R-squared: 0.08602,Adjusted R-squared: 0.06063F-statistic: 3.388 on 3 and 108 DF, p-value: 0.02074

Rappelons qu’on dispose d’un échantillon de taille n = 112Fermin et Hardoin Régression linéaire Chapitre Régression 34 / 48

Page 35: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

1 Introduction aux modèles de régression

2 Modèle "gaussien" de la régression linéaire

3 Tests Student et test Fisher

4 Sélection de variables

5 Validation de modèle

Fermin et Hardoin Régression linéaire Chapitre Régression 35 / 48

Page 36: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Sélection de variables : motivations

1 Description : Quelles sont les variables les plus influentes?2 Qualité de l’ajustement : on souhaite faire un compromis entre

le bias du modele et la variance. Il faut prendre en compte lenombre de variables et la taille de l’echantillon.

On recherche donc un modèle parcimonieux.

Fermin et Hardoin Régression linéaire Chapitre Régression 36 / 48

Page 37: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Recherche exhaustive

Démarche :On se donne un critère de qualité, qu’on calcule pour tous lessous-modèles comportant un intercept, et on retient le modèlequi optimise le critère.On considère en fait plusieurs critères et on retient un modèlequi réalise de bonnes performances pour tous les critèreconsidérés.Critères : R2, R2-ajusté, Cp, AIC et BIC, ...

Fermin et Hardoin Régression linéaire Chapitre Régression 37 / 48

Page 38: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Critères

1 La méthode de Mallows consiste à minimiser le Cp (deMallows) donné par

SCRσ2 − n + 2 ∗ (p + 1)

Fermin et Hardoin Régression linéaire Chapitre Régression 38 / 48

Page 39: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Critères

2 Les critères AIC et BIC consistent à minimiser

Deviance + κ(n)× (p + 1)

pour une fonction f donnée.AIC : κ(n) = 2.BIC : κ(n) = log n.

Le critère BIC conduit naturellement à retenir un modèle deplus faible dimension que le critère AIC.

Fermin et Hardoin Régression linéaire Chapitre Régression 39 / 48

Page 40: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Recherches pas à pas

On les utilise lorsque le modèle complet est trop riche pourpermettre facilement une recherche exhaustive. A chaque étape, onajoute (ou on élimine) la variable la plus (ou la moins) significative,la variable considérée pouvant être fictive.

1 Descendante (Backward) part du modèle complet et élimineles variables une à une.

2 Ascendante (Forward) part du modèle constant et ajoute lesvariables une à une.

3 Mixte (Stepwise) combine les deux précédantes.

Fermin et Hardoin Régression linéaire Chapitre Régression 40 / 48

Page 41: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Exemple Ozone

Recherche exhaustive : on utilise la library(leaps)Syntaxe sur R :

library(leaps)selection=regsubsets(maxO3~.,data=ozone)# Par défaut, on ne considère que les modèles à 8 variables maximum.# On peut faire une recherche parmi tous les modèles# Le nombre de variables ici le permet.selection=regsubsets(maxO3~.,data=ozone,nvmax=14)# Representation graphique de tous les critères:par(mfrow=c(2,2))plot(selection,scale="bic")plot(selection,scale="r2")plot(selection,scale="adjr2")plot(selection,scale="Cp")

Fermin et Hardoin Régression linéaire Chapitre Régression 41 / 48

Page 42: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

bic

(Int

erce

pt)

T9

T12

T15

Ne9

Ne1

2N

e15

Vx9

Vx1

2V

x15

max

O3v

vent

Nor

dve

ntO

uest

vent

Sud

plui

eSec

−93−97−98

−100−110−110−120−120−120−120−130−130−140−140

r2

(Int

erce

pt)

T9

T12

T15

Ne9

Ne1

2N

e15

Vx9

Vx1

2V

x15

max

O3v

vent

Nor

dve

ntO

uest

vent

Sud

plui

eSec

0.620.7

0.750.760.760.760.770.770.770.770.770.770.770.77

adjr2

(Int

erce

pt)

T9

T12

T15

Ne9

Ne1

2N

e15

Vx9

Vx1

2V

x15

max

O3v

vent

Nor

dve

ntO

uest

vent

Sud

plui

eSec

0.610.7

0.740.740.740.740.750.750.750.750.750.750.750.75

Cp

(Int

erce

pt)

T9

T12

T15

Ne9

Ne1

2N

e15

Vx9

Vx1

2V

x15

max

O3v

vent

Nor

dve

ntO

uest

vent

Sud

plui

eSec

5319151311

97.25.53.82.20.8

−0.045−0.71

−2.3

Page 43: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Exemple Ozone

Recherche pas à pasSyntaxe sur R :

complet=lm(maxO3~.,data=ozone)step(complet,direction = "both") # fait du stepwise.

On peut aussi donner les directions "backward" ou "forward".

Fermin et Hardoin Régression linéaire Chapitre Régression 43 / 48

Page 44: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

complet=lm(maxO3~.,data=ozone)step(complet,direction = "both")

Start: AIC=612.99maxO3 ~ T9 + T12 + T15 + Ne9 + Ne12 + Ne15 + Vx9 + Vx12 + Vx15 +

maxO3v + vent + pluie

Step: AIC=608.61maxO3 ~ T9 + T12 + T15 + Ne9 + Ne12 + Ne15 + Vx9 + Vx12 + Vx15 +

maxO3v + pluie

.........

Step: AIC=596.02maxO3 ~ T12 + Ne9 + Vx9 + maxO3v

Fermin et Hardoin Régression linéaire Chapitre Régression 44 / 48

Page 45: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

1 Introduction aux modèles de régression

2 Modèle "gaussien" de la régression linéaire

3 Tests Student et test Fisher

4 Sélection de variables

5 Validation de modèle

Fermin et Hardoin Régression linéaire Chapitre Régression 45 / 48

Page 46: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Validation de modèle

Qualité de l’ajustement du modèle retenuGraphes de résidus (simples, standardisés ou studentisés)QQ-plotTests d’ajustement (e.g. Shapiro-Wilks, Kolmogorov-Smirnov)

Fermin et Hardoin Régression linéaire Chapitre Régression 46 / 48

Page 47: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

Introduction Modèle Tests Sélection Validation

Exemple Ozone : modèle retenue

reg=lm(maxO3~T12+Vx9+Ne9+maxO3v);summary(reg)

lm(formula = maxO3 ~ T12 + Vx9 + Ne9 + maxO3v)---

Estimate Std. Error t value Pr(>|t|)(Intercept) 12.63131 11.00088 1.148 0.253443T12 2.76409 0.47450 5.825 6.07e-08 ***Vx9 1.29286 0.60218 2.147 0.034055 *Ne9 -2.51540 0.67585 -3.722 0.000317 ***maxO3v 0.35483 0.05789 6.130 1.50e-08 ***---Residual standard error: 14 on 107 degrees of freedomMultiple R-squared: 0.7622, Adjusted R-squared: 0.7533F-statistic: 85.75 on 4 and 107 DF, p-value: < 2.2e-16

---shapiro.test(reg$residuals)

Shapiro-Wilk normality testdata: reg$residualsW = 0.9659, p-value = 0.005817

Fermin et Hardoin Régression linéaire Chapitre Régression 47 / 48

Page 48: Le modèle de régression linéaire - Master1 SESfermin.perso.math.cnrs.fr/Files/Slides_Regression_M1.pdf · Modèle gaussien de la régression linéaire simple OnveutexpliquerY (ozone)àpartirdeX

60 80 100 120 140 160

−60

−20

020

40

Fitted values

Res

idua

ls

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

● ●

● ●

●●● ●

● ● ●

●●

●●

● ●● ●

●●

●●

●●

●●

● ●●

Residuals vs Fitted

58

7934

●●

●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●●●

●●●

●●

●●

●●●●

●●

●●

●●

●●

●●

−2 −1 0 1 2

−4

−2

02

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

58

7934

60 80 100 120 140 160

0.0

0.5

1.0

1.5

2.0

Fitted values

Sta

ndar

dize

d re

sidu

als

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

● ●

●●

●●

Scale−Location58

7934

0 20 40 60 80 100

0.00

0.10

0.20

0.30

Obs. number

Coo

k's

dist

ance

Cook's distance58

52 79