ECO 4272 : Introduction a l’` econom´ etrie´ Tests diagnostics · ECO 4272 : Introduction a l’` econom´ etrie´ Tests diagnostics Steve Ambler Departement des sciences´ ´economiques

ECO 4272 : Introduction a l’econometrie

Tests diagnostics

Steve Ambler∗

Departement des sciences economiques

Ecole des sciences de la gestion

Universite du Quebec a Montreal

c©2018 : Steve Ambler

Hiver 2018

∗Ces notes sont en cours de developpement. J’ai besoin de vos commentaires et de vos sug-gestions pour les ameliorer. Vous pouvez me faire part de vos commentaires en personne ou enenvoyant un message a [email protected].

1

mailto:[email protected]

Table des matieres

1 Introduction 4

2 Diagnostics informels 7

2.1 Residus versus valeurs predites . . . . . . . . . . . . . . . . . . . 8

2.2 Graphique Q–Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Diagramme de variable ajoutee . . . . . . . . . . . . . . . . . . . 10

2.4 Diagramme de residus partiels . . . . . . . . . . . . . . . . . . . 12

2.5 Residus Normalises . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.6 La Matrice H . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.7 Residus � studentises de facon externe � . . . . . . . . . . . . . . 19

3 Sensibilite a des observations particulieres 19

3.1 Effets de levier . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2 DFFITSi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 DFBETASj,(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4 COVRATIO(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.5 Distances de Cook . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.6 Residus studentises . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 Trois Commandes utiles : plot(·), influence.measures(·) et

influence(·) 25

4.1 Niveaux seuils . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2

5 Tests diagnostics formels 27

5.1 Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.2 Test Reset de Ramsey . . . . . . . . . . . . . . . . . . . . . . . . 29

5.3 Normalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.4 Independance des erreurs . . . . . . . . . . . . . . . . . . . . . . 33

6 Multicollinearite 33

7 Endogeneite 37

7.1 Tests d’endogeneite . . . . . . . . . . . . . . . . . . . . . . . . . 40

8 Un exemple detaille avec R 49

3

1 Introduction

Ce chapitre a pour but de presenter de facon relativement informelle quelques

tests diagnostics qui sont utilises couramment en econometrie appliquee.

Les tests diagnostics ont ete concus pour detecter des problemes relies aux

hypotheses statistiques de base du modele de regression lineaire. Si ces

hypotheses ne sont pas confirmees, les conclusions auxquelles on arrive en

estimant un modele de regression peuvent etre trompeuses.

Je commence avec une citation de Fox (2009), qui ecrit � Linear and generalized

linear models make strong assumptions about the structure of data, assumptions

that often do not hold in applications. Especially in small samples, these models

can also be sensitive to unusual data ; in extreme cases, the results might be

determined by one or a very small number of observations. It is therefore

important to examine data carefully, both prior to and after fitting a regression

model to the data. �

Un des buts principaux de ces tests est de detecter la presence d’observations

influentes, des observations qui ont un impact majeur sur les coefficients estimes

d’un modele ou sur les valeurs predites de la variable dependante.

Si on detecte la presence de telles observations, on peut aussi essayer d’en

expliquer la cause. Parfois il s’agit tout simplement d’une erreur dans la saisie

des donnees. Il peut aussi y avoir des causes plus profondes. Il y a aussi plusieurs

remedes possibles. On peut changer la forme fonctionnelle du modele (utiliser,

par exemple, une ou plusieurs variables mesurees en logs et non en niveau), et on

4

peut aussi laisser tomber la ou les observation(s) influente(s). Dans le dernier cas,

le fait de laisser tomber des observations devrait faire partie du rapport qui est

redige pour expliquer le modele estime et les resultats d’estimation.

Le livre de Stock et Watson met beaucoup d’accent sur le fait q’avec les donnees

utilisees en econometrie appliquee les termes d’erreur ne suivent pas forcement

une distribution normale avec variance constante. Par contre, ils mettent peu

d’accent sur des methodes qui permettraient de verifier les hypotheses nulles de

normalite ou d’homoscedasticite. Il n’y a pas beaucoup, d’ailleurs, sur les facons

d’evaluer un modele de regression donne ou de detecter des problemes avec un

modele de regression donne. (a part le chapitre 9 dans la version en anglais sur la

validite interne et la validite externe).

Ce chapitre est base sur les articles de Boomsma (2014) et de Fox (2009), et

surtout sur le quatrieme chapitre de Kleiber et Zeileis (2008). Voir le chapitre de

references pour plus de details.

J’ai aussi utilise quelques articles utiles provenant de Wikipedia :

1. Breusch-Pagan Test

2. Cook’s Distance

3. Errors-in-Variables Models

4. Hat Matrix

5. Heteroscedasticity

6. Leverage (Statistics)

7. Multicollinearity

5

8. Normality Test

9. Normal Probability Plot

10. Q-Q Plot

11. Ramsey Reset Test

12. Studentized Residual

13. White Test

Il y a d’abord une section sur les diagnostics informels, qui sont essentiellement

de deux types (pas forcement exclusifs).

1. Il y a d’abord des diagnostics qui passent par une analyse (graphique ou

algebrique) des residus d’un modele de regression.

2. Dans la sous-section qui suit, il y a des diagnostics qui ont pour but de

detecter des observations qui ont une influence demesuree sur les resultats

de l’estimation (sur les valeurs des coefficients estimes, les valeurs

predites de la variable dependante, sur la variance estimee de l’erreur ou

des coefficients, etc.).

Lorsque j’ecris � diagnostics informels � je veux dire qu’il ne s’agit pas de

statistiques qui suivent des lois connues que l’on pourrait utiliser formellement

pour tester une hypothese nulle quelconque. Ce sont plutot des techniques que

l’on peut utiliser pour detecter des problemes potentiels dans la specification

(choix de variables explicatives, choix de forme fonctionnelle, etc.) d’un modele

econometrique.

Par la suite, il y a une section sur les tests plus formels.

6

1. Des tests de l’hypothese nulle de l’homoscedasticite.

2. Des tests formels de la forme fonctionnelle du modele de regression qui

peuvent permettre de detecter des non-linearites.

3. Des tests de l’hypothese de la normalite du terme d’erreur.

4. Une sous-section sur la question de la multicollinearite.

5. Une courte sous-section sur l’independance des erreurs (un sujet plus

pertinent dans le cadre des series chronologiques).

6. Une sous-section sur la question de l’endogeneite, qui nous porte aux

frontieres de la matiere du cours.

2 Diagnostics informels

• Il y a un certain nombre d’outils diagnostics bases sur les residus de

l’estimation d’un modele de regression lineaire.

• Il y a aussi des outils diagnostics qui dependent du fait que les residus

d’un modele de regression estime par moindres carres ordinaires ne sont

pas independants et n’ont pas une variance constante, meme si les erreurs

du modele sont independantes et homoscedastiques. Ces outils sont bases

sur l’utilisation de residus normalises, un sujet auquel nous reviendrons

plus tard.

7

2.1 Residus versus valeurs predites

• Nous avons deja vu qu’un graphique avec les ui ou les u2i sur l’axe

vertical et les Yi sur l’axe horizontal peut etre une facon de detecter la

presence de l’heteroscedasticite.

• Au lieu de mesurer les valeurs des residus sur l’axe vertical, il est aussi

possible de mesurer les valeurs des residus au carre afin de detecter de

maniere visuelle l’heteroscedasticite.

• Un probleme potentiel avec ces methodes informelles est que meme si les

erreurs du modele de regression sont homoscedastiques et independantes

(autrement dit les donnees proviennent d’un echantillon i.i.d.), les residus

du modele de regression auront une variance non constante et ne seront

pas independants les uns par rapport aux autres. Pour cette raison, on

travaille souvent avec les residus normalises, un concept auquel nous

allons revenir plus tard.

2.2 Graphique Q–Q

• L’idee de base est de comparer la distribution de probabilite des residus

d’un modele de regression avec une distribution normale theorique.

• Il s’agit d’une methode informelle pour analyser l’hypothese que les

erreurs du modele suivent une distribution normale.

• Le � Q � est cense faire penser a quantile.

• On compare les quantiles de deux distributions de probabilite sur un

8

graphique.

• Notez que si φ(·) est la fonction de distribution normale cumulee, la

fonction φ−1 donne les quantiles de la normale cumulee.

• Si les deux distributions sont identiques, les points se retrouveront sur une

droite avec une pente de 45 degres.

• S’il y a une relation lineaire entre les deux distributions, les points se

retrouveront sur une droite.

• La fonction en R qqnorm(x) ou x est un vecteur de realisations d’une

variable aleatoire cree un graphique qui compare x a une distribution

normale theorique.

• Deux distributions normales peuvent differer dans leurs moyennes et dans

leurs variances, et donc il doit y avoir une relation lineaire entre les deux.

Pour cette raison, si on compare la distribution empirique des residus

avec une normale centree reduite theorique, les points devraient se

retrouver sur une droite.

• La fonction en R plot(model,which=2) fait la meme chose pour les

residus d’un modele estime avec la commande model < − lm(·).

Nous allons voir plus loin que la fonction plot(·) avec le nom d’un

modele estime pourra sortir automatiquement plusieurs graphiques

interessants pour detecter des problemes potentiels associes a un modele

estime.

9

2.3 Diagramme de variable ajoutee

• Le but est de detecter si l’impact d’une variable individuelle (dans un

modele de regression multiple) est bien capte par une relation lineaire.

• Il est difficile de faire ceci avec un graphique des residus contre la

variable explicative, parce qu’il faut tenir constantes les valeurs de toutes

les autres variables explicatives (en les egalisant a leurs moyennes

echantillonnales par exemple).

• Ce que l’on voudrait faire c’est de regarder l’impact d’une variable

individuelle sur la variable dependante, ayant purge l’impact de toutes les

autres variables sur la variable dependante. Un diagramme de variable

ajoutee nous permet de faire ceci.

• On procede de la facon suivante pour pouvoir tracer un � diagramme de

variable ajoutee � pour la variable explicative Xj .

1. On estime un modele de regression multiple avec Y comme variable

dependante et toutes les autres variables a part Xj comme variables

explicatives. On sauvegarde les residus de cette estimation. Appelons

ces residus uy.

2. On estime un modele de regression multiple avec Xj comme variable

dependante et toutes les autres variables explicatives a part Xj

comme variables explicatives. On sauvegarde les residus de cette

estimation. Appelons ces residus uj .

3. On cree un graphique avec uy sur l’axe vertical et uj sur l’axe

10

horizontal.

4. On peut aussi estimer le modele de regression simple suivant :

uyi = γ0 + γ1uji + εi.

Il est egalement possible d’ajouter la ligne de regression au graphique

qu’on vient de creer, avec la commande habituelle abline(·)

• Le theoreme Frisch-Waugh-Lovell (voir le chapitre des notes de cours sur

le modele de regression multiple ou bien l’article de Lovell 2010) nous

dit que le coefficient estime γ1 doit etre identique a βj du modele initial

(cela veut dire le modele de regression multiple incluant toutes les

variables explicatives y compris Xj). L’interpretation est la suivante : la

regression simple donne l’effet de Xj sur Y , lorsque les impacts des

autres variables sur Y et sur Xj) sont purges.

• Pour cette raison, le graphique devrait nous permettre de reperer si la

relation (partielle) entre Y et Xj est vraiment lineaire.

• Avec R, la commande avPlots(·) (provenant du package car), ou

l’argument est un objet contenant les resultats d’estimation d’un modele

de regression, cree automatiquement des diagrammes de variable ajoutee

pour toutes les variables explicatives d’un modele de regression multiple.

Voir aussi ci-dessous.

11

2.4 Diagramme de residus partiels

• Il s’agit d’un graphique avec ui + βjXji sur l’axe vertical et Xji sur l’axe

horizontal.

• Notez que la pente de la relation entre ces deux variables est donnee par

βj .

• Selon Boomsma (2014, page 19), ces diagrammes sont plus utiles pour

detecter les non-linearites, tandis que les diagrammes de variable ajoutee

sont plus utiles pour detecter les observations aberrantes et influentes.

� Partial residual plots are better for the detection of linearity, added

variable plots are better for the detection of outliers and influential data

points. �

• Dans R, la commande prplot(·,x) qui provient du package faraway

permet de generer automatiquement des graphiques de residus partiels

pour un modele estime. Le premier argument de la commande est le nom

du modele estime. Le deuxieme argument est le nombre de la variable

explicative.

2.5 Residus Normalises

• Notez que meme si les erreurs d’un modele de regression sont

homoscedastiques, c’est a dire Var (ui|X) = σ2, les residus (qui sont un

vecteur de variables aleatoires) ne le sont pas.

• En fait, les residus ne peuvent etre independants puisqu’ils doivent

12

satisfaire les restrictions suivantes :

X ′U = 0.

• Cette equation est tout simplement la propriete d’orthogonalite que nous

avons montree a plus d’une reprise en classe.

• Puisque la premiere colonne de X est un vecteur ou tous les elements

sont egaux a un, on sait que la somme des residus est zero.

• Cette propriete orthogonalite impose des relations algebriques exactes

(en fait k + 1 relations exactes) entre les residus qui les empechent d’etre

independantes au sens statistique du terme.

• Supposons au depart que Var (ui|X) = Var (ui) = σ2u. Autrement dit, les

erreurs sont homoscedastiques. Nous supposons aussi (bien sur) que

E (U |X) = 0.

• Nous avons

U ≡ Y −Xβ = Y −X (X ′X)−1X ′Y

=(I −X (X ′X)

−1X ′)Y

≡ (I −H)Y

ou nous avons utilise la definition

H ≡ X (X ′X)−1X ′.

13

La matrice (I −H) est symetrique et idempotente, ce qui veut dire

(I −H)′ = (I −H)

et

(I −H) (I −H) = (I −H) ,

ou ces deux proprietes sont faciles a verifier (je laisse ceci comme un

exercice).

Nous voulons maintenant calculer la variance (conditionnelle) du vecteur

des residus U . Puisque U est un vecteur de dimensions n× 1, il s’agit

d’une matrice variance-covariance de dimensions n× n. Nous avons

E(U U ′|X

)= E ((I −H)Y Y ′ (I −H) |X)

= E((I −H) (Xβ + U) (Xβ + U)′ (I −H) |X

)= (I −H)Xββ′X ′ (I −H)

+E ((I −H)XβU ′ (I −H) |X)

+E ((I −H)Uβ′X ′ (I −H) |X)

+ (I −H) E (UU ′|X) (I −H) .

= (I −H)Xββ′X ′ (I −H)

14

+ (I −H) E (UU ′) (I −H)

= (I −H) E (UU ′) (I −H)

puisque (I −H)X = 0 (ceci est facile a verifier), et X ′ (I −H) = 0.

Dans le cas homoscedastique, nous avons

E(U U ′|X

)= (I −H)σ2I (I −H)

= σ2 (I −H) (I −H)

= σ2 (I −H) ,

ou nous avons utilise le fait que la matrice (I −H) est symetrique et

idempotente.

• Ce resultat montre que les residus ont des variances qui dependent des

elements diagonaux de (I −H) meme si les erreurs sont

homoscedastiques.

• On definit les residus � normalises � (ou � studentises de facon

interne �) de la facon suivante :

ri ≡ui

σ√

1− hii

ou σ est l’ecart type de la regression ou (comme d’habitude)

σ2 ≡ 1

n− k − 1

n∑i=1

u2i

15

et les hii sont les elements sur la diagonale de H . On parle de

� studentises de facon interne � puisqu’on utilise toutes les observations

de l’echantillon pour estimer l’ecart type de la regression, par opposition

aux residus � studentises de facon externe � . Nous reviendrons a ce

dernier sujet un peu plus tard.

• Puisque (meme dans le cas de l’homoscedasticite) la variance des residus

n’est pas constante, l’idee ici est de normaliser les residus en divisant par

un estime de leurs ecarts types.

• De cette facon, un graphique avec les residus normalises ou avec les

residus normalises au carre sur l’axe vertical et avec la variable

dependante ou avec une des variables explicatives sur l’axe horizontal

peut faire ressortir mieux si l’hypothese de l’homoscedasticite tient ou

non.

• On peut calculer les residus normalises en R a l’aide de la commande

rstandard(·). L’argument de la commande est l’objet utilise pour

sauvegarder les resultats d’estimation d’un modele de regression lineaire.

• Si les hypotheses statistiques derriere le modele tiennent (y compris

l’homoscedasticite des erreurs), il devrait etre le cas que Var (ri|X) = 1

et il devrait aussi etre le cas que Corr (ri, rj|X) a tendance a etre faible

(Kleiber et Zeileis 2008).

• Dans les sections qui suivent, la plupart des mesures utilisees sont basees

sur les residus normalises et non sur les residus eux-memes.

16

2.6 La Matrice H

• Pour un article tres abordable, voir Johnson (2006).

• La matrice H a ete definie dans la sous-section precedente.

• �H � est cense faire penser a � hat � (chapeau).

• La matrice H est utilisee aussi pour calculer les distances de Cook et pour

mesurer les effets de levier (voir plus loin).

• Il est possible de montrer que l’on peut exprimer les valeurs predites de la

variable dependante comme

Yj = h1jY1 + h2jY2 + . . .+ hnjYn =n∑i=1

hijYi.

• Pour montrer ceci, nous avons par definition

Y ≡ Xβ = X (X ′X)−1X ′Y = HY,

qui est un vecteur de dimensions (k + 1)× 1. Yj est l’element j + 1 de ce

vecteur. Avec un petit abus de notation, si on appelle les elements de la

rangee j + 1 de H comme [h1j, h2j, . . . , hnj], alors nous avons

Yj = h1jY1 + h2jY2 + . . .+ hnjYn.

• Ainsi, le poids hij capte la contribution de l’observation Yi a la valeur

predite Yj .

17

• On peut montrer que

hii =n∑j=1

hij2,

et donc la valeur hii resume l’influence potentielle de l’observation Yi sur

toutes les valeurs predites Yj .

• On peut montrer que1

n≤ hii ≤ 1.

• On peut aussi montrer que la valeur moyenne des hii est donnee par

1

n

n∑i=1

hii ≡ h =k + 1

n.

• Il est possible de montrer que, dans le modele de regression simple,

hii =1

n+

(Xi − X

)2∑nj=1

(Xj − X

)2 ,ce qui a l’interpretation de la distance de Xi par rapport a la moyenne

echantillonnale X , normalisee par la somme des distances des Xj par

rapport a la moyenne echantillonnale X .

• Les hii peuvent etre calcules en R avec la commande hatvalues(·) ou

l’argument de la commande est un modele estime avec la commande

lm(·).

• Pour plus de details sur les proprietes de la matrice H voir Hoaglin et

Welsch (1978).

18

2.7 Residus � studentises de facon externe �

• Il s’agit d’une autre facon d’estimer l’ecart type de la regression. Dans

l’analyse ci-dessous sur la sensibilite a des observations particulieres, si

on soupconne qu’une observation est aberrante, on est parfois mieux

d’exclure cette observation du calcul de la variance estimee du terme

d’erreur.

• On definit les residus studentises de facon externe de la facon suivante :

ri(i) ≡ui

σ(i)√

1− hii

avec

σ2(i) ≡

1

n− k − 2

∑j 6=i

u2j .

On exclut l’ie observation de notre estime de la variance du terme

d’erreur.

3 Sensibilite a des observations particulieres

• Nous avons maintenant defini et interprete la matrice H et ces elements,

qui seront utilises dans les definitions de certaines des mesures qui

suivent.

• Il y a quelques techniques informelles d’essayer de detecter des

observations aberrantes ou influentes, qui ont une influence

preponderante sur les resultats de l’estimation.

19

• L’idee de base est d’analyser ce qui arrive si on laisse tomber une seule

observation de l’echantillon.

• On peut mesurer l’impact ou bien sur les coefficients estimes ou bien sur

la valeur predite de la variable dependante.

• Definissons β(i) comme le vecteur de parametres estimes apres avoir

laisse tomber l’observation i de l’echantillon, et Y(i) le vecteur de valeurs

predites de la variable dependante apres avoir laisse tomber l’observation

i de l’echantillon.

3.1 Effets de levier

• L’effet de levier de l’observation i est donne tout simplement par la valeur

de hii.

• Parmi les autres proprietes de H ,

0 ≤ hii ≤ 1,

trace (H) ≡n∑i=1

hii = k + 1,

ou (k + 1) est le nombre de variables explicatives dans le modele.

• Comme regle approximative, des valeurs au moins trois fois la valeur

moyenne peuvent etre considerees indicatrices d’observations aberrantes

ou influentes, la valeur moyenne etant donnee par k+1n

.

20

3.2 DFFITSi

• Definition :

DFFITi ≡ Yi − Y(i).

• Cette mesure calcule l’impact d’omettre l’observation i sur la valeur

predite de la variable dependante (aussi de l’observation i).

• Une grande valeur est un indice que l’observation est aberrante ou

influente.

• Pour savoir si la valeur du changement est � grande � ou non, il est utile

de normaliser le changement par un estime de l’ecart type du terme

d’erreur du modele. Cette mesure normalisee s’appelle DFFITSi.

• Definition :

DFFITSi ≡Yi − Y(i)σ(i)√hii

ou comme nous avons vu dans la section 2.7 σ(i) est l’ecart type de la

regression estime sans l’observation i :

σ2(i) ≡

1

n− k − 2

∑j 6=i

u2j ,

• Donc DFFITSi par opposition a DFFITi normalise par un estime de

quelque chose qui est relie a l’ecart type de l’erreur de l’observation i, et

donc on l’appelle parfois le DFFIT studentise.

• Notez que nous normalisons par σ(i)√hii (qui depend de l’effet de levier

hii) et non par σ(i)√

1− hii.

21

• L’interpretation est l’impact normalise d’omettre l’observation i sur la

valeur predite de la variable dependante.

• Comme regle approximative, les points ou la mesure depasse 2×√

k+1n

sont a signaler comme des observations influentes.

3.3 DFBETASj,(i)

• Pour le coefficient βj , on definit DFBETAj,(i) comme

DFBETAj,(i) ≡ βj − βj,(i).

• C’est une mesure de l’impact de laisser tomber l’observation i sur la

valeur du coefficient estime j.

• Pour le coefficient βj , on definit DFBETASj,(i) comme

DFBETASj,(i) ≡βj − βj,(i)

σ√

(X ′X)−1jj

ou (X ′X)−1jj est l’element dans la je colonne et la je rangee de l’inverse

de (X ′X). En fait, puisque dans la notation de Stock et Watson, βj est la

je variable explicative a part la constante, (X ′X)−1jj doit etre l’element

dans la colonne j + 1 et la rangee j + 1 de la matrice (X ′X).

• La difference entre DFBETAj,(i) et DFBETASj,(i) est semblable a la

difference entre DFFITi et DFFITSi. Avec le � S � a la fin cela signifie

que l’on normalise par quelque chose qui est relie a un estime de l’ecart

22

type.

• Une valeur superieure a 2/√n est consideree � suspicieuse �.

3.4 COVRATIO(i)

• C’est une mesure de l’impact de laisser tomber l’observation i sur la

matrice variance-covariance des coefficients estimes du modele.

• Voici la definition :

COVRATIO(i) ≡det(σ2(i)

(X ′(i)X(i)

)−1)det(σ2 (X ′X)−1

)ou det (·) est le determinant d’une matrice.

• La definition de σ2(i) est donnee ci-dessus. Ici

(X ′(i)X(i)

)utilise la matrice

d’observations sur toutes les variables explicatives mais en excluant

l’observation i.

• Il faut reduire la mesure de l’impact sur la matrice variance-covariance en

un scalaire. C’est pour cette raison que l’on utilise le determinant.

• Il est difficile de trouver dans la litterature des consignes sur les valeurs

de cette mesure qui sont � problematiques �. Bellesley, Kuh et Welsch

(1980) suggerent que des valeurs de∣∣COVRATIO(i) − 1

∣∣ plus grandes

que 2√

(k + 1)/n signalent des observations a investiguer comme

potentiellement influentes.

23

3.5 Distances de Cook

• Definition : pour l’observation i, La distance de Cook est definie comme

Di =

(Y − Y(i)

)′ (Y − Y(i)

)(k + 1)σ

ou (k + 1) est le nombre total de parametres estimes et σ est l’ecart type

de la regression. Ici, Y est le vecteur de toutes les n valeurs predites de la

variable dependante avec toutes les variables explicatives dans le modele,

et Y(i) est le vecteur de toutes les n valeurs predites de la variable

dependante en laissant tomber la ie observation de l’echantillon.

• L’interpretation de la distance de Cook est la suivante. Elle mesure

l’impact sur les valeurs predites de Y si on laisse tomber la ie observation.

Elle ressemble a la mesure DFFITSi mais elle utilise une autre facon de

normaliser et elle calcule la somme des tous les changements des valeurs

predites au carre lorsqu’on laisse tomber l’observation i de l’echantillon.

• Dans le modele de regression simple, on peut montrer que les definitions

suivantes sont equivalentes algebriquement :

Di =u2i

(k + 1)σ

[hii

(1− hii)2

],

Di =

(β − βi

)′(X ′X)

(β − βi

)(1 + k + 1)σ2

ou βi est le vecteur (entier) de parametres estimes en omettant

24

l’observation i de l’echantillon.

3.6 Residus studentises

• Definition :

ti ≡ui

σ(i)√

1− hii

(ou σ(i) a la meme definition que dans la sous-section sur DFFIT), qui a

l’interpretation de l’ecart type estime de l’erreur en excluant l’observation

i.

• La justification de cette mesure (par rapport aux residus normalises

definis plus haut) est que si on veut juger si l’observation i est une

observation aberrante ou non, il est mieux d’exclure cette observation de

l’estimation de la variance.

• La commande en R rstudent(·) ou comme d’habitude l’argument est

le nom du modele estime va calculer les residus studentises

automatiquement.

4 Trois Commandes utiles : plot(·),

influence.measures(·) et influence(·)

• Une commande qui rend les calculs des sous-sections precedentes a

toutes fins pratiques automatiques est la commande plot(·) lorsque

l’argument de la commande est un objet qui contient les resultats d’une

25

estimation d’un modele de regression lineaire par la commande lm(·).

• Une autre commande tres utile : influence.measures(·) (une

commande dans le package stats), qui calcule entre autres les distances

de Cook et les mesures DFFITS et DFBETAS.

• La commande summary(influence.measures(·)), ou

l’argument est un modele estime, va indiquer toutes les observations

influentes selon au moins un des criteres. Donc, une seule commande en

R peut etre utilisee pour reperer les observations potentiellement

influentes ou aberrantes.

• La commande influence(·), toujours ou l’argument est un modele

estime va calculer les resultats suivants :

1. hat : un vecteur dont les elements sont les hii, les elements sur la

diagonale de la matrice H .

2. coefficients : une matrice ou l’ie rangee donne le changement

des coefficients estimes lorsqu’on laisse tomber l’ie observation de

l’echantillon. Autrement dit, c’est une matrice qui contient tous les

DFBETAj,(i) (pour toutes les valeurs possibles de j).

3. sigma : un vecteur dont l’ie element contient un estime de l’ecart

type de l’erreur de l’equation lorsqu’on laisse tomber l’ie observation

de l’echantillon.

4. wt.res : un vecteur de residus resultant de l’estimation du modele

par la methode des moindres carres ponderes. Voir la section 17.5 du

26

manuel pour plus de details.

4.1 Niveaux seuils

• J’ai fait allusion ci-dessus a des valeurs qui sont indicatives de problemes

potentiels. Voici un resume qui provient de Liu, Milton et McIntosh (sans

date).

• Comme nous avons vu, avec la commande en R

summary(influence.measures(·)), le logiciel va signaler toutes

les valeurs qui sont a surveiller selon au moins une des mesures.

Fonction Description SeuilDFFITS changement des valeurs predites > 2 ∗

√k + 1/n

DFBETAS changement des coefficients > 2/√n

COVRATIO changement de la matrice VCOV > (1 + 3 ∗ (k + 1)/n)(determinant) < (1− 3 ∗ (k + 1)/n)

HATVALUES ecart standardise par rapport a la moyenne des X > 2 ∗ (k + 1)/nCOOK changement du vecteur des valeurs predites > 4/n

5 Tests diagnostics formels

5.1 Heteroscedasticite

• Il y a plusieurs tests pour detecter la presence de l’heteroscedasticite.

Pour tous ces tests, l’hypothese nulle est l’absence d’heteroscedasticite,

c’est a dire l’homoscedasticite.

27

• Les deux tests les plus frequemment utilises par les econometres sont les

tests Breusch-Pagan et White. Pour d’autres tests, voir l’article Wikipedia

� Heteroscedasticity �.

• Test Breusch-Pagan. Il s’agit d’un test de significativite de tous les

coefficients (sauf la constante) dans la regression

U2 = Xγ + ε

ou U2 est le vecteur de residus au carre.

• La commande bptest(·) utilise par defaut les residus normalises. Voir

help(bptest) a ce sujet.

• Test White. On regresse les residus au carre du modele estime sur toutes

les variables explicatives du modele, sur les produits de toutes les paires

de variables explicatives, et sur les variables explicatives au carre. On

peut montrer que la statistique nR2 suit une distribution chi-carre en

grand echantillon (asymptotiquement), ou le nombre de degres de liberte

est le nombre de parametres estimes dans le modele auxiliaire (celui avec

les residus au carre comme variable dependante). En R, la commande

white.test(·), provenant du package bstats, effectue le test sur un

modele estime (l’argument de la commande est l’objet ou les resultats de

l’estimation sont sauvegardes).

28

5.2 Test Reset de Ramsey

• Il s’agit d’un test pour evaluer la forme fonctionnelle d’un modele de

regression.

• Le but est de savoir s’il y a des combinaisons non lineaires des valeurs

predites qui ajoutent du pouvoir explicatif au modele. Si oui, c’est un

indice que la forme fonctionnelle (variables explicatives mesurees en

logs, en polynomes, en fonctions exponentielles, etc.) du modele estime

n’est pas adequat.

• Le test est concu pour detecter des non-linearites, mais non pour suggerer

la forme fonctionnelle exacte qui serait la plus appropriee.

• Malheureusement, si on detecte un probleme de non-linearite, il faut

modifier le modele estime, mais trouver la bonne facon de modifier le

modele demande une analyse approfondie de la question a laquelle on

essaie de repondre avec notre modele econometrique.

• On effectue le test en estimant le modele suivant :

Yi = γ0 + γ1X1i + γ2X2i + . . .+ γkXki

+δ1Y2i + δ2Y

3i + . . .+ δk−1Y

mi + εi.

• Ici, Y est le vecteur de valeurs predites de Y provenant de l’estimation du

modele

Yi = β0 + β1X1i + β2X2i + . . .+ βkXki + ui.

29

• On utilise une statistique F pour tester la significativite des coefficients δ.

• Le choix de l’ordre du polynome en Yi est arbitraire. On utilise souvent

seulement Yi au carre.

• Notez que l’hypothese nulle est que tous les termes non lineaires dans les

valeurs predites sont non significatifs. Donc, l’hypothese nulle est que la

specification initiale de l’equation est adequate.

• Puisque le test porte sur toutes les puissances de Yi, la multicollinearite

entre les puissances differentes ne devrait pas etre un probleme.

• L’utilisation du test Reset ne devrait pas remplacer un examen detaille par

d’autres moyens (graphiques ou autres).

• Dans R, la commande resettest(model, power = ·) effectue le

test. Il faut fournir le nom du modele estime (premier argument) et aussi

les degres du polynome dans les valeurs predites Yi (deuxieme argument).

• La commande fait partie du package lmtest.

5.3 Normalite

• Test Shapiro-Wilk. L’hypothese nulle est que l’echantillon provient d’une

distribution normale. La statistique est definie comme

W ≡(∑n

i=1 aix(i))2∑n

i=1 (xi − x)2

ou x(i) est l’observation i de l’echantillon ou les observations ont ete

classees dans l’ordre (c’est donc l’ie statistique d’ordre) et les ai sont

30

definis par

a = (a1, . . . , an) ≡ m′V −1

(m′V −1V −1m)1/2

ou

m = (m1, . . . ,mn)′

sont les valeurs anticipees des statistiques d’ordre de variables i.i.d.

provenant d’une loi normale centree reduite et V est la matrice

variance-covariance de ces statistiques d’ordre.

• Le test peut etre effectue en R avec la commande shapiro.test(·),

provenant du package stats, ou l’argument est le vecteur de residus

d’un modele de regression.

• Ce sont des petites valeurs de la statistique qui menent au rejet de

l’hypothese nulle. L’article de Shapiro et Wilk (1965) a une table de

points de la distribution cumulee de la statistique.

• Le test shapiro.test(·) en R calcule la p-value du test.

• La commande shapiro.test(·) est incluse dans le package stat.

• Test Jarque-Bera. Le test combine des mesures empiriques de l’asymetrie

et de l’aplatissement en une seule mesure. La statistique est definie de la

maniere suivante :

JB ≡ n

6

(S2 +

1

4(K − 3)2

)

31

ou (dans le contexte des residus d’un modele de regression)

S ≡ µ3

σ3=

1n

∑ni=1 (ui)

3(1n

∑ni=1 (ui)

2)3/2et

K ≡ µ4

σ4=

1n

∑ni=1 (ui)

4(1n

∑ni=1 (ui)

2)2 ,ou µ3 et µ4 sont des estimes des troisieme et quatrieme moments centres

des residus et σ2 est un estime de la variance des residus. Notez que dans

tous ces cas nous sommes en train d’utiliser des moments centres

puisque de toute facon la somme des residus d’une regression est par

construction egale a zero.

• La statistique JB suit (approximativement ou en grand echantillon) une

distribution chi-carre avec deux degres de liberte. L’hypothese nulle est la

normalite.

• Une grande valeur de la statistique calculee mene au rejet.

• En R, le test Jarque-Bera peut etre effectue avec la commande

jarque.bera.test(·) provenant du package tseries, ou

l’argument de la commande est une serie de donnees. La commande

calcule automatiquement la p-value du test.

32

5.4 Independance des erreurs

• Ce sujet est beaucoup plus pertinent dans le cas ou les donnees sont des

series chronologiques. Il s’agit de tests pour detecter la presence

d’autocorrelation dans les erreurs.

• Sans une etude du chapitre sur les series chronologiques il est difficile

d’elaborer sur ce sujet.

• Les tests cles dans cette sous-section sont le test Durbin-Watson, la

statistique h de Durbin, et le test Breusch-Godfrey.

• Pour des precisions sur le test Durbin-Watson et le test Breusch-Godfrey,

voir la documentation du package lmtest. Pour des precisions sur la

statistique h de Durbin, voir la documentation du package ecm.

6 Multicollinearite

• Voir Giles (2011, 2013f). Giles est assez sarcastique au sujet de la

multicollinearite, surtout dans son article de 2011. Il cite le manuel de

Goldberger qui a une section sur le probleme de

� micronumerosity � dans le cadre de l’estimation de la moyenne d’une

variable aleatoire : � A generally reliable guide may be obtained by

counting the number of observations. Most of the time in econometric

analysis, when n is close to zero, it is also far from infinity. �

• L’interpretation : le probleme de la multicollinearite survient puisque

nous n’avons pas assez d’observations pour distinguer entre les impacts

33

de variables explicatives differentes.

• Comme nous avons deja vu, la multicollinearite (lorsqu’elle n’est pas

parfaite) est une propriete de l’echantillon de donnees qui est a notre

disposition. Tel que suggere par Giles et Goldberger, puisque c’est une

propriete de l’echantillon que nous avons, il n’y pas forcement un remede

au probleme.

• Detection de la multicollinearite :

1. Changements importants dans les valeurs estimees de coefficients lors

de l’ajout ou du retrait d’une ou plusieurs variables.

2. Coefficients non significatifs individuellement mais significatifs en

bloc.

3. � Variance inflation factor � :

VIF ≡ 1

1−R2j

ou R2j est l’ajustement statistique d’une regression ou la variable

explicative j est la variable dependante et les variables explicatives

sont toutes les autres variables explicatives du modele. On appelle(1−R2

j

)la � tolerance �. La commande en R vif(·) permet

d’evaluer ce critere pour un modele estime.

4. Conditionnement de X ′X . Racine carree du ratio de la plus grande

valeur caracteristique sur la plus petite valeur caracteristique.

Generalement on dit que chiffre est superieur a 30 c’est un indice

34

qu’il y a un probleme potentiel.

5. Test Farrar-Glauber. Base sur Farrar et Glauber (1967). Giles (2013f)

est assez critique a l’egard de ce test. Il note que dans l’article

original, les auteurs font l’hypothese que les variables X suivent une

distribution normale multivariee. Le test peut etre interprete comme

un test des correlations entre les variables dans X dans la population.

Mais l’echantillon de donnees que nous avons est celui que nous

avons.

6. Construction d’une matrice de correlations. Un coefficient de

correlation elevee entre deux variables explicatives potentielles

indique un probleme possible.

• Consequences de la multicollinearite.

1. Dans des cas extremes, l’ordinateur pourrait avoir des difficultes

(numeriques) a inverser la matrice X ′X .

2. L’estime de l’impact d’une des variables sur la variable dependante

peut devenir beaucoup moins precis.

3. La multicollinearite peut aggraver les effets de variables omises.

• Remedes possibles.

1. Verifier la presence de la trappe aux variables dichotomiques.

2. Essayer de reestimer le modele utilisant un sous-echantillon des

donnees.

35

3. Ne rien faire. Les donnees sont ce qu’elles sont, et essayer de faire

parler les donnees lorsqu’elles sont muettes sur la question que nous

leur posons.

4. Laisser tomber une variable. Attention au probleme du biais du aux

variables omises !

5. Obtenir davantage d’observations si possible.

6. Centrer les variables explicatives en soustrayant leurs moyennes.

7. Renormaliser les variables explicatives, par exemple en changeant les

unites de mesure pour que les variables explicatives soient d’un ordre

de grandeur comparable. Ceci peut affecter le conditionnement de la

matrice (X ′X).

8. Utiliser la technique de la regression pseudo-orthogonale (ridge

regression en anglais). C’est un sujet qui est au-dela de la matiere du

cours a part son idee de base. L’idee de base est d’utiliser l’estimateur

β ≡ (X ′X + Γ′Γ)−1X ′Y,

ou souvent la matrice Γ est une matrice diagonale definie comme

Γ ≡ αI

ou α est une constante arbitraire. L’ajout de cette matrice introduit un

biais et donc E(β)6= β, mais peut reduire la variance de

36

l’estimateur. Pour cette raison, le resultat dans certains cas peut etre

un estimateur avec une erreur quadratique moyenne inferieure a celle

de l’estimateur MCO (qui est un cas special de cet estimateur avec

α = 0). En general, la taille du biais de l’estimateur augmente avec la

valeur de α et la variance diminue (voir la section 1.4.3 de van

Wieringen 2018). Il y a donc un arbitrage entre biais et variance.

Malheureusement, il est impossible de connaıtre a priori la valeur

exacte de α qui va minimiser l’erreur quadratique moyenne.

9. Si les variables explicatives qui sont correlees sont des retards (dans le

contexte de donnees qui sont des series chronologiques), on peut

utiliser la technique des � retards distribues � qui impose une

structure sur les coefficients a estimer.

7 Endogeneite

• Ce sujet nous mene vraiment a la frontiere de la matiere du cours,

puisqu’il nous amene a parler de la technique d’estimation par variables

instrumentales. Le principe de base est (j’espere) relativement simple a

comprendre. Pour plus de details, voir le chapitre 12 du manuel de Stock

et Watson (version en langue anglaise). Il y a aussi un encadre a la fin de

cette section ou je developpe l’estimateur IV (variables instrumentales).

Les developpements algebriques dans l’encadre sont relativement

abordables.

37

• C’est une facon generale de resumer tout ce qui peut causer une

correlation non nulle entre les variables explicatives du modele et le

terme d’erreur. Nous avons deja vu en detail le probleme de variables

omises. Il y a d’autres sources possibles du probleme.

• Causes possibles de l’endogeneite.

1. Variable(s) omise(s). Nous avons vu ce probleme en detail.

2. Erreurs de mesure. La vraie variable explicative est Xj mais ce qu’on

mesure est donne par

Xj = Xj + ε

ou ε est un vecteur d’erreurs d’observation. Le vrai modele est

Yi = β0 + β1X1i + . . .+ βjXji + . . .+ βkXki + ui

et le modele estime est donne par

Yi = β0 + β1X1i + . . .+ βjXji + . . .+ βkXki + (ui − βjεi) .

Puisque Xji depend de εi, il y a evidemment une correlation non nulle

entre Xji et le terme d’erreur.

3. Simultaneite. Une variable exogene influence simultanement la

variable dependante Y et une ou plusieurs des variables explicatives.

L’influence de la variable exogene sur Y peut etre indirecte. Pensez au

probleme d’estimer la courbe d’offre du cafe. On pourrait estimer

38

l’equation suivante (ou l’echantillon d’observations porte sur la

quantite de cafe vendue dans des supermarches differents a des prix

possiblement differents) :

Yi = β0 + β1Xi + ui

ou Yi est la quantite de cafe et Xi est le prix par unite du cafe. Est-ce

que ceci est une courbe d’offre ou une courbe de demande? En fait, Yi

et Xi dependent en principe de facteurs exogenes et l’equation est ce

que l’on observe sont des combinaisons de quantites et de prix a

l’equilibre, l’equation est ce qu’on appelle une forme reduite et non

une equation structurelle. Pour estimer la courbe d’offre, il faut

trouver un facteur qui fait deplacer la courbe de demande (comme,

par exemple, le prix du the, un bien qui est substitut pour le cafe). Si

les seuls changements exogenes sont des variations du prix du the, on

pourra observer des combinaisons differentes de prix du cafe et de

quantites vendues de cafe qui resultent de deplacements de la courbe

de demande le long de la courbe d’offre. Ici, l’impact du prix du the

sur la quantite vendue du cafe est indirect. Il affecte la quantite

vendue du cafe parce qu’il affecte la demande pour le cafe. On verra

dans la section suivante sur les estimateurs a variables instrumentales

qu’une variable comme le prix du the serait un bon instrument a

utiliser pour estimer l’equation ci-dessus.

39

7.1 Tests d’endogeneite

Nous considerons dans cette sous-section le test Durbin-Hausman-Wu et la facon

relativement simple de l’effectuer qui provient du manuel de Woodridge (2009).

• Test Durbin-Hausman-Wu. Ce test depend de la construction d’un

estimateur a variables instrumentales. Nous developpons cette idee dans

l’encadre qui se trouve a la fin de cette section. Je conseille fortement la

lecture de cet encadre avant de lire plus loin.

1. Le test a pour but de tester si le probleme d’endogeneite est severe.

Pour le faire, il faut avoir identifie un ensemble d’instruments qui

permet d’obtenir un estimateur convergent de β.

2. Il faut avoir deux estimes differents du meme ensemble de

parametres : l’estimateur MCO β et l’estimateur IV (variables

instrumentales) βIV .

3. Sous l’hypothese nulle, les deux estimes sont convergents, et il y a un

estime (donne par l’estimateur MCO) qui est plus efficient que l’autre

(qui est donne par l’estimateur IV).

4. Sous l’hypothese alternative, le deuxieme estimateur est toujours

convergent, tandis que le premier est non convergent.

5. La statistique s’ecrit comme

DHW ≡(β − βIV

)′ (ΣβIV

− Σβ

)† (β − βIV

)

40

ou ΣβIVest l’estimateur convergent de la matrice variance-covariance

des parametres estimes par la methode IV et † denote l’inverse

generalisee Moore-Penrose (qui generalise la notion d’inverser une

matrice).

6. La statistique en grand echantillon (asymptotiquement) suit une

distribution chi-carre avec un nombre de degres de liberte egal au

rang de la matrice(

ΣβIV− Σβ

).

7. Le test peut etre effectue en R par le bias de la commande

hausman.systemfit(·) provenant du package systemfit. La

commande prend deux arguments, qui sont les resultats du modele

estime de deux facons differentes (MCO et IV dans l’exemple qui

nous preoccupe).

• Il y a une facon beaucoup plus facile d’effectuer le test. Voir la section

15.5 dans Wooldridge (2009).

1. Soit le modele lineaire donne par

Yi = β0 + β1W1,i + . . .+ βkWk,i + βk+1Xi + ui,

ou on sait que les variables W ne sont pas correlees avec le terme

d’erreur u tandis que la variable X est possiblement correlee avec le

terme d’erreur.

2. On a un ensemble de variables instrumentales qui comprennent les

variables dans le modele initial qui ne sont pas correlees avec U

41

(W1,W2, . . . ,Wk) plus possiblement d’autres variables.

3. Soit le modele auxiliaire donne par

Xi = γ0 + γ1W1,i + . . .+ γk2Wk2,i + εi,

ou k2 ≥ k + 1. Donc il doit y avoir au moins une variable

instrumentale qui n’est pas incluse dans le modele initial.

4. Par hypothese, les variables W ne sont pas correlees avec u, alors X

sera non correlee avec U si et seulement si l’erreur ε n’est pas correlee

avec u.

5. On voudrait inclure ε comme variable explicative additionnelle dans

le modele initial. On ne peut le faire puisque l’erreur n’est pas

observable, mais on peut inclure les residus d’une estimation du

modele auxiliaire par MCO. Donc, on estime le modele

Yi = β0 + β1W1,i + . . .+ βkWk,i + βk+1Xi + βk+2εi + ui.

Puisque ce n’est pas le meme modele que le modele initial, le terme

d’erreur n’est pas identique, et donc j’ai remplace ui par ui.

6. On teste l’hypothese nulle que βk+2 = 0 avec une statistique t. Si on

rejette l’hypothese nulle, on conclut que la variable X est endogene

(correlee avec le terme d’erreur U ) puisque ε et u sont correlees.

7. Il est possible de generaliser cette methode au cas ou il y a plus qu’une

42

variable qui est potentiellement endogene dans le modele initial.

Estimateur a variables instrumentales

Le developpement dans cet encadre est tres semblable a celui de l’encadre

sur l’interpretation alternative de l’estimateur MCO dans le chapitre sur le

modele de regression multiple.

On commence avec le modele lineaire habituel donne par

Y = Xβ + U.

On suppose maintenant qu’il n’est plus forcement le cas que

E (U |X) = 0.

Par contre, on suppose l’existence d’une matrice de dimensions n× k2 avec

k2 ≥ k + 1 et ou

E (U |W ) = 0.

Il s’agit d’une matrice d’observations sur k2 variables instrumentales qui ne

sont pas correlees avec le terme d’erreur du modele. Un instrument par

definition est une variable correlee avec les variables explicatives dans le

modele et non correlee avec le terme d’erreur du modele. Notez que s’il y a

43

des variables parmi les variables dans X qui ne sont pas conditionnellement

correlees avec U , ces variables peuvent etre incluses dans W .

Considerez maintenant le modele transforme

R′W ′Y = R′W ′Xβ +R′W ′U

ou R est une matrice de ponderations (nous reviendrons sur cette matrice un

peu plus tard). Nous pouvons pour l’instat considerer R comme une matrice

de constantes.

Laissant tomber le dernier terme du membre droit pour obtenir

R′W ′Y = R′W ′Xβ

Definissons maintenant l’estimateur IV (variables instrumentales) comme

βIV = (R′W ′X)−1R′W ′Y.

Nous avons tout de suite que

(R′W ′X)(βIV − β

)

= (R′W ′X) (R′W ′X)−1R′W ′Y − (R′W ′X) β

= (R′W ′X) (R′W ′X)−1R′W ′ (Xβ + U)− (R′W ′X) β

44

= R′W ′U.

Nos hypotheses concernant l’esperance conditionnelle du terme d’erreur a

tout de suite pour consequence que

1

nR′W ′U

p−→ 0

⇒ 1

n(R′W ′X)

(βIV − β

)p−→ 0

⇒(βIV − β

)p−→ 0.

Notez que dans le cas de l’estimateur IV, nous ne pouvons pas monter

l’absence de biais. Nous avons

βIV = (R′W ′X)−1R′W ′Y

= (R′W ′X)−1R′W ′ (Xβ + U)

= β + (R′W ′X)−1R′W ′U.

Nous pouvons calculer l’esperance de cet estimateur et appliquer, comme

d’habitude, la loi des esperances iterees pour obtenir

E(βIV

)= β + E

((R′W ′X)

−1R′W ′U

)

= β + E(

E(

(R′W ′X)−1R′W ′U |W

)).

45

Le probleme a ce stade-ci est la presence de X dans l’expression

(R′W ′X)−1R′W ′. Meme etant donnees les valeurs des W , le terme

(R′W ′X)−1R′W ′ est encore stochastique. Nous ne pouvons pas traiter

l’expression comme une matrice de constantes et, pour cette raison, l’ecrire

du cote gauche de l’operateur d’esperance (conditionnelle).

Donc, pour cette raison, l’estimateur IV est convergent mais il est

possiblement biaise en echantillons finis.

Justification alternative

Une autre facon de justifier l’estimateur βIV est la suivante. Si les

instruments W ne sont pas correles avec le terme d’erreur, nous avons

Y = Xβ + U

⇒ E (R′W ′Y ) = E (R′W ′ (Xβ + U))

= E ((R′W ′X) β) + E (R′W ′U)

= E (R′W ′X) β + E (R′W ′U)

= E (R′W ′X) β + E (E (R′W ′U |W ))

= E (R′W ′X) β

⇒ β = (E (R′W ′X))−1

(E (R′W ′Y )) .

46

Comme dans la section sur la justification alternative de l’estimateur MCO.

les vraies valeurs des β sont une fonction des esperances de R′W ′X et de

R′W ′Y , Un estimateur naturel serait de remplacer les moments dans la

population par leurs equivalents calcules avec notre echantillon de donnees.

Nous avons tout de suite

βIV =

(1

n− 1(R′W ′X)

)−1(1

n− 1(R′W ′Y )

)

= (R′W ′X)−1R′W ′Y.

C’est une autre exemple d’un estimateur dans la classe de la methode des

moments : on remplace les moments dans la population par les moments

echantillonnaux.

Estimateur des moindres carres a deux etapes

Si les erreurs U sont independantes et homoscedastiques, on peut montrer

que le choix optimal de R est donne par

R = (W ′W )−1W ′X,

qui a l’interpretation de la matrice de coefficients estimes d’une regression de

toutes les variables X sur les instruments W . (C’est une autre version encore

47

du theoreme Gauss-Markov.) Autrement dit, si on a

X = Wρ+ ε,

alors

R ≡ ρ = (W ′W )−1W ′X.

De cette facon

Wρ = WR ≡ X

a l’interpretation des valeurs predites des X provenant de cette regression.

Notez bien que ρ est une matrice de coefficients puisque X est une matrice

de dimensions (n× (k + 1)) au lieu d’etre un vecteur de dimensions (n× 1).

Dans ce cas, on a

βIV =(X ′W (W ′W )

−1W ′X

)−1X ′W (W ′W )

−1W ′Y.

≡(X ′X

)−1XY.

Dans ce cas, l’estimateur IV est connu sous le nom de l’estimateur moindres

carres a deux etapes (2SLS en anglais ce qui veut dire � two-stage least

squares �), la premiere etape etant la regression de toutes les variables

explicatives du modele initial sur toutes les variables instrumentales.

48

Quelques qualifications

Le probleme fondamental avec l’estimateur IV est la necessite d’identifier

des variables instrumentales appropriees. Ceci est un grand sujet de recherche

en econometrie (le nombre de papiers sur le probleme � d’instruments

faibles � est enorme). Le probleme essentiellement est de trouver des

variables qui non seulement ne sont pas correlees avec le terme d’erreur du

modele mais aussi sont fortement correlees avec les variables explicatives

dans le modele qui sont endogenes (correlees avec le terme d’erreur).

Une recherche Google ou Google Scholar avec les mots cles � weak

instruments � devrait suffire pour constater que c’est un sujet de recherche

tres actif.

8 Un exemple detaille avec R

Je donne ici un exemple tres simple de calculs que l’on peut effectuer rapidement

et facilement avec R.

L’exemple est base sur le quatrieme chapitre dans Kleiber et Zeileis (2008). Voir

le livre pour des explications plus detaillees.

Les commandes peuvent etre executees comme un script.

49

R> # Charger les packages necessaires en memoire.

R> library("stats")

R> library("car")

R> library("sandwich")

R> library("faraway")

R> # Les donnees proviennent du package sandwich.

R> # Charger les donnees en memoire.

R> data("PublicSchools")

R> # Permettre d’appeler les variables directement

R> # sans utiliser le nom de la base de donnees.

R> attach(PublicSchools)

R> # Calculer des statistiques descriptives.

R> summary(PublicSchools)

R> # Il y a une observation manquante. L’enlever.

R> ps <- na.omit(PublicSchools)

R> attach(ps)

R> # Renormaliser la variable Income.

R> Income <- Income/10000

R> # Recalculer les statistiques descriptives.

R> summary(ps)

R> # Estimer le modele de regression simple.

R> ps lm <- lm(Expenditure ∼ Income)

50

R> # Sortir les resultats principaux.

R> summary(ps lm)

R> # Faire un graphique de la ligne de regression.

R> plot(Expenditure ∼ Income,ylim=c(230,830))

R> abline(ps lm)

R> # Ajouter 3 noms d’etat au graphique.

R> id <- c(2,24,48)

R> text(ps[id,2:1],rownames(ps)[id],pos=1,xpd=TRUE)

R> # Calculer un certain nombre de statistiques.

R> # diagnostiques.

R> # D’abord, calculer les "hatvalues".

R> ps hat <- hatvalues(ps lm)

R> # Sortir un graphique avec les hatvalues.

R> plot(ps hat)

R> # Ajouter des lignes pour la moyenne

R> # et pour trois fois la moyenne.

R> abline(h=c(1,3)*mean(ps hat),col=2)

R> # Identifier les observations aberrantes

R> # sur le graphique.

R> id <- which(ps hat>3*mean(ps hat))

R>

text(id,ps hat[id],rownames(ps)[id],pos=1,xpd=TRUE)

51

R> # Utiliser "plot(ps lm)" pour creer une

R> # serie de graphiques.

R> plot(ps lm,which = 1:6)

R> # Utiliser "influence.measures(ps lm)" pour

R> # identifier les observations abberrantes

R> # ou influentes.

R> summary(influence.measures(ps lm))

R> # Reestimer en enlevant les 3 observations.

R> plot(Expenditure ∼ Income, data = ps, ylim =

c(230, 830))

R> abline(ps lm)

R> id <-

which(apply(influence.measures(ps lm)$is.inf, 1,

any))

R> text(ps[id, 2:1], rownames(ps)[id], pos = 1, xpd

= TRUE)

R> ps noinf <- lm(Expenditure ∼ Income, data =

ps[-id,])

R> abline(ps noinf, lty = 2)

R> # Utiliser avPlots(ps lm).

R> avPlots(ps lm)

R> # Utiliser prplot(ps lm).

52

R> prplot(ps lm,1)

R> # Estimer le modele non lineaire avec

R> # Expenditure2 dans le modele.

R> ps lm2 <- lm(Income Expenditure +

I(Expenditureˆ2))

R> summary(ps lm2)

R> plot(ps lm2,which=1:6)

R> summary(influence.measures(ps lm2))

R> avPlots(ps lm2)

R> prplot(ps lm2,1)

R> prplot(ps lm2,2)

R> # Estimer un autre modele de regression

R> # multiple.

R> # Les donnees proviennent du package faraway.

R> # Les donnees contiennent des taux d’epargne

R> # dans 50 pays.

R> data(savings)

R> # Permettre d’appeler les variables directement

R> attach(savings)

R> summary(savings)

R> m1 <- lm(sr ∼ pop15 + pop75 + dpi + ddpi)

R> summary(m1)

53

R> plot(hatvalues(m1))

R> # Generer des graphiques de variables ajoutees.

R> avPlots(m1)

R> # Generer des graphiques de residus partiels.

R> prplot(m1,1)

R> prplot(m1,2)

R> prplot(m1,3)

R> prplot(m1,4)

References

Voir ce lien :

http:

//www.steveambler.uqam.ca/4272/chapitres/referenc.pdf

Derniere modification : 23/04/2018

54

http://www.steveambler.uqam.ca/4272/chapitres/referenc.pdf

http://www.steveambler.uqam.ca/4272/chapitres/referenc.pdf

Documents

ECO 4272 : Introduction a l’` econom´ etrie´ Tests diagnostics · ECO 4272 : Introduction a l’` econom´ etrie´ Tests diagnostics Steve Ambler Departement des sciences´ ´economiques