Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
ECO 4272 : Introduction a l’econometrie
Tests diagnostics
Steve Ambler∗
Departement des sciences economiques
Ecole des sciences de la gestion
Universite du Quebec a Montreal
c©2018 : Steve Ambler
Hiver 2018
∗Ces notes sont en cours de developpement. J’ai besoin de vos commentaires et de vos sug-gestions pour les ameliorer. Vous pouvez me faire part de vos commentaires en personne ou enenvoyant un message a [email protected].
1
Table des matieres
1 Introduction 4
2 Diagnostics informels 7
2.1 Residus versus valeurs predites . . . . . . . . . . . . . . . . . . . 8
2.2 Graphique Q–Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Diagramme de variable ajoutee . . . . . . . . . . . . . . . . . . . 10
2.4 Diagramme de residus partiels . . . . . . . . . . . . . . . . . . . 12
2.5 Residus Normalises . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 La Matrice H . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Residus � studentises de facon externe � . . . . . . . . . . . . . . 19
3 Sensibilite a des observations particulieres 19
3.1 Effets de levier . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 DFFITSi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 DFBETASj,(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 COVRATIO(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Distances de Cook . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 Residus studentises . . . . . . . . . . . . . . . . . . . . . . . . . 25
4 Trois Commandes utiles : plot(·), influence.measures(·) et
influence(·) 25
4.1 Niveaux seuils . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2
5 Tests diagnostics formels 27
5.1 Heteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Test Reset de Ramsey . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3 Normalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.4 Independance des erreurs . . . . . . . . . . . . . . . . . . . . . . 33
6 Multicollinearite 33
7 Endogeneite 37
7.1 Tests d’endogeneite . . . . . . . . . . . . . . . . . . . . . . . . . 40
8 Un exemple detaille avec R 49
3
1 Introduction
Ce chapitre a pour but de presenter de facon relativement informelle quelques
tests diagnostics qui sont utilises couramment en econometrie appliquee.
Les tests diagnostics ont ete concus pour detecter des problemes relies aux
hypotheses statistiques de base du modele de regression lineaire. Si ces
hypotheses ne sont pas confirmees, les conclusions auxquelles on arrive en
estimant un modele de regression peuvent etre trompeuses.
Je commence avec une citation de Fox (2009), qui ecrit � Linear and generalized
linear models make strong assumptions about the structure of data, assumptions
that often do not hold in applications. Especially in small samples, these models
can also be sensitive to unusual data ; in extreme cases, the results might be
determined by one or a very small number of observations. It is therefore
important to examine data carefully, both prior to and after fitting a regression
model to the data. �
Un des buts principaux de ces tests est de detecter la presence d’observations
influentes, des observations qui ont un impact majeur sur les coefficients estimes
d’un modele ou sur les valeurs predites de la variable dependante.
Si on detecte la presence de telles observations, on peut aussi essayer d’en
expliquer la cause. Parfois il s’agit tout simplement d’une erreur dans la saisie
des donnees. Il peut aussi y avoir des causes plus profondes. Il y a aussi plusieurs
remedes possibles. On peut changer la forme fonctionnelle du modele (utiliser,
par exemple, une ou plusieurs variables mesurees en logs et non en niveau), et on
4
peut aussi laisser tomber la ou les observation(s) influente(s). Dans le dernier cas,
le fait de laisser tomber des observations devrait faire partie du rapport qui est
redige pour expliquer le modele estime et les resultats d’estimation.
Le livre de Stock et Watson met beaucoup d’accent sur le fait q’avec les donnees
utilisees en econometrie appliquee les termes d’erreur ne suivent pas forcement
une distribution normale avec variance constante. Par contre, ils mettent peu
d’accent sur des methodes qui permettraient de verifier les hypotheses nulles de
normalite ou d’homoscedasticite. Il n’y a pas beaucoup, d’ailleurs, sur les facons
d’evaluer un modele de regression donne ou de detecter des problemes avec un
modele de regression donne. (a part le chapitre 9 dans la version en anglais sur la
validite interne et la validite externe).
Ce chapitre est base sur les articles de Boomsma (2014) et de Fox (2009), et
surtout sur le quatrieme chapitre de Kleiber et Zeileis (2008). Voir le chapitre de
references pour plus de details.
J’ai aussi utilise quelques articles utiles provenant de Wikipedia :
1. Breusch-Pagan Test
2. Cook’s Distance
3. Errors-in-Variables Models
4. Hat Matrix
5. Heteroscedasticity
6. Leverage (Statistics)
7. Multicollinearity
5
8. Normality Test
9. Normal Probability Plot
10. Q-Q Plot
11. Ramsey Reset Test
12. Studentized Residual
13. White Test
Il y a d’abord une section sur les diagnostics informels, qui sont essentiellement
de deux types (pas forcement exclusifs).
1. Il y a d’abord des diagnostics qui passent par une analyse (graphique ou
algebrique) des residus d’un modele de regression.
2. Dans la sous-section qui suit, il y a des diagnostics qui ont pour but de
detecter des observations qui ont une influence demesuree sur les resultats
de l’estimation (sur les valeurs des coefficients estimes, les valeurs
predites de la variable dependante, sur la variance estimee de l’erreur ou
des coefficients, etc.).
Lorsque j’ecris � diagnostics informels � je veux dire qu’il ne s’agit pas de
statistiques qui suivent des lois connues que l’on pourrait utiliser formellement
pour tester une hypothese nulle quelconque. Ce sont plutot des techniques que
l’on peut utiliser pour detecter des problemes potentiels dans la specification
(choix de variables explicatives, choix de forme fonctionnelle, etc.) d’un modele
econometrique.
Par la suite, il y a une section sur les tests plus formels.
6
1. Des tests de l’hypothese nulle de l’homoscedasticite.
2. Des tests formels de la forme fonctionnelle du modele de regression qui
peuvent permettre de detecter des non-linearites.
3. Des tests de l’hypothese de la normalite du terme d’erreur.
4. Une sous-section sur la question de la multicollinearite.
5. Une courte sous-section sur l’independance des erreurs (un sujet plus
pertinent dans le cadre des series chronologiques).
6. Une sous-section sur la question de l’endogeneite, qui nous porte aux
frontieres de la matiere du cours.
2 Diagnostics informels
• Il y a un certain nombre d’outils diagnostics bases sur les residus de
l’estimation d’un modele de regression lineaire.
• Il y a aussi des outils diagnostics qui dependent du fait que les residus
d’un modele de regression estime par moindres carres ordinaires ne sont
pas independants et n’ont pas une variance constante, meme si les erreurs
du modele sont independantes et homoscedastiques. Ces outils sont bases
sur l’utilisation de residus normalises, un sujet auquel nous reviendrons
plus tard.
7
2.1 Residus versus valeurs predites
• Nous avons deja vu qu’un graphique avec les ui ou les u2i sur l’axe
vertical et les Yi sur l’axe horizontal peut etre une facon de detecter la
presence de l’heteroscedasticite.
• Au lieu de mesurer les valeurs des residus sur l’axe vertical, il est aussi
possible de mesurer les valeurs des residus au carre afin de detecter de
maniere visuelle l’heteroscedasticite.
• Un probleme potentiel avec ces methodes informelles est que meme si les
erreurs du modele de regression sont homoscedastiques et independantes
(autrement dit les donnees proviennent d’un echantillon i.i.d.), les residus
du modele de regression auront une variance non constante et ne seront
pas independants les uns par rapport aux autres. Pour cette raison, on
travaille souvent avec les residus normalises, un concept auquel nous
allons revenir plus tard.
2.2 Graphique Q–Q
• L’idee de base est de comparer la distribution de probabilite des residus
d’un modele de regression avec une distribution normale theorique.
• Il s’agit d’une methode informelle pour analyser l’hypothese que les
erreurs du modele suivent une distribution normale.
• Le � Q � est cense faire penser a quantile.
• On compare les quantiles de deux distributions de probabilite sur un
8
graphique.
• Notez que si φ(·) est la fonction de distribution normale cumulee, la
fonction φ−1 donne les quantiles de la normale cumulee.
• Si les deux distributions sont identiques, les points se retrouveront sur une
droite avec une pente de 45 degres.
• S’il y a une relation lineaire entre les deux distributions, les points se
retrouveront sur une droite.
• La fonction en R qqnorm(x) ou x est un vecteur de realisations d’une
variable aleatoire cree un graphique qui compare x a une distribution
normale theorique.
• Deux distributions normales peuvent differer dans leurs moyennes et dans
leurs variances, et donc il doit y avoir une relation lineaire entre les deux.
Pour cette raison, si on compare la distribution empirique des residus
avec une normale centree reduite theorique, les points devraient se
retrouver sur une droite.
• La fonction en R plot(model,which=2) fait la meme chose pour les
residus d’un modele estime avec la commande model < − lm(·).
Nous allons voir plus loin que la fonction plot(·) avec le nom d’un
modele estime pourra sortir automatiquement plusieurs graphiques
interessants pour detecter des problemes potentiels associes a un modele
estime.
9
2.3 Diagramme de variable ajoutee
• Le but est de detecter si l’impact d’une variable individuelle (dans un
modele de regression multiple) est bien capte par une relation lineaire.
• Il est difficile de faire ceci avec un graphique des residus contre la
variable explicative, parce qu’il faut tenir constantes les valeurs de toutes
les autres variables explicatives (en les egalisant a leurs moyennes
echantillonnales par exemple).
• Ce que l’on voudrait faire c’est de regarder l’impact d’une variable
individuelle sur la variable dependante, ayant purge l’impact de toutes les
autres variables sur la variable dependante. Un diagramme de variable
ajoutee nous permet de faire ceci.
• On procede de la facon suivante pour pouvoir tracer un � diagramme de
variable ajoutee � pour la variable explicative Xj .
1. On estime un modele de regression multiple avec Y comme variable
dependante et toutes les autres variables a part Xj comme variables
explicatives. On sauvegarde les residus de cette estimation. Appelons
ces residus uy.
2. On estime un modele de regression multiple avec Xj comme variable
dependante et toutes les autres variables explicatives a part Xj
comme variables explicatives. On sauvegarde les residus de cette
estimation. Appelons ces residus uj .
3. On cree un graphique avec uy sur l’axe vertical et uj sur l’axe
10
horizontal.
4. On peut aussi estimer le modele de regression simple suivant :
uyi = γ0 + γ1uji + εi.
Il est egalement possible d’ajouter la ligne de regression au graphique
qu’on vient de creer, avec la commande habituelle abline(·)
• Le theoreme Frisch-Waugh-Lovell (voir le chapitre des notes de cours sur
le modele de regression multiple ou bien l’article de Lovell 2010) nous
dit que le coefficient estime γ1 doit etre identique a βj du modele initial
(cela veut dire le modele de regression multiple incluant toutes les
variables explicatives y compris Xj). L’interpretation est la suivante : la
regression simple donne l’effet de Xj sur Y , lorsque les impacts des
autres variables sur Y et sur Xj) sont purges.
• Pour cette raison, le graphique devrait nous permettre de reperer si la
relation (partielle) entre Y et Xj est vraiment lineaire.
• Avec R, la commande avPlots(·) (provenant du package car), ou
l’argument est un objet contenant les resultats d’estimation d’un modele
de regression, cree automatiquement des diagrammes de variable ajoutee
pour toutes les variables explicatives d’un modele de regression multiple.
Voir aussi ci-dessous.
11
2.4 Diagramme de residus partiels
• Il s’agit d’un graphique avec ui + βjXji sur l’axe vertical et Xji sur l’axe
horizontal.
• Notez que la pente de la relation entre ces deux variables est donnee par
βj .
• Selon Boomsma (2014, page 19), ces diagrammes sont plus utiles pour
detecter les non-linearites, tandis que les diagrammes de variable ajoutee
sont plus utiles pour detecter les observations aberrantes et influentes.
� Partial residual plots are better for the detection of linearity, added
variable plots are better for the detection of outliers and influential data
points. �
• Dans R, la commande prplot(·,x) qui provient du package faraway
permet de generer automatiquement des graphiques de residus partiels
pour un modele estime. Le premier argument de la commande est le nom
du modele estime. Le deuxieme argument est le nombre de la variable
explicative.
2.5 Residus Normalises
• Notez que meme si les erreurs d’un modele de regression sont
homoscedastiques, c’est a dire Var (ui|X) = σ2, les residus (qui sont un
vecteur de variables aleatoires) ne le sont pas.
• En fait, les residus ne peuvent etre independants puisqu’ils doivent
12
satisfaire les restrictions suivantes :
X ′U = 0.
• Cette equation est tout simplement la propriete d’orthogonalite que nous
avons montree a plus d’une reprise en classe.
• Puisque la premiere colonne de X est un vecteur ou tous les elements
sont egaux a un, on sait que la somme des residus est zero.
• Cette propriete orthogonalite impose des relations algebriques exactes
(en fait k + 1 relations exactes) entre les residus qui les empechent d’etre
independantes au sens statistique du terme.
• Supposons au depart que Var (ui|X) = Var (ui) = σ2u. Autrement dit, les
erreurs sont homoscedastiques. Nous supposons aussi (bien sur) que
E (U |X) = 0.
• Nous avons
U ≡ Y −Xβ = Y −X (X ′X)−1X ′Y
=(I −X (X ′X)
−1X ′)Y
≡ (I −H)Y
ou nous avons utilise la definition
H ≡ X (X ′X)−1X ′.
13
La matrice (I −H) est symetrique et idempotente, ce qui veut dire
(I −H)′ = (I −H)
et
(I −H) (I −H) = (I −H) ,
ou ces deux proprietes sont faciles a verifier (je laisse ceci comme un
exercice).
Nous voulons maintenant calculer la variance (conditionnelle) du vecteur
des residus U . Puisque U est un vecteur de dimensions n× 1, il s’agit
d’une matrice variance-covariance de dimensions n× n. Nous avons
E(U U ′|X
)= E ((I −H)Y Y ′ (I −H) |X)
= E((I −H) (Xβ + U) (Xβ + U)′ (I −H) |X
)= (I −H)Xββ′X ′ (I −H)
+E ((I −H)XβU ′ (I −H) |X)
+E ((I −H)Uβ′X ′ (I −H) |X)
+ (I −H) E (UU ′|X) (I −H) .
= (I −H)Xββ′X ′ (I −H)
14
+ (I −H) E (UU ′) (I −H)
= (I −H) E (UU ′) (I −H)
puisque (I −H)X = 0 (ceci est facile a verifier), et X ′ (I −H) = 0.
Dans le cas homoscedastique, nous avons
E(U U ′|X
)= (I −H)σ2I (I −H)
= σ2 (I −H) (I −H)
= σ2 (I −H) ,
ou nous avons utilise le fait que la matrice (I −H) est symetrique et
idempotente.
• Ce resultat montre que les residus ont des variances qui dependent des
elements diagonaux de (I −H) meme si les erreurs sont
homoscedastiques.
• On definit les residus � normalises � (ou � studentises de facon
interne �) de la facon suivante :
ri ≡ui
σ√
1− hii
ou σ est l’ecart type de la regression ou (comme d’habitude)
σ2 ≡ 1
n− k − 1
n∑i=1
u2i
15
et les hii sont les elements sur la diagonale de H . On parle de
� studentises de facon interne � puisqu’on utilise toutes les observations
de l’echantillon pour estimer l’ecart type de la regression, par opposition
aux residus � studentises de facon externe � . Nous reviendrons a ce
dernier sujet un peu plus tard.
• Puisque (meme dans le cas de l’homoscedasticite) la variance des residus
n’est pas constante, l’idee ici est de normaliser les residus en divisant par
un estime de leurs ecarts types.
• De cette facon, un graphique avec les residus normalises ou avec les
residus normalises au carre sur l’axe vertical et avec la variable
dependante ou avec une des variables explicatives sur l’axe horizontal
peut faire ressortir mieux si l’hypothese de l’homoscedasticite tient ou
non.
• On peut calculer les residus normalises en R a l’aide de la commande
rstandard(·). L’argument de la commande est l’objet utilise pour
sauvegarder les resultats d’estimation d’un modele de regression lineaire.
• Si les hypotheses statistiques derriere le modele tiennent (y compris
l’homoscedasticite des erreurs), il devrait etre le cas que Var (ri|X) = 1
et il devrait aussi etre le cas que Corr (ri, rj|X) a tendance a etre faible
(Kleiber et Zeileis 2008).
• Dans les sections qui suivent, la plupart des mesures utilisees sont basees
sur les residus normalises et non sur les residus eux-memes.
16
2.6 La Matrice H
• Pour un article tres abordable, voir Johnson (2006).
• La matrice H a ete definie dans la sous-section precedente.
• �H � est cense faire penser a � hat � (chapeau).
• La matrice H est utilisee aussi pour calculer les distances de Cook et pour
mesurer les effets de levier (voir plus loin).
• Il est possible de montrer que l’on peut exprimer les valeurs predites de la
variable dependante comme
Yj = h1jY1 + h2jY2 + . . .+ hnjYn =n∑i=1
hijYi.
• Pour montrer ceci, nous avons par definition
Y ≡ Xβ = X (X ′X)−1X ′Y = HY,
qui est un vecteur de dimensions (k + 1)× 1. Yj est l’element j + 1 de ce
vecteur. Avec un petit abus de notation, si on appelle les elements de la
rangee j + 1 de H comme [h1j, h2j, . . . , hnj], alors nous avons
Yj = h1jY1 + h2jY2 + . . .+ hnjYn.
• Ainsi, le poids hij capte la contribution de l’observation Yi a la valeur
predite Yj .
17
• On peut montrer que
hii =n∑j=1
hij2,
et donc la valeur hii resume l’influence potentielle de l’observation Yi sur
toutes les valeurs predites Yj .
• On peut montrer que1
n≤ hii ≤ 1.
• On peut aussi montrer que la valeur moyenne des hii est donnee par
1
n
n∑i=1
hii ≡ h =k + 1
n.
• Il est possible de montrer que, dans le modele de regression simple,
hii =1
n+
(Xi − X
)2∑nj=1
(Xj − X
)2 ,ce qui a l’interpretation de la distance de Xi par rapport a la moyenne
echantillonnale X , normalisee par la somme des distances des Xj par
rapport a la moyenne echantillonnale X .
• Les hii peuvent etre calcules en R avec la commande hatvalues(·) ou
l’argument de la commande est un modele estime avec la commande
lm(·).
• Pour plus de details sur les proprietes de la matrice H voir Hoaglin et
Welsch (1978).
18
2.7 Residus � studentises de facon externe �
• Il s’agit d’une autre facon d’estimer l’ecart type de la regression. Dans
l’analyse ci-dessous sur la sensibilite a des observations particulieres, si
on soupconne qu’une observation est aberrante, on est parfois mieux
d’exclure cette observation du calcul de la variance estimee du terme
d’erreur.
• On definit les residus studentises de facon externe de la facon suivante :
ri(i) ≡ui
σ(i)√
1− hii
avec
σ2(i) ≡
1
n− k − 2
∑j 6=i
u2j .
On exclut l’ie observation de notre estime de la variance du terme
d’erreur.
3 Sensibilite a des observations particulieres
• Nous avons maintenant defini et interprete la matrice H et ces elements,
qui seront utilises dans les definitions de certaines des mesures qui
suivent.
• Il y a quelques techniques informelles d’essayer de detecter des
observations aberrantes ou influentes, qui ont une influence
preponderante sur les resultats de l’estimation.
19
• L’idee de base est d’analyser ce qui arrive si on laisse tomber une seule
observation de l’echantillon.
• On peut mesurer l’impact ou bien sur les coefficients estimes ou bien sur
la valeur predite de la variable dependante.
• Definissons β(i) comme le vecteur de parametres estimes apres avoir
laisse tomber l’observation i de l’echantillon, et Y(i) le vecteur de valeurs
predites de la variable dependante apres avoir laisse tomber l’observation
i de l’echantillon.
3.1 Effets de levier
• L’effet de levier de l’observation i est donne tout simplement par la valeur
de hii.
• Parmi les autres proprietes de H ,
0 ≤ hii ≤ 1,
trace (H) ≡n∑i=1
hii = k + 1,
ou (k + 1) est le nombre de variables explicatives dans le modele.
• Comme regle approximative, des valeurs au moins trois fois la valeur
moyenne peuvent etre considerees indicatrices d’observations aberrantes
ou influentes, la valeur moyenne etant donnee par k+1n
.
20
3.2 DFFITSi
• Definition :
DFFITi ≡ Yi − Y(i).
• Cette mesure calcule l’impact d’omettre l’observation i sur la valeur
predite de la variable dependante (aussi de l’observation i).
• Une grande valeur est un indice que l’observation est aberrante ou
influente.
• Pour savoir si la valeur du changement est � grande � ou non, il est utile
de normaliser le changement par un estime de l’ecart type du terme
d’erreur du modele. Cette mesure normalisee s’appelle DFFITSi.
• Definition :
DFFITSi ≡Yi − Y(i)σ(i)√hii
ou comme nous avons vu dans la section 2.7 σ(i) est l’ecart type de la
regression estime sans l’observation i :
σ2(i) ≡
1
n− k − 2
∑j 6=i
u2j ,
• Donc DFFITSi par opposition a DFFITi normalise par un estime de
quelque chose qui est relie a l’ecart type de l’erreur de l’observation i, et
donc on l’appelle parfois le DFFIT studentise.
• Notez que nous normalisons par σ(i)√hii (qui depend de l’effet de levier
hii) et non par σ(i)√
1− hii.
21
• L’interpretation est l’impact normalise d’omettre l’observation i sur la
valeur predite de la variable dependante.
• Comme regle approximative, les points ou la mesure depasse 2×√
k+1n
sont a signaler comme des observations influentes.
3.3 DFBETASj,(i)
• Pour le coefficient βj , on definit DFBETAj,(i) comme
DFBETAj,(i) ≡ βj − βj,(i).
• C’est une mesure de l’impact de laisser tomber l’observation i sur la
valeur du coefficient estime j.
• Pour le coefficient βj , on definit DFBETASj,(i) comme
DFBETASj,(i) ≡βj − βj,(i)
σ√
(X ′X)−1jj
ou (X ′X)−1jj est l’element dans la je colonne et la je rangee de l’inverse
de (X ′X). En fait, puisque dans la notation de Stock et Watson, βj est la
je variable explicative a part la constante, (X ′X)−1jj doit etre l’element
dans la colonne j + 1 et la rangee j + 1 de la matrice (X ′X).
• La difference entre DFBETAj,(i) et DFBETASj,(i) est semblable a la
difference entre DFFITi et DFFITSi. Avec le � S � a la fin cela signifie
que l’on normalise par quelque chose qui est relie a un estime de l’ecart
22
type.
• Une valeur superieure a 2/√n est consideree � suspicieuse �.
3.4 COVRATIO(i)
• C’est une mesure de l’impact de laisser tomber l’observation i sur la
matrice variance-covariance des coefficients estimes du modele.
• Voici la definition :
COVRATIO(i) ≡det(σ2(i)
(X ′(i)X(i)
)−1)det(σ2 (X ′X)−1
)ou det (·) est le determinant d’une matrice.
• La definition de σ2(i) est donnee ci-dessus. Ici
(X ′(i)X(i)
)utilise la matrice
d’observations sur toutes les variables explicatives mais en excluant
l’observation i.
• Il faut reduire la mesure de l’impact sur la matrice variance-covariance en
un scalaire. C’est pour cette raison que l’on utilise le determinant.
• Il est difficile de trouver dans la litterature des consignes sur les valeurs
de cette mesure qui sont � problematiques �. Bellesley, Kuh et Welsch
(1980) suggerent que des valeurs de∣∣COVRATIO(i) − 1
∣∣ plus grandes
que 2√
(k + 1)/n signalent des observations a investiguer comme
potentiellement influentes.
23
3.5 Distances de Cook
• Definition : pour l’observation i, La distance de Cook est definie comme
Di =
(Y − Y(i)
)′ (Y − Y(i)
)(k + 1)σ
ou (k + 1) est le nombre total de parametres estimes et σ est l’ecart type
de la regression. Ici, Y est le vecteur de toutes les n valeurs predites de la
variable dependante avec toutes les variables explicatives dans le modele,
et Y(i) est le vecteur de toutes les n valeurs predites de la variable
dependante en laissant tomber la ie observation de l’echantillon.
• L’interpretation de la distance de Cook est la suivante. Elle mesure
l’impact sur les valeurs predites de Y si on laisse tomber la ie observation.
Elle ressemble a la mesure DFFITSi mais elle utilise une autre facon de
normaliser et elle calcule la somme des tous les changements des valeurs
predites au carre lorsqu’on laisse tomber l’observation i de l’echantillon.
• Dans le modele de regression simple, on peut montrer que les definitions
suivantes sont equivalentes algebriquement :
Di =u2i
(k + 1)σ
[hii
(1− hii)2
],
Di =
(β − βi
)′(X ′X)
(β − βi
)(1 + k + 1)σ2
ou βi est le vecteur (entier) de parametres estimes en omettant
24
l’observation i de l’echantillon.
3.6 Residus studentises
• Definition :
ti ≡ui
σ(i)√
1− hii
(ou σ(i) a la meme definition que dans la sous-section sur DFFIT), qui a
l’interpretation de l’ecart type estime de l’erreur en excluant l’observation
i.
• La justification de cette mesure (par rapport aux residus normalises
definis plus haut) est que si on veut juger si l’observation i est une
observation aberrante ou non, il est mieux d’exclure cette observation de
l’estimation de la variance.
• La commande en R rstudent(·) ou comme d’habitude l’argument est
le nom du modele estime va calculer les residus studentises
automatiquement.
4 Trois Commandes utiles : plot(·),
influence.measures(·) et influence(·)
• Une commande qui rend les calculs des sous-sections precedentes a
toutes fins pratiques automatiques est la commande plot(·) lorsque
l’argument de la commande est un objet qui contient les resultats d’une
25
estimation d’un modele de regression lineaire par la commande lm(·).
• Une autre commande tres utile : influence.measures(·) (une
commande dans le package stats), qui calcule entre autres les distances
de Cook et les mesures DFFITS et DFBETAS.
• La commande summary(influence.measures(·)), ou
l’argument est un modele estime, va indiquer toutes les observations
influentes selon au moins un des criteres. Donc, une seule commande en
R peut etre utilisee pour reperer les observations potentiellement
influentes ou aberrantes.
• La commande influence(·), toujours ou l’argument est un modele
estime va calculer les resultats suivants :
1. hat : un vecteur dont les elements sont les hii, les elements sur la
diagonale de la matrice H .
2. coefficients : une matrice ou l’ie rangee donne le changement
des coefficients estimes lorsqu’on laisse tomber l’ie observation de
l’echantillon. Autrement dit, c’est une matrice qui contient tous les
DFBETAj,(i) (pour toutes les valeurs possibles de j).
3. sigma : un vecteur dont l’ie element contient un estime de l’ecart
type de l’erreur de l’equation lorsqu’on laisse tomber l’ie observation
de l’echantillon.
4. wt.res : un vecteur de residus resultant de l’estimation du modele
par la methode des moindres carres ponderes. Voir la section 17.5 du
26
manuel pour plus de details.
4.1 Niveaux seuils
• J’ai fait allusion ci-dessus a des valeurs qui sont indicatives de problemes
potentiels. Voici un resume qui provient de Liu, Milton et McIntosh (sans
date).
• Comme nous avons vu, avec la commande en R
summary(influence.measures(·)), le logiciel va signaler toutes
les valeurs qui sont a surveiller selon au moins une des mesures.
Fonction Description SeuilDFFITS changement des valeurs predites > 2 ∗
√k + 1/n
DFBETAS changement des coefficients > 2/√n
COVRATIO changement de la matrice VCOV > (1 + 3 ∗ (k + 1)/n)(determinant) < (1− 3 ∗ (k + 1)/n)
HATVALUES ecart standardise par rapport a la moyenne des X > 2 ∗ (k + 1)/nCOOK changement du vecteur des valeurs predites > 4/n
5 Tests diagnostics formels
5.1 Heteroscedasticite
• Il y a plusieurs tests pour detecter la presence de l’heteroscedasticite.
Pour tous ces tests, l’hypothese nulle est l’absence d’heteroscedasticite,
c’est a dire l’homoscedasticite.
27
• Les deux tests les plus frequemment utilises par les econometres sont les
tests Breusch-Pagan et White. Pour d’autres tests, voir l’article Wikipedia
� Heteroscedasticity �.
• Test Breusch-Pagan. Il s’agit d’un test de significativite de tous les
coefficients (sauf la constante) dans la regression
U2 = Xγ + ε
ou U2 est le vecteur de residus au carre.
• La commande bptest(·) utilise par defaut les residus normalises. Voir
help(bptest) a ce sujet.
• Test White. On regresse les residus au carre du modele estime sur toutes
les variables explicatives du modele, sur les produits de toutes les paires
de variables explicatives, et sur les variables explicatives au carre. On
peut montrer que la statistique nR2 suit une distribution chi-carre en
grand echantillon (asymptotiquement), ou le nombre de degres de liberte
est le nombre de parametres estimes dans le modele auxiliaire (celui avec
les residus au carre comme variable dependante). En R, la commande
white.test(·), provenant du package bstats, effectue le test sur un
modele estime (l’argument de la commande est l’objet ou les resultats de
l’estimation sont sauvegardes).
28
5.2 Test Reset de Ramsey
• Il s’agit d’un test pour evaluer la forme fonctionnelle d’un modele de
regression.
• Le but est de savoir s’il y a des combinaisons non lineaires des valeurs
predites qui ajoutent du pouvoir explicatif au modele. Si oui, c’est un
indice que la forme fonctionnelle (variables explicatives mesurees en
logs, en polynomes, en fonctions exponentielles, etc.) du modele estime
n’est pas adequat.
• Le test est concu pour detecter des non-linearites, mais non pour suggerer
la forme fonctionnelle exacte qui serait la plus appropriee.
• Malheureusement, si on detecte un probleme de non-linearite, il faut
modifier le modele estime, mais trouver la bonne facon de modifier le
modele demande une analyse approfondie de la question a laquelle on
essaie de repondre avec notre modele econometrique.
• On effectue le test en estimant le modele suivant :
Yi = γ0 + γ1X1i + γ2X2i + . . .+ γkXki
+δ1Y2i + δ2Y
3i + . . .+ δk−1Y
mi + εi.
• Ici, Y est le vecteur de valeurs predites de Y provenant de l’estimation du
modele
Yi = β0 + β1X1i + β2X2i + . . .+ βkXki + ui.
29
• On utilise une statistique F pour tester la significativite des coefficients δ.
• Le choix de l’ordre du polynome en Yi est arbitraire. On utilise souvent
seulement Yi au carre.
• Notez que l’hypothese nulle est que tous les termes non lineaires dans les
valeurs predites sont non significatifs. Donc, l’hypothese nulle est que la
specification initiale de l’equation est adequate.
• Puisque le test porte sur toutes les puissances de Yi, la multicollinearite
entre les puissances differentes ne devrait pas etre un probleme.
• L’utilisation du test Reset ne devrait pas remplacer un examen detaille par
d’autres moyens (graphiques ou autres).
• Dans R, la commande resettest(model, power = ·) effectue le
test. Il faut fournir le nom du modele estime (premier argument) et aussi
les degres du polynome dans les valeurs predites Yi (deuxieme argument).
• La commande fait partie du package lmtest.
5.3 Normalite
• Test Shapiro-Wilk. L’hypothese nulle est que l’echantillon provient d’une
distribution normale. La statistique est definie comme
W ≡(∑n
i=1 aix(i))2∑n
i=1 (xi − x)2
ou x(i) est l’observation i de l’echantillon ou les observations ont ete
classees dans l’ordre (c’est donc l’ie statistique d’ordre) et les ai sont
30
definis par
a = (a1, . . . , an) ≡ m′V −1
(m′V −1V −1m)1/2
ou
m = (m1, . . . ,mn)′
sont les valeurs anticipees des statistiques d’ordre de variables i.i.d.
provenant d’une loi normale centree reduite et V est la matrice
variance-covariance de ces statistiques d’ordre.
• Le test peut etre effectue en R avec la commande shapiro.test(·),
provenant du package stats, ou l’argument est le vecteur de residus
d’un modele de regression.
• Ce sont des petites valeurs de la statistique qui menent au rejet de
l’hypothese nulle. L’article de Shapiro et Wilk (1965) a une table de
points de la distribution cumulee de la statistique.
• Le test shapiro.test(·) en R calcule la p-value du test.
• La commande shapiro.test(·) est incluse dans le package stat.
• Test Jarque-Bera. Le test combine des mesures empiriques de l’asymetrie
et de l’aplatissement en une seule mesure. La statistique est definie de la
maniere suivante :
JB ≡ n
6
(S2 +
1
4(K − 3)2
)
31
ou (dans le contexte des residus d’un modele de regression)
S ≡ µ3
σ3=
1n
∑ni=1 (ui)
3(1n
∑ni=1 (ui)
2)3/2et
K ≡ µ4
σ4=
1n
∑ni=1 (ui)
4(1n
∑ni=1 (ui)
2)2 ,ou µ3 et µ4 sont des estimes des troisieme et quatrieme moments centres
des residus et σ2 est un estime de la variance des residus. Notez que dans
tous ces cas nous sommes en train d’utiliser des moments centres
puisque de toute facon la somme des residus d’une regression est par
construction egale a zero.
• La statistique JB suit (approximativement ou en grand echantillon) une
distribution chi-carre avec deux degres de liberte. L’hypothese nulle est la
normalite.
• Une grande valeur de la statistique calculee mene au rejet.
• En R, le test Jarque-Bera peut etre effectue avec la commande
jarque.bera.test(·) provenant du package tseries, ou
l’argument de la commande est une serie de donnees. La commande
calcule automatiquement la p-value du test.
32
5.4 Independance des erreurs
• Ce sujet est beaucoup plus pertinent dans le cas ou les donnees sont des
series chronologiques. Il s’agit de tests pour detecter la presence
d’autocorrelation dans les erreurs.
• Sans une etude du chapitre sur les series chronologiques il est difficile
d’elaborer sur ce sujet.
• Les tests cles dans cette sous-section sont le test Durbin-Watson, la
statistique h de Durbin, et le test Breusch-Godfrey.
• Pour des precisions sur le test Durbin-Watson et le test Breusch-Godfrey,
voir la documentation du package lmtest. Pour des precisions sur la
statistique h de Durbin, voir la documentation du package ecm.
6 Multicollinearite
• Voir Giles (2011, 2013f). Giles est assez sarcastique au sujet de la
multicollinearite, surtout dans son article de 2011. Il cite le manuel de
Goldberger qui a une section sur le probleme de
� micronumerosity � dans le cadre de l’estimation de la moyenne d’une
variable aleatoire : � A generally reliable guide may be obtained by
counting the number of observations. Most of the time in econometric
analysis, when n is close to zero, it is also far from infinity. �
• L’interpretation : le probleme de la multicollinearite survient puisque
nous n’avons pas assez d’observations pour distinguer entre les impacts
33
de variables explicatives differentes.
• Comme nous avons deja vu, la multicollinearite (lorsqu’elle n’est pas
parfaite) est une propriete de l’echantillon de donnees qui est a notre
disposition. Tel que suggere par Giles et Goldberger, puisque c’est une
propriete de l’echantillon que nous avons, il n’y pas forcement un remede
au probleme.
• Detection de la multicollinearite :
1. Changements importants dans les valeurs estimees de coefficients lors
de l’ajout ou du retrait d’une ou plusieurs variables.
2. Coefficients non significatifs individuellement mais significatifs en
bloc.
3. � Variance inflation factor � :
VIF ≡ 1
1−R2j
ou R2j est l’ajustement statistique d’une regression ou la variable
explicative j est la variable dependante et les variables explicatives
sont toutes les autres variables explicatives du modele. On appelle(1−R2
j
)la � tolerance �. La commande en R vif(·) permet
d’evaluer ce critere pour un modele estime.
4. Conditionnement de X ′X . Racine carree du ratio de la plus grande
valeur caracteristique sur la plus petite valeur caracteristique.
Generalement on dit que chiffre est superieur a 30 c’est un indice
34
qu’il y a un probleme potentiel.
5. Test Farrar-Glauber. Base sur Farrar et Glauber (1967). Giles (2013f)
est assez critique a l’egard de ce test. Il note que dans l’article
original, les auteurs font l’hypothese que les variables X suivent une
distribution normale multivariee. Le test peut etre interprete comme
un test des correlations entre les variables dans X dans la population.
Mais l’echantillon de donnees que nous avons est celui que nous
avons.
6. Construction d’une matrice de correlations. Un coefficient de
correlation elevee entre deux variables explicatives potentielles
indique un probleme possible.
• Consequences de la multicollinearite.
1. Dans des cas extremes, l’ordinateur pourrait avoir des difficultes
(numeriques) a inverser la matrice X ′X .
2. L’estime de l’impact d’une des variables sur la variable dependante
peut devenir beaucoup moins precis.
3. La multicollinearite peut aggraver les effets de variables omises.
• Remedes possibles.
1. Verifier la presence de la trappe aux variables dichotomiques.
2. Essayer de reestimer le modele utilisant un sous-echantillon des
donnees.
35
3. Ne rien faire. Les donnees sont ce qu’elles sont, et essayer de faire
parler les donnees lorsqu’elles sont muettes sur la question que nous
leur posons.
4. Laisser tomber une variable. Attention au probleme du biais du aux
variables omises !
5. Obtenir davantage d’observations si possible.
6. Centrer les variables explicatives en soustrayant leurs moyennes.
7. Renormaliser les variables explicatives, par exemple en changeant les
unites de mesure pour que les variables explicatives soient d’un ordre
de grandeur comparable. Ceci peut affecter le conditionnement de la
matrice (X ′X).
8. Utiliser la technique de la regression pseudo-orthogonale (ridge
regression en anglais). C’est un sujet qui est au-dela de la matiere du
cours a part son idee de base. L’idee de base est d’utiliser l’estimateur
β ≡ (X ′X + Γ′Γ)−1X ′Y,
ou souvent la matrice Γ est une matrice diagonale definie comme
Γ ≡ αI
ou α est une constante arbitraire. L’ajout de cette matrice introduit un
biais et donc E(β)6= β, mais peut reduire la variance de
36
l’estimateur. Pour cette raison, le resultat dans certains cas peut etre
un estimateur avec une erreur quadratique moyenne inferieure a celle
de l’estimateur MCO (qui est un cas special de cet estimateur avec
α = 0). En general, la taille du biais de l’estimateur augmente avec la
valeur de α et la variance diminue (voir la section 1.4.3 de van
Wieringen 2018). Il y a donc un arbitrage entre biais et variance.
Malheureusement, il est impossible de connaıtre a priori la valeur
exacte de α qui va minimiser l’erreur quadratique moyenne.
9. Si les variables explicatives qui sont correlees sont des retards (dans le
contexte de donnees qui sont des series chronologiques), on peut
utiliser la technique des � retards distribues � qui impose une
structure sur les coefficients a estimer.
7 Endogeneite
• Ce sujet nous mene vraiment a la frontiere de la matiere du cours,
puisqu’il nous amene a parler de la technique d’estimation par variables
instrumentales. Le principe de base est (j’espere) relativement simple a
comprendre. Pour plus de details, voir le chapitre 12 du manuel de Stock
et Watson (version en langue anglaise). Il y a aussi un encadre a la fin de
cette section ou je developpe l’estimateur IV (variables instrumentales).
Les developpements algebriques dans l’encadre sont relativement
abordables.
37
• C’est une facon generale de resumer tout ce qui peut causer une
correlation non nulle entre les variables explicatives du modele et le
terme d’erreur. Nous avons deja vu en detail le probleme de variables
omises. Il y a d’autres sources possibles du probleme.
• Causes possibles de l’endogeneite.
1. Variable(s) omise(s). Nous avons vu ce probleme en detail.
2. Erreurs de mesure. La vraie variable explicative est Xj mais ce qu’on
mesure est donne par
Xj = Xj + ε
ou ε est un vecteur d’erreurs d’observation. Le vrai modele est
Yi = β0 + β1X1i + . . .+ βjXji + . . .+ βkXki + ui
et le modele estime est donne par
Yi = β0 + β1X1i + . . .+ βjXji + . . .+ βkXki + (ui − βjεi) .
Puisque Xji depend de εi, il y a evidemment une correlation non nulle
entre Xji et le terme d’erreur.
3. Simultaneite. Une variable exogene influence simultanement la
variable dependante Y et une ou plusieurs des variables explicatives.
L’influence de la variable exogene sur Y peut etre indirecte. Pensez au
probleme d’estimer la courbe d’offre du cafe. On pourrait estimer
38
l’equation suivante (ou l’echantillon d’observations porte sur la
quantite de cafe vendue dans des supermarches differents a des prix
possiblement differents) :
Yi = β0 + β1Xi + ui
ou Yi est la quantite de cafe et Xi est le prix par unite du cafe. Est-ce
que ceci est une courbe d’offre ou une courbe de demande? En fait, Yi
et Xi dependent en principe de facteurs exogenes et l’equation est ce
que l’on observe sont des combinaisons de quantites et de prix a
l’equilibre, l’equation est ce qu’on appelle une forme reduite et non
une equation structurelle. Pour estimer la courbe d’offre, il faut
trouver un facteur qui fait deplacer la courbe de demande (comme,
par exemple, le prix du the, un bien qui est substitut pour le cafe). Si
les seuls changements exogenes sont des variations du prix du the, on
pourra observer des combinaisons differentes de prix du cafe et de
quantites vendues de cafe qui resultent de deplacements de la courbe
de demande le long de la courbe d’offre. Ici, l’impact du prix du the
sur la quantite vendue du cafe est indirect. Il affecte la quantite
vendue du cafe parce qu’il affecte la demande pour le cafe. On verra
dans la section suivante sur les estimateurs a variables instrumentales
qu’une variable comme le prix du the serait un bon instrument a
utiliser pour estimer l’equation ci-dessus.
39
7.1 Tests d’endogeneite
Nous considerons dans cette sous-section le test Durbin-Hausman-Wu et la facon
relativement simple de l’effectuer qui provient du manuel de Woodridge (2009).
• Test Durbin-Hausman-Wu. Ce test depend de la construction d’un
estimateur a variables instrumentales. Nous developpons cette idee dans
l’encadre qui se trouve a la fin de cette section. Je conseille fortement la
lecture de cet encadre avant de lire plus loin.
1. Le test a pour but de tester si le probleme d’endogeneite est severe.
Pour le faire, il faut avoir identifie un ensemble d’instruments qui
permet d’obtenir un estimateur convergent de β.
2. Il faut avoir deux estimes differents du meme ensemble de
parametres : l’estimateur MCO β et l’estimateur IV (variables
instrumentales) βIV .
3. Sous l’hypothese nulle, les deux estimes sont convergents, et il y a un
estime (donne par l’estimateur MCO) qui est plus efficient que l’autre
(qui est donne par l’estimateur IV).
4. Sous l’hypothese alternative, le deuxieme estimateur est toujours
convergent, tandis que le premier est non convergent.
5. La statistique s’ecrit comme
DHW ≡(β − βIV
)′ (ΣβIV
− Σβ
)† (β − βIV
)
40
ou ΣβIVest l’estimateur convergent de la matrice variance-covariance
des parametres estimes par la methode IV et † denote l’inverse
generalisee Moore-Penrose (qui generalise la notion d’inverser une
matrice).
6. La statistique en grand echantillon (asymptotiquement) suit une
distribution chi-carre avec un nombre de degres de liberte egal au
rang de la matrice(
ΣβIV− Σβ
).
7. Le test peut etre effectue en R par le bias de la commande
hausman.systemfit(·) provenant du package systemfit. La
commande prend deux arguments, qui sont les resultats du modele
estime de deux facons differentes (MCO et IV dans l’exemple qui
nous preoccupe).
• Il y a une facon beaucoup plus facile d’effectuer le test. Voir la section
15.5 dans Wooldridge (2009).
1. Soit le modele lineaire donne par
Yi = β0 + β1W1,i + . . .+ βkWk,i + βk+1Xi + ui,
ou on sait que les variables W ne sont pas correlees avec le terme
d’erreur u tandis que la variable X est possiblement correlee avec le
terme d’erreur.
2. On a un ensemble de variables instrumentales qui comprennent les
variables dans le modele initial qui ne sont pas correlees avec U
41
(W1,W2, . . . ,Wk) plus possiblement d’autres variables.
3. Soit le modele auxiliaire donne par
Xi = γ0 + γ1W1,i + . . .+ γk2Wk2,i + εi,
ou k2 ≥ k + 1. Donc il doit y avoir au moins une variable
instrumentale qui n’est pas incluse dans le modele initial.
4. Par hypothese, les variables W ne sont pas correlees avec u, alors X
sera non correlee avec U si et seulement si l’erreur ε n’est pas correlee
avec u.
5. On voudrait inclure ε comme variable explicative additionnelle dans
le modele initial. On ne peut le faire puisque l’erreur n’est pas
observable, mais on peut inclure les residus d’une estimation du
modele auxiliaire par MCO. Donc, on estime le modele
Yi = β0 + β1W1,i + . . .+ βkWk,i + βk+1Xi + βk+2εi + ui.
Puisque ce n’est pas le meme modele que le modele initial, le terme
d’erreur n’est pas identique, et donc j’ai remplace ui par ui.
6. On teste l’hypothese nulle que βk+2 = 0 avec une statistique t. Si on
rejette l’hypothese nulle, on conclut que la variable X est endogene
(correlee avec le terme d’erreur U ) puisque ε et u sont correlees.
7. Il est possible de generaliser cette methode au cas ou il y a plus qu’une
42
variable qui est potentiellement endogene dans le modele initial.
Estimateur a variables instrumentales
Le developpement dans cet encadre est tres semblable a celui de l’encadre
sur l’interpretation alternative de l’estimateur MCO dans le chapitre sur le
modele de regression multiple.
On commence avec le modele lineaire habituel donne par
Y = Xβ + U.
On suppose maintenant qu’il n’est plus forcement le cas que
E (U |X) = 0.
Par contre, on suppose l’existence d’une matrice de dimensions n× k2 avec
k2 ≥ k + 1 et ou
E (U |W ) = 0.
Il s’agit d’une matrice d’observations sur k2 variables instrumentales qui ne
sont pas correlees avec le terme d’erreur du modele. Un instrument par
definition est une variable correlee avec les variables explicatives dans le
modele et non correlee avec le terme d’erreur du modele. Notez que s’il y a
43
des variables parmi les variables dans X qui ne sont pas conditionnellement
correlees avec U , ces variables peuvent etre incluses dans W .
Considerez maintenant le modele transforme
R′W ′Y = R′W ′Xβ +R′W ′U
ou R est une matrice de ponderations (nous reviendrons sur cette matrice un
peu plus tard). Nous pouvons pour l’instat considerer R comme une matrice
de constantes.
Laissant tomber le dernier terme du membre droit pour obtenir
R′W ′Y = R′W ′Xβ
Definissons maintenant l’estimateur IV (variables instrumentales) comme
βIV = (R′W ′X)−1R′W ′Y.
Nous avons tout de suite que
(R′W ′X)(βIV − β
)
= (R′W ′X) (R′W ′X)−1R′W ′Y − (R′W ′X) β
= (R′W ′X) (R′W ′X)−1R′W ′ (Xβ + U)− (R′W ′X) β
44
= R′W ′U.
Nos hypotheses concernant l’esperance conditionnelle du terme d’erreur a
tout de suite pour consequence que
1
nR′W ′U
p−→ 0
⇒ 1
n(R′W ′X)
(βIV − β
)p−→ 0
⇒(βIV − β
)p−→ 0.
Notez que dans le cas de l’estimateur IV, nous ne pouvons pas monter
l’absence de biais. Nous avons
βIV = (R′W ′X)−1R′W ′Y
= (R′W ′X)−1R′W ′ (Xβ + U)
= β + (R′W ′X)−1R′W ′U.
Nous pouvons calculer l’esperance de cet estimateur et appliquer, comme
d’habitude, la loi des esperances iterees pour obtenir
E(βIV
)= β + E
((R′W ′X)
−1R′W ′U
)
= β + E(
E(
(R′W ′X)−1R′W ′U |W
)).
45
Le probleme a ce stade-ci est la presence de X dans l’expression
(R′W ′X)−1R′W ′. Meme etant donnees les valeurs des W , le terme
(R′W ′X)−1R′W ′ est encore stochastique. Nous ne pouvons pas traiter
l’expression comme une matrice de constantes et, pour cette raison, l’ecrire
du cote gauche de l’operateur d’esperance (conditionnelle).
Donc, pour cette raison, l’estimateur IV est convergent mais il est
possiblement biaise en echantillons finis.
Justification alternative
Une autre facon de justifier l’estimateur βIV est la suivante. Si les
instruments W ne sont pas correles avec le terme d’erreur, nous avons
Y = Xβ + U
⇒ E (R′W ′Y ) = E (R′W ′ (Xβ + U))
= E ((R′W ′X) β) + E (R′W ′U)
= E (R′W ′X) β + E (R′W ′U)
= E (R′W ′X) β + E (E (R′W ′U |W ))
= E (R′W ′X) β
⇒ β = (E (R′W ′X))−1
(E (R′W ′Y )) .
46
Comme dans la section sur la justification alternative de l’estimateur MCO.
les vraies valeurs des β sont une fonction des esperances de R′W ′X et de
R′W ′Y , Un estimateur naturel serait de remplacer les moments dans la
population par leurs equivalents calcules avec notre echantillon de donnees.
Nous avons tout de suite
βIV =
(1
n− 1(R′W ′X)
)−1(1
n− 1(R′W ′Y )
)
= (R′W ′X)−1R′W ′Y.
C’est une autre exemple d’un estimateur dans la classe de la methode des
moments : on remplace les moments dans la population par les moments
echantillonnaux.
Estimateur des moindres carres a deux etapes
Si les erreurs U sont independantes et homoscedastiques, on peut montrer
que le choix optimal de R est donne par
R = (W ′W )−1W ′X,
qui a l’interpretation de la matrice de coefficients estimes d’une regression de
toutes les variables X sur les instruments W . (C’est une autre version encore
47
du theoreme Gauss-Markov.) Autrement dit, si on a
X = Wρ+ ε,
alors
R ≡ ρ = (W ′W )−1W ′X.
De cette facon
Wρ = WR ≡ X
a l’interpretation des valeurs predites des X provenant de cette regression.
Notez bien que ρ est une matrice de coefficients puisque X est une matrice
de dimensions (n× (k + 1)) au lieu d’etre un vecteur de dimensions (n× 1).
Dans ce cas, on a
βIV =(X ′W (W ′W )
−1W ′X
)−1X ′W (W ′W )
−1W ′Y.
≡(X ′X
)−1XY.
Dans ce cas, l’estimateur IV est connu sous le nom de l’estimateur moindres
carres a deux etapes (2SLS en anglais ce qui veut dire � two-stage least
squares �), la premiere etape etant la regression de toutes les variables
explicatives du modele initial sur toutes les variables instrumentales.
48
Quelques qualifications
Le probleme fondamental avec l’estimateur IV est la necessite d’identifier
des variables instrumentales appropriees. Ceci est un grand sujet de recherche
en econometrie (le nombre de papiers sur le probleme � d’instruments
faibles � est enorme). Le probleme essentiellement est de trouver des
variables qui non seulement ne sont pas correlees avec le terme d’erreur du
modele mais aussi sont fortement correlees avec les variables explicatives
dans le modele qui sont endogenes (correlees avec le terme d’erreur).
Une recherche Google ou Google Scholar avec les mots cles � weak
instruments � devrait suffire pour constater que c’est un sujet de recherche
tres actif.
8 Un exemple detaille avec R
Je donne ici un exemple tres simple de calculs que l’on peut effectuer rapidement
et facilement avec R.
L’exemple est base sur le quatrieme chapitre dans Kleiber et Zeileis (2008). Voir
le livre pour des explications plus detaillees.
Les commandes peuvent etre executees comme un script.
49
R> # Charger les packages necessaires en memoire.
R> library("stats")
R> library("car")
R> library("sandwich")
R> library("faraway")
R> # Les donnees proviennent du package sandwich.
R> # Charger les donnees en memoire.
R> data("PublicSchools")
R> # Permettre d’appeler les variables directement
R> # sans utiliser le nom de la base de donnees.
R> attach(PublicSchools)
R> # Calculer des statistiques descriptives.
R> summary(PublicSchools)
R> # Il y a une observation manquante. L’enlever.
R> ps <- na.omit(PublicSchools)
R> attach(ps)
R> # Renormaliser la variable Income.
R> Income <- Income/10000
R> # Recalculer les statistiques descriptives.
R> summary(ps)
R> # Estimer le modele de regression simple.
R> ps lm <- lm(Expenditure ∼ Income)
50
R> # Sortir les resultats principaux.
R> summary(ps lm)
R> # Faire un graphique de la ligne de regression.
R> plot(Expenditure ∼ Income,ylim=c(230,830))
R> abline(ps lm)
R> # Ajouter 3 noms d’etat au graphique.
R> id <- c(2,24,48)
R> text(ps[id,2:1],rownames(ps)[id],pos=1,xpd=TRUE)
R> # Calculer un certain nombre de statistiques.
R> # diagnostiques.
R> # D’abord, calculer les "hatvalues".
R> ps hat <- hatvalues(ps lm)
R> # Sortir un graphique avec les hatvalues.
R> plot(ps hat)
R> # Ajouter des lignes pour la moyenne
R> # et pour trois fois la moyenne.
R> abline(h=c(1,3)*mean(ps hat),col=2)
R> # Identifier les observations aberrantes
R> # sur le graphique.
R> id <- which(ps hat>3*mean(ps hat))
R>
text(id,ps hat[id],rownames(ps)[id],pos=1,xpd=TRUE)
51
R> # Utiliser "plot(ps lm)" pour creer une
R> # serie de graphiques.
R> plot(ps lm,which = 1:6)
R> # Utiliser "influence.measures(ps lm)" pour
R> # identifier les observations abberrantes
R> # ou influentes.
R> summary(influence.measures(ps lm))
R> # Reestimer en enlevant les 3 observations.
R> plot(Expenditure ∼ Income, data = ps, ylim =
c(230, 830))
R> abline(ps lm)
R> id <-
which(apply(influence.measures(ps lm)$is.inf, 1,
any))
R> text(ps[id, 2:1], rownames(ps)[id], pos = 1, xpd
= TRUE)
R> ps noinf <- lm(Expenditure ∼ Income, data =
ps[-id,])
R> abline(ps noinf, lty = 2)
R> # Utiliser avPlots(ps lm).
R> avPlots(ps lm)
R> # Utiliser prplot(ps lm).
52
R> prplot(ps lm,1)
R> # Estimer le modele non lineaire avec
R> # Expenditure2 dans le modele.
R> ps lm2 <- lm(Income Expenditure +
I(Expenditureˆ2))
R> summary(ps lm2)
R> plot(ps lm2,which=1:6)
R> summary(influence.measures(ps lm2))
R> avPlots(ps lm2)
R> prplot(ps lm2,1)
R> prplot(ps lm2,2)
R> # Estimer un autre modele de regression
R> # multiple.
R> # Les donnees proviennent du package faraway.
R> # Les donnees contiennent des taux d’epargne
R> # dans 50 pays.
R> data(savings)
R> # Permettre d’appeler les variables directement
R> attach(savings)
R> summary(savings)
R> m1 <- lm(sr ∼ pop15 + pop75 + dpi + ddpi)
R> summary(m1)
53
R> plot(hatvalues(m1))
R> # Generer des graphiques de variables ajoutees.
R> avPlots(m1)
R> # Generer des graphiques de residus partiels.
R> prplot(m1,1)
R> prplot(m1,2)
R> prplot(m1,3)
R> prplot(m1,4)
References
Voir ce lien :
http:
//www.steveambler.uqam.ca/4272/chapitres/referenc.pdf
Derniere modification : 23/04/2018
54