42
Chapitre 9 Le Maximum de Vraisemblance et Les Moindres Carr´ es G´ en´ eralis´ es 9.1 Introduction Jusqu’` a pr´ esent nous avons suppos´ e que les erreurs relatives aux mod` eles de r´ egression sont ind´ ependamment distribu´ ees avec une variance constante. C’est une hypoth` ese tr` es forte, qui est souvent mise `a mal dans la pratique. Dans ce chapitre, nous envisageons des techniques d’estimation qui permettent de la relˆacher. Ce sont d’une part les moindres carr´ es g´ en´ eralis´ es, ou GLS, et les moindres carr´ es g´ en´ eralis´ es non lin´ eaires, ou GNLS, et d’autre part des applications vari´ ees de la m´ ethode du maximum de vraisemblance. Nous traitons les GLS et le ML ensemble parce que quand le ML est appliqu´ e aux mod` eles de r´ egression dont les erreurs sont normales, les estimateurs qui en esultent entretiennent des liens ´ etroits avec les estimateurs GLS. Le plan de ce chapitre est le suivant. Tout d’abord, dans la Section 9.2, nous relˆachons l’hypoth` ese selon laquelle les al´ eas sont ind´ ependamment distribu´ es avec une variance constante. L’estimation ML des mod` eles de egression sans ces hypoth` eses se trouve ˆ etre conceptuellement simple et tr` es proche de la m´ ethode des GNLS. Dans la Section 9.3, nous discutons de la eom´ etrie des GLS, et consid´ erons un cas particulier important dans lequel les estimations OLS et GLS sont identiques. Dans la Section 9.4, nous d´ ecrivons la mani` ere d’utiliser une version de la r´ egression de Gauss-Newton avec des mod` eles estim´ es par GNLS. Dans la Section 9.5, nous ´ etablissons un lien entre les GNLS et les GNLS faisables, et discutons d’un certain nombre de r´ esultats fondamentaux concernant `a la fois les GNLS et les GNLS faisables. La rela- tion entre les GNLS et le ML est ensuite trait´ ee dans la Section 9.6. Enfin, de la Section 9.7 `a la Section 9.9, nous consid´ erons les mod` eles de r´ egression non lin´ eaire multivari´ ee. Bien que de tels mod` eles puissent souvent paraˆ ıtre tr` es difficiles, et en premier lieu `a cause de la notation complexe qui doit permettre de prendre en compte de nombreuses variables d´ ependantes entre elles, nous montrons qu’ils sont en fait assez simples `a estimer `a l’aide des GNLS ou du ML. Pour terminer, dans la Section 9.10, nous discutons des mod` eles qui traitent des donn´ ees de panel et d’autres ensembles de donn´ ees qui combinent 300

Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

Embed Size (px)

Citation preview

Page 1: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

Chapitre 9

Le Maximum de Vraisemblance et

Les Moindres Carres Generalises

9.1 Introduction

Jusqu’a present nous avons suppose que les erreurs relatives aux modelesde regression sont independamment distribuees avec une variance constante.C’est une hypothese tres forte, qui est souvent mise a mal dans la pratique.Dans ce chapitre, nous envisageons des techniques d’estimation qui permettentde la relacher. Ce sont d’une part les moindres carres generalises, ou GLS,et les moindres carres generalises non lineaires, ou GNLS, et d’autre partdes applications variees de la methode du maximum de vraisemblance. Noustraitons les GLS et le ML ensemble parce que quand le ML est applique auxmodeles de regression dont les erreurs sont normales, les estimateurs qui enresultent entretiennent des liens etroits avec les estimateurs GLS.

Le plan de ce chapitre est le suivant. Tout d’abord, dans la Section9.2, nous relachons l’hypothese selon laquelle les aleas sont independammentdistribues avec une variance constante. L’estimation ML des modeles deregression sans ces hypotheses se trouve etre conceptuellement simple et tresproche de la methode des GNLS. Dans la Section 9.3, nous discutons de lageometrie des GLS, et considerons un cas particulier important dans lequel lesestimations OLS et GLS sont identiques. Dans la Section 9.4, nous decrivonsla maniere d’utiliser une version de la regression de Gauss-Newton avec desmodeles estimes par GNLS. Dans la Section 9.5, nous etablissons un lien entreles GNLS et les GNLS faisables, et discutons d’un certain nombre de resultatsfondamentaux concernant a la fois les GNLS et les GNLS faisables. La rela-tion entre les GNLS et le ML est ensuite traitee dans la Section 9.6. Enfin, dela Section 9.7 a la Section 9.9, nous considerons les modeles de regression nonlineaire multivariee. Bien que de tels modeles puissent souvent paraıtre tresdifficiles, et en premier lieu a cause de la notation complexe qui doit permettrede prendre en compte de nombreuses variables dependantes entre elles, nousmontrons qu’ils sont en fait assez simples a estimer a l’aide des GNLS oudu ML. Pour terminer, dans la Section 9.10, nous discutons des modeles quitraitent des donnees de panel et d’autres ensembles de donnees qui combinent

300

Page 2: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.2 Les Moindres Carres Generalises 301

des observations chronologiques et des donnees en coupe transversale. Dansce chapitre, nous ne discutons pas de ce qui est probablement l’applicationdes GLS la plus communement rencontree, a savoir l’estimation des modelesde regression avec correlation en serie. L’enorme litterature sur ce sujet serale theme du Chapitre 10.

9.2 Les Moindres Carres Generalises

Nous nous proposons de considerer dans cette section la classe des modeles

y = x(β) + u, u ∼ N(0,Ω), (9.01)

ou Ω, une matrice definie positive de dimension n × n, est la matrice decovariance du vecteur des aleas u. L’hypothese de normalite peut naturelle-ment etre relachee, mais nous la conservons pour le moment puisque nousvoulons utiliser la methode du maximum de vraisemblance. Dans certainesapplications, la matrice Ω peut etre connue. Dans d’autres, elle peut etreconnue seulement a une constante multiplicative pres, ce qui permet d’ecrireΩ = σ2∆, avec ∆ une matrice connue de dimension n × n et σ2 un scalairepositif inconnu. Dans la plupart des applications, seule la structure de Ωsera connue; nous pourrions par exemple savoir qu’elle provient d’un schemaparticulier d’heteroscedasticite ou de correlation en serie, et par consequentqu’elle depend dans un sens d’un certain nombre de parametres. Nous nousinteresserons a ces trois cas.

La fonction de densite du vecteur u est la fonction de densite normalemultivariee

f(u) = (2π)−n/2|Ω|−1/2 exp(− 1−

2u>Ω−1u

). (9.02)

Afin de passer de la fonction de densite du vecteur des aleas u a celle duvecteur des variables dependantes y, nous remplacons u par y − x(β) dans(9.02) et nous multiplions par la valeur absolue du determinant de la ma-trice Jacobienne associee a la transformation qui exprime u en termes de y.L’usage de ce facteur Jacobien est l’analogue de ce que nous avons deja realisedans la Section 8.10 avec les variables aleatoires scalaires. Pour les details,consulter l’Annexe B. Dans ce cas, la matrice Jacobienne correspond a la ma-trice identite, et son determinant est egal a un. En consequence, la fonctionde vraisemblance est

Ln(y,β, Ω) = (2π)−n/2|Ω|−1/2 exp(− 1−

2

(y − x(β)

)>Ω−1(y − x(β)

)),

et la fonction log-vraisemblance est

`n(y, β, Ω) = − n−2

log(2π)− 1−2

log |Ω|− 1−2

(y−x(β)

)>Ω−1(y−x(β)

). (9.03)

Page 3: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

302 Les Moindres Carres Generalises

Si la matrice Ω est connue, il est clair que cette fonction peut etre maximiseepar la minimisation de la somme generalisee des residus au carre

SSR(β |Ω) =(y − x(β)

)>Ω−1(y − x(β)

). (9.04)

Ce probleme de minimisation est celui resolu par les moindres carres nonlineaires generalises, ou GNLS. En derivant (9.04) par rapport a β et en an-nulant les derivees, nous obtenons k conditions du premier ordre comparablesa (2.04):

−2X>(β)Ω−1(y − x(β)

)= 0. (9.05)

La resolution de ces equations donne β, qui est le vecteur a la fois des esti-mations ML et GNLS pour ce probleme. Il est simple de prolonger la theorieasymptotique du Chapitre 5, pour montrer que

n1/2(β − β0)a∼ N

(0, plim

n→∞

(n−1X>(β0)Ω−1X(β0)

)−1), (9.06)

ou β0 est la valeur de β sous le DGP. Ce resultat implique que nous pouvonsrealiser des inferences pour les estimations GNLS essentiellement de la mememaniere que nous les realisons pour les estimations NLS.

Dans le cas lineaire ou x(β) = Xβ, les conditions du premier ordre (9.05)deviennent

−2X>Ω−1y + 2X>Ω−1Xβ = 0.

Celles-ci peuvent etre resolues analytiquement pour donner la formule stan-dard de l’estimateur des moindres carres generalises, ou GLS, 1

β =(X>Ω−1X

)−1X>Ω−1y. (9.07)

Cependant, en pratique, on calcule rarement les estimations GLS en utilisantcette formule. Supposons que η soit une matrice de dimension n×n telle que

η>η = Ω−1. (9.08)

Il existe differentes manieres d’obtenir une matrice η qui satisfasse (9.08) (voirl’Annexe A); on la choisit habituellement, mais pas necessairement, triangu-laire. Etant donnee η, il est possible de calculer les estimations GLS au moyende la regression OLS

ηy = ηXβ + ηu. (9.09)

Cette regression possede des erreurs qui sont independantes et qui ont unevariance constante unitaire, puisque

E(ηuu>η>

)= ηΩη>= η

(η>η

)−1η>= ηη−1

(η>

)−1η>= In,

1 L’estimateur GLS est occasionnellement appele estimateur Aitken, parce qu’ilfut propose par Aitken (1935).

Page 4: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.2 Les Moindres Carres Generalises 303

ou In est la matrice identite d’ordre n. L’estimation OLS de β provenant dela regression (9.09) est

β =(X>η>ηX

)−1X>η>ηy =

(X>Ω−1X

)−1X>Ω−1y,

qui est l’estimation GLS de (9.07).Le cas dans lequel Ω = σ2∆, ou σ2 est inconnue mais ou ∆ est connue

est pratiquement le meme cas que celui ou Ω est connue. La fonction delog-vraisemblance (9.03) devient

`n(y, β, ∆, σ) =− n−2

log(2π)− n log(σ)− 1−2

log |∆|

− 12σ2

(y − x(β)

)>∆−1(y − x(β)

).

La concentration de cette fonction par rapport a σ2 produit la fonction delog-vraisemblance concentree

`c(y, β, ∆) = C − 1−2

log |∆| − n−2

log((

y − x(β))>∆−1

(y − x(β)

)).

Evidemment, cette quantite peut etre maximisee en minimisant la sommegeneralisee des residus au carre

SSR(β |∆) =(y − x(β)

)>∆−1(y − x(β)

),

qui ressemble exactement a (9.04) sauf que ∆ joue maintenant le role deΩ. Ainsi, lorsque l’on souhaite realiser une estimation, le fait que Ω soitcompletement connue ou qu’elle soit connue a une constante multiplicativepres importe peu.

Nous avons vu que si la matrice de covariance Ω est connue, au moinsa une constante multiplicative pres, il est simple conceptuellement de trouverles estimations GLS ou GNLS. Cependant, proceder ainsi peut ne pas etre siaise dans la pratique si n est important et si Ω−1 ou η doivent etre calculeesnumeriquement. Heureusement, lorsque Ω est connue, ou lorsque sa struc-ture l’est, elle depend habituellement d’un nombre relativement restreint deparametres, et une fois que ceux-ci ont ete specifies, il est souvent possible detrouver analytiquement Ω−1 et η. Dans un nombre important de cas sem-blables, la forme de η est telle qu’il est extremement aise de premultiplier yet X par cette matrice. Nous rencontrerons plusieurs exemples de ce typelorsque nous discuterons de la correlation en serie dans le Chapitre 10.

Considerons l’exemple simple suivant, dans lequel les aleas sont hetero-scedastiques mais non correles les uns des autres

E(u2t ) = σ2wα

t , E(utus) = 0 pour t 6= s, (9.10)

Page 5: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

304 Les Moindres Carres Generalises

ou wt est une observation portant sur une variable exogene et α est unparametre. Ce type de specification pourrait avoir du sens si wt etait une vari-able liee a l’echelle de la variable dependante, telle que la taille de l’entreprisesi la variable dependante etait le benefice. Dans ce cas la matrice Ω est dia-gonale, avec un t ieme element diagonal egal a σ2wα

t . Ainsi, la matrice Ω−1 estegalement une matrice diagonale avec σ−2w−α

t comme t ieme element diagonal,et η est une matrice diagonale avec σ−1w

−α/2t comme t ieme element diagonal.

La fonction σ2wαt est ce que l’on appelle parfois la fonction scedastique. De la

meme maniere qu’une fonction de regression determine l’esperance condition-nelle d’une variable aleatoire, une fonction scedastique determine sa varianceconditionnelle.

Dans ce cas, il est particulierement facile de voir qu’il n’est pas necessairede connaıtre σ pour obtenir les estimations GLS, puisque le sous-espace en-gendre par les colonnes de ηX ne change pas si nous multiplions η parn’importe quelle constante. Pourvu que nous connaissions α, nous pouvonsexecuter la regression

yt

wα/2t

=k∑

i=1

βiXti

wα/2t

+ residu. (9.11)

Elle produira exactement les memes estimations GLS β que la regression(9.09), qui est dans ce cas

yt

σwα/2t

=k∑

i=1

βiXti

σwα/2t

+ residu.

De (9.11) nous pouvons facilement estimer σ; l’estimation correspond simple-ment a l’estimation OLS de l’ecart type de la regression. Ce type de procedureGLS, dans laquelle la regressande et les regresseurs sont simplement multipliespar des ponderations qui varient au travers des observations est souvent ap-pele moindres carres ponderes. Ceci s’applique a chaque fois que les aleas sontheteroscedastiques avec des variances connues a une constante multiplicativepres et non correles les uns aux autres.

Evidemment, il n’existe pas de difficulte conceptuelle a l’estimation desmodeles tels que (9.01) quand la matrice de covariance Ω est connue, etde meme il n’existe pas de difficulte conceptuelle a prouver que ces estima-tions possedent les memes proprietes que les estimations NLS dans un modelecorrectement specifie. Cependant, l’estimation de β devient beaucoup plusdifficile lorsque Ω n’est pas connue. Dans ce cas, deux manieres de procederexistent: les GNLS faisables, procedure dans laquelle l’inconnue Ω est rem-placee par une matrice qui l’estime de facon convergente, et le maximumde vraisemblance. Nous considerons ces techniques respectivement dans lesSections 9.5 et 9.6.

Page 6: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.3 La Geometrie des GLS 305

9.3 La Geometrie des GLS

Dans cette section, nous discutons brievement de la geometrie des moindrescarres generalises. Les valeurs ajustees de la regression GLS de y sur X sont

X(X>Ω−1X

)−1X>Ω−1y.

De la, la matrice qui projette y sur S(X) est dans ce cas

P ΩX ≡ X

(X>Ω−1X

)−1X>Ω−1. (9.12)

La matrice de projection complementaire est

MΩX ≡ I−X

(X>Ω−1X

)−1X>Ω−1. (9.13)

Tout comme les matrices de projection les plus familieres PX et MX associeesaux moindres carres ordinaires, il peut etre facilement verifie que ces matricesde projection sont idempotentes. Quoi qu’il en soit, comme elles ne sont passymetriques, P Ω

X ne projette pas orthogonalement sur S(X), et MΩX projette

sur S⊥(Ω−1X) plutot que sur S⊥(X). Il existe des exemples ou ces matri-ces sont appelees matrices de projection oblique, parce que l’angle entre lesresidus MΩ

X y et les valeurs ajustees P ΩX y n’est generalement pas egal a 90.

Pour s’en convaincre, observons que

y>P Ω>X MΩ

X y = y>Ω−1X(X>Ω−1X

)−1X>

(I−X

(X>Ω−1X

)−1X>Ω−1

)y

= y>Ω−1X(X>Ω−1X

)−1X>y

− y>Ω−1X(X>Ω−1X

)−1X>X

(X>Ω−1X

)−1X>Ω−1y,

qui est nulle uniquement dans des circonstances tres speciales, telles que cellesou Ω est proportionnelle a In. Ainsi, les residus des GLS ne sont generalementpas orthogonaux aux valeurs ajustees des GLS.

La Figure 9.1 illustre la distinction entre les estimations OLS et GLS.Dans le but d’avoir au plus trois dimensions dans nos representations, quelqueshypoteses simplificatrices ont du etre faites. Premierement, X et Ω−1Xpossedent chacune seulement deux colonnes, afin que S(X) et S(Ω−1X) puis-sent etre bi-dimensionnelles. Ces deux sous-espaces sont representes sur lafigure par deux plans qui s’intersectent, mais en general, leur intersectionse reduira seulement a l’origine. D’autre part, le vecteur y appartient dansnotre figure (par necessite) au meme espace a trois dimensions que les deuxplans. En general, il n’en sera pas ainsi: normalement cinq dimensionssont necessaires pour que la Figure 9.1 soit une representation adequate.Neanmoins, la figure est suffisante pour nos objectifs presents.

æ

Page 7: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

306 Les Moindres Carres Generalises

.......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

......................................

......................................

......................................

........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

......................................................

.....................................................

....................................................

....................................................

................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................

................................................................................................................

............................................

............................................

............................................

..........................................................

........................................................................................................................................................................

..............................................................................................................................

.........................................................................................................................

............................................................................................................................................................................ ........................

........................

........................

........................

........................

........................

..........

...........

...........................

...........................

y.........................................................................................................................................................................................................................

PXy

.............................................................................................................................................................................................................................

PΩX y

O

.............................................................................................................

................................................................................................... ...........

S(X)

S(Ω−1X)

Figure 9.1 Relation entre les estimations OLS et GLS

Les valeurs ajustees des OLS correspondent au vecteur PXy, la projectionorthogonale de y sur le plan S(X). Afin de voir comment les residus et lesvaleurs ajustees des GLS peuvent etre construits geometriquement, souvenons-nous qu’a partir de (9.13) le champs de projection de MΩ

X est le complementorthogonal de S(Ω−1X). Les residus des GLS doivent alors se trouver dansS⊥(Ω−1X). D’un autre cote, les valeurs ajustees des GLS doivent se trouverdans S(X), et ainsi y doit correspondre a la somme de deux vecteurs, nonmutuellement orthogonaux, l’un appartenant a S(X) et l’un appartenant aS⊥(Ω−1X). Cette decomposition de y est illustree sur la figure, sur laquel-le nous pouvons voir directement que les residus des GLS sont en realiteperpendiculaires a S(Ω−1X).

Un autre point qui devrait etre clair a partir de la figure est que levecteur de residus des GLS, en tant que resultat d’une projection oblique,doit necessairement etre plus long que le vecteur de residus des OLS, qui estconstruit de maniere a etre le plus court possible. D’un autre cote, le vecteurdes valeurs ajustees des GLS P Ω

X y peut etre soit plus long soit plus courtque le vecteur PXy des valeurs ajustees des OLS. En fait, contrairement aPXy qui est toujours plus court que y, P Ω

X y peut etre plus long que y danscertaines circonstances. La realisation de l’une de ces possibilites depend de lamatrice de covariance Ω. Pour un ensemble d’observations donne, il existe denombreux ensembles differents d’estimations des GLS, un pour chaque choixpossible de Ω.

Nous pourrions en dire beaucoup plus concernant la geometrie des GLSet les proprietes des matrices de projection oblique; une reference classiqueest Seber (1980). Quoi qu’il en soit, ainsi que nous l’avons vu auparavant, lamethode des GLS est toujours equivalente a celle des OLS sur une regressiondans laquelle la regressande et les regresseurs ont ete convenablement trans-formes. Ainsi, tout ce que nous avons deja appris concernant les OLS est

Page 8: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.3 La Geometrie des GLS 307

directement applicable aux GLS, des que le modele originel a ete transformecomme dans (9.09). En particulier, le Theoreme de Gauss-Markov s’appliqueaux modeles estimes par GLS. Si les donnees sont generees par un cas specialde

y = Xβ + u, E(uu>) = Ω,

(notons que l’hypothese de normalite n’est pas necessaire ici), alors l’estima-teur GLS (9.07) est le meilleur estimateur lineaire sans biais. Ce resultatdecoule de l’application du Theoreme de Gauss-Markov demontre dans laSection 5.5 a la regression (9.09). De facon similaire, si le DGP est un casparticulier de (9.01) (peut-etre avec Ω = σ2∆ ou seulement ∆ est connue),alors l’estimateur GNLS sera le meilleur estimateur convergent et asympto-tiquement lineaire.

Avant de quitter cette section, nous devons discuter de la possibiliteimportante ou GLS et OLS peuvent dans certains cas donner des estima-tions identiques. Notre discussion fait suite a l’article de Kruskal (1968), etnous nous refererons alors au resultat en tant que Theoreme de Kruskal. Leresultat est simple a enoncer: les estimations OLS et GLS sont les memes siet seulement si les deux sous-espaces S(X) et S(Ω−1X) sont identiques. Leresultat est evident sur la Figure 9.1, imaginons simplement que S(Ω−1X)pivote pour coıncider avec S(X). Formellement, pour voir que les estimationsOLS et GLS doivent coıncider si S(Ω−1X) et S(X) sont les memes, il suf-fit d’observer que la decomposition par OLS de y en un vecteur des valeursajustees et un vecteur de residus satisfait les exigences de la decomposition(unique) par GLS: PXy se trouve dans S(X), et MXy est orthogonal a S(X),et par la aussi a S(Ω−1X). Si les valeurs ajustees par OLS Xβ et les valeursajustees par GLS Xβ sont identiques, et si les estimations parametriques βet β sont uniques, ces deux procedures doivent etre egalement identiques.

Le resultat reciproque, a savoir que si OLS et GLS donnent les memesestimations pour n’importe qu’elle realisation du vecteur y, alors S(X) etS(Ω−1X) doivent etre les memes, est aussi facile a voir. Notons qu’un uniquevecteur de residus doit etre orthogonal a la fois a S(X) et a S(Ω−1X), etpar consequent a S(X, Ω−1X). Puisque seuls k elements de β sont estimes,les residus peuvent etre orthogonaux a un espace a plus de k dimensions, etainsi S(X,Ω−1X), peut etre a plus de k dimensions. Mais comme S(X) etS(Ω−1X) sont tous deux de dimension k, ils doivent coıncider.

Selon les applications, il sera plus facile de manipuler Ω ou Ω−1, et ilpeut etre utile de noter que S(X) = S(Ω−1X) si et seulement si S(X) =S(ΩX). Le raisonnement est comme suit: S(X) ⊆ S(Ω−1X) si et seulementsi pour tout β ∈ Rk il existe λ ∈ Rk tel que Xβ = Ω−1Xλ. Mais ceciest equivalent a dire que ΩXβ = Xλ, qui implique que S(ΩX) ⊆ S(X).La reprise de l’argumentation en permutant X et Ω−1X donne le resultatdans son integralite. La situation dans laquelle les estimations OLS et GLSsont identiques ne se rencontre pas tres frequemment, mais nous verrons uneapplication importante du Theoreme de Kruskal dans la Section 9.8.

Page 9: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

308 Les Moindres Carres Generalises

Une autre maniere de voir comment le Theoreme de Kruskal peut etreverifie consiste a noter que l’estimateur GLS (9.07) peut etre interprete commeun estimateur IV simple avec comme matrice d’instruments Ω−1X. Noussavons de la Section 7.4 que l’estimateur IV simple est identique a l’estimateurIV generalise. Ceci implique que

β =(X>Ω−1X

)−1X>Ω−1y =

(X>PΩ−1XX

)−1X>PΩ−1Xy,

ou, comme d’habitude, PΩ−1X designe la matrice de projection sur S(Ω−1X).Quand S(Ω−1X) = S(X), PΩ−1X = PX. Ainsi, la seconde expression de β

se reduit ici a l’expression de l’estimateur OLS β.Le fait que l’estimateur GLS ressemble a un estimateur IV suscite un

interet plus theorique que pratique, parce que l’on ne voudrait pas obtenir desestimations GLS en utilisant une procedure IV. Les estimations parametriquesseraient correctes, mais l’estimation de la matrice de covariance ne le seraitpas. La matrice de covariance correcte des GLS est proportionnelle a(X>Ω−1X)−1, mais l’estimation IV de la matrice de covariance est propor-tionnelle a (X>PΩ−1XX)−1.

9.4 La Regression de Gauss-Newton

On associe a la methode des GNLS une version de la regression de Gauss-Newton qui peut etre utilisee dans des conditions identiques a l’utilisation dela regression de Gauss-Newton originelle (voir le Chapitre 6). Cette GNR est

η(y − x(β)

)= ηX(β)b + residus, (9.14)

ou b est un vecteur de coefficients a k dimensions qui doit etre estime et η estn’importe quelle matrice de dimension n × n qui satisfait l’equation (9.08).Ce n’est pas une coıncidence si la regression (9.14) ressemble a la regression(9.09), qui a ete utilisee pour calculer les estimations GLS dans le cas lineaire.La GNR correspond en realite a une linearisation du modele non lineaireoriginel, ou a la fois la regressande et les regresseurs sont transformes afin derendre la matrice de covariance des aleas proportionnelle a la matrice identite.

Si nous evaluons a la fois x(β) et X(β) en β, le resultat de la regression(9.14) donne b = 0 et la matrice de covariance estimee

(y − x)>η>η(y − x)n− k

(X>η>ηX

)−1 =SSR(β |Ω)

n− k

(X>Ω−1X

)−1. (9.15)

Le premier facteur du membre de droite de (9.15) correspond precisement al’estimation OLS de la variance de la GNR; comme nous l’expliquerons dansun moment, il doit tendre vers 1 quand n →∞ si la matrice de covariance deu est effectivement Ω. Ce premier facteur serait normalement omis dans la

Page 10: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.4 La Regression de Gauss-Newton 309

pratique.2 En comparant le second facteur du membre de droite de (9.15) avecla matrice de covariance qui apparaıt dans (9.06), il est evident que celui-cifournit une estimation raisonnable de la matrice de covariance de β.

Au cours de la discussion precedente, nous faisions l’assertion selon laquel-le (n − k)−1SSR(β |Ω) devrait tendre vers 1 lorsque n → ∞. Avec cetteassertion, nous avons utilise implicitement le resultat suivant:

plimn→∞

(1−n

u>Ω−1u)

= 1. (9.16)

Ce resultat demande justification. Tout d’abord, nous devons supposer queles valeurs propres de Ω, qui sont toutes strictement positives puisque Ω estsupposee etre definie positive, sont bornees superieurement et inferieurementquand n →∞. Ces hypotheses impliquent que les valeurs de η possedent lesmemes proprietes. Ensuite, nous utilisons le resultat selon lequel

u = MΩ0 u + o(n−1/2). (9.17)

Ici, MΩ0 designe une matrice de projection oblique identique a (9.13), mais

qui depend de la matrice de derivees X0 ≡ X(β0) plutot que d’une matricede regresseurs X. Le resultat (9.17) est a l’evidence l’analogue GNLS duresultat (5.57) pour les NLS ordinaires et nous ne nous soucierons donc pasde le deriver.

Puisque l’hypothese de la valeur bornee nous permet de conclure que

ηu = ηMΩ0 u + o(n−1/2),

la quantite dont nous voulons calculer la limite en probabilite dans (9.16) est

1−n

u>Ω−1u = 1−n

(u>(MΩ

0 )>Ω−1MΩ0 u + o(n1/2)

)

= 1−n

u>(MΩ0 )>Ω−1MΩ

0 u + o(n−1/2).(9.18)

Le premier terme dans la seconde ligne est ici

1−n

u>(MΩ0 )>Ω−1MΩ

0 u

= 1−n

u>Ω−1u− 2−n

u>(P Ω0 )>Ω−1u + 1−

nu>(P Ω

0 )>Ω−1P Ω0 u

= 1−n

u>Ω−1u− 1−n

u>Ω−1P Ω0 u, (9.19)

2 Cet enonce est vrai seulement si Ω est completement connue. Comme nous leverrons par la suite, l’estimateur GNLS demeure inchange si Ω est seulementconnue a une constante multiplicative pres, et il s’agit d’une estimation com-munement rencontree dans la pratique. Dans ce cas, le premier facteur dans(9.15) serait employe pour estimer cette constante.

Page 11: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

310 Les Moindres Carres Generalises

ou

P Ω0 ≡ I−MΩ

0 ≡ X0

(X0>Ω−1X0

)−1X0>Ω−1

est essentiellement la meme matrice que P ΩX definie dans (9.12). Seul le

premier terme de (9.19) est O(1). Intuitivement, la raison est que lorsque uest projete sur S(X0), le resultat se trouve dans un espace a k dimensions.Ainsi, une expression comparable au second terme dans (9.19), qui peut etreecrite comme

n−1(n−1/2u>Ω−1X0

)(n−1X0

>Ω−1X0

)−1(n−1/2X0

>Ω−1u),

est O(n−1), puisque chaque facteur sauf le premier est O(1).

Ainsi, de (9.18) et (9.19), nous concluons que

1−n

u>Ω−1ua= 1−

nu>Ω−1u. (9.20)

La forme quadratique dans le membre de droite de (9.20) peut etre ecrite tressimplement en utilisant une matrice η qui satisfait (9.08). Nous obtenons

1−n

u>Ω−1u = 1−n

n∑t=1

(ηu)2t .

Le vecteur ηu possede une esperance nulle et une matrice de variance egale aIn. Les termes de la somme dans le membre de droite de cette expression sontalors non correles et asymptotiquement independants. Ainsi, nous pouvonsappliquer une loi des grands nombres et affirmer que la limite en probabilitede la somme est egale a un. Il s’ensuit que

plimn→∞

(1−n

u>Ω−1u)

= 1.

Alors, a partir de (9.20), nous concluons que cela reste vrai si u est remplacepar u, qui etait ce que nous cherchions a montrer a l’origine.

Ce resultat peut etre utilise pour tester si Ω est reellement la matrice decovariance des aleas. Une statistique de test appropriee est u>Ω−1u, qui cor-respond simplement a la SSR de la regression GNLS d’origine apres transfor-mation. Elle devrait etre asymptotiquement distribuee suivant une χ2(n− k)sous l’hypothese nulle.

Page 12: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.5 Les Moindres Carres Generalises Faisables 311

9.5 Les Moindres Carres Generalises Faisables

Dans la pratique, on connaıt rarement la matrice de covariance Ω, mais onsuppose parfois qu’elle depend d’une maniere particuliere d’un vecteur α deparametres inconnus. Dans un tel cas, deux manieres de proceder s’offrenta l’utilisateur. La premiere consiste a obtenir une estimation convergente deα, disons α, par une quelconque procedure auxiliaire. Ceci produit alors uneestimation de Ω, Ω(α), qui est utilisee a la place de la veritable matrice decovariance Ω0 ≡ Ω(α0) dans ce qui est en dehors de cette adaptation uneprocedure GLS standard. Cette approche, qui fera l’objet de cette section, estappelee GLS faisables parce qu’elle est faisable dans un grand nombre de casou les GLS ordinaires ne le sont pas. L’autre approche consiste a utiliser lemaximum de vraisemblance pour estimer α et β conjointement, generalementsous l’hypothese de normalite; cela sera discute dans la Section 9.6.3

Sous des conditions raisonnables, les GLS faisables donnent des esti-mations qui non seulement sont convergentes mais aussi asymptotiquementequivalentes aux veritables estimations GLS, et par consequent, elles parta-gent leurs proprietes d’efficacite. Cependant, meme lorsque c’est le cas, lesqualites des GLS faisables avec des echantillons finis peuvent etre nettementamoindries par rapport a celle des veritables GLS si α est un estimateurpauvre de α.

Dans la plupart des cas, les estimations de α qui sont utilisees pourles GLS faisables sont basees sur les residus OLS ou NLS, dont un elementtype est ut ≡ yt − xt(β). Il est envisageable d’utiliser ces residus dans lebut d’estimer α parce que, dans de nombreuses circonstances, ils estimentde maniere convergente les aleas ut, bien qu’etant bases sur une procedured’estimation qui utilise une matrice de covariance inappropriee. Il est evidentque si les estimations OLS ou NLS β estiment β de maniere convergente, lesresidus estimeront les aleas de maniere convergente. Ce qui n’est pas evident(et n’est pas toujours vrai) est que β estime de maniere convergente β.

Un traitement rigoureux des conditions sous lesquelles les estimationsNLS sont convergentes lorsque les aleas ut ne satisfont pas l’hypothese i.i.d.depasse le domaine de ce livre. Consulter Gallant (1987) pour un tel traite-ment. Cependant, il est utile de voir comment la preuve de convergence de laSection 5.3 serait affectee si nous relachions cette hypothese. Souvenons-nousque la convergence de β depend entierement des proprietes de n−1 fois lafonction somme-des-carres:

ssr(y, β) ≡ 1−n

n∑t=1

(yt − xt(β)

)2 = 1−n

n∑t=1

(xt(β0)− xt(β) + ut

)2. (9.21)

3 Tout ceci suppose que la structure de Ω est connue. Lorsque ce n’est pas le cas,il n’est generalement pas possible d’utiliser les GNLS ou le ML. Cependant,comme nous le verrons dans le Chapitre 17, on peut tout de meme obtenirdes estimations qui sont plus efficaces que les estimations NLS en utilisant lamethode generalisee des moments.

Page 13: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

312 Les Moindres Carres Generalises

Ici l’expression la plus a droite peut etre recrite comme

1−n

n∑t=1

(xt(β0)− xt(β)

)2 + 2−n

n∑t=1

(xt(β0)− xt(β)

)ut + 1−

n

n∑t=1

u2t . (9.22)

Comme nous l’avons vu dans la Section 5.3, les trois termes de (9.22) doiventchacun satisfaire une propriete cruciale. Le premier terme doit satisfaire

plimn→∞

(1−n

n∑t=1

(xt(β0)− xt(β)

)2)> 0 (9.23)

pour tout β 6= β0. Cette propriete doit rester valable si le modele doitetre identifie asymptotiquement, et nous supposerons qu’il l’est. Evidem-ment la condition (9.23) depend seulement de la specification de la fonctionde regression, et non pas de l’eventuelle propriete i.i.d. des ut, et il n’est doncpas necessaire de nous y interesser par la suite.

La seconde propriete cruciale est que le second terme de (9.22) doit ten-dre asymptotiquement vers zero. Cette propriete depend a l’evidence desproprietes des aleas ut. S’ils sont independants, meme s’ils ne sont pas iden-tiquement distribues, alors l’argument de la Section 5.3 s’applique tel quelinchange et montre que ce second terme a une esperance nulle. A conditionque les variances des ut et des fonctions de regression xt(β) soient convenable-ment bornees, la loi des grands nombres pour les martingales, Theoreme 4.6,peut etre appliquee, et nous obtenons le resultat desire. Pourtant, si les ut

ne sont pas independants, et si xt(β) depend des variables dependantes re-tardees, il est tres probable que le second terme de (9.22) n’aura pas uneesperance nulle. Evidemment, nous devons ecarter la combinaison dangereused’une fonction de regression qui depend des variables dependantes retardeeset d’aleas qui sont dependants entre eux. En regle generale, nous devonsegalement ecarter des aleas ut dont les variances sont potentiellement infiniessi nous desirons employer les lois des grands nombres.

La troisieme propriete cruciale est que le dernier terme de (9.22) devraitavoir une limite en probabilite deterministe. Dans le cas i.i.d, il tend versσ2

0 . Si les ut sont independants mais non necessairement identiquement dis-tribues, cette propriete restera valable si la limite de la variance des erreursmoyenne existe. Une fois de plus nous devons en general ecarter les variancespotentiellement non bornees. Mais la propriete peut faire defaut si les ut man-ifestent une trop forte correlation entre eux. A titre d’exemple, supposons queles ut soient identiquement distribues mais equicorreles, ce qui signifie que lacorrelation entre ut et us est la meme pour tout t 6= s. Ceci implique quenous pouvons ecrire

ut = δv + et, (9.24)

pour un quelconque parametre δ, ou v et et sont des variables aleatoiresindependantes, chacune de variance ω2. De la

E(u2t ) = (δ2 + 1)ω2 ≡ σ2

Page 14: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.5 Les Moindres Carres Generalises Faisables 313

et, pour tout t 6= s,E(utus) = δ2ω2.

Il s’ensuit que la correlation entre ut et us est δ2/(δ2 +1). En faisant varier δ,nous pouvons evidemment donner a cette correlation n’importe quelle valeurcomprise entre zero et un.

Le point clef de cet exemple reside dans la relation (9.24). En substituantcelle-ci dans le troisieme terme de (9.22), nous obtenons

1−n

n∑t=1

u2t = 1−

n

n∑t=1

(δv + et

)2

= 1−n

n∑t=1

(δ2v2 + 2δetv + e2

t

)

= δ2v2 + 1−n

n∑t=1

(2δetv + e2

t

).

Si nous travaillons conditionnellement a v, le second terme de la derniereexpression precedente satisfait la loi des grands nombres la plus simple et tendvers la limite en probabilite deterministe egale a ω2. Mais le premier terme,qui est independant de la taille de l’echantillon, correspond a une variablealeatoire non degeneree. Il en resulte que n−1 fois la fonction somme-des-carres, l’expression (9.21), ne sera pas asymptotiquement non stochastique,et les estimations NLS β ne seront pas convergentes.

Nous revenons maintenant au sujet des GLS faisables. Si nous pou-vons eliminer la possibilite de variances non bornees, une dependance enserie beaucoup trop forte (similaire au cas pathologique que nous venonsjuste de decrire), et la combinaison de la correlation en serie et des vari-ables dependantes retardees dependantes, les estimations NLS β seront con-vergentes ainsi que les residus ut. Nous pouvons alors utiliser ces residuspour obtenir des estimations convergentes au taux n1/2 des parametres α. Lamethode des GLS faisables s’applique a chaque fois que nous pouvons eliminerde telles eventualites.

A titre d’exemple considerons (9.10). Selon ce modele, la variance de ut

est σ2wαt , qui depend des parametres inconnus α et σ2. Une maniere d’estimer

α consiste a executer la regression non lineaire

u2t = σ2wα

t + residu. (9.25)

A condition que u2t estime effectivement u2

t de maniere convergente, il semblehautement plausible que l’estimation NLS α a partir de (9.25) fournira uneestimation convergente au taux n1/2 de α. C’est un cas inhabituellementdelicat puisque la regression auxiliaire qui permet d’estimer le parametre dela matrice de covariance, α, est non lineaire. Une autre maniere d’estimer α

Page 15: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

314 Les Moindres Carres Generalises

sera presentee dans la prochaine section. Nous rencontrerons certains cas plussimples, ou les parametres de la matrice de covariance peuvent etre estimespar moindres carres ordinaires, au cours du Chapitre 10.

Nous presentons maintenant une explication non rigoureuse de l’equiva-lence asymptotique entre les GNLS faisables et les GNLS. Les conditions dupremier ordre pour GNLS sont

−2X>(β)Ω−10

(y − x(β)

)= 0. (9.26)

Les conditions du premier ordre pour les GNLS faisables sont

−2X>(β)Ω−1(y − x(β)

)= 0, (9.27)

ou β designe l’estimateur des GNLS faisables et Ω ≡ Ω(α). Evidemment,ces deux ensembles de conditions du premier ordre semblent en effet tressimilaires; la seule difference etant que Ω−1 apparaıt dans (9.26) et Ω−1

apparaıt dans (9.27). Mais comme α est suppose etre convergent au tauxn1/2, et Ω est supposee dependre de et etre derivable par rapport a α, nouspouvons ecrire

Ω−1 = Ω−10 + A, A = O(n−1/2). (9.28)

Par cette notation, nous signifions que chaque element de la matrice A estO(n−1/2), ce qui implique que chaque element de Ω−1 differe de l’elementcorrespondant de Ω−1

0 d’une quantite qui est asymptotiquement negligeable.De la, (9.27) devient

−2X>(β)Ω−10

(y − x(β)

)− 2X>(β)A(y − x(β)

)= 0. (9.29)

Comme Ω0 est O(1) alors que A est O(n−1/2), le second terme ici devientnegligeable relativement au premier lorsque n → ∞. Mais le premier termeest simplement le membre de gauche de (9.26). Ainsi, asymptotiquement, lesequations qui definissent l’estimateur des GNLS faisables β sont les memesque celles qui definissent l’estimateur GNLS β. Par consequent, les deuxestimateurs sont asymptotiquement equivalents.

Nous insistons sur le fait que la discussion precedente n’est pas rigoureuse.Nous n’avons pas montre formellement qu’il est correct d’ecrire (9.28), ouque le second terme du membre de gauche de (9.29) est asymptotiquementnegligeable relativement au premier. Cependant, une preuve pleinementrigoureuse de l’equivalence asymptotique des estimations des GLS et des GLSfaisables est assez technique et pas tres intuitive. Consulter Amemiya (1973a,1973b) et Carroll et Ruppert (1982), parmi d’autres.

En pratique, le desir d’utiliser les GLS faisables comme methode d’estima-tion depend de la qualite de l’estimation de Ω que l’on peut obtenir. Si Ω(α)est une tres bonne estimation de Ω0, alors les GLS faisables auront, en effet,

Page 16: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.6 Le Maximum de Vraisemblance et les GNLS 315

essentiellement les memes proprietes que les GLS, et les inferences basees surla matrice de covariance habituelle

(X>Ω−1X

)−1 (9.30)

seront raisonnablement fiables. Quoi qu’il en soit, si Ω(α) est une estimationpauvre de Ω0, les estimations des GLS faisables peuvent posseder des pro-prietes tres differentes des veritables estimations GLS, et (9.30) peut menera des inferences tres trompeuses.

9.6 Le Maximum de Vraisemblance et les GNLS

Une seconde approche, qui est largement utilisee a la place des GLS faisableslorsque l’on suppose que Ω est donnee par Ω(α) ou α est inconnu, consistea utiliser la methode du maximum de vraisemblance. Pour l’utiliser, nousdevons formuler une hypothese concernant la distribution des aleas (dansla pratique, presque toujours de normalite). Ceci nous permet de noter lafonction de logvraisemblance appropriee comme une fonction du vecteur α dedimension q et du vecteur β de dimension k.

Considerons la classe des modeles

y = x(β) + u, u ∼ N(0, Ω(α)

). (9.31)

En modifiant legerement la fonction de logvraisemblance (9.03), nous trouvonsque la fonction de logvraisemblance correspondant a (9.31) est

`n(y, β, α) = − n−2

log(2π)− 1−2

log |Ω(α)|

− 1−2

(y − x(β)

)>Ω−1(α)(y − x(β)

).

(9.32)

Deux ensembles de conditions du premier ordre existent, un pour α et unpour β. Le second sera similaire aux conditions du premier ordre (9.05) pourles GNLS:

−2X>(β)Ω−1(α)(y − x(β)

)= 0.

Le premier sera plutot complique, et dependra precisement des liens entre Ωet α. Pour un traitement plus detaille, consulter Magnus (1978).

Dans la Section 8.10, nous avons vu que la matrice d’information pour βet σ dans un modele de regression non lineaire avec pour matrice de covarianceσ2 I est bloc-diagonale entre β et σ. Un resultat analogue se revele etreexact pour le modele (9.31) egalement: la matrice d’information est bloc-diagonale entre β et α. Ceci signifie que, asymptotiquement, les vecteursn1/2(β − β0) et n1/2(α − α0) sont independants. Ainsi, le fait que α soitestime conjointement avec β peut etre ignore, et β aura les memes proprietes

Page 17: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

316 Les Moindres Carres Generalises

asymptotiques que l’estimateur des GNLS β et que l’estimateur des GNLSfaisables β.

L’argument precedent ne necessite pas que les aleas ut soient reellementnormalement distribues. Tout ce dont nous avons besoin est que les vecteursn1/2(β−β0) et n1/2(α−α0) soient asymptotiquement independants et O(1)sous n’importe quel DGP qui ait vraiment genere les donnees. On montre quececi est en fait le cas sous des conditions absolument generales, similaires auxconditions detaillees dans le Chapitre 5 pour que les moindres carres soientconvergents et asymptotiquement normaux; voir White (1982) et Gourieroux,Monfort, et Trognon (1984) pour les resultats fondamentaux dans ce domaine.Comme nous l’avions vu dans la Section 8.1, lorsque la methode du maximumde vraisemblance est appliquee a un ensemble de donnees pour lequel le DGPn’etait pas en realite un cas particulier du modele estime, l’estimateur qui enresulte est appele un estimateur quasi-ML, ou estimateur QML. Naturelle-ment dans la pratique presque tous les estimateurs ML que nous utilisonssont en realite des estimateurs QML, puisque certaines hypotheses de nosmodeles sont presque toujours fausses. Il est alors reconfortant de savoir quedans certaines situations frequentes, dont celle-ci, les proprietes des estima-teurs QML sont tres similaires a celles des veritables estimateurs, malgre bienevidemment la perte de l’efficacite asymptotique.

Comme exemple concret d’estimation des GLS, des GLS faisables et duML, considerons le modele

y = x(β)+u, u ∼ N(0,Ω), Ωtt = σ2wαt , Ωts = 0 pour tout t 6= s. (9.33)

Ce modele manifeste une heteroscedasticite de la forme (9.10). Puisque ledeterminant de Ω est

σ2nn∏

t=1

wαt ,

nous voyons a partir de (9.32) que la fonction de logvraisemblance est

`n(y,β, α, σ) =− n−2

log(2π)− n log σ − α−2

n∑t=1

log(wt)

−n∑

t=1

(yt − xt(β)

)22σ2wα

t

.

(9.34)

Si α etait connu, nous pourrions obtenir des estimations GNLS en estimantla regression non lineaire ponderee

yt

wα/2t

=xt(β)

wα/2t

+ut

wα/2t

, (9.35)

Page 18: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.6 Le Maximum de Vraisemblance et les GNLS 317

que nous connaissions σ ou pas. Les estimations NLS ponderees de (9.35)correspondraient aux estimations GNLS β. La regression de Gauss-Newtonassociee a (9.35) serait

1

wα/2t

(yt − xt(β)

)=

1

wα/2t

Xt(β)b + residu,

qui est un cas particulier de (9.14).Si α n’etait pas connu, nous devrions utiliser soit les GNLS faisables,

soit le ML. La difficulte avec la premiere methode consiste a obtenir une es-timation convergente de α sans beaucoup trop d’effort. La premiere etapeconsiste a executer une regression non lineaire de y sur x(β), en ignorantl’heteroscedasticite des aleas, afin d’obtenir un ensemble de residus par moin-dres carres u (nous utilisons la notation u plutot que la notation plus na-turelle u parce que dans cette section, ce dernier designe une estimation ML).Nous pouvons ensuite utiliser ces residus pour estimer α. Dans la sectionprecedente, nous suggerions d’utiliser les moindres carres non lineaires avecl’equation (9.25) pour mener a bien cette deuxieme etape. Cette approchen’est pas necessairement la meilleure. Le modele (9.33) implique que

u2t = σ2wα

t ε2t , (9.36)

ou εt est N(0, 1). Cette specification de la fonction scedastique n’incite pasen elle-meme a utiliser les moindres carres. En fait, le moyen le plus attrayantd’estimer α consiste a pretendre que ut est effectivement ut a estimer α a partirde (9.36) par le maximum de vraisemblance. Si nous remplacons yt − xt(β)dans (9.34) par ut, nous obtenons

`n(y, α, σ) = − n−2

log(2π)− n log(σ)− α−2

n∑t=1

log(wt)−n∑

t=1

u2t

2σ2wαt

. (9.37)

Il s’agit de la fonction de logvraisemblance pour α et σ conditionnelle a β,correspondant au vecteur des estimations NLS β. La condition du premierordre pour σ2 est

− n

2σ2+

n∑t=1

2wαt u2

t

4σ4w2αt

= 0,

et sa resolution donne

σ2 = 1−n

n∑t=1

u2t

wαt

.

La substitution de σ2 dans (9.37) produit alors la fonction de logvraisemblanceconcentree

`c(y, α) = C − n−2

log(

1−n

n∑t=1

u2t

wαt

)− α−

2

n∑t=1

log(wt). (9.38)

Page 19: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

318 Les Moindres Carres Generalises

Celle-ci peut etre maximisee par une recherche de α en une dimension.Notons que lorsque α devient plus grand, les second et troisieme termes

dans `c(y, α) varieront dans des directions opposees. Le second terme est uneexpression somme-des-carres, tandis que le troisieme est un terme Jacobien.Pour etre plus concret, supposons que wt > 1 pour tout t. Lorsque α devientplus grand, le second terme augmente (puisque chaque u2

t sera divise par unnombre plus important, et que somme des residus au carre ponderee diminuerasans cesse), mais le troisieme terme deviendra plus petit (car

∑log(wt), qui

sera positive, sera multipliee par un plus grand nombre negatif). De plus, nouspouvons montrer que quand α est suffisamment proche de zero, l’augmentationdans le second terme doit etre plus importante que la baisse dans le troisieme,et que quand α est suffisamment grand, le constat doit etre vrai. Il doit doncexister une valeur positive, et finie α qui maximise (9.38). Cette valeur seraitutilisee dans la regression non lineaire (9.35) pour obtenir les estimations deGNLS faisables β.

Pour obtenir les estimations ML (α, β), nous devons maximiser (9.34).En concentrant (9.34) par rapport a σ2, nous obtenons la fonction de logvrai-semblance concentree

`c(y, β, α) = C − n−2

log(

1−n

n∑t=1

(yt − xt(β)

)2wα

t

)− α−

2

n∑t=1

log(wt). (9.39)

Celle-ci peut etre maximisee par rapport a α et β conjointement, en util-isant un algorithme general pour l’optimisation numerique.4 Elle peut etreegalement maximisee en utilisant la combinaison d’une recherche a une dimen-sion sur α et sur β conditionnellement a α. La premiere approche est proba-blement la plus attrayante si x(β) est non lineaire, meme si la seconde peutl’etre si x(β) = Xβ, car l’estimation de β conditionnelle a α ne necessiteraqu’une simple regression OLS. Dans le second cas, nous pouvons effectivementconcentrer par rapport a β et reduire (9.39) a une fonction de α seulement.

Toute la discussion precedente a postule l’absence de relation entre lesparametres β de la fonction de regression et les parametres α qui determinentΩ(α), et ceci est generalement une hypothese raisonnable. Cependant, il estcertainement possible d’etablir des modeles ou une telle relation existe. Unexemple est le modele

yt = β0 + β1

(xβ2

t zβ3t

)+ ut, ut ∼ N

(0, σ2xβ2

t zβ3t

).

4 La plupart des algorithmes d’optimisation numerique generaux procede essen-tiellement de la meme maniere que les algorithmes pour les moindres carresnon lineaires decouverts dans la Section 6.8. La difference majeure est quela regression de Gauss-Newton ne peut pas etre utilisee pour determiner dansquelle direction chercher a chaque iteration majeure. Pour maximiser les fonc-tions de logvraisemblance, d’autres regressions artificielles, que l’on detailleradans les Chapitres 13, 14 et 15, peuvent etre utilisees a la place, bien qu’ilexiste des algorithmes pratiques qui n’utilisent pas les regressions artificiellespour ce propos. Consulter Cramer (1986).

Page 20: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.7 Introduction aux Regressions Multivariees 319

Ici les parametres β2 et β3 apparaissent a la fois dans la fonction de regressionet dans la fonction scedastique. Alors la matrice d’information n’est as-surement pas bloc-diagonale entre les parametres de la premiere fonction deregression et ceux de la seconde. Dans un cas comme celui-ci, le maximumde vraisemblance peut facilement etre utilise pour estimer efficacement tousles parametres, tandis que les techniques comme les GNLS faisables, qui ten-tent d’estimer les parametres de la fonction de regression conditionnellementa ceux de la fonction scedastique, n’en sont pas capables.

9.7 Introduction aux Regressions Multivariees

Jusqu’ici, et bien que nous ayons parfois donne formellement la possibilite a lavariable dependante dans les modeles que nous avons traites d’etre un vecteurplutot qu’un scalaire, nous n’avons effectivement pas discute d’un quelconquemodele pour lequel c’est le cas. A present nous sommes familiarises avec lesmoindres carres generalises et avec l’utilisation du maximum de vraisemblancepour estimer les modeles de regression, et nous sommes prets a discuter dumodele de regression non lineaire multivariee

yti = ξti(β) + uti, t = 1, . . . , n; i = 1, . . . , m. (9.40)

Ici yti est la t ieme observation de la i ieme variable dependante, ξti(β) estla t ieme observation de la fonction de regression qui determine l’esperanceconditionnelle de cette variable dependante, β est un vecteur de dimension kregroupant les parametres a estimer, et uti est un alea d’esperance nulle etcomportant d’autres proprietes dont nous discuterons dans peu de temps.

Les modeles de regression multivariee surviennent dans plusieurs circon-stances. Comme exemple simple, supposons qu’il y ait des observations surune variable dependante, pour 5 pays sur 120 trimestres (ce qui implique quem = 5 et n = 120). Chaque pays pourrait avoir une fonction de regressiondifferente determinant l’esperance conditionnelle de la variable dependante. Siles memes parametres apparaissaient dans plus d’une fonction de regression,on dirait que le systeme est soumis a des restrictions croisees. En presence detelles restrictions, il est evident que l’on voudrait estimer les cinq equationssimultanement dans un systeme plutot qu’individuellement, afin d’obtenir desestimations efficaces. Meme en l’absence de restrictions croisees, il semble tresprobable que les caracteristiques observees des environnements economiquesdes differents pays seraient reliees a chaque instant, de telle sorte que, selontoute vraisemblance, uti serait correle avec utj pour i 6= j. Dans cette situa-tion, le systeme des equations forme un ensemble que Zellner (1962) surnommeregressions sans lien apparent, ou systeme SUR. En verite, il semblerait pluslogique de s’y referer en tant que “regressions avec lien apparent”, mais il esttrop tard pour changer la terminologie a ce stade. Comme Zellner l’a montre,l’estimation d’un ensemble de regressions sans lien apparent conjointement

Page 21: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

320 Les Moindres Carres Generalises

dans un systeme produira sauf dans certains cas particuliers dont nous dis-cuterons par la suite, des estimations plus efficaces que celles obtenues parl’estimation de chacune d’entre elles separement, meme quand il n’y a pas derestrictions croisees. Ainsi, nous voudrions normalement traiter un systemeSUR comme un modele multivarie.

Il existe de nombreuses situations dans lesquelles la theorie economiquesuggere l’utilisation d’un modele de regression multivariee. Une classe treslargement repandue de modeles est celle des systemes de demande, danslesquels les parts des differentes classes de biens et services dans les depensesdes consommateurs sont reliees a la depense totale et aux prix relatifs. Lalitterature sur les systemes de demande est vaste; consulter, parmi de nom-breux autres, Barten (1964, 1969, 1977), Brown et Heien (1972), Christensen,Jorgenson, et Lau (1975), Deaton (1974, 1978), Deaton et Muellbauer (1980),Parks (1969), Pollak et Wales (1969, 1978, 1981, 1987), Prais et Houthakker(1955), et Stone (1954). Les systemes de demande peuvent etre estimes enutilisant soit des donnees chronologiques agregees (generalement annuellesmais parfois trimestrielles), ou, moins frequemment, des donnees en coupetransversale ou un melange de donnees chronologiques et de donnees en coupetransversale sur les menages.

Dans bien des cas (bien que cela soit moins vrai dans la litterature plusrecente), les formes fonctionnelles des systemes de demande sont simplementobtenues en maximisant une fonction d’utilite d’une certaine forme connuesoumise a une contrainte budgetaire. Par exemple, supposons que la fonctiond’utilite soit

m+1∑

i=1

αi log(qi − γi), (9.41)

ou il y a m + 1 marchandises, qi etant la quantite de marchandise i con-sommee et αi et γi etant des parametres. La justification des m+1 marchan-dises apparaıtra bientot. Les αi sont soumis a la restriction de normalisation∑m+1

i=1 αi = 1.La fonction d’utilite (9.41) est connue sous le nom de fonction d’utilite

Stone-Geary. Sa maximisation sous la contrainte budgetaire

m+1∑

i=1

qipi = E,

ou pi est le prix de la marchandise i et E est la depense totale pour toutes lesmarchandises, donne le systeme de demande:

si(E, p,α, γ) =γipi

E+ αi

(E −∑m+1

j=1 pjγj

E

),

ou si(E, p,α,γ) designe la part de la depense que l’on prevoit d’affecter a lamarchandise i, conditionnelle a la depense totale E, au vecteur de prix p et aux

Page 22: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.7 Introduction aux Regressions Multivariees 321

vecteurs de parametres α et γ. Ce systeme de demande particulier est connusous le nom de systeme de depense lineaire; cela releve d’une longue histoireantidatee de Stone (1954). Notons que bien que αi apparaisse seulement dansla i ieme equation de part, γi apparaıt dans toutes les m+1 equations de part,de telle sorte qu’il existe un grand nombre de restrictions croisees.

Par definition, les parts depensees sur toutes les marchandises doiventconduire a un total de un. Ceci constitue une implication importante pour lesaleas, que nous n’avons pas encore specifies. Supposons que nous formulionsl’hypothese que

sti = si(Et, pt, α, γ) + uti,

ou sti est la part observee de la depense correspondant a la marchandise ipour l’observation t, et uti est un alea. Alors

m+1∑

i=1

sti =m+1∑

i=1

si(Et,pt,α,γ) +m+1∑

i=1

uti.

Sommons les deux cotes de cette equation sur i, nous trouvons que 1 = 1 +∑m+1i=1 uti, ce qui implique que

m+1∑

i=1

uti = 0. (9.42)

Ainsi les aleas pour chaque observation doivent avoir une somme nulle surtoutes les parts de la depense. Comme Barten (1968) le montra, ceci ne creepas de probleme pour l’estimation; nous devons simplement abandonner uneequation de part et estimer le systeme pour les m parts restantes. De plus, sinous utilisons le maximum de vraisemblance, le choix de l’equation que nousne prenons pas en compte importe peu: les estimations de α et γ que nousobtenons seront identiques (souvenons-nous que les αi sont normalises pourdonner une somme egale a l’unite; c’est pourquoi nous pouvons proceder sansavoir besoin d’estimer l’une d’entre elles).

Bien que (9.42) ne produise pas de probleme serieux pour l’estimation,elle laisse apparaıtre de maniere absolument claire que les aleas uti et utj

doivent etre en general correles entre eux. A proprement parler, nous nedevrions pas supposer que les uti soient normalement distribues, parce que0 ≤ sti ≤ 1, ce qui implique que les uti doivent etre borne superieurement etinferieurement; voir Wales et Woodland (1983). Cependant, a condition quel’echantillon ne contienne pas d’observations qui sont, relativement aux ecartstypes de uti, proches de 0 ou 1, il est probablement raisonnable, en premiereapproximation, de supposer la normalite, et c’est precisement ce que la plupartdes auteurs ont fait. Ainsi, si Ut designe un vecteur ligne dont l’element typeest uti, nous pourrions specifier la distribution des Ut par N(0, Σ), ou Σ estune matrice de covariance singuliere de dimension (m + 1)× (m + 1). Alors

U∗t ∼ N(0, Σ∗),

Page 23: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

322 Les Moindres Carres Generalises

ou U∗t correspond a Ut moins une composante, disons la derniere, et Σ∗ est

alors une sous-matrice de dimension m×m de Σ. Parce que Σ est une ma-trice singuliere, les systemes d’equations pour lesquels la somme des aleas surtoutes les equations est nulle, sont frequemment nommes systemes d’equationssinguliers; consulter Berndt et Savin (1975). Il existe de nombreux exemplesde systemes d’equations singuliers en plus des systemes de demande. Cessystemes incluent des systemes de parts de facteurs de production tels queceux decrits par (Berndt et Christensen (1974) et Fuss (1977), ainsi que dessystemes d’equations d’emploi-ressources (Aigner (1973)).

Nous retournons a present aux modeles multivaries en general. La plusgrande difficulte rencontree avec de tels modeles est la notation. Commeξti(β) comporte deja deux indices, ses derivees premieres et secondes par rap-port aux elements de β doivent avoir respectivement trois et quatre indices.Ceci rend difficile le traitement des modeles multivaries. L’utilisation de lanotation matricielle conventionnelle n’est pas vraiment concue pour manipulerdes quantites avec plus de deux indices. La maniere d’aborder le problemeest propre a chaque auteur. A une extremite, s’inspirant de la pratique de laphysique moderne, Davidson et MacKinnon (1983b) preconisent l’utilisationde la “convention de la sommation d’Einstein”, une notation qui evite engrande partie l’utilisation des matrices en traitant toutes les quantites commedes expressions scalaires impliquant (typiquement) plusieurs sommations surles indices. Cette approche comporte de nombreux avantages. Malheureuse-ment, bien qu’elle ait ete utilisee par des econometres de grande notoriete, etparmi eux Sargan (1980b) et Phillips (1982), son utilisation n’est pas large-ment repandue en econometrie, et cela pourrait probablement sembler etrangea la plupart des lecteurs de ce livre. A l’autre extremite, certains auteurs selivrent a une utilisation massive des produits de Kronecker (⊗), d’operateursvectoriels, et ainsi de suite, afin d’utiliser exclusivement la notation matricielle;consulter Magnus et Neudecker (1988). Comme Malinvaud (1970a), nous es-saierons de tenir un cap intermediaire, qui nous l’esperons, sera a la fois facilea comprendre et relativement facile a manipuler.

Puisque nous sommes dans des preoccupations de notation, remarquonsque le modele (9.40) pourrait etre recrit sous l’un des deux formes suivantes:

Yt = ξt(β) + Ut, (9.43)

ou Yt, ξt(β), et Ut sont des vecteurs de dimension 1 ×m avec des elementstypes respectifs egaux a yti, ξti(β), et uti, ou

Y = ξ(β) + U, (9.44)

ou Y , ξ(β), et U sont des matrices de dimension n × m avec Yt, ξt(β), etUt comme lignes types. L’approche basee sur les conventions de sommationdebuterait avec (9.40), tandis que l’approche basee sur les produits de Kro-necker debuterait de (9.44), en utilisant les operateurs “vec” et “vech” pourempiler les colonnes de Y , ξ(β), et U. Notre approche commencera a partirde (9.43).

Page 24: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.8 L’Estimation GLS des Regression Multivariees 323

9.8 L’Estimation GLS des Regression Multivariees

Dans la pratique, les modeles de regression multivariee sont estimes habituelle-ment soit par les GLS faisables, soit par le maximum de vraisemblance, sousl’hypothese de la normalite. Sauf dans des circonstances tres rares, il n’estpas raisonnable de supposer que uti est independant de utj pour i 6= j, ainsique nous l’avons deja vu dans le cas a la fois des regressions sans lien apparentet des systemes de demande. Selon que nous nous proposons d’utiliser le MLou les GNLS faisables, nous pouvons ou pas vouloir supposer que le vecteurdes aleas Ut est normalement distribue. Dans l’un ou l’autre cas, nous feronsl’hypothese que

Ut ∼ IID(0,Σ),

ou Σ est une matrice de covariance de dimension m×m (habituellement incon-nue) parfois designee sous le nom de matrice de covariance contemporaine.Ainsi, nous supposons que uti est correle avec utj mais pas avec usj pours 6= t. Ceci est bien entendu une hypothese forte, qui devrait etre testee; parla suite, nous discuterons d’un test qui peut parfois etre approprie. Sous ceshypotheses, la somme generalisee des residus au carre pour le modele (9.43)est

n∑t=1

(Yt − ξt(β)

)Σ−1

(Yt − ξt(β)

)>. (9.45)

Supposons pour l’instant que Σ soit connue. Alors Σ peut etre utiliseepour transformer le modele multivarie (9.40) en un modele univarie. Sup-posons que ψ soit une matrice de dimension m×m (habituellement triangu-laire) telle que

ψψ>= Σ−1. (9.46)

Si nous postmultiplions chaque terme dans (9.43) par ψ, nous obtenons laregression

Ytψ = ξt(β)ψ + Utψ. (9.47)

Le vecteur d’erreur de dimension 1×m Utψ a une matrice de covariance egalea

E(ψ>Ut

>Utψ)

= ψ>Σψ = Im. (9.48)

Comme nous l’avons ecrit, (9.47) comporte seulement une observation, ettous les termes sont des vecteurs de dimension 1×m. Afin de d’executer cetteregression, nous devons d’une maniere ou d’une autre convertir ces vecteursde dimension 1 ×m en des vecteurs de dimension nm × 1 regroupant toutesles observations. Il existe plus d’une maniere de realiser ceci.

Une approche consiste simplement de transposer chaque vecteur de di-mension 1×m de (9.47) et d’empiler ensuite les vecteurs de dimension m ainsicrees. Cependant, ceci n’est pas la maniere la plus simple de proceder. Uneapproche plus facile est premierement de former les m ensembles de vecteursde dimension n, comme suit. Pour la variable dependante, le t ieme element

Page 25: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

324 Les Moindres Carres Generalises

du i ieme vecteur serait Ytψi, ou ψi est la i ieme colonne de ψ, et pour les fonc-tions de regression l’element correspondant serait ξt(β)ψi. Puis, les vecteursde dimension nm-- seraient obtenus en empilant les vecteurs de dimension n.La regression non lineaire univariee ainsi definie peut etre exprimee en termesdes matrices partitionnees comme

Y ψ1...Y ψm

=

ξ(β)ψ1...ξ(β)ψm

+

Uψ1...Uψm

. (9.49)

Souvenons-nous de (9.44) que Y , ξ(β), et U sont toutes des matrices dedimension n×m. La regression univariee empilee aura une matrice de covar-iance Imn, provenant de (9.48) et parce que nous avons suppose qu’il n’y a pasde correlation non contemporaine des aleas. Meme si ψ etait connue seule-ment a une constante multiplicative pres, on pourrait estimer cette regressionunivariee par les moindres carres non lineaires, tout comme n’importe quelleregression non lineaire univariee. En utilisant la notation de (9.47), sa sommedes residus au carre serait

n∑t=1

(Ytψ − ξt(β)ψ

)(Ytψ − ξt(β)ψ

)>

=n∑

t=1

(Yt − ξt(β)

)ψψ>

(Yt − ξt(β)

)>

=n∑

t=1

(Yt − ξt(β)

)Σ−1

(Yt − ξt(β)

)>.

Ainsi, nous voyons que l’execution de la regression non lineaire (9.47) ou (9.49)fournira exactement les memes estimations GNLS que la minimisation de lasomme generalisee des residus au carre (9.45).

Normalement, la matrice de covariance contemporaine Σ ne sera pasconnue et donc ψ ne le sera pas egalement. Cependant, il est souvent aised’obtenir une estimation convergente de Σ, disons Σ. Pourvu que chaqueequation individuelle, pour i = 1, . . . , m, soit identifiee (peut-etre une hy-pothese peu realiste dans le cas de certains modeles multivaries non lineairestels que les systemes de demande), il est possible d’estimer chaque equationpar OLS ou NLS afin d’obtenir la matrice de dimension n×m des residus U.Alors, il est facile de voir que, sous des conditions assez generales

Σ ≡ n−1U>U (9.50)

fournira une estimation convergente de Σ. Etant donne Σ, on peut facilementcalculer ψ en utilisant (9.46). Alors l’estimation NLS de (9.47), en remplacantψ par ψ, fournira les estimations par GNLS faisables qui, comme d’habitude,

Page 26: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.8 L’Estimation GLS des Regression Multivariees 325

sont asymptotiquement equivalentes aux estimations par GNLS ordinaires. Ils’agit de la procedure preconisee par Zellner (1962) dans le cas SUR.

Les conditions du premier ordre pour la minimisation de la sommegeneralisee des residus au carre (9.45) peuvent etre ecrites de differentesfacons. La raison fondamentale en est que la derivee de ξti(β) par rapporta βj , le j ieme element de β, comprend necessairement trois indices. Une ap-proche consiste a definir Ξt(β) comme une matrice de dimension k ×m aveccomme element type

Ξt,ji(β) ≡ ∂ξti(β)∂βj

.

Les conditions du premier ordre peuvent alors etre ecrites comme

n∑t=1

Ξt(β)Σ−1(Yt − ξt(β)

)>= 0. (9.51)

Une seconde approche consiste a definir yi comme la i ieme colonne de Y etxi(β) comme le vecteur des fonctions de regression pour la i ieme equationdu systeme, c’est-a-dire un vecteur de dimension n avec comme element typeξti(β). Alors, si on classe les derivees de xi(β) par rapport a β dans unematrice de dimension n× k Zi(β) avec l’element type

(Zi)tj(β) ≡ ∂ξti(β)∂βj

(9.52)

et si on peut designer par σij le (i, j) ieme element de Σ−1, un peu d’algebremontrera que (9.51) devient

m∑

i=1

m∑

j=1

σijZi>(β)

(yj − xj(β)

)= 0. (9.53)

Un cas qui presente un interet particulier survient quand il n’existe pas derestrictions croisees dans le systeme. Le vecteur parametrique complet peutalors etre partitionne comme β = [β1

.... . . ..... βm], ou les elements du vecteur

βi de dimension ki sont les parametres qui apparaissent seulement dans lai ieme equation. Il faut, bien sur, que

∑mi=1 ki = k. Les matrices Zi peuvent

contenir certains elements nuls dans ce cas, parce que ξti depend seulementdes elements de βi. Il est commode de definir les matrices Zi de dimensionn × ki sans les elements nuls; l’element type sera (Zi)tj ≡ ∂ξti/∂(βi)j pourj = 1, . . . , ki. Ceci permet de decomposer les conditions du premier ordre(9.53) equation par equation, afin d’obtenir

m∑

j=1

σijZi>(βi)

(yj − xj(βj)

)= 0, i = 1, . . . ,m. (9.54)

Page 27: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

326 Les Moindres Carres Generalises

Il est clair de (9.54) que si Σ est proportionnelle a une matrice identite,les conditions du premier ordre se reduisent a celles de NLS equation parequation quand il n’existera aucune restriction croisee. Ceci implique qu’ilne peut jamais y avoir de gain a executer l’estimation d’un systeme a moinsque les correlations contemporaines des aleas soient non nulles. Dans le con-texte des GNLS faisables, il est extremement improbable que la matrice decovariance d’erreur estimee Σ de (9.50) sera proportionnelle a une matriceidentite meme si la veritable matrice Σ l’est. Dans ce cas, les estimations dusysteme et les estimations equation par equation seront numeriquement, maispas asymptotiquement, differentes. Si Σ est proportionnelle a une matriceidentite, alors ψ le sera egalement. Alors le systeme empile (9.49) devient

y1...ym

=

x1(β1)...xm(βm)

+

u1...um

, (9.55)

ou le vecteur ui de dimension n represente le vecteur des aleas associes a lai ieme equation. Si le systeme empile (9.55) etait estime par NLS, la sommedes residus au carre serait simplement

m∑

i=1

(yi − xi(βi)

)>(yi − xi(βi)).

Comme les elements de chaque βi n’apparaissent que dans un seul termede la somme sur i, cette somme est minimisee par la minimisation dechaque terme separement par rapport aux parametres dont elle depend.Ainsi, l’estimation NLS de (9.55) correspond simplement a l’estimation NLSequation par equation.

Dans le cas particulier du systeme lineaire sans aucune restriction croisee,les conditions du premier ordre (9.53) peuvent etre directement utiliseesafin d’obtenir des estimations par GLS ou par GLS faisables du vecteurparametrique β. Ceci utilise la propriete que, comme nous l’avons vu dansla Section 9.3, n’importe quel estimateur GLS peut etre interprete commeun estimateur IV simple pour un choix convenable des instruments. Dans cecas, les fonctions de regression empilees pour le systeme peuvent etre ecritescomme

Xβ ≡

X1 · · · 0...

. . ....

0 · · · Xm

β1...βm

.

Ici Xi designe la matrice de dimension n×ki des regresseurs qui apparaissentdans la i ieme equation du systeme. En termes de la notation de (9.54), nousavons Xi = Zi(βi), ou Xi ne depend pas de βi parce que le systeme estlineaire. Si nous supposons que la matrice de covariance contemporaine Σ est

Page 28: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.8 L’Estimation GLS des Regression Multivariees 327

connue, nous pouvons construire la matrice W de dimension nm× k comme

W =

σ11X1 · · · σ1mXm.... . .

...σm1X1 · · · σmmXm

. (9.56)

Ainsi, W est une matrice partitionnee avec un bloc type σijXj de dimensionn × kj . Si Σ n’est pas connue, mais peut etre estimee, alors Σ devrait etreremplacee dans (9.56) par Σ.

Il est facile de voir que l’estimateur GLS est le meme que l’estimateur IVsimple

β ≡

β1...βm

=

(W>X

)−1W>y,

ou y ≡ [y1.... . . .

.... ym]. Cet estimateur, bien que donne explicitement par laformule precedente, peut etre defini au moyen des conditions du premier ordre

W>Xβ = W>y.

Si on detaille ces conditions, en utilisant les definitions de X et W, on peutvoir qu’elles sont identiques a (9.54). Ainsi, pour les SUR lineaires sans aucunerestriction croisee, les estimations parametriques GLS peuvent etre obtenuesen employant une procedure IV pour estimer la regression univariee empileey = Xβ + u, dans laquelle la matrice W definie dans (9.56) est utiliseecomme matrice d’instruments. Naturellement, comme nous l’avons remarqueplus tot, la matrice de covariance estimee sera incorrecte.

Nous avons vu il y a peu qu’il n’existe aucun gain asymptotique obtenupar l’estimation d’un ensemble de SUR comme un systeme d’equation parequation s’il n’existe aucune correlation contemporaine des aleas associes auxdifferentes equations du systeme. Il existe un autre cas dans lequel l’estimationdu systeme d’equation ne produit aucun gain, cette fois-ci parce que les deuxmethodes d’estimation menent a des estimations parametriques identiquesnumeriquement . Cela survient dans le contexte d’un SUR lineaire quandtoutes les matrices de regresseurs Xi dans (9.56) sont les memes. Les estima-tions parametriques sont identiques parce que le Theoreme de Kruskal (voirSection 9.3) s’applique.

Nous montrons ceci en demontrant que l’espace engendre par les instru-ments W est le meme que celui des regresseurs X a chaque fois que Xi = X∗,disons, pour tout i = 1, . . . , m. Ainsi, comme cela apparaıt clairement lorsquel’on interprete un estimateur GLS comme d’un estimateur IV, W joue le rolede Ω−1X dans l’enonce general du Theoreme de Kruskal. L’espace engendrepar les colonnes de W est l’ensemble des vecteurs de dimension nm de laforme [X∗γ1

.... . . ..... X∗γm], pour des vecteurs arbitaires γi qui possedent au-

tant d’elements que X∗ comporte de colonnes. Tous ces vecteurs de dimension

Page 29: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

328 Les Moindres Carres Generalises

nm de ce type peuvent aussi etre generes comme des combinaisons lineairesdes colonnes de X, qui correspond simplement a une matrice bloc-diagonaleformes de blocs identiques X∗ le long de la diagonale principale. Il s’ensuitque S(W ) = S(X), et le resultat est prouve.

On associe a chaque modele de regression non lineaire multivariee uneversion particuliere de la regression de Gauss-Newton. Pour la i ieme observa-tion, cette regression peut etre ecrite comme

(Yt − ξt(β)

)ψ = b>Ξt(β)ψ + residu. (9.57)

Dans la pratique cette regression sera executee sous la forme empilee. Definis-sons un ensemble de m matrices Xi(β), toutes de dimension n× k, en termesdes matrices Zi(β) introduites dans (9.52), comme suit:

Xi(β) =m∑

j=1

Zj(β)ψji.

Alors la GNR empilee est

(Y − ξ(β)

)ψ1

...(Y − ξ(β)

)ψm

=

X1(β)...

Xm(β)

b + residus. (9.58)

Les estimations OLS de la GNR (9.58) seront definies par les conditionsdu premier ordre

( m∑

i=1

Xi>(β)Xi(β)

)b =

m∑

i=1

Xi>(β)

(Y − ξ(β)

)ψi. (9.59)

Quelques manipulations de (9.59) basees sur la definition des Xi et de ψdevoilent que ceci est equivalent a

m∑

i=1

m∑

j=1

σijZi>(β)

(yj − xj(β)−Zj(β)b

)= 0. (9.60)

Ainsi, nous voyons que la regression (9.58) possede toutes les proprietes quenous sommes en droit d’attendre de la regression de Gauss-Newton. Si nousl’evaluons en β = β, la regression n’aura aucun pouvoir explicatif, parce que(9.60) est satisfaite avec b = 0 en vertu des conditions du premier ordre (9.53).La matrice de covariance estimee de la regression (9.58) avec β = β sera

s2

( m∑

i=1

m∑

j=1

σijZi>Zj

>)−1

, (9.61)

Page 30: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.9 L’Estimation ML des Regressions Multivariees 329

ou s2 est l’estimation de la variance que la procedure informatique pour laregression generera, qui tendra evidemment asymptotiquement vers 1 si Σest veritablement la matrice de covariance contemporaine de Ut. Si (9.61)est recrite comme une somme de contributions des observations successives,le resultat est

s2

( n∑t=1

ΞtΣ−1Ξt

>)−1

,

de laquelle il est clair que (9.61) est en fait le veritable estimateur GNLS dela matrice de covariance.

Nous pouvons egalement executer la GNR empilee (9.58) avec toutes lesquantites evaluees en un ensemble d’estimations ML β, ou les restrictionsporte seulement sur β et non sur les elements de Σ. La somme des carresexpliquee de cette regression sera

( n∑t=1

(Yt − ξt)Σ−1Ξt>)( n∑

t=1

ΞtΣ−1Ξt

>)−1( n∑

t=1

(Yt − ξt)Σ−1Ξt>)>

.

Ceci est a l’evidence une statistique LM. Elle peut etre utilisee pour testertoutes sortes de restrictions sur β, et parmi celles-ci l’hypothese que les aleassont non correles en serie. Pour en savoir plus sur les statistiques LM dans lesmodeles de regression multivariee, consulter Engle (1982a) et Godfrey (1988).

Les resultats anterieurs auraient pu etre anticipes en vertu du fait qu’unmodele de regression multivariee peut toujours s’ecrire comme un modele deregression univariee. Neanmoins, il est utile d’avoir des resultats specifiquespour les modeles multivaries. En particulier, la possibilite de calculer lesregressions de Gauss-Newton fournit une facon commode d’obtenir les estima-tions par GNLS, pour verifier que ces estimations sont precises, pour calculerles estimations de la matrice de covariance, et pour calculer les statistiques detest LM pour les restrictions sur β. Evidemment, tous ces resultats restentegalement valables pour les GNLS faisables, ou Σ n’est pas disponible maisou l’estimation convergente Σ l’est.

9.9 L’Estimation ML des Regressions Multivariees

Le principal concurrent des GLS faisables est l’estimation par maximum devraisemblance basee sur l’hypothese d’une distribution normale des aleas.Comme nous l’avons vu dans la Section 9.6, les estimations ML seront con-vergentes meme si cette hypothese est fausse, et c’est ce qui lui confere sonstatut d’hypothese raisonnable. Ainsi, le modele est maintenant

Yt = ξt(β) + Ut, Ut ∼ NID(0, Σ).

La densite de Ut est

(2π)−m/2|Σ|−1/2 exp(− 1−

2UtΣ

−1Ut>

).

Page 31: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

330 Les Moindres Carres Generalises

par consequent, celle de Yt est

(2π)−m/2|Σ|−1/2 exp(− 1−

2

(Yt − ξt(β)

)Σ−1

(Yt − ξt(β)

)>).

De la, la fonction de logvraisemblance `(Y , β, Σ) est

−mn

2log(2π)− n−

2log |Σ| − 1−

2

n∑t=1

(Yt − ξt(β)

)Σ−1

(Yt − ξt(β)

)>. (9.62)

Notons qu’ici le dernier terme correspond precisement a l’oppose de la moitiede la somme generalisee des residus aux carres (9.45). Ainsi, si Σ etait connue,les estimations ML de β seraient identiques aux estimations GLS.

La premiere etape dans la maximisation de `(Y ,β, Σ) consiste a la con-centrer par rapport a Σ. Puisque |Σ| = |Σ−1|−1, (9.62) peut s’exprimeruniquement en termes de la matrice inverse Σ−1, de telle sorte qu’il est plusfacile de concentrer la logvraisemblance en utilisant les conditions du premierordre donnees en la derivant par rapport aux elements de Σ−1. La matricedes derivees partielles ainsi obtenue est (consulter l’Annexe A pour les detailsde la derivation)

∂`

∂Σ−1= n−

2Σ − 1−

2

n∑t=1

(Yt − ξt(β)

)>(Yt − ξt(β)). (9.63)

Le fait de poser que l’expression de droite dans (9.63) est egale a zero donne

− n−2Σ = − 1−

2

n∑t=1

(Yt − ξt(β)

)>(Yt − ξt(β)),

d’ou nous voyons que

Σ(β) = 1−n

n∑t=1

(Yt − ξt(β)

)>(Yt − ξt(β)). (9.64)

Ainsi, l’estimateur ML de Σ est exactement ce a quoi l’on pourrait s’attendre,c’est-a-dire la matrice des sommes des carres et des produits croises desresidus, divisee par la taille de l’echantillon.

Nous pouvons facilement substituer (9.64) dans le dernier terme de (9.62)si nous observons que la trace d’un scalaire est precisement le scalaire lui-meme et que la trace d’un produit matriciel est invariante a une permutationcyclique des facteurs du produit. Nous obtenons

(Yt − ξt(β)

)Σ−1

(Yt − ξt(β)

)>= Tr((

Yt − ξt(β))Σ−1

(Yt − ξt(β)

)>)

= Tr(Σ−1

(Yt − ξt(β)

)>(Yt − ξt(β)))

.

Page 32: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.9 L’Estimation ML des Regressions Multivariees 331

La somme sur t donne

n∑t=1

(Yt − ξt(β)

)Σ−1

(Yt − ξt(β)

)>=n∑

t=1

Tr(Σ−1

(Yt − ξt(β)

)>(Yt − ξt(β)))

= Tr(Σ−1

n∑t=1

(Yt − ξt(β)

)>(Yt − ξt(β)))

= Tr(Σ−1nΣ

)= mn.

Ainsi, la fonction de logvraisemblance concentree qui correspond a (9.62) est

`c(Y ,β) = C − n−2

log∣∣∣ 1−n

n∑t=1

(Yt − ξt(β)

)>(Yt − ξt(β))∣∣∣

= C − n−2

log |Σ(β)|,(9.65)

ou Σ(β) a ete definie implicitement, et C, une constante qui ne depend pasde β, est egale a

−mn

2(log(2π) + 1

).

L’expression (9.65) est l’analogue multivarie de la fonction de logvraisem-blance (8.82) pour des modeles de regression non lineaires univariee.

De (9.65), nous voyons que pour obtenir les estimations ML β nous de-vrons minimiser le logarithme du determinant de la matrice de covariancecontemporaine, |Σ(β)|. Ceci peut etre fait tres facilement en utilisant laregle de calcul des derivees des logarithmes des determinants donnee dansl’Annexe A. Cette regle stipule que si A est une matrice de dimension m×mnon singuliere, alors la derivee de log |A| par rapport au (i, j) ieme element deA est le (j, i) ieme element de A−1. Il vient que la derivee de log |Σ(β)| parrapport a βi est

∂ log |Σ(β)|∂βi

=m∑

j=1

m∑

l=1

∂ log |Σ(β)|∂σjl

∂σjl(β)∂βi

=m∑

j=1

m∑

l=1

(Σ−1(β)

)lj

∂σjl(β)∂βi

= Tr(Σ−1(β)

∂Σ(β)∂βi

).

Il est facile de voir que

∂Σ(β)∂βi

= − 2−n

n∑t=1

Ut>(β)

∂ξt(β)∂βi

,

Page 33: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

332 Les Moindres Carres Generalises

d’ou l’on peut voir que le gradient de (9.65) est

n∑t=1

Ξt(β)Σ(β)−1(Yt − ξt(β)

)>. (9.66)

En posant le gradient egal a zero, nous retrouvons les conditions du premierordre (9.51) obtenues de la methode des GNLS, mais avec Σ(β) comme ma-trice de covariance.

Dans le cas des modeles de regression univariee, le fait que les estima-tions par moindres carres soient choisies de facon a minimiser la somme desresidus aux carre assure que, en moyenne, les residus seront plus petits queles veritables aleas. Pour la meme raison, le fait que les estimations ML min-imisent le determinant de la matrice de covariance contemporaine du modeleassure que, en moyenne, les residus associes a ces estimations seront a la foistrop petits et trop fortement correles les uns aux autres. Nous observonsles deux effets, parce que le determinant de la matrice de covariance peutetre construit plus petit soit en reduisant les sommes des residus au carreassociees aux equations individuelles soit en augmentant la correlation entreles differentes equations. Ceci est probablement d’un interet plus appreciablelorsque m et/ou k sont grands relativement a n.

Il est interessant de considerer la matrice d’information pour le modele(9.43). Comme pour tous les modeles de regression, la matrice d’informationse revelera etre bloc-diagonale entre le bloc qui correspond a β et celui quicorrespond a Σ ou, de maniere equivalente, a Σ−1. Pour constater ceci,observons de (9.63) que

∂`t

∂Σ−1= 1−

2Σ − 1−

2

(Yt − ξt(β)

)>(Yt − ξt(β)).

Ceci est une matrice symetrique de dimension m×m a m(m + 1)/2 elementsindependants. Un de ses elements types est

∂`t

∂σij= 1−

2σij − 1−

2

(yti − ξti(β)

)>(ytj − ξtj(β)). (9.67)

A partir de (9.66), nous voyons egalement que le gradient de `t par rapport aβ est

Ξt(β)Σ−1(Yt − ξt(β)

)>. (9.68)

Si nous multiplions (9.67) par (9.68), le produit impliquera, selon le choix de iet de j, soit une soit trois occurrences de chaque composante de Yt− ξt(β) =Ut. Parce que les premier et troisieme moments des aleas sont nuls (uneconsequence de la normalite), un tel produit doit avoir une esperance nulle.Ainsi, la matrice d’information doit etre bloc-diagonale entre β et Σ.

Page 34: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.9 L’Estimation ML des Regressions Multivariees 333

Considerons a present le bloc (β,β) de la matrice d’information. Pardefinition, il s’agit de la limite de l’esperance de 1/n fois le produit exterieurdu gradient, a savoir

Iββ = limn→∞

E

(1−n

n∑t=1

Ξt(β)Σ−1(Yt − ξt(β)

)>(Yt − ξt(β)

)Σ−1Ξt

>(β))

= limn→∞

(1−n

n∑t=1

Ξt(β)Σ−1ΣΣ−1Ξt>(β)

)

= limn→∞

(1−n

n∑t=1

Ξt(β)Σ−1Ξt>(β)

).

Ainsi, nous concluons que

n1/2(β − β0)a∼ N

(0, plim

n→∞

(1−n

n∑t=1

Ξt(β)Σ−1Ξt>(β)

)−1)

. (9.69)

Notons que, excepte pour les facteurs s2, l’estimation de la matrice decovariance (9.61) obtenue en executant la regression de Gauss-Newton estprecisement l’estimation que le resultat (9.69) suggererait d’utiliser. Si laGNR est calculee aux estimations ML β, la variance d’erreur estimee pourcette regression, s2, sera egale a

1mn− k

n∑t=1

(Yt − ξt

)ψψ>

(Yt − ξt

)>

=1

mn− k

n∑t=1

(Yt − ξt

)Σ−1

(Yt − ξt

)>=mn

mn− k.

(9.70)

Ici, la derniere egalite provient d’un argument presque identique a celui utilisepour etablir (9.65). Comme il est evident que (9.70) tend asymptotiquementvers 1, l’expression (9.61), qui est dans ce cas

mn

mn− k

( n∑t=1

ΞtΣ−1Ξt

>)−1

,

fournit une maniere naturelle et tres commode d’estimer la matrice de cova-riance de β.

Maintenant nous avons etabli tous les principaux resultats interessantsconcernant l’estimation des modeles de regression multivariee non lineaire.Puisque tous ces resultats ont ete etablis en termes de modeles generauxet abstraits, il peut etre utile de les rendre plus concrets si nous indiquonsprecisement comment notre notation generale se relie au cas du systeme de

Page 35: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

334 Les Moindres Carres Generalises

depense lineaire dont nous avons discute plus tot. Pour etre concret, noussupposerons que m = 2, ce qui signifie qu’il y a en tout trois marchandises.Alors nous voyons que

Yt = [st1 st2];

β = [α1.... α2

.... γ1.... γ2

.... γ3];

ξt(β) =

γ1p1t

Et+

α1

Et

(Et −

3∑

j=1

pjtγj

)γ2p2t

Et+

α2

Et

(Et −

3∑

j=1

pjtγj

);

Ξt(β) =

(Et −

∑3j=1 pjtγj

)/Et 0

0 Et −∑3

j=1 pjtγj

(1− α1)p1t/Et −α2p1t/Et

−α1p2t/Et (1− α2)p2t/Et

−α1p3t/Et −α2p3t/Et

.

Etablir la GNR pour tester l’hypothese que γ1 = γ2 = γ3 = 0, ou les esti-mations soumises a cette restriction ont ete obtenues, peut etre un exerciceutile.

Notre traitement des modeles multivaries a ete relativement bref. Untraitement plus complet, mais seulement pour les modeles SUR, peut etretrouve chez Srivastava et Giles (1987), qui est egalement une source excellentepour les references concernant la litterature econometrique et statistique surce sujet.

9.10 Modelisation des Donnees a Deux Dimensions

De nombreux ensembles de donnees comportent a la fois une dimensiontemporelle et une autre dimension, dite transversale. Par exemple, ellespeuvent couvrir 40 annees de donnees sur 20 pays, ou 132 trimestres dedonnees sur 50 etats. L’avantage de tels ensembles de donnees est que lataille d’echantillonnage est habituellement assez grande (pour les exemplesci-dessus, 40 × 20 = 800 et 132 × 50 = 6600), ce qui signifie qu’ils devraientetre potentiellement tres porteurs d’information concernant les parametres aestimer. L’inconvenient est qu’il est necessaire de prendre en compte la na-ture bidimensionnelle des donnees. Un type particulier de donnees a deuxdimensions survient quand le meme echantillon d’individus, de menages, oude firmes est observe a deux ou plusieurs reprises dans le temps. Les donneesde ce type sont souvent appelees donnees de panel. Un ensemble de donneesde panel se compose generalement d’un assez petit nombre d’observationstemporelles sur un grand nombre d’unites de la dimension transversale. Ledesequilibre entre les deux dimensions de l’echantillon peut rendre necessaire

Page 36: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.10 Modelisation des Donnees a Deux Dimensions 335

d’utiliser des techniques speciales, et peut infirmer la theorie asymptotiquestandard.

Si nous indexons par t la dimension temporelle des donnees et par i ladimension transversale, nous pouvons ecrire un modele de regression univarieenon lineaire pour les donnees a deux dimensions comme

yti = xti(β) + uti, t = 1, . . . , T, i = 1, . . . , n. (9.71)

Il y a T periodes de temps et n groupes en coupe transversale, pour un total denT observations. Si nous voulions supposer que les uti sont homoscedastiqueset independants, nous pourrions simplement estimer (9.71) par NLS. Maissouvent cela ne sera pas une hypothese realiste. La variance de uti pourraitbien varier systematiquement avec t ou i ou les deux a la fois. De plus, ilsemble plausible que les aleas uti et utj seront correles pour un quelconquei 6= j si certains chocs affectent plusieurs groupes de la dimension transversaleau meme instant. De facon similaire, il semble plausible que les aleas uti et usi

soient correles pour un quelconque t 6= s si certains chocs affectent le memegroupe en plus d’un instant du temps. Il est difficile de dire a priori si un quel-conque manquement a cette hypothese i.i.d. surviendra pour n’importe quelensemble de donnees. Mais si c’est le cas, et que nous appliquons simplementNLS, nous obtiendrons une matrice de covariance estimee qui sera non con-vergente et pourra conduire a de serieuses erreurs d’inference. Dans certainescirconstances, nous pouvons meme obtenir des estimations parametriques nonconvergentes.

En principe, la gestion des manquements a l’hypothese i.i.d. des typesque nous venons de decrire est assez directe. On ecrit simplement la ma-trice de covariance supposee de uti comme une fonction d’un ou de plusieursparametres inconnus, on utilise les moindres carres pour obtenir des residusa partir desquels on estime ces parametres de maniere convergente, et on ap-plique ensuite les GLS faisables. De maniere alternative, on peut utiliser lemaximum de vraisemblance pour estimer simultanement les parametres de lafonction de regression et les ceux de la matrice de covariance. En pratique,naturellement, il n’est pas toujours facile d’appliquer cette methode, et il ex-iste une litterature importante sur les techniques particulieres pour procederainsi. Chamberlain (1984), Hsiao (1986), Judge, Hill, Griffiths, Lutkepohl,et Lee (1985, Chapitre 13), et Greene (1990a, Chapitre 16) constituent desreferences utiles. Dans cette section, nous ne discuterons que d’un petit nom-bre des techniques les plus simples et les plus largement applicables pourtraiter des donnees a deux dimensions.

Quand soit T soit n est assez petit mais l’autre est raisonnablement grand,il est naturel de remanier le modele univarie (9.71) en un modele multivarie.Supposons, pour etre concret, qu’il n’existe que quelques unites de la di-mension transversale et de nombreuses periodes temporelles. Alors il semblenaturel de grouper les observations allant de t1 a tn dans un vecteur ut et de

Page 37: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

336 Les Moindres Carres Generalises

supposer queut ∼ IID(0,Σ).

Ainsi, nous supposons que uti est en general correle avec utj pour i 6= j etque ut n’est pas correle avec us pour t 6= s. Avec cette specification d’erreur,le modele univarie (9.71) devient un cas particulier du modele de regressionnon lineaire multivariee (9.40) et peut etre estime soit par GLS faisables (Sec-tion 9.8) soit par maximum de vraisemblance (Section 9.9). Naturellement, ilexistera de nombreuses restrictions croisees, car les parametres dans toutes lesequations sont supposes etre les memes, mais l’une ou l’autre de ces techniquesdevrait etre capable de les traiter sans difficulte.

Le traitement d’un modele tel que (9.71) comme un modele multi-varie est attrayant parce que l’on peut employer des logiciels standards pourl’estimation de tels modeles. De plus, il devient naturel de tester l’hypothese(pas toujours plausible) que la meme fonction de regression xti(β) s’appliquea toutes les unites de la dimension tranversale. Une exigence minimale estd’etre toujours capable de verifier que chaque unite peut avoir une ordonneea l’origine differente. Ceci peut etre fait de differentes manieres. Deux pos-sibilites existent, la premiere consistant a estimer le modele non contraint etensuite a calculer un test LR ou un test equivalent et la seconde consiste a cal-culer un test LM base sur une GNR telle que (9.58). Par ailleurs, on voudraitsurement pouvoir tester la correlation des aleas a travers les periodes de temps.Ceci peut etre realise en utilisant les tests standards pour la correlation enserie dans les modeles multivaries, qui peuvent egalement se baser sur la GNR(9.58). Ce theme sera aborde tres brievement dans la Section 10.11; consul-ter aussi Engle (1984) et Godfrey (1988). On peut egalement vouloir testerl’heteroscedasticite a travers les periodes de temps, ce qui peut etre realisepar des extensions directes des techniques dont nous discuterons dans lesChapitres 11 et 16.

Bien que l’approche du traitement d’un modele univarie estime a l’aidede donnees a deux dimensions en un modele multivarie possede de nombreuxattraits, elle peut ne pas etre pertinente si n et T sont tous deux assez im-portants. Par exemple, supposons que n = 30 et T = 40. Alors un modelemultivarie qui traite chaque unite de la dimension tranversale separementaura 30 equations, et la matrice Σ comportera 1

2 (30 × 31) = 465 elementsdistincts, qui devront etre estimes individuellement avec seulement 40 obser-vations. L’estimation d’un modele a 30 equations est tout a fait realisable.Cependant, avec seulement 40 observations, il sera difficile d’obtenir de bonnesestimations de Σ, et nous pourrions donc nous attendre a ce que les proprietesavec des echantillons finis des estimations GLS et ML soient pauvres.

Une seconde approche, tres populaire, consiste a utiliser ce qui est appeleun modele a erreurs composees. L’idee est de modeliser uti comme la com-posante de trois chocs individuels, chacun etant suppose etre independant desautres:

uti = et + vi + εti. (9.72)

Page 38: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.10 Modelisation des Donnees a Deux Dimensions 337

Ici, et affecte toutes les observations de la periode temporelle t, vi affecte toutesles observations effectuees sur l’unite i, et εti affecte seulement l’observationti. Dans les versions les plus repandues des modeles a erreurs composees, les et

sont supposes etre independants a travers le temps t, les vi sont supposes etreindependants a travers les unites i, et les εti sont supposes etre independantsa travers le temps t et les unites i. Ces hypotheses peuvent naturellementetre relachees, comme l’ont fait Revankar (1979) et Baltagi et Li (1991), maisnous n’en discuterons pas ici.

Il existe deux manieres d’estimer un modele de regression avec des aleasqui sont supposes etre composees comme dans (9.72). La premiere consiste aestimer ce que l’on appelle un modele a effets fixes, et la seconde approcheconsiste a estimer ce que l’on appelle un modele a effets aleatoires. Cesdeux approches sont conceptuellement tres differentes. Dans la premiere nousestimons le modele conditionnellement aux erreurs et et vi, alors que dans laseconde, nous estimons le modele de facon non conditionnelle. Un modele aeffets fixes peut etre estime par moindres carres ordinaires (ou non lineaires),tandis qu’un modele a effets aleatoires necessite l’utilisation des GLS ou duML. Un avantage du modele a effets fixes est que, comme nous travaillonsconditionnellement a et et vi, nous n’avons pas besoin de supposer qu’ils sontindependants des regresseurs. Cependant, comme nous le verrons, le modele aeffets aleatoires fournira des estimations plus efficaces lorsqu’il est approprie.Mundlak (1978) constitue une reference classique sur la relation entre lesmodeles a effets fixes et les modeles a effets aleatoires.

Pour faire simple tout en restant concret, nous supposerons dans la suitede cette section qu’il n’existe aucun choc temporel, ce qui implique que et = 0pour tout t. Ceci simplifie l’algebre sans modifier la nature des resultats.Nous supposerons egalement que la fonction de regression pour l’observationti est Xtiβ. Sous ces hypotheses, le modele a erreurs composees peut etreecrit comme

yti = Xtiβ + vi + εti. (9.73)

L’idee du modele a effets fixes consiste a traiter les vi comme des parametresinconnus et a les estimer conjointement avec β. Ceci peut etre fait en ajoutantn variables muettes Dj

ti a la regression (9.73), chacune etant egale a l’unitequand i = j et egale a zero sinon. Naturellement, si Xti comprend un termeconstant ou l’equivalent d’un terme constant, une des variables muettes devraetre omise.

Dans la notation matricielle, la version a effets fixes de (9.73) peut etreecrite comme

y = Xβ + Dv + ε, (9.74)

ou v est un vecteur de dimension n avec comme element type vi. A conditionque les εti soient i.i.d., le modele (9.74) peut etre estime par OLS. En utilisantle Theoreme FWL, nous voyons que l’estimateur des effets fixes de β est

β =(X>MDX

)−1X>MDy, (9.75)

Page 39: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

338 Les Moindres Carres Generalises

ou la matrice MD est simplement la matrice qui calcule des ecarts par rapportaux moyennes X.i pour i = 1, . . . , n. Ainsi, un element type de MDX est

(MDX)ti = Xti − X.i.

Cette manipulation permet de calculer facilement β meme lorsque n prend desvaleurs telles qu’il serait impossible d’executer la regression (9.74). Il suffitsimplement de calculer les moyennes des groupes y.i et X.i pour tout i et deregresser yti − y.i sur Xti − X.i pour tout t et i. La matrice de covarianceestimee devrait alors etre ajustee pour tenir compte du fait que le nombre dedegres de liberte utilise dans l’estimation est en fait n + k plutot que k.

Parce que l’estimateur des effets fixes (9.75) depend seulement des ecartsde la regressande et des regresseurs par rapport a leurs moyennes de grouperespectives, il est parfois appele l’estimateur intra-groupes. Comme le noml’implique, il n’exploite pas le fait que les moyennes du groupe soient en generaldifferentes pour des groupes differents. Cette propriete de l’estimateur peutetre un avantage ou un inconvenient, selon les circonstances. Comme nousl’avons mentionne auparavant, il se peut que les effets transversaux vi soientcorreles avec les regresseurs Xti et par consequent aussi avec les moyennes degroupe des regresseurs. Dans cette eventualite, l’estimateur OLS (sans effetfixe) base sur l’echantillon complet serait non convergent, mais l’estimateurintra-groupes restera convergent. Cependant, si, par opposition, les effetsfixes sont independants des regresseurs, l’estimateur intra-groupes n’est pascompletement efficace. Dans le cas extreme ou une variable independante nevarie a l’interieur des groupes, mais seulement entre les groupes, le coefficientcorrespondant a cette variable ne sera meme pas identifiable par l’estimateurintra-groupes.

Un autre estimateur non efficace qui exploite seulement la variation surles moyennes des groupes est appele l’estimateur inter-groupes. Il peut etreecrit comme

β =(X>PDX

)−1X>PDy. (9.76)

Comme PDXti = X.i, cet estimateur n’implique veritablement que n ob-servations distinctes plutot que nT . Il sera clairement non convergent si leseffets transversaux, les vi, sont correles avec les moyennes par groupe desregresseurs, les X.i. L’estimateur OLS peut etre ecrit comme une moyenneponderee (par des matrices) de l’estimateur intra-groupes et de l’estimateurinter-groupes:

β =(X>X

)−1X>y

=(X>X

)−1(X>MDy + X>PDy

)

=(X>X

)−1X>MDXβ +

(X>X

)−1X>PDXβ.

Ainsi, nous voyons immediatement que l’estimation par OLS sera non conver-gente toutes les fois que l’estimateur inter-groupes (9.76) est non convergent.

Page 40: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

9.10 Modelisation des Donnees a Deux Dimensions 339

Meme quand elle est convergente, l’estimation par OLS sera habituelle-ment non efficace. Si les effets transversaux sont non correles avec lesmoyennes par groupe des regresseurs, alors nous voulons utiliser un modele aeffets aleatoires dans lequel les vi ne sont pas traites comme fixes mais commedes composantes des aleas. Les OLS ponderent toutes les observations demaniere identique, mais ceci n’est pas optimal pour le modele a erreurs com-posees (9.73). La variance de uti est, en utilisant une notation evidente,σ2

v + σ2ε . La covariance de uti avec utj est, par hypothese, nulle pour i 6= j.

Mais la covariance de uti avec usi pour s 6= t est σ2v . Ainsi, si les donnees sont

ordonnees en premier selon i et ensuite selon t, la matrice de covariance deuti peut etre ecrite comme

Σ 0 · · · 00 Σ · · · 0...

......

0 0 · · · Σ

,

ou Σ est la matrice de dimension T × T

σ2v + σ2

ε σ2v · · · σ2

v

σ2v σ2

v + σ2ε · · · σ2

v

......

...σ2

v σ2v · · · σ2

v + σ2ε

= σ2εI + σ2

v ιι>.

Cette matrice de covariance illustre le fait que pour un i fixe, les erreurs sontequicorrelees; a comparer a (9.24).

Afin de calculer les estimations GLS, nous avons besoin de determinerΣ−1/2. Il est facile de verifier que

Σ−1/2 =1σε

(I− αPι),

ou Pι = T−1ιι> et α, qui doit etre compris entre 0 et 1, est defini par

α = 1− σε

(Tσ2v + σ2

ε)1/2. (9.77)

Ceci implique que l’element type de Σ−1/2y.i est σ−1ε (yti−αy.i), et un element

type de Σ−1/2X.i est σ−1ε (Xti − αX.i). Les estimations GLS peuvent alors

etre obtenues en executant la regression OLS

yti − αy.i = (Xti − αX.i)β + residu,

qui peut etre ecrite en termes matriciel comme

(I− αPD)y = (I− αPD)Xβ + (I− αPD)u. (9.78)

Page 41: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

340 Les Moindres Carres Generalises

En pratique, naturellement, α sera inconnu, et il nous faudra employerles GLS faisables ou le maximum de vraisemblance. Cette premiere techniqueest tres facile a mettre en œuvre, car nous pouvons obtenir les estimationsdes quantites dont nous avons besoin en estimant le modele a effets fixes.Les aleas pour ce modele sont simplement les εti, et ainsi son estimationproduira immediatement une estimation convergente de σ2

ε . Nous pouvonsalors estimer σ2

v de diverses manieres, l’estimateur le plus simple etant lamoyenne des estimations au carre des vi. Cet estimateur sera aussi convergent,pourvu que T (et pas simplement nT ) puisse tendre vers l’infini. A l’aide deces estimations de σ2

ε et σ2v , nous pouvons facilement obtenir une estimation

convergente de α a partir de (9.77). Nous ne discuterons pas de l’estimationML, qui est directe conceptuellement mais beaucoup plus difficile a calculerque les GLS faisables; la reference classique est Balestra et Nerlove (1966).

Il est interessant de voir comment l’estimateur GLS defini par la regres-sion (9.78) est relie a l’estimateur OLS et a l’estimateur intra-groupes (9.75).Lorsque α = 0, l’estimateur GLS se confond evidemment avec l’estimateurOLS. Ceci a du sens parce que, a partir de (9.77), nous voyons que α ne sera 0que si σv = 0, auquel cas le terme d’erreur ne possede qu’un element. Quandα = 1, l’estimateur GLS se confond avec l’estimateur intra-groupes. Ceci aaussi du sens, parce que α sera egal a 1 seulement si σε = 0, auquel cas lesaleas associes a la variation intra-groupes seront tous nuls. Ceci implique quenous pouvons obtenir des estimations parfaitement precises de β en utilisantl’estimateur intra-groupe. Dans chaque autre cas, α sera compris entre 0et 1, et l’estimateur GLS exploitera a la fois la variation intra-groupes et lavariation inter-groupe.

Le probleme avec les donnees de panel est que n est habituellementtres grand et T est frequemment tres petit. Ainsi, les parametres dontl’identification depend de la variation des groupes transversaux sont normale-ment estimes de facon tres satisfaisante, a la difference des parametres dontl’identification depend de la seule variation temporelle. On ne pourrait pas dutout s’attendre a estimer σv precisement dans un modele a effets aleatoires,par exemple. Si on ne portait pas aucun interet a la variation temporelle, onutiliserait simplement un modele a effets transversaux. Au lieu de soustraireexplicitement les moyennes par groupes, nous pourrions calculer les differencespremieres de toutes les donnees par rapport a la dimension temporelle, demaniere a faire disparaıtre les effets individuels. En pratique, cependant,nous sommes souvent interesses par des parametres qui ne sont pas identifiesseulement par la variation intra-groupes. Les econometres ont alors proposeun large eventail de procedures pour traiter des donnees de panel. Consulter,parmi tant d’autres, Hausman et Taylor (1981), Chamberlain (1984), Hsiao(1986), et Holtz-Eakin, Newey, et Rosen (1988).

Page 42: Ch9 Maximum de Vraissemblance Et Moindres Carrés généralisés

Termes et Concepts 341

9.11 Conclusion

Les GLS et GNLS sont des techniques d’estimation tres importantes quisont largement usitees en econometrie appliquee. Nous en rencontreronsdes variantes dans la suite de cet ouvrage, plus particulierement dans leChapitre 10, ou nous traitons de la correlation en serie, et dans le Chapitre 18,ou nous traitons des techniques de systemes complets pour estimer les modelesd’equations simultanees. Neanmoins, il est important de se souvenir queles GLS et les GNLS ne sont que des variantes masquees des moindrescarres. N’importe quelle erreur que l’on peut commettre en specifiant unmodele estime par OLS (telle que la specification incorrecte de la fonctionde regression ou une defaillance de la gestion de la correlation en serie ou del’heteroscedasticite) peut egalement etre commise en specifiant des modelesestimes par GLS, par GNLS, et par les methodes variees du maximum devraisemblance qui s’y rattachent. Il est alors tout aussi important de tester lamauvaise specification de tels modeles que de tester le modele de regressionle plus simple. Les regressions de Gauss-Newton (9.14) et (9.58) fournissentsouvent des manieres commodes de le faire. Cependant, notre experience nousrevele que le nombre de tests de specification auquel un modele est soumis estinversement relie a la difficulte d’estimation du modele. Puisqu’il nous fautfournir habituellement un effort plus important pour estimer des modeles parGLS ou par GNLS et en particulier des modeles multivaries que pour estimerdes modeles de regression univariee par OLS, les modeles estimes par GLS oupar GNLS sont souvent soumis a des tests de mauvaise specification moinsnombreux que ce que l’on imagine.

Termes et Concepts

donnees de paneldonnees a deux dimensionsequivalence asymptotique des GNLS,GNLS faisables, et MLerreurs equicorreleesestimateur GLS (Aitken)estimateur inter-groupesestimateur intra-groupesfonction d’utilite de Stone-Gearyfonction scedastiqueGLS faisables et GNLSmatrice de covariance contemporainematrice de projection obliquemodeles a effets aleatoiresmodeles a effets fixesmodeles a erreurs composees

modele de regression non lineairemultivariee

moindres carres generalises (GLS)moindres carres generalises non

lineaires (GNLS)moindres carres ponderesregressions sans lien apparent

(systeme SUR)restrictions croiseessomme generalisee des residus au

carresysteme d’equation singuliersysteme de depense lineairesystemes de demandeTheoreme de Kruskal