12
OLS-Sch ¨ atzung linearer Regressionsmodelle K.H. Schild 1. Mai 2017 Agenda: OLS aus geometrischer/algebraischer Sicht (Exogenit ¨ at als Orthogonalit ¨ at) Bestimmtheitsmaß R 2 Erwartungswert der OLS-Sch ¨ atzung (Erwartungstreue) Varianz/Standardfehler der OLS-Sch ¨ atzung (via Varianzmatrizen) Varianz/Standardfehler der OLS-Sch ¨ atzung (mit Varianzinflationsfaktoren) Effizienz der OLS-Sch ¨ atzung: Gauß-Markov-Theorem 1 / 48 1. Methode der kleinsten Quadrate aus geometrischer/algebraischer Sicht Populationsmodell: y = β 1 x 1 + ... + β K x K + u Zufallsvariablen Gegeben Stichprobe vom Umfang N ( die Daten“). Wir organisieren die Daten wie folgt: y = y 1 y 2 . . . . . . . . . y N , X =(x 1 ,..., x K )= x 1,1 ... x 1,K x 2,1 x 2,K . . . . . . . . . . . . . . . . . . x N,1 ... x N,K , u = u 1 u 2 . . . . . . . . . u N , β = β 1 . . . β K Modell in der Stichprobe: y = β 1 x 1 + ... + β K x K + u = Xβ + u Vektoren 2 / 48 Methode der kleinsten Quadrate – Prinzip Ziel: Sch ¨ atzung der Koeffizienten β j des lin. Regr.Modells y = β 1 x 1 + ...β K x K + u – Betrachte dazu folgendes Approximationsproblem (aus der linearen Algebra): Gegeben ein zu erkl ¨ arender Vektor y aus dem (hochdimensionalen) Raum R N sowie K (klein relativ zu N ) erkl ¨ arende Vektoren x 1 ,..., x K , ebenfalls aus R N . Versuche den Vektor y m ¨ oglichst gut“ ... ... durch Linearkombination von x 1 ,..., x K zu approximieren. M ¨ oglichst gut“ soll heißen: – Minimiere durch geeignete Wahl der Koeffizienten ˆ β 1 ,..., ˆ β K – den Abstand von y zu ˆ β 1 x 1 + ... + ˆ β K x K Welchen Abstand“? Wir nehmen den normalen, d.h. Euklidischen Abstand. – Da man statt des Abstands auch das Quadrat des Abstands minimieren kann: Die Koeffizienten ˆ β 1 ,..., ˆ β K nennt man die OLS-L ¨ osung des Problems (OLS = ordinary least squares = gew ¨ ohnliche kleinste Quadrate) 3 / 48 Methode der kleinsten Quadrate – Geometrische L ¨ osung Geometrisch ist die L ¨ osung klar (aber nur bis N =3 von uns nachvollziehbar): F ¨ alle das Lot von y auf den von x 1 ,..., x K aufgespannten Raum; das liefert ein ˆ y aus dem x-Raum, dessen Darstellung als Linearkombination ˆ y = ˆ β 1 x 1 + ... + ˆ β K x K die gesuchten Koeffizienten ˆ β 1 ,..., ˆ β K darstellen. Der bestapproximierende Vektor ˆ y heißt gefitteter Vektor Der Approximationsfehler ˆ u heißt Residuum(svektor) Aus der Konstruktion ist klar: Das Residuum ˆ u steht senkrecht zum x-Raum (zu allen x 1 ,..., x K ) Insbesondere: Gefitteter Vektor ˆ y und Residuum ˆ u stehen senkrecht zueinander Außerdem: Ihre Summe ˆ y + ˆ u ergibt y. Zusammengefasst: y = ˆ y + ˆ u, ˆ y ˆ u y = β 1 x 1 + β 2 x 2 β 2 x 2 β 1 x 1 u x 1 x 2 y 4 / 48

I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

  • Upload
    dothu

  • View
    222

  • Download
    1

Embed Size (px)

Citation preview

Page 1: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

OLS-Schatzung linearer Regressionsmodelle

K.H. Schild

1. Mai 2017

Agenda:

I OLS aus geometrischer/algebraischer Sicht (Exogenitat als Orthogonalitat)

I Bestimmtheitsmaß R2

I Erwartungswert der OLS-Schatzung (Erwartungstreue)

I Varianz/Standardfehler der OLS-Schatzung (via Varianzmatrizen)

I Varianz/Standardfehler der OLS-Schatzung (mit Varianzinflationsfaktoren)

I Effizienz der OLS-Schatzung: Gauß-Markov-Theorem

1 / 48

1. Methode der kleinsten Quadrate ausgeometrischer/algebraischer Sicht

Populationsmodell: y = β1 x1 + . . .+ βK xK + u ← Zufallsvariablen

Gegeben Stichprobe vom Umfang N (”die Daten“). Wir organisieren die Daten wie folgt:

y =

y1y2.........yN

, X = (x1, . . . ,xK) =

x1,1 . . . x1,Kx2,1 x2,K

......

......

......

xN,1 . . . xN,K

, u =

u1

u2

...

...

...uN

, β =

β1...βK

Modell in der Stichprobe:y = β1x1 + . . .+ βKxK︸ ︷︷ ︸ + u

= Xβ + u

← Vektoren

2 / 48

Methode der kleinsten Quadrate – Prinzip

– Ziel: Schatzung der Koeffizienten βj des lin. Regr.Modells

y = β1x1 + . . . βKxK + u

– Betrachte dazu folgendes Approximationsproblem (aus der linearen Algebra):

I Gegeben ein zu erklarender Vektor y aus dem (hochdimensionalen) Raum RN

I sowie K (← klein relativ zu N) erklarende Vektoren x1, . . . ,xK , ebenfalls aus RN .

I Versuche den Vektor y”moglichst gut“ ...

... durch Linearkombination von x1, . . . ,xK zu approximieren.

I”Moglichst gut“ soll heißen:

– Minimiere durch geeignete Wahl der Koeffizienten β1, . . . , βK– den Abstand von y zu β1 x1 + . . .+ βK xK

I Welchen”Abstand“? Wir nehmen den normalen, d.h. Euklidischen Abstand.

– Da man statt des Abstands auch das Quadrat des Abstands minimieren kann:

Die Koeffizienten β1, . . . , βK nennt man die OLS-Losung des Problems

(OLS = ordinary least squares = gewohnliche kleinste Quadrate)

3 / 48

Methode der kleinsten Quadrate – GeometrischeLosung

I Geometrisch ist die Losung klar (aber nur bis N = 3 von uns nachvollziehbar):I Falle das Lot von y auf den von x1, . . . ,xK aufgespannten Raum;I das liefert ein y aus dem x-Raum,I dessen Darstellung als Linearkombination y = β1 x1 + . . .+ βK xK

I die gesuchten Koeffizienten β1, . . . , βK darstellen.I Der bestapproximierende Vektor y heißt gefitteter VektorI Der Approximationsfehler u heißt Residuum(svektor)I Aus der Konstruktion ist klar:

I Das Residuum u steht senkrecht zumx-Raum (zu allen x1, . . . ,xK)

I Insbesondere:Gefitteter Vektor y und Residuum ustehen senkrecht zueinander

I Außerdem: Ihre Summe y + u ergibt y.I Zusammengefasst:

y = y + u, y ⊥ uy=β1 x1+β2 x2

β2 x2

β1 x1

u

x1

x 2

y

4 / 48

Page 2: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Methode der kleinsten Quadrate – rechnerisch

I OLS bestimmt β = (β1, . . . , βK)′ als Losung b∗ des Problems

minb∈RK

f(b) := |Xb− y|2

wobei X := (x1, . . . ,xK) eine (N ×K)-Matrix ist

I Bedingung 1. Ordnung fur die Losung β: gradf (β) = 0,

Bedingung 2. Ordnung (fur ein Min. von f): Hf (β) positiv definit.

I Es giltgradf (b) = 2X ′Xb− 2X ′y, Hf (b) = 2X ′X

I Nullsetzen des Gradienten(gradf (b) = 0

)

⇒ sog. Normalengleichungen:

(X ′X)b = X ′y︸ ︷︷ ︸LGS, K Gln. in K Unbekannten

mit der Losung:β = (X ′X)−1X ′ y

5 / 48

Losung der Normalengleichungen

I Die Normalengleichungen

(X ′X)︸ ︷︷ ︸K×K-Matr.

· b︸︷︷︸K-Vekt.

= X ′y︸︷︷︸K-Vekt.

stellen ein lineares Gleichungssystem (K Gleichungen in K Unbekannten) dar

I (X ′X)−1 existiert genau dann (das LGS hat genau dann eine eindeutige Losung),

... wenn die xj linear unabhangig sind,

... wenn also die Nicht-Kollinearitatsbedingung GM3 (in der Stichprobe) erfullt ist.

I In diesem Fall ist die Hesse-Matrix (2X ′X) strikt positiv definit

(der Losungsvektor β also eine Minimalstelle der Zielfunktion).

I Das System der Normalengleichungen wird meistens durch ...

... Berechnung der Matrix (X ′X)−1 (Inversion der K ×K-Matrix X ′X) gelost,

I da man die inverse Matrix ohnehin zur Schatzung der Standardfehler braucht (→spater)

6 / 48

Mehr zu: Fit (y) und Residuen (u)

I Noch einmal:– y := Xβ heißt gefitteter Vektor, die Eintrage yi gefittete Werte.– u := y − y heißt Residuum(svektor), die Eintrage ui Residuen.

I Die Residuen ui sind zu unterscheiden von den Stortermen ui– Die Storterme u sind unbeobachtet,– die Residuen u kann man berechnen

(allerdings erst nachdem man β = (β1, . . . , βK)′ berechnet hat: u = y − y = y −Xβ)

I Aber:Die Residuen konnen als Approximation der Storterme gesehen werden

I Die OLS-Schatzung kann man auch so beschreiben:Minimiere die Residualquadratsumme

|u|2 = u′ u =∑N

i=1u2i

I Klar: Minimierung der Residualquadratsumme (Lange des Residuumsvektors) wirdgenau dann erreicht, wenn

y ⊥ u (d.h. y′ u = 0)7 / 48

Exogenitat als Vorraussetzung dafur,dass OLS

”vernunftig“ schatzt

I Gesehen: OLS zerlegt den Vektor y– in einen Vektor y = X β (der Linearkombination von x1, . . .xK ist)– und einen dazu senkrechten Vektor u:

y = y + u und y ⊥ uI Damit OLS eine

”gute“ Schatzung fur das wahre β liefert, sollte ...

auch Xβ (mit dem wahren β) senkrecht zum Storterm u stehen.I Oder anders formuliert: OLS wahlt β so, dass Xβ ⊥ u.

Dies wird i.d.R. nur dann einen ‘gutes’ β liefern, wenn auch Xβ ⊥ u.I Da man das wahre β nicht kennt, erreicht man (praktisch) ...

die Orthogonalitat Xβ⊥u nur dadurch, ...dass alle erklarenden Faktoren x1, . . .xK senkrecht zu u stehen.

I Die Bedingung”xj ⊥u“ entspricht der Forderung, dass xj exogen ist!

I Spater (statistisch statt algebraisch/geometrisch):Die Exogenitat aller erklarenden Variablen ist entscheidend fur Konsistenz u.Unverzerrtheit der OLS-Schatzung

8 / 48

Page 3: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Aquivalente Formulierung der Normalengleichungen

I Die Matrix X der Regressorbeobachtungen lasst sich auf zwei Weisen lesen:

X =

x1,1 . . . x1,Kx2,1 . . . x2,K

......

xN,1 . . . xN,K

=

x′1x′2...x′N

=(x1 . . . xK

)

x′i: samtliche Regressoren(beobachtungen) zu Individuum i in einer Zeilexj : samtliche Beobachtungen zum Regressor j in einer Spalte.

I Es gilt:

X ′X =(∑N

i=1xj,i xi,`

)j,`=1,...,K

=∑N

i=1xixi

Daher kann man die Normalengleichungen X ′Xβ = X ′y auch folgendermaßenschreiben: ∑N

i=1xi (yi − x′iβ)︸ ︷︷ ︸

=ui

= 0 (∗)9 / 48

Normalengleichungen als Orthogonalitatsbeziehungen

I Gesehen: Normalengleichungen ⇐⇒∑N

i=1xi (yi − x′iβ)︸ ︷︷ ︸

=ui

= 0

I Auf der linken Seite stehen Skalarprodukte, namlich in der j-ten Zeile:∑N

i=1xi,j ui = xj

′ u

Rechts steht 0, d.h. die Normalengln. drucken Orthogonalitatsbeziehungen aus:x1 ⊥ u

...xK ⊥ u

Die Normalengleichungen fordern also:Der Residualvektor u soll senkrecht zu allen Regressorvektoren xj stehen.

I Das ist im Grunde die Exogenitatsbedingung an die xj (bezogen auf u statt u)

I Exogenitat der erklarenden Variablen ist eine wichtige Bedingung fur dieOLS-Schatzung, weil die OLS-Schatzung genau auf dieser Annahme beruht.

10 / 48

2. R2 als Maß fur die Gute des Fits(als Maß fur die Gute der Approximation)

11 / 48

Unzentriertes R2

I Suche ein Maß fur die Qualitat der Approximation durch das Modell:Welcher Anteil v. y (wieviel Prozent) wird durch den Fit y = Xβ tatsachl. erklart?

I Fur die OLS-Schatzung gilt immer die Pythagoraszerlegung:

|y|2 = |y|2 + |u|2

I Teilen wir durch |y|2, entsteht rechts eine Summe von zwei Zahlen, die sich zu 1

addieren; wir interpretieren diese beiden Zahlen als den erklarten Anteil und denResidualanteil (oder unerklarten Anteil).

I Den erklarten Anteil nennen wir das unzentrierte R2:

unzentriertes R2 =|y|2|y|2 = 1− |u|

2

|y|2

I Das unzentrierte R2 (eine Zahl zwischen 0 und 1) ist also:– der Anteil von y, der– durch Linearkombination von x1, . . . ,xK bestenfalls erklart werden kann.

I gemessen werden die Anteile dabei durch Langenquadrate | · |2.

12 / 48

Page 4: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Bestimmtheitsmaß R2

Ubergang zur statistischen Interpretation:

I Ersetze das Langenquadrat durch die empirische Varianz

Var(y) =1

N − 1

N∑

i=1

(yi − y)2 [Var = Stichprobenvarianz (od. empir. Var.)]

I und definiere:Das Bestimmtheitsmaß R2 misst den Anteil der (empirischen) Varianz in y,der durch die Linearkombination der x-Variablen erklart werden kann.

I formal:

R2 :=Var(y)

Var(y)=

1N−1

∑Ni=1(yi − ¯y)2

1N−1

∑Ni=1(yi − y)2

I Es ist zunachst nicht klar, dass das eine Zahl ≤ 1 ist – das kommt jetzt erst:

13 / 48

Alternative Darstellungen des BestimmtheitsmaßesI Wenn das Modell eine Konstante enthalt (normalerweise also),

dann ubertragt sich die ‘Pythagoras-Zerlegung’ in die Varianzzerlegung:

Var(y) = Var(y) + Var(u) ⇐{

(1) |y|2 = |y|2 + |u|2(2) Modell enthalt Konstante

und wir konnen dann auch schreiben:

R2 = 1− Var(u)

Var(y)︸ ︷︷ ︸≤ 1

= 1−1

N−1∑N

i=1 u2i

1N−1

∑Ni=1(yi − y)2

I Anmerkung: Wenn das Modell keine Konstante enthalt, sind die beidenAusdrucke (Var(y)/Var(y) und 1− Var(u)/Var(y)) nicht aquivalent.(Die verwendete Definition kann aber zwischen Okonometrie-Software Produkten wechseln)

I Man kann R2 auch als quadrierten Korrelationskoeffizienten zwischen denbeobachteten und den gefitteten y-Werten definieren:

R2 = cor2(y, y) =

(∑i(yi − y) (yi − y)

)2∑

i(yi − y)2∑

i(yi − y)2

Wieder: Ubereinstimmung ist nur garantiert, wenn das Modell eine Konstante enthalt.14 / 48

Eigenschaften des Bestimmtheitsmaßes;adjustiertes R2

I Es gilt 0 ≤ R2 ≤ 1 (wobei ein R2 von exakt 0 oder exakt 1 immer verdachtig ist)

I Es gibt keine allgemeine Regel, die festlegt,welche konkreten Werte fur R2 als hoch und welche als niedrig anzusehen sind.Das hangt vom gegebenen Kontext ab

I R2 wird niemals kleiner, wenn dem Modell erklarende Variablen hinzugefugtwerden;

I daher definiert man das adjustierte R2 wie folgt:

R2 = 1−1

N−K∑N

i=1 u2i

1N−1

∑Ni=1(yi − y)2

Dieses”bestraft“ fur großer werdendes K.

(Anders als R2, kann R2 mit wachsendem K auch fallen )15 / 48

Weiteres zum Bestimmtheitsmaß

I Aus der Korrelationsformel R2 = cor2(y,y) folgt imFall einer einfachen Regression von y auf x (+ Konstante), y = β0 + β1x+ u:

Das R2 ist das Quadrat der (empirischen) Korrelation zwischen x und y:R2 = cor2(x,y). Das Vorzeichen der Korrelation ist das Vorzeichen von β1.

I Es gibt andere Schatzverfahren fur Regressionsmodelle (z.B. IV, Max. Likelihood, ...)

Auch dabei lasst sich i.d.R. ein”Residuum“ definieren und damit ein sog. Pseudo-R2.

Dabei treten gelegentlich negative R2 auf.

Das hangt damit zusammen, dass bei (vielen) anderen Schatzverfahren dieVarianzzerlegung nicht gilt (bzw. die Pythagoras-Zerlegung).

Das Problem”Pseudo-R2 < 0“ sollte nur auftreten, wenn definiert als 1− Var(u)/Var(y),

nicht wenn als Var(y)/Var(y) (Anteil erklarter an zu-erklarender Varianz)

oder als Korrelationsquadrat cor2(y,y) definiert.

I Im Vergleich zu anderen Schatzverfahren lasst sich OLS auch wie folgt charakterisieren:

OLS ist dasjenige Schatzverfahren, welches das R2 maximiert.(OLS sucht nach einem Fit, der moglichst stark mit dem beobachteten y korreliert)

16 / 48

Page 5: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

3. Erwartungstreue der OLS-Schatzung(unter GM1, . . ., GM4)

17 / 48

Allgemeine Definiton: Erwartungstreue(Unverzerrtheit, Unbiasedness) eines Schatzers

I Erwartungstreue (im Engl. unbiasedness = Unverzerrtheit) eines Schatzers β fureinen Parameter mit wahrem Wert β bedeutet:

E[β] = β ← Beachte: β ist – anders als β – eine Zufallsvariable

I Das heißt: Bei sehr oft wiederholten Stichproben ... ← viele Male neue y,xj erheben

... soll die Schatzung im Mittel gleich der wahren Große β sein

I Wir werden zeigen:OLS ist erwartungstreu (unverzerrt, unbiased)...... unter (lediglich) GM1, ..., GM4

I Das spricht fur die Gute der OLS-Schatzung, aber:Fur eine einzelne Stichprobe hilft einem die Erwartungstreue nicht viel;

Man braucht auf jeden Fall noch Aussagen daruber, wie sehr β streut.

18 / 48

Nachweis der Erwartungstreue von OLS(unter GM1, ..., GM4)

I Wir erbringen den Nachweis der Erwartungstreue von OLS, indem wir dasPopulationsmodell mit dem wahren β in die Formel fur den Schatzer einsetzen:

E[β] = E[(X ′X)−1X ′y] | ersetze y = Xβ + u

= E[(X ′X)−1X ′Xβ] + E[(X ′X)−1X ′u] | beachte (X ′X)−1X ′X = I

= E[β] + E[(X ′X)−1X ′u]

I Es folgen zwei Uberlegungen:

(1) E[β] = β, da β deterministisch; ← das nehmen wir per GM1 an!

(2) E[(X ′X)−1X ′u] = E[(X ′X)−1X ′]E[u] = 0 ← wegen GM4 (u unabh. von X)

Insgesamt folgt die Erwartungstreue, E[β] = β.

I Ergebnis: Unter den Annahmen GM1, . . . , GM4 ...

... ist die OLS-Schatzung erwartungstreu

I Entscheidend ist die Annahme GM4, Exogenitat der Regressoren.

19 / 48

Erwartungstreue in der bedingten Form

I Wir wollen noch den Nachweis der Erwartungstreue unter derExogenitatsannahme GM4.3 erbringen. Dazu ‘konditionieren’ wir alles auf X:

E[β |X] = E[(X ′X)−1X ′y |X] | ersetze y = Xβ + u

= E[(X ′X)−1X ′Xβ |X] + E[(X ′X)−1X ′u |X]

= E[β|X]︸ ︷︷ ︸= β

+ (X ′X)−1X ′ E[u|X]︸ ︷︷ ︸=0 (wg. GM4.3)

= β

Entscheidend: Herausziehen von (X ′X)−1X ′ aus 2. bedingtem Erwartungswert;(geht, da folg. allg. Regel fur bedingte Erwartungswerte gilt: E[g(X) · Y |X] = g(X) · E[Y |X])

I Unter GM1, GM2, GM3 und GM4.3 gilt die Erwartungstreue also sogar in der(starkeren) Form E[β |X] = β.

20 / 48

Page 6: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Verletzung der Exog.Annahme durch omitted variables

I Wenn die Exogenitatsannahme GM4 verletzt ist, dann ist OLS i.A.verzerrt (‘biased’)

I Haufige Form der Verletzung von GM4: ‘omitted variables’ ( fur y relevante Variablen,

die nicht in das Modell eingeschlossen sind, aber mit den erklarenden Variablen korrelieren.)

I Angenommen, das wahre Modell ist y = β0 + β1 x1 + β2 x2 + u,

aber wir schatzen das ‘unterspezifizierte’ Modell y = β0 + β1 x1 + u .

I Dann ist x2 in dem Storterm u des unterspezifizierten Modells enthalten(denn es gilt u = u+ β2 x2, jedenfalls wenn β1 = β1 und β0 = β0).

I Das heißt,x1 wird nicht exogen sein im geschatzten (falschlich unterspezifizierten) Modell(abgesehen von den Ausnahmefallen: β2 = 0 oder cor(x1, x2) = 0)

I Dann wird die OLS-Schatzung von β1 nicht den ‘wahren Einfluss’ von x1 auf ywiedergeben (auch die Schatzung von β0 ist vermutlich verzerrt).

21 / 48

Charakter der Verzerrung bei omitted variables

I Situation: Das wahre Modell ist y = β0 + β1 x1 + β2 x2 + u,

aber wir schatzen das ‘unterspezifizierte’ Modell y = β0 + β1 x1 + u .

I Unter dem ‘wahren Einfluss von x1’ verstehen wir die Anderung von y, wenn x1um eine Einheit erhoht wird und sich sonst nichts (systematisch) andert.

I Betrachte Situation, dass x1 mit x2 positiv korreliert und β2 > 0 ist:

I Wenn x1 steigt, dann wird tendentiell auch x2 steigen und umgekehrt.

I Verletzung von GM4:Die Storterme im unterspezifizierten Modell andern sich also systematisch:Sie sind tendentiell positiv, wenn x2 groß ist,und negativ, wenn x2 klein ist.

I ⇒ Verzerrung:Der in β1 gemessene Einfluss auf y misst dann sowohl den Einfluss von x1 alsauch den von β2 x2 auf y

22 / 48

Richtung der Verzerrung bei omitted variables

Angenommen, das wahre Modell ist y = β0 + β1 x1 + β2 x2 + u,

aber wir schatzen das ‘unterspezifizierte’ Modell y = β0 + β1 x1 + u .

Wenn β1 aus dem unterspezifizierten Modell geschatzt wird, dann:

cor(x1, x2) > 0 cor(x1, x2) < 0

β2 > 0 E[β1] > β1 E[β1] < β1β2 < 0 E[β1] < β1 E[β1] > β1

Anmerkung: Situation komplizierter bei mehr als zwei erklarenden Variablen!

23 / 48

Beispiel zur Richtung d. Verzerrung bei om.vars.Querschnittsdaten von Individuen: y = Leistungsfahigkeit, x1 = Alter, x2 = Erfahrung.

Annahmen:• cor(x1, x2) > 0 (Alter und Erfahrung korrelieren positiv miteinander)• β2 > 0 (Die Erfahrung hat einen positiven Effekt auf die Leistungsfahigkeit)

Frage: Wenn wir die einfache Regression y = β0+β1x1+u schatzen, werden wir dann mit β1den Effekt des Alters x1 auf die Leistungsfahigkeit voraussichtlich uber- oder unterschatzen?

Da β2 > 0 und cor(x1, x2) > 0, liefert die Tabellecor(x1, x2) > 0 cor(x1, x2) < 0

β2 > 0 E[β1] > β1 E[β1] < β1β2 < 0 E[β1] < β1 E[β1] > β1

wobei sich β1 auf dieSchatzung des unterspezi-fizierten Modells bezieht.

E[β1] > β1 (’das aus dem unterspezif. Modell geschatzte β1 ist im Mittel großer als das wahre β1’)

Antwort also: Beim einfachen Modell ist zu erwarten, dass der wahre Effekt des Alters x1 aufdie Leistungsfahigkeit y uberschatzt wird.

Es ist gut moglich, dass wir mit der einfachen Regression ein β1 > 0, in der um Erfahrung erweiterten

Regression aber β1 < 0 bekommen. Das wurde darauf hindeuten, dass das Alter tatsachlich einen

negativen Effekt auf die Leistungsfahigkeit hat, der sich in der einfachen Regression nicht zeigt, weil

der so geschatzte Effekt auch (bzw. vor allem) den Effekt der mit dem Alter zunehmenden Erfahrung

x2 auf die Leistungsfahigkeit erfasst.24 / 48

Page 7: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Beispiel: Verdienen Manner mehr als Frauen?I Betrachte zunachst das einfache Modell wagei = β0 + β1 malei + ui,

OLS-Schatzung mit E-Views:

Dependent Variable: WAGEMethod: Least SquaresDate: 03/25/10 Time: 20:03Sample: 1 3294Included observations: 3294

Coefficient Std. Error t-Statistic Prob.

C 5.146924 0.081225 63.36639 0.0000MALE 1.166097 0.112242 10.38912 0.0000

R-squared 0.031746 Mean dependent var 5.757585Adjusted R-squared 0.031452 S.D. dependent var 3.269186S.E. of regression 3.217364 Akaike info criterion 5.175609Sum squared resid 34076.92 Schwarz criterion 5.179313Log likelihood -8522.228 Hannan-Quinn criter. 5.176935F-statistic 107.9338 Durbin-Watson stat 1.866250Prob(F-statistic) 0.000000

I Wir notieren das in folgender Formwagei = 5.147 + 1.166 malei

(0.081) (0.112)N = 3294, R2 = 0.032

(die Zahlen in Klammern sind die Standardfehler, die wir hier noch nicht behandelt haben)25 / 48

Beispiel: Verdienen Manner mehr als Frauen?

wagei = 5.147 + 1.166 malei(0.081) (0.112)

N = 3294, R2 = 0.032

I Das R2 betragt nur 0.032; unser einfaches Modell erklart also lediglich 3.2% derVarianz in den Lohnen.

I In der Stichprobe verdienen Manner im Schnitt etwa $1.17 mehr pro Stunde.I Das ist eine reine Korrelation in den beobachteten Daten.

Eigentlich sollten wir uns fur die Frage interessieren:

Welchen Lohn hatte eine (ansonsten gleiche: ceteris paribus) Person mehr zuerwarten, wenn sie statt einer Frau ein Mann ware?

Diese Frage beantworten wir mit diesem einfachen Modell keineswegs.I Warum sollten wir also unser Modell erweitern?I Weil Lohnunterschiede zwischen mannlichen und weiblichen Personen auch durch

andere Faktoren erklart werden konnten (bspw. durch Schulausbildung,Arbeitserfahrung, Talente, . . . )Eine wichtige Variable, die auch erklart, welchen Lohn jemand erhalt, ist dieBranche, in der sie/er arbeitet.

26 / 48

Beispiel: Verdienen Manner mehr als Frauen?

I Wir betrachten Schulausbildung (gemessen in Jahren) und fuhren zunachst eineRegression von school (= x2) auf male (=x1) durch:

schooli = 11.837 − 0.395 malei(0.041) (0.057)

N = 3294, R2 = 0.014

I Manner haben also im Schnitt eine um ca. 0.4 Jahre geringere Schulausbildung;die Korrelation zwischen male u. school ist negativ; sie betragt −

√0.014 ≈ −0.12

(Beides bezogen auf die Stichprobe)

I Frage: Wenn wir von einem positiven Effekt von school auf wage ausgehen,in welche Richtung wird sich dann der geschatzte Koeffizient von male beiBerucksichtigung von school voraussichtlich verandern?

Hinweis:

cor(x1, x2) > 0 cor(x1, x2) < 0

β2 > 0 E[β1] > β1 E[β1] < β1β2 < 0 E[β1] < β1 E[β1] > β1

wobei sich β1 auf dieSchatzung des unterspezi-fizierten Modells bezieht.

27 / 48

Beispiel: Verdienen Manner mehr als Frauen?

I Wir betrachten also nun das erweiterte Modell:

wagei = β0 + β1 malei + β2 schooli + ui

OLS-Schatzung:

wagei = −2.04 + 1.406 malei + 0.608 schooli(0.391) (0.107) (0.032)

N = 3294, R2 = 0.125

I β1 (jetzt geschatzt auf β1 ≈ $1.4, in der einfachen Regression auf $1.17 ) misstnun den Unterschied im Erwartungslohn zwischen Mannern und Frauen mit dergleichen Schulausbildung ; dies ist hier die ceteris paribus Bedingung

I Frage: Hat sich unsere Erwartung bzgl. der Richtung der Veranderung von β1bestatigt oder nicht?

I Wir konnen auch sagen: Eine um ein Jahr langere Schulzeit lasst einen um ca.$0.6 hoheren Stundenlohn erwarten (c.p., d.h. bei Kontrolle des Geschlechts).

28 / 48

Page 8: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

4 Varianz der OLS-Schatzung(unter GM1,. . .,GM5)

Zunachst: Uber die Varianzmatrix σ2(X ′X)−1 von βDann: Uber die Varianzinflationsformel

29 / 48

Was ist und wozu braucht man den Standardfehler?

I Die Unverzerrtheit des OLS-βj besagt nur:

Bei wiederholten Stichproben bekommen wir mit den βj im Mittel das wahre βj .

Wir fragen wir nun: Wie sehr streut βj dabei? ← Beachte βj ist eine Zufallsvariable!

I Dazu mochten wir Aussagen uber die Standardabweichung von βj treffen.

Die (geschatzte) Standardabweichung von βj nennt man den Standardfehler,

se(βj) := sd(βj) :=

√Var(βj)

Der Standardfehler ist das wichtigste Maß dafur, mit welcher ‘Sicherheit’(‘Konfidenz’) das βj dem wahren βj nahekommt.(Spater werden wir die geschatzte Standardabweichung als den Standardfehler ansehen!)

I Wir behandeln zwei Formeln fur die Varianz/den Standardfehler von OLS:

I uber Formel fur Var(β) = Varianzmatrix des Zufallsvektors β, ← zum BerechnenI uber ‘Varianzinflationsfaktoren’ fur βj ← zum Interpretieren

30 / 48

Einschub: Varianzmatrix eines ZufallsvektorsI Die Varianzmatrix eines Zufallsvektors Y = (Y1, . . . , YK) ist die Matrix der

Varianzen (in der Diagonalen) und Kovarianzen der Komponenten Yj von Y :

Var(Y ) :=(cov(Yi, Yj)

)i,j=1,...K

I Wie geht die Varianzmatrix des (mit einer deterministischen Matrix A)linear transformierten Zufallsvektors AY aus derjenigen fur Y hervor?Die Formel lautet (sie ist ein Spezialfall der sog. Delta-Formel):

Var(AY ) = AVar(Y )A′

Spezialfall A = a′ ist ein (Zeilen-)Vektor: ‘quadratische Form in a’:

Var(a′ Y ) = a′ Var(Y )a(

=K∑

i=1

K∑

j=1

cov(Yi, Yj) ai aj

)

I Weitere technische Anmerkung:Eine analoge Formel gilt fur die bedingte Varianzmatrix, Var(AY |X) , solangeder Koeffizient A eine Funktion der Bedingung X ist.

31 / 48

Varianzmatrix der OLS-Schatzung unterHomoskedastie-Annahme

I Jetzt zusatzliche Voraussetzung:Neben GM1,. . .,GM4auch GM5 (Homoskedastie)

I Mit Varianzmatrizen druckt sich die Homoskedastie-Bedingung folgendermaßenaus:

Var(u) = σ2 I (genauer: Var(u |X) = σ2 I)

I Unter dieser zusatzl. Annahme erhalt man fur dieVarianzmatrix der OLS-Schatzung:

Var(β) = σ2(X ′X)−1 (genauer: Var(β |X) = σ2(X ′X)−1)

I Zur Erinnerung:X ist die Matrix der Regressorbeobachtungen, eine N ×K-Matrix

X ′X lasst sich folgendermaßen darstellen: X ′X =∑N

i=1xix

′i

X ′X ist eine K ×K-Matrix und (X ′X)−1 deren Inverse.

32 / 48

Page 9: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Beweis der Formel fur die Varianzmatrix

Var(β) = Var(X ′X)−1X ′y

)| ersetze y = Xβ + u

= Var((X ′X)−1X ′Xβ + (X ′X)−1X ′u

)| (X ′X)−1X ′X = I

= Var(

β + (X ′X)−1X ′u)| Var(b+ Y ) = Var(Y )

= Var((X ′X)−1X ′u

)| ziehe A = (X ′X)−1X ′ heraus

= (X ′X)−1X ′ Var(u) X(X ′X)−1 | Var(u) = σ2 I

= (X ′X)−1 X ′ σ2I X (X ′X)−1

= σ2 (X ′X)−1 X ′X (X ′X)−1

= σ2 (X ′X)−1

33 / 48

Schatzung der Stortermvarianz σ2

I Da wir die Varianz des Storterms, Var(ui) = σ2, i.d.R. nicht kennen, ...... muss σ2 geschatzt werden.

I Wir schatzen die Varianz der Fehlerterme uber die Stichprobenvarianz derResiduen.

I Weil wir K Parameter so gewahlt haben, dass die Quadratsumme der Residuenminimal wird, nehmen wir eine Freiheitsgrad-Korrektur vor:

σ2 =1

N −K∑N

i=1u2i

I Unter den ersten funf Gauß-Markov-Annahmen ist σ2 ein unverzerrter Schatzerfur σ2;

I Wir schatzen die Varianz (-Matrix) von β uber

σ2 (X ′X)−1[

= σ2(∑N

i=1xix

′i

)−1 ]

I Die Quadratwurzel des j-ten Diagonalelements ist der Standardfehler von βj34 / 48

Im Wesentlichen:σ2 = Stichproben-Varianz in den Residuen

I Der ublicherweise verwendete (da unverzerrte) Schatzer von σ2 ist:

σ2 =1

N −KN∑

i=1

u2i

I Das ist – bis auf die Freiheitsgradkorrektur – die Stichprobenvarianz der Residuen:

σ2 ≈ Var(u) =1

N − 1

N∑

i=1

u2i

I Einziger Unterschied: N − 1 statt N −K. ← kaum Unterschied fur große N

35 / 48

BeispielI Unter E-Views bekommt man σ, also die (geschatzte) Standard-Abweichung der

Storterme, als S.E of regression (‘Standard-Fehler der Regression’) angezeigt:

Dependent Variable: WAGEMethod: Least SquaresDate: 03/26/10 Time: 11:45Sample: 1 3294Included observations: 3294

Coefficient Std. Error t-Statistic Prob.

C -2.045835 0.391050 -5.231643 0.0000MALE 1.406205 0.107462 13.08560 0.0000

SCHOOL 0.607626 0.032385 18.76282 0.0000

R-squared 0.125313 Mean dependent var 5.757585Adjusted R-squared 0.124781 S.D. dependent var 3.269186S.E. of regression 3.058426 Akaike info criterion 5.074588Sum squared resid 30783.91 Schwarz criterion 5.080144Log likelihood -8354.847 Hannan-Quinn criter. 5.076577F-statistic 235.7434 Durbin-Watson stat 1.918826Prob(F-statistic) 0.000000

I Hier ist also σ ≈ 3.06 ≈ 3.Beachte: σ und σ haben die gleiche Einheit wie y, hier also $ (pro Stunde). Die residualen (nach

OLS-Schatzung unerklarten) Anteile des Stundenlohns fluktuieren hier also in ca. 2/3 der Falle

zwischen -$3 und +$3, wenn wir von einer annahernden Normalvtlg. der Residuen ausgehen.

36 / 48

Page 10: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Beispiel (Forts)I Man kann σ in Relation setzen zur ...

... empirischen Standard-Abw. von y, S.D. dependent var,

... die hier bei

√Var(y) ≈ 3.27 liegt; auch hier: das sind $3.27 (pro Stunde)

I Damit lasst sich das R2 (annahernd) reproduzieren:

R2 = 1− Var(u)

Var(y)≈ 1− σ2

Var(y)= 1− 3.062

3.272= 0.124

I Die Varianzmatrix der OLS-Schatzung (mit der Schatzung σ statt dem wahren σ),also σ2(X ′X)−1, wird unter View - Coefficient Covariance Matrix

angezeigt:Coefficient Covariance Matrix

C MALE SCHOOL

C 0.152920 -0.010867 -0.012415MALE -0.010867 0.011548 0.000414

SCHOOL -0.012415 0.000414 0.001049

I Wurzel des j-ten Diagonalelements ist der Standardfehler von βj (im Outputunter Std-Error), z.B. in Bezug auf MALE:

√0.01155 = 0.1075 ($ pro Stunde!)

37 / 48

Wiederholungsfragen

I Eine Software zeigt Ihnen fur die (geschatzte) Varianzmatrix einerOLS-Schatzung des Modells y = β0 + β1x1 + β2 + u folgendes Ergebnis an:

σ2(X ′X)−1 =

1 −1 0−1 4 20 2 9

Fur σ2 wird ein Wert von 4 ausgegeben.I Wie groß ist der Standardfehler von β0 bzw. β1 bzw. β2?

Warum macht es keinen Sinn nach dem Standardfehler von β0 zu fragen (bzw wie groß ist er)?

I Angenommen fur β1 wird der Wert 1 geschatzt. In welchem Bereich (ganz grob)wird man dann mit a) 66% Wkt und b) 95% Wkt. das wahre β1 vermuten?

I Auf welchen Wert wird die Korrelation zwischen β2 und β3 geschatzt?(Hinweis cor(X,Y ) = cov(X,Y )/(sd(X) · sd(Y )))

(Warum konnte es uberhaupt eine Korrelation zwischen β2 und β3 geben?)

I Wenn fur die Stichprobenvarianz von y ein Wert Var(y) = 6 ermittelt wird, wiegroß ist dann ungefahr R2?

38 / 48

4.b Varianzinflationsfaktoren

39 / 48

Welche Großen beeinflussen die Std.fehler von OLS?I Frage: Was macht den Standardfehler groß, was sind seine ‘Inflationsfaktoren’?I Man kann folgende Formel fur die Varianz des Schatzers beweisen:

Var(βj) =1

N

σ2

(1−R 2j ) Var(xj)

d.h. se(βj) =1√N

σ√1−R 2

j sd(xj)

wobei R 2j das R2 einer Regression von xj auf alle anderen Regressoren darstellt.

I Der Standardfehler von βj wird also durch drei Großen beeinflusst:(1) Die Stortermvarianz σ2 ← Populationsparameter(2) Die Streuung im betreffenden Regressor xj(3) Wie gut sich der j-te Regressor durch die anderen Regressoren erklaren lasst.

Zwar treten auf der re. Seite der Formel mit R 2j und Var(xj) zwei Großen auf, die von

der Stichprobe abhangen und damit zufallig sind, aber bei genugend großem N sollten

auch diese fast konstant sein (gegen einen Populationsparameter konvergieren).I Außerdem naturlich: Einfluss des Stichprobenumfangs N :

Mit großerem N sind kleinere Std.Fehler zu erwarten (nicht uberraschend)Die Std.Fehler klingen fur N →∞ allerdings nur wie 1/

√N ab:

Um den Std.Fehler zu halbieren, braucht man ca. 4-mal so viele Daten.40 / 48

Page 11: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

Einfluss der Stortermvarianz auf den Standardfehler

I Varianzinflationsformel war:

Var(βj) =1

N

σ2

(1−R2j ) Var(xj)

wobei R2j das R2 einer Regression von xj auf alle anderen Regressoren darstellt.

I Eine großere Varianz in den Stortermen fuhrt zu großerer Varianz derOLS-Schatzung.

I Nicht uberraschend, da die Stortermvarianz σ2 ...den ’Rauschanteil’ im Regressionsmodell misst.

41 / 48

Einfluss der Varianz des Regressors

I Varianzinflationsformel war:

Var(βj) =1

N

σ2

(1−R2j ) Var(xj)

wobei R2j das R2 einer Regression von xj auf alle anderen Regressoren darstellt.

I Breite Streung der beobachteten Werte der erklarenden Variable ist gunstig fur(wirkt verringerend auf) den Standardfehler seines Regressionskoeffizienten.

I Nicht uberraschend:Je breiter die

”Basis“, auf der die y-Werte durch die Werte von xj erklart werden,

je weniger unsicher sollte die Schatzung des Steigungskoeffizienten βj sein.

I Wenn z.B. xj uberhaupt nicht streut, d.h. wenn xj konstant ist, ...... kann man auch keinen Steigungskoeffizienten ermitteln.

I Beachte auch: Das lineare Regressionsmodell extrapoliert in den gesamten(x1, . . . , xK)-Raum (selbst in Bereiche, die nicht durch die Daten

”gestutzt“ sind, d.h. wo

gar keine Beobachtungen von xj vorliegen).

42 / 48

Einfluss des Grades an Kollinearitat der RegressorenI Die Varianzinflationsformel zeigt, dass die Varianz der OLS-Schatzung groß wird, wenn

sich der betreffende Regressor xj sehr gut durch die anderen Regressoren erklarenlasst/wenn R2

j nahe 1 ist.

I Das kann man folgendermaßen interpretieren: Wenn eine Variable xj gegenuber denbereits im Modell befindlichen Variablen wenig zusatzlichen Informationsgehalt hat(an sich, nicht unbedingt in Bezug auf y!), dann fuhrt das zu großen Standardfehlern(d.h. die Schatzung ihres Einflusses auf y ist mit einer hohen ‘Unsicherheit’ versehen).

I Da sich mit der Hinzunahme einer solchen Variablen auch die anderen R2j′ erhohen

(denn wenn C sich gut durch A und B erklaren lasst, dann lasst sich auch A gut durchB und C erklaren), werden auch die Standardfehler der anderen Variablentendentiell schlechter.

I Im Extremfall ist R2j = 1, dann hat man eine perfekte Kollinearitat und die

Standardfehler (aller Regressoren) werden unendlich groß.

I Umgekehrt gilt: Den Einfluss eines zusatzlichen Regressors, der einen hohen Gradan zusatzlichem Informationsgehalt gegenuber den bereits im Modell befindlichenRegressoren enthalt, kann man mit dem kleinstmoglichen Standardfehler schatzen.

I In der Praxis sind solche Variablen aber selten und man hat oft einen Trade-Offzwischen Verzerrungen in β (omitted variable bias) und großen Standardfehlernse(β) (durch Fast-Kollinearitat). 43 / 48

Einschluss irrelevanter Regressoren

I Oben gesehen: Der Auschluss relevanter Regressoren kann die OLS-Schatzungverzerren (schlimmer Effekt!)

I Demgegenuber scheint der Einschluss eines (fur y) irrelevanten Regressorsharmlos:Die Parameter-Schatzung sollte sich nicht stark andern (OLS bleibterwartungstreu).Aber: Die Standardfehler der Schatzung konnen sich stark erhohen.

I Namlich dann, wenn der zusatzliche Regressor fast kollinear zu (fast linearabhangig von) den anderen Regressoren ist, d.h. sich selbst gut durch dieanderen Regressoren erklaren lasst.

I Zusammengefasst: Einschluss eines irrelevanten Regressors– Wenig Effekt auf β,– aber moglicherweise starken Effekt auf se(β).

44 / 48

Page 12: I OLS-Sch rem X u - uni- · PDF fileOLS-Sch delle Schild 2017 Agenda: I (Exogenit Orthogonalit at) I Bestimmtheitsma R 2 I OLS-Sch rtungstreue) I OLS-Sch rianzmatrizen) I OLS-Sch ren)

5. Gauß-Markov-Theorem: OLS ist BLUE (unter GM1bis GM5)

45 / 48

Effizienz eines SchatzersI Generell: Kleine Standardfehler (kleine Varianzen) eines Schatzers sind

wunschenswert.Wir fragen nun nach einem Schatzer mit den kleinsten Standardfehlern bzw.Varianzen.

I Effizienz: Ein erwartungstreuer Schatzer θ∗ fur einen Parameter θ heißt effizient(in einer Klasse von in Betracht gezogenen Schatzern), wenn var(θ∗) ≤ var(θ) fur

jeden anderen erwartungstreuen Schatzer θ in der Klasse.

I Das Gauß-Markov-Theorem macht eine Aussage zur Effizienz derOLS-Schatzung.

I Gauß-Markov-Theorem besagt (in der Grundform):

Unter GM1, . . ., GM5 ist die OLS-Schatzung β∗ = βOLS effizient in derKlasse der linearen Schatzer von β

Das heißt:Unter GM1, ..., GM5 ist OLS der BLUE = Best linear unbiasedestimator.

46 / 48

Was heißt dabei ‘linearer Schatzer’?I Darunter soll ein Schatzer β des Modells aus GM1 verstanden werden, der linear

von der Endogenenbeobachtung y abhangt, d.h.

β = Wy mit W = W (X) ∈ RK×N ,

wobei W = W (X) eine beliebige Funktion der Stichprobenwerte X derRegressoren ist.

I Bei OLS ist W (X) = (X ′X)−1X ′.I Naturlich ist nicht jeder lineare Schatzer erwartungstreu

(und man kann sich auch nicht-lineare erwartungstreue Schatzer vorstellen).

I Die Bedingung fur die Erwartungstreue eines linearen Schatzers mit Matrix W ist:W (X) muss eine Links-Inverse der Matrix X sein, d.h.

W X = IK×K

Da die Matrix X (normalerweise) nicht quadratisch ist,gibt es viele Losungen dieser Gl., W = (X ′X)−1X ′ ist eine davon.

47 / 48

Allgemeines Gauß-Markov Theorem

I Das allgemeine Gauß-Markov-Theorem beinhaltet sogar noch eine etwas starkererEffizienz-Eigenschaft der OLS-Schatzung als oben dargestellt: Das Theorembesagt

var(a′ βOLS) ≤ var(a′ β) fur jeden Vektor a ∈ RK .

Indem man a = ej = j−ter Einheitsvektor setzt, folgt die Aussage fur βj .

I Da ganz allgemein var(a′β) = a′ Var(β)a, bedeutet dies: OLS hat die kleinste

Varianzmatrix Var(β) innerhalb der Klasse der linearen unverzerrten Schatzer :

Gauß-Markov-Theorem: Unter den Annahmen GM1 bis GM5 ist OLS der bestlinear unbiased estimator (BLUE). Das heißt: Unter allen linearen erw.treuen

Schatzern β = W (X)y mit einer von X abhangigen Matrix W = W (X) hat

βOLS = (X ′X)−1X ′ y die kleinste Varianzmatrix in folgendem Sinne:

Var(βOLS)− Var(β) ist positiv semidefinit fur jeden lin. erw.treuen Schatzer β

I Wichtig: Das Gauß-Markov-Theorem setzt nicht GM6 (normalverteilteStorterme) voraus, aber GM5 (Homoskedastie).In der Tat: OLS-Schatzung bei heteroskedastischen Fehlern nicht effizient.

48 / 48