76
5. Statistische Sch¨ atztheorie Problem: Sei X eine Zufallsvariable (oder X ein Zufallsvektor), die einen interessierenden Zufallsvorgang repr¨ asentiere Man m¨ochte die tats¨ achliche Verteilung von X (oder X) ken- nenlernen Man beachte: In praxi ist die Verteilung von X zun¨ achst unbekannt 191

5. Statistische Sch¨atztheorie - wiwi.uni-muenster.de · 5.1 Stichproben, Sch¨atzer, Grenzwerts¨atze Situation: ‘ Sei X die Zufallsvariable, die den interessierenden Zufallsvor-gang

  • Upload
    vunhi

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

5. Statistische Schatztheorie

Problem:

• Sei X eine Zufallsvariable (oder X ein Zufallsvektor), dieeinen interessierenden Zufallsvorgang reprasentiere

• Man mochte die tatsachliche Verteilung von X (oder X) ken-nenlernen

Man beachte:

• In praxi ist die Verteilung von X zunachst unbekannt

191

Deshalb:

• Sammle Informationen uber die unbekannte Verteilung desZufallsvorgangs, indem man diesen (und damit die Zufallsvari-able X) mehrfach beobachtet

−→ Zufallsstichprobe−→ Statistiken−→ Schatzer

192

5.1 Stichproben, Schatzer, Grenzwertsatze

Situation:

• Sei X die Zufallsvariable, die den interessierenden Zufallsvor-gang reprasentiere(zunachst Betrachtung univariater Variablen)

• Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt nmal zu beobachten

• Vor den Realisierungen kann man die n potenziellen Beobach-tungen als ZV’en X1, . . . , Xn auffassen

193

Definition 5.1: (Stichprobe)

Die ZV’en X1, . . . , Xn heißen einfache Stichprobe aus X, wenn

(a) jedes Xi, i = 1, . . . , n, wie X verteilt ist,

(b) X1, . . . , Xn stochastisch unabhangig sind.

Die Anzahl n heißt Stichprobenumfang.

194

Bemerkungen:

• Der interessierende Zufallsvorgang kann prinzipiell beliebigoft wiederholt werden

• Die Realisierungen x1, . . . , xn der Stichprobe X1, . . . , Xn heißenkonkrete Stichprobe

• Betrachtet man die Stichprobe X1, . . . , Xn als Zufallsvektor,so ist die gemeinsame Dichtefunktion wegen der Unabhangig-keit gegeben durch

fX1,...,Xn(x1, . . . , xn) =n∏

i=1fXi(xi)

(vgl. Definition 3.8, Folie 125)

195

Modell der einfachen Zufallsstichprobe

196

Zufallsvorgang X

Mögliche Realisationen

X1 (ZV) x1 (Realisation 1. Exp.)

X2 (ZV)

Xn (ZV)

x2 (Realisation 2. Exp.)

xn (Realisation n. Exp.)

. . . . . .

Jetzt:

• Betrachte Funktionen der Stichprobenvariablen X1, . . . , Xn

−→ Statistiken−→ Schatzer

Definition 5.2: (Statistik, Stichprobenfunktion)

Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g :Rn −→ R eine reellwertige Funktion mit n Argumenten, die keineunbekannten Parameter enthalt. Dann nennt man die ZV

T = g(X1, . . . , Xn)

eine Statistik oder Stichprobenfunktion.

197

Beispiele:

• Stichprobenmittel:

X = g1(X1, . . . , Xn) =1n·

n∑

i=1Xi

• Stichprobenvarianz:

S2 = g2(X1, . . . , Xn) =1n·

n∑

i=1

(

Xi −X)2

• Stichprobenstandardabweichung:

S = g3(X1, . . . , Xn) =

1n·

n∑

i=1

(

Xi −X)2

198

Bemerkungen:

• Alle bisherigen Begriffe konnen inhaltsgleich auf den multi-variaten Fall ubertragen werden

• Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’enund damit selbst eine ZV−→ eine Statistik hat eine Verteilung

(d.h. auch einen Erwartungswert und eine Varianz)

Zweck von Statistiken:

• Liefern Informationen uber die Verteilung von X

• Sind Grundbausteine beimSchatzen von ParameternTesten von Hypothesen uber Parameter

199

Stichproben und Statistiken

200

Stichprobe

( X1, . . ., Xn)

Messung Stichprobenrealisation ( x1, . . ., xn)

g( X1, . . ., Xn) Statistik

g( x1, . . ., xn) Realisation der Statistik

Jetzt folgende Situation:

• Es sei X (oder X) eine ZV’e mit unbekannter VF FX(x)

• Wir interessieren uns fur einen oder mehrere Parameter vonX

• Es sei θ dieser unbekannte Parametervektor, z.B.

θ =

[

E(X)Var(X)

]

• Oft ist die Verteilungsfamilie von X bekannt, z.B. X ∼ N(µ, σ2),nicht aber die Parameter, d.h.

θ =

[

µσ2

]

• Der unbekannte Parametervektor wird mit Hilfe von Statis-tiken einer Stichprobe X1, . . . , Xn geschatzt

201

Definition 5.3: (Schatzer, Schatzwert)

Die Statistik θ(X1, . . . , Xn) heißt Schatzer (auch Schatzfunktion)fur den unbekannten Parametervektor θ. Fur die konkrete Stich-probe x1, . . . , xn bezeichnet man die damit verbundene Real-isierung des Schatzers θ(x1, . . . , xn) als Schatzwert.

Bemerkungen:

• Der Schatzer θ(X1, . . . , Xn) ist ein Zufallsvektor−→ Schatzer hat eine Verteilung, einen Erwartungswert und

eine Varianz

• Der Schatzwert θ(x1, . . . , xn) ist dagegen eine Zahl oder einZahlenvektor

202

Beispiel:

• X sei N(µ, σ2)-verteilt mit unbek. Parametern µ und σ2

• Der zu schatzende Parametervektor ist dann

θ =

[

µσ2

]

=

[

E(X)Var(X)

]

• Mogliche Schatzer fur µ und σ2 sind

µ =1n

n∑

i=1Xi und σ2 =

1n− 1

n∑

i=1(Xi − µ)2

−→ ein Schatzer fur θ ist

θ =

[

µσ2

]

=

1n

∑ni=1 Xi

1n− 1

∑ni=1 (Xi − µ)2

203

Frage:

• Wozu braucht man das scheinbar komplizierte theoretischeKonzept des Schatzers als Zufallsvariable?

Antwort:

• Zum Vergleich alternativer Schatzer fur ein und denselbenParametervektor θ im Hinblick auf bestimmte Guteeigen-schaften

Beispiel:

• Es sei θ = Var(X) die Varianz von X

204

• Zwei alternative Schatzer fur θ sind

θ1(X1, . . . , Xn) =1n

n∑

i=1

(

Xi −X)2

θ2(X1, . . . , Xn) =1

n− 1

n∑

i=1

(

Xi −X)2

Frage:

• Welcher Schatzer ist ’besser’ und warum?−→ Eigenschaften (Qualitatskriterien) von Punktschatzern

(vgl. Abschnitt 5.2)

205

Wichtig:

• Einige dieser Kriterien beurteilen das Verhalten eines Schatzersfur große Stichprobenumfange(n →∞, Große-Stichproben-Eigenschaften)

Deshalb:

• Erlauterung einiger stochastischer Konvergenzbegriffe:

Zentraler Grenzwertsatz

Schwaches Gesetz der großen Zahl

Konvergenz nach Wahrscheinlichkeit

Konvergenz nach Verteilung

206

Satz 5.4: (Univariater zentraler Grenzwertsatz)

Es sei X eine beliebig verteilte Zufallsvariable mit E(X) = µ undVar(X) = σ2. Weiterhin sei X1, . . . , Xn eine einfache Stichprobeaus X und

Xn =1n

n∑

i=1Xi

das arithmetische Stichprobenmittel. Dann gilt fur n →∞:

Xn ∼ N

(

µ,σ2

n

)

bzw.√

nXn − µ

σ∼ N(0,1).

Jetzt:

• Verallgemeinerung auf multivariaten Fall

207

Satz 5.5: (Multivariater zentraler Grenzwertsatz)

Es sei X = (X1, . . . , Xm)′ ein beliebig verteilter Zufallsvektor mitE(X) = µ und Cov(X) = Σ. Weiterhin sei X1, . . . ,Xn eine (mul-tivariate) einfache Stichprobe aus X und

Xn =1n

n∑

i=1Xi

das multivariate arithmetische Stichprobenmittel. Dann gilt furn →∞:

Xn ∼ N(

µ,1nΣ

)

bzw.√

n(

Xn − µ)

∼ N(0,Σ).

208

Bemerkungen:

• Eine multivariate einfache Stichprobe aus dem ZufallsvektorX erhalt man, indem man in Definition 5.1 (Folie 194) alleunivariaten Zufallsvariablen durch entsprechende multivariateZufallsvektoren ersetzt

• Man beachte die formale Analogie zum univariaten Fall inSatz 5.4(Rechenoperationen fur Matrizen beachten!)

Jetzt:

• Bekannter Satz uber das arithmetische Stichprobenmittel

209

Satz 5.6: (Schwaches Gesetz der großen Zahl)

Es sei X1, X2, . . . eine Folge von unabhangigen und identischverteilten Zufallsvariablen mit

E(Xi) = µ < ∞,

Var(Xi) = σ2 < ∞.

Weiterhin betrachte man die Zufallsvariable

Xn =1n

n∑

i=1Xi

(arithmetisches Stichprobenmittel). Fur jedes ε > 0 gilt dann:

limn→∞P

(∣

∣Xn − µ∣

∣ ≥ ε)

= 0.

210

Bemerkungen:

• Satz 5.6 ist das schwache Gesetz der großen Zahl

• Fur jedes noch so kleine ε > 0 konvergiert die Wskt., dass Xn

um ±ε vom Erwartungswert µ abweicht, bei zunehmendemStichprobenumfang gegen Null

• Man beachte die Analogie zwischen einer Folge von unab-hangig, identisch verteilten ZV’en und der Definition 5.1(Folie 194) einer einfachen Stichprobe aus X

Jetzt:

• Erster wichtiger Konvergenzbegriff

211

Definition 5.7: (Konvergenz nach Wahrscheinlichkeit)

Es sei Y1, Y2, . . . eine Folge Zufallsvariablen. Man sagt: Die FolgeY1, Y2, . . . konvergiert nach Wahrscheinlichkeit gegen θ, wenn furjedes ε > 0 gilt:

limn→∞P (|Yn − θ| ≥ ε) = 0.

Man notiert die Konvergenz nach Wahrscheinlichkeit mit

plim Yn = θ oder Ynp→ θ.

Bemerkungen:

• Spezialfall: Schwaches Gesetz der großen Zahlen

plim Xn = µ oder Xnp→ µ

212

• Bei der Konvergenz nach Wahrscheinlichkeit strebt die Folgeder ZV’en meistens gegen einen Wert (θ ∈ R)

• Fur multivariate Folgen von Zufallsvektoren Y1,Y2, . . . ist dieDefinition 5.7 elementweise anzuwenden

• Die Konvergenz nach Wahrscheinlichkeit spielt bei der Beur-teilung von Schatzern eine wichtige Rolle

Jetzt:

• Alternativer stochastischer Konvergenzbegriff

213

Definition 5.8: (Konvergenz nach Verteilung)

Es sei Y1, Y2, . . . eine Folge Zufallsvariablen und Z ebenfalls eineZufallsvariable. Man sagt: Die Folge Y1, Y2, . . . konvergiert nachVerteilung gegen Z, wenn

limn→∞FYn(y) = FZ(y) fur jedes y ∈ R.

Man notiert die Konvergenz nach Verteilung mit

Ynd→ Z.

Bemerkungen:• Spezialfall: Zentraler Grenzwertsatz

Yn =√

nXn − µ

σd→ U ∼ N(0,1)

• Bei der Konvergenz nach Verteilung strebt die Folge derZV’en stets gegen eine Zufallsvariable

214

Satz 5.9: (plim -Rechenregeln)

Es seien X1, X2, . . . und Y1, Y2, . . . Folgen von Zufallsvariablen furdie gilt plim Xn = a bzw. plim Yn = b. Dann gilt:

(a) plim (Xn ± Yn) = a± b.

(b) plim (Xn · Yn) = a · b.

(c) plim(Xn

Yn

)

= ab , falls b 6= 0.

(d) (Slutsky-Theorem) Wenn g : R −→ R eine in a stetige Funk-tion ist, dann gilt

plim g (Xn) = g(a).

215

Bemerkung:

• Eine mit dem Slutsky-Theorem verwandte Eigenschaft giltauch fur die Konvergenz nach Verteilung

Satz 5.10: ( d→-Rechenregel)

Es seien X1, X2, . . . eine Folge von Zufallsvariablen, Z ebenfalls

eine Zufallsvariable und es gelte Xnd→ Z. Weiterhin sei h : R −→

R eine stetige Funktion. Dann gilt:

h (Xn)d→ h(Z).

Jetzt:

• Verbindung der beiden Konvergenzkonzepte

216

Satz 5.11: (Cramer-Theorem)

Es seien X1, X2, . . . sowie Y1, Y2, . . . Folgen von Zufallsvariablen,Z eine Zufallsvariable und a ∈ R. Außerdem gelte plim Xn = aund Yn

d→ Z. Dann gelten:

(a) Xn + Ynd→ a + Z.

(b) Xn · Ynd→ a · Z.

Beispiel:

• Es sei X1, . . . , Xn eine einfache Stichprobe aus X mit E(X) =µ bzw. Var(X) = σ2

217

• Man kann zeigen, dass

plim S∗2n =1

n− 1

n∑

i=1

(

Xi −Xn)2

= σ2

plim S2n =

1n

n∑

i=1

(

Xi −Xn)2

= σ2

• Fur g1(x) = x/σ2 folgt aus dem Slutksky-Theorem:

plim g1(

S∗2n)

= plimS∗2nσ2 = g1(σ

2) = 1

plim g1(

S2n

)

= plimS2

nσ2 = g1(σ

2) = 1

218

• Fur g2(x) = σ/√

x folgt aus dem Slutksky-Theorem:

plim g2(

S∗2n)

= plimσS∗n

= g2(σ2) = 1

plim g2(

S2n

)

= plimσSn

= g2(σ2) = 1

• Mit dem zentralen Grenzwertsatz folgt:

√n

Xn − µσ

d→ U ∼ N(0,1)

219

• Mit dem Cramer-Theorem folgt:

g2(

S∗2n)

·√

nXn − µ

σ=

σS∗n

·√

nXn − µ

σ

=√

nXn − µ

S∗n

d→ 1 · U

= U ∼ N(0,1)

• Ebenso liefert das Cramer-Theorem:

√n

Xn − µSn

d→ U ∼ N(0,1)

220

5.2 Eigenschaften von Schatzern

Inhalt von Definition 5.3:

• Ein Schatzer ist eine Statistik(Stichprobenfunktion)−→ Es gibt verschiedene Schatzer fur den unbekannten Pa-

rametervektor θ

Beispiel:

• Es seien X ∼ N(0, σ2) mit unbekannter Varianz σ2 undX1, . . . , Xn eine einfache Stichprobe aus X

• Mogliche Schatzer fur θ = σ2 sind:

θ1 =1n

n∑

i=1

(

Xi −X)2

bzw. θ2 =1

n− 1

n∑

i=1

(

Xi −X)2

221

Wichtige Fragen:

• Welche Qualitatskriterien dienen zur Auswahl eines ’guten’Schatzers ?

• Wie findet man ’gute’ Schatzer ?

1. Qualitatseigenschaft:

• Konzept der wiederholten Stichprobe:Ziehe mehrere einfache Stichproben aus XBetrachte den Schatzer an jeder StichprobeEine ’Mittelung’ der Schatzwerte sollte ’nahe’ am un-bekannten Parameter liegen(keine systematische Verzerrung)

−→ Erwartungstreue eines Schatzers

222

Definition 5.12: (Erwartungstreue, Verzerrung)

Der Schatzer θ(X1, . . . , Xn) fur den unbekannten Parameter θheißt erwartungstreu, falls sein Erwartungswert mit dem zuschatzenden Parameter θ ubereinstimmt, d.h. falls

E[

θ(X1, . . . , Xn)]

= θ.

Unter der Verzerrung des Schatzers (engl. Bias) versteht manden Abstand

Bias(θ) = E(θ)− θ.

Bemerkungen:

• Ubertragung auf den multivariaten Fall moglich

• Bei erwartungstreuen Schatzern ist der Bias gleich Null

223

Jetzt:• Wichtiges allgemeingultiges Resultat

Satz 5.13: (E-treue Schatzer fur E(X) und Var(X))

Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteiltmit unbekanntem Erwartungswert µ = E(X) sowie unbekannterVarianz σ2 = Var(X). Dann sind die beiden Schatzer

µ(X1, . . . , Xn) = X =1n·

n∑

i=1Xi

bzw.

σ2(X1, . . . , Xn) = S2 =1

n− 1·

n∑

i=1

(

Xi −X)2

stets erwartungstreu fur die Parameter µ = E(X) und σ2 =Var(X).

224

Bemerkungen:

• Beweis: Ubungsaufgabe

• Man beachte, dass keine explizite Verteilung fur X unterstelltwird

• Erwartungstreue pflanzt sich bei Parametertransformationennicht beliebig fort, z.B. ist

S =√

S2 nicht erwartungstreu fur σ = SD(X) =√

Var(X)

Frage:

• Wie kann man zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ miteinander vergleichen?

225

Definition 5.14: (Relative Effizienz)

Es seien θ1 und θ2 zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ. Dann heißt θ1 relativ effizienter als θ2,falls gilt

Var(θ1) ≤ Var(θ2)

fur alle moglichen Parameterwerte fur θ und

Var(θ1) < Var(θ2)

fur mindestens einen moglichen Parameterwert fur θ.

226

Beispiel:

• Es sei θ = E(X)

• Betrachte die beiden Schatzer

θ1(X1, . . . , Xn) =1n

n∑

i=1Xi

θ2(X1, . . . , Xn) =X1

2+

12(n− 1)

n∑

i=2Xi

• Welcher Schatzer ist relativ effizienter ?(Ubungsaufgabe)

Frage:

• Wie vergleicht man 2 Schatzer, wenn (mindestens) einerverzerrt ist?

227

Definition 5.15: (Mittlerer quadratischer Fehler)

Es sei θ ein beliebiger Schatzer fur den unbekannten Parameter θ.Unter dem mittleren quadratischen Fehler (mean-squared error)des Schatzers versteht man die Maßzahl

MSE(θ) = E[

(

θ − θ)2

]

= Var(

θ)

+[

Bias(θ)]2

.

Bemerkungen:

• Bei einem erwartungstreuen Schatzer ist der MSE gleich derVarianz des Schatzers

• Der MSE eines Schatzers θ hangt i.d.R. vom Wert des un-bekannten Parameters θ ab

228

Vergleich beliebiger Schatzer:

• Uber ihre MSEs

Definition 5.16: (MSE-Effizienz)

Es seien θ1 und θ2 zwei beliebige Schatzer fur den unbekanntenParameter θ. Dann heißt θ1 MSE-efffizienter als θ2, falls gilt

MSE(θ1) ≤ MSE(θ2)

fur alle moglichen Parameterwerte fur θ und

MSE(θ1) < MSE(θ2)

fur mindestens einen moglichen Parameterwert fur θ.

229

Vergleich erwartungstreuer vs. verzerrter Schatzer

230

),,( 12 nXX K∧θ

),,( 11 nXX K∧θ

θ

Bemerkungen:

• Oft sind 2 Schatzer fur θ nicht im Sinne der MSE-Effizienzvergleichbar, da sich die MSE-Kurven schneiden

• Es gibt kein allgemeines mathematisches Prinzip zur Bestim-mung eines MSE-effizienten Schatzers

• Es gibt aber Methoden, unter allen erwartungstreuen Schatzernden mit der gleichmaßig geringsten Varianz zu bestimmen−→ Beschrankung auf erwartungstreue Schatzer

• Diese Methoden nicht Gegenstand der VL(Theoreme von Rao-Blackwell, Lehmann-Scheffe)

• Hier nur ein wichtiges Resultat:

231

Satz 5.17: (Cramer-Rao Varianzuntergrenze)

Es sei X1, . . . , Xn eine einfache Stichprobe aus X und θ ein zuschatzender Parameter. Man betrachte die gemeinsame Dichte-funktion der Stichprobe, fX1,...,Xn(x1, . . . , xn), und definiere denWert

CR(θ) ≡

E

(

∂ fX1,...,Xn(X1, . . . , Xn)

∂ θ

)2

−1

.

Unter bestimmten Voraussetzungen gilt dann fur jeden beliebigenerwartungstreuen Schatzer θ(X1, . . . , Xn):

Var(θ) ≥ CR(θ).

232

Bemerkungen:

• Der Wert CR(θ) ist die geringste Varianz, die ein erwar-tungstreuer Schatzer haben kann

−→ Optimalitatskriterium fur erwartungstreue Schatzer

• Gilt fur den erwartungstreuen Schatzer θ(X1, . . . , Xn)

Var(θ) = CR(θ),

so bezeichnet man θ als UMVUE-Schatzer(Uniformly Minimum-Variance Unbiased Estimator)

233

2. Qualitatseigenschaft:

• Lasse den Stichprobenumfang wachsen (n →∞):

Notation: θn(X1, . . . , Xn) = θ(X1, . . . , Xn)

Untersuchung der Eigenschaften der asymptotischen Ver-teilung von θn

−→ Konsistenz eines Schatzers

Definition 5.18: ((Schwache) Konsistenz)

Der Schatzer θn(X1, . . . , Xn) heißt (schwach) konsistent fur θ,falls er nach Wahrscheinlichkeit gegen θ konvergiert, d.h. falls

plim θn(X1, . . . , Xn) = θ.

234

Beispiel:

• Es sei X ∼ N(µ, σ2) mit σ2 bekannt (z.B. σ2 = 1)

• Betrachte 2 Schatzer fur µ:

µn(X1, . . . , Xn) =1n

n∑

i=1Xi

µ∗n(X1, . . . , Xn) =1n

n∑

i=1Xi +

2n

• µn ist (schwach) konsistent fur µ(Satz 5.6, Folie 210: Schwaches Gesetz der großen Zahl)

235

• µ∗n ist (schwach) konsistent fur µ(folgt aus Satz 5.9(a), Folie 215)

• Exakte Verteilung von µn:

µn ∼ N(µ, σ2/n)

(Lineare Transformation der NV)

• Exakte Verteilung von µ∗n:

µ∗n ∼ N(µ + 2/n, σ2/n)

(Lineare Transformation der NV)

236

Dichtefunktionen des Schatzers µn fur n = 2,10,20 (σ2 = 1)

237

6

4

2

-1 -0.5 µ=0 0.5 1 0

8

Dichtefunktionen des Schatzers µ∗n fur n = 2,10,20 (σ2 = 1)

238

6

4

2

-0.5 µ=0 0.5 1 1.5 2 2.5 0

8

Bemerkungen:

• Hinreichende (aber nicht notwendige) Bedingung fur Konsis-tenz:

limn→∞E(θn) = θ (asymptotische Erwartungstreue)

limn→∞Var(θn) = 0

• Mogliche Eigenschaften eines Schatzers:

konsistent und erwartungstreu

inkonsistent und erwartungstreu

konsistent und verzerrt

inkonsistent und verzerrt

239

Jetzt:

• Anwendung des zentralen Grenzwertsatzes auf Schatzer

−→ asymptotische Normalitat des Schatzers

Definition 5.19: (Asymptotische Normalitat)

Ein Schatzer θn(X1, . . . , Xn) fur den unbekannten Parameter θheißt asymptotisch normalverteilt, falls es eine Folge reeller Zahlenθ1, θ2, . . . und eine Funktion V (θ) gibt, so dass gilt:

√n ·

(

θn − θn) d→ U ∼ N(0, V (θ)).

240

Bemerkungen:

• Andere Schreibweise:

θnappr.∼ N(θn, V (θ)/n)

• Zur asymptotischen Normalitat gibt es eine multivariate Ver-allgemeinerung

241

5.3 Schatzmethoden

Bisher:

• Definitionen + Qualitatskriterien fur Schatzer

Jetzt:

• Konstruktion von Schatzern

3 traditionelle Verfahren:

• Methode der kleinsten Quadrate (KQ)

• Momenten-Methode (MM)

• Maximum-Likelihood-Methode (ML)

242

Bemerkungen:

• Es gibt weitere Verfahren(z.B. die verallgemeinerte Momenten-Methode, GMM)

• Hier: hauptsachlich ML-Methode

243

5.3.1 Kleinste-Quadrate-Methode

Historie:• Eingefuhrt von

A.M. Legendre (1752-1833)C.F. Gauß (1777-1855)

Idee:• Approximiere verrauschte Beobachtungen x1, . . . , xn durch

Funktionen gi(θ1, . . . , θm), i = 1, . . . , n, m < n durch

S(x1, . . . , xn; θ) =n

i=1[xi − gi(θ)]2 −→ min

θ• KQ-Schatzer ist dann

θ(X1, . . . , Xn) = argmin S(X1, . . . , Xn; θ)

244

Bemerkung:

• KQ-Methode ist zentrale Schatztechnik beim linearen Re-gressionsmodell(vgl. VLen Okonometrie I + II)

245

5.3.2 Momenten-Methode

Historie:

• Eingefuhrt von K. Pearson (1857-1936)

Definition 5.20: (Theoretische und empirische Momente)

(a) Es sei X eine Zufallsvariable mit Erwartungswert E(X). Dannist das gewohnliche theoretische p-te Moment von X (in Zei-chen: µ′p) definiert als als

µ′p = E(Xp).

Das zentrale theoretische p-te Moment von X (in Zeichen:µp) ist definiert durch

µp = E {[X − E(X)]p} .

246

(b) Es sei X1, . . . , Xn eine einfache Stichprobe aus X und esbezeichne X das arithmetische Stichprobenmittel. Dann istdas gewohnliche empirische p-te Moment (in Zeichen: µ′p)definiert durch

µ′p =1n

n∑

i=1Xp

i .

Das zentrale empirische p-te Moment (in Zeichen: µp) istdefiniert durch

µp =1n

n∑

i=1

(

Xi −X)p

.

247

Bemerkungen:

• Die theoretischen Momente µ′p und µp wurden bereits in derDefinition 2.21 (Folie 76) eingefuhrt

• Die empirischen Momente µ′p bzw. µp sind Schatzer fur dietheoretischen Momente µ′p bzw. µp

• Das arithmetische Stichprobenmittel ist das 1. gewohnlicheempirische Moment von X1, . . . , Xn

• Die Stichprobenvarianz ist das 2. zentrale empirische Mo-ment von X1, . . . , Xn

248

Ausgangssituation:

• Anhand der einfachen Stichprobe X1, . . . , Xn aus X sollen dier unbekannten Parameter θ1, . . . , θr geschatzt werden

Grundidee der Momentenmethode:

1. Drucke r theoretische Momente als Funktionen der r un-bekannten Parameter aus:

µ′1 = g1(θ1, . . . , θr)...

µ′r = gr(θ1, . . . , θr)

249

2. Drucke die r unbekannten Parameter als Funktionen der rtheoretischen Momente aus:

θ1 = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...

θr = hr(µ1, . . . , µr, µ′1, . . . , µ′r)

3. Ersetze theoretische durch empirische Momente:

θ1(X1, . . . , Xn) = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...

θr(X1, . . . , Xn) = hr(µ1, . . . , µr, µ′1, . . . , µ′r)

250

Beispiel: (Exponentialverteilung)

• Die ZV’e X heißt exponentialverteilt mit Parameter λ > 0,falls X die Dichtefunktion

fX(x) =

{

λe−λx , fur x > 00 , sonst

aufweist

• Es gilt:

E(X) =1λ

Var(X) =1λ2

251

• Momentenschatzer uber den Erwartungswert:

1. Wir wissen:

E(X) = µ′1 =1λ

2. Also folgt:

λ =1µ′1

3. Momentenschatzer fur λ:

λ(X1, . . . , Xn) =1

1/n∑n

i=1 Xi

252

• Momentenschatzer uber die Varianz:

1. Wir wissen:

Var(X) = µ2 =1λ2

2. Also folgt:

λ =

1µ2

3. Momentenschatzer fur λ:

λ(X1, . . . , Xn) =

1

1/n∑n

i=1

(

Xi −X)2

−→ Momentenschatzer fur einen unbekannten Parameter sindnicht eindeutig bestimmt

253

Bemerkungen:

• Momentenschatzer sind konsistent, denn

plim θ1 = plim h1(µ1, . . . , µr, µ′1, . . . , µ′r)

= h1(plim µ1, . . . ,plim µr,plim µ′1, . . . ,plim µ′r)

= h1(µ1, . . . , µr, µ′1, . . . , µ′r)

= θ1

• I.a. sind Momentenschatzer nicht erwartungstreu

• Momentenschatzer sind (i.a.) asymptotisch normalverteilt

• Die asymptotischen Varianzen sind haufig schwer zu bestim-men

254

5.3.3 Maximum-Likelihood-Methode

Historie:

• Eingefuhrt von Ronald Fisher (1890-1962)

Grundidee:

• Schatze die unbekannten Parameter θ1, . . . , θr derart, dassdie Wahrscheinlichkeit (likelihood) der konkreten Stichprobex1, . . . , xn als Funktion der unbekannten Parameter maximalwird

255

Beispiel:

• Eine Urne enthalte schwarze und weiße Kugeln

• Bekannt ist das Verhaltnis der Kugelanzahlen von 3 : 1

• Unbekannt ist, welche der Kugeln haufiger vorkommt

• Ziehe n Kugeln mit Zurucklegen

• X bezeichne die Anzahl schwarzer gezogener Kugeln

• Verteilung von X:

P (X = x) =(nx

)

px(1−p)n−x, x ∈ {0,1, . . . , n}, p ∈ {0.25,0.75}

(Binomialverteilung)

256

• p ∈ {0.25,0.75} ist zu schatzender Parameter

• Ziehe eine Stichprobe vom Umfang n = 3−→ Mogliche Stichprobenausgange:

Anzahl schwarze Kugeln: x 0 1 2 3P (X = x; p = 0.25) 27

642764

964

164

P (X = x; p = 0.75) 164

964

2764

2764

• Intuitives Schatzen:Schatze p als den Wert, der die Wskt. der tatsachlichenBeobachtung x (ex-ante) maximiert:

p =

{

0.25 , fur x = 0,10.75 , fur x = 2,3

−→ Maximum-Likelihood-Methode

257

Jetzt:

• Formalisierung der Maximum-Likelihood-Methode

Begriffe:

• Likelihood-, Loglikelihoodfunktion

• Maximum-Likelihood-Schatzer

Definition 5.21: (Likelihoodfunktion)

Die Likelihoodfunktion von n ZV’en X1, . . . , Xn ist definiert als diegemeinsame Dichte der n ZV’en, fX1,...,Xn(x1, . . . , xn; θ), jedochaufgefasst als eine Funktion des Parametervektors θ.

258

Bemerkungen:

• Sind X1, . . . , Xn eine einfache Stichprobe aus der stetigenZV’en X mit Dichtefunktion fX(x, θ), so ist

fX1,...,Xn(x1, . . . , xn; θ) =n∏

i=1fXi(xi; θ) =

n∏

i=1fX(xi; θ)

• Die Likelihoodfunktion wird oft mit L(θ;x1, . . . , xn) oder L(θ)bezeichnet, also im vorhergehenden Fall

L(θ;x1, . . . , xn) = L(θ) =n∏

i=1fX(xi; θ)

259

• Sind die X1, . . . , Xn eine Stichprobe aus einer diskreten ZV’enX, so ist die Likelihoodfunktion

L(θ;x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn; θ) =n∏

i=1P (X = xi; θ)

(Hier: Likelihood = Wahrscheinlichkeit der Stichprobe)

Beispiel:

• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2).Dann ist θ = (µ, σ2)′ und

L(θ;x1, . . . , xn) =n∏

i=1

1√2πσ2

e−1/2((xi−µ)/σ)2

=( 12πσ2

)n/2· exp

−1

2σ2

n∑

i=1(xi − µ)2

260

Definition 5.22: (Maximum-Likelihood Schatzer)

Es sei L(θ, x1, . . . , xn) die Likelihoodfunktion der einfachen Stich-probe X1, . . . , Xn. Es bezeichne θ (wobei θ(x1, . . . , xn) von denBeobachtungen x1, . . . , xn abhangt) denjenigen Parametervektor,der L(θ, x1, . . . , xn) maximiert. Dann heißt θ(X1, . . . , Xn) derMaximum-Likelihood Schatzer von θ.

Bemerkungen:

• Man erhalt den ML-Schatzer uber die Maximierung der Like-lihood-Funktion

L(θ;x1, . . . , xn) = maxθ

L(θ;x1, . . . , xn)

und anschließendem Ersetzen der Realisationen x1, . . . , xndurch die Stichprobenvariablen X1, . . . , Xn

261

• Oft ist die Maximierung der Loglikelihoodfunktion

ln[L(θ;x1, . . . , xn)]

einfacher(Man beachte: L(θ) und ln[L(θ)] haben ihre Maxima an der-selben Stelle)

• Man bestimmt θ = (θ1, . . . , θr)′ durch Losen des Gleichungs-systems

∂∂ θ1

ln[L(θ;x1, . . . , xn)] = 0

...∂

∂ θrln[L(θ;x1, . . . , xn)] = 0

262

Beispiel:

• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2)mit Likelihoodfunktion

L(µ, σ2) =( 12πσ2

)n/2· exp

−1

2σ2

n∑

i=1(xi − µ)2

• Die Loglikelihoodfunktion ist

L∗(µ, σ2) = ln[L(µ, σ2)]

= −n2

ln(2π)−n2

ln(σ2)−1

2σ2

n∑

i=1(xi − µ)2

263

• Die partiellen Ableitungen lauten

∂ L∗(µ, σ2)∂ µ

=1σ2

n∑

i=1(xi − µ)

bzw.

∂ L∗(µ, σ2)∂ σ2 = −

n2

1σ2 +

12σ4

n∑

i=1(xi − µ)2

• Gleich-Null-Setzen, Losen des Gleichungssystems und Erset-zen der Realisationen durch die Stichprobenvariablen liefertdie ML-Schatzer

µ(X1, . . . , Xn) =1n

n∑

i=1Xi = X

σ2(X1, . . . , Xn) =1n

n∑

i=1

(

Xi −X)2

264

Eigenschaften der ML-Methode:

• Verteilungsannahmen sind unbedingt notwendig

• Unter bestimmten Bedingungen haben ML-Schatzer sehr an-genehme Eigenschaften:

1. Wenn θ der ML-Schatzer fur θ ist, dann ist g(θ) der ML-Schatzer von g(θ)(Aquivarianz)

2. Konsistenz:

plim θn = θ

265

3. Asymptotische Normalitat:√

n(

θn − θ) d→ U ∼ N(0, V (θ))

4. Asymptotische Effizienz:V (θ) ist die Cramer-Rao-Untergrenze

5. Berechenbarkeit (numerische Methoden)

6. Quasi-ML-Schatzung:ML-Schatzer, berechnet auf der Basis normalverteilterStichproben, sind robust gegenuber Abweichungen vonnormalverteilten Grundgesamtheiten

266