Upload
vunhi
View
212
Download
0
Embed Size (px)
Citation preview
5. Statistische Schatztheorie
Problem:
• Sei X eine Zufallsvariable (oder X ein Zufallsvektor), dieeinen interessierenden Zufallsvorgang reprasentiere
• Man mochte die tatsachliche Verteilung von X (oder X) ken-nenlernen
Man beachte:
• In praxi ist die Verteilung von X zunachst unbekannt
191
Deshalb:
• Sammle Informationen uber die unbekannte Verteilung desZufallsvorgangs, indem man diesen (und damit die Zufallsvari-able X) mehrfach beobachtet
−→ Zufallsstichprobe−→ Statistiken−→ Schatzer
192
5.1 Stichproben, Schatzer, Grenzwertsatze
Situation:
• Sei X die Zufallsvariable, die den interessierenden Zufallsvor-gang reprasentiere(zunachst Betrachtung univariater Variablen)
• Man beabsichtigt, den Zufallsvorgang (d.h. X) insgesamt nmal zu beobachten
• Vor den Realisierungen kann man die n potenziellen Beobach-tungen als ZV’en X1, . . . , Xn auffassen
193
Definition 5.1: (Stichprobe)
Die ZV’en X1, . . . , Xn heißen einfache Stichprobe aus X, wenn
(a) jedes Xi, i = 1, . . . , n, wie X verteilt ist,
(b) X1, . . . , Xn stochastisch unabhangig sind.
Die Anzahl n heißt Stichprobenumfang.
194
Bemerkungen:
• Der interessierende Zufallsvorgang kann prinzipiell beliebigoft wiederholt werden
• Die Realisierungen x1, . . . , xn der Stichprobe X1, . . . , Xn heißenkonkrete Stichprobe
• Betrachtet man die Stichprobe X1, . . . , Xn als Zufallsvektor,so ist die gemeinsame Dichtefunktion wegen der Unabhangig-keit gegeben durch
fX1,...,Xn(x1, . . . , xn) =n∏
i=1fXi(xi)
(vgl. Definition 3.8, Folie 125)
195
Modell der einfachen Zufallsstichprobe
196
Zufallsvorgang X
Mögliche Realisationen
X1 (ZV) x1 (Realisation 1. Exp.)
X2 (ZV)
Xn (ZV)
x2 (Realisation 2. Exp.)
xn (Realisation n. Exp.)
. . . . . .
Jetzt:
• Betrachte Funktionen der Stichprobenvariablen X1, . . . , Xn
−→ Statistiken−→ Schatzer
Definition 5.2: (Statistik, Stichprobenfunktion)
Es seien X1, . . . , Xn eine einfache Stichprobe aus X sowie g :Rn −→ R eine reellwertige Funktion mit n Argumenten, die keineunbekannten Parameter enthalt. Dann nennt man die ZV
T = g(X1, . . . , Xn)
eine Statistik oder Stichprobenfunktion.
197
Beispiele:
• Stichprobenmittel:
X = g1(X1, . . . , Xn) =1n·
n∑
i=1Xi
• Stichprobenvarianz:
S2 = g2(X1, . . . , Xn) =1n·
n∑
i=1
(
Xi −X)2
• Stichprobenstandardabweichung:
S = g3(X1, . . . , Xn) =
√
√
√
√
1n·
n∑
i=1
(
Xi −X)2
198
Bemerkungen:
• Alle bisherigen Begriffe konnen inhaltsgleich auf den multi-variaten Fall ubertragen werden
• Die Statistik T = g(X1, . . . , Xn) ist eine Funktion von ZV’enund damit selbst eine ZV−→ eine Statistik hat eine Verteilung
(d.h. auch einen Erwartungswert und eine Varianz)
Zweck von Statistiken:
• Liefern Informationen uber die Verteilung von X
• Sind Grundbausteine beimSchatzen von ParameternTesten von Hypothesen uber Parameter
199
Stichproben und Statistiken
200
Stichprobe
( X1, . . ., Xn)
Messung Stichprobenrealisation ( x1, . . ., xn)
g( X1, . . ., Xn) Statistik
g( x1, . . ., xn) Realisation der Statistik
Jetzt folgende Situation:
• Es sei X (oder X) eine ZV’e mit unbekannter VF FX(x)
• Wir interessieren uns fur einen oder mehrere Parameter vonX
• Es sei θ dieser unbekannte Parametervektor, z.B.
θ =
[
E(X)Var(X)
]
• Oft ist die Verteilungsfamilie von X bekannt, z.B. X ∼ N(µ, σ2),nicht aber die Parameter, d.h.
θ =
[
µσ2
]
• Der unbekannte Parametervektor wird mit Hilfe von Statis-tiken einer Stichprobe X1, . . . , Xn geschatzt
201
Definition 5.3: (Schatzer, Schatzwert)
Die Statistik θ(X1, . . . , Xn) heißt Schatzer (auch Schatzfunktion)fur den unbekannten Parametervektor θ. Fur die konkrete Stich-probe x1, . . . , xn bezeichnet man die damit verbundene Real-isierung des Schatzers θ(x1, . . . , xn) als Schatzwert.
Bemerkungen:
• Der Schatzer θ(X1, . . . , Xn) ist ein Zufallsvektor−→ Schatzer hat eine Verteilung, einen Erwartungswert und
eine Varianz
• Der Schatzwert θ(x1, . . . , xn) ist dagegen eine Zahl oder einZahlenvektor
202
Beispiel:
• X sei N(µ, σ2)-verteilt mit unbek. Parametern µ und σ2
• Der zu schatzende Parametervektor ist dann
θ =
[
µσ2
]
=
[
E(X)Var(X)
]
• Mogliche Schatzer fur µ und σ2 sind
µ =1n
n∑
i=1Xi und σ2 =
1n− 1
n∑
i=1(Xi − µ)2
−→ ein Schatzer fur θ ist
θ =
[
µσ2
]
=
1n
∑ni=1 Xi
1n− 1
∑ni=1 (Xi − µ)2
203
Frage:
• Wozu braucht man das scheinbar komplizierte theoretischeKonzept des Schatzers als Zufallsvariable?
Antwort:
• Zum Vergleich alternativer Schatzer fur ein und denselbenParametervektor θ im Hinblick auf bestimmte Guteeigen-schaften
Beispiel:
• Es sei θ = Var(X) die Varianz von X
204
• Zwei alternative Schatzer fur θ sind
θ1(X1, . . . , Xn) =1n
n∑
i=1
(
Xi −X)2
θ2(X1, . . . , Xn) =1
n− 1
n∑
i=1
(
Xi −X)2
Frage:
• Welcher Schatzer ist ’besser’ und warum?−→ Eigenschaften (Qualitatskriterien) von Punktschatzern
(vgl. Abschnitt 5.2)
205
Wichtig:
• Einige dieser Kriterien beurteilen das Verhalten eines Schatzersfur große Stichprobenumfange(n →∞, Große-Stichproben-Eigenschaften)
Deshalb:
• Erlauterung einiger stochastischer Konvergenzbegriffe:
Zentraler Grenzwertsatz
Schwaches Gesetz der großen Zahl
Konvergenz nach Wahrscheinlichkeit
Konvergenz nach Verteilung
206
Satz 5.4: (Univariater zentraler Grenzwertsatz)
Es sei X eine beliebig verteilte Zufallsvariable mit E(X) = µ undVar(X) = σ2. Weiterhin sei X1, . . . , Xn eine einfache Stichprobeaus X und
Xn =1n
n∑
i=1Xi
das arithmetische Stichprobenmittel. Dann gilt fur n →∞:
Xn ∼ N
(
µ,σ2
n
)
bzw.√
nXn − µ
σ∼ N(0,1).
Jetzt:
• Verallgemeinerung auf multivariaten Fall
207
Satz 5.5: (Multivariater zentraler Grenzwertsatz)
Es sei X = (X1, . . . , Xm)′ ein beliebig verteilter Zufallsvektor mitE(X) = µ und Cov(X) = Σ. Weiterhin sei X1, . . . ,Xn eine (mul-tivariate) einfache Stichprobe aus X und
Xn =1n
n∑
i=1Xi
das multivariate arithmetische Stichprobenmittel. Dann gilt furn →∞:
Xn ∼ N(
µ,1nΣ
)
bzw.√
n(
Xn − µ)
∼ N(0,Σ).
208
Bemerkungen:
• Eine multivariate einfache Stichprobe aus dem ZufallsvektorX erhalt man, indem man in Definition 5.1 (Folie 194) alleunivariaten Zufallsvariablen durch entsprechende multivariateZufallsvektoren ersetzt
• Man beachte die formale Analogie zum univariaten Fall inSatz 5.4(Rechenoperationen fur Matrizen beachten!)
Jetzt:
• Bekannter Satz uber das arithmetische Stichprobenmittel
209
Satz 5.6: (Schwaches Gesetz der großen Zahl)
Es sei X1, X2, . . . eine Folge von unabhangigen und identischverteilten Zufallsvariablen mit
E(Xi) = µ < ∞,
Var(Xi) = σ2 < ∞.
Weiterhin betrachte man die Zufallsvariable
Xn =1n
n∑
i=1Xi
(arithmetisches Stichprobenmittel). Fur jedes ε > 0 gilt dann:
limn→∞P
(∣
∣
∣Xn − µ∣
∣
∣ ≥ ε)
= 0.
210
Bemerkungen:
• Satz 5.6 ist das schwache Gesetz der großen Zahl
• Fur jedes noch so kleine ε > 0 konvergiert die Wskt., dass Xn
um ±ε vom Erwartungswert µ abweicht, bei zunehmendemStichprobenumfang gegen Null
• Man beachte die Analogie zwischen einer Folge von unab-hangig, identisch verteilten ZV’en und der Definition 5.1(Folie 194) einer einfachen Stichprobe aus X
Jetzt:
• Erster wichtiger Konvergenzbegriff
211
Definition 5.7: (Konvergenz nach Wahrscheinlichkeit)
Es sei Y1, Y2, . . . eine Folge Zufallsvariablen. Man sagt: Die FolgeY1, Y2, . . . konvergiert nach Wahrscheinlichkeit gegen θ, wenn furjedes ε > 0 gilt:
limn→∞P (|Yn − θ| ≥ ε) = 0.
Man notiert die Konvergenz nach Wahrscheinlichkeit mit
plim Yn = θ oder Ynp→ θ.
Bemerkungen:
• Spezialfall: Schwaches Gesetz der großen Zahlen
plim Xn = µ oder Xnp→ µ
212
• Bei der Konvergenz nach Wahrscheinlichkeit strebt die Folgeder ZV’en meistens gegen einen Wert (θ ∈ R)
• Fur multivariate Folgen von Zufallsvektoren Y1,Y2, . . . ist dieDefinition 5.7 elementweise anzuwenden
• Die Konvergenz nach Wahrscheinlichkeit spielt bei der Beur-teilung von Schatzern eine wichtige Rolle
Jetzt:
• Alternativer stochastischer Konvergenzbegriff
213
Definition 5.8: (Konvergenz nach Verteilung)
Es sei Y1, Y2, . . . eine Folge Zufallsvariablen und Z ebenfalls eineZufallsvariable. Man sagt: Die Folge Y1, Y2, . . . konvergiert nachVerteilung gegen Z, wenn
limn→∞FYn(y) = FZ(y) fur jedes y ∈ R.
Man notiert die Konvergenz nach Verteilung mit
Ynd→ Z.
Bemerkungen:• Spezialfall: Zentraler Grenzwertsatz
Yn =√
nXn − µ
σd→ U ∼ N(0,1)
• Bei der Konvergenz nach Verteilung strebt die Folge derZV’en stets gegen eine Zufallsvariable
214
Satz 5.9: (plim -Rechenregeln)
Es seien X1, X2, . . . und Y1, Y2, . . . Folgen von Zufallsvariablen furdie gilt plim Xn = a bzw. plim Yn = b. Dann gilt:
(a) plim (Xn ± Yn) = a± b.
(b) plim (Xn · Yn) = a · b.
(c) plim(Xn
Yn
)
= ab , falls b 6= 0.
(d) (Slutsky-Theorem) Wenn g : R −→ R eine in a stetige Funk-tion ist, dann gilt
plim g (Xn) = g(a).
215
Bemerkung:
• Eine mit dem Slutsky-Theorem verwandte Eigenschaft giltauch fur die Konvergenz nach Verteilung
Satz 5.10: ( d→-Rechenregel)
Es seien X1, X2, . . . eine Folge von Zufallsvariablen, Z ebenfalls
eine Zufallsvariable und es gelte Xnd→ Z. Weiterhin sei h : R −→
R eine stetige Funktion. Dann gilt:
h (Xn)d→ h(Z).
Jetzt:
• Verbindung der beiden Konvergenzkonzepte
216
Satz 5.11: (Cramer-Theorem)
Es seien X1, X2, . . . sowie Y1, Y2, . . . Folgen von Zufallsvariablen,Z eine Zufallsvariable und a ∈ R. Außerdem gelte plim Xn = aund Yn
d→ Z. Dann gelten:
(a) Xn + Ynd→ a + Z.
(b) Xn · Ynd→ a · Z.
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X mit E(X) =µ bzw. Var(X) = σ2
217
• Man kann zeigen, dass
plim S∗2n =1
n− 1
n∑
i=1
(
Xi −Xn)2
= σ2
plim S2n =
1n
n∑
i=1
(
Xi −Xn)2
= σ2
• Fur g1(x) = x/σ2 folgt aus dem Slutksky-Theorem:
plim g1(
S∗2n)
= plimS∗2nσ2 = g1(σ
2) = 1
plim g1(
S2n
)
= plimS2
nσ2 = g1(σ
2) = 1
218
• Fur g2(x) = σ/√
x folgt aus dem Slutksky-Theorem:
plim g2(
S∗2n)
= plimσS∗n
= g2(σ2) = 1
plim g2(
S2n
)
= plimσSn
= g2(σ2) = 1
• Mit dem zentralen Grenzwertsatz folgt:
√n
Xn − µσ
d→ U ∼ N(0,1)
219
• Mit dem Cramer-Theorem folgt:
g2(
S∗2n)
·√
nXn − µ
σ=
σS∗n
·√
nXn − µ
σ
=√
nXn − µ
S∗n
d→ 1 · U
= U ∼ N(0,1)
• Ebenso liefert das Cramer-Theorem:
√n
Xn − µSn
d→ U ∼ N(0,1)
220
5.2 Eigenschaften von Schatzern
Inhalt von Definition 5.3:
• Ein Schatzer ist eine Statistik(Stichprobenfunktion)−→ Es gibt verschiedene Schatzer fur den unbekannten Pa-
rametervektor θ
Beispiel:
• Es seien X ∼ N(0, σ2) mit unbekannter Varianz σ2 undX1, . . . , Xn eine einfache Stichprobe aus X
• Mogliche Schatzer fur θ = σ2 sind:
θ1 =1n
n∑
i=1
(
Xi −X)2
bzw. θ2 =1
n− 1
n∑
i=1
(
Xi −X)2
221
Wichtige Fragen:
• Welche Qualitatskriterien dienen zur Auswahl eines ’guten’Schatzers ?
• Wie findet man ’gute’ Schatzer ?
1. Qualitatseigenschaft:
• Konzept der wiederholten Stichprobe:Ziehe mehrere einfache Stichproben aus XBetrachte den Schatzer an jeder StichprobeEine ’Mittelung’ der Schatzwerte sollte ’nahe’ am un-bekannten Parameter liegen(keine systematische Verzerrung)
−→ Erwartungstreue eines Schatzers
222
Definition 5.12: (Erwartungstreue, Verzerrung)
Der Schatzer θ(X1, . . . , Xn) fur den unbekannten Parameter θheißt erwartungstreu, falls sein Erwartungswert mit dem zuschatzenden Parameter θ ubereinstimmt, d.h. falls
E[
θ(X1, . . . , Xn)]
= θ.
Unter der Verzerrung des Schatzers (engl. Bias) versteht manden Abstand
Bias(θ) = E(θ)− θ.
Bemerkungen:
• Ubertragung auf den multivariaten Fall moglich
• Bei erwartungstreuen Schatzern ist der Bias gleich Null
223
Jetzt:• Wichtiges allgemeingultiges Resultat
Satz 5.13: (E-treue Schatzer fur E(X) und Var(X))
Es sei X1, . . . , Xn eine Stichprobe aus X und X sei beliebig verteiltmit unbekanntem Erwartungswert µ = E(X) sowie unbekannterVarianz σ2 = Var(X). Dann sind die beiden Schatzer
µ(X1, . . . , Xn) = X =1n·
n∑
i=1Xi
bzw.
σ2(X1, . . . , Xn) = S2 =1
n− 1·
n∑
i=1
(
Xi −X)2
stets erwartungstreu fur die Parameter µ = E(X) und σ2 =Var(X).
224
Bemerkungen:
• Beweis: Ubungsaufgabe
• Man beachte, dass keine explizite Verteilung fur X unterstelltwird
• Erwartungstreue pflanzt sich bei Parametertransformationennicht beliebig fort, z.B. ist
S =√
S2 nicht erwartungstreu fur σ = SD(X) =√
Var(X)
Frage:
• Wie kann man zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ miteinander vergleichen?
225
Definition 5.14: (Relative Effizienz)
Es seien θ1 und θ2 zwei erwartungstreue Schatzer fur den un-bekannten Parameter θ. Dann heißt θ1 relativ effizienter als θ2,falls gilt
Var(θ1) ≤ Var(θ2)
fur alle moglichen Parameterwerte fur θ und
Var(θ1) < Var(θ2)
fur mindestens einen moglichen Parameterwert fur θ.
226
Beispiel:
• Es sei θ = E(X)
• Betrachte die beiden Schatzer
θ1(X1, . . . , Xn) =1n
n∑
i=1Xi
θ2(X1, . . . , Xn) =X1
2+
12(n− 1)
n∑
i=2Xi
• Welcher Schatzer ist relativ effizienter ?(Ubungsaufgabe)
Frage:
• Wie vergleicht man 2 Schatzer, wenn (mindestens) einerverzerrt ist?
227
Definition 5.15: (Mittlerer quadratischer Fehler)
Es sei θ ein beliebiger Schatzer fur den unbekannten Parameter θ.Unter dem mittleren quadratischen Fehler (mean-squared error)des Schatzers versteht man die Maßzahl
MSE(θ) = E[
(
θ − θ)2
]
= Var(
θ)
+[
Bias(θ)]2
.
Bemerkungen:
• Bei einem erwartungstreuen Schatzer ist der MSE gleich derVarianz des Schatzers
• Der MSE eines Schatzers θ hangt i.d.R. vom Wert des un-bekannten Parameters θ ab
228
Vergleich beliebiger Schatzer:
• Uber ihre MSEs
Definition 5.16: (MSE-Effizienz)
Es seien θ1 und θ2 zwei beliebige Schatzer fur den unbekanntenParameter θ. Dann heißt θ1 MSE-efffizienter als θ2, falls gilt
MSE(θ1) ≤ MSE(θ2)
fur alle moglichen Parameterwerte fur θ und
MSE(θ1) < MSE(θ2)
fur mindestens einen moglichen Parameterwert fur θ.
229
Bemerkungen:
• Oft sind 2 Schatzer fur θ nicht im Sinne der MSE-Effizienzvergleichbar, da sich die MSE-Kurven schneiden
• Es gibt kein allgemeines mathematisches Prinzip zur Bestim-mung eines MSE-effizienten Schatzers
• Es gibt aber Methoden, unter allen erwartungstreuen Schatzernden mit der gleichmaßig geringsten Varianz zu bestimmen−→ Beschrankung auf erwartungstreue Schatzer
• Diese Methoden nicht Gegenstand der VL(Theoreme von Rao-Blackwell, Lehmann-Scheffe)
• Hier nur ein wichtiges Resultat:
231
Satz 5.17: (Cramer-Rao Varianzuntergrenze)
Es sei X1, . . . , Xn eine einfache Stichprobe aus X und θ ein zuschatzender Parameter. Man betrachte die gemeinsame Dichte-funktion der Stichprobe, fX1,...,Xn(x1, . . . , xn), und definiere denWert
CR(θ) ≡
E
(
∂ fX1,...,Xn(X1, . . . , Xn)
∂ θ
)2
−1
.
Unter bestimmten Voraussetzungen gilt dann fur jeden beliebigenerwartungstreuen Schatzer θ(X1, . . . , Xn):
Var(θ) ≥ CR(θ).
232
Bemerkungen:
• Der Wert CR(θ) ist die geringste Varianz, die ein erwar-tungstreuer Schatzer haben kann
−→ Optimalitatskriterium fur erwartungstreue Schatzer
• Gilt fur den erwartungstreuen Schatzer θ(X1, . . . , Xn)
Var(θ) = CR(θ),
so bezeichnet man θ als UMVUE-Schatzer(Uniformly Minimum-Variance Unbiased Estimator)
233
2. Qualitatseigenschaft:
• Lasse den Stichprobenumfang wachsen (n →∞):
Notation: θn(X1, . . . , Xn) = θ(X1, . . . , Xn)
Untersuchung der Eigenschaften der asymptotischen Ver-teilung von θn
−→ Konsistenz eines Schatzers
Definition 5.18: ((Schwache) Konsistenz)
Der Schatzer θn(X1, . . . , Xn) heißt (schwach) konsistent fur θ,falls er nach Wahrscheinlichkeit gegen θ konvergiert, d.h. falls
plim θn(X1, . . . , Xn) = θ.
234
Beispiel:
• Es sei X ∼ N(µ, σ2) mit σ2 bekannt (z.B. σ2 = 1)
• Betrachte 2 Schatzer fur µ:
µn(X1, . . . , Xn) =1n
n∑
i=1Xi
µ∗n(X1, . . . , Xn) =1n
n∑
i=1Xi +
2n
• µn ist (schwach) konsistent fur µ(Satz 5.6, Folie 210: Schwaches Gesetz der großen Zahl)
235
• µ∗n ist (schwach) konsistent fur µ(folgt aus Satz 5.9(a), Folie 215)
• Exakte Verteilung von µn:
µn ∼ N(µ, σ2/n)
(Lineare Transformation der NV)
• Exakte Verteilung von µ∗n:
µ∗n ∼ N(µ + 2/n, σ2/n)
(Lineare Transformation der NV)
236
Bemerkungen:
• Hinreichende (aber nicht notwendige) Bedingung fur Konsis-tenz:
limn→∞E(θn) = θ (asymptotische Erwartungstreue)
limn→∞Var(θn) = 0
• Mogliche Eigenschaften eines Schatzers:
konsistent und erwartungstreu
inkonsistent und erwartungstreu
konsistent und verzerrt
inkonsistent und verzerrt
239
Jetzt:
• Anwendung des zentralen Grenzwertsatzes auf Schatzer
−→ asymptotische Normalitat des Schatzers
Definition 5.19: (Asymptotische Normalitat)
Ein Schatzer θn(X1, . . . , Xn) fur den unbekannten Parameter θheißt asymptotisch normalverteilt, falls es eine Folge reeller Zahlenθ1, θ2, . . . und eine Funktion V (θ) gibt, so dass gilt:
√n ·
(
θn − θn) d→ U ∼ N(0, V (θ)).
240
Bemerkungen:
• Andere Schreibweise:
θnappr.∼ N(θn, V (θ)/n)
• Zur asymptotischen Normalitat gibt es eine multivariate Ver-allgemeinerung
241
5.3 Schatzmethoden
Bisher:
• Definitionen + Qualitatskriterien fur Schatzer
Jetzt:
• Konstruktion von Schatzern
3 traditionelle Verfahren:
• Methode der kleinsten Quadrate (KQ)
• Momenten-Methode (MM)
• Maximum-Likelihood-Methode (ML)
242
Bemerkungen:
• Es gibt weitere Verfahren(z.B. die verallgemeinerte Momenten-Methode, GMM)
• Hier: hauptsachlich ML-Methode
243
5.3.1 Kleinste-Quadrate-Methode
Historie:• Eingefuhrt von
A.M. Legendre (1752-1833)C.F. Gauß (1777-1855)
Idee:• Approximiere verrauschte Beobachtungen x1, . . . , xn durch
Funktionen gi(θ1, . . . , θm), i = 1, . . . , n, m < n durch
S(x1, . . . , xn; θ) =n
∑
i=1[xi − gi(θ)]2 −→ min
θ• KQ-Schatzer ist dann
θ(X1, . . . , Xn) = argmin S(X1, . . . , Xn; θ)
244
Bemerkung:
• KQ-Methode ist zentrale Schatztechnik beim linearen Re-gressionsmodell(vgl. VLen Okonometrie I + II)
245
5.3.2 Momenten-Methode
Historie:
• Eingefuhrt von K. Pearson (1857-1936)
Definition 5.20: (Theoretische und empirische Momente)
(a) Es sei X eine Zufallsvariable mit Erwartungswert E(X). Dannist das gewohnliche theoretische p-te Moment von X (in Zei-chen: µ′p) definiert als als
µ′p = E(Xp).
Das zentrale theoretische p-te Moment von X (in Zeichen:µp) ist definiert durch
µp = E {[X − E(X)]p} .
246
(b) Es sei X1, . . . , Xn eine einfache Stichprobe aus X und esbezeichne X das arithmetische Stichprobenmittel. Dann istdas gewohnliche empirische p-te Moment (in Zeichen: µ′p)definiert durch
µ′p =1n
n∑
i=1Xp
i .
Das zentrale empirische p-te Moment (in Zeichen: µp) istdefiniert durch
µp =1n
n∑
i=1
(
Xi −X)p
.
247
Bemerkungen:
• Die theoretischen Momente µ′p und µp wurden bereits in derDefinition 2.21 (Folie 76) eingefuhrt
• Die empirischen Momente µ′p bzw. µp sind Schatzer fur dietheoretischen Momente µ′p bzw. µp
• Das arithmetische Stichprobenmittel ist das 1. gewohnlicheempirische Moment von X1, . . . , Xn
• Die Stichprobenvarianz ist das 2. zentrale empirische Mo-ment von X1, . . . , Xn
248
Ausgangssituation:
• Anhand der einfachen Stichprobe X1, . . . , Xn aus X sollen dier unbekannten Parameter θ1, . . . , θr geschatzt werden
Grundidee der Momentenmethode:
1. Drucke r theoretische Momente als Funktionen der r un-bekannten Parameter aus:
µ′1 = g1(θ1, . . . , θr)...
µ′r = gr(θ1, . . . , θr)
249
2. Drucke die r unbekannten Parameter als Funktionen der rtheoretischen Momente aus:
θ1 = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...
θr = hr(µ1, . . . , µr, µ′1, . . . , µ′r)
3. Ersetze theoretische durch empirische Momente:
θ1(X1, . . . , Xn) = h1(µ1, . . . , µr, µ′1, . . . , µ′r)...
θr(X1, . . . , Xn) = hr(µ1, . . . , µr, µ′1, . . . , µ′r)
250
Beispiel: (Exponentialverteilung)
• Die ZV’e X heißt exponentialverteilt mit Parameter λ > 0,falls X die Dichtefunktion
fX(x) =
{
λe−λx , fur x > 00 , sonst
aufweist
• Es gilt:
E(X) =1λ
Var(X) =1λ2
251
• Momentenschatzer uber den Erwartungswert:
1. Wir wissen:
E(X) = µ′1 =1λ
2. Also folgt:
λ =1µ′1
3. Momentenschatzer fur λ:
λ(X1, . . . , Xn) =1
1/n∑n
i=1 Xi
252
• Momentenschatzer uber die Varianz:
1. Wir wissen:
Var(X) = µ2 =1λ2
2. Also folgt:
λ =
√
1µ2
3. Momentenschatzer fur λ:
λ(X1, . . . , Xn) =
√
√
√
√
√
1
1/n∑n
i=1
(
Xi −X)2
−→ Momentenschatzer fur einen unbekannten Parameter sindnicht eindeutig bestimmt
253
Bemerkungen:
• Momentenschatzer sind konsistent, denn
plim θ1 = plim h1(µ1, . . . , µr, µ′1, . . . , µ′r)
= h1(plim µ1, . . . ,plim µr,plim µ′1, . . . ,plim µ′r)
= h1(µ1, . . . , µr, µ′1, . . . , µ′r)
= θ1
• I.a. sind Momentenschatzer nicht erwartungstreu
• Momentenschatzer sind (i.a.) asymptotisch normalverteilt
• Die asymptotischen Varianzen sind haufig schwer zu bestim-men
254
5.3.3 Maximum-Likelihood-Methode
Historie:
• Eingefuhrt von Ronald Fisher (1890-1962)
Grundidee:
• Schatze die unbekannten Parameter θ1, . . . , θr derart, dassdie Wahrscheinlichkeit (likelihood) der konkreten Stichprobex1, . . . , xn als Funktion der unbekannten Parameter maximalwird
255
Beispiel:
• Eine Urne enthalte schwarze und weiße Kugeln
• Bekannt ist das Verhaltnis der Kugelanzahlen von 3 : 1
• Unbekannt ist, welche der Kugeln haufiger vorkommt
• Ziehe n Kugeln mit Zurucklegen
• X bezeichne die Anzahl schwarzer gezogener Kugeln
• Verteilung von X:
P (X = x) =(nx
)
px(1−p)n−x, x ∈ {0,1, . . . , n}, p ∈ {0.25,0.75}
(Binomialverteilung)
256
• p ∈ {0.25,0.75} ist zu schatzender Parameter
• Ziehe eine Stichprobe vom Umfang n = 3−→ Mogliche Stichprobenausgange:
Anzahl schwarze Kugeln: x 0 1 2 3P (X = x; p = 0.25) 27
642764
964
164
P (X = x; p = 0.75) 164
964
2764
2764
• Intuitives Schatzen:Schatze p als den Wert, der die Wskt. der tatsachlichenBeobachtung x (ex-ante) maximiert:
p =
{
0.25 , fur x = 0,10.75 , fur x = 2,3
−→ Maximum-Likelihood-Methode
257
Jetzt:
• Formalisierung der Maximum-Likelihood-Methode
Begriffe:
• Likelihood-, Loglikelihoodfunktion
• Maximum-Likelihood-Schatzer
Definition 5.21: (Likelihoodfunktion)
Die Likelihoodfunktion von n ZV’en X1, . . . , Xn ist definiert als diegemeinsame Dichte der n ZV’en, fX1,...,Xn(x1, . . . , xn; θ), jedochaufgefasst als eine Funktion des Parametervektors θ.
258
Bemerkungen:
• Sind X1, . . . , Xn eine einfache Stichprobe aus der stetigenZV’en X mit Dichtefunktion fX(x, θ), so ist
fX1,...,Xn(x1, . . . , xn; θ) =n∏
i=1fXi(xi; θ) =
n∏
i=1fX(xi; θ)
• Die Likelihoodfunktion wird oft mit L(θ;x1, . . . , xn) oder L(θ)bezeichnet, also im vorhergehenden Fall
L(θ;x1, . . . , xn) = L(θ) =n∏
i=1fX(xi; θ)
259
• Sind die X1, . . . , Xn eine Stichprobe aus einer diskreten ZV’enX, so ist die Likelihoodfunktion
L(θ;x1, . . . , xn) = P (X1 = x1, . . . , Xn = xn; θ) =n∏
i=1P (X = xi; θ)
(Hier: Likelihood = Wahrscheinlichkeit der Stichprobe)
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2).Dann ist θ = (µ, σ2)′ und
L(θ;x1, . . . , xn) =n∏
i=1
1√2πσ2
e−1/2((xi−µ)/σ)2
=( 12πσ2
)n/2· exp
−1
2σ2
n∑
i=1(xi − µ)2
260
Definition 5.22: (Maximum-Likelihood Schatzer)
Es sei L(θ, x1, . . . , xn) die Likelihoodfunktion der einfachen Stich-probe X1, . . . , Xn. Es bezeichne θ (wobei θ(x1, . . . , xn) von denBeobachtungen x1, . . . , xn abhangt) denjenigen Parametervektor,der L(θ, x1, . . . , xn) maximiert. Dann heißt θ(X1, . . . , Xn) derMaximum-Likelihood Schatzer von θ.
Bemerkungen:
• Man erhalt den ML-Schatzer uber die Maximierung der Like-lihood-Funktion
L(θ;x1, . . . , xn) = maxθ
L(θ;x1, . . . , xn)
und anschließendem Ersetzen der Realisationen x1, . . . , xndurch die Stichprobenvariablen X1, . . . , Xn
261
• Oft ist die Maximierung der Loglikelihoodfunktion
ln[L(θ;x1, . . . , xn)]
einfacher(Man beachte: L(θ) und ln[L(θ)] haben ihre Maxima an der-selben Stelle)
• Man bestimmt θ = (θ1, . . . , θr)′ durch Losen des Gleichungs-systems
∂∂ θ1
ln[L(θ;x1, . . . , xn)] = 0
...∂
∂ θrln[L(θ;x1, . . . , xn)] = 0
262
Beispiel:
• Es sei X1, . . . , Xn eine einfache Stichprobe aus X ∼ N(µ, σ2)mit Likelihoodfunktion
L(µ, σ2) =( 12πσ2
)n/2· exp
−1
2σ2
n∑
i=1(xi − µ)2
• Die Loglikelihoodfunktion ist
L∗(µ, σ2) = ln[L(µ, σ2)]
= −n2
ln(2π)−n2
ln(σ2)−1
2σ2
n∑
i=1(xi − µ)2
263
• Die partiellen Ableitungen lauten
∂ L∗(µ, σ2)∂ µ
=1σ2
n∑
i=1(xi − µ)
bzw.
∂ L∗(µ, σ2)∂ σ2 = −
n2
1σ2 +
12σ4
n∑
i=1(xi − µ)2
• Gleich-Null-Setzen, Losen des Gleichungssystems und Erset-zen der Realisationen durch die Stichprobenvariablen liefertdie ML-Schatzer
µ(X1, . . . , Xn) =1n
n∑
i=1Xi = X
σ2(X1, . . . , Xn) =1n
n∑
i=1
(
Xi −X)2
264
Eigenschaften der ML-Methode:
• Verteilungsannahmen sind unbedingt notwendig
• Unter bestimmten Bedingungen haben ML-Schatzer sehr an-genehme Eigenschaften:
1. Wenn θ der ML-Schatzer fur θ ist, dann ist g(θ) der ML-Schatzer von g(θ)(Aquivarianz)
2. Konsistenz:
plim θn = θ
265
3. Asymptotische Normalitat:√
n(
θn − θ) d→ U ∼ N(0, V (θ))
4. Asymptotische Effizienz:V (θ) ist die Cramer-Rao-Untergrenze
5. Berechenbarkeit (numerische Methoden)
6. Quasi-ML-Schatzung:ML-Schatzer, berechnet auf der Basis normalverteilterStichproben, sind robust gegenuber Abweichungen vonnormalverteilten Grundgesamtheiten
266