Willkommen zur Vorlesung Statistik (Master) · Chi-Quadrat d.f. = 1d.f. = 2 d.f. = 8 17/21. Stetige...

Stetige Zufallsvariablen

Willkommen zur Vorlesung Statistik (Master)Thema dieser Vorlesung:

Verteilungen stetiger Zufallsvariablen

Prof. Dr. Wolfgang Ludwig-Mayerhofer

Universitat Siegen – Philosophische Fakultat, Seminar fur Sozialwissenschaften

Prof. Dr. Wolfgang Ludwig-Mayerhofer Universitat Siegen

Schließende Statistik

”. . . if the number of observations is large, the distribution of θ in

repeated sampling tends to be, and for practical purposes isactually normal.“

Neyman, Jerzy: On the Two Different Aspects of the Representative Method:The Method of Stratified Sampling and the Method of Purposive Selection, in:Journal of the Royal Statistical Society, Series A 97, 1934, S. 558-625, hierS. 566.

2 / 21

Einfuhrung

Stetige Zufallsvariablen konnen im Prinzip unendlich viele Werte (u. U.innerhalb eines Bereichs annehmen). Daher konnen sie nur mit Hilfe derInfinitesimalrechnung traktiert werden.

Allerdings kommt man um stetige Zufallsvariablen nicht herum, damanche Stichprobenergebnisse (z. B. Mittelwerte) eben stetig sind.Zudem konnen eigentlich diskrete Verteilungen gut durch stetigeVerteilungen approximiert werden, jedenfalls bei großen Stichproben.Gleichzeitig ist die Anwendung diskreter Verteilungen zwar im Prinzipeinfach, aber muhsam (Ausrechnen vieler Einzelwahrscheinlichkeiten).

Und da stetige Verteilungen

in Tabellen verfugbar bzw.

in Statistik-Software implementiert sind

ist fur die praktische Anwendung keine Infinitesimalrechnung notig.

3 / 21

Einfuhrung

Beispiel: Exponentialverteilung

Eine Variable mit f (x) = λe−λx und F (x) = 1− e−λx fur x ≥ 0 heißtexponentialverteilt mit Parameter λ.

0 2 4 6 8 10

Dichtefunktion (links) und Verteilungsfunktion (rechts) einerExponentialverteilung mit λ = 0,6.

4 / 21

Einfuhrung

Beschreibung stetiger Verteilungen

Bei stetigen Verteilungen ist die Wahrscheinlichkeit eines einzelnenWertes nicht definiert (genauer gesagt: sie betragt Null). Es konnen nurWahrscheinlichkeiten in einem Intervall uber die Bestimmung desIntegrals uber dieses Intervall berechnet werden.

Statt der Wahrscheinlichkeitsfunktion gibt es eine Dichtefunktion:

P(a 6 X 6 b) =

f (x)dx

Die Verteilungsfunktion lautet allgemein:

F (x) = P(−∞ 6 X 6 x) =

x∫−∞

f (u)du

5 / 21

Einfuhrung

Stetige Zufallsvariablen: E(X) und Var(X)

Erwartungswert und Varianz lassen sich ebenfalls nur unter Zuhilfenahmeder Infinitesimalrechnung, aber in Analogie zu diskreten Variablenbeschreiben:

Erwartungswert:

µ = E (X ) =

∞∫−∞

x · f (x)dx

Varianz:

σ2x = Var(X ) =

∞∫−∞

(x − µx)2 · f (x)dx

6 / 21

Die Normalverteilung

Die Normalverteilung: Allgemein

Die Normalverteilung ist die wichtigste Verteilung der Statistik.Grunde hierfur:

Empirische Verteilung: Viele Merkmale sind normalverteilt(Korpergroße, Gewicht) oder werden so konstruiert, dass sienormalverteilt sind (Tests).

Fehlerverteilung: Zufallige Messfehler folgen einerNormalverteilung.

Grundlegende Verteilung fur die Inferenzstatistik: Bei großenStichproben nahern sich andere Verteilungen derNormalverteilung an; gleichzeitig ist die Normalverteilung

”Mutter“ einiger anderer wichtiger Verteilungen.

7 / 21

Die Dichteverteilung der Normalverteilung:

f (x |µ, σ) =1

2πe−

(x−µ)2

Dabei ist µ der Erwartungswert der Verteilung, σ2 ihre Varianz undπ die Kreiszahl 3,14. . .

8 / 21

Die Normalverteilung visualisiert

Es gibt also viele Normalverteilungen mit unterschiedlichen Mittelwertenµ und Varianzen σ2. Fur alle gilt: Sie sind symmetrisch um µ, unimodal,mehr oder weniger glockenformig. Die Wahrscheinlichkeitsdichte strebtasymptotisch gegen 0, wenn x gegen −∞ bzw. +∞ strebt.

-5 0 5 10

N (-1, 0,25) N (-1, 1)N (4, 4)

9 / 21

Die Standardnormalverteilung

Durch Standardisierung wird die Normalverteilung in dieStandardnormalverteilung N (0;1) uberfuhrt.

Unter Standardisierung (auch z-Transformation) versteht man folgende

Transformation:

Z =X − µσ

Es wird von jedem einzelnen Wert von X der Mittelwert von X (hiergeschrieben als µ) abgezogen und das Resultat durch σ dividiert. Jedestandardisierte Variable hat einen Mittelwert von 0 und eineStandardabweichung von 1.

Die Dichtefunktion der Normalverteilung vereinfacht sich so zu dem

(nicht zu lernenden) Ausdruck

ϕ(x) =1√2π

e−(x)2

10 / 21

Normalverteilung und Standardnormalverteilung

Fur die Normalverteilung gilt:

Ca. 68 % der Werte liegen in einem Bereich von ±1σ um denMittelwert.

Gut 95 % der Werte liegen in einem Bereich von ±2σ um denMittelwert.

Ca. 99,7 % der Werte liegen in einem Bereich von ±3σ um denMittelwert.

Fur die Standardnormalverteilung gilt entsprechend:

Ca. 68 % der Werte liegen in einem Bereich von ±1 um denMittelwert.

Gut 95 % der Werte liegen in einem Bereich von ±2 um denMittelwert.

Ca. 99,7 % der Werte liegen in einem Bereich von ±3 um denMittelwert.

11 / 21

Standardnormalverteilung

Die Quantile der Standardnormalverteilung lassen sich grob aus derVerteilungsfunktion ablesen (gestrichelte Linien: 0,025-Quantil [x ≈ −2]und 0,975-Quantil [ x ≈ 2]):

-4 -2 0 2 4z

Abbildung: Kumulierte Dichte der Standardnormalverteilung

12 / 21

Einige Quantile der Standardnormalverteilung

Im Detail lassen sich die Quantile Tabellen entnehmen.

Die folgende Tabelle zeigt beispielsweise, dass der Wert des 0,01-Quantils(erstes Perzentil) −2,325 betragt. Ein Prozent der Werte einerstandardnormalverteilten Variablen ist also kleiner oder gleich −2,325, 99Prozent sind großer oder gleich −2,325.

z Quantil z Quantil-3,000 0,0013 1,000 0,841-2,325 0,01 1,282 0,90-1,96 0,025 1,645 0,95-1,645 0,05 1,96 0,975-1,282 0,10 2,325 0,99-1,000 0,159 3,000 0,99860 0,5

13 / 21

Verteilungen in der Inferenzstatistik

Der zentrale Grenzwertsatz

Die Verteilung der standardisierten Summe von n unabhangigenZufallsvariablen, die alle die identischeWahrscheinlichkeitsverteilung haben, nahert sich mit steigenderStichprobengroße der Standardnormalverteilung an.

Daraus folgt u. a., dass Mittelwerte und Anteilswerte ausZufallsstichproben bei

”hinreichend großem“ n einer

Normalverteilung folgen – auch wenn das Merkmal selbst in derGrundgesamtheit nicht normalverteilt ist.

”Hinreichend groß“ variiert je nach Umstanden (Art des zugrunde

liegenden Merkmals), mindestens gilt n ≥ 30.

14 / 21

Der zentrale Grenzwertsatz illustriert

Eine diskrete und recht schief verteilte Variable (Binomialverteilung mitπ = 0,2) wird mit zunehmendem n einer Normalverteilung ahnlicher (n =2, 5, 10 und 30):

15 / 21

Die χ2-Verteilung

Die Verteilung einer Summe unabhangiger quadrierterstandardnormalverteilter Zufallsvariablen Z heißt χ2-Verteilung:

χ2df =n = Z 2

1 + Z 22 + ...+ Z 2

mit df=Zahl der Freiheitsgrade (degrees of freedom), d. h. Zahl der (voneinander unabhangigen) Variablen Z.

Wichtige Anwendungsfalle: Tests in Kreuztabellen auf Uberzufalligkeit;Likelihood-Ratio-Test in der Maximum-Likelihood-Schatzung.

16 / 21

Die χ2-Verteilung illustriert

Verteilungsfunktionen einiger χ2-Verteilungen (gestrichelt: 0,05- und0,95-Quantil)

0 5 10 15Chi-Quadrat

d.f. = 1 d.f. = 2d.f. = 8

17 / 21

Die t-Verteilung

Die von”Student“ (Pseudonym fur William S. Gosset) entwickelte

t-Verteilung kann anstelle SNV herangezogen werden, wenn ein Merkmalin der Grundgesamtheit normalverteilt und die Varianz derGrundgesamtheit unbekannt ist.

T =Z√χ2

Sie geht bei großerem Stichprobenumfang in die SNV uber.

Wichtige Anwendungsfalle: Konfidenzintervall fur Mittelwert bei kleinenStichproben; Vergleich von Mittelwerten; Signifikanztest vonKoeffizienten im linearen Regressionsmodell.

18 / 21

Die t-Verteilung illustriert

Verteilungsfunktion einiger t-Verteilungen mit unterschiedlichenFreiheitsgraden (gestrichelt: 0,025- und 0,975-Quantil)

-4 -2 0 2 4t

d.f. = 5 d.f. = 20Standardnormalverteilung

19 / 21

Die F-Verteilung

Die von R. A. Fisher entwickelte (und nach ihm benannte) F-Verteilungentsteht aus zwei von einander unabhangigen χ2-verteiltenZufallsvariablen:

F =χ2

1/df1χ2

Im Zahler und im Nenner taucht jeweils ein Freiheitsgrad auf. Es gibt also einen

”ersten“ und einen

”zweiten“ Freiheitsgrad.

Wichtige Anwendungsfalle: Varianzanalyse (Vergleich vonGruppenmittelwerten, Test des Gesamtmodells im linearen Regressionsmodell).

20 / 21

Was sind Freiheitsgrade?

”Freiheitsgrade“ bezieht sich auf die Zahl der Großen, die frei, d.h. nicht

durch andere Großen festgelegt sind.

Beispiele:

Arithmetisches Mittel und Varianz: Liegt bspw. der Mittelwert festund stehen n-1 Datenwerte fest, so ist der n.te Datenwert nichtmehr frei → n-1 Freiheitsgrade

Vierfelder-Kreuztabelle: Sind die Randverteilungen und der Werteiner Zelle der Tabelle bekannt, so sind die ubrigen drei Werte nichtmehr frei → 1 Freiheitsgrad

Allgemein hat eine Kreuztabelle mit m Zeilen und k Spalten(m − 1) · (k − 1) Freiheitsgrade

21 / 21

Willkommen zur Vorlesung Statistik (Master) · Chi-Quadrat d.f. = 1d.f. = 2 d.f. = 8 17/21. Stetige...

Documents

UNIDAD 3 D.F

México, D.F., México. Guatemala, Guatemala México, D.F., México

MathematikmachtFreu(n)de AB–Zufallsvariablen...MathematikmachtFreu(n)de AB–Zufallsvariablen DieZufallsvariableXkanndieWerte5,10,15,20 und25 annehmen

METHODENLEHRE I - tu-chemnitz.de · 28.01.14 2 VL Methodenlehre I WS13/14 Schäfer Inferenzstatistik für Zusammenhänge • Standardfehler • Konﬁdenzintervalle • Signiﬁkanztest

Mittelwerte, Zusammenhangsmaˇe, Hypothesentests in Stata · Wiederholung: Daten & Deskriptive Statistik Zusammenhangsmaˇe Inferenzstatistik Zusammenfassung Daten verwalten I Datenmatrix

Juventud D.F. Febrero

UE Einfuhrung in die Inferenzstatistik - univie.ac.at · 2017-05-10 · UE Einfuhrung in die Inferenzstatistik Beispielsammlung 0 Einf uhrung und Wiederholung 0.1Betrachten Sie das

Misión D.F, México 2015

Grundlagen sportwissenschaftlicher Forschung Deskriptive ... · Institut für Sportwissenschaft Grundlagen sportwissenschaftlicher Forschung Deskriptive Statistik 2 Inferenzstatistik

doc02760220161019164020 - gob.mx · Garcia Miguel Silvia Angel D.F. 3272215 Marquez Medina Morales Mendez Joel Salvador D.F. D.F. 270525 3278035 ... Bustos García Cuauhtémoc Jorge

2 Zufallsvariablen - numerik.mi.fu-berlin.denumerik.mi.fu-berlin.de/wiki/WS_2011/Vorlesungen/StochastikI_Dokumente/... · 2 Zufallsvariablen 2.1 Induzierter Raum und Verteilung Wir

Revista D.F

Normalverteilte Zufallsvariablen. Beispiele für (approximativ) normalverteilte Zufallsvariable: - Körpergröße (-gewicht, IQ) eines zufällig ausgewählten

México D.F

Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · Inhaltsverzeichnis Inhaltsverzeichnis 2 1 Diskrete Zufallsvariablen 8 1.1 Ereignisse und ihre Wahrscheinlichkeit

5.6 Zwei- und mehrdimensionale Zufallsvariablen · 5.6 Zwei- und mehrdimensionale Zufallsvariablen Wir betrachten jetzt den Fall dass mehrere Zufallsvariablen gleichzeitig analysiertWir

Willkommen zur Vorlesung Statistik 0.2cm Thema dieser ... · Kreuztabellenanalyse Inhaltsübersicht Einführung MaßefürdieStärkedesZusammenhangs Drittvariablenkontrolle Inferenzstatistik,TeilI

Automovilidad D.F

4 Diskrete Zufallsvariablen - biostat.userweb.mwn.debiostat.userweb.mwn.de/teaching/stobio2006/script/script-kap4.pdf · 25 4 Diskrete Zufallsvariablen 4.1 Einleitung Die Ergebnisse

Statistische Methoden - statmath.wu-wien.ac.atstatmath.wu-wien.ac.at/~hornik/ISMOS/statmeth-slides.pdf · Inferenzstatistik (schließende Statistik): Methode, wie man ausgehend von