99
1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

Embed Size (px)

Citation preview

Page 1: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

1

STATISIK

LV Nr.: 0021

WS 2005/06

18. Oktober 2005

Page 2: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

2

Zweidimensionale Merkmale

• Frage: Wie lässt sich der Zusammenhang bzw. die Abhängigkeit zw. zwei Merkmalen messen?– Wie stark ist der Zusammenhang bzw. die

Abhängigkeit?

Antwort durch Korrelationsrechnung.– Lässt sich der Zusammenhang in einer

bestimmten Form darstellen?

Antwort durch Regressionsrechnung.

Page 3: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

3

Zweidimensionale Merkmale

• n Untersuchungseinheiten, 2 Merkmale X und Y, Ausprägungen des Merkmals X a1,…,al und Ausprägungen des Merkmals Y b1,…,bm.

• 2-dimensionales Merkmal (X,Y) mit Ausprägungen (aj,bk), mit absoluten Häufigkeiten hjk und relativen Häufigkeiten fjk=1/n·hjk

Page 4: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

4

Kontingenztafel

• Häufigkeitsverteilung von (X,Y) wird durch Kontingenztafel dargestellt.

X Y b1 … bm

a1 h11 … h1m

: : :

al hl1 … hlm

Page 5: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

5

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten von (X,Y).

X Y R N-R

w 9 32

m 5 27

X Y R N-R

w 0,12 0,44

m 0,07 0,37

Page 6: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

6

Kontingenztafel

• Absolute Randhäufigkeiten – von aj für j=1,…,l und bk für k=1,...,m:

• Relative Randhäufigkeiten

– von aj für j=1,…,l und bk für k=1,…,m:

• Randhäufigkeiten ergeben die Häufigkeits-verteilung des Merkmals X bzw.Y (Randverteilung).

m

1kjkj hh

m

1kjkj ff

l

1jjkk hh

l

1jjkk ff

Page 7: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

7

Kontingenztafel

• Kontingenztafel absoluten Häufigkeiten und Randhäufigkeiten

X Y b1 … bm Σ

a1 h11 … h1m h1.

: : : :

al hl1 … hlm hl.

Σ h.1 … h.m h..=n

Page 8: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

8

Kontingenztafel

• Kontingenztafel relative Häufigkeiten und Randhäufigkeiten

X Y b1 … bm Σ

a1 f11 … f1m f1.

: : : :

al fl1 … flm fl.

Σ f.1 … f.m f..=1

Page 9: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

9

Kontingenztafel

Es gilt:

• Relative Randhäufigkeit = 1 / n · absolute Randhäufigkeit

• Summe der absoluten Randhäufigkeiten = n

• Summe der relativen Randhäufigkeiten = 1

kkjj hn

1f undh

n

1f

nhhhm

1kk

l

1j

m

1k

l

1jjjk

1fffm

1kk

l

1j

m

1k

l

1jjjk

Page 10: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

10

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten und Randhäufigkeiten von (X,Y).

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

X Y R N-R

w 0,12 0,44 0,56

m 0,07 0,37 0,44

0,19 0,81 1

Page 11: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

11

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y):

• Zeilenprozent:

X Y R N-R

w 0,22 0,78 1

m 0,16 0,84 1

0,19 0,81 1

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

Page 12: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

12

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y):

• Spaltenprozent:

X Y R N-R

w 0,64 0,54 0,56

m 0,36 0,46 0,44

1 1 1

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

Page 13: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

13

DarstellungGeschlecht - Rauchverhalten

0,220,16

0,780,84

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

weiblich männlich

Raucher Nichtraucher

Page 14: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

14

DarstellungGeschlecht - Rauchverhalten

0,640,54

0,360,46

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Raucher Nichtraucher

weiblich männlich

Page 15: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

15

DarstellungGeschlecht - Rauchverhalten

0,22

0,16

0,78

0,84

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

weiblich männlich

Raucher Nichtraucher

Page 16: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

16

DarstellungGeschlecht - Rauchverhalten

0,64

0,54

0,36

0,46

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Raucher Nichtraucher

weiblich männlich

Page 17: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

17

DarstellungGeschlecht - Rauchverhalten

9

5

32

27

0

5

10

15

20

25

30

35

40

45

50

weiblich männlich

Raucher Nichtraucher

Page 18: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

18

DarstellungGeschlecht - Rauchverhalten

9

32

5

27

0

5

10

15

20

25

30

35

40

45

50

Raucher Nichtraucher

weiblich männlich

Page 19: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

19

Korrelationskoeffizient

• Bravais-Pearson Korrelationskoeffizient rXY

• 2-dimensionales metrisch skaliertes Merkmal (X,Y) mit Ausprägungen (aj,bk) und Häufigkeiten hjk für j=1,…,l und k=1,…,m.

• Maß für den Zusammenhang zw. X und Y:

n

1i

2i

n

1i

2i

n

1iii

m

1kk

2k

l

1jj

2j

l

1j

m

1kjkkj

XY

)y(y)x(x

)y)(yx(x

h)b(bh)a(a

)hb)(ba(a

r

Page 20: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

20

Korrelationskoeffizient

• rXY liegt immer im Intervall [-1,1]

• Extremfälle:

-1 negativer linearer Zusammenhang

rXY = 0 kein linearer Zusammenhang

1 positiver linearer Zusammenhang• Interpretation:

– rXY < 0 d.h. große Werte von X treten mit kleinen Werten von Y auf

– rXY > 0 d.h. große Werte von X treten mit großen Werten von Y auf

Page 21: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

21

Korrelationskoeffizient

• Probleme: • Scheinkorrelation: X und Y hängen von einem

dritten Merkmal Z ab – Bsp. Gefahr eines Waldbrandes (X) und schlechter

Kornertrag (Y) hängen von der Stärke der Sonneneinstrahlung (Z) ab.

• Nonsenskorrelation: sachlogischer Zusammenhang zw. X und Y– Bsp. Korrelation zw. Anzahl der Störche und der

Anzahl der Geburten in einem Land

• Nichtlinearer Zusammenhang: rXY misst nur einen linearer Zusammenhang

Page 22: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

22

KorrelationKorrelationskoeffizient = 1

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = 0

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = - 1

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = 0

0

2

4

6

8

10

12

14

16

18

0 2 4 6 8 10 12 14 16

X

Y

Page 23: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

23

Korrelation

Korrelationskoeffizient = 0,8

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = - 0,58

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Page 24: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

24

Korrelationskoeffizient

• Bsp. Körpergröße und Gewicht: r = 0,76– Positiver linearer Zusammenhang zw.

Körpergröße und Gewicht.

0

20

40

60

80

100

120

140 150 160 170 180 190 200 210

Größe in cm

Ge

wic

ht

in k

g

Page 25: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

25

Korrelation

• Fechnersche Korrelationskoeffizient (für 2 metrisch skalierte Merkmale X und Y): rF

• Basiert auf Vorzeichen der transformierten Paare x* und y*

1 x* und y* gleiches Vorzeichen od. beide 0

vi = ½ genau einer der Werte x* bzw. y* = 0 0 sonst

)yy,x(x ii

n

1iivV

Page 26: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

26

Korrelation

• Fechnersche Korrelationskoeffizient:

• Werte im Intervalle [-1,1]

• +1 nicht nur bei positivem linearen Zusammenhang, sonder auch wenn gilt:

oder

n

n2VrF

)yyundx(x ii )yyundx(x ii

Page 27: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

27

Korrelation

• Bsp. Hennen, Körpergewicht, Legeleistung

0,415

7

15

1510,52rF

Henne i Gewicht xi Leistung yi xi* yi* v i

1 1763 19 -84 -2 12 1890 24 43 3 13 1872 23 25 2 14 1938 26 91 5 15 1791 22 -56 1 06 1854 18 7 -3 07 1960 21 113 0 0,58 1723 20 -124 -1 19 1898 21 51 0 0,5

10 1834 20 -13 -1 111 1946 24 99 3 112 1755 19 -92 -2 113 1846 21 -1 0 0,514 1752 17 -95 -4 115 1884 20 37 -1 0

1847 21 10,5

Page 28: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

28

Korrelation

• Rangkorrelationen für ordinal skalierte Merkmale:• Verwendung von Rangzahlen: Merkmal Z,

Ausprägungen z1,…,zn, der Größe nach ordnen (vom größten zum kleinsten Wert) z(1),…,z(n) und nummerieren.

• Rangzahl: R(z(i)) = i für i=1,…,n• Tritt ein Ausprägung mehrmals auf (Auftreten von

Bindungen), dann Rang = arithm. Mittel der Ränge, die sie einnehmen. – Bsp: z(1)=8, z(2)=5, z(3)=5, z(4)=2,

Ränge: R(z(1))=1, R(z(2))=2,5, R(z(3))=2,5, R(z(4))=4

Page 29: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

29

Korrelation

• Spearmansche Rangkorrelationskoeffizient rS

• Entspricht dem Bravais-Pearson Koeffizienten der Rangzahlen

• Wert +1 schon bei monoton wachsenden Beobachtungen, d.h. es gilt für alle (xi,yi), (xj,yj): mit xi < xj ist auch yi < yj

n

1i

2i

n

1i

2i

n

1iii

S

(y))R)(R(y(x))R)(R(x

(y))R)(x))(R(yR)(R(xr

Page 30: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

30

Korrelation

• Bsp. Klausur- und Übungspunkte

• Einfachere Formel für den Spearman‘schen Korrelationskoeffizienten (falls alle xi und yi verschieden sind (und di=R(xi)–R(yi)):

Student 1 2 3 4 5 6 7 8 9 10

Klausurpkt. 76 44 32 53 25 58 26 59 29 65Rang K 1 6 7 5 10 4 9 3 8 2UE-Pkt. 122 67 68 101 42 59 118 79 83 89

Rang UE 1 8 7 3 10 9 2 6 5 4

di 0 -2 0 2 0 -5 7 -3 3 -2di² 0 4 0 4 0 25 49 9 9 4

0,371)10(100

10461

1)n(n

d61r

2

n

1i

2i

S

Page 31: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

31

Korrelation

• Bsp. Maturanoten Mathe, Deutsch, Englisch

Mathe Deutsch Englisch

Mathe 1 0,23 0,382

Deutsch 0,23 1 0,576

Englisch 0,382 0,576 1

Page 32: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

32

Korrelation

• Yulesche Assoziationskoeffizient für eine Vierfeldertafel

• (X,Y) nominal skaliert• Häufigkeitsverteilung von (X,Y)

• Es gilt: -1 ≤ AXY ≤ +1; falls ein hij=0, so gilt: |AXY|=1; Vorzeichen nur

in Verbindung Vierfeldertafel interpretierbar

21122211

21122211

21122211

21122211XY ffff

ffff

hhhh

hhhhA

Page 33: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

33

Korrelation

• Bsp. Geschlecht – Raucher/Nichtraucher

• Leicht positiver Zusammenhang zw. Merkmalsausprägungen „w“ und „R“

11 22 12 21XY

11 22 12 21

h h h h 9 27 32 5A 0,21

h h h h 9 27 32 5

R N-R w 9 32 41

m 5 27 32

14 59 73

Page 34: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

34

Korrelation

• Bsp. Geschlecht – Raucher/Nichtraucher

• Leicht negativer Zusammenhang zw. Merkmalsausprägungen „m“ und „R“

11 22 12 21XY

11 22 12 21

h h h h 5 32 27 9A 0,21

h h h h 5 32 27 9

R N-R m 5 27 32

w 9 32 41

14 59 73

Page 35: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

35

Theorie …

Page 36: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

36

Wahrscheinlichkeitsrechung

• Betrachte Ereignisse die nicht deterministisch (vorherbestimmbar) sind, Ereignisse mit Zufallscharakter. – Bsp. Werfen eines idealen Würfels, Werfen

einer fairen Münze, … – Oder Ereignisse, die von so vielen

Einflussfaktoren abhängen, dass das Ergebnis nicht sicher bestimmt werden kann.

Page 37: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

37

Wahrscheinlichkeitsrechung

Grundbegriffe:

• Zufallsexperiment: – Vorgang nach einer bestimmten Vorschrift

ausgeführt, beliebig oft wiederholbar, Ergebnis hängt vom Zufall ab, bei mehrmaligen Durchführung des Experiments beeinflussen die Ergebnisse einander nicht – unabhängig voneinander. (z.B. Münzwurf, Werfen eines Würfels, …)

Page 38: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

38

Wahrscheinlichkeitsrechung

• Elementarereignisse (Realisationen)– Zufallsexperiment: Reihe aller möglichen

elementarer Ereignisse {e1},…,{en}

• Ereignisraum S:– Menge der Elementarereignisse S={e1,…,en}

• Ereignis: – Jede beliebige Teilmenge des Ereignisraumes

(setzt sich aus einem od. mehreren Elementarereignissen zusammen)

Page 39: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

39

Wahrscheinlichkeitsrechung

• Vereinigung– Vereinigung von 2 Ereignissen A und B: AUB Menge

aller Elementarereignisse, die zu A oder B gehören

• Durchschnitt– Durchschnitt von 2 Ereignissen A und B: A∩B Menge

aller Elementarereignisse, die zu A und B gehören

• Disjunkte Ereignisse– 2 Ereignisse A und B schließen einander aus, A∩B=Ø

(Ø unmögliches Ereignis)

• Komplementärereignis – Menge aller Elementarereignisse des Ereignisraumes S,

die nicht in Ereignis A enthalten sind

A

Page 40: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

40

Wahrscheinlichkeitsrechung

• Wahrscheinlichkeit ist ein Maß zur Quantifizierung der Sicherheit bzw. Unsicherheit des Eintretens eines bestimmten Ereignisses im Rahmen eines Zufallsexperiments.

Page 41: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

41

Wahrscheinlichkeitsrechung

• Klassischer Wahrscheinlichkeitsbegriff:

• Bsp. Urne mit 10 Kugeln (8 rot, 2 schwarz)– Gesucht: Wahrscheinlichkeit, dass eine zufällig

gezogene Kugel rot ist (Ereignis A)– Ereignisraum 10 mögl. Elementarereignisse, 8

günstige Fälle– W(A) = 8 / 10 = 0,8

Fälleichen gleichmöglaller Zahl

Fällegünstigen der ZahlW(A)

Page 42: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

42

Wahrscheinlichkeitsrechung

• Statistischer Wahrscheinlichkeitsbegriff:

• Grenzwert der relativen Häufigkeiten des Auftretens von A

n

(A)hlim(A)flimW(A) n

nn

n

Page 43: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

43

Wahrscheinlichkeitsrechung

• Subjektiver Wahrscheinlichkeitsbegriff:

• Ereignissen werden „Wettchancen“ zugeordnet. Quote für A ist a:b, dann ergibt sich die Wahrscheinlichkeiten

ba

b)AW(und

ba

aW(A)

Page 44: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

44

Wahrscheinlichkeitsrechung

• Axiomatischer Wahrscheinlichkeitsbegriff:

• Definition von mathematischen Eigenschaften 1. 0 ≤ W(A) ≤ 1

2. W(S) = 1

3. A und B disjunkt: W(A U B) = W(A) + W(B)

Page 45: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

45

Zufallsvariable

• Zufallsvariable: Variable deren Wert vom Zufall abhängt (z.B. X, Y, Z)– Bsp. Zufallsexperiment: 2-maliges Werfen

einer Münze. Frage: Wie oft erscheint „Zahl“? Mögliche Werte: 0, 1, 2. Variable „Anzahl Zahl“ hängt vom Zufall ab – Zufallsvariable.

• Realisation (Ausprägung): Wert, den eine Zufallsvariable X annimmt (z.B. x, y, z). – Bsp. 2-maliges Werfen einer Münze, ZV X

„Anzahl Zahl“, Ausprägungen: x1=0, x2=1, x3=2.

Page 46: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

46

Zufallsvariable

• Zufallsvariable: Funktion, die jedem Elementarereignis eine bestimmt reelle Zahl zuordnet, z.B. X(ej)=xi

• Definitionsbereich einer ZV: Ereignisraum S des zugrundeliegenden Zufallsexperiments.

• Wertebereich einer ZV: Menge der reellen Zahlen.

Page 47: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

47

Zufallsvariable

• Diskrete Zufallsvariable: ZV mit endlich vielen oder abzählbar unendlich vielen Ausprägungen

• Stetige Zufallsvariable: können (zumindest in einem bestimmten Bereich der reellen Zahlen) jeden beliebigen Zahlenwert annehmen.

Page 48: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

48

Wahrscheinlichkeit

• Diskrete Zufallsvariable:

• Wahrscheinlichkeit, mit der eine diskrete ZV X eine spezielle Ausprägung xi annimmt, W(X=xi): Summe der Wahrscheinlichkeiten derjenigen Elementarereignisse ej, denen Ausprägung xi zugeordnet ist:

ij x)X(e

ji ) W(e)xW(X

Page 49: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

49

Wahrscheinlichkeitsfunktion

• Wahrscheinlichkeitsfunktion einer diskreten ZV: Funktion f(xi), die für jede Ausprägung der ZV (unterschiedliche Ausprägungen xi einer ZV X) die Wahrscheinlichkeit ihres Auftretens angibt: f(xi) = W(X=xi)

• Eigenschaften:– f(xi) ≥ 0 i=1,2,…

– Σi f(xi) = 1

Page 50: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

50

Verteilungsfunktion

• Verteilungsfunktion einer diskreten ZV: Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x)

• Es gilt:

• Treppenfunktion

xx

i

i

)f(xx)W(XF(x)

Page 51: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

51

Verteilungsfunktion

• Verteilungsfunktion einer stetigen ZV (kann in einem bestimmten Intervall jeden beliebigen Wert annehmen): Funktion F(x), die die Wahrscheinlichkeit dafür angibt, dass die ZV X höchstens den Wert x annimmt. F(x) = W(X ≤ x)

• Stetige Funktion

Page 52: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

52

Verteilungsfunktion

• Eigenschaften einer stetigen Vt-Funktion:1. 0 ≤ F(x) ≤ 1

2. F(x) ist monoton wachsend (d.h. für x1 < x2 gilt F(x1) ≤ F(x2)

3. lim x→-∞ F(x) = 0

4. lim x→∞ F(x) = 1

5. F(x) ist überall stetig

Page 53: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

53

Wahrscheinlichkeitsdichte

• Wahrscheinlichkeitsdichte (Dichtefunktion) f(x) einer stetigen ZV: Ableitung der Verteilungsfunktion.

• Es gilt:

x

f(v)dvF(x)

f(x)F´(x)

Page 54: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

54

Wahrscheinlichkeitsdichte

• Eigenschaften: 1. f(x) ≥ 0

2.

3. 4. W(X=x) = 05. W(a ≤ X ≤ b) = W(a < X < b)6. W(X ≤ a) = F(a)

W(X ≤ b) = F(b)

1f(x)dx

b

a

f(x)dxb)XW(a

W(a ≤ X ≤ b) = F(b) – F(a)

Page 55: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

55

Parameter

• Charakterisierung der Wahrscheinlichkeits-verteilung von Zufallsvariablen durch Parameter (Maßzahlen)

• Erwartungswert E(X) = Lageparameter (Entspricht dem arithm. Mittel)

• Varianz Var(X) = Streuungsparameter

Page 56: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

56

Erwartungswert

• Diskrete ZV:

• Stetige ZV:

i

iii

ii )f(xx)xW(XxE(X)

f(x)dxxE(X)

Page 57: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

57

Varianz

• Diskrete ZV:

• Stetige ZV:

• Standardabweichung:

i

i2

i )f(xE(X)xVar(X)

f(x)dxE(X)xVar(X) 2

Var(X)σX

Page 58: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

58

Standardisierung

• Lineare Transformation: Y = a + bX

• Spezialfall Standardisierung: a = – E(X) / σX

b = 1 / σX

• Standardisierte Variable Z:

• Es gilt: E(Z) = 0 und Var(Z) = 1Xσ

E(X)XZ

Page 59: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

59

Theoretische Verteilungen

• Bedeutung von theoretische Verteilungen

• Deskriptive Statistik: – Approximative funktionsmäßige Beschreibung

empirisch beobachteter Häufigkeitsverteilungen

• Mathematische Statistik: – Wahrscheinlichkeiten für Ergebnisse

bestimmter Zufallsexperimente

Page 60: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

60

Kombinatorik

• Wie kann eine gegebene Anzahl von Elementen unterschiedlich angeordnet und zu Gruppen zusammengefasst werden?

• Wie viele Möglichkeiten gibt es, n Elemente anzuordnen? Anzahl der möglichen Permutationen?

• Wie viele Möglichkeiten gibt es, von n Elementen k auszuwählen? Anzahl der möglichen Kombinationen?

Page 61: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

61

Kombinatorik

• Permutationen:

• n voneinander verschiedene Elemente:

n! = n·(n-1)·(n-2)·…·1 Permutationen

• Bsp.1: n=3, Elemente e1, e2, e3. Anzahl der möglichen Permutationen: 3! = 3·2·1 = 6 (e1, e2, e3) (e1, e3, e2) (e2, e1, e3) (e2, e3, e1) (e3, e1, e2) (e3, e2, e1)

• Bsp.2: n=10, Anzahl der möglichen Permutationen: 10! = 3 628 800

Page 62: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

62

Kombinatorik

• n Elemente, wobei ni Elemente vom Typ i sind (r unterschiedliche Typen):

• Bsp.1: n=10, r=3 und n1=3, n2=5, n3=2, Anzahl der möglichen Permutationen:

!n...!n

n!

r1

252021206

3628800

2!!53!

10!

Page 63: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

63

Kombinatorik

• Kombinationen:

• Aus n verschiedene Elemente sollen k Stück gewählt werden– Kombination ohne Wiederholung: jedes

Element kann nur einmal gewählt werden• Berücksichtigung der Reihenfolge:

Anzahl der Möglichkeiten:

• Keine Berücksichtigung der Reihenfolge:

Anzahl der Möglichkeiten:

k)!(n

n!

k)!(nk!

n!

k

n

Page 64: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

64

Kombinatorik

• Kombinationen ohne Wiederholung:

• n=3, k=2, Elemente e1, e2, e3. – Berücksichtigung der Reihenfolge:

Möglichkeiten: (e1, e2) (e2, e1) (e1, e3) (e3, e1) (e2, e3) (e3, e2), also 3!/(3-2)! = 6 Möglichkeiten

– Keine Berücksichtigung der Reihenfolge: Möglichkeiten: (e1, e2), (e1, e3) (e2, e3), also 3!/(2!(3-2)!) = 3 Möglichkeiten

Page 65: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

65

Kombinatorik

• Kombinationen ohne Wiederholung:

• Bsp.1: Lotto, Möglichkeiten aus 49 Zahlen 6 zu wählen (Reihenfolge unberücksichtigt)

• Bsp.2: Pferderennen, sind 8 Pferde am Start, gibt es für die Belegung der ersten 3 Plätze 8!/(8-3)! = 336 Möglichkeiten

816983136

49

Page 66: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

66

Kombinatorik

• Aus n verschiedene Elemente sollen k Stück gewählt werden– Kombination mit Wiederholung: ein Element

kann auch mehrfach ausgewählt werden.• Berücksichtigung der Reihenfolge

Anzahl der Möglichkeiten: nk

• Keine Berücksichtigung der Reihenfolge

Anzahl der Möglichkeiten:

1)!(nk!

1)!k(n

k

1kn

Page 67: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

67

Kombinatorik

• Kombination mit Wiederholung:

• n=3, k=2, Elemente e1, e2, e3. – Berücksichtigung der Reihenfolge,

Möglichkeiten: (e1, e1), (e1, e2), (e1, e3), (e2, e2), (e2, e1), (e2, e3), (e3, e3), (e3, e1), (e3, e2), Anzahl der Möglichkeiten: nk = 3² = 9

– Keine Berücksichtigung der Reihenfolge, Möglichkeiten: (e1, e1), (e1, e2), (e1, e3), (e2, e2), (e2, e3), (e3, e3), Anzahl der Möglichkeiten: (3+2-1)! / (2!·(3-1)!) = 4! / (2!·2!) = 6

Page 68: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

68

Kombinatorik

• Kombinationen mit Wiederholung:

• Bsp.1: Würfelt man viermal hintereinander, sind 64 = Abläufe möglich

• Bsp.2: Hat man vier verschiedene Sorten Süßigkeiten, gibt es 286 Möglichkeiten eine Tüte mit 10 Süßigkeiten zu füllen.

28610

1104

Page 69: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

69

Theoretische Verteilungen• Diskrete Verteilungen

– Binomialverteilung– Hypergeometrische Verteilung– Poissonverteilung– ...

• Stetige Verteilungen– Gleichverteilung– Exponentialverteilung– Normalverteilung– Chi-Quadrat Verteilung– t-Verteilung (Studentverteilung)– F-Verteilung– ...

Page 70: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

70

Binomialverteilung

• Wahrscheinlichkeiten für die Häufigkeit des Eintreffens bestimmter Ereignisse bei Bernoulli-Experimenten berechnen.

• Bernoulli-Experiment: Folge von Bernoulli-Versuchen. Urnenmodell mit Zurücklegen– Es gibt nur 2 mögliche Ausgänge: A und Ā– Wahrscheinlichkeiten für Eintreten von A (θ)

und Ā (1- θ) sind konstant– Versuche sind voneinander unabhängig.

Page 71: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

71

Binomialverteilung

• Bsp. Bernoulli-Experiment: – fünfmaliges Werfen einer Münze,

Zufallsvariable X „Anzahl der Zahlen“, Realisation x = 0, 1, 2, 3, 4, 5

– Wahrscheinlichkeiten für Eintreten von A: W(X=x) = f(x) = ?

Page 72: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

72

Binomialverteilung

• Wahrscheinlichkeit des Auftretens einer bestimmten Realisation x: W(X=x) = f(x)

• Wahrscheinlichkeitsfunktion der Binomialverteilung:

n0,1,...,xfür

sonst0

θ)(1θx

nθ)n,(x;f

xnx

B

Page 73: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

73

Binomialverteilung

• Bsp. Münzwurf (n=5), Wahrscheinlichkeit dass genau 2-mal Zahl geworfen wird: W(X=2)

0,31250,5)(10,52

5(2;5,0.5)f 252

B

Page 74: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

74

Binomialverteilung

• Wahrscheinlichkeit, dass die Zufallsvariable X höchstens den Wert x annimmt: Verteilungsfunktion FB(x;n,θ)

x

0i

x-nxB θ)(1θ

x

nθ)n,(x;F

Page 75: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

75

Binomialverteilung

• Bsp. Münzwurf (n=5), Wahrscheinlichkeit dass höchstens 2-mal Zahl geworfen wird: W(X 2)

5,0)5,0(10,52

5(2;5,0.5)F

2

0i

2-52B

Page 76: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

76

Binomialverteilung

• Erwartungswert der Binomialverteilung:

E(X) = n·θ

• Varianz der Binomialverteilung:

Var(X) = n·θ·(1-θ)

• Bsp. Münzwurf: – E(X) = 5·0,5 = 2,5– Var(X) = 5·0,5·(1-0,5) = 1,25

Page 77: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

77

Hypergeometrische Verteilung

• Urnenmodell Ziehen ohne Zurücklegen:– Urne mit N Kugeln (M schwarze, N-M weißen)– Zufallsstichprobe: ziehe n Kugeln ohne

Zurücklegen – Wahrscheinlichkeit, dass unter den n

gezogenen Kugeln genau x schwarze zu finden sind?

• Ziehen ohne Zurücklegen, keine Berücksichtigung der Reihenfolge.

Page 78: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

78

Hypergeometrische Verteilung

• Urnenmodell: – Aus M schwarzen Kugeln genau x auswählen: Anzahl

der Kombinationen

– Aus N-M weißen Kugeln genau n-x auswählen: Anzahl der Kombinationen

– Jede mögl. Stpr. „x schwarze aus M“ kann mit jeder mögl. Stpr. „n-x weiße aus N-M“ kombiniert werden.

– Daher: Gesamtzahl der Möglichkeiten genau x schwarze zu ziehen:

– Gesamtzahl der Möglichkeiten aus N Kugeln n zu ziehen:

M

x

N-M

n-x

N

n

M N-M

x n-x

Page 79: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

79

Hypergeometrische Verteilung

• Wahrscheinlichkeit genau n schwarz Kugeln zu ziehen:

• Wahrscheinlichkeitsfunktion der Hypergeometrischen Verteilung:

M N-M

x n-x

N

n

H

M N-M

x n-x

Nf (x;N,n,M)= für x=0,1,...,n

n

0 sonst

Page 80: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

80

Hypergeometrische Verteilung

• Verteilungsfunktion: Summation der Einzelwahrscheinlichkeiten

• Liefert Wahrscheinlichkeit für „höchstens x schwarze Kugeln“

Page 81: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

81

Hypergeometrische Verteilung

• Bsp. Sortiment von N=8 Dioden, es werden n=3 zufällig gezogen (ohne Zurücklegen), M=5 der Dioden sind defekt.

• Ges: Wahrscheinlichkeit, dass genau 2 (=x) der 3 gezogenen Dioden defekt sind.

M N-M 5 8-5

x n-x 2 3-2 10 3P(X=x)= = = =0,5357

N 8 56

n 3

Page 82: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

82

Hypergeometrische Verteilung

• Erwartungswert:

E(X) = n · M/N

• Varianz

Var(X) = n · M/N · (N-M)/N · (N-n)/(n-1)

• Approximation durch Binomialverteilung: – Wenn N, M, N-M groß und n klein, Parameter

der Binomialverteilung: θ = M/N– Faustregel: Approximation, wenn n/N < 0,05

Page 83: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

83

Poissonverteilung

• Verteilung seltener Ereignisse

• Große Zahl von Versuchen n, Wahrscheinlichkeit θ für Auftreten eines Ereignisses sehr klein

• Wahrscheinlichkeitsfunktion: x -μ

P

μ ef (x;μ)= für x=0,1,...x!

0sonst

Page 84: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

84

Poissonverteilung

• Erwartungswert: E(X) = μ• Varianz: Var(X) = μ• Approximation der Binomialverteilung

durch die Poissonverteilung: – n groß und θ klein, Parameter μ = n·θ– Faustregel: n > 10 und θ < 0,05.

• Approximation der Hypergeometrischen Vt.– M/N = θ klein, N im Vergleich zu n groß,

Parameter μ = n · M/N – Faustregel: M/N < 0,05 und n/N < 0,05

Page 85: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

85

Poissonverteilung

• Bsp. Wahrscheinlichkeit bei einer Prüfung von n=2000 Buchungen genau 3 (=x) Fehlbuchungen zu finden, Anteil der Fehlbuchungen: θ=0,001.

• Poissonverteilung: μ = n·θ = 2x -μ 3 -2μ e 2 e

W(X=x)= = =0,1804x! 3!

Page 86: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

86

Gleichverteilung

• Diskrete Zufallsvariable:

• Jede der k möglichen Ausprägungen hat gleiche Wahrscheinlichkeit

P(X=xi) = 1/k (i=1,…,k)

• Bsp. Wahrscheinlichkeitsverteilung der Augenzahl eines idealen Würfels:

P(X=xi) = 1/6 (i=1,…,6)

Page 87: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

87

Gleichverteilung

• Stetige Zufallsvariable:

• Realisationen der stetigen Zufallsvariablen X liegen im Intervall [a;b]

• Dichtefunktion:

• P(x X x+Δx) = 1/(b-a) · Δx

G

1für a x b

f (x;a,b)= b-a0 sonst

Page 88: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

88

GleichverteilungStetige Gleichverteilung

0

0,2

0 14

x

f(x

;a,b

)

a b

1/(b-a)

x x+Δx

P(xXx+Δx) = 1/(b-a) · Δx

Page 89: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

89

Gleichverteilung

• Verteilungsfunktion (Integration der Dichte)

G

0 für x<a

x-aF (x;a,b)= für a x b

b-a1 für x>b

Page 90: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

90

GleichverteilungStetige Gleichverteilung

0

0,2

0,4

0,6

0,8

1

1,2

0 14

x

F(x

;a,b

)

a b

Page 91: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

91

Gleichverteilung

• Erwartungswert: E(X) = (a+b)/2

• Varianz: Var(X) = (b-a)² / 12

• Bsp. Wegzeit ist gleichverteilt im Intervall [30;40]. Ges. Wahrscheinlichkeit zw. 32 und 35 Min. zu benötigen.

P(32 X 35) = 1/(b-a) · Δx

= 1/(40-30) · (35-32) = 0,3

Durchschnittlich benötigte Zeit: E(X) = 35

Page 92: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

92

Normalverteilung

• Wichtigste theoretische Verteilung:

• Normalverteilung: – stetige Verteilung – symmetrische Dichtefunktion– S-förmige Verteilungsfunktion– Erwartungswert: E(X) = µ– Varianz: Var(X) = σ²– Maximum der Dichte bei x=µ– Wendepunkte bei x=µσ

Page 93: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

93

Normalverteilungen

• Normalverteilung:

• Dichtefunktion (für -∞<x<+∞ und σ>0) :

• Verteilungsfunktion:

2

σ

μx

2

1

2

2n e

1)σμ,(x;f

dve2

1)σμ,(x;F

μv

2

1

2

2n

2

Page 94: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

94

Normalverteilung

• Normalverteilungen mit unterschiedlichen Parametern

Normalverteilung

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

-6 -4 -2 0 2 4 6 8 10 12

x

f(x

)

N(4,3) N(0,1) N(2,2)

Page 95: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

95

Normalverteilung

• VerteilungsfunktionVerteilungsfunktion Normalverteilung

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

-4 -3 -2 -1 0 1 2 3 4

x

F(x

)

µµ-σ µ+σµ-2σ µ+2σµ-3σ µ+3σ

Page 96: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

96

Normalverteilung

• Standardnormalverteilung:– Erwartungswert µ = 0– Varianz σ² = 1

• Dichtefunktion: 2z

2

1

n e2π

1(z;0,1)f

Page 97: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

97

Normalverteilung

• StandardnormalverteilungStandardnormalverteilung

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

-4 -3 -2 -1 0 1 2 3 4

z

f(z)

68,27%95,45%

99,73%

WP WP

Page 98: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

98

Normalverteilung

• Approximation durch Normalverteilung: Mit wachsendem n nähern sich viele theoretische Vt. der Normalverteilung

• Empirische Verteilungen lassen sich ebenfalls oft durch die N-Vt. annähern.

Page 99: 1 STATISIK LV Nr.: 0021 WS 2005/06 18. Oktober 2005

99

Normalverteilung

• Reproduktionseigenschaft (od. Additivitäts- eigenschaft) der Normal-Vt.

• Additionstheorem der Normalverteilung: – Die Summe (X) von n unabhängig normalverteilten

Zufallvariablen X1,…,Xn ist ebenfalls normalverteilt.

X = X1 + … + Xn – Der Erwartungswert von X ist die Summe der einzelnen

Erwartungswerte μ1,…,μn

E(X) = μ = μ1 + … + μn – Die Varianz von X ist die Summe der einzelnen

Varianzen σ1²,…σn

²

Var(X) = σ² = σ1² + … + σn

²