77
1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

Embed Size (px)

Citation preview

Page 1: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

1

STATISIK

LV Nr.: 1852

WS 2005/06

6. Dezember 2005

Page 2: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

2

Inhalt

• Maßzahlen:– Konzentrationsmaße– Verhältniszahlen

• 2-dimensionale Merkmale– Darstellung: Kontingenztafel, Grafiken– Korrelationsrechnung

Page 3: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

3

Konzentrationsmaße

• Metrisch skaliertes Merkmal X mit positiven Ausprägungen

• Frage: Wie teilt sich die Summe der Merkmalswerte x1,…,xn in der Beobachtungsreihe auf die Untersuchungs-einheiten auf?

• Bsp: n landwirtschaftliche Betriebe, Größe der Nutzflächen: x1,...,xn. Wie teilt sich die gesamte Nutzfläche auf die einzelnen Betriebe auf?

Page 4: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

4

Konzentrationsmaße

• n Merkmalswerte werden durch q Merkmalsausprägungen a1<...<aq mit absoluten- und relativen Häufigkeiten hi bzw. fi bestimmt.

• Gesamtbetrag der Merkmalswerte in der Beobachtungsreihe:

n

1iii

n

1jj hax

Page 5: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

5

Konzentrationsmaße

• Lorenzkurve: Grafische Darstellung der Konzentration der Merkmalswerte

• Koordinatenkreuz: – Abszisse: es werden die nach der Größe der Merkmals-

ausprägung geordneten relativen Häufigkeiten aufsummiert

– Ordinate: Ausprägungen werden der Größe nach

aufsummiert und auf Summe aller Ausprägungen bezogen

q1,...,ifürfn

hk

i

1jj

i

1j

ji

q1,...,ifür hahalq

1jjj

i

1jjji

Page 6: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

6

Konzentrationsmaße

• Verbinden der Punkte (ki,li) ergibt die Lorenzkurve, wobei immer k0=l0=0 und kq=lq=1 gilt.

ki

li

0 1

1

Page 7: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

7

Konzentrationsmaße

• Interpretation: ein Punkt (ki,li) der Lorenz-kurve gibt an, dass auf ki · 100% der Untersuchungseinheiten li · 100% des Gesamtbetrages aller Merkmalsaus-prägungen entfallen.

• Bsp. auf ki · 100% der landwirtschaftlichen Betriebe entfallen li · 100% der gesamten Nutzfläche

Page 8: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

8

Konzentrationsmaße

• Bsp. landwirtschaftliche Betriebe– Abszisse: Es wird der Prozentsatz der Betriebe

mit der kleinsten Fläche bestimmt, dann wird der Prozentsatz der Betriebe mit der zweit-kleinsten Fläche bestimmt und zum Prozentsatz der Betriebe mit der kleinsten Fläche addiert, usw.

– Ordinate: Flächenanteile der Betriebe bzgl. der Gesamtfläche werden der Flächengröße nach aufsummiert.

Page 9: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

9

Konzentrationsmaße

• Bsp. landwirtschaftliche BetriebeFlächen-größe

Anzahl der

Betriebe

Flächeng. pro

Gruppe

% der Betriebe

Flächen-anteile

aufsumm. Betriebs-anteile

aufsumm. Flächen-anteile

bis 5 ha 21 63 0,42 0,063 0,42 0,0635 - 10 ha 9 72 0,18 0,072 0,60 0,13510 - 20 ha 9 135 0,18 0,135 0,78 0,27020 - 50 ha 8 280 0,16 0,28 0,94 0,550> 50 ha 3 450 0,06 0,45 1,00 1,000Gesamt 50 1000 1 1

Page 10: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

10

Konzentrationsmaße

• Bsp: landwirtschaftliche BetriebeLandwirtschaftliche Betriebe

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

aufsummierte Anteile der Betriebe

au

fsu

mm

iert

e F

läc

he

na

nte

ile

Page 11: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

11

Konzentrationsmaße

• Bsp. Landwirtschaftliche Betriebe:

• Interpretation: auf ki · 100% der landwirtschaftlichen Betriebe entfallen li · 100% der gesamten Nutzfläche– auf 42% der Betriebe entfallen 6,3% der Nutzfläche,

– auf 60% der Betriebe entfallen 12,5% der Nutzfläche,

– auf 78% der Betriebe entfallen 27% der Nutzfläche,

– auf 94% der Betriebe entfallen 55% der Nutzfläche.

Page 12: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

12

Konzentrationsmaße

Extremfälle:

• Keine Konzentration, alle Untersuchungs-einheiten haben den gleichen Anteil am Gesamtbetrag. Lorenzkurve ist Diagonale.

• Gesamtbetrag konzentriert sich (fast) vollständig auf eine Untersuchungseinheit. Lorenzkurve ist (fast) senkrecht.

Page 13: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

13

Konzentrationsmaße

Extremfälle:

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 10

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,2 0,4 0,6 0,8 1

Page 14: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

14

Konzentrationsmaße

• Gini-Koeffizient od. Lorenzsche Konzentrationsmaß (LKM): Maßzahl für die Konzentration.

• Definiert als das 2-fache der Fläche (F) zw. Diagonale und Lorenzkurve. LKM = 2F.

• Es gilt immer: 0 LKM (n-1)/n• Standardisierter Gini-Koeffizient:

LKMnor = n/(n-1) LKM

Page 15: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

15

Konzentrationsmaße

• Berechnung von F:

– k … Werte auf Abszisse

– l … Werte auf Ordinate

– q … Anzahl der verschiedenen Merkmalsausprägungen

q

1ii 0,5FF

q

1jjj

iii1-i1ii

i1ii

Ha

Ha

2

kk)l(l

2

kkF

Page 16: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

16

Konzentrationsmaße

• Bsp. Landwirtschaftliche Nutzfläche

• LMK = 2F = i2Fi – 1 = 1,6048 – 1 = 0,6408– mit i = 1,…,5

• LKMnor = 50/49 · 0,6408 = 0,6539

Flächen-größe

Flächen-anteile

aufsumm. Betriebs-anteile

2 Fi

bis 5 ha 0,063 0,42 0,026465 - 10 ha 0,072 0,60 0,0734410 - 20 ha 0,135 0,78 0,1863020 - 50 ha 0,28 0,94 0,48630> 50 ha 0,45 1,00 0,87300Gesamt 1 1,6455

Page 17: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

17

Verhältniszahlen

• Quotient zweier Maßzahlen: Verhältniszahl

• Gliederungszahlen– Man bezieht eine Teilgröße auf eine ihr

übergeordnete Gesamtgröße

• Beziehungszahlen– Quotient zweier sachlich sinnvoll in

Verbindung stehender Maßzahlen

• Index-Zahlen– Quotient zweier Maßzahlen gleicher Art

Page 18: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

18

Gliederungszahlen

• Gliederungszahlen

• Bsp. Tagesproduktion 1500 Teile, davon 300 fehlerhaft.

Dann sind 20% der Tagesproduktion Ausschuss (300/1500·100).

Ausschussanteil ist eine Gliederungszahl

Page 19: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

19

Beziehungszahlen

• Beziehungszahlen:

• Verursachungszahlen:

Bezieht Bewegungsmassen auf die zugehörigen Bestandsmassen.

• Entsprechungszahlen:

Alle Beziehungszahlen, bei denen man Ereignisse nicht auf ihren Bestand beziehen kann.

Page 20: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

20

Beziehungszahlen

• Bsp. Verursachungszahlen: Geburtenziffer

Bestandsmasse: Einwohner einer Stadt (E)

Bewegungsmasse: Zahl der Lebend-geborenen (L)

G = (L/E)*1000

Sagt, wie viele Geburten auf 1000 Einwohner einer Stadt entfallen.

Page 21: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

21

Beziehungszahlen

• Bsp. Entsprechungszahlen:

Schüler-Lehrer-Verhältnis

(Zahl der Schüler) / (Zahl der Lehrer)

Sagt, wie viele Schüler (ungefähr) auf eine Lehrer entfallen. Dies entspricht aber i.A. nicht der durchschnittlichen Klassengröße.

Page 22: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

22

Indexzahlen

• Indexzahlen: Es werden zwei Maßzahlen der gleichen Art in Beziehung gesetzt.

• Messzahlen oder Einfache Indizes– Die zugehörigen Maßzahlen beschreiben eine

realen Sachverhalt.

• (Zusammengesetzte) Indexzahlen– Eine der Maßzahlen ist eine Zahl, die einen

fiktiven Zustand beschreibt.

Page 23: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

23

Indexzahlen

• Einfache Indizes:

• Reihe von Maßzahlen, die man in Beziehung zueinander setzen will.

x0,...,xt Maßzahlen zu Zeitpunkten t, x0 Maßzahl zum Basiszeitpunkt 0.

Dann ist

I0t = xt / x0 für t = 0, 1, 2, ...

eine Zeitreihe einfacher Indizes

Page 24: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

24

Indexzahlen

• Messzahlen werden oftmals mit 100 multipliziert.

• Bsp. Umsatz im Jahr 5, bezogen auf Jahr 0: I05·100 = x5/x0 · 100 = 87

D.h. dass 87% des Umsatzes im Basisjahr im Jahr 5 umgesetzt werden.

Oder: Es liegt eine Minderung des Umsatzes um 13% vor.

• Vergleich von I05·100=87 mit I06·100=90:

Der Umsatz ist um 3 Prozentpunkte gestiegen.

Page 25: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

25

Indexzahlen

• Umbasieren:Gegeben: Indizes I0t zur Basisperiode 0Gesucht: Indizes Ikt zur Basisperiode kBerechung ohne Ursprungsdaten:

• Verkettung: Wenn für xt I0t berechnet werden soll, und x0 nicht bekannt ist. I0t = I0k · Ikt

0k

0t

0k

0t

k

tkt I

I

xx

xx

x

xI

Page 26: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

26

Indexzahlen

• Bsp. Umsatz für Jahre 1990 bis 1998

Jahr Umsatz xt / x0 xt / x4

1990 1240 1,00 1,081991 1210 0,98 1,051992 1180 0,95 1,031993 1190 0,96 1,031994 1150 0,93 1,001995 1080 0,87 0,941996 1120 0,90 0,971997 1130 0,91 0,981998 1200 0,97 1,04

Page 27: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

27

Indexzahlen

• Umbasieren: Index von 1996 zur Basisperiode 1990 sollen in Index zur Basisperiode 1994 umgerechnet werden. – I1990,1996 = 0,90 (Basisperiode 1990)

– I1990,1994 = 0,93 (Basisperiode 1990)

– I1994,1996 = 0,90 / 0,93 = 0,97 (Basisperiode 1994)

• Verkettung: Weiterer Wert für 1998 – I1990,1998 = I1990,1994 · I1994,1998 = 0,93 · 1,04 = 0,97

Page 28: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

28

Indexzahlen

• Zusammengesetzte Indexzahlen (Indizes):

• Betrachte Warenkorb:

n Waren zu einem Zeitpunkt t

Mengen qt1,...,qtn

Preise pt1,...,ptn

Wert des Warenkorbes in Periode t:

n

1ititiqp

Page 29: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

29

Indexzahlen

• Wertindex:

Vergleich Wert eines Warenkorbes zur Berichtsperiode t mit dem zur Basisperiode 0

n

1i0i0i

n

1ititi

0t

qp

qpW

Page 30: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

30

Indexzahlen

• Bsp. Durchschnittlicher Verbrauch an Fleisch aller privaten Haushalte in einer Gemeinde. Basismonat 1, Berichtsmonat 12. – (Mengen in g, Preise in DM/kg) Fleisch p0i q0i p12i q12i

F1 5,75 1450 6,2 1410F2 12,25 1260 13,55 1200F3 24,1 50 24,8 50F4 17,8 210 18,1 215F5 4,55 2450 4,6 2470F6 10,25 1310 10,4 1230F7 8,9 980 9,1 930

gesamt 7710 7505

Page 31: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

31

Indexzahlen

• Bsp. Wertindex n 7

ti ti 12i 12ii 1 i 1

0t n 7

0i 0i 0i 0ii 1 i 1

p q p q62750,5

W 1,011962012,5p q p q

Fleisch p0i q0i p12i q12i p0q0i p12iq12i

F1 5,75 1450 6,2 1410 8337,5 8742F2 12,25 1260 13,55 1200 15435 16260F3 24,1 50 24,8 50 1205 1240F4 17,8 210 18,1 215 3738 3891,5F5 4,55 2450 4,6 2470 11147,5 11362F6 10,25 1310 10,4 1230 13427,5 12792F7 8,9 980 9,1 930 8722 8463

gesamt 7710 7505 62012,5 62750,5

Page 32: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

32

Indexzahlen

• Bsp. Wertindex – 100 · W012 = 100 · 1,0119 = 101,19

– D.h. der tatsächliche Aufwand für Fleisch für die privaten Haushalte ist vom Basismonat bis zum Berichtsmonat um 1,19% gestiegen.

– Es ist hier nicht berücksichtigt, dass der durchschnittliche Verbrauch im Berichtsmonat um 205g geringer ist.

Page 33: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

33

Indexzahlen

• Preisindizes:

• Aussagen über die Preisentwicklung

• Für verschiedene Perioden das gleiche Mengenschema verwenden

Page 34: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

34

Indexzahlen

• Preisindex nach Paasche

• Man vergleicht den Wert eines Warenkorbes qt1,...,qtn zur jeweiligen Berichtsperiode t mit dem Wert, den dieser unter der Preissituation zur Basisperiode gehabt hätte.

n

1iti0i

n

1ititi

Pt0,

qp

qpP

Page 35: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

35

Indexzahlen

• Bsp. Preisindex nach Paasche

Fleisch p0i q0i p12i q12i p0q0i p12iq12i p0iq12i p12iq0i

F1 5,75 1450 6,2 1410 8337,5 8742 8107,5 8990F2 12,25 1260 13,55 1200 15435 16260 14700 17073F3 24,1 50 24,8 50 1205 1240 1205 1240F4 17,8 210 18,1 215 3738 3891,5 3827 3801F5 4,55 2450 4,6 2470 11147,5 11362 11238,5 11270F6 10,25 1310 10,4 1230 13427,5 12792 12607,5 13624F7 8,9 980 9,1 930 8722 8463 8277 8918

gesamt 7710 7505 62012,5 62750,5 59962,5 64916

n

1iti0i

n

1ititi

Pt0,

qp

qpP

Page 36: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

36

Indexzahlen

• Bsp. Preisindex nach Paasche

• D.h. nimmt man für beide Monate den durchschnittlichen Verbrauch an Fleisch im Berichtsmonat als Mengenschema (Warenkorb) an, so sind die Preise in diesem Zeitraum um 4,65% gestiegen.

65,1045,59962

5,62750100

qp

qp100

qp

qpP100 7

1i12i0i

7

1i12i12i

n

1iti0i

n

1ititi

Pt0,

Page 37: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

37

Indexzahlen

• Preisindex nach Laspeyres

• Der Warenkorb q01,...,q0n der Basisperiode 0 wird für alle Berichtsperioden zugrundegelegt und ihr fiktiver Wert in der Berichtsperiode t wird mit seinem Wert in der Basisperiode verglichen.

n

1i0i0i

n

1i0iti

Lt0,

qp

qpP

Page 38: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

38

Indexzahlen

• Bsp. Preisindex nach Laspeyres

• D.h. Für die im Basismonat verbrauchten Mengen an Fleisch muss man in der Berichtsperiode um 4,68% mehr Geld ausgeben.

68,1045,62012

64916100

qp

qp100

qp

qpP100 7

1i0i0i

7

1i0i12i

n

1i0i0i

n

1i0iti

Lt0,

Page 39: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

39

Indexzahlen

• Vergleich Preisindizes nach Paasche und Laspeyres:

• L: Warenkorb muss nur für Basisperiode bestimmt werden, Kosten (+) Aktualität (-)

• P: Warenkorb muss für Berichtsperioden bestimmt werden, Kosten (-) Aktualität (+)

• Vergleich. Sind Abweichungen groß, muss der Warenkorb neu festgelegt werden.

• Fishersche Idealindex: LPF III

Page 40: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

40

Indexzahlen

• Mengenindizes:

• Aussagen über Mengenentwicklung (unabhängig von der Preisentwicklung)

Page 41: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

41

Indexzahlen

• Mengenindex nach Paasche

• Standardisierung nach den Preisen zur Berichtsperiode

n

1i0iti

n

1ititi

Pt0,

qp

qpQ

Page 42: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

42

Indexzahlen

• Bsp. Mengenindex nach Paasche

• D.h. der Verbrauch an Fleisch, gewichtet mit den Preisen im Berichtsmonat ist um 3,34% gesunken.

66,9664916

5,62750100

qp

qp100

qp

qpQ100 7

1i0i12i

7

1i12i12i

n

1i0iti

n

1ititi

Pt0,

Page 43: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

43

Indexzahlen

• Mengenindex nach Laspeyres

• Standardisierung nach den Preisen zur Basisperiode

n

1i0i0i

n

1iti0i

Lt0,

qp

qpQ

Page 44: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

44

Indexzahlen

• Bsp. Mengenindex nach Laspeyres

• D.h. der Verbrauch an Fleisch, gewichtet mit den Preisen zum Basismonat, ist um 3,31% gesunken.

69,965,62012

5,59962100

qp

qp100

qp

qpQ100 7

1i0i0i

7

1i12i0i

n

1i0i0i

n

1iti0i

Lt0,

Page 45: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

45

Zweidimensionale Merkmale

• Frage: Wie lässt sich der Zusammenhang bzw. die Abhängigkeit zw. zwei Merkmalen messen?– Wie stark ist der Zusammenhang bzw. die

Abhängigkeit?

Antwort durch Korrelationsrechnung.– Lässt sich der Zusammenhang in einer

bestimmten Form darstellen?

Antwort durch Regressionsrechnung.

Page 46: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

46

Zweidimensionale Merkmale

• n Untersuchungseinheiten, 2 Merkmale X und Y, Ausprägungen des Merkmals X a1,…,al und Ausprägungen des Merkmals Y b1,…,bm.

• 2-dimensionales Merkmal (X,Y) mit Ausprägungen (aj,bk), mit absoluten Häufigkeiten hjk und relativen Häufigkeiten fjk=1/n·hjk

Page 47: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

47

Kontingenztafel

• Häufigkeitsverteilung von (X,Y) wird durch Kontingenztafel dargestellt.

X Y b1 … bm

a1 h11 … h1m

: : :

al hl1 … hlm

Page 48: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

48

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten von (X,Y).

X Y R N-R

w 9 32

m 5 27

X Y R N-R

w 0,12 0,44

m 0,07 0,37

Page 49: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

49

Kontingenztafel

• Absolute Randhäufigkeiten – von aj für j=1,…,l und bk für k=1,...,m:

• Relative Randhäufigkeiten

– von aj für j=1,…,l und bk für k=1,…,m:

• Randhäufigkeiten ergeben die Häufigkeits-verteilung des Merkmals X bzw.Y (Randverteilung).

m

1kjkj hh

m

1kjkj ff

l

1jjkk hh

l

1jjkk ff

Page 50: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

50

Kontingenztafel

• Kontingenztafel absoluten Häufigkeiten und Randhäufigkeiten

X Y b1 … bm Σ

a1 h11 … h1m h1.

: : : :

al hl1 … hlm hl.

Σ h.1 … h.m h..=n

Page 51: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

51

Kontingenztafel

• Kontingenztafel relative Häufigkeiten und Randhäufigkeiten

X Y b1 … bm Σ

a1 f11 … f1m f1.

: : : :

al fl1 … flm fl.

Σ f.1 … f.m f..=1

Page 52: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

52

Kontingenztafel

Es gilt:

• Relative Randhäufigkeit = 1 / n · absolute Randhäufigkeit

• Summe der absoluten Randhäufigkeiten = n

• Summe der relativen Randhäufigkeiten = 1

kkjj hn

1f undh

n

1f

nhhhm

1kk

l

1j

m

1k

l

1jjjk

1fffm

1kk

l

1j

m

1k

l

1jjjk

Page 53: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

53

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y): absolute und relative Häufigkeiten und Randhäufigkeiten von (X,Y).

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

X Y R N-R

w 0,12 0,44 0,56

m 0,07 0,37 0,44

0,19 0,81 1

Page 54: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

54

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y):

• Zeilenprozent:

X Y R N-R

w 0,22 0,78 1

m 0,16 0,84 1

0,19 0,81 1

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

Page 55: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

55

Kontingenztafel

• Bsp. Geschlecht (X) Rauchverhalten (Y):

• Spaltenprozent:

X Y R N-R

w 0,64 0,54 0,56

m 0,36 0,46 0,44

1 1 1

X Y R N-R

w 9 32 41

m 5 27 32

14 59 73

Page 56: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

56

DarstellungGeschlecht - Rauchverhalten

0,220,16

0,780,84

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

weiblich männlich

Raucher Nichtraucher

Page 57: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

57

DarstellungGeschlecht - Rauchverhalten

0,640,54

0,360,46

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Raucher Nichtraucher

weiblich männlich

Page 58: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

58

DarstellungGeschlecht - Rauchverhalten

0,22

0,16

0,78

0,84

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

weiblich männlich

Raucher Nichtraucher

Page 59: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

59

DarstellungGeschlecht - Rauchverhalten

0,64

0,54

0,36

0,46

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Raucher Nichtraucher

weiblich männlich

Page 60: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

60

DarstellungGeschlecht - Rauchverhalten

9

5

32

27

0

5

10

15

20

25

30

35

40

45

50

weiblich männlich

Raucher Nichtraucher

Page 61: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

61

DarstellungGeschlecht - Rauchverhalten

9

32

5

27

0

5

10

15

20

25

30

35

40

45

50

Raucher Nichtraucher

weiblich männlich

Page 62: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

62

Korrelation

• Yulesche Assoziationskoeffizient für eine Vierfeldertafel

• (X,Y) nominal skaliert• Häufigkeitsverteilung von (X,Y)

• Es gilt: -1 ≤ AXY ≤ +1; falls ein hij=0, so gilt: |AXY|=1; Vorzeichen nur

in Verbindung Vierfeldertafel interpretierbar

21122211

21122211

21122211

21122211XY ffff

ffff

hhhh

hhhhA

Page 63: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

63

Korrelation

• Bsp. Geschlecht – Raucher/Nichtraucher

• Leicht positiver Zusammenhang zw. Merkmalsausprägungen „w“ und „R“

11 22 12 21XY

11 22 12 21

h h h h 9 27 32 5A 0,21

h h h h 9 27 32 5

R N-R w 9 32 41

m 5 27 32

14 59 73

Page 64: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

64

Korrelation

• Bsp. Geschlecht – Raucher/Nichtraucher

• Leicht negativer Zusammenhang zw. Merkmalsausprägungen „m“ und „R“

11 22 12 21XY

11 22 12 21

h h h h 5 32 27 9A 0,21

h h h h 5 32 27 9

R N-R m 5 27 32

w 9 32 41

14 59 73

Page 65: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

65

Korrelationskoeffizient

• Bravais-Pearson Korrelationskoeffizient rXY

• 2-dimensionales metrisch skaliertes Merkmal (X,Y) mit Ausprägungen (aj,bk) und Häufigkeiten hjk für j=1,…,l und k=1,…,m.

• Maß für den Zusammenhang zw. X und Y:

n

1i

2i

n

1i

2i

n

1iii

m

1kk

2k

l

1jj

2j

l

1j

m

1kjkkj

XY

)y(y)x(x

)y)(yx(x

h)b(bh)a(a

)hb)(ba(a

r

Page 66: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

66

Korrelationskoeffizient

• rXY liegt immer im Intervall [-1,1]

• Extremfälle:

-1 negativer linearer Zusammenhang

rXY = 0 kein linearer Zusammenhang

1 positiver linearer Zusammenhang• Interpretation:

– rXY < 0 d.h. große Werte von X treten mit kleinen Werten von Y auf

– rXY > 0 d.h. große Werte von X treten mit großen Werten von Y auf

Page 67: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

67

Korrelationskoeffizient

• Probleme: • Scheinkorrelation: X und Y hängen von einem

dritten Merkmal Z ab – Bsp. Gefahr eines Waldbrandes (X) und schlechter

Kornertrag (Y) hängen von der Stärke der Sonneneinstrahlung (Z) ab.

• Nonsenskorrelation: sachlogischer Zusammenhang zw. X und Y– Bsp. Korrelation zw. Anzahl der Störche und der

Anzahl der Geburten in einem Land

• Nichtlinearer Zusammenhang: rXY misst nur einen linearer Zusammenhang

Page 68: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

68

KorrelationKorrelationskoeffizient = 1

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = 0

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = - 1

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = 0

0

2

4

6

8

10

12

14

16

18

0 2 4 6 8 10 12 14 16

X

Y

Page 69: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

69

Korrelation

Korrelationskoeffizient = 0,8

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10 12 14 16

X

Y

Korrelationskoeffizient = - 0,58

0

1

2

3

4

5

6

7

8

9

0 2 4 6 8 10 12 14 16

X

Y

Page 70: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

70

Korrelationskoeffizient

• Bsp. Körpergröße und Gewicht: r = 0,76– Positiver linearer Zusammenhang zw.

Körpergröße und Gewicht.

0

20

40

60

80

100

120

140 150 160 170 180 190 200 210

Größe in cm

Ge

wic

ht

in k

g

Page 71: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

71

Korrelation

• Fechnersche Korrelationskoeffizient (für 2 metrisch skalierte Merkmale X und Y): rF

• Basiert auf Vorzeichen der transformierten Paare x* und y*

1 x* und y* gleiches Vorzeichen od. beide 0

vi = ½ genau einer der Werte x* bzw. y* = 0 0 sonst

)yy,x(x ii

n

1iivV

Page 72: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

72

Korrelation

• Fechnersche Korrelationskoeffizient:

• Werte im Intervalle [-1,1]

• +1 nicht nur bei positivem linearen Zusammenhang, sonder auch wenn gilt:

oder

n

n2VrF

)yyundx(x ii )yyundx(x ii

Page 73: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

73

Korrelation

• Bsp. Hennen, Körpergewicht, Legeleistung

F

2 10,5 15 6r 0,4

15 15

Henne i Gewicht xi Leistung yi xi* yi* v i

1 1763 19 -84 -2 12 1890 24 43 3 13 1872 23 25 2 14 1938 26 91 5 15 1791 22 -56 1 06 1854 18 7 -3 07 1960 21 113 0 0,58 1723 20 -124 -1 19 1898 21 51 0 0,5

10 1834 20 -13 -1 111 1946 24 99 3 112 1755 19 -92 -2 113 1846 21 -1 0 0,514 1752 17 -95 -4 115 1884 20 37 -1 0

1847 21 10,5

Page 74: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

74

Korrelation

• Rangkorrelationen für ordinal skalierte Merkmale:• Verwendung von Rangzahlen: Merkmal Z,

Ausprägungen z1,…,zn, der Größe nach ordnen (vom größten zum kleinsten Wert) z(1),…,z(n) und nummerieren.

• Rangzahl: R(z(i)) = i für i=1,…,n• Tritt ein Ausprägung mehrmals auf (Auftreten von

Bindungen), dann Rang = arithm. Mittel der Ränge, die sie einnehmen. – Bsp: z(1)=8, z(2)=5, z(3)=5, z(4)=2,

Ränge: R(z(1))=1, R(z(2))=2,5, R(z(3))=2,5, R(z(4))=4

Page 75: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

75

Korrelation

• Spearmansche Rangkorrelationskoeffizient rS

• Entspricht dem Bravais-Pearson Koeffizienten der Rangzahlen

• Wert +1 schon bei monoton wachsenden Beobachtungen, d.h. es gilt für alle (xi,yi), (xj,yj): mit xi < xj ist auch yi < yj

n

1i

2i

n

1i

2i

n

1iii

S

(y))R)(R(y(x))R)(R(x

(y))R)(x))(R(yR)(R(xr

Page 76: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

76

Korrelation

• Bsp. Klausur- und Übungspunkte

• Einfachere Formel für den Spearman‘schen Korrelationskoeffizienten (falls alle xi und yi verschieden sind (und di=R(xi)–R(yi)):

Student 1 2 3 4 5 6 7 8 9 10

Klausurpkt. 76 44 32 53 25 58 26 59 29 65Rang K 1 6 7 5 10 4 9 3 8 2UE-Pkt. 122 67 68 101 42 59 118 79 83 89

Rang UE 1 8 7 3 10 9 2 6 5 4

di 0 -2 0 2 0 -5 7 -3 3 -2di² 0 4 0 4 0 25 49 9 9 4

0,371)10(100

10461

1)n(n

d61r

2

n

1i

2i

S

Page 77: 1 STATISIK LV Nr.: 1852 WS 2005/06 6. Dezember 2005

77

Korrelation

• Bsp. Maturanoten Mathe, Deutsch, Englisch

Mathe Deutsch Englisch

Mathe 1 0,23 0,382

Deutsch 0,23 1 0,576

Englisch 0,382 0,576 1