Statistik: 3.3.04
Relationen zwischen qualitativen Merkmalen
3.3.04 PI Statistik, SS 2004 (4) 2
Beispiel: UnfälleFür 165 Unfälle wurden registriert:
Ort des Unfalls: (innner-/außerhalb) Stadtgebiet Personenschaden: ja/nein
P-Schaden
Stadt
Land Summe
ja 17 35 52
nein 65 48 113
Summe 82 83 165
3.3.04 PI Statistik, SS 2004 (4) 3
Unfälle: Häufigkeitsverteilung
Unfallhäufigkeiten und Personenschaden
0
10
20
30
40
50
60
70
Stadt Land
ja
nein
StadtLand
ja
nein0
1020
30
40
50
60
70
Unfälle und Personenschaden
ja
nein
Gruppiertes Säulendiagramm
3D-Säulen
3.3.04 PI Statistik, SS 2004 (4) 4
Kontingenztafel
Tabellierung von gemeinsamen Häufigkeiten zweier (oder mehrerer) qualitativer Merkmale, Häufigkeitsverteilung Auch Kreuztabellen oder Kreuzklassifikation genannt
X Y y1 … ysSumm
e
x1 n11 … n1s n1.
… … … … …
xr nr1 … nrs nr.
Summe
n.1 … n.r nZelle Randverteilung
en
3.3.04 PI Statistik, SS 2004 (4) 5
Unfälle: Häufigkeitsverteilungen
StadtLand
ja
nein010
20
30
40
50
60
70
Unfälle und Personenschaden
0
10
20
30
40
50
60
70
80
90
Stadt Land
0
20
40
60
80
100
120
ja nein
Randverteilung nach • Personenschaden• Stadt/Land
(bedingte) Verteilung nach Personen-schäden von Unfällen in der Stadt
3.3.04 PI Statistik, SS 2004 (4) 6
Rand- und bedingte Verteilungen
ni., i =1,…,r: (Rand)Verteilung des (Zeilen-) Merkmals X
n.j, j =1,…,s: (Rand)Verteilung des (Spalten-) Merkmals Y
„.“ gibt an, dass über alle möglichen Werte des Index summiert wurde
ni. = j nij
ni|j, i =1,…,r : bedingte Verteilung des (Zeilen-) Merkmals X für Y =yj
nj|i, j =1,…,s : bedingte Verteilung des (Spalten-) MerkmalsY für X =xi
3.3.04 PI Statistik, SS 2004 (4) 7
Unfälle: Häufigkeitsverteilungen
P-Schaden
Stadt
Land Summe
ja 17 35 52
nein 65 48 113
Summe 82 83 165
Randverteilung nach • Personenschaden• Stadt/Land
(bedingte) Verteilung nach Personen-schäden von (82!) Unfällen in der Stadt
Gemeinsame Verteilung
3.3.04 PI Statistik, SS 2004 (4) 8
Relative Häufigkeiten
Gemeinsame relative Häufigkeiten
, 1,..., , 1,...,ijij
np i r j s
n
z.B.: Anteil der (65) Unfälle ohne Personenschaden in der Stadt an allen (165) Unfällen
Bedingte relative Häufigkeiten
z.B.: Anteil der (65) Unfälle ohne Personenschaden (in der Stadt) an den (82) Unfällen in der Stadt
sjn
npri
n
np
i
ijij
j
ijji ,,1,,,,1,
.|
.|
3.3.04 PI Statistik, SS 2004 (4) 9
Unfälle: Relative Häufigkeiten
P-Schaden
Stadt
Land Summe
ja 10.3 21.2 31.5
nein 39.4 29.1 68.5
Summe 49.7 50.3 100.0
Randverteilung nach • Stadt/Land• Personenschaden
Gemeinsame Verteilung
3.3.04 PI Statistik, SS 2004 (4) 10
Unfälle: Bedingte relative Häufigkeiten
P-Schaden
Stadt
Land Summe
ja 32.7 67.3 100.0
nein 57.5 42.5 100.0
Summe 49.7 50.3 100.0
Bedingte Verteilungen für Unfälle • mit• ohne
Personenschaden
Analog bedingte Verteilungen für Unfälle in Stadt und Land
nach Personenschaden
3.3.04 PI Statistik, SS 2004 (4) 11
Bedingte Verteilungen
Unfälle mit und ohne Personenschäden
20,7%42,2%
79,3%57,8%
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
120,0%
Stadt Land
Bedingte Verteilung für Unfälle in Stadt und Land nach Personenschaden
Gestapeltes Säulendiagramm
3.3.04 PI Statistik, SS 2004 (4) 12
Beziehung zwischen Merkmalen
Das Wissen über die Ausprägung eines Merkmals hilft, die Ausprägung des anderen Merkmals vorherzusagen
Beispiel: Unfall passierte auf Autobahn; Personenschäden sind wahrscheinlicher als wenn der Unfall im Stadtgebiet stattgefunden hätte
3.3.04 PI Statistik, SS 2004 (4) 13
Merkmale: Unabhängigkeit Zwei Merkmale X und Y werden als unabhängig bezeichnet, wenn die bedingten Verteilungen pi|j, i =1, …, r, für alle (j =1,… ,s) Merkmalsausprägungen von Y übereinstimmen
3.3.04 PI Statistik, SS 2004 (4) 14
Sind Ort und Personenschäden bei Unfällen unabhängig?
Was sagen uns: bedingte Verteilungen für Unfälle mit und ohne
Personenschäden bedingte Verteilungen für Unfälle in Stadt und Land nach
Personenschaden
P-Schaden Stadt Land Summe
ja 32.7 67.3 100.0
nein 57.5 42.5 100.0
Summe 49.7 50.3 100.0
3.3.04 PI Statistik, SS 2004 (4) 15
Erwartete Häufigkeiten
Sind X und Y unabhängige Merkmale, so erwarten wir die Häufigkeiten
n
nnn jiij
..ˆ
Die erwarteten Häufigkeiten sind durch die Randverteilungen bestimmt
3.3.04 PI Statistik, SS 2004 (4) 16
Unfälle: Erwartete Häufigkeiten
P-Schaden
Stadt LandSumm
e
ja 25,8 26,2 52
nein 56,2 56,8 113
Summe 82 83 165
P-Schaden
Stadt
Land Summe
ja 17 35 52
nein 65 48 113
Summe 82 83 165
Beobachtet:
Bei Unabhängig-keit erwartet:
3.3.04 PI Statistik, SS 2004 (4) 17
Chiquadrat-Statistik
Assoziationsmaß, d.h. Maß für Abhängigkeit zwischen Merkmalen
2
1
2
1
2
ˆ
)ˆ(
i j ij
ijij
n
nnT
Bei Unabhängigkeit der Merkmale: T = 0Bei Abhängigkeit: T ist wesentlich größer als 0
Bei Unabhängigkeit folgt die Chiquadrat-Statistik derChiquadrat-Verteilung
3.3.04 PI Statistik, SS 2004 (4) 18
Unfälle
Chiquadrat-Statistik:T = 8.78
p-Wert (Wahrscheinlichkeit, dass T ≥ 8.78, wenn Unabhängigkeit der Merkmale zutrifft): 0.003Unabhängigkeit der Merkmale ist unplausibel
3.3.04 PI Statistik, SS 2004 (4) 19
(r x s) - Kontingenztafel
Verallgemeinerung der 2x2-TafelChiquadrat-Statistik:
Bei Unabhängigkeit folgt die Chiquadrat-Statistik der Chiquadrat-Verteilung mit (r-1)(s-1) Freiheitsgraden
r
i
s
j ij
ijij
n
nnT
1 1
2
ˆ
)ˆ(
)1)(1(2 srT
3.3.04 PI Statistik, SS 2004 (4) 20
Homogenität
Das Merkmal Y charakterisiert die PopulationHomogenität: die bedingten Verteilungen
pi|j, i =1, …, r
sind für alle j Populationen gleichZum Überprüfen der Homogenität: Chiquadrat-Statistik
3.3.04 PI Statistik, SS 2004 (4) 21
Kontingentzkoeffizienten
Von der Chiquadrat -Statistik abgeleitete Assoziationsmaße:Pearson´scher Kontingenzkoeffizient
Cramér´scher Kontingenzkoeffizient
bei Unabhängigkeit: P = 0, C = 0 Maximalwert: P < 1, C ≤ 0
Tn
TP
)1,1min(
srn
TC
3.3.04 PI Statistik, SS 2004 (4) 22
Unfälle
8.78 8.780.225, 0.231
165 8.78 165P C
Für die Kontingenzkoeffizienten erhalten wir
3.3.04 PI Statistik, SS 2004 (4) 23
Beispiel: Nochmals UnfälleFür 165 Unfälle wurden registriert:
Ort des Unfalls: Ortsgebiet, Landstraße, Autobahn Personenschaden: ja/nein
P-Schaden Orts-Geb.
Land-Staße
A-Bahn
Summe
ja 17 23 12 52
nein 65 44 4 113
Summe 82 67 16 165
2x3 Kontingenztafel
3.3.04 PI Statistik, SS 2004 (4) 24
Beispiel, Forts.
Chiquadrat-Statistik: T = 18.68
Bei Unabhängigkeit folgt T der Chiquadrat-Verteilung mit (r-1)(s-1) = 2 FreiheitsgradenDer p-Wert beträgt 0.000088 !Pearson´scher Kontingenzkoeffizient:
P = 0.319Cramér'scher Kontingenzkoeffizient:
C = 0.336