View
2
Download
0
Category
Preview:
Citation preview
Schiefe-, Wölbungs- und Konzentrationsmaße
Univ.Prof. Dr. Marcus Hudec
Statistik 1 für SoziologInnen
Höhere Verteilungsmaßzahlen
Ein stetiges Merkmal wurde in 3 Gruppen beobachtet und in Form der folgenden Häufigkeitstabelle berichtet:
Berechnung von Mittelwert und Streuung
Statistik 1 - Schiefe- und Konzentrationsmaße2
Klasse mi Gruppe A Gruppe B Gruppe C
0‐2 1 0 4 02‐4 3 12 4 44‐6 5 24 20 406‐8 7 28 44 248‐10 9 24 20 2010‐12 11 12 4 812‐14 13 0 4 4
100 100 100
Berechnung von Mittelwert und Streuung
Statistik 1 - Schiefe- und Konzentrationsmaße3
Das arithmetische Mittel ist an allen 3 Gruppen gleich 7.Die Varianz ist an allen 3 Gruppen gleich 5,76 bzw. ist die Standardabweichung in allen 3 Gruppen 2,4.
Gruppe A Gruppe B Gruppe C Gruppe A Gruppe B Gruppe CKlasse mi Gruppe A Gruppe B Gruppe C mi*ni mi*ni mi*ni mi²*ni mi²*ni mi²*ni
0‐2 1 0 4 0 0 4 0 0 4 02‐4 3 12 4 4 36 12 12 108 36 364‐6 5 24 20 40 120 100 200 600 500 10006‐8 7 28 44 24 196 308 168 1372 2156 11768‐10 9 24 20 20 216 180 180 1944 1620 162010‐12 11 12 4 8 132 44 88 1452 484 96812‐14 13 0 4 4 0 52 52 0 676 676
100 100 100 700 700 700 5476 5476 54767 7 7 5,76 5,76 5,76
2,4 2,4 2,4
2 2 2
1 1
1 1
k k
i i i ii i
x n m m n xn n
Visualisierung
Statistik 1 - Schiefe- und Konzentrationsmaße4
Obwohl Mittelwert und Varianz gleich sind, unterscheiden sich die drei Verteilungen in Bezug auf Ihre Form erheblich wir benötigen Maßzahlen höherer Ordnung
Maßzahlen der Schiefe
Konvention: Positiv rechtsschief bzw. linkssteil Negativ linksschief bzw. rechtssteil
Statistik 1 - Schiefe- und Konzentrationsmaße5
rechtsschief linksschief
Unimodale symmetrische Verteilung
Bei multimodalen Verteilungen ist keine einfache Interpretation möglich
Typische Maße
Pearson‘scher (zweiter) Schiefekoeffizient:
Quartilskoeffizient der Schiefe
Statistik 1 - Schiefe- und Konzentrationsmaße6
k
3 x xS
3 2 2 1q
3 1
Q Q Q QS
Q Q
x x
Q1 Q2 Q3
Momentenkoeffizient der Schiefe (Fisher)
Im Fall von Einzeldaten:
Bei klassierten Daten
Statistik 1 - Schiefe- und Konzentrationsmaße7
n3
i3i 1
m 3 3n
2i
i 1
1 x xzmnSs1 x x
n
k3
i ii 1
m 3n
2i i
i 1
1 m x nnS1 m x nn
Wölbung (Kurtosis) einer Verteilung
Die Wölbung oder Kurtosis beschreibt die Steilheit bzw. „Spitzigkeit“ einer (eingipfeligen) Häufigkeitsverteilung.
Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen.
Um das Ausmaß der Wölbung besser einschätzen zu können, wird sie mit der Wölbung einer Gauß‘schen Glockenkurve (Normalverteilung) verglichen, deren Wölbung konstant 3 ist.
Der Exzess gibt die Differenz der Wölbung einer empirischen Verteilung zur Wölbung einer Gauß‘schen Glockenkurve an.
Der Exzess einer Verteilung ist daher definiert als: Exzess = Wölbung -3
Statistik 1 - Schiefe- und Konzentrationsmaße8
Wölbung (Kurtosis) einer Verteilung
Verteilungen werden entsprechend ihres Exzesses eingeteilt in:
= 0: normalgipflig oder mesokurtischEmpirische Wölbung entspricht der Wölbung einer Gauß‘schen Glockenkurve
> 0 : steilgipflig oder leptokurtisch. Im Vergleich zur Normalverteilung eine spitzere Verteilung, d.h. mit stark ausgeprägten Peak.
< 0 : flachgipflig oder platykurtisch. Im Vergleich zur Normalverteilung abgeflachte Verteilung.
Statistik 1 - Schiefe- und Konzentrationsmaße9
Momentenkoeffizient der Wölbung (Kurtosis)
Ermittlung des Exzesses
Im Fall von Einzeldaten:
Bei klassierten Daten
Statistik 1 - Schiefe- und Konzentrationsmaße10
n4
ii 1 4
2 4n2
ii 1
1 x xzmn 3 3s1 x x
n
k4
i ii 1
2n2
i ii 1
1 m x nn 31 m x nn
Beispiel von Folie-2 (siehe auch XLS)
Statistik 1 - Schiefe- und Konzentrationsmaße11
Klasse mi Gruppe A Gruppe B Gruppe C
0‐2 1 0 4 0 0 ‐864 0 0 5184 02‐4 3 12 4 4 ‐768 ‐256 ‐256 3072 1024 10244‐6 5 24 20 40 ‐192 ‐160 ‐320 384 320 6406‐8 7 28 44 24 0 0 0 0 0 08‐10 9 24 20 20 192 160 160 384 320 32010‐12 11 12 4 8 768 256 512 3072 1024 204812‐14 13 0 4 4 0 864 864 0 5184 5184
100 100 100 0 0 960 6912 13056 92160 0 0,694 ‐0,9167 0,9352 ‐0,2222
Schiefe Wölbung
k3
i ii 1
m 3n
2i i
i 1
1 m x nnS1 m x nn
k4
i ii 1
2n2
i ii 1
1 m x nn 31 m x nn
Wie teilt sich die gesamte Merkmalssumme auf die einzelnen Merkmalsträger auf?
Aufteilung der Gesamtbevölkerung inGemeinden verschiedener Größenklasse
Aufteilung des gesamten Steueraufkommens auf die einzelnen Steuersubjekte
Aufteilung der gesamten Schadensumme einer Versicherungssparte auf die einzelnen Verträge
Aufteilung des gesamten Marktumsatzes eines Produktes auf verschiedene Anbieter
Konzentrationsmessung
12 Statistik 1 - Schiefe- und Konzentrationsmaße
Statistik 1 - Schiefe- und Konzentrationsmaße13
Konzentrationsmessung
Absolute Konzentration:Verteilung der Merkmalssumme auf eine bestimmte Anzahl der Merkmalsträger
Relative Konzentration:Verteilung der Merkmalssumme auf einen bestimmten Anteil der Merkmalsträger
Maximale Konzentration:Die gesamte Merkmalssumme entfällt auf einen Merkmalsträger; alle anderen haben die Merkmalssumme Null.
Minimale Konzentration:Die Merkmalssumme teilt sich gleichmäßig auf alle Elemente der Grundgesamtheit auf. Jeder Merkmalsträger hat dieselbe Merkmalsausprägung.
14 Statistik 1 - Schiefe- und Konzentrationsmaße
Maßzahlen der absoluten Konzentration
nxxx ...21
n
jj
ii
x
xP
1
Anteil des i-ten Merkmalträgers an der gesamten Merkmalssumme in der geordneten Stichprobe
Konzentrationsrate:
n
mnjjn
jj
n
mnjj
m Px
xC
1
1
1
Anteil der gesamten Merkmalssumme, der auf die m-größten Merkmalsträger entfällt
Nachteil: Aussage immer nur für ein gegebenes m
15 Statistik 1 - Schiefe- und Konzentrationsmaße
Gesamte Merkmalssumme
Gesamte Merkmalssumme
Merkmalssumme der m-größten Merkmalsträger
Beispiel (siehe auch XLS)
Statistik 1 - Schiefe- und Konzentrationsmaße16
Unternehmen AProdukt Umsatz Anteilb 0 0%c 0 0% C(2) = 100%d 0 0% C(3) = 100%e 0 0%a 1000 100%
1000
Unternehmen BProdukt Umsatz Anteile 60 6%d 80 8% C(2) = 66%c 200 20% C(3) = 86%b 300 30%a 360 36%
1000
Unternehmen CProdukt Umsatz Anteila 200 20%b 200 20% C(2) = 40%c 200 20% C(3) = 60%d 200 20%e 200 20%
1000
Konzentrationsrate
Interpretation:Auf die 2 bzw. 3 umsatzstärksten Produkte entfällt x% des Gesamtumsatzes
(i) maximale Konzentration
(ii) minimale Konzentration
(iii) Fusion zweier Merkmalsträger erhöht immer den Index
Herfindahl-Index (Hirschman-Index)
n
1j
2jP:C
Eigenschaften:
nC 1
1C
x
x
x4
x3
x2
x1
x1 x2 x3 x4
x1+2
4
1iix
4
1iix
Der HI ist die Summe der quadrierten relativen Anteile der Merkmalsträger an der Merkmalsumme
17 Statistik 1 - Schiefe- und Konzentrationsmaße
Beispiel (siehe auch XLS)
Statistik 1 - Schiefe- und Konzentrationsmaße18
Unternehmen AProdukt Umsatz Anteil Anteil²b 0 0% 0%c 0 0% 0%d 0 0% 0%e 0 0% 0%a 1000 100% 100%
1000 100% <<< Herfindahl Index
Unternehmen BProdukt Umsatz Anteil Anteil²e 60 6% 0%d 80 8% 1%c 200 20% 4%b 300 30% 9%a 360 36% 13%
1000 27% <<< Herfindahl Index
Unternehmen CProdukt Umsatz Anteil Anteil²a 200 20% 4%b 200 20% 4%c 200 20% 4%d 200 20% 4%e 200 20% 4%
1000 20% <<< Herfindahl Index
Lorenzkurve
grafische Darstellung der Konzentration:
Abszisse : kumulierte Anteile der Merkmalsträger ki
Ordinate: kumulierte Anteile an der Merkmalssumme li
Ein Punkt (ki, li) der Lorenzkurve gibt an, dass auf dieki ·100% kleinsten Merkmalsträger li ·100% dergesamten Merkmalssumme entfallen.
Lorenzkurve: Verbindungslinie zwischen allen (ki, li) bei i = 0,...,qmit (k0, l0)=(0,0) und (kq, lq)=(1,1)
19 Statistik 1 - Schiefe- und Konzentrationsmaße
Beispiel
Unternehmen a b c d e GesamtumsatzA 1000 0 0 0 0 1000B 360 300 200 80 60 1000C 200 200 200 200 200 1000
Umsatz im Produkt
Unternehmen A
Produkt UmsatzAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger (ki)
kumulierter Anteil Merkmalssumme (li)
b 0 0,20 0,00 0,20 0,00c 0 0,20 0,00 0,40 0,00d 0 0,20 0,00 0,60 0,00e 0 0,20 0,00 0,80 0,00a 1000 0,20 1,00 1,00 1,00
1000 1,00 1,00
20 Statistik 1 - Schiefe- und Konzentrationsmaße
Lorenzkurve
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Beispiel: Verteilung Unternehmen AKumulierte Anteile am gesamten Merkmalsbetrag
Kumulierte Anteile der Merkmalsträger
21 Statistik 1 - Schiefe- und Konzentrationsmaße
Beispiel B,C
Unternehmen B
Produkt UmsatzAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger (ki)
kumulierter Anteil Merkmalssumme (li)
e 60 0,20 0,06 0,20 0,06d 80 0,20 0,08 0,40 0,14c 200 0,20 0,20 0,60 0,34b 300 0,20 0,30 0,80 0,64a 360 0,20 0,36 1,00 1,00
1000 1,00 1,00
Unternehmen C
Produkt UmsatzAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger (ki)
kumulierter Anteil Merkmalssumme (li)
a 200 0,20 0,20 0,20 0,20b 200 0,20 0,20 0,40 0,40c 200 0,20 0,20 0,60 0,60d 200 0,20 0,20 0,80 0,80e 200 0,20 0,20 1,00 1,00
1000 1,00 1,00
22 Statistik 1 - Schiefe- und Konzentrationsmaße
Lorenzkurve
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Beispiel: Verteilung Unternehmen BKumulierte Anteile am gesamten Merkmalsbetrag
Kumulierte Anteile der Merkmalsträger
23 Statistik 1 - Schiefe- und Konzentrationsmaße
Beispiel: Verteilung Unternehmen C
Lorenzkurve
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0Kumulierte Anteile am
gesamten Merkmalsbetrag
Kumulierte Anteile der Merkmalsträger
24 Statistik 1 - Schiefe- und Konzentrationsmaße
Konzentrationsmessung
Konzentrationsmaß nach Lorenz-Münzner (Gini-Maß)
LKM = 2F
F ... Fläche zwischen Diagonale und Lorenzkurve
Fläche ist sinnvolle Basis für ein Konzentrationsmaß
25 Statistik 1 - Schiefe- und Konzentrationsmaße
Statistik 1 - Schiefe- und Konzentrationsmaße26
Relative KonzentrationsmessungNotation:
q21 a...aa
q1 H...H
q1 h...h
q geordnete Merkmalsausprägungen
absolute Häufigkeit
relative Häufigkeit
Anzahl der Merkmalsträger:
Merkmalssumme:
kumulierte Anteile der Merkmalsträger:
nHq
1ii
q
1iii
n
1jj Hax
i
1jj
i
1j
ji h
nH
k
kumulierte Anteile an der Merkmalssumme:
q
1jjj
i
1jjj
i
Ha
Hal
Konzentrationsmessung
1
li
li-1
0
Fi
F
27 Statistik 1 - Schiefe- und Konzentrationsmaße
Statistik 1 - Schiefe- und Konzentrationsmaße28
Konzentrationsmessung
Die Fläche F kann durch die Summe der Trapezflächen Fiabzüglich der Fläche des oberen Dreiecks berechnet werden:
q,...,1ifürHa
Ha2
kk
HaHaHa
12
kk)ll(2
kkF
mit5,0FF
q
1jjj
iii1i
1i
1jjj
i
1jjjq
1jjj
i1i1ii
i1ii
q
1ii
Statistik 1 - Schiefe- und Konzentrationsmaße29
Konzentrationsmessung
Damit berechnet sich das Lorenzsche Konzentrationsmaß
,1Ha
Ha)kk(LKM q
1jjj
iiq
1ii1i
wobei gilt: .0kundq,...,1ifür1nH
k 0
i
1j
ji
Für das Lorenzsche Konzentrationsmaß gilt: ;
n1nLKM0
LKM=0, falls alle Merkmalswerte in der Beobachtungsreihe gleich sind, und (n-1)/n bei maximaler Konzentration auf einen Merkmalsträger. Eine Normierung auf [0,1] erzielt man daher mit:
( 1)
NormnLKM LKM
n
Statistik 1 - Schiefe- und Konzentrationsmaße30
Unternehmen A
Produkt UmsatzAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger (ki)
kumulierter Anteil Merkmalssumme (li) ki-1+ki
b 0 0,20 0,00 0,20 0,00 0,200 0,000c 0 0,20 0,00 0,40 0,00 0,600 0,000d 0 0,20 0,00 0,60 0,00 1,000 0,000e 0 0,20 0,00 0,80 0,00 1,400 0,000a 1000 0,20 1,00 1,00 1,00 1,800 1,800
1000 1,00 1,00 LKM= 0,800LKMNorm= 1,000
Unternehmen B
Produkt UmsatzAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger (ki)
kumulierter Anteil Merkmalssumme (li) ki-1+ki
e 60 0,20 0,06 0,20 0,06 0,200 0,012d 80 0,20 0,08 0,40 0,14 0,600 0,048c 200 0,20 0,20 0,60 0,34 1,000 0,200b 300 0,20 0,30 0,80 0,64 1,400 0,420a 360 0,20 0,36 1,00 1,00 1,800 0,648
1000 1,00 1,00 LKM= 0,328LKMNorm= 0,410
Unternehmen C
Produkt UmsatzAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger (ki)
kumulierter Anteil Merkmalssumme (li) ki-1+ki
a 200 0,20 0,20 0,20 0,20 0,200 0,040b 200 0,20 0,20 0,40 0,40 0,600 0,120c 200 0,20 0,20 0,60 0,60 1,000 0,200d 200 0,20 0,20 0,80 0,80 1,400 0,280e 200 0,20 0,20 1,00 1,00 1,800 0,360
1000 1,00 1,00 LKM= 0,000LKMNorm= 0,000
1
i iq
j jj
a H
a H ,1
Ha
Ha)kk(LKM q
1jjj
iiq
1ii1i
( 1)
NormnLKM LKM
n
Darstellung als Lorenz-Kurve
Statistik 1 - Schiefe- und Konzentrationsmaße31
Anteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger
kumulierter Anteil Merkmalssumme
0% 0,0% 0% 0,0%20% 2,2% 20% 2,2%20% 9,5% 40% 11,7%20% 17,1% 60% 28,8%20% 24,5% 80% 53,3%20% 46,7% 100% 100,0%
0,0% 2,2%
11,7%
28,8%
53,3%
100,0%
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
0% 20% 40% 60% 80% 100%
kumul. A
nteil an de
n gesamten
Bruttobe
zügen
kumul. Anteil der Arbeitnehmer geordnet nach Einkommen
Berechnung des LM-Koeefizienten
Statistik 1 - Schiefe- und Konzentrationsmaße32
Anteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger
(ki)
kumulierter Anteil Merkmalssumme
(li) ki-1+ki
0,20 0,02 0,20 0,0220 0,200 0,0040,20 0,10 0,40 0,1170 0,600 0,0570,20 0,17 0,60 0,2880 1,000 0,1710,20 0,25 0,80 0,5330 1,400 0,3430,20 0,47 1,00 1,0000 1,800 0,8411,00 LKM= 0,416
LKMNorm= 0,520
,1Ha
Ha)kk(LKM q
1jjj
iiq
1ii1i
Statistik 1 - Schiefe- und Konzentrationsmaße33
Wer sind die Merkmalsträger?
> Staatenoder > Personen
Konzentration des BSP auf Staaten bzw. auf Bevölkerung
Produkt Anzahl BSPAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger
kumulierter Anteil Merkmalssumme LKM
Ärmste Staaten 61 712452 0,29 0,02 0,29 0,02 0,01Arme Staaten 59 2802834 0,28 0,09 0,57 0,12 0,08Arme Staaten 36 2608335 0,17 0,09 0,74 0,20 0,11Reiche Starten 54 24001123 0,26 0,80 1,00 1,00 1,39
210 30124744 1,00 1,00 0,59
Produkt Anzahl BSPAnteil Merkmalsträger
Anteil Merkmalssumme
kumulierter Anteil Merkmalsträger
kumulierter Anteil Merkmalssumme LKM
Ärmste Staaten 2036 712452 0,35 0,02 0,35 0,02 0,01Arme Staaten 2283 2802834 0,39 0,09 0,74 0,12 0,10Arme Staaten 574 2608335 0,10 0,09 0,84 0,20 0,14Reiche Starten 927 24001123 0,16 0,80 1,00 1,00 1,47
5820 30124744 1,00 1,00 1,34 0,71
Bezieht man die Aufteilung des BSP nicht auf die Anzahl der Staaten, sondern auf die betroffene Bevölkerung, so ergibt sich eine deutlich höhere Konzentration
34 Statistik 1 - Schiefe- und Konzentrationsmaße
Paradoxon
Für 2 große Grundgesamtheiten (n) werden 2 inhaltlich unterschiedliche Phänomene relativer Konzentration beobachtet:
A: Die Hälfte der Merkmalsträger hat eineMerkmalsausprägung von Null, von deranderen Hälfte haben alle denselbenMerkmalswert > 0
B: Ein Merkmalsträger vereinigt 50% der Merkmalssumme auf sich, die restlichen 50%der Merkmalssumme verteilen sich gleichmäßig auf alle anderen Merkmalsträger
In beiden Fällen gilt: LKM = 0,5
35 Statistik 1 - Schiefe- und Konzentrationsmaße
Paradoxon
Lorenzkurve
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Lorenzkurve
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Fall A Fall B
36 Statistik 1 - Schiefe- und Konzentrationsmaße
Beispielsverteilungen
Version Produkt1
Produkt2
Produkt3
Produkt4
Produkt5
Summe
A 400 400 400 400 400 2000B 400 200 800 400 200 2000C 400 1200 100 100 200 2000D 0 0 0 2000 0 2000E 200 300 400 500 600 2000F 300 500 100 400 700 2000
Version Herfindahl-Index Lorenz MünznerKoeffizient
A 0.200 0.000B 0.260 0.350C 0.415 0.625D 1.000 1.000E 0.225 0.250F 0.250 0.350
37 Statistik 1 - Schiefe- und Konzentrationsmaße
Lorenzkurven der Verteilungen A und B
Lorenzkurve - Version A
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Lorenzkurve - Version B
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
38 Statistik 1 - Schiefe- und Konzentrationsmaße
Lorenzkurven der Verteilungen C und D
Lorenzkurve - Version C
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Lorenzkurve - Version D
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
39 Statistik 1 - Schiefe- und Konzentrationsmaße
Lorenzkurven der Verteilungen E und F
Lorenzkurve - Version E
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Lorenzkurve - Version F
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
40 Statistik 1 - Schiefe- und Konzentrationsmaße
Recommended