Schiefe-, Wölbungs- und Konzentrationsmaßemarcushudec.at/download/docman/27/5 Schiefe- und... ·...

Preview:

Citation preview

Schiefe-, Wölbungs- und Konzentrationsmaße

Univ.Prof. Dr. Marcus Hudec

Statistik 1 für SoziologInnen

Höhere Verteilungsmaßzahlen

Ein stetiges Merkmal wurde in 3 Gruppen beobachtet und in Form der folgenden Häufigkeitstabelle berichtet:

Berechnung von Mittelwert und Streuung

Statistik 1 - Schiefe- und Konzentrationsmaße2

Klasse mi Gruppe A Gruppe B Gruppe C

0‐2 1 0 4 02‐4 3 12 4 44‐6 5 24 20 406‐8 7 28 44 248‐10 9 24 20 2010‐12 11 12 4 812‐14 13 0 4 4

100 100 100

Berechnung von Mittelwert und Streuung

Statistik 1 - Schiefe- und Konzentrationsmaße3

Das arithmetische Mittel ist an allen 3 Gruppen gleich 7.Die Varianz ist an allen 3 Gruppen gleich 5,76 bzw. ist die Standardabweichung in allen 3 Gruppen 2,4.

Gruppe A Gruppe B Gruppe C Gruppe A Gruppe B Gruppe CKlasse mi Gruppe A Gruppe B Gruppe C mi*ni mi*ni mi*ni mi²*ni mi²*ni mi²*ni

0‐2 1 0 4 0 0 4 0 0 4 02‐4 3 12 4 4 36 12 12 108 36 364‐6 5 24 20 40 120 100 200 600 500 10006‐8 7 28 44 24 196 308 168 1372 2156 11768‐10 9 24 20 20 216 180 180 1944 1620 162010‐12 11 12 4 8 132 44 88 1452 484 96812‐14 13 0 4 4 0 52 52 0 676 676

100 100 100 700 700 700 5476 5476 54767 7 7 5,76 5,76 5,76

2,4 2,4 2,4

2 2 2

1 1

1 1

k k

i i i ii i

x n m m n xn n

Visualisierung

Statistik 1 - Schiefe- und Konzentrationsmaße4

Obwohl Mittelwert und Varianz gleich sind, unterscheiden sich die drei Verteilungen in Bezug auf Ihre Form erheblich wir benötigen Maßzahlen höherer Ordnung

Maßzahlen der Schiefe

Konvention: Positiv rechtsschief bzw. linkssteil Negativ linksschief bzw. rechtssteil

Statistik 1 - Schiefe- und Konzentrationsmaße5

rechtsschief linksschief

Unimodale symmetrische Verteilung

Bei multimodalen Verteilungen ist keine einfache Interpretation möglich

Typische Maße

Pearson‘scher (zweiter) Schiefekoeffizient:

Quartilskoeffizient der Schiefe

Statistik 1 - Schiefe- und Konzentrationsmaße6

k

3 x xS

3 2 2 1q

3 1

Q Q Q QS

Q Q

x x

Q1 Q2 Q3

Momentenkoeffizient der Schiefe (Fisher)

Im Fall von Einzeldaten:

Bei klassierten Daten

Statistik 1 - Schiefe- und Konzentrationsmaße7

n3

i3i 1

m 3 3n

2i

i 1

1 x xzmnSs1 x x

n

k3

i ii 1

m 3n

2i i

i 1

1 m x nnS1 m x nn

Wölbung (Kurtosis) einer Verteilung

Die Wölbung oder Kurtosis beschreibt die Steilheit bzw. „Spitzigkeit“ einer (eingipfeligen) Häufigkeitsverteilung.

Verteilungen mit geringer Wölbung streuen relativ gleichmäßig; bei Verteilungen mit hoher Wölbung resultiert die Streuung mehr aus extremen, aber seltenen Ereignissen.

Um das Ausmaß der Wölbung besser einschätzen zu können, wird sie mit der Wölbung einer Gauß‘schen Glockenkurve (Normalverteilung) verglichen, deren Wölbung konstant 3 ist.

Der Exzess gibt die Differenz der Wölbung einer empirischen Verteilung zur Wölbung einer Gauß‘schen Glockenkurve an.

Der Exzess einer Verteilung ist daher definiert als: Exzess = Wölbung -3

Statistik 1 - Schiefe- und Konzentrationsmaße8

Wölbung (Kurtosis) einer Verteilung

Verteilungen werden entsprechend ihres Exzesses eingeteilt in:

= 0: normalgipflig oder mesokurtischEmpirische Wölbung entspricht der Wölbung einer Gauß‘schen Glockenkurve

> 0 : steilgipflig oder leptokurtisch. Im Vergleich zur Normalverteilung eine spitzere Verteilung, d.h. mit stark ausgeprägten Peak.

< 0 : flachgipflig oder platykurtisch. Im Vergleich zur Normalverteilung abgeflachte Verteilung.

Statistik 1 - Schiefe- und Konzentrationsmaße9

Momentenkoeffizient der Wölbung (Kurtosis)

Ermittlung des Exzesses

Im Fall von Einzeldaten:

Bei klassierten Daten

Statistik 1 - Schiefe- und Konzentrationsmaße10

n4

ii 1 4

2 4n2

ii 1

1 x xzmn 3 3s1 x x

n

k4

i ii 1

2n2

i ii 1

1 m x nn 31 m x nn

Beispiel von Folie-2 (siehe auch XLS)

Statistik 1 - Schiefe- und Konzentrationsmaße11

Klasse mi Gruppe A Gruppe B Gruppe C

0‐2 1 0 4 0 0 ‐864 0 0 5184 02‐4 3 12 4 4 ‐768 ‐256 ‐256 3072 1024 10244‐6 5 24 20 40 ‐192 ‐160 ‐320 384 320 6406‐8 7 28 44 24 0 0 0 0 0 08‐10 9 24 20 20 192 160 160 384 320 32010‐12 11 12 4 8 768 256 512 3072 1024 204812‐14 13 0 4 4 0 864 864 0 5184 5184

100 100 100 0 0 960 6912 13056 92160 0 0,694 ‐0,9167 0,9352 ‐0,2222

Schiefe Wölbung

k3

i ii 1

m 3n

2i i

i 1

1 m x nnS1 m x nn

k4

i ii 1

2n2

i ii 1

1 m x nn 31 m x nn

Wie teilt sich die gesamte Merkmalssumme auf die einzelnen Merkmalsträger auf?

Aufteilung der Gesamtbevölkerung inGemeinden verschiedener Größenklasse

Aufteilung des gesamten Steueraufkommens auf die einzelnen Steuersubjekte

Aufteilung der gesamten Schadensumme einer Versicherungssparte auf die einzelnen Verträge

Aufteilung des gesamten Marktumsatzes eines Produktes auf verschiedene Anbieter

Konzentrationsmessung

12 Statistik 1 - Schiefe- und Konzentrationsmaße

Statistik 1 - Schiefe- und Konzentrationsmaße13

Konzentrationsmessung

Absolute Konzentration:Verteilung der Merkmalssumme auf eine bestimmte Anzahl der Merkmalsträger

Relative Konzentration:Verteilung der Merkmalssumme auf einen bestimmten Anteil der Merkmalsträger

Maximale Konzentration:Die gesamte Merkmalssumme entfällt auf einen Merkmalsträger; alle anderen haben die Merkmalssumme Null.

Minimale Konzentration:Die Merkmalssumme teilt sich gleichmäßig auf alle Elemente der Grundgesamtheit auf. Jeder Merkmalsträger hat dieselbe Merkmalsausprägung.

14 Statistik 1 - Schiefe- und Konzentrationsmaße

Maßzahlen der absoluten Konzentration

nxxx ...21

n

jj

ii

x

xP

1

Anteil des i-ten Merkmalträgers an der gesamten Merkmalssumme in der geordneten Stichprobe

Konzentrationsrate:

n

mnjjn

jj

n

mnjj

m Px

xC

1

1

1

Anteil der gesamten Merkmalssumme, der auf die m-größten Merkmalsträger entfällt

Nachteil: Aussage immer nur für ein gegebenes m

15 Statistik 1 - Schiefe- und Konzentrationsmaße

Gesamte Merkmalssumme

Gesamte Merkmalssumme

Merkmalssumme der m-größten Merkmalsträger

Beispiel (siehe auch XLS)

Statistik 1 - Schiefe- und Konzentrationsmaße16

Unternehmen AProdukt Umsatz Anteilb 0 0%c 0 0% C(2) = 100%d 0 0% C(3) = 100%e 0 0%a 1000 100%

1000

Unternehmen BProdukt Umsatz Anteile 60 6%d 80 8% C(2) = 66%c 200 20% C(3) = 86%b 300 30%a 360 36%

1000

Unternehmen CProdukt Umsatz Anteila 200 20%b 200 20% C(2) = 40%c 200 20% C(3) = 60%d 200 20%e 200 20%

1000

Konzentrationsrate

Interpretation:Auf die 2 bzw. 3 umsatzstärksten Produkte entfällt x% des Gesamtumsatzes

(i) maximale Konzentration

(ii) minimale Konzentration

(iii) Fusion zweier Merkmalsträger erhöht immer den Index

Herfindahl-Index (Hirschman-Index)

n

1j

2jP:C

Eigenschaften:

nC 1

1C

x

x

x4

x3

x2

x1

x1 x2 x3 x4

x1+2

4

1iix

4

1iix

Der HI ist die Summe der quadrierten relativen Anteile der Merkmalsträger an der Merkmalsumme

17 Statistik 1 - Schiefe- und Konzentrationsmaße

Beispiel (siehe auch XLS)

Statistik 1 - Schiefe- und Konzentrationsmaße18

Unternehmen AProdukt Umsatz Anteil Anteil²b 0 0% 0%c 0 0% 0%d 0 0% 0%e 0 0% 0%a 1000 100% 100%

1000 100% <<< Herfindahl Index

Unternehmen BProdukt Umsatz Anteil Anteil²e 60 6% 0%d 80 8% 1%c 200 20% 4%b 300 30% 9%a 360 36% 13%

1000 27% <<< Herfindahl Index

Unternehmen CProdukt Umsatz Anteil Anteil²a 200 20% 4%b 200 20% 4%c 200 20% 4%d 200 20% 4%e 200 20% 4%

1000 20% <<< Herfindahl Index

Lorenzkurve

grafische Darstellung der Konzentration:

Abszisse : kumulierte Anteile der Merkmalsträger ki

Ordinate: kumulierte Anteile an der Merkmalssumme li

Ein Punkt (ki, li) der Lorenzkurve gibt an, dass auf dieki ·100% kleinsten Merkmalsträger li ·100% dergesamten Merkmalssumme entfallen.

Lorenzkurve: Verbindungslinie zwischen allen (ki, li) bei i = 0,...,qmit (k0, l0)=(0,0) und (kq, lq)=(1,1)

19 Statistik 1 - Schiefe- und Konzentrationsmaße

Beispiel

Unternehmen a b c d e GesamtumsatzA 1000 0 0 0 0 1000B 360 300 200 80 60 1000C 200 200 200 200 200 1000

Umsatz im Produkt

Unternehmen A

Produkt UmsatzAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger (ki)

kumulierter Anteil Merkmalssumme (li)

b 0 0,20 0,00 0,20 0,00c 0 0,20 0,00 0,40 0,00d 0 0,20 0,00 0,60 0,00e 0 0,20 0,00 0,80 0,00a 1000 0,20 1,00 1,00 1,00

1000 1,00 1,00

20 Statistik 1 - Schiefe- und Konzentrationsmaße

Lorenzkurve

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Beispiel: Verteilung Unternehmen AKumulierte Anteile am gesamten Merkmalsbetrag

Kumulierte Anteile der Merkmalsträger

21 Statistik 1 - Schiefe- und Konzentrationsmaße

Beispiel B,C

Unternehmen B

Produkt UmsatzAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger (ki)

kumulierter Anteil Merkmalssumme (li)

e 60 0,20 0,06 0,20 0,06d 80 0,20 0,08 0,40 0,14c 200 0,20 0,20 0,60 0,34b 300 0,20 0,30 0,80 0,64a 360 0,20 0,36 1,00 1,00

1000 1,00 1,00

Unternehmen C

Produkt UmsatzAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger (ki)

kumulierter Anteil Merkmalssumme (li)

a 200 0,20 0,20 0,20 0,20b 200 0,20 0,20 0,40 0,40c 200 0,20 0,20 0,60 0,60d 200 0,20 0,20 0,80 0,80e 200 0,20 0,20 1,00 1,00

1000 1,00 1,00

22 Statistik 1 - Schiefe- und Konzentrationsmaße

Lorenzkurve

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Beispiel: Verteilung Unternehmen BKumulierte Anteile am gesamten Merkmalsbetrag

Kumulierte Anteile der Merkmalsträger

23 Statistik 1 - Schiefe- und Konzentrationsmaße

Beispiel: Verteilung Unternehmen C

Lorenzkurve

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0Kumulierte Anteile am

gesamten Merkmalsbetrag

Kumulierte Anteile der Merkmalsträger

24 Statistik 1 - Schiefe- und Konzentrationsmaße

Konzentrationsmessung

Konzentrationsmaß nach Lorenz-Münzner (Gini-Maß)

LKM = 2F

F ... Fläche zwischen Diagonale und Lorenzkurve

Fläche ist sinnvolle Basis für ein Konzentrationsmaß

25 Statistik 1 - Schiefe- und Konzentrationsmaße

Statistik 1 - Schiefe- und Konzentrationsmaße26

Relative KonzentrationsmessungNotation:

q21 a...aa

q1 H...H

q1 h...h

q geordnete Merkmalsausprägungen

absolute Häufigkeit

relative Häufigkeit

Anzahl der Merkmalsträger:

Merkmalssumme:

kumulierte Anteile der Merkmalsträger:

nHq

1ii

q

1iii

n

1jj Hax

i

1jj

i

1j

ji h

nH

k

kumulierte Anteile an der Merkmalssumme:

q

1jjj

i

1jjj

i

Ha

Hal

Konzentrationsmessung

1

li

li-1

0

Fi

F

27 Statistik 1 - Schiefe- und Konzentrationsmaße

Statistik 1 - Schiefe- und Konzentrationsmaße28

Konzentrationsmessung

Die Fläche F kann durch die Summe der Trapezflächen Fiabzüglich der Fläche des oberen Dreiecks berechnet werden:

q,...,1ifürHa

Ha2

kk

HaHaHa

12

kk)ll(2

kkF

mit5,0FF

q

1jjj

iii1i

1i

1jjj

i

1jjjq

1jjj

i1i1ii

i1ii

q

1ii

Statistik 1 - Schiefe- und Konzentrationsmaße29

Konzentrationsmessung

Damit berechnet sich das Lorenzsche Konzentrationsmaß

,1Ha

Ha)kk(LKM q

1jjj

iiq

1ii1i

wobei gilt: .0kundq,...,1ifür1nH

k 0

i

1j

ji

Für das Lorenzsche Konzentrationsmaß gilt: ;

n1nLKM0

LKM=0, falls alle Merkmalswerte in der Beobachtungsreihe gleich sind, und (n-1)/n bei maximaler Konzentration auf einen Merkmalsträger. Eine Normierung auf [0,1] erzielt man daher mit:

( 1)

NormnLKM LKM

n

Statistik 1 - Schiefe- und Konzentrationsmaße30

Unternehmen A

Produkt UmsatzAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger (ki)

kumulierter Anteil Merkmalssumme (li) ki-1+ki

b 0 0,20 0,00 0,20 0,00 0,200 0,000c 0 0,20 0,00 0,40 0,00 0,600 0,000d 0 0,20 0,00 0,60 0,00 1,000 0,000e 0 0,20 0,00 0,80 0,00 1,400 0,000a 1000 0,20 1,00 1,00 1,00 1,800 1,800

1000 1,00 1,00 LKM= 0,800LKMNorm= 1,000

Unternehmen B

Produkt UmsatzAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger (ki)

kumulierter Anteil Merkmalssumme (li) ki-1+ki

e 60 0,20 0,06 0,20 0,06 0,200 0,012d 80 0,20 0,08 0,40 0,14 0,600 0,048c 200 0,20 0,20 0,60 0,34 1,000 0,200b 300 0,20 0,30 0,80 0,64 1,400 0,420a 360 0,20 0,36 1,00 1,00 1,800 0,648

1000 1,00 1,00 LKM= 0,328LKMNorm= 0,410

Unternehmen C

Produkt UmsatzAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger (ki)

kumulierter Anteil Merkmalssumme (li) ki-1+ki

a 200 0,20 0,20 0,20 0,20 0,200 0,040b 200 0,20 0,20 0,40 0,40 0,600 0,120c 200 0,20 0,20 0,60 0,60 1,000 0,200d 200 0,20 0,20 0,80 0,80 1,400 0,280e 200 0,20 0,20 1,00 1,00 1,800 0,360

1000 1,00 1,00 LKM= 0,000LKMNorm= 0,000

1

i iq

j jj

a H

a H ,1

Ha

Ha)kk(LKM q

1jjj

iiq

1ii1i

( 1)

NormnLKM LKM

n

Darstellung als Lorenz-Kurve

Statistik 1 - Schiefe- und Konzentrationsmaße31

Anteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger

kumulierter  Anteil Merkmalssumme

0% 0,0% 0% 0,0%20% 2,2% 20% 2,2%20% 9,5% 40% 11,7%20% 17,1% 60% 28,8%20% 24,5% 80% 53,3%20% 46,7% 100% 100,0%

0,0% 2,2%

11,7%

28,8%

53,3%

100,0%

0,0%

20,0%

40,0%

60,0%

80,0%

100,0%

0% 20% 40% 60% 80% 100%

kumul. A

nteil an de

n gesamten 

Bruttobe

zügen

kumul. Anteil der Arbeitnehmer geordnet nach Einkommen   

Berechnung des LM-Koeefizienten

Statistik 1 - Schiefe- und Konzentrationsmaße32

Anteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger 

(ki)

kumulierter Anteil Merkmalssumme 

(li) ki-1+ki

0,20 0,02 0,20 0,0220 0,200 0,0040,20 0,10 0,40 0,1170 0,600 0,0570,20 0,17 0,60 0,2880 1,000 0,1710,20 0,25 0,80 0,5330 1,400 0,3430,20 0,47 1,00 1,0000 1,800 0,8411,00 LKM= 0,416

LKMNorm= 0,520

,1Ha

Ha)kk(LKM q

1jjj

iiq

1ii1i

Statistik 1 - Schiefe- und Konzentrationsmaße33

Wer sind die Merkmalsträger?

> Staatenoder > Personen

Konzentration des BSP auf Staaten bzw. auf Bevölkerung

Produkt Anzahl BSPAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger

kumulierter Anteil Merkmalssumme LKM

Ärmste Staaten 61 712452 0,29 0,02 0,29 0,02 0,01Arme Staaten 59 2802834 0,28 0,09 0,57 0,12 0,08Arme Staaten 36 2608335 0,17 0,09 0,74 0,20 0,11Reiche Starten 54 24001123 0,26 0,80 1,00 1,00 1,39

210 30124744 1,00 1,00 0,59

Produkt Anzahl BSPAnteil Merkmalsträger

Anteil Merkmalssumme

kumulierter Anteil Merkmalsträger

kumulierter Anteil Merkmalssumme LKM

Ärmste Staaten 2036 712452 0,35 0,02 0,35 0,02 0,01Arme Staaten 2283 2802834 0,39 0,09 0,74 0,12 0,10Arme Staaten 574 2608335 0,10 0,09 0,84 0,20 0,14Reiche Starten 927 24001123 0,16 0,80 1,00 1,00 1,47

5820 30124744 1,00 1,00 1,34 0,71

Bezieht man die Aufteilung des BSP nicht auf die Anzahl der Staaten, sondern auf die betroffene Bevölkerung, so ergibt sich eine deutlich höhere Konzentration

34 Statistik 1 - Schiefe- und Konzentrationsmaße

Paradoxon

Für 2 große Grundgesamtheiten (n) werden 2 inhaltlich unterschiedliche Phänomene relativer Konzentration beobachtet:

A: Die Hälfte der Merkmalsträger hat eineMerkmalsausprägung von Null, von deranderen Hälfte haben alle denselbenMerkmalswert > 0

B: Ein Merkmalsträger vereinigt 50% der Merkmalssumme auf sich, die restlichen 50%der Merkmalssumme verteilen sich gleichmäßig auf alle anderen Merkmalsträger

In beiden Fällen gilt: LKM = 0,5

35 Statistik 1 - Schiefe- und Konzentrationsmaße

Paradoxon

Lorenzkurve

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Lorenzkurve

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Fall A Fall B

36 Statistik 1 - Schiefe- und Konzentrationsmaße

Beispielsverteilungen

Version Produkt1

Produkt2

Produkt3

Produkt4

Produkt5

Summe

A 400 400 400 400 400 2000B 400 200 800 400 200 2000C 400 1200 100 100 200 2000D 0 0 0 2000 0 2000E 200 300 400 500 600 2000F 300 500 100 400 700 2000

Version Herfindahl-Index Lorenz MünznerKoeffizient

A 0.200 0.000B 0.260 0.350C 0.415 0.625D 1.000 1.000E 0.225 0.250F 0.250 0.350

37 Statistik 1 - Schiefe- und Konzentrationsmaße

Lorenzkurven der Verteilungen A und B

Lorenzkurve - Version A

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Lorenzkurve - Version B

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

38 Statistik 1 - Schiefe- und Konzentrationsmaße

Lorenzkurven der Verteilungen C und D

Lorenzkurve - Version C

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Lorenzkurve - Version D

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

39 Statistik 1 - Schiefe- und Konzentrationsmaße

Lorenzkurven der Verteilungen E und F

Lorenzkurve - Version E

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

Lorenzkurve - Version F

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

40 Statistik 1 - Schiefe- und Konzentrationsmaße

Recommended