Analýza kvantitativních dat II. Míry variability : variační koeficient a další indexy

Analýza kvantitativních dat II.

Míry variability: variační koeficient

a další indexy

Jiří Šafr jiri.safr(zavináč)seznam.cz

Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 27. 10. 2014. (6.4. 2014)

UK FHSHistorická sociologie

(LS 2013)

1. Kardinální – číselné proměnné

3

Variační Rozpětí (Range)

• Základní míra: rozdíl mezi nejvyšší a nejnižší hodnotou znaku v datech.

• Nevypovídá o celkové variabilitě v datech, je citlivá na extrémní hodnoty (a ty mohou být náhodné).

• Proto je lepší používat charakteristiky popisující kolísání hodnot znaku kolem průměru nebo další míry polohy.

4

Variační koeficient• CV (coefficient of variation) je mírou relativního

rozptýlení dat. = podíl směrodatné odchylky k průměru. (nebo jiné střední hodnotě – mediánu)

• Relative standard deviation (RSD) dtto v

procentech.

• Ukazuje podíl variability ve vztahu k průměru v %.• Výhodou je, že můžeme porovnávat znaky s

odlišným průměrem i různými metrikami (rozsahy škál). → např. při mezinárodní komparaci

• Pouze pro poměrové proměnné (ratio scales) a pozitivní hodnoty.

5

Data – dvě situace (např. v SPSS) pro výpočet míry variability

1. CV across a set of variables for

each case – mezi (podobnými) proměnnými vždy pro jeden případ (např. respondent) = mezi sloupci

2. CV for one variable across cases –

v rámci jedné proměnné mezi případy = řádky

Zde je situace v SPSS složitější (pro uložení do proměnné nutno agregovat), pokud chceme jen zobrazit výsledek, pak lze použít příkazy REPORT nebo RANK (viz příklady 1 a 2).

COMPUTE CV_Spok = CFVAR (spokojenost1, spokojenost2, spokojenost3).

Lze provést porovnání CV např. pro podskupiny dle pohlaví.

CV = 0,41

6

Příklad 1. CV v rámci jedné proměnné mezi případy

spokojenost1 spokojenost2 spokojenost3____________ ____________ ____________Grand TotalPrůměr 3 2 4StdDev 1 1 0Variační koeficient ,41 ,41 ,00

REPORT /FORMAT= CHWRAP(ON) PREVIEW(OFF) CHALIGN(BOTTOM) UNDERSCORE(ON)ONEBREAKCOLUMN(OFF) CHDSPACE(1) SUMSPACE(0) AUTOMATIC NOLISTBRKSPACE(0) PAGE(1) MISSING'.' LENGTH(1, 59) ALIGN(LEFT) TSPACE(1) FTSPACE(1)/TITLE= RIGHT 'Page )PAGE‚ /VARIABLESspokojenost1 (VALUES) (RIGHT) (OFFSET(0)) (12)spokojenost2 (VALUES) (RIGHT) (OFFSET(0)) (12)spokojenost3 (VALUES) (RIGHT) (OFFSET(0)) (12)/BREAK (TOTAL) 'Grand Total' (SKIP(1))/SUMMARY MEAN(spokojenost1) SKIP(1) MEAN( spokojenost2 ) MEAN( spokojenost3 ) 'Průměr'/SUMMARY STDDEV( spokojenost1) STDDEV( spokojenost2 ) STDDEV( spokojenost3 ) 'StdDev‚ /SUMMARY = DIVIDE ( STDDEV( spokojenost1) MEAN( spokojenost1) ) (spokojenost1 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost2) MEAN( spokojenost2) ) (spokojenost2 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost3) MEAN( spokojenost3) ) (spokojenost3 (2) ) SKIP(1) 'Variační koeficient' .

Nelze v menu, musíme v syntaxu, využijeme příkaz REPORT Summaries in Rows, kde doplníme do Summary příkaz DIVIDE (se zadáním podílu směr.odch. / průměr)

Příklad 2. CV v rámci jedné proměnné mezi případy:

agregovaná data + v oddělených blocích na základě časových období

Spotřeba potravin podle sociálních tříd v letech 1960-1980

(hypotetická data)

8

Příklad 2. Spotřeba potravin podle sociálních tříd v letech 1960-1980

Jde o již dříve publikované údaje. (získali jsme je např. z tabulek v publikaci ČSÚ)

Uspořádána jsou jako agregované „události-roky“, tj. vždy pro daný rok „případy“ – soc. třídy a jejich spotřeba potravin v kg.

Chceme zjistit variabilitu – rozptýlenost hodnot ve spotřebě potravin) mezi třídami v daném roce.

Měříme vlastně nerovnost ve spotřebě komodit mezi třídami v časovém srovnání.

9

Příklad 2. CV pomocí RATIO v SPSS

• Zkoumáme jak se v čase proměnila variance ve spotřebě komodit mezi třídami.

• V SPSS příkaz RATIO, který slouží k porovnání poměru dvou (kardinálních) proměnných.

• Pokud chceme CV pouze pro jednu proměnnou použijeme jednoduchý trik: vytvoříme proměnnou s konstantní hodnotou 1 a k ní budeme danou komoditu vztahovat .

• Protože zde porovnáváme spotřebu v čase, provedeme navíc oddělení výsledků pro jednotlivé roky pomocí SPLIT.

10

Příprava a zadání výpočtu v syntaxu

*Vytvoření konstanty 1.COMPUTE konst1 =1.SORT CASES BY rok. SPLIT FILE LAYERED BY rok.

RATIO STATISTICS citrony WITH konst1 BY trida (ASCENDING)

/MISSING=EXCLUDE /PRINT=MEAN MNCOV RANGE STDDEV.Zadání samotného CV, zde ve vztahu k průměru (lze i

k mediánu) je MNCOV, navíc máme zadáno Rozpětí a Směrodatnou odchylku.

11

Výsledek: Variační koeficient v % (RSD)

CV (RSD) mezi lety 1960 až 1980 klesá, z 75,5 % na 0 %.

V daném období tedy rozdíly ve spotřebě citrónů mezi sociálními třídami poklesly na minimum (žádný rozdíl v roce 1980).

12

Další míry variability

• Koeficient rozptýlení dat - coefficient of dispersion / variance-to-mean ratio (VMR)

→ podíl mocniny směrodatné odch.k průměru RATIO STATISTICS lastval WITH saleval BY town (ASCENDING) /PRINT = BCOC(0.8,1.2) COD MEDIAN WCOC( 20 ) .

Zdroj: [SPSS 17 Tutorial]

2. Kategoriální (nominální/ordinální)

znaky

Míry variability pro nominální proměnné

14

Variabilita hodnot u nominálního znakuNa rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává).

Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

15

Míry variability pro kategoriální proměnnéponěkud složitější situace (než u kardinálních znaků)

Nominální proměnné:• Variační poměr – v• Nominální rozptyl – D (nomvar) (Giniho koeficient)

→ relativní počet všech dvojic, které nejsou ve stejné kategorii

• Normalizovaný nominální rozptyl (norm. nomvar nebo IQV)

• Entropie – H• normalizovaná entropie – H*

Ordinální proměnné:• Ordinální rozptyl - dorvar Viz http://iastat.vse.cz/Nominalni.html

16

Vlastnosti měr variability kategoriálních znaků

• Čím vyšší hodnota tím vyšší heterogenita souboru

• Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita

• Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita

• Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor.

Zdroj: [Řehák, Řeháková 1986: 66-69]

17

Variační poměr – v

• Nejjednodušší míra variability.

• Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou.

• Výhodou v je jednoduchost výpočtu.

• Nevýhodou v je, že je založeno pouze na modální četnosti (nomvar – D je pracnější,ale odráží celou strukturu tabulky).

Zdroj: [Řehák, Řeháková 1986: 66]

18

Příklad: Variační poměr – v (DATA)

[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

19

Příklad: Variační poměr – vZpůsob získávání denního tisku u pravidelných

čtenářů, pro Periodikum J (N = 1289)

Předplácí Kupuje K disp. v práci Půjčuje si Získává jinak Celkem N % z celku

48,3% 24,1% 6,9% 16,4% 43,0% 100 116 8,9

modus 0,483 (= Předplácí) absolutní četnost 56,028v 0,517 = 116 * 0,483

v = 1 – (56,028 / 116) = 0,517

Zdroj: [Řehák, Řeháková 1986: 68-69]

lze spočítat v Excelu:

V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků).

Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %).

20

Nominální variance (nomvar)Index diversity (D)

• nomvar nebo D

• Kde: p – podíl pozorování v dané i-té kategorii

→ podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také

→ pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií.

Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích.

[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

21

Normalizovaná nominální varianceIndex of Qualitative Variation (IQV)

norm.normvar = IQV = = D/(1–1/K)

kde K = počet kategorií a D = Index diversity (nom.var)• IQV = pozorované rozdíly /maximum možných rozdílů • Standardizovaná pravděpodobnost, že náhodný pár

ve výběru nebude patřit do stejné kategorie.• Rozpětí 0 až 1: Když všechny hodnoty patří do jedné

kategorie IQV = 0 (úplná homogenita). Když jsou všechny rovnoměrně zastoupeny pak IQV = 1 (maximum heterogenity)

• Jako max. počet kategorií (K) použijeme teoretickou hodnotu – všech možných kategorií, i kdyby v dané subpopulaci nebyly všechny zastoupeny.

• Více viz http://sociology.about.com/od/Statistics/a/Index-Of-Qualitative-Variation-Iqv.htm

22

Postup výpočtu IQV

1. Vypočítejte podíl kategorií → tabulka třídění 1. stupně (nebo 2. stupně – pro podskupiny)

2. Podíl v každé kategorie umocněte

3. Sečtěte umocněné podíly

4. Pro D: odečtěte od 1

5. Pro IQV: D vydělte (1-1/K) (k je max. počet kategorií)

23

Příklad: D a IQV [Agresti, Agresti 1978] Occupational Status by Race and Year in W'alton County, Florida

Index diverzity D (nomvar) pro bělochy (white population) v roce 1870:

D = 1 - 0.347 = 0.653

V populaci bělochů v roce 1870 je pravděpodobnost, že dva náhodně vybraní jedinci budou z odlišné profesně-třídní skupiny 0,653.

24

Standardizace D na IQV

• IQV = ((k- 1)*D)/k nebo D/(1–1/K)• 1–1/K = 1 – 1/6 = 0,833

→ Jde o maximální možnou hodnotu D zde 6 profesně třídních kategorií)

• IQV = 0,653 / 0,833 = 0,784

25

• Spočítejte D a IQV pro další kategorie:

• Běloši 1870

• Běloši 1885

• Černoši 1870

• Černoši 1885

Pokračování příklad D a IQV [Agresti, Agresti 1978]

26

• V každém roce je černošská populace v porovnání s bělošskou méně profesně-třídně heterogenní.

• V černošské populaci došlo za 15 let k poklesu diverzity profesně-třídních kategorií, zatímco u bělochů variance zůstala přibližně stejná.

Pokračování příklad D a IQV [Agresti, Agresti 1978]

Běloši Černoši

1870 1885 1870 1885

0,784 0,811 0,442 0,230

27

Míry variability nominální/ordinální proměnné v SPSS

• SPSS neobsahuje, ale existuje skript, který lze aplikovat na tabulku třídění 1.stupně (FREQUENCIES) Míry variability pro kategorizované proměnné

• http://acrea.cz/cz/skripty/mira-variability• K dispozici jsou tyto míry: variační poměr,

nominální variance, normovaná nominální variance, ordinální variance a normovaná ordinální variance.

• Definice těchto měr lze najít v knize Řehák J., Řeháková B. 1986.

Analýza kategorizovaných dat v sociologii. Praha: Academia.

28

Míry variability pro kategorizované znaky v SPSS - skript

Vstupní tabulka

výsledek

29

Pro porovnání podskupin → SPLIT FILEMuži

Ženy

Ženy mají heterogennější zastoupení vystudovaných oborů než muži(nomvar ženy=0,8 vs. muži=0,6).

30

V SPSS: Syntax + Skript

SORT CASES BY pohlavi.

SPLIT FILE SEPARATE BY pohlavi.

FREQ vzd_obor7.

• A pak aplikovat skript mira-variability → výsledek se spočte pro muže a ženy zvlášť

31

A nebo spočítat ručně (v Excelu)

kategorie (obor vzd.) podíly kategorií kvadrát1 0,08 0,0062 0,195 0,0383 0,362 0,1314 0,06 0,0045 0,046 0,0026 0,043 0,0027 0,214 0,046

suma 1suma 0,229

D (nomvar) 1-suma 0,771

IQV (norm.nomvar) D/(1–1/K) 0,925=R[-2]C/((1-(1/6)))

Porovnání IQV v podskupinách/ populacích

(bude doplněno)

33

Reference• Agresti, Alan; Barbara F. Agresti. 1978.

“Statistical Analysis of Qualitative Variation.” Sociological Methodology 9: 204-237.

• Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.

Documents

Analýza kvantitativních dat II. Míry variability : variační koeficient a další indexy