33
Analýza kvantitativních dat II. Míry variability: variační koeficient a další indexy Jiří Šafr jiri.safr(zavináč)seznam.cz Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 27. 10. 2014. (6.4. 2014) UK FHS Historická sociologie (LS 2013)

Analýza kvantitativních dat II. Míry variability : variační koeficient a další indexy

  • Upload
    zanthe

  • View
    47

  • Download
    0

Embed Size (px)

DESCRIPTION

UK FHS Historická sociologie (LS 2013). Analýza kvantitativních dat II. Míry variability : variační koeficient a další indexy. Jiří Šafr jiri.safr(zavináč)seznam.cz. Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 6.4. 2014. 1. Kardinální – číselné proměnné. - PowerPoint PPT Presentation

Citation preview

Page 1: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

Analýza kvantitativních dat II.

Míry variability: variační koeficient

a další indexy

Jiří Šafr jiri.safr(zavináč)seznam.cz

Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 27. 10. 2014. (6.4. 2014)

UK FHSHistorická sociologie

(LS 2013)

Page 2: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

1. Kardinální – číselné proměnné

Page 3: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

3

Variační Rozpětí (Range)

• Základní míra: rozdíl mezi nejvyšší a nejnižší hodnotou znaku v datech.

• Nevypovídá o celkové variabilitě v datech, je citlivá na extrémní hodnoty (a ty mohou být náhodné).

• Proto je lepší používat charakteristiky popisující kolísání hodnot znaku kolem průměru nebo další míry polohy.

Page 4: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

4

Variační koeficient• CV (coefficient of variation) je mírou relativního

rozptýlení dat. = podíl směrodatné odchylky k průměru. (nebo jiné střední hodnotě – mediánu)

• Relative standard deviation (RSD) dtto v

procentech.

• Ukazuje podíl variability ve vztahu k průměru v %.• Výhodou je, že můžeme porovnávat znaky s

odlišným průměrem i různými metrikami (rozsahy škál). → např. při mezinárodní komparaci

• Pouze pro poměrové proměnné (ratio scales) a pozitivní hodnoty.

Page 5: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

5

Data – dvě situace (např. v SPSS) pro výpočet míry variability

1. CV across a set of variables for

each case – mezi (podobnými) proměnnými vždy pro jeden případ (např. respondent) = mezi sloupci

2. CV for one variable across cases –

v rámci jedné proměnné mezi případy = řádky

Zde je situace v SPSS složitější (pro uložení do proměnné nutno agregovat), pokud chceme jen zobrazit výsledek, pak lze použít příkazy REPORT nebo RANK (viz příklady 1 a 2).

COMPUTE CV_Spok = CFVAR (spokojenost1, spokojenost2, spokojenost3).

Lze provést porovnání CV např. pro podskupiny dle pohlaví.

CV = 0,41

Page 6: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

6

Příklad 1. CV v rámci jedné proměnné mezi případy

spokojenost1 spokojenost2 spokojenost3____________ ____________ ____________Grand TotalPrůměr 3 2 4StdDev 1 1 0Variační koeficient ,41 ,41 ,00

REPORT /FORMAT= CHWRAP(ON) PREVIEW(OFF) CHALIGN(BOTTOM) UNDERSCORE(ON)ONEBREAKCOLUMN(OFF) CHDSPACE(1) SUMSPACE(0) AUTOMATIC NOLISTBRKSPACE(0) PAGE(1) MISSING'.' LENGTH(1, 59) ALIGN(LEFT) TSPACE(1) FTSPACE(1)/TITLE= RIGHT 'Page )PAGE‚ /VARIABLESspokojenost1 (VALUES) (RIGHT) (OFFSET(0)) (12)spokojenost2 (VALUES) (RIGHT) (OFFSET(0)) (12)spokojenost3 (VALUES) (RIGHT) (OFFSET(0)) (12)/BREAK (TOTAL) 'Grand Total' (SKIP(1))/SUMMARY MEAN(spokojenost1) SKIP(1) MEAN( spokojenost2 ) MEAN( spokojenost3 ) 'Průměr'/SUMMARY STDDEV( spokojenost1) STDDEV( spokojenost2 ) STDDEV( spokojenost3 ) 'StdDev‚ /SUMMARY = DIVIDE ( STDDEV( spokojenost1) MEAN( spokojenost1) ) (spokojenost1 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost2) MEAN( spokojenost2) ) (spokojenost2 (2) ) SKIP(1) DIVIDE ( STDDEV( spokojenost3) MEAN( spokojenost3) ) (spokojenost3 (2) ) SKIP(1) 'Variační koeficient' .

Nelze v menu, musíme v syntaxu, využijeme příkaz REPORT Summaries in Rows, kde doplníme do Summary příkaz DIVIDE (se zadáním podílu směr.odch. / průměr)

Page 7: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

Příklad 2. CV v rámci jedné proměnné mezi případy:

agregovaná data + v oddělených blocích na základě časových období

Spotřeba potravin podle sociálních tříd v letech 1960-1980

(hypotetická data)

Page 8: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

8

Příklad 2. Spotřeba potravin podle sociálních tříd v letech 1960-1980

Jde o již dříve publikované údaje. (získali jsme je např. z tabulek v publikaci ČSÚ)

Uspořádána jsou jako agregované „události-roky“, tj. vždy pro daný rok „případy“ – soc. třídy a jejich spotřeba potravin v kg.

Chceme zjistit variabilitu – rozptýlenost hodnot ve spotřebě potravin) mezi třídami v daném roce.

Měříme vlastně nerovnost ve spotřebě komodit mezi třídami v časovém srovnání.

Page 9: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

9

Příklad 2. CV pomocí RATIO v SPSS

• Zkoumáme jak se v čase proměnila variance ve spotřebě komodit mezi třídami.

• V SPSS příkaz RATIO, který slouží k porovnání poměru dvou (kardinálních) proměnných.

• Pokud chceme CV pouze pro jednu proměnnou použijeme jednoduchý trik: vytvoříme proměnnou s konstantní hodnotou 1 a k ní budeme danou komoditu vztahovat .

• Protože zde porovnáváme spotřebu v čase, provedeme navíc oddělení výsledků pro jednotlivé roky pomocí SPLIT.

Page 10: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

10

Příprava a zadání výpočtu v syntaxu

*Vytvoření konstanty 1.COMPUTE konst1 =1.SORT CASES BY rok. SPLIT FILE LAYERED BY rok.

RATIO STATISTICS citrony WITH konst1 BY trida (ASCENDING)

/MISSING=EXCLUDE /PRINT=MEAN MNCOV RANGE STDDEV.Zadání samotného CV, zde ve vztahu k průměru (lze i

k mediánu) je MNCOV, navíc máme zadáno Rozpětí a Směrodatnou odchylku.

Page 11: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

11

Výsledek: Variační koeficient v % (RSD)

CV (RSD) mezi lety 1960 až 1980 klesá, z 75,5 % na 0 %.

V daném období tedy rozdíly ve spotřebě citrónů mezi sociálními třídami poklesly na minimum (žádný rozdíl v roce 1980).

Page 12: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

12

Další míry variability

• Koeficient rozptýlení dat - coefficient of dispersion / variance-to-mean ratio (VMR)

→ podíl mocniny směrodatné odch.k průměru RATIO STATISTICS lastval WITH saleval BY town (ASCENDING) /PRINT = BCOC(0.8,1.2) COD MEDIAN WCOC( 20 ) .

Zdroj: [SPSS 17 Tutorial]

Page 13: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

2. Kategoriální (nominální/ordinální)

znaky

Míry variability pro nominální proměnné

Page 14: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

14

Variabilita hodnot u nominálního znakuNa rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v histogramu), protože kategorie nemají žádný číselný - hierarchický význam. (u ordinálních znaků tvar rozložení ovšem určitou informaci podává).

Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).

Page 15: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

15

Míry variability pro kategoriální proměnnéponěkud složitější situace (než u kardinálních znaků)

Nominální proměnné:• Variační poměr – v• Nominální rozptyl – D (nomvar) (Giniho koeficient)

→ relativní počet všech dvojic, které nejsou ve stejné kategorii

• Normalizovaný nominální rozptyl (norm. nomvar nebo IQV)

• Entropie – H• normalizovaná entropie – H*

Ordinální proměnné:• Ordinální rozptyl - dorvar Viz http://iastat.vse.cz/Nominalni.html

Page 16: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

16

Vlastnosti měr variability kategoriálních znaků

• Čím vyšší hodnota tím vyšší heterogenita souboru

• Jsou rovny nule, když je celý soubor soustředěn do jedné kategorie (nulové rozptýlení) → úplná homogenita

• Maximální hodnota = rovnoměrné rozložení dat (kategorií) → úplná heterogenita

• Ukazují do jaké míry, jsou data koncentrována kolem své charakteristické hodnoty (→ modální kategorie), tj. jak moc je tato hodnota typická pro celý soubor.

Zdroj: [Řehák, Řeháková 1986: 66-69]

Page 17: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

17

Variační poměr – v

• Nejjednodušší míra variability.

• Pokud je více modálních kategorií uvažujeme nejvyšší četnost pouze jednou.

• Výhodou v je jednoduchost výpočtu.

• Nevýhodou v je, že je založeno pouze na modální četnosti (nomvar – D je pracnější,ale odráží celou strukturu tabulky).

Zdroj: [Řehák, Řeháková 1986: 66]

Page 18: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

18

Příklad: Variační poměr – v (DATA)

[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

Page 19: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

19

Příklad: Variační poměr – vZpůsob získávání denního tisku u pravidelných

čtenářů, pro Periodikum J (N = 1289)

Předplácí Kupuje K disp. v práci Půjčuje si Získává jinak Celkem N % z celku

48,3% 24,1% 6,9% 16,4% 43,0% 100 116 8,9

modus 0,483 (= Předplácí) absolutní četnost 56,028v 0,517 = 116 * 0,483

v = 1 – (56,028 / 116) = 0,517

Zdroj: [Řehák, Řeháková 1986: 68-69]

lze spočítat v Excelu:

V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik) nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků).

Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější (všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %).

Page 20: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

20

Nominální variance (nomvar)Index diversity (D)

• nomvar nebo D

• Kde: p – podíl pozorování v dané i-té kategorii

→ podíl všech dvojic jednotek, které nemají stejnou hodnotu znaku nebo také

→ pravděpodobnost, že dva náhodně vybraní jedinci z populace budou patřit do rozdílných kategorií.

Index je tím vyšší, čím více je kategorií a čím více jsou pozorování rozptýlena rovnoměrně v těchto kategoriích.

[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]

Page 21: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

21

Normalizovaná nominální varianceIndex of Qualitative Variation (IQV)

norm.normvar = IQV = = D/(1–1/K)

kde K = počet kategorií a D = Index diversity (nom.var)• IQV = pozorované rozdíly /maximum možných rozdílů • Standardizovaná pravděpodobnost, že náhodný pár

ve výběru nebude patřit do stejné kategorie.• Rozpětí 0 až 1: Když všechny hodnoty patří do jedné

kategorie IQV = 0 (úplná homogenita). Když jsou všechny rovnoměrně zastoupeny pak IQV = 1 (maximum heterogenity)

• Jako max. počet kategorií (K) použijeme teoretickou hodnotu – všech možných kategorií, i kdyby v dané subpopulaci nebyly všechny zastoupeny.

• Více viz http://sociology.about.com/od/Statistics/a/Index-Of-Qualitative-Variation-Iqv.htm

Page 22: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

22

Postup výpočtu IQV

1. Vypočítejte podíl kategorií → tabulka třídění 1. stupně (nebo 2. stupně – pro podskupiny)

2. Podíl v každé kategorie umocněte

3. Sečtěte umocněné podíly

4. Pro D: odečtěte od 1

5. Pro IQV: D vydělte (1-1/K) (k je max. počet kategorií)

Page 23: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

23

Příklad: D a IQV [Agresti, Agresti 1978] Occupational Status by Race and Year in W'alton County, Florida

Index diverzity D (nomvar) pro bělochy (white population) v roce 1870:

D = 1 - 0.347 = 0.653

V populaci bělochů v roce 1870 je pravděpodobnost, že dva náhodně vybraní jedinci budou z odlišné profesně-třídní skupiny 0,653.

Page 24: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

24

Standardizace D na IQV

• IQV = ((k- 1)*D)/k nebo D/(1–1/K)• 1–1/K = 1 – 1/6 = 0,833

→ Jde o maximální možnou hodnotu D zde 6 profesně třídních kategorií)

• IQV = 0,653 / 0,833 = 0,784

Page 25: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

25

• Spočítejte D a IQV pro další kategorie:

• Běloši 1870

• Běloši 1885

• Černoši 1870

• Černoši 1885

Pokračování příklad D a IQV [Agresti, Agresti 1978]

Page 26: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

26

• V každém roce je černošská populace v porovnání s bělošskou méně profesně-třídně heterogenní.

• V černošské populaci došlo za 15 let k poklesu diverzity profesně-třídních kategorií, zatímco u bělochů variance zůstala přibližně stejná.

Pokračování příklad D a IQV [Agresti, Agresti 1978]

Běloši   Černoši

1870 1885   1870 1885

0,784 0,811   0,442 0,230

Page 27: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

27

Míry variability nominální/ordinální proměnné v SPSS

• SPSS neobsahuje, ale existuje skript, který lze aplikovat na tabulku třídění 1.stupně (FREQUENCIES) Míry variability pro kategorizované proměnné

• http://acrea.cz/cz/skripty/mira-variability• K dispozici jsou tyto míry: variační poměr,

nominální variance, normovaná nominální variance, ordinální variance a normovaná ordinální variance.

• Definice těchto měr lze najít v knize Řehák J., Řeháková B. 1986.

Analýza kategorizovaných dat v sociologii. Praha: Academia.

Page 28: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

28

Míry variability pro kategorizované znaky v SPSS - skript

Vstupní tabulka

výsledek

Page 29: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

29

Pro porovnání podskupin → SPLIT FILEMuži

Ženy

Ženy mají heterogennější zastoupení vystudovaných oborů než muži(nomvar ženy=0,8 vs. muži=0,6).

Page 30: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

30

V SPSS: Syntax + Skript

SORT CASES BY pohlavi.

SPLIT FILE SEPARATE BY pohlavi.

FREQ vzd_obor7.

• A pak aplikovat skript mira-variability → výsledek se spočte pro muže a ženy zvlášť

Page 31: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

31

A nebo spočítat ručně (v Excelu)

kategorie (obor vzd.) podíly kategorií kvadrát1 0,08 0,0062 0,195 0,0383 0,362 0,1314 0,06 0,0045 0,046 0,0026 0,043 0,0027 0,214 0,046

suma 1suma 0,229

D (nomvar) 1-suma 0,771

IQV (norm.nomvar) D/(1–1/K) 0,925=R[-2]C/((1-(1/6)))

Page 32: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

Porovnání IQV v podskupinách/ populacích

(bude doplněno)

Page 33: Analýza kvantitativních dat II. Míry  variability :  variační koeficient  a další indexy

33

Reference• Agresti, Alan; Barbara F. Agresti. 1978.

“Statistical Analysis of Qualitative Variation.” Sociological Methodology 9: 204-237.

• Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných dat v sociologii. Praha: Academia.