34
Analýza kvantitativních dat I./II./III. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 10.3.2015 (vytvořeno 22.5. 2012) UK FHS Historická sociologie (LS 2012+)

Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

  • Upload
    trilby

  • View
    57

  • Download
    1

Embed Size (px)

DESCRIPTION

UK FHS Historická sociologie (LS 2012). Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky. Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 22.5. 2012. Asociace mezi znaky. Asociace (korelace) a kauzalita. - PowerPoint PPT Presentation

Citation preview

Page 1: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Analýza kvantitativních dat I./II./III.

Korelace a asociace:vztahy mezi kardinálními/

ordinálními znaky

Jiří Šafr jiri.safr(zavináč)seznam.cz

poslední aktualizace 10.3.2015 (vytvořeno 22.5. 2012)

UK FHSHistorická sociologie

(LS 2012+)

Page 2: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Asociace mezi znaky

aneb „jak moc to spolu souvisí“

Page 3: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

3

Asociace (korelace) a kauzalita

• Asociace (korelace) neznamená automaticky kauzální vztah

• Podmínky kauzality (připomenutí):1. Naměřená korelace2. Časová souslednost (k A došlo před B)3. Vyloučení vlivu třetí proměnné

• Vztah mezi proměnnými (pro kategoriální data kontingenční tabulky) sestavujeme tak, aby vyjadřovaly naší výzkumnou otázku resp. pracovní hypotézu.

Page 4: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

4

Základní možnosti pro vztah dvou proměnných A x B (opakování)

• Nominální A (kategoriální či „kvalitativní“ proměnná) a nominální B → procentní podíly (podmíněné pravděpodobnosti) kontingenční tabulka (+ chí kvadrát test), znaménkové schéma, koeficient kontingence

• Dtto ale ordinální → dtto + pořadové korelace (Sperman, Tab-B)

• Nominální A x kardinální (číselná) → průměry B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly), koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální

Page 5: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Korelace: kardinální (spojité) znaky

Page 6: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

6

Kovariance a korelace• Nejprve Kovariance

→ suma součinů rozdílů dvou proměnných od jejich průměrů dělený počtem případů (-1)

• korelace (product moment)→ kovariance X a Y dělená součinem jejich rozptylů

• praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo)

Page 7: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

7

Pearsonova korelace (product moment)

→ kovariance X a Y dělená součinem jejich rozptylů /StD

• Korelace: vydělíme kovarianci součinem směrodatných odchylek

• praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo)

V praxi se používá výpočtový vzorec

Page 8: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

8

Korelace• Korelační koeficient – Pearsonův

pro číselné znaky (s normálním rozdělením)

1 = přímá závislost0 = žádná statisticky zjistitelná lineární závislost → i při nulovém korelačním koeficientu na sobě veličiny mohou záviset !−1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků,

Page 9: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

9

Pearsonova korelace - vlastnosti• Po převedení na R2 má explicitní věcný význam:

procento vysvětlené variance jedné proměnné druhou (to ale neplatí pro ordinální korelace např. Kendaullovo Tau)

• Není příliš citlivý na porušení normality rozložení hodnot, ale je citlivý na odlehlá pozorování (outliers).

• Index lineárního vztahu mezi dvěma číselnými proměnnými.

Proto vždy:• Nejprve kontrola rozložení proměnných (odlehlá

pozorování, rozložení: boxplot, histogram, P-P plot / Q-P plot)

• nejprve scatterplot X-Y (a zkusit jinou než lineární funkci)

• Paralelní výpočet koeficientů asociace, např. Phi/Cramérovo V (pro ordinální znaky)

Page 10: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

10

Korelace a vysvětlená variance

• Umocněním r – korelačního koeficientu dostanemeR2 (Rsq) – koeficient determinace.

• Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y

Page 11: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

11

Korelace: test hodnoty v populaci• Je třeba pomocí T-testu otestovat, zda je korelace

přítomná i v populaci (základním souboru).• Testujeme, zda se jeho hodnota ve výběru lišší od

populační hodnoty. • H0: korelace v základním souboru je nulová (je

způsobená náhodou) r = 0

• Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je-li tabulkové t0,05 > t pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je v populaci nulová.

Page 12: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

12

Korelace: věk a příjem; Scatterplot

Page 13: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Parciální korelaceaneb výprava do tří (a více)

rozměrného prostoruIntervalové (a ordinální) znaky

Page 14: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

14

Korelace: parciální korelace• kontrolovaný vliv 3 proměnné

Parciální korelace pro X,Y/U s kontrolou vlivu U (vzoreček platí i pro neparametrické korelace, např. Spearmanovo Rho)

věk-příjem R x,y -0,14 x - věkvěk-vzdělání R x,u -0,10 y - příjempříjem-vzdělání R y,u 0,33 u - vzdělání

R x,y/u = -0,11 = -0,120,94

Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)

Page 15: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

15

Parciální korelace v SPSS

PARTIAL CORR prijem vek BY s3 /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE.

V SPSS pouze pro Pearsonův korelační koeficient (tj. kardinální znaky).

Neparametrické korelace nutno nejprve každou zvlášť (→ Bivariate) a potom parciální spočítat „ručně“ pomocí vzorečku.

Lze zařadit i více kontrolních proměnných.

Kontrolní proměnná(é)

[Data: ISSP 2007]

Page 16: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

16

Lineární regreseOdhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….).

y = a + bx y = hodnota závislé, a = konstanta (typická závislé při nejnižší hodnotě nezávislé, b = regresní koeficient → „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné

Na rozdíl od korelace předpokládáme směr působení: nezávislá → závislá

Mnohonásobná regrese uvažuje vliv více nezávislých proměnných souběžně

Page 17: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Více k regresní analýze viz prezentaci Regresní analýza

(AKD2_regrese.ppt)

Page 18: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Ordinální znaky: pořadové korelace

Page 19: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

19

Pořadová korelace: pro ordinální proměnné

• Spermanův korelační koeficient Rho

• +1 = úplná shoda pořadí jednotek podle obou znaků

• Kendallovo Tau

• ve srovnání s Pearsonovým r, ale i Spearmanovým Rho má několik výhod → větší citlivost na některé nelineární vztahy.

Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].

Page 20: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

20

Pořadové korelace (pro ordinální znaky)• Spearmanův koeficient pořadové korelace (ρ nebo rs).

Počítá se ze vzorce na výpočet Pearsonova koeficientu, místo původních hodnot se použijí jejich pořadová čísla.

• Na některé druhy závislostí ovšem není citlivý, proto je lepší použít

• Kendallův pořadový korelační koeficient (Kendaulovo Tau) je neparametrický test nezávislosti

• vyjadřuje rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí oproti pravděpodobnosti, že ve stejném pořadí nejsou.

• Tau-b → pro větší počet výskytu nerozhodnutých párů• pokud znaky mají odlišný počet unikátních hodnot

(kontingenční tabulka m×n) → Tau-c nebo• Goodman-Kruskalův gama koeficient

→ pro vysoký počet výskytu nerozhodnutých párůGama = 0,70 → poznání hodnoty jedné proměnné sníží chybovost při předpovídání pořadí (ne hodnoty!) druhé proměnné o 70 %.

Page 21: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

21

Pořadová korelace: př. Soc. Distance

Page 22: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

22

úlohy

• [data ISSP 2007]

• Jak souvisí příjem s věkem?

• Souvisí pocit štěstí se vzděláním?

[data Rodiče a výchova 2010]

Jaký je vztah (asociace) mezi nominální proměnnou (typ_dom) a kardinální proměnnou (prijem).

Page 23: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

23

Nominální a kardinální znak• koeficient asociace Eta = míra jednostranné

závislosti kvantitativní vysvětlované proměnné na proměnné nominální

• EtaSq nabývá hodnot 0=žádná asociace až 1=úplná. Vyjadřuje podíl vysvětlené variance závislé kardinální proměnné pomocí kategorií kategoriální proměnné . Hodnoty 0-1 tedy odpovídají procentům.

• Ale pozor, nejde obecné vysvětlení variance znaku, ale pouze za pomocí této jedné proměnné!

• V SPSS využijeme buď příkaz MEANS a jeho podpříkaz ANOVA nebo CROSSTAB

• EtaSq je rovněž ve vícenásobné analýze rozptylu MANOVA (větší počet nezávislých znaků) (v SPSS procedura GLM zahrnující též regresní analýzu)

Page 24: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Asociace nominálních znaků

Podrobněji o kontingenční tabulce viz AKD2_kontg_tab

Page 25: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

25

Asociace nominálních znaků: Kontingenční koeficient (CC)

• Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr.

• Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce CC je rozšíření koef. Phi pro >2x2 tabulky.

V menu SPSS: Analyze, Descriptive Statistics, Crosstabs; vložit Row a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V

Page 26: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

26

Interpretace korelačních koeficientů

• Korelace pod 0,1 je triviální, – 0,1–0,3 malá, – 0,3–0,5 střední – nad 0,5 velká.

• Před interpretací korelačních koeficientů je vhodné zkonstruovat X-Y graf.– Pomůže nám odhalit odlehlá pozorování (outliers) a

nelineární vztahy– Pozor zejména při malém počtu případů ve výběru

a tedy hlavně u agregovaných dat (viz dále Simpsonův paradox)

Page 27: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

27

• Pozor korelační koeficient ukazuje jen na míru souvislosti, ale neříká nic o kauzalitě – směru působení mez dvěma znaky.

Page 28: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

28

A ZNOVU…Asociace (korelace) a kauzalita

• Asociace (korelace) neznamená automaticky kauzální vztah• Podmínky kauzality (připomenutí podruhé):• Naměřená korelace• Časová souslednost (k A došlo před B)• Vyloučení vlivu třetí proměnné

→ eliminace (kontrola): pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))

• Směr působení nám může pomoci určit silná teorie

Page 29: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

29

Posouzení vlivu třetí proměnné

• Vyloučení vlivu třetí proměnné → eliminace (kontrola společného působení na závislou i nezávislou proměnnou):

• pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;

• pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))

Page 30: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Na co si dát pozor

Vícerozměrná analýza

Page 31: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

31

Odlehlá pozorování (outliers)

Téměř všech rozptyl byl vnesen pouze jedním pozorováním.Outliers mohou významně ovlivnit vztah dvou (a více) znaků!

Vždy nejprve zjistit odlehlá pozorování → Scatterplot

R = 0,88 R = 0,08

Page 32: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

32

Simpsonův / reversal paradox – špatná inference z agregovaných dat

• Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné.

• Hrozí při agregaci dat.

V agregovaných datech (černá čára) je negativní souvislost

V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend

Page 33: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

33

Konfigurace v datech na základě podskupin

[Disman 1993: 210-211]

Page 34: Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

34

Neparametrické testy (Non-parametric Tests)

• Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr

• Neparametrické metody:- nezávislé na rozdělní- méně citlivé na odchylky extrémních hodnot- i pro výběry velmi malého rozsahu- vhodné pro nominální i ordinální znaky

• Ale dochází častěji k chybnému nezamítnutí nepravdivé H0.

• Chí-kvadrát testy,