Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky

Analýza kvantitativních dat I./II./III.

Korelace a asociace:vztahy mezi kardinálními/

ordinálními znaky

Jiří Šafr jiri.safr(zavináč)seznam.cz

poslední aktualizace 10.3.2015 (vytvořeno 22.5. 2012)

UK FHSHistorická sociologie

(LS 2012+)

Asociace mezi znaky

aneb „jak moc to spolu souvisí“

3

Asociace (korelace) a kauzalita

• Asociace (korelace) neznamená automaticky kauzální vztah

• Podmínky kauzality (připomenutí):1. Naměřená korelace2. Časová souslednost (k A došlo před B)3. Vyloučení vlivu třetí proměnné

• Vztah mezi proměnnými (pro kategoriální data kontingenční tabulky) sestavujeme tak, aby vyjadřovaly naší výzkumnou otázku resp. pracovní hypotézu.

4

Základní možnosti pro vztah dvou proměnných A x B (opakování)

• Nominální A (kategoriální či „kvalitativní“ proměnná) a nominální B → procentní podíly (podmíněné pravděpodobnosti) kontingenční tabulka (+ chí kvadrát test), znaménkové schéma, koeficient kontingence

• Dtto ale ordinální → dtto + pořadové korelace (Sperman, Tab-B)

• Nominální A x kardinální (číselná) → průměry B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly), koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální

Korelace: kardinální (spojité) znaky

6

Kovariance a korelace• Nejprve Kovariance

→ suma součinů rozdílů dvou proměnných od jejich průměrů dělený počtem případů (-1)

• korelace (product moment)→ kovariance X a Y dělená součinem jejich rozptylů

• praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo)

7

Pearsonova korelace (product moment)

→ kovariance X a Y dělená součinem jejich rozptylů /StD

• Korelace: vydělíme kovarianci součinem směrodatných odchylek

• praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo)

V praxi se používá výpočtový vzorec

8

Korelace• Korelační koeficient – Pearsonův

pro číselné znaky (s normálním rozdělením)

1 = přímá závislost0 = žádná statisticky zjistitelná lineární závislost → i při nulovém korelačním koeficientu na sobě veličiny mohou záviset !−1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků,

9

Pearsonova korelace - vlastnosti• Po převedení na R2 má explicitní věcný význam:

procento vysvětlené variance jedné proměnné druhou (to ale neplatí pro ordinální korelace např. Kendaullovo Tau)

• Není příliš citlivý na porušení normality rozložení hodnot, ale je citlivý na odlehlá pozorování (outliers).

• Index lineárního vztahu mezi dvěma číselnými proměnnými.

Proto vždy:• Nejprve kontrola rozložení proměnných (odlehlá

pozorování, rozložení: boxplot, histogram, P-P plot / Q-P plot)

• nejprve scatterplot X-Y (a zkusit jinou než lineární funkci)

• Paralelní výpočet koeficientů asociace, např. Phi/Cramérovo V (pro ordinální znaky)

10

Korelace a vysvětlená variance

• Umocněním r – korelačního koeficientu dostanemeR2 (Rsq) – koeficient determinace.

• Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y

11

Korelace: test hodnoty v populaci• Je třeba pomocí T-testu otestovat, zda je korelace

přítomná i v populaci (základním souboru).• Testujeme, zda se jeho hodnota ve výběru lišší od

populační hodnoty. • H0: korelace v základním souboru je nulová (je

způsobená náhodou) r = 0

• Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je-li tabulkové t0,05 > t pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je v populaci nulová.

12

Korelace: věk a příjem; Scatterplot

Parciální korelaceaneb výprava do tří (a více)

rozměrného prostoruIntervalové (a ordinální) znaky

14

Korelace: parciální korelace• kontrolovaný vliv 3 proměnné

Parciální korelace pro X,Y/U s kontrolou vlivu U (vzoreček platí i pro neparametrické korelace, např. Spearmanovo Rho)

věk-příjem R x,y -0,14 x - věkvěk-vzdělání R x,u -0,10 y - příjempříjem-vzdělání R y,u 0,33 u - vzdělání

R x,y/u = -0,11 = -0,120,94

Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)

15

Parciální korelace v SPSS

PARTIAL CORR prijem vek BY s3 /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE.

V SPSS pouze pro Pearsonův korelační koeficient (tj. kardinální znaky).

Neparametrické korelace nutno nejprve každou zvlášť (→ Bivariate) a potom parciální spočítat „ručně“ pomocí vzorečku.

Lze zařadit i více kontrolních proměnných.

Kontrolní proměnná(é)

[Data: ISSP 2007]

16

Lineární regreseOdhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….).

y = a + bx y = hodnota závislé, a = konstanta (typická závislé při nejnižší hodnotě nezávislé, b = regresní koeficient → „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné

Na rozdíl od korelace předpokládáme směr působení: nezávislá → závislá

Mnohonásobná regrese uvažuje vliv více nezávislých proměnných souběžně

Více k regresní analýze viz prezentaci Regresní analýza

(AKD2_regrese.ppt)

Ordinální znaky: pořadové korelace

19

Pořadová korelace: pro ordinální proměnné

• Spermanův korelační koeficient Rho

• +1 = úplná shoda pořadí jednotek podle obou znaků

• Kendallovo Tau

• ve srovnání s Pearsonovým r, ale i Spearmanovým Rho má několik výhod → větší citlivost na některé nelineární vztahy.

Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].

20

Pořadové korelace (pro ordinální znaky)• Spearmanův koeficient pořadové korelace (ρ nebo rs).

Počítá se ze vzorce na výpočet Pearsonova koeficientu, místo původních hodnot se použijí jejich pořadová čísla.

• Na některé druhy závislostí ovšem není citlivý, proto je lepší použít

• Kendallův pořadový korelační koeficient (Kendaulovo Tau) je neparametrický test nezávislosti

• vyjadřuje rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí oproti pravděpodobnosti, že ve stejném pořadí nejsou.

• Tau-b → pro větší počet výskytu nerozhodnutých párů• pokud znaky mají odlišný počet unikátních hodnot

(kontingenční tabulka m×n) → Tau-c nebo• Goodman-Kruskalův gama koeficient

→ pro vysoký počet výskytu nerozhodnutých párůGama = 0,70 → poznání hodnoty jedné proměnné sníží chybovost při předpovídání pořadí (ne hodnoty!) druhé proměnné o 70 %.

21

Pořadová korelace: př. Soc. Distance

22

úlohy

• [data ISSP 2007]

• Jak souvisí příjem s věkem?

• Souvisí pocit štěstí se vzděláním?

[data Rodiče a výchova 2010]

Jaký je vztah (asociace) mezi nominální proměnnou (typ_dom) a kardinální proměnnou (prijem).

23

Nominální a kardinální znak• koeficient asociace Eta = míra jednostranné

závislosti kvantitativní vysvětlované proměnné na proměnné nominální

• EtaSq nabývá hodnot 0=žádná asociace až 1=úplná. Vyjadřuje podíl vysvětlené variance závislé kardinální proměnné pomocí kategorií kategoriální proměnné . Hodnoty 0-1 tedy odpovídají procentům.

• Ale pozor, nejde obecné vysvětlení variance znaku, ale pouze za pomocí této jedné proměnné!

• V SPSS využijeme buď příkaz MEANS a jeho podpříkaz ANOVA nebo CROSSTAB

• EtaSq je rovněž ve vícenásobné analýze rozptylu MANOVA (větší počet nezávislých znaků) (v SPSS procedura GLM zahrnující též regresní analýzu)

Asociace nominálních znaků

Podrobněji o kontingenční tabulce viz AKD2_kontg_tab

25

Asociace nominálních znaků: Kontingenční koeficient (CC)

• Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr.

• Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce CC je rozšíření koef. Phi pro >2x2 tabulky.

V menu SPSS: Analyze, Descriptive Statistics, Crosstabs; vložit Row a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V

26

Interpretace korelačních koeficientů

• Korelace pod 0,1 je triviální, – 0,1–0,3 malá, – 0,3–0,5 střední – nad 0,5 velká.

• Před interpretací korelačních koeficientů je vhodné zkonstruovat X-Y graf.– Pomůže nám odhalit odlehlá pozorování (outliers) a

nelineární vztahy– Pozor zejména při malém počtu případů ve výběru

a tedy hlavně u agregovaných dat (viz dále Simpsonův paradox)

27

• Pozor korelační koeficient ukazuje jen na míru souvislosti, ale neříká nic o kauzalitě – směru působení mez dvěma znaky.

28

A ZNOVU…Asociace (korelace) a kauzalita

• Asociace (korelace) neznamená automaticky kauzální vztah• Podmínky kauzality (připomenutí podruhé):• Naměřená korelace• Časová souslednost (k A došlo před B)• Vyloučení vlivu třetí proměnné

→ eliminace (kontrola): pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))

• Směr působení nám může pomoci určit silná teorie

29

Posouzení vlivu třetí proměnné

• Vyloučení vlivu třetí proměnné → eliminace (kontrola společného působení na závislou i nezávislou proměnnou):

• pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;

• pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))

Na co si dát pozor

Vícerozměrná analýza

31

Odlehlá pozorování (outliers)

Téměř všech rozptyl byl vnesen pouze jedním pozorováním.Outliers mohou významně ovlivnit vztah dvou (a více) znaků!

Vždy nejprve zjistit odlehlá pozorování → Scatterplot

R = 0,88 R = 0,08

32

Simpsonův / reversal paradox – špatná inference z agregovaných dat

• Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné.

• Hrozí při agregaci dat.

V agregovaných datech (černá čára) je negativní souvislost

V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend

33

Konfigurace v datech na základě podskupin

[Disman 1993: 210-211]

34

Neparametrické testy (Non-parametric Tests)

• Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr

• Neparametrické metody:- nezávislé na rozdělní- méně citlivé na odchylky extrémních hodnot- i pro výběry velmi malého rozsahu- vhodné pro nominální i ordinální znaky

• Ale dochází častěji k chybnému nezamítnutí nepravdivé H0.

• Chí-kvadrát testy,

Documents

Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky