Upload
trilby
View
57
Download
1
Embed Size (px)
DESCRIPTION
UK FHS Historická sociologie (LS 2012). Analýza kvantitativních dat II. Korelace a asociace: vztahy mezi kardinálními/ ordinálními znaky. Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 22.5. 2012. Asociace mezi znaky. Asociace (korelace) a kauzalita. - PowerPoint PPT Presentation
Citation preview
Analýza kvantitativních dat I./II./III.
Korelace a asociace:vztahy mezi kardinálními/
ordinálními znaky
Jiří Šafr jiri.safr(zavináč)seznam.cz
poslední aktualizace 10.3.2015 (vytvořeno 22.5. 2012)
UK FHSHistorická sociologie
(LS 2012+)
Asociace mezi znaky
aneb „jak moc to spolu souvisí“
3
Asociace (korelace) a kauzalita
• Asociace (korelace) neznamená automaticky kauzální vztah
• Podmínky kauzality (připomenutí):1. Naměřená korelace2. Časová souslednost (k A došlo před B)3. Vyloučení vlivu třetí proměnné
• Vztah mezi proměnnými (pro kategoriální data kontingenční tabulky) sestavujeme tak, aby vyjadřovaly naší výzkumnou otázku resp. pracovní hypotézu.
4
Základní možnosti pro vztah dvou proměnných A x B (opakování)
• Nominální A (kategoriální či „kvalitativní“ proměnná) a nominální B → procentní podíly (podmíněné pravděpodobnosti) kontingenční tabulka (+ chí kvadrát test), znaménkové schéma, koeficient kontingence
• Dtto ale ordinální → dtto + pořadové korelace (Sperman, Tab-B)
• Nominální A x kardinální (číselná) → průměry B v podskupinách A (+ T-test či One-way Anova, 95% konf. intervaly), koeficient asociace Eta = míra jednostranné závislosti kvantitativní vysvětlované proměnné na proměnné nominální
Korelace: kardinální (spojité) znaky
6
Kovariance a korelace• Nejprve Kovariance
→ suma součinů rozdílů dvou proměnných od jejich průměrů dělený počtem případů (-1)
• korelace (product moment)→ kovariance X a Y dělená součinem jejich rozptylů
• praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo)
7
Pearsonova korelace (product moment)
→ kovariance X a Y dělená součinem jejich rozptylů /StD
• Korelace: vydělíme kovarianci součinem směrodatných odchylek
• praktičtější míra lineárních vztahů, protože jde o standardizovanou kovarianci (tj. bezrozměrné číslo)
V praxi se používá výpočtový vzorec
8
Korelace• Korelační koeficient – Pearsonův
pro číselné znaky (s normálním rozdělením)
1 = přímá závislost0 = žádná statisticky zjistitelná lineární závislost → i při nulovém korelačním koeficientu na sobě veličiny mohou záviset !−1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků,
9
Pearsonova korelace - vlastnosti• Po převedení na R2 má explicitní věcný význam:
procento vysvětlené variance jedné proměnné druhou (to ale neplatí pro ordinální korelace např. Kendaullovo Tau)
• Není příliš citlivý na porušení normality rozložení hodnot, ale je citlivý na odlehlá pozorování (outliers).
• Index lineárního vztahu mezi dvěma číselnými proměnnými.
Proto vždy:• Nejprve kontrola rozložení proměnných (odlehlá
pozorování, rozložení: boxplot, histogram, P-P plot / Q-P plot)
• nejprve scatterplot X-Y (a zkusit jinou než lineární funkci)
• Paralelní výpočet koeficientů asociace, např. Phi/Cramérovo V (pro ordinální znaky)
10
Korelace a vysvětlená variance
• Umocněním r – korelačního koeficientu dostanemeR2 (Rsq) – koeficient determinace.
• Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y
11
Korelace: test hodnoty v populaci• Je třeba pomocí T-testu otestovat, zda je korelace
přítomná i v populaci (základním souboru).• Testujeme, zda se jeho hodnota ve výběru lišší od
populační hodnoty. • H0: korelace v základním souboru je nulová (je
způsobená náhodou) r = 0
• Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je-li tabulkové t0,05 > t pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je v populaci nulová.
12
Korelace: věk a příjem; Scatterplot
Parciální korelaceaneb výprava do tří (a více)
rozměrného prostoruIntervalové (a ordinální) znaky
14
Korelace: parciální korelace• kontrolovaný vliv 3 proměnné
Parciální korelace pro X,Y/U s kontrolou vlivu U (vzoreček platí i pro neparametrické korelace, např. Spearmanovo Rho)
věk-příjem R x,y -0,14 x - věkvěk-vzdělání R x,u -0,10 y - příjempříjem-vzdělání R y,u 0,33 u - vzdělání
R x,y/u = -0,11 = -0,120,94
Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)
15
Parciální korelace v SPSS
PARTIAL CORR prijem vek BY s3 /SIGNIFICANCE=TWOTAIL /STATISTICS=CORR /MISSING=LISTWISE.
V SPSS pouze pro Pearsonův korelační koeficient (tj. kardinální znaky).
Neparametrické korelace nutno nejprve každou zvlášť (→ Bivariate) a potom parciální spočítat „ručně“ pomocí vzorečku.
Lze zařadit i více kontrolních proměnných.
Kontrolní proměnná(é)
[Data: ISSP 2007]
16
Lineární regreseOdhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….).
y = a + bx y = hodnota závislé, a = konstanta (typická závislé při nejnižší hodnotě nezávislé, b = regresní koeficient → „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné
Na rozdíl od korelace předpokládáme směr působení: nezávislá → závislá
Mnohonásobná regrese uvažuje vliv více nezávislých proměnných souběžně
Více k regresní analýze viz prezentaci Regresní analýza
(AKD2_regrese.ppt)
Ordinální znaky: pořadové korelace
19
Pořadová korelace: pro ordinální proměnné
• Spermanův korelační koeficient Rho
• +1 = úplná shoda pořadí jednotek podle obou znaků
• Kendallovo Tau
• ve srovnání s Pearsonovým r, ale i Spearmanovým Rho má několik výhod → větší citlivost na některé nelineární vztahy.
Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].
20
Pořadové korelace (pro ordinální znaky)• Spearmanův koeficient pořadové korelace (ρ nebo rs).
Počítá se ze vzorce na výpočet Pearsonova koeficientu, místo původních hodnot se použijí jejich pořadová čísla.
• Na některé druhy závislostí ovšem není citlivý, proto je lepší použít
• Kendallův pořadový korelační koeficient (Kendaulovo Tau) je neparametrický test nezávislosti
• vyjadřuje rozdíl mezi pravděpodobností, že hodnoty dvou proměnných jsou ve stejném pořadí oproti pravděpodobnosti, že ve stejném pořadí nejsou.
• Tau-b → pro větší počet výskytu nerozhodnutých párů• pokud znaky mají odlišný počet unikátních hodnot
(kontingenční tabulka m×n) → Tau-c nebo• Goodman-Kruskalův gama koeficient
→ pro vysoký počet výskytu nerozhodnutých párůGama = 0,70 → poznání hodnoty jedné proměnné sníží chybovost při předpovídání pořadí (ne hodnoty!) druhé proměnné o 70 %.
21
Pořadová korelace: př. Soc. Distance
22
úlohy
• [data ISSP 2007]
• Jak souvisí příjem s věkem?
• Souvisí pocit štěstí se vzděláním?
[data Rodiče a výchova 2010]
Jaký je vztah (asociace) mezi nominální proměnnou (typ_dom) a kardinální proměnnou (prijem).
23
Nominální a kardinální znak• koeficient asociace Eta = míra jednostranné
závislosti kvantitativní vysvětlované proměnné na proměnné nominální
• EtaSq nabývá hodnot 0=žádná asociace až 1=úplná. Vyjadřuje podíl vysvětlené variance závislé kardinální proměnné pomocí kategorií kategoriální proměnné . Hodnoty 0-1 tedy odpovídají procentům.
• Ale pozor, nejde obecné vysvětlení variance znaku, ale pouze za pomocí této jedné proměnné!
• V SPSS využijeme buď příkaz MEANS a jeho podpříkaz ANOVA nebo CROSSTAB
• EtaSq je rovněž ve vícenásobné analýze rozptylu MANOVA (větší počet nezávislých znaků) (v SPSS procedura GLM zahrnující též regresní analýzu)
Asociace nominálních znaků
Podrobněji o kontingenční tabulce viz AKD2_kontg_tab
25
Asociace nominálních znaků: Kontingenční koeficient (CC)
• Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti. Neurčuje směr.
• Výsledek není kontingenčních tabulkách v intervalu (0,1) → existují různé korekce CC je rozšíření koef. Phi pro >2x2 tabulky.
V menu SPSS: Analyze, Descriptive Statistics, Crosstabs; vložit Row a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V
26
Interpretace korelačních koeficientů
• Korelace pod 0,1 je triviální, – 0,1–0,3 malá, – 0,3–0,5 střední – nad 0,5 velká.
• Před interpretací korelačních koeficientů je vhodné zkonstruovat X-Y graf.– Pomůže nám odhalit odlehlá pozorování (outliers) a
nelineární vztahy– Pozor zejména při malém počtu případů ve výběru
a tedy hlavně u agregovaných dat (viz dále Simpsonův paradox)
27
• Pozor korelační koeficient ukazuje jen na míru souvislosti, ale neříká nic o kauzalitě – směru působení mez dvěma znaky.
28
A ZNOVU…Asociace (korelace) a kauzalita
• Asociace (korelace) neznamená automaticky kauzální vztah• Podmínky kauzality (připomenutí podruhé):• Naměřená korelace• Časová souslednost (k A došlo před B)• Vyloučení vlivu třetí proměnné
→ eliminace (kontrola): pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))
• Směr působení nám může pomoci určit silná teorie
29
Posouzení vlivu třetí proměnné
• Vyloučení vlivu třetí proměnné → eliminace (kontrola společného působení na závislou i nezávislou proměnnou):
• pro kardinální či ordinální znaky pomocí parciální korelace nebo regresní analýzy;
• pro kategoriální (nominální/ordinální) znaky třídění 3. stupně případně standardizace podle třetího faktoru (viz prezentaci Standardizace v kontingenční tabulce – kontrola vlivu 3 faktoru (AKD2_kontg_tab_standardizace.ppt))
Na co si dát pozor
Vícerozměrná analýza
31
Odlehlá pozorování (outliers)
Téměř všech rozptyl byl vnesen pouze jedním pozorováním.Outliers mohou významně ovlivnit vztah dvou (a více) znaků!
Vždy nejprve zjistit odlehlá pozorování → Scatterplot
R = 0,88 R = 0,08
32
Simpsonův / reversal paradox – špatná inference z agregovaných dat
• Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné.
• Hrozí při agregaci dat.
V agregovaných datech (černá čára) je negativní souvislost
V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend
33
Konfigurace v datech na základě podskupin
[Disman 1993: 210-211]
34
Neparametrické testy (Non-parametric Tests)
• Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr
• Neparametrické metody:- nezávislé na rozdělní- méně citlivé na odchylky extrémních hodnot- i pro výběry velmi malého rozsahu- vhodné pro nominální i ordinální znaky
• Ale dochází častěji k chybnému nezamítnutí nepravdivé H0.
• Chí-kvadrát testy,