17
Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014 UK FHS Historická sociologie Doplnění z AKD II.: t-test a ANOVA - testování hypotéz pro průměry (rozptyly)

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

  • Upload
    tannar

  • View
    60

  • Download
    0

Embed Size (px)

DESCRIPTION

UK FHS Historická sociologie. Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod. Doplnění z AKD II.: t-test a ANOVA - testování hypotéz pro průměry (rozptyly). Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 11/3/2014. - PowerPoint PPT Presentation

Citation preview

Page 1: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Jiří Šafrjiri.safr(AT)seznam.cz

Poslední aktualizace 11/3/2014

UK FHSHistorická sociologie

Doplnění z AKD II.: t-test a ANOVA

- testování hypotéz pro průměry (rozptyly)

Page 2: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Testování hypotéz pro průměry (rozptyly)

Doplnění z AKD II.

Page 3: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

t-test: testy pro průměry• Jednovýběrový t-test (One-sample t-test)

→ rozdíl od populačního průměru μ0 (nebo porovnání s jinou testovou-teoretickou hodnotou). Hypotézou je, že střední hodnota normálního rozdělení (průměr), z něhož výběr pochází, se rovná μ0. (např. H0: výběrová hodnota průměrného příjmu se neliší od hodnoty 10,5 tis.)

T-TEST /TESTVAL 10.5 /VARIABLES prijem.• Párový t-test (Pair-sampled t-test) porovnání dvou průměrů v závislých

výběrech, tj. při uspořádání pozorování ve dvojicích (měřené proměnné jsou na sobě závislé). Nejčastěji jde o zjišťování velikosti či obměny znaku u téže osoby ve dvou časových okamžicích (např. názor před a po shlédnutí filmu). A nebo porovnání průměrů u dvou věcně „srovnatelných“ proměnných, tj. hodnoty musí mít stejný rozsah. Např. intenzita sledování TV (q1_a) a intenzita chození do kina (q1_b) (H0: Průměry sou shodné.)

T-TEST PAIRS q1_a WITH q1_b (PAIRED).• Dvouvýběrový t-test (Independent-samples t-test) → porovnání dvou

průměrů v nezávislých výběrech, tj. test rozdílu průměrných hodnot znaku u dvou podskupin podle dichotomického znaku Např. Příjem (prijem) podle pohlaví (S30) (H0: Rozdíl mezi průměry v podskupinách je nulový.) Nejprve provedeme test rovnosti rozptylů → různý způsob výpočtu t-testu.T-TEST GROUPS s30(1 2)/ VARIABLES prijem.

Page 4: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Dvouvýběrový t-test (Independent-samples t-test)

Zdroj: [SPSS Base User's Guide 13.0: 358-59]

T-TEST GROUPS Treat (0 1)/ VARIABLES Bloodprs.

Ve výstupu máme k dispozici:1. konvenční t-test (Equal variances assumed)2. modifikovaný Welch's t-test (equal variances not assumed).

Pokud je Levenův test statisticky signifikantní (tj. předpoklad o rovnosti rozptylů je porušen) → interpretujeme výsledek Welchova t-testu (equal variances not assumed). Jeho použití se ostatně obecně doporučuje.Sig. > 0,05 → skupiny mají

stejné rozptyly → čteme první řádek: konvenční t-test

Výsledek t-testu:

P-value < 0,05 → hypotézu o rovnosti průměrů nemůžeme přijmout. → Krevní tlak je ve skupině s novým lékem (new drug) o 26 bodů nižší než ve skupině s placebem.

Naměřená statistika t = (rozdíl průměrů / S.E. rozdílu průměrů) = 6,9 / 26,1 = 3,783Tabulková hodnota Studentova t-rozdělení: pro Alfa 5 % a 18 df je 2,101 < 3,783 → H0 zamítáme.

Output:

Page 5: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Dvouvýběrový t-test: Předpoklady

Test variables with extreme or outlying values should be carefully checked; boxplots can be used for this.

• Note that the assumption of equal variances is not the only• assumption that may apply to a t-test. A t-test also assumes• normal distributions of the variable within each group (although• it's reasonably robust to this assumption). Depending on your• perspective on measurement, and the type of inferences desired, it• may also not be appropriate to use parametric statistics with• "ordinal" data.

• For the equal-variance t test, • Pozorování musí být na sobě nezávislá• Náhodný výběr• Normální rozložení distribuce hodnot• Stejný rozptyl ve výběru jako v populaci• from normal distributions with the same population variance. • For the unequal-variance t test, the observations should be independent, random samples from

normal distributions. • The two-sample t test is fairly robust to departures from normality. When checking distributions

graphically, look to see that they are symmetric and have no outliers.

Zdroj: [SPSS Base User's Guide 13.0: 358]

Page 6: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Poznámka - neparametrické testy

• Pokud nejsou dodrženy předpoklady (malé výběry, normalita rozložení, ordinální závislý znak atd.) pak bychom měli pro testy střeních hodnot používat neparametrických testů:

• Independent-samples t-test → Mann-Whitney U test

• One-Way ANOVA → Kruskal-Wallis one-way analysis of variance

Page 7: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

• Pokud má nezávislá proměnná více kategorií než dvě pak alternativou pro dvouvýběrový t-test je jednoduchá analýza rozptylu (one-way ANOVA)

Page 8: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

One-Way Analysis of VarianceANOVA

jednoduchá analýza rozptylu

Page 9: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

One-way ANOVA - předpoklady

• Předpokladem je rovnost rozptylů v testovaných podskupinách.

• Vizuálně ověříme pomocí ErrorBar grafuGRAPH /ERRORBAR (STDDEV 1)=prijem BY vzd4.

• Zde tomu tak není:Vysokoškoláci mají větší rozptylv příjmech než ostatní.

• (viz také Levenův test)

Zdroj: [data ISSP 2007, ČR]

Page 10: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

ONEWAY prijem BY vzd4 /STATISTICS DESCRIPTIVES HOMOGENEITY /PLOT MEANS /POSTHOC=BONFERRONI ALPHA(0.05).

*Zde máme navíc zadány: popisné statistiky, Levenův test homogeneity rozptylů, graf průměrů, a tzv. post-hoc test pro statistický test, které skupiny se navzájem odlišují (Bonferroniho test).

One-way ANOVA – zadání

Závislá proměnná(číselná-

kardinální)

Nezávislá proměnná

(kategoriální)

Page 11: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

One-way ANOVA – Output (1)

Levenův test (Homogeneity of variance test) → stejnosti rozptylů v podskupinách

H0 (shoda rozptylů) nemůžeme přijmout: P value < 0,05. Homogenita je porušena. → alternativní postupy:

-Provedeme transformaci (např. zlogaritmování závislé proměnné)

- použijeme neparatmetrický test Kruskal-Wallis one-way analysis of variance

- také to můžeme ignorovat. ANOVA je vůči této podmínce poměrně robustní, pokud jsou podskupiny (v nezávislé proměnné) přibližně stejně velké.

Popisné statistiky: průměry v podskupinách, STD, S.E., Intervaly spolehlivosti.

Tyto výsledky posléze věcně interpretujeme (samotný F-test je až v další tabulce).

Page 12: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

One-way ANOVA – Output (2): hlavní výsledek F-test

F test: Sig. < 0,05 proto zamítáme H0 (o shodě průměru v podskupinách).

Pozor: samotný tento F-test neříká, které podskupiny se liší navzájem, pouze víme, že minimálně jedna vzdělanostní skupina se liší v průměrném příjmu od ostatních.

Proto dále provedeme: Post-hoc test a nebo porovnáme Intervaly spolehlivosti mezi skupinami.

Page 13: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

One-way ANOVA – Output (3)Post-hoc test (Bonferroni) → rozdíly mezi skupinami

Test porovnává každou kategorii s každou, hvězdička * nám ukazuje, kde jsou rozdíly v průměru statisticky signifikantní na Alfa min. 5 %.

Výsledek si můžeme přehledně znázornit:

ZŠ VY

SŠ VŠ

(spojnice značí shodu průměru, na Alfa 0,05)Mnohem praktičtější je ale grafické zobrazení průměrů a intervalů spolehlivosti (viz dále).

Page 14: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Intervaly spolehlivosti mezi skupinami (ERROR-BAR)

GRAPH ERRORBAR (CI) prijem BY vzd4.Zde máme mnohem více informací, interval spolehlivosti v sobě zahrnuje informaci o rozptylu (standardní chybě) i počtu případů ve skupině.

A nezapomeňte, že záleží, jaké je na ose Y rozpětí (SPSS v grafu „optimalizuje“ zobrazení).

Page 15: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Neparametrické testy NPar Tests→ „pořadové (Rank) testy“

• K porovnání souborů statistických dat, u nichž není normální rozdělení pravděpodobností sledovaného znaku → náhodná veličina má neznámé rozdělení, které neumíme charakterizovat pomocí průměru a rozptylu (µ, s).

• nulová hypotéza, se proto vztahuje jen k obecným vlastnostem rozdělení: (shodu tvaru křivky rozdělení v porovnávaných souborech dat).

• Výpočty jsou založeny na pořadových číslech jednotlivých hodnot variační řady (→ pořadové testy),

• Můžeme je proto použít i pro ordinální proměnné (hodnoty, které nemají přesný číselný význam, odráží jen pořadí)

Page 16: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Neparametrický test: Two-Independent-Samples Tests

Mann-Whitneyův pořadový test

Mann-Whitney Test

Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme.

Ekvivalent dvouvýběrového t-testu

NPAR TESTS /M-W=prijem BY vzd4(1 4) /STATISTICS DESCRIPTIVES.

Page 17: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Neparametrický test:Kruskal-Wallis one-way analysis of variance

Kruskal-Wallis Test

Sig. < 0,5 → Nulovou hypotézu o shodě rozdělení (pořadí v podskupinách) veličin zamítáme.

NPAR TESTS /K-W=prijem BY vzd4(1 4) /STATISTICS DESCRIPTIVES.

Ekvivalent jednoduché analýzy rozptylu One-Way ANOVA