71
Analýza kvantitativních dat: 1. Popisné statistiky a testování hypotéz Jiří Šafr jiri.safr(zavináč)seznam.cz vytvořeno 29. 6. 2009, poslední aktualizace 25. 5. 2010 UK FHS Historická sociologie (LS 2010)

Analýza kvantitativních dat: 1. Popisné statistiky a testování hypotéz

  • Upload
    rasul

  • View
    34

  • Download
    0

Embed Size (px)

DESCRIPTION

UK FHS Historická sociologie (LS 2010). Analýza kvantitativních dat: 1. Popisné statistiky a testování hypotéz. Jiří Šafr jiri.safr(zavináč)seznam.cz. vytvořeno 29. 6. 2009, poslední aktualizace 25. 5. 2010. Dva základní typy statistiky. - PowerPoint PPT Presentation

Citation preview

Page 1: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Analýza kvantitativních dat:

1. Popisné statistiky a

testování hypotéz

Jiří Šafr jiri.safr(zavináč)seznam.cz

vytvořeno 29. 6. 2009, poslední aktualizace 25. 5. 2010

UK FHSHistorická sociologie

(LS 2010)

Page 2: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

2

Dva základní typy statistiky1. Popisná statistika: metody pro zjišťování a

sumarizaci informací → grfy, tabulky, popisné chrakteristiky (průměr, rozptyl percentily,..)Příklad:

2. Inferenční statistika (statistická indukce): metody pro přijímání a měření spolehlivosti závěrů o populaci založených na informacích získaných z jejího výběru (odhad parametru na základě výběru z populace)

Page 3: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Proces analýzy dat musíme promyslet již ve stadiu plánování dotazníku

(modelu vztahů a hypotéz).

Page 4: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

4

Základní pojmy

• Populace• Základní soubor• Výběrový soubor (vzorek)• Datový soubor

• Třídění dat (jedno a vícestupňové)• Absolutní četnost• Relativní (poměrná) četnost• Kumulativní četnost• Distribuce: hodnoty proměnné nebo charakteristiky a

jejich výskyt

Page 5: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

5

Typy znaků – proměnných Nominální• Kategorie jsou rovnocenné (na úrovni jmen) • př.: pohlaví, jména, typ rodiny, barva vlasů,

profesePořadové (ordinální)• Kategorie lze seřadit do hierarchie• Lze se ptát: vyšší/nižší apod., ale ne o kolik

př.: spokojenost, stupeň souhlasu• Intervalové• číselné proměnné

lze se ptát větší/ menší a o kolikpř.: věk, příjem, počet dětí

Page 6: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

6

Page 7: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

7

Znaky / proměnné

• Kardinální:• A) intervalové – nemají přirozený

počátek: obsahový smysl má rozdíl ale nikoliv podílPříklad: „Dnes je o 10 st. C tepleji“, ale ne „o 25% tepleji.“ / IQ nemá nulu

• B) poměrové – mají přirozený počátek (0 má význam), tudíž lze uvažovat i podíl.Příklad: „nulové“ i „dvojnásobné tržby“

Page 8: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

8

Standardizace: odstranění původní metriky

• Z – skóry: průměr X=0 a StD =1

Odchylka od průměru / směrodatnou odchylkou:

• → umožňuje porovnat znaky s odlišnou metrikou.

• Přímá standardizace

Page 9: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

9

• Rozptyl = střední hodnota kvadrátů odchylek od střední hodnoty

• Směrodatná odchylka = odmocnina z rozptylu náhodné veličiny

• Výběrová směrodatná odchylka

• odmocninu z výběrového rozptylu)

Page 10: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Jednoduché popisné statistiky

Page 11: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

11

Střední hodnoty:

• nominální znaky → modus• ordinální znaky→ medián

(aritmetický průměr)

• intervalové znaky → aritmetický průměr

Page 12: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

12

• Modus = kategorie s největší četností

• Medián = hodnota, která je ve prostředku všech pozorování seřazených podle hodnoty

• Aritmetický průměr = součet hodnot dělený počtem pozorování

Page 13: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

13

Modus

[Babbie 1995]

Page 14: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

14

Medián

[Babbie 1995]

Page 15: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

15

Průměr

[Babbie 1995]

Page 16: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

16

Charakteristiky variability

Udávají koncentraci nebo rozptýlení kolem střední hodnoty. Ukazují na „kvalitu“ průměru.

Rozptyl = součet kvadratických odchylek od průměru dělený rozsahem výběr zmenšeným o 1.

• Směrodatná odchylka = odmocnina z rozptylu.

Směrodatná odchylka je míra rozptýlení hodnot od průměrné (střední) hodnoty.

Page 17: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

17

Výpočet směrodatné odchylky

Příklad. Máme pozorování:7 2 5 4 3 1 8 2 6 2Součet řady = 40; n = 10; průměr = 40/10 = 4Odchylky:3 -2 1 0 -1 -3 4 -2 2 -2součet odchylek je 9 – 9 = 0čtverce odchylek:9; 4; 1; 0; 1; 9; 16; 4; 4; 4součet čtverců odchylek = 52průměrná čtvercová odchylka tj. rozptyl = 52/10= 5,2směrodatná odchylka (odmocnina z rozptylu) = 2,28

Page 18: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

18

Směrodatná odchylka v Excelu

STDEVPA pro základní souborSTDEVA pro výběrový soubor

Page 19: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

19

Další popisné statistiky

• Minimum / maximum

• Rozpětí

• Kvantily: dolní a horní kvartil

• Koeficienty šikmosti

Page 20: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Na co si dát v datech pozor

Page 21: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

21

Vzájemná poloha průměru a mediánu

Page 22: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

22

Přesnost měření

je funkcí celkové chyby měření = jak se rozchází naměřené a skutečné výsledky, má dvě složky

a) Nevýběrová chyba (nonsampling error) faktory uvnitř i vně metodiky výzkumu obtížně

zjistitelné: chybně formulované otázky, nezastihneme všechny vybrané respondenty doma, lidé nechtějí odpovídat, neříkají pravdu,….

b) Výběrová chyba (sampling error)výsledky ve vzorku se lišší od cílové populace, lze statisticky vyčíslit

Page 23: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

23

Intervaly spolehlivosti

Tolerance chyb (margin of error)suma všech možných výběrových chyb, která kvantifikuje nejistotu výsledků měření → pravděpodobnostní interval -/+ (např. 95% interval spolehlivosti určuje rozpětí kolem naměřené hodnoty)

ovlivněno: velikostí výběru, metoda výběru, velikost populace

95 % (konfidenční) interval spolehlivosti → jsme si jistí, že naše výběrová data z 95 %

budou obsahovat skutečnou hodnotu v celé populaci

Page 24: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

24

Směrodatná odchylka a (konfidenční) interval spolehlivosti

• Normální rozložení

http://www.stat.tamu.edu/~west/applets/ci.html

Page 25: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

25

Odhad parametrů v populaci na základě výběrového vzorku

• Standardní chyba průměru

StD Error (of mean) s.e. =

kde s2 je rozptyl (ve výběrovém vzorku)

95 % konfidenční interval pro výběrový průměr = X ± C * s.e.kde C = 1,96 (pro 95 % CI)

Page 26: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

26

Výpočet konfidenčního intervalu výběrového průměru

• Hypotetická populacePrůměr v celé populaci μ = 8

• Náhodný výběr 2 jednotek (např. respondentů) A (=2) a D (=10)

• Průměr ve výběru X = (2+10)/2 = 6• Rozptyl ve výběru 4

CI = X ± 1,96 * 4 = 6 ± 7,84 → -1,84 až 13,84

jednotky A B C D E F

hodnoty 2 6 8 10 10 12

Page 27: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Vlastnosti rozdělení znaků

Page 28: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

28

Symetrie, variabilita

[Hanousek, Charamza 1992: 21]

Page 29: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

29

Šikmost a špičatost

[Hanousek, Charamza 1992: 21]

Page 30: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

30

Ověření normality rozložení dat• Q-Q graf (quantile-quantile): ukazuje kvantily

pozorované distribuce proměnné proti kvantilů zvolené distribuční funkce

• Normálně rozložená data → přímkový charakterv SPSS: Analyze, Descriptive statistics, Q-Q plots

• Kolmogorov-Smirnov test: H0 = data jsou normálně rozložena, Pozor: nízké! p (< 0,05) → distribuce dat se signifikantně lišší od normální distribuce. v SPSS: Analyze, Nonparametric Tests, 1-Sample K-S...

• Porušení normality rozložení → rekódování, transformace (např. logaritmická), použití neparametrických metod

Page 31: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

31

Rozložení četností a Q-Q graf

Page 32: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

32

Boxplot – vousaté kabičky: vizualizace distribuce

KVARTILY dělí statistický soubor na desetiny: dolní Q0,25 (Q1) a horní Q0,75 (Q3)

Interkvartilové rozpětí:

HH = horní kvartil + 1,5 násobku interkvartilového rozpětí

DH = dolníkvartil + 1,5 násobku interkvartilového rozpětí

Page 33: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Testování hypotéz

Vstupní poznámka

Page 34: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Vícerozměrná analýza

Vztahy mezi dvěma a více proměnnými

Page 35: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

35

Testování hypotézStatistická hypotéza H0: „žádný rozdíl“ (variabilita v

datech je náhodná) → testem hodnotíme sílu dokladu proti tomuto předpokladuH1: alternativní, platí, když neplatí H0 „existence rozdílů / závislosti“

• Hladina významnosti α = pravděpodobnost, že zamítneme H0, ačkoliv ona platí. → „míra naší ochoty smířit se s výskytem chyby“. Obvykle 0,05 či 0,01, což je ale pouze konvence.

• Hodnota významnosti p - pravděpodobnost realizace hodnoty testovací statistiky, pokud platí H0. Dosažená hladina hodnoty p < α ukazuje na neplatnost H0.

K testování hypotéz podrobněji viz [Hendl 2006: 176-188]

Page 36: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

36

Testování hypotéz• p-hodnoty nevypovídají nic o síle evidence → jsou

závislé na velikosti výběru• Nezamítnutí H0 neznamená její důkaz.• Jednostranné testy (test zda hodnota leží

napravo/nalevo, tj. vyšší /nižší, od očekávané hodnoty) Dvoustranné testy: odchylky od H01 bez ohledu na směr

• Chyba I druhu → H0 platí, ale my jí zamítneme• Chyba II: druhu → H0 neplatí, ale my jí nezamítneme

(přijmeme)

Statistické testy:Z-test → porovnání průměrů, známe směrod. odchylku populaceT-test → porovnání průměrů, stejné rozptyly neznáme směrod. odchylku populaceF-test → porovnání rozptylůNeparametrické: Chí-kvadrát, Komolgorův-Smirnovův rozdělení ve 2populacích,

Mann-Whitney test (dvouvýběrový t-test Mediánu ve dvou subpopulacích) Wilkoxnův, …

Page 37: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

37

Statistická indukce a testování hypotéz

→ zobecňování výsledků z výběrového souboru na základní soubor

Při tom musí být splněny předpoklady:

- velkého náhodného výběru (n > 30)

- z dostatečně velké populace (min 100x větší než plánovaný vzorek),

- musí jít o výběr, pro celou populaci (census) nedává smysl

Podrobně viz [Soukup, Rabušic 2007].

Page 38: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

38

Testování hypotéz: dvouvýběrový T-testTestujeme rozdíl v průměru mezi dvěma podskupinami.

1. Levenův test rovnosti rozptylů

2. T-test o „rovnosti průměru mezi podskupinami“. Nulová hypotéza předpokládá, že průměry se v podskupinách (zde pohlaví) v celé populaci neliší, tedy že jsou způsobeny náhodou.

Test v principu neříká nic jiného, než že riziko zobecnění výsledku z našeho náhodného výběru na celý základní soubor je pod 5 %.

Při interpretaci výsledků proto vždy sledujte věcnou významnost. Např. je rozdíl v průměrném příjmu mezi muži a ženami 3870 Kč substantivní?

Page 39: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

39

H0 nepřijímáme (Sig. < 0,05): alespoň jedna kategorie nezávislého znaku (vzdělání) se liší od ostatních. Které se odlišují? → Post hoc test.

Testování hypotéz: One-way ANOVA→ obecnější test pro dvě a více kategorií nezávislého znaku, včetně porovnání rozdílu mezi podskupinami.

Page 40: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

40

Testování hypotéz: One-way ANOVA – Post hoc test (Bonferroniho korekce)

Viz též graf s intervaly spolehlivosti

Post hoc test pro podskupiny ukazuje, které skupiny nezávislé proměnné se v průměrech liší (s 95 % jistotou, že tomu tak je i v populaci).

zde: ZŠ od všech ostatních; VYUČ od ZŠ a VŠ

Page 41: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

41

Korelace• Korelační koeficient – Pearsonův

pro číselné znaky (s normálním rozdělením)

1 = přímá závislost0 = žádná statisticky zjistitelná lineární závislost → i při nulovém korelačním koeficientu na sobě veličiny mohou záviset !−1 = nepřímá závislost: čím více se zvětší hodnoty v první skupině znaků, tím více se zmenší hodnoty v druhé skupině znaků,

Page 42: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

42

Korelace: test hodnoty v populaci• Je třeba pomocí T-testu otestovat, zda je korelace

přítomná i v populaci (základním souboru).• Testujeme, zda se jeho hodnota ve výběru lišší od

populační hodnoty. • H0: korelace v základním souboru je nulová (je

způsobená náhodou) r = 0

• Porovnáme s tabulkovou hodnotou (dle stupňů volnosti) na hladině významnosti, např. (oboustranný test). Je-li tabulkové t0,05 > t pak H0 nezamítáme → hodnota r není významně rozdílná od 0; korelace je v populaci nulová.

Page 43: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

43

Korelace a vysvětlená variance

• Umocněním r – korelačního koeficientu dostanemeRsq – koeficient determinence.

• Ten nám říká kolik variance znaku X jsme vysvětlili pomocí znaku Y

Page 44: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

44

Korelace: věk a příjem; Scatterplot

Page 45: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

45

Pořadová korelace: pro ordinální proměnné

• Spermanův korelační koeficient Rho

• +1 = úplná shoda pořadí jednotek podle obou znaků

• Kendallovo Tau• ve srovnání s Pearsonovým r, ale i

Spearmanovým Rho několik výhod → větší citlivost na některé nelineární vztahy. Více k porovnání korelačních koeficientů viz [Hendl 2004: 259-262].

Page 46: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

46

Asociace nominálních znaků: Kontingenční koeficient

• Analogie korelačního koeficientu (ten je pro kardinální/ordinální znaky) → míra těsnosti závislosti.

• Výsledek není kontingenčních tabulkách v intervalu (0,1) → různé korekce CC je rozšíření Phi pro >2x2 tabulky.

V SPSS: Analyze, Descriptive Statistics, Crosstabs; vložit Row a Column variables; → Statistics; → Contingency Coefficient / Phi & Cramer‘s V

Page 47: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

47

Pořadová korelace: př. Soc. Distance

Page 48: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

48

Korelace: parciální korelace• kontrolovaný vliv 3 proměnné

Parciální korelace pro X,Y/U s kontrolou vlivu U (platí i pro neparametrické korelace, např. Spearman)

věk-příjem R x,y -0,14 x - věkvěk-vzdělání R x,u -0,10 y - příjempříjem-vzdělání R y,u 0,33 u - vzdělání

R x,y/u = -0,11 = -0,120,94

Příklad: korelace příjmu a věku, při kontrole vlivu vzdělání („čistý“ efekt)

Page 49: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

49

Analýza rozptylu

Jednoduchá analýza rozptylu One-way ANOVA

• Proměnná nominální (ordinální) x kardinální

• Rozdílnost rozptylu číselné proměnné podle kategorií nominálního znaku

• Založena na F-statistice

Page 50: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

50

Lineární regreseOdhadujeme hodnotu závislého znaku (y) na základě znalosti jiných veličin - nezávisle proměnných (x, ….).

y = a + bx y = hodnota závislé, a = konstanta (typická závislé při nejnižší hodnotě nezávislé, b = regresní koeficient „o kolik vzroste Y, když se x změní o jednotku“, x = hodnota nezávislé proměnné

Page 51: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Na co si dát pozor

Vícerozměrná analýza

Page 52: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

52

Odlehlá pozorování (outliers)

Téměř všech rozptyl byl vnesen pouze jedním pozorováním.Outliers mohou významně ovlivnit vztah dvou (a více) znaků!

Vždy nejprve zjistit odlehlá pozorování → Scatterplot

R = 0,88 R = 0,08

Page 53: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

53

Konfigurace v datech na základě podskupin

[Disman 1993: 210-211]

Page 54: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

54

• Pozor korelační koeficient ukazuje jen na míru souvislosti, ale neříká nic o kauzalitě – směru působení mez dvěma znaky.

Page 55: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

55

Simpsonův / reversal paradox – špatná inference z agregovaných dat

• Obrácení závislosti (směru působení) v konntingenční tabulce způsobeného působením třetí proměnné.

• Hrozí při agregaci dat.

V agregovaných datech (černá čára) je negativní souvislost

V oddělených podskupinách (modrá a červená čára) je ovšem pozitivní trend

Page 56: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

56

Neparametrické testy (Non-parametric Tests)

• Parametrické metody předpokládají: náhodný výběr, normální rozdělní (distribuce znaku), velké výběry z populace, známé (shodné) rozptyly v sub/populacích, z nichž byl proveden výběr

• Neparametrické metody:- nezávislé na rozdělní- méně citlivé na odchylky extrémních hodnot- i pro výběry velmi malého rozsahu- vhodné pro nominální i ordinální znaky

• Ale dochází častěji k chybnému nezamítnutí nepravdivé H0.

• Chí-kvadrát testy,

Page 57: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Kategoriální data

Kontingenční tabulka

Page 58: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

58

Kontingenční tabulka

Statistické míry a testování• Nezávislost = oba znaky navzájem neovlivňují v tom,

jakých konkrétních hodnot nabývají • Homogenita (shodnost struktury) = očekávané četnosti

jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku

• → test dobré shody = porovnání očekávaných četností v jednotlivých polích tabulky - za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí - a skutečných četností.

• Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení chí kvadrát o (r-1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.

Page 59: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

59

Kontingenční tabulka

• Pro použití testů založených na testu dobré shody (test nezávislosti nebo homogenity) je třeba, aby se v tabulce vyskylo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano").

Page 60: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

60

Kontingenční tabulka

• Statistika chí kvadrát nevypovídá nic o síle vztahu, pouze zamítá/nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině významnosti alfa.

• Pro zjištění síly vztahu → - koeficienty (obdobné korelaci: CC),- podíl šancí (OR), - u ordinálních veličin koef. dle pořadí. Odlišné testy pro nominální a ordinální proměnné (jedna / obě).

Page 61: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

61

Chí-kvadrát testy: test dobré shody• Test pro homogenitu distribucí mezi kategoriemi

znaku/ů• Pro nominální znaky (i ordinální a kardinállí)• Nevyžaduje znalost předschozího rozdělení znaku• Očekávané frekvence• Odpovídá na otázku, zda jsou rozíly mezi empirickými

(pozorovanými - fO) četnostmi a teoretickými (očekávanými -fE) četnostmi náhodné nebo ne.

• Počet stupňů volnosti df = (r-1) (s-1) r = počet řádků s = počet sloupců v tabulce

Page 62: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

62

Chí-kvadrát test: příklad• Pozorované četnosti kategorií

očekávané (teoretické) četnosti = 24 : 3 = 8.

H0: počet respondentů je ve všech kategoriích stejný

Page 63: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

63

Chí-kvadrát test: příklad

• Určení stupňů volnosti df = k - 1 – r

• k - počet kategorií r - počet parametrů předp. rozdělní

• Kritický bod z tabulky statist významnosti pro Alpha 0,05

• Pokud vypočítaná X < X kritická → nelze odmítnout H0 (= četnosti jsou mezi kategoriemi stejné).

Page 64: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

64

Chí-kvadrát test: příklad: Kouření marihuany u žáků 9 a 12 třídy.

Page 65: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

65

Chí-kvadrát test: příklad:

Page 66: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

66

Chí-kvadrát test: příklad

Chíkvadrát kritický z tabulek > Chíkvadrát dosažený (naměřený)

→ Ho nelze zamítnout = homogenita mezi kategoriemi

Page 67: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

67

Teoretickou četností zde není poměrové rozložení ale hodnota z předchozí etapy.

Chí-kvadrát test: změna v čase

Vypočítaná hodnota Chisq je menší než tabulková-kritická hodnota.Platí H0 o "nerozdílu„ (rozdíl v četnostech je způsoben náhodnými faktory).

Je podle vašeho názoru nabídka kulturních žánrů v našem městě dostatečná?Ano Neví Ne

Epirická četnost (2010) 65 28 6,7Teoretická četnost (2007) 60 34 6

Chí-kvadr 1,53tabulková hodnota (pro 5 %) 5,99

Page 68: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

68

Adjustovaná residua Znaménkové schéma

• CROSSTABS: Adj. standardised (v SPSS / PSPP)Adjustovaná residua• Residuum v daném políčku tabulky (=pozorovaná

(observed) minus očekávaná (expected) hodnota) dělený odhadem vlastní standardní chyby. Odpovídající standardizovaný residuál je vyjádřen v jednotkách směrodatné odchylky nad nebo pod průměrem.

Znaménkové schéma → jednoduchá vizualizace• 'kde abs(z) >= 3.29 nahradí +++ resp. ---,• 'kde abs(z) >= 2.58 nahradí ++ resp. --,• 'kde abs(z) >= 1.96 nahradí + resp. -.

Page 69: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

69

Dodatek: uděláno středa

• Descriptives

• Explore – outliers, median, zešikmení,…

Grafy:

• Konfidenční intervaly pro sadu proměnných 8 x různá spokojenost – porovnání (seřazení) mezi nimi

• Konfidenční intervaly pro kategorie proměné příjme x vzdělání

Page 70: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

70

Webové nástroje pro analýzuIndex of On-line Stats Calculatorshttp://www.physics.csbsju.edu/stats/Index.html

• Exact r×c Contingency Table:http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html

• Statistical Calculations• http://statpages.org/

• R. Webster West appletshttp://www.stat.tamu.edu/~west/http://www.stat.tamu.edu/~west/ph/

Učebnice:Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy

http://www.stahroun.me.cz/interstat/Statnotes: Topics in Multivariate Analysis, by G. David Garson

http://faculty.chass.ncsu.edu/garson/PA765/index.htmStatSoft - Elektronická učebnice statistiky (anglicky)

http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31http://www.statsoft.com/textbook/

Page 71: Analýza kvantitativních dat: 1. Popisné statistiky  a  testování hypotéz

Nejprve se ptej, k čemu analýza tvá má sloužit,

potom teprv výběrem metody dej se soužit.

[Hanousek, Charamza 1992 : 61