19
Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014 UK FHS Historická sociologie Jak psát empirickou část odborného textu: Popisné statistiky a bivariátní vztahy

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

  • Upload
    glynis

  • View
    50

  • Download
    0

Embed Size (px)

DESCRIPTION

UK FHS Historická sociologie. Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod. Jak psát empirickou část odborného textu: Popisné statistiky a bivariátní vztahy. Jiří Šafr jiri.safr(AT)seznam.cz Poslední aktualizace 5/6/2014. - PowerPoint PPT Presentation

Citation preview

Page 1: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Analýza kvantitativních dat III. – praktické aplikace vícerozměrných

statistických metod

Jiří Šafrjiri.safr(AT)seznam.cz

Poslední aktualizace 5/6/2014

UK FHSHistorická sociologie

Jak psát empirickou část odborného textu:

Popisné statistiky a bivariátní vztahy

Page 2: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Jak psát empirickou část textu

(nejen) v diplomce

(bude doplněno)

Page 3: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Postup jak (začít) psát …

• 1. závislá proměnná(é)

• s ní si vyhrajte, nepůjde již v hotovém textu měnit

• Koncept/operacionalizace/jednotky/ rekódování, deskripce (variance, rozložení,…),, zakotvení (porovnání s výsledky jiných výzkumů)

Page 4: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Postup jak (začít) psát …

• Rozpracovat si projekt (diplomovou práci) na otázky

• Podle těchto otázek udělat (pod)kapitoly (v1. kroku stačí nadpisy + anotace)

• otázky by měly být stupňovitě do sebe zapadající (→ co je třeba vyřešit nejdříve, co nelze bez jiného předchozího kroku, co naopak ano a co tedy lze odložit na později … ?)

Page 5: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Struktura textu empirické části

1. popis závislé proměnné – ne tupě ale zakotveně interpretovat (např. vývoj v čase)

2. bivariátní vztahy – ty nejdůležitější z hlediska teorie

3. multivariační analýza (např. regrese, modely=hypotézy)

4. interakce (nejlépe dle teorie)

5. grafické znázornění čistých efektů (estimated effect size)

Page 6: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Presentace tabulek s s popisnými statistikami

nejen pro závislou (vysvětlovanou) proměnnou

Page 7: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Popisné statistiky pro závislou i nezávislé proměnné

Zdroj: [Katrňák 2006: 181]

Základní tabulka třídění 1. stupně pro několik znaků dohromady.

Máme zde počet platných případů,střední hodnotu (průměr) což nemusí být vždy ideální, směrodatnou odchylkua popis hodnot u kategoriálních znaků.Někdy se tato tabulka dává pouze do přílohy.

Page 8: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Efektivní presentace tabulek

• Jednou z možností je „Linkova“ tabulka: Kombinované tabulky třídění 2.stupně pro několik nezávislých proměnných → bivariátní profil naší hlavní závislé proměnné(ých)

Page 9: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Komplexní „profilová“ tabulka třídění 2. stupně (několik nezávislých znaků), pro dvě závislé proměnnéZávislé proměnné jsou sice spojité-kardinální (dále analyzovány v OLS), zde ale pro přehlednost pouze % souhlasu a nesouhlasu.

Nezávislé proměnné mají co nejmenší počet kategorií → přehlednost rozdílů.

Alternativně by šlo ukazovat průměry závislé proměnné, ale takto máme z věcného hlediska mnohem lepší materiál k interpretaci.Vytvořeno v Excelu ze série kontingenčních tabulek z SPSS. V SPSS by bylo možno udělat celou tabulku pomocí modulu Tables.

Tabulka X.3. Podpora distributivních ideologií v jednotlivých sociálních skupinách společnosti v roce 2006 (řádková procenta) Rovnostářství EQUAL Zásluhovost EQUITY A B N A B N Celkem 55 10 1192 6 76 1197 Pohlaví

Muž 55 11 504 6 76 506 Žena 56 10 688 6 76 691

Věk 18–29 let 59 9 187 10 73 187 30–49 let 55 10 397 7 76 398 50 let a více 54 11 602 4 78 606

Vzdělání základní nebo žádné 44 15 150 7 75 150 střední bez maturity 50 13 474 5 75 476 střední s maturitou 63 7 404 7 75 407 univerzitní 62 5 164 4 84 164

Subjektivní sociální status nízký 48 15 535 5 76 538 střední 59 8 488 6 76 490 vysoký 75 2 109 4 84 109

Zaměstnanecký status nezaměstnaný/á 26 24 42 5 76 42 zaměstnanec/kyně na plný úvazek 56 10 470 9 73 472 samostatně činný/á nebo podnikatel

80 4 85 7 82 85

Měsíční příjem domácnosti do 14 tisíc Kč 48 11 237 4 76 239 od 14 do 20 tisíc Kč 47 15 246 5 80 247 od 20 do 30 tisíc Kč 55 10 253 9 72 253 nad 30 tisíc Kč 68 3 148 3 78 148

Návštěva bohoslužeb nikdy je nenavštěvuje 55 11 696 5 78 699 navštěvuje je jednou nebo vícekrát týdně

39 15 89 6 84 90

Politická orientace (sebezařazení) levice (0–2) 33 29 119 8 74 119 střed (3–7) 55 9 635 5 76 636 pravice (8–10) 69 5 259 7 80 260

Hodnocení legitimity demokratického režimu (LEG1)

pozitivní 45 16 401 7 71 401 ostatní 61 6 666 4 81 669

Zdroj: ISSP 2006 (nevážená data). Poznámka: Sloupec A obsahuje nesouhlas, sloupec B souhlas. Prostřední kategorie není uvedena; její hodnota činí dopočet do 100 procent.

Zdroj: [Šafr, nepublikovaný rukopis]

Page 10: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Prezentace základních bivariátních vztahů

Většinou máme jednu (či více) závislou-vysvětlovanou proměnnou a naše hlavní

hypotézy (a v nich nezávislé znaky).

Nejprve vztahy dané hypotézami můžeme sledovat jednoduše bivariátně.

Page 11: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Základní bivariátní vztah Příklad (oba znaky kategoriální-ordinální).

závislá proměnná: vzdělanostní aspirace dítěte, nezávislá: aspirace rodičů

Zdroj: [Katrňák 2006: 180]

Page 12: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Základní bivariátní vztah Příklad (oba znaky kategoriální: nominální a ordinální). závislá proměnná: způsob získání 1. pracovního místa, nezávislá: vzdělání

Zdroj: [Hauberer, Šafr 2012: 58]

Page 13: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Základní bivariátní vztah Příklad: závislá proměnná (kardinální): Pro-čtenářské klima

rodiny ve 3 dimenzích, nezávislá (kategoriální-ordinální): vzdělání

Zdroj: [Gorčíková, Šafr 2012: 75]

Závislé proměnné jsou spojité-kardinální a standardizované na z-skóry, tj. mají stejnou metriku-rozsah (dále byly

analyzovány v OLS).

Pokud i nezávislá proměnná je kardinální, lze X-Y (scatterplot) graf, ale někdy je interpretačně zajímavější jednu z proměnných kategorizovat a pak ukazovat průměry v podskupinách.

Page 14: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Pochopitelně jsou i jiné varianty znaků a možnosti prezentace

Doplníme …

Page 15: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Průnik pro platné případy (effective sample)

Analýzy v textu by měly být provedeny na konsistentním podsouboru se stejným počtem platných případů

(průnik)

Page 16: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Průnik pro platné případy (effective sample)• Zvolte průnik pro platné případy (princip LISTWISE vyřazení

missingů), který se v textu nebude měnit (effective sample), může jít jen o kapitolu (její části) nebo o celý text.

• Tj. všechny tabulky/analýzy by měly být založeny na jednom podsouboru, tj. stejném počtu případů.

• Proto nejprve vše zkontrolovat, nejjednodušeji velikost průniku zjistíme pomocí DESCRIPTIVES (viz dále)

• Počet chybějících hodnot (missingů) u závislé proměnné je pořád stejný, ale může se měnit podle nezávislých proměnných.

• Problém může být, že celkový průnik missingů všech analyzovaných proměnných může být již příliš velký (> 5%). → kontrolovat reprezentativitu analyzovaného podsouboru.

• Pak lze zvážit pro nezávislé proměnné:a) „zahrnutí chybějících hodnot“ do analýzy nejjednodušeji pomocí nahrazení průměrem (Replace with Mean). To samotné se ale nedoporučuje, lepší volba je to doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy var) a testovat její statistickou významnost.b) Imputaci hodnot - existují sofistikované metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných.

Page 17: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Chybějící hodnoty v datech mohou být:

• Missing completely at random (MCAR)→ ideální situace, výsledky nejsou zkreslené (biased)

• Missing at random (MAR)→ chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny

• Not missing at random (NMAR) → chybějící hodnoty jsou něčím (nenáhodně) podmíněny → problém zkreslení výsledků

Page 18: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Kontrola reprezentativity analyzovaného podsouboru celkově platných případů, filtr na effective sample

• Pro kontrolu si vytvoříme filtr s celkovým průnikem platných případů (prostým součtem všech platných hodnot všech proměnných): COMPUTE Fi_Lsw6v = Závislá+Nezávislá1+Nezávislá2+Nezávislá3 atd. RECODE Fi_Lsw6v (low thru highest =1).

• Nebo COUNT Fi_Lsw6v = s27 vek prijem s30 s18 vzd3 (SYSMIS MISSING). /* pozor toto zadání předpokládá, že jsou již ošetřeny missingy a je ve výsledku opačné.RECODE Fi_Lsw6v (0 =1) (1 thru highest =0).

• A jednoduchá kontrola reprezentativity, např. CROSS vekkat by Fi_Listw /cel col.

• A na všechny bivariátní analýzy zapneme filtr pro podskupinu platných případů.FILTER BY Fi_Lsw6v.

Page 19: Analýza kvantitativních dat III. – praktické aplikace vícerozměrných statistických metod

Sedm principů psaní „o číslech“1. Ustavte kontext pro čísla, která budete prezentovat tím, že

specifikujete „Ws“ (Co/Kdo/Kde/Kdy?).2. Zvolte adekvátní příklady a analogie.3. Zvolte slovník (pojmy), které zavedete. Definujte synonyma pro

koncepty, které budete užívat (a jen ty používejte v textu). Nahraďte matematicko-statistický slovník a symboly výrazy běžného jazyka srozumitelného pro netechnické čtenáře.

4. Rozhodněte se, zda čísla budete presentovat v tabulkách nebo grafech. Zamyslete se kolik času bude čtenář potřebovat na zpracování čísel → omezte ukazování čísel (opisování z tabulek do textu). Používejte krom čísel také slovní vyjádření (místo čísla s % lze slovně vyjádřené zlomky).

5. Uveďte čísla a interpretujte je v textu. Uveďte je a uveďte jejich význam a smysl. Interpretujte je a to ve vztahu k hlavnímu tématu.

6. Specifikujte směr a velikost asociace mezi proměnnými.Pokud je trend: roste/ klesá? Pokud rozdíly mezi skupinami/místy: kdo má nejvyšší/ nejnižší hodnotu?

7. K popisu vztahu mezi mnoha čísly: sumarizujte celkový vzorec spíš než všechna jednotlivá čísla.Najděte nejlepší generalizaci pro data. Uveďte jí na příkladech čísel z tabulky grafu. A také, je-li, popište trend, který tomuto obecnému trendu neodpovídá (tj. výjimky z trendu/ vzorce asociace).

Zdroj: [Miller 2005: 33]