35
Anvendt Statistik Lektion 6 Kontingenstabeller c 2 -test [ki-i-anden-test] 1

Anvendt Statistik Lektion 6

  • Upload
    liora

  • View
    60

  • Download
    0

Embed Size (px)

DESCRIPTION

Anvendt Statistik Lektion 6. Kontingenstabeller c 2 -test [ ki -i-anden-test]. Kontingenstabel. Formål : Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning : En ”celle” for hver kombination af kategorier. - PowerPoint PPT Presentation

Citation preview

Page 1: Anvendt Statistik Lektion 6

1

Anvendt StatistikLektion 6

Kontingenstabellerc2-test [ki-i-anden-test]

Page 2: Anvendt Statistik Lektion 6

2

Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to

kategoriske variable Opbygning: En ”celle” for hver kombination af

kategorier. Cellen: Indeholder antal observationer, der falder i den

kombination af kategorier. Eksempel:

Celle: Antal mænd, der er ’independent’

Page 3: Anvendt Statistik Lektion 6

3

Eksempel Spørgsmål: Er der sammenhæng mellem køn og ens

politiske ståsted? To variable:

Køn: Mand / kvinde Partiforhold:Demokrat/ Uafhængig / Republikaner

Vi er interesserede i fordelingen af stemmer, ikke de absolutte antal.

Page 4: Anvendt Statistik Lektion 6

4

Relative fordeling Tabel over stemme fordelingen

Stemme-fordelingen blandt: Kvinder: Mænd: Alle:

Vi ser at stemmefordelingen er forskellig Er forskellen statistisk signifikant?

Page 5: Anvendt Statistik Lektion 6

5

Statistisk uafhængighed To kategoriske variable er statistisk uafhængige, hvis den

betingede fordeling for den ene variabel er den samme uanset værdien af den anden variabel.

Er den betingede fordeling ikke den samme, så er de to variable statistisk afhængige.

Eksempel: Køn og partiforhold er uafhængige, hvis andelen af hhv. demokrater, uafhængige og republikanere er den sammen blandt mænd og kvinder.

Eksempel: Køn og partiforhold er uafhængige, hvis andelen af hhv. mænd og kvinder er den sammen blandt demokrater, uafhængige og republikanere.

Page 6: Anvendt Statistik Lektion 6

6

Eksempel på uafhængighed Eksempel

Sammenhæng mellem race og partiforhold. De to variable er uafhængige, da fordelingen blandt de tre

politiske grupper er den samme for alle tre race-grupper.

Page 7: Anvendt Statistik Lektion 6

7

Eksempel på uafhængighed (forts) Eksempel

Sammenhæng mellem race og partiforhold. De to variable er uafhængige, da fordelingen blandt de tre

race-grupperer den samme for alle tre politiske grupper.

Page 8: Anvendt Statistik Lektion 6

8

Tilbage til Køn og Parti Fordelingen opfylder ikke betingelsen for uafhængighed.

Men det er jo ”kun” data. Det ”rigtige” spørgsmål er: Er der uafhængighed i populationen?

Er afvigelsen fra uafhængighed i data, så stor at vi ikke tror på at der kan være uafhængighed i populationen?

Page 9: Anvendt Statistik Lektion 6

9

c2-test af uafhængighed

To variable er uafhængige, hvis populations-fordelingen af den ene variabel er den samme uanset værdien af den anden.

Vi vil teste hypoteserne H0: De to variable er statistisk uafhængige H1: De to variable er statistisk afhængige

En c2-test sammenligner data med hvad vi ville ”forvente” hvis H0 var sand.

Page 10: Anvendt Statistik Lektion 6

10

Forventede antal Hvilke antal vil vi forvente hvis H0 er sand, dvs. der er

statistisk uafhængighed? Vi ved at uafhængighed kræver den samme fordeling i hver

række Notation: For hver celle…

Lad fo betegne det observerede antal. Lad fe betegne det forventede antal.

Tabel over de observerede antal (fo)

Page 11: Anvendt Statistik Lektion 6

11

Forventede antal Eksempel: Kvinde og Demokrat

Observerede antal fo = 573 Andelen af demokrater generelt er: 959/2771 = 34.6% Hvis køn og partiforhold er uafhængige skal andelen af

demokrater være den samme uanset køn. Dvs. under H0 forventer vi, at 34.6% af de 1511 kvinder er

demokrater: fe = 0.346·1511 = (959/2771)·1511 = 522.9

fe = rækketotal × søjletotal / n

fo

Page 12: Anvendt Statistik Lektion 6

12

c2-teststørrelse

Forskellen mellem de observerede og forventede antal opsummeres ved c2-teststørrelsen:

Summen er over alle celler i tabellen. Der gælder at c2 ≥ 0. c2 = 0 er et ”perfekt” match (fe=fo i alle celler). Jo større c2 er jo længere fra uafhængighed. Jo større c2 er jo mere kritisk for H0.

e

eo

fff 2

2c

Page 13: Anvendt Statistik Lektion 6

13

Eksempel SPSS har udregnet forventede antal

Udregning af c2-teststørrelsen

Hvor kritisk er 16.2…?

2.163.373

3.3733999.522

9.522573 2222

e

eo

fffc

Page 14: Anvendt Statistik Lektion 6

14

c2-fordelingen

Hvis H0 er sand (uafhængighed) og stikprøven er stor, så følger c2-teststørrelsen en c2-fordeling.

c2-fordeling… antager kun positive værdier er højreskæv

0 10 20 30 40

0.00

0.05

0.10

0.15 df = 5

df = 10

df = 10

faconen er givet ved antal frihedsgrader (df = degrees of freedom)

har middelværdi m = df og standardafvigelse s = .df2

Page 15: Anvendt Statistik Lektion 6

15

c2-test og c2-fordeling For test af H0 i en tabel med r rækker og c kolonner er

df = (r - 1)(c - 1) P-værdien er sandsynligheden for mere kritiske værdier, hvis

H0 er sand

c2

P-værdien

c2 , df = (r – 1)(c – 1)

Page 16: Anvendt Statistik Lektion 6

16

Eksempel: Køn og partiforhold Vi vil teste følgende hypoteser

H0: Køn og partiforhold er uafhængige H1: Køn og partiforhold er afhængige

Vi har r = 2 og c = 3, dvs. df = (2 - 1)(3 - 1) = 2 Teststørrelsen er c2 16.2 P-værdien er P = 0.0003.

16.2

P-værdien

c2 , df = (r – 1)(c – 1) Konklusion: Da P-værdien er mindre end 0.05 afviser vi H0

Dvs. vi konkluderer at køn og partiforhold er statistisk afhængige.

Page 17: Anvendt Statistik Lektion 6

17

c2-test vha. tabel Udsnit af Tabel C s. 594

Da 16.2 > 5.99 kan vi se, at P-værdien nødvendigvis er mindre end 0.05, dvs. vi forkaster H0.

a0.05 P-værdi

5.99 c216.2

a

Page 18: Anvendt Statistik Lektion 6

18

Krav til Stikprøvestørrelsen

Tidligere skrev vi, at c2-testet kræver at stikprøven er ”stor nok”.

En tommelfingerregel er at alle forventede antal er større end fem, dvs. fe > 5.

Page 19: Anvendt Statistik Lektion 6

19

c2-test i SPSS : Input Analyze → Descriptive Statistics → Crosstabs…

Page 20: Anvendt Statistik Lektion 6

20

c2-test i SPSS : Output

Resultatet af en analyse i SPSS

c2teststørrelsendf = antal frihedsgrader P-værdien

Antal celler med fe < 5, helst nul.

Page 21: Anvendt Statistik Lektion 6

21

Frihedsgrader

Hvorfor har en 2x3 tabel 2 frihedsgrader? Antag vi kender alle række- og søjletotaler. Hvis vi kender antallet i bare to celler, så kan vi finde

resten af antallene. Vi har frihed til at vælge to antal – derefter er resten givet!

Partiforhold

Demokrat Uafhængig Republikaner Total

Kvinde 573 516 - 1511

Mand - - - 1260

959 991 821 2711

Page 22: Anvendt Statistik Lektion 6

22

Residual: Motivation

c2-testet kan afsløre, at data passer dårligt med nul-hypotesen om statistisk uafhængighed.

c2-testet siger intet om hvordan data passer dårligt. Det kunne fx være fordi:

Et lille antal celler afviger meget. Et stort antal celler afviger lidt.

Et residual siger noget om, hvor meget den enkelte celle afviger fra det forventede.

Page 23: Anvendt Statistik Lektion 6

23

Residual Et (råt) residual for en celle er forskellen mellem fo og fe.

Et standardiseret residual for en celle er

Her er se standardfejlen, hvis H0 er sand. Dvs. det standardiserede residual måler antal se som forskellen mellem fo - fe afviger fra 0.

z svinger omkring 0 med standardafvigelse 1. For store stikprøver er z ca. normalfordelt.

søjleandelrækkeandel

11e

eoeo

fff

seffz

Page 24: Anvendt Statistik Lektion 6

24

Residual: Eksempel For cellen ’Kvinde’ og ’Demokrat’ har vi

0.4

545.01346.019.5229.522573

11

søjleandelrækkeandele

eo

fffz

Søjleandel:1511/2771 0.545

Rækkeandel: 959/2771 0.346

Page 25: Anvendt Statistik Lektion 6

25

Residual: Eksempel fortsat

Da z er cirka normalfordelt med middelværdi 0 og standardafvigelse 1, så er 4.0 ret ekstremt.

I SPSS vælges ’Adjusted Standardized’ under ’Residuals’

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Det ses at det specielt er blandt demokrater, at afvigelsen mellem forventede og observerede værdier er stor.

Page 26: Anvendt Statistik Lektion 6

26

Grad af sammenhæng i 2×2 tabel Minimal sammenhæng

Forskel i andel ’For’:

Ingen sammenhæng

Mening

For Imod Total

Hvid 360 240 600

Sort 240 160 400

Total 600 400 1000

Mening

For Imod Total

Hvid 600 0 600

Sort 0 400 400

Total 600 400 1000

Maksimal sammenhæng

Forskel i andel ’For’:

Maksimal sammenhæng

06.06.0400240

600360

0.10.00.14000

600600

Et mål for graden af sammenhæng er typisk et tal mellem -1 og 1, hvor 0 = ’Ingen sammenhæng’.

Page 27: Anvendt Statistik Lektion 6

27

Lille P-værdi betyder ikke stærk sammenhæng Tre tabeller med samme grad af sammenhæng, men

forskellig stikprøve-størrelser:

Page 28: Anvendt Statistik Lektion 6

28

Vi har spurgt 1000 kvinde og 1000 mandlige kandidater om de har gennemførte deres studie på normeret tid.

Resultat: Mænd 71,7% Kvinder 56,8% !

Uduelige piger… eller…? (based on a true story…)

Forskellen er statistisk signifikant!

Page 29: Anvendt Statistik Lektion 6

29

Stratificeret Analyse Vi har også spurgte om hvilket fakultet folk har studeret ved

(INS eller Samf). Vi udfører nu analyses separat for hvert fakultet: (Vi siger vi stratificerer efter fakultet)

Page 30: Anvendt Statistik Lektion 6

30

Simpsons Paradoks Internt på de to

fakulteter er der ingen forskel mellem mænds og kvinders gennem-førsels-procent!

Bemærk: Kvinder vil hellere læse et studie, der er svært at gennemføre til tiden.

Mænd er lige modsat…

Baseret på en sand historie fra Berkeley i midt ’70’erne.

Page 31: Anvendt Statistik Lektion 6

31

Stratificering i SPSS Variablen, der stratificeres efter placeres i ’Layer’:

Page 32: Anvendt Statistik Lektion 6

32

Tabelopslag i SPSS

a0.05

???

0.95 c2-fordeling, df =2

Page 33: Anvendt Statistik Lektion 6

33

Tabelopslag i SPSS

a0.05

5.99

0.95 c2-fordeling, df =2

Page 34: Anvendt Statistik Lektion 6

34

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Tabelopslag i SPSS

1.72

???z-fordelingen aka N(0,1)

Page 35: Anvendt Statistik Lektion 6

35

Tabelopslag i SPSS

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

1.72

0.96z-fordelingen aka N(0,1)