Goodness of Fit test med Nspire 05 dec 2011 - science-gym.dk · teoretisk model). Denne undersøgelse kaldes ”goodness of fit test” og er det første disse noter handler om. Dels

χ 2-test Chokoladeprojektet, 2011

side 1 af 29 sider

χ2 – test

Indhold Formål med noten ......................................................................................................................................... 2

Goodness of fit metoden (GOF) ........................................................................................................................ 2

1) Eksempel 1 – er stikprøven repræsentativ for køn? (1 frihedsgrad) ..................................................... 2

2) χ2-fordelingerne (fordelingsfunktionernes egenskaber) ....................................................................... 6

3) χ2 - testen ............................................................................................................................................... 8

4) Eksempel 2 - er partierne gået tilbage? (3 frihedsgrader) ................................................................... 9

5) Øvelse 1 – Er befolkningen i Hillerød repræsentativ for hele Danmark? ............................................ 11

6) Øvelse 2 – er karakterfordelingen i 2. ☺ den samme som på landsplan? .......................................... 12

7) Goodness of fit med en hurtigere metode .......................................................................................... 13

8) Goodness of Fit test – oversigt ............................................................................................................ 19

9) Hypotesetestning................................................................................................................................. 20

χ2-test for uafhængighed mellem to inddelingskriterier ................................................................................ 22

10) METODE 1: Den teoretiske løsningsmetode ................................................................................... 22

11) METODE 2: den hurtige løsningsmetode ........................................................................................ 25

12) Projekt ............................................................................................................................................. 27

Appendix – Nspire kommandoer til χ2-test ............................................................................................. 29


side 2 af 29 sider

Formål med noten

I forbindelse med skriftlig eksamen skal du kunne bruge χ2-test (læses: ”ki i anden test”) på to

måder. Dels skal du kunne undersøge om en forelagt fordeling (de observerede data) følger en i

forvejen kendt fordeling (de forventede værdier, kendt fra en større statistisk undersøgelse eller en

teoretisk model). Denne undersøgelse kaldes ”goodness of fit test” og er det første disse noter

handler om. Dels skal du kunne afgøre om nogle observationer er uafhængige. Det kan du læse om i

den sidste del af disse noter. For at kunne forstå noterne skal du inden have sat dig ind i begreberne

uafhængighed i sandsynlighedsregning, og du skal kende til kontinuerte fordelinger.

Noterne til Goodness of Fit er lavet på baggrund af et notesæt af Jakob Bøje Pedersen ,

Frederiksborg Gymnasium og HF. Noterne er resultatet af et arbejde på DASG kurset ”IT i

matematik”, oktober 2011, og er udarbejdet af Mikkel Nielsen, Falkonergården, Bente Quorning,

Karen Gøtzsche-Larsen, Ishak Gürleyik og Eva Danielsen Nærum Gymnasium. Til kapitlet om χ2-

fordelinger hører en fil med opgaver i Nspire.

Goodness of fit metoden (GOF)

1) Eksempel 1 – er stikprøven repræsentativ for køn? (1 frihedsgrad)

Vi starter med et eksempel. De forskellige begreber uddybes teoretisk efterfølgende.

Fordelingen af kvinder og mænd i befolkningen antages at være henholdsvis 51% og 49%. Denne

fordeling skal også kunne findes i en stikprøve, hvis undersøgelsen skal kunne betegnes som

repræsentativ med hensyn til køn. Antag at vi i forbindelse med en statistiskundersøgelse har en

stikprøve på 186 personer. Vi vil så undersøge om de 186 personer fordeler sig over køn på samme

måde som populationen (den danske befolkning).

Nulhypotese (H0): Vi antager at stikprøven på 186 er repræsentativ for befolkningen. Dvs. at den

afvigelse fra befolkningens kønsfordeling, som vi har i stikprøven er så lille, at det kan forklares ud

fra tilfældig variation.

Signifikansniveau: Vi vælger et signifikansniveau på 5%. Dvs., at vi vil forkaste hypotesen, hvis

vores beregning viser, at en så usandsynlig stikprøve højest vil optræde i 5% af tilfældene. Dvs.

hvis sandsynligheden for at vores stikprøve forekommer, er under 5% på betingelse af vores

nulhypotese, så betragter vi det som så usandsynlig en stikprøve, at vi vil forkaste hypotesen.

Vores stikprøve har vist følgende observationer:

Køn Kvinder Mænd Sum

Observerede antal 107 79 186


side 3 af 29 sider

Ud fra hele befolkningens kønsfordeling vil vi forvente:

Køn Kvinder Mænd Sum

Forventede antal 186·0.51 = 94.9 186·0.49=91.1 186

Vi beregner χ2 teststørrelsen:

22

2 22

( )

(107 94.9) (79 91.1)1.55 1.62 3.17

94.9 91.1

antal antaltest

antal

test

obs forv

forvχ

χ

−=

− −= + = + =

∑

Jo større afvigelsen er mellem de observerede og de forventede værdier, jo større er χ2

teststørrelsen. Vi vil gerne vide hvor (u-)sandsynlig vores χ2 teststørrelse er.

Frihedsgrader: For at kunne vurdere denne sandsynlighed skal vi kende antallet af frihedsgrader.

Da vi kender observationssættets størrelse (vi stopper stikprøven, når vi har 186 personer), kan vi

beregne antallet af kvinder, hvis vi kender antallet af mænd (eller omvendt). Man siger derfor

statistisk, at der er én frihedsgrad. Hvis vi kalder antallet af kriterier for k (mand hhv. kvinde) kan

vi beregne antallet af frihedsgrader som 1 2 1 1f k= − = − = .

Vi skal nu vurdere teststørrelsen. Statistikere har vist, at χ2 teststørrelsen med stor tilnærmelse

følger en såkaldt χ2 –fordeling med 1 frihedsgrad (se næste kapitel). Fordelingen er vist grafisk

nedenfor.

Vi er interesseret i at udregne testtallet som er arealet under grafen fra 3.17 til ∞. Vi kan slå dette

areal op med en kommando i Nspire:

P(χ2-teststørelse > 3.17) =0.075


side 4 af 29 sider

Ovenfor er vist en af de måder, man kan finde den kumulerede χ2 –

fordeling. Efter klikket på ”8: χ2 Cdf” får man følgende menu:

Her vil vi gerne indtaste vores χ2-testværdi, 3.17, som nedre grænse og

uendelig som øvre grænse. Det letteste er i den øvre grænse at indtaste

et stort tal og dernæst i kommando-linjen rette det store tal til uendelig

ved hjælp af symbol-palletten:

”Cdf” står for Cumulated Density Function (kumuleret tæthedsfunktion).

Resultatet 0.075 kaldes p-værdien eller test-sandsynligheden og viser, at der er 7.5% sandsynlighed

for at få en χ2-testværdi på 3.17 eller derover ved en tilfældig stikprøve med en frihedsgrad på 1.

Da p-værdien er større end signifikansniveauet accepteres hypotesen, stikprøven er altså

repræsentativ med hensyn til køn. Bemærk at p-værdien (7,5 %) er tæt på signifikansniveau 5%

dvs. resultatet af testen er usikkert og bør undersøges nærmere (stikprøven bør være større end 186).

Populært sagt, er p-værdien et udtryk for nulhypotesens troværdighed – og med en troværdighed på

7.5 % kan vi ikke afvise nulhypotesen.

Hvis vi havde skullet forkaste nulhypotesen, så kunne vi se på de enkelte bidrag til χ2-testværdien,

der så at sige viser, ”hvem den skyldige er”, ud fra hvilket bidrag, der er størst. Her er de to bidrag

på hhv. 1.55 og 1.62 næsten lige store, så man kan ikke ”skyde skylden” på den ene part mere end

den anden.


side 5 af 29 sider

Hvor stor en χ2-testværdi kunne vi have accepteret? Det kan vi undersøge ved at spørge, ved

hvilken x-værdi er arealet under grafen fra x til ∞ 5%? Vi skal bruge en

kommando i samme menu-kæde som før, bare et trin under sidste

kommando:

Eller man indtaster kommandoen direkte som invchi2(0.95,1). Uanset om man taster eller henter fra

menuen får vi: . Der står 0.95 og ikke 0.05 fordi Nspire finder den x-

værdi, hvor arealet under grafen fra 0 til x er den indtastede værdi. (Fra kontinuerte fordelinger

husker vi, at det samlede areal er 1.)

Resultatet viser, at der er 5% sandsynlighed for at få en χ2-testværdi på 3.84 eller højere.

Hvis Nspire ikke havde haft den inverse kommando indbygget kunne man have løst problemet med

nsolve: .

χ2Cdf kan indtastes som chi2cdf(…).


side 6 af 29 sider

2) χ2-fordelingerne (fordelingsfunktionernes egenskaber)

Lad T være en stokastisk variabel, der kan være positiv eller 0. Vi siger, at T følger en χ2-fordeling med f

frihedsgrader (f er fordelingens parameter), hvis sandsynligheden for, at T har værdier i et bestemt interval,

kan beregnes med den pågældende χ2-fordeling.

Hvis vi kalder frekvensfunktionen, også kaldet tæthedsfunktionen, for en χ2-fordeling med f frihedsgrader for

gf, kan sandsynligheden for, at T har værdier mellem a og b, beregnes som

( ) ( ) , hvor 0 a bb

fa

P a T b g x dx≤ ≤ = ≤ ≤∫

og hvor frekvensfunktionen er givet ved

0.5 1 0.5

0.5 1 0.5

0

( ) , hvor 0f x

ff x

x eg x x

x e dx

⋅ − −

∞⋅ − −

= ≥

∫

Nævneren i frekvensfunktionen er en konstant, der afhænger af f og som sikrer, at arealet under grafen for

er 1. Herunder til venstre ses graferne for f-værdierne 1, 2, 4 og 6.

P(a ≤ T ≤ b) er altså lig med arealet mellem x-aksen og grafen for fra x = a til x = b (se figuren ovenfor

til højre). Vi siger, at P(2≤T ≤ 5) beregnes som det bestemte integral af gf (x) med nedre grænse 2 og øvre

grænse 5.

I Nspire kaldes frekvensfunktionerne for χ2-fordelingerne for chi2pdf(x,f). Sandsynligheden P(a ≤ T ≤ b)

beregnes som chi2cdf(a,b,f).


side 7 af 29 sider

Nspire opgave 1

I opgaven er frekvensfunktionerne g(x,f) defineret og grafen for f = 1 er indtegnet nederst til venstre.

Brug g(x,f) til at indtegne graferne for f = 2 og 3 i grafvinduet til venstre. I højre grafvindue indtegner

du de tilsvarene grafer tegnet vha. chi2pdf(x,f). Sammenlign graferne – er der forskelle? Blev de tegnet

lige hurtigt?

Nspire opgave 3

I denne opgave skal du prøve at beregne sandsynligheder både

a) ved beregning med invchi2(areal, f),

b) med arealet under grafen

c) ved at løse en ligning.

Nspire opgave 5

I denne opgave skal du undersøge frekvensfunktionernes maksimum og middelværdi

Nspire opgave 2

Åbn opgave 2 i Nspire-filen. Løs opgaven, der handler om arealet under graferne for

frekvensfunktionerne.

Nspire opgave 4 (ekstra)

Om fordelingsfunktioner

Nspire opgave 6

Man kan her let skifte mellem de forskellige frekvensfunktioner. Prøv selv

I de følgende opgaver skal I bruge Nspire-filen: chi2grafer.tns. Opgaverne ligger som forskellige

”opgaver” (faner i filen). I hver opgave skal I sikre jer at I får alle delspørgsmål med. (Se scroll-baren)

I har nu observeret, at P(0 ≤ T < ∞) = 1, da arealet under hele grafen er 1. Dette svarer til, at summen af

alle sandsynlighederne er 1 i en fordeling med et endeligt antal udfald.

Frekvensfunktionerne har en række egenskaber, som du skal undersøge i den næste opgave.


side 8 af 29 sider

3) χ2 - testen

Hypotesen ”om at to fordelinger er ens” er rimelig, hvis de forventede værdier {forvantal,1,

forvantal,2,...} er tæt på de observerede værdier {obsantal,1, obsantal,2,…}. Derfor ser man på forskellen

mellem disse værdier i χ2-testen. Forskellen kvadreres 2( )antal antal

obs forv− så bidragene altid er

positive, uanset om obsantal,i er større eller mindre end forvantal,i. Dette udtryk for forskellen mellem

obsantal,i og forvantal,i ses i forhold til den forventede værdi forvantal,i. Således giver det god mening at

se på teststørrelsen:

22 ( )

antal antaltest

antal

obs forv

forvχ

−=∑ .

2

testχ er tilnærmelsesvist χ2-fordelt med f = (k – 1) frihedsgrader (når vi kender det observerede antal

for k – 1 kriterier og det totale antal, kender vi det observerede antal for alle k kriterier).

Tilnærmelsen er rimelig, hvis

n ≥ 60 og forvantal,min ≥ 5.

Her er n det samlede antal observationer, og forvantal,min er den laveste forventede værdi for et

bestemt kriterium.

Når man i det konkrete eksempel har beregnet værdien af teststørrelsen 2

testχ , skal man så forkaste

eller acceptere hypotesen. En stor værdi af 2

testχ vil føre til forkastelse af hypotesen, mens en lille

værdi af 2

testχ vil føre til accept af hypotesen. Om 2

testχ er lille eller stor afgøres ved hjælp af p-

værdien, som sammenlignes med et signifikansniveau på (typisk) 5%. Hvis vi antager at hypotesen

er sand, er p-værdien sandsynligheden for at få en værdi, der passer mindst lige så dårligt med

hypotesen som χ2-teststørrelsen. Det vil sige p-værdien er sandsynligheden for at få en χ2-

teststørrelse, der er større end 2

testχ .

p-værdi = P(χ2-teststørrelse ≥ 2

testχ ) , hvor χ2-teststørrelse er χ2-fordelt med (k – 1) frihedsgrader

Hvis p-værdien er over 5% accepteres hypotesen og hvis p-værdien er under 5% forkastes

hypotesen. (Med mindre man har

valgt et andet signifikans-niveau).

Vi betragter grafen for

frekvensfunktionen for χ2 (3) til

højre:

Tallet 2

testχ aflæses på x-aksen og

p-værdien = 2 3 ( )test

g x dxχ

∞

∫ aflæses

som arealet af området mellem x-aksen og grafen for x ∈ [ 2

testχ ;∞[.


side 9 af 29 sider

Her er g3 som tidligere nævnt givet ved:

0.5 3 1 0.5

30.5 3 1 0.5

0

( ) , hvor 0x

x

x eg x x

x e dx

⋅ − −

∞⋅ − −

= ≥

∫

Hvis vi lader 2

testχ (nedre grænse) vokse ser vi at p-værdien (arealet) bliver mindre.

Vi har at

- hvis 2

testχ er stor er p-værdien lille.

- hvis 2

testχ er lille er p-værdien stor.

4) Eksempel 2 - er partierne gået tilbage? (3 frihedsgrader)

Vi ser på en situation, hvor der kun er 4 politiske partier at stemme på, og hvor de 4 partier ved

sidste valg fik stemmeprocenterne:

AA:27%, BB:16%, CC:39% og DD:18%.

Ved en rundspørge blandt 1000 tilfældigt valgte vælgere fås hyppighederne:

AA:260, BB:170, CC:430 og DD:140.

Vi vil teste om procentfordelingen har ændret sig.

Nul-hypotesen, H0: procentfordelingen har ikke ændret sig.

Signifikansniveau = 5%

Observationer i stikprøven:

Partier AA BB CC DD sum

Observerede antal 260 170 430 140 1000

Forventede Observationer

Partier AA BB CC DD sum

Forventede

antal

0.27·1000 = 270 160 390 180 1000

Bidrag til χ2

teststørrelsen: (260-270)2/270 = 0.37 0.63 4.10 8.89 13.99

Bemærk at forvantal,min er større end 5.

Antallet af frihedsgrader: f = k-1 = 4 – 1 = 3.


side 10 af 29 sider

χ2 teststørrelsen:

22 ( )

0.37 0.63 4.10 8.89 13.99antal antaltest

antal

obs forv

forvχ

−= = + + + =∑

Fordelingen: Lad 2

testχ være værdien for χ2 teststørrelsen i en ny stikprøve med 1000 personer dvs.

vi forventer at fordelingen af 2

testχ er en χ2(3)-fordeling, altså en χ2 fordeling med 3 frihedsgrader

Observationssættets p-værdi: 2

313.99

( 13.99) ( ) 0.0029 0.29%test

p P g x dxχ∞

= ≥ = = =∫

I Nspire ser beregningen således ud:

Da p-værdien er mindre end signifikansniveauet forkastes hypotesen, dvs. det er rimeligt at antage,

at procentfordelingen har ændret sig. Vi ser, at det specielt er ændringerne for partierne CC og DD,

der førte til forkastelse af hypotesen. Der er blevet væsentligt flere, der stemmer på DD, og

væsentligt færre der stemmer på CC.


side 11 af 29 sider

5) Øvelse 1 – Er befolkningen i Hillerød repræsentativ for hele Danmark?

Hypotese, H0: Hillerød har samme fordeling som hele landet mht. befolkningens oprindelse.

For hele landet er befolkningen fordelt på følgende måde: 90.22% er af dansk oprindelse, 7.47% er

indvandrere og 2.31% er efterkommere af indvandrere.

Udfyld de tomme felter nedenfor:

Signifikansniveau:_______.

Oprindelse Personer af dansk

oprindelse

Indvandrer Efterkommer

Af indvandrer

sum

Hillerød

Observeret

43095 3223 1021 47339

Forventet antal

Bidrag til χ2-

teststørrelse

Teststørrelsen: χ2-teststørrelse = __________________________ (formel) = ___________ ( tal)

Antal kriterier: k = _________ Antal frihedsgrader: f = _________

Teststørrelsen følger fordelingen: _________


side 12 af 29 sider

p-værdien = P(_____≥______) = ( )g x dx∫�

�

= =______________

p-værdien betyder at____________________________________________________________

Konklusion = __________________________________________________________________

_____________________________________________________________________________

_____________________________________________________________________________

6) Øvelse 2 – er karakterfordelingen i 2. ☺☺☺☺ den samme som på landsplan?

En gymnasieklasse (2.☺) har opnået følgende beståede standpunktskarakterer i foråret 2011:

karakter 2 4 7 10 12 sum

Antal i 2. ☺ 32 69 145 114 18

Fordeling

på

landsplan

10%

25%

30%

25%

10%

100%

Forventede

antal

Bidrag til

χ2-

teststørrelse

Undersøg om 2.☺’s karakterer har samme fordeling som fordelingen på landsplan ved at lave en

Goodness of Fit test.


side 13 af 29 sider

7) Goodness of fit med en hurtigere metode

I det følgende gennemregner vi eksempel 2 fra side 9 igen – dog kan vi komme frem til p-værdien

noget hurtigere ved at benytte os af de indbyggede test for Goodness of fit.

Vi havde følgende situation: 4 partier havde ved sidste valg opnået stemmeprocenterne:

AA:27%, BB:16%, CC:39% og DD:18%.

Ved en rundspørge blandt 1000 tilfældigt valgte vælgere fås hyppighederne

AA:260, BB:170, CC:430 og DD:140.

Vi vil teste om procentfordelingen har ændret sig.

Nul-hypotesen: procentfordelingen har ikke ændret sig.

Signifikansniveau = 5%

Vi starter med at skrive stikprøvens observationer ind i et regneark – bemærk at man kan skrive

tekst i regnearket ved at bruge anførelsestegn:

Vi kan nu udregne de forventede observationer ved i det grå ”formel felt” at skrive:

= procent*1000

Du skulle nu gerne have følgende oversigt over vores stikprøve:


side 14 af 29 sider

I menuen ”Data” kan vi via undermenuen ”kombinationsdiagram” få tegnet et cirkeldiagram over

vores observationer:

I skal højreklik på jeres søjlediagram og vælge ”Cirkeldiagram”

Ved at stille jer i regnearket igen, kan I også frembringe et cirkeldiagram

Over jeres forventede værdier:


side 15 af 29 sider

Sammenholder vi de observerede hyppigheder med de forventede følges de så nogenlunde ad? Vi

observerer de mest markante ændringer hos partierne CC og DD. Vi skal nu undersøge om de

observerede forskelle er signifikante. Følger den observerede fordeling den forventede?

Vi åbner en noteside og frembringer et matematikfelt (control M), herefter går vi via menuen

”Beregninger” frem til undermenuen

Der fremkommer nu en hjælpemenu, man skal udfylde – husk at antallet af frihedsgrader er 3:

Nu får vi frembragt alle de væsentligste parametre til at udtale os om Nulhypotesen:


side 16 af 29 sider

P værdien er på 0.29 % og vi kan da forkaste Nulhypotesen (på 5 %-niveauet). dvs. det er rimeligt

at antage, at procentfordelingen har ændret sig.

Vi kan frembringe de enkelte partiers bidrag til testtallet χ

2 = 13.99 ved at åbne

en mathboks. Derefter vælger vi ”Var” i menubjælken foroven og under ”Var” vælger vi

”Stat.values”:

Vi opnår følgende oversigt:

De enkelte bidrag til χ2 fås frem med kommandoen:

Vi ser at partiet AA bidrager med 0.37, BB bidrager med 0.63, CC bidrager med 4.10 og endelig

bidrager DD med 8.89 til testtallet χ2= 13.99.

Testen bekræfter vores observation fra cirkeldiagrammet - ”synderne” til denne holdningsændring

blandt vælgerne er partierne CC og DD.


side 17 af 29 sider

Vi kunne også foretage selve testen i regnearket på følgende måde:

Gå tilbage til siden med regnearket. Ved hjælp af ”control 4” og ”control 6” kan du skille dine sider

ad og samle dem igen ☺

Stil dig i en celle og find frem til undermenuen for Goodness of Fit testen

Vi udfylder nu den fremkomne hjælpemenu på følgende måde – husk at sætte hak ved ”Tegn”, hvis

du ønsker at den grafiske illustration skal med:

Vi får nu udført hele testen fra Lister og Regneark - vi får ydermere en grafisk illustration af testen.


side 18 af 29 sider

Bemærk, at vi ikke kan se det kritiske område, da vores testtal er 13.99. Arealet under grafen fra

x=13.99 til uendelig er kun 0.0029 – arealet er så småt, at vi ikke kan se skraveringen af arealet

under grafen for frekvensfunktionen.


side 19 af 29 sider

8) Goodness of Fit test – oversigt

Goodness of Fit test

Goodness of Fit testen anvendes til at undersøge om en forelagt fordeling (de observerede værdier)

følger en i forvejen kendt fordeling (de forventede værdier). Hypotesen om at disse to fordelinger

er ens testes med en χ2 -test, idet de observerede værdier opstilles i en 1×k-tabel (Obs-tabellen),

hvor k er antallet af udfald/kategorier

kriterie-1 kriterie-2 … kriterie-k I alt

Observerede antal obsantal,1 obsantal,2 … obsantal,k N

Forventede antal forvantal,1 forvantal,2 … forvantal,k N

Bidrag til 2

testχ Bidrag1 Bidrag2 … Bidragk

2

testχ

Hypotesen er at populationen følger en i forvejen kendt fordelingen af de k svar. Lader vi

1 2 kp , p ..., p være sandsynligheden for hver af de k svar, så er de forventede værdier

antal,i iforv n p= ⋅

Vores teststørrelse beregnes som

22 ( )

antal antaltest

antal

obs forv

forvχ

−=∑

Om denne teststørrelse ved vi at fordelingen af 2

testχ er en χ2(k-1)-fordeling, hvis alle de forventede

værdier er mindst 5 og n > 60.

Hvis sandsynligheden for at få en observation med endnu større afvigelse er under et

signifikansniveau på 0.05 vil vi forkaste hypotesen.


side 20 af 29 sider

9) Hypotesetestning

Når vi ønsker at teste en hypotese, udfører vi et stokastisk eksperiment. Ud fra det vi observerer (de

observerede værdier/observationssættet), vil vi vurdere, om hypotesen kan forkastes eller

accepteres. På dette grundlag kan vi ikke afgøre om en hypotese er sand eller falsk, derfor skal man

være påpasselig med sit ordvalg.

Får vi en observation, der passer dårligt med hypotesen, er det ikke sikkert, at den er falsk. Derfor

bruger man formuleringen: "hypotesen forkastes" og med det mener vi, at det er rimeligt, at

hypotesen er falsk.

Får vi en observation, der passer godt med hypotesen, er det ikke sikkert, at den er sand. Derfor

bruger man formuleringen: "hypotesen accepteres" og med det mener vi, at det er rimeligt, at

hypotesen er sand.

Til en statistisk test hører en teststørrelse T, det vil sige en stokastisk variabel der beskriver

observationssættet. I testene i dette notat er teststørrelse T altid χ2 –fordelt. Teststørrelse T skal

rangordne alle mulige observationssæt efter, hvor godt de passer til hypotesen.

Ved hjælp af teststørrelse beregnes p-værdien, som er sandsynligheden for, at vi i et nyt

eksperiment får et observationssæt, der passer mindst lige så dårligt med hypotesen, som det

observationssæt, som vi har observeret p-værdien beregnes under antagelse af at hypotesen er sand.

Bogstavet p står for det engelske ord "probability", der betyder sandsynlighed.

I χ2 –testen vil vi kalde den beregnede værdi af teststørrelsen for Tberegnet. De observationssæt, der

passer mindst lige så dårligt med hypotesen som vores observationssæt, har T-værdier, der er

mindst lige så store som Tberegnet. Det vil sige, at p-værdien = P(T ≥ Tberegnet), hvor T er χ2 –fordelt.

Endelig skal vi ud fra p-værdien vurdere, om hypotesen skal forkastes eller accepteres. Der findes

intet logisk matematisk grundlag, der entydigt fortæller os, hvornår vi skal forkaste eller acceptere

en hypotese. Det er et af de steder i statistikken, hvor det bliver lidt løst/subjektivt.

Hvis p-værdien er lille, er observationen ekstrem i forhold til hypotesen, dvs. hypotesen kan

forkastes.

Hvis p-værdien derimod er stor, er observationen ikke ekstrem i forhold til hypotesen, dvs.

hypotesen accepteres.

Grænsen mellem en lille (hypotesen forkastes) og en stor (hypotesen accepteres) p-værdi kaldes for

signifikansniveauet. Signifikant betyder "betydelig" eller "ikke ubetydelig" underforstået grænsen

mellem en ubetydelig effekt og en betydelig effekt. Signifikansniveauet bør fastlægges før

observationen fra det stokastiske eksperiment kendes. Vi siger, at vi tester hypotesen på et 5%

signifikansniveau og mener, at hvis p-værdien er under 5%, vil vi forkastes hypotesen, dvs. der er

en signifikant effekt (en betydelig effekt).


side 21 af 29 sider

Man anvender ofte et signifikansniveau på 5% (eller 1%), men der er ikke nogen logisk grund til

denne værdi, den er nærmest blevet en tradition. Man kan sige, at jo større signifikansniveauet

bliver, jo nemmere er det at få forkastet hypotesen (og det er ofte, det der er interessant), men

hermed bliver det også nemmere at forkaste en sand hypotese, hvilket man kalder fejl af type 1.

Fejl af type 2 er når en falsk hypotese accepteres.

For at få styr på begreben kan vi betragte en tabel over på den ene side hypotesens sandhedsværdi

og på den anden side resultatet af testen:

Hypotesen sand falsk

Accepterer ☺ fejl af type 2

Forkaster fejl af type 1 ☺

I vores retssystem kan vi arbejde med fejl af type 1 og type 2. Hypotesen er, at en mand er uskyldig.

Fejl af type 1, er når manden dømmes, men er uskyldig (den sande hypotese forkastes). Fejl af type

2 er, når manden frifindes og er skyldig (den falske hypotese accepteres). I retssystemet er det altid

anklageren, der har bevisbyrden, og dette er for at mindske risikoen for at dømme en uskyldig (fejl

af type 1).

Hvis en kvinde tager en graviditetstest er hypotesen, at hun ikke er gravid. Fejl af type 1 opstår, hvis

prøven er positiv, når hun ikke er gravid og fejl af type 2 opstår, hvis prøven er negativ, når hun er

gravid.


side 22 af 29 sider

χχχχ2-test for uafhængighed mellem to inddelingskriterier

- Tosidet test eller χ22way

En anden måde at bruge χ2-test er ved undersøgelser af uafhængighed. Vi kan f.eks. spørge om

farveblindhed afhænger af køn. Vi vil så spørge en stor gruppe mennesker om deres køn og om de

er farveblinde. Hvis andelen af farveblinde kvinder er lige så stor som andelen af farveblinde mænd

afhænger farveblindhed ikke af køn. I praksis vil de to andele sjældent være præcis lige store

(selvom der var tale om uafhængige hændelser), fordi de statistiske tilfældigheder i stikprøven

påvirker resultatet. Derfor har vi igen brug for en måde at teste, hvorvidt variationerne er store nok

til at vi afviser vores nulhypotese (at farveblindhed ikke afhænger af køn).

I det følgende vil vi demonstrere, hvordan man laver en χ2-test for uafhængighed i Nspire.Vi vil

tage udgangspunkt i den følgende opgave:

Vi vil gennemgå to løsningsmetoder.

1) Den første metode baseres og forklares ud fra teorien om χ2-test.

2) Den anden metode er en hurtig it-baseret løsningsmetode

Resultaterne i de to metoder sammenlignes og analyseres.

10) METODE 1: Den teoretiske løsningsmetode

Hypoteser og signifikansniveau:

Vi begynde med at opstille en tabel i ”Lister og regneark” af de observerede data ud fra de

informationer vi får i opgavebeskrivelsen.

Observerede data:

En forretningskæde vil undersøge, om farven på indpakningen af nye slik påvirker salget.

Butikken sælger derfor i en periode poser med samme slags slik, alle med 250 g/pose og til samme pris.

Der bliver i alt sendt 600 poser slik ud i butikkerne, hvoraf 520 bliver solgt. Af de solgte poser er 375 gule,

og der er 55 gule poser tilbage. De øvrige poser er blå.

Undersøg, om der er grundlag for at påstå, at farven påvirker salget af slik.


side 23 af 29 sider

Bemærk, at vi, udover de givne data med solgte og usolgte poser, tilføjer en række og en kolonne

med summering af tallene.

De to inddelingskriterier er hhv. farven på poserne og salg af slik.

Vi opstiller en nulhypotese, som vi vil undersøge:

H0: Der er uafhængighed mellem farven på poser og salg af slik.

Dvs. vi antager, at farverne ikke har indflydelse på salget, og at variationer i salget mellem gule og

blå poser kun skyldes tilfældigheder.

Før vi går i gang med at teste vores nulhypotese, vælger vi at fastsætte signifikansniveauet til 5%.

Vi antager, at teststørrelsen følger en χ2-fordeling med 1 frihedsgrad. Frihedsgraden beregnes som

(antal rækker – 1 ).(antal kolonner -1). Vi ser her bort fra summeringslisterne. Her er frihedsgraden

(2-1)·(2-1) = 1.

Beregning af χχχχ2-teststørrelsen:

For at beregne χ2-teststørrelsen, skal vi først beregne de forventede værdier under antagelse af, at

der er uafhængighed.

Beregningseksempel:

Hvis salget ikke afhænger af farven forventer vi ifølge definitionen for uafhængighed, at

det forventede antal solgte gule poser summen af gule poser=

samlet antal solgte poser samlet antal poser

Derfor får vi:

summen af gule poserdet forventede antal solgte gule poser = (samlet antal solgte poser)

samlet antal poseri

430det forventede antal solgte gule poser = 520

600i

Beregning af forventede observationer:


side 24 af 29 sider

Opgave.

a) Skriv selv formlerne op for de øvrige tre beregningsfelter og gennemfør beregningerne i N-spire.

b) Lav derefter sumkontrollerne og kontroller at tallene stemmer overens med summerne (kolonne ”i_alt”) i de observerede data.

For at beregne χ2-teststørrelsen indsættes i formlen

2

2 ( )antal antal

test

antal

obs forv

forvχ

−=∑

Når vi indsætter de beregnede tal i tabellen kommer udtrykket nu til at se således ud

(Bemærk, at vi definerer χ2-teststørrelsen med det samme, så den kan bruges til at beregne

testsandsynligheden p.)

Vi har nu beregnet χ2-teststørrelsen til at være 0.39 (to betydende cifre). Vi vil nu prøve at illustrere

betydningen af dette tal.

På figuren har vi tegnet frekvensfunktionen for en χ2-fordeling med frihedsgrad 1. I Nspire tastes i

funktionsfeltet: . Vi har endvidere markeret den kritiske mængde svarende til et

signifikansniveau på 5% (Dvs. at det skraverede areal udgør 5% af det samlede areal under kurven).


side 25 af 29 sider

Hvis vores teststørrelse havde ligget i det skraverede område, altså været større end 3.84, så skulle

vi have forkastet vores nulhypotese H0.

Men vores teststørrelse er kun 0.39, så vi kan ikke på det foreliggende grundlag forkaste hypotesen.

Altså må vi formode, at salget af slik er uafhængig af farven på slikposerne.

Grænsetilfældet svarende til et signifikansniveau på 5% kan beregnes i N-spire ved hjælp af den

inverse funktion til χ2-fordelingen. For at lave beregningen skal man først angive acceptmængden

(1 – den kritiske mængde, her 1 – 0.05 = 0.95) dernæst antallet af frihedsgrader.

Beregning af testsandsynligheden

For at færdiggøre vores undersøgelse, vil vi nu beregne den til teststørrelsen hørende

testsandsynlighed p.

Beregningen foretages i N-spire med fordelingsfunktion for χ2-fordelingen (den kumulerede).

(Hvis man ikke har defineret sin teststørrelse, så kan man naturligvis bare indsætte den beregnede

talværdi i stedet for.)

Grafisk svarer testsandsynligheden p til arealet under kurven for frekvensfunktionen til højre for

teststørrelsen. p-værdien repræsenterer dermed nulhypotesens troværdighed. Den er her beregnet til

53.4 % og dvs., at den ligger langt over et signifikansniveau på 5 %.

Dette understøtter derfor det tidligere udsagn om at sliksalget må formodes at være uafhængigt af

farven på poserne.

11) METODE 2: den hurtige løsningsmetode

Datamaterialet i vores opgave om slik er tosidet, da der i opgaven er to inddelingskriterier (farver

og salg). I praksis betyder det, at tosidet data kan opskrives i en tabel med mindst to rækker og to

kolonner.

Til beregning af χ2-teststørrelse og –testsandsynlighed, kan man anvende den beregningsfunktion i

N-spire, som hedder χ2 2-vejstest.

Først skal de givne data defineres som en matrix i Notefeltet.


side 26 af 29 sider

Herefter anvendes en χ2 2-vejstest til beregning

For at få vist resultaterne af beregningerne skrives stat.results i en Math Box.

I resultatboksen kan man nu aflæse χ2-teststørrelsen som 0.39 og χ2 testsandsynligheden p til

53.4%. Man kan ved hjælp af kommandoen stat.CompMatrix få de enkelte bidrag til testtallet frem.

Så kan man lettere få et overblik over de ”skyldige” i vores undersøgelse.

Herefter skal man naturligvis huske at skrive en konklusion i forhold til nulhypotesen.

Da vores χ2-teststørrelse kun er 0.39, kan vi ikke på det foreliggende grundlag forkaste hypotesen.

Altså må vi formode at salget af slik er uafhængig af farven på slikposerne.

p-værdien, der repræsenterer nulhypotesens troværdighed, er her beregnet til 53.4% og dvs. at den

ligger langt over et signifikansniveau på 5%.

Dette understøtter derfor det tidligere udsagn om at sliksalget må formodes at være uafhængig af

farven på poserne.

Når man sammenligner de to metoder, ser man til sin store glæde, at der er overensstemmelse

mellem de beregnede resultater ☺


side 27 af 29 sider

12) Projekt

Gruppestørrelser: 3 mands grupper.

Elevtid: 5 timer

Materialebrug: Hver gruppe medbringer selv: 2 poser Haribos vingummibamser og to små eller en

stor pose M&M’s, de små kulørte chokoladeknapper.

Produktkrav: Der ønskes en besvarelse af nedenstående opgaver.

CASE:

Den lille chokoladefabrik Sukkertop fra Chokoland, ikke

så fjernt fra Kokosland tæt på Ækvator, har haft stor

succes i deres eget land og har ønsker om at ekspandere på

det globale marked.

De har hørt om et firma kaldet Haribo, i det skønne land Danmark, der laver

verdens lækreste, blødeste og mest velsmagende vingummibamser – dem kunne

Sukkertop godt tænke sig at fusionere med. Du bliver ansat som

kvalitetskonsulent og skal gå Haribo i sømmene.

Du får tre opgaver:

1. Firmaet Sukkertop har ikke rigtig forstået, hvordan man kan teste om en givet observation følger en given forventet fordeling. Du skal med egne ord forklare, hvad en Goodness of fit test går ud på – du skal undervejs forklare de begreber du anvender i din redegørelse. (Forklaringerne må gerne flettes sammen med nedenstående opgaver)

2. I en pose af Haribos vingummibamser er der bamser i fem forskellige farver.

På Haribos hjemmeside kan man læse at en pose indeholder:

1/6 hvide guldbamser 1/6 orange guldbamser 1/3 røde guldbamser 1/6 grønne guldbamser 1/6 gule guldbamser


side 28 af 29 sider

Linket til Haribo er http://kortlink.dk/haribo/9pvc. Under menuen spørgsmål og svar vælger I

”Kan man købe guldbamser der er sorteret i de enkelte farver?”

Undersøg om farvefordelingen er rigtig vha. en χ2-test på jeres indkøbte poser.

3. Firmaet Sukkertop er meget urolig for konkurrenten, der fremstiller de populære M&M’s. Firmaet håber på, at kunne fange M&M producenten i at lyve, når de påstår, at de seks forskellige farver forekommer med lige stor hyppighed.

Undersøg om der er lige mange M&M’s i hver farve vha. et χ2-test.

4. Uafhængighedstesten. Sukkertoppen vil i forbindelse med deres markedsførelse gerne vide, om der er forskel på piger

og drenges forhold til chokolade.

Indsaml statistisk materiale ved en spørgeskemaundersøgelse og undersøg derved, om piger er

mere glade for chokolade end drenge.

I kan tage udgangspunkt i nedenstående tabel.

Hvor mange gange spiser du chokolade om ugen?

Køn 0 1 2 3 4 5 6 7 8 9 ≥ 10

Dreng

Pige

I skal være opmærksomme på, at I højst sandsynligt skal omgruppere jeres tabel, for at have mindst

5 forventede observationer i hvert kriterium (jf. teorien).


side 29 af 29 sider

Appendix – Nspire kommandoer til χ2-test

Nspire kommando Indtastes som: Betyder Eksempel

på side

χ²Pdf(x,f) chi2pdf(x,f) χ² tæthedsfunktion i punktet x, for

frihedsgraden, f

6, 24

χ²Cdf(n,ø,f) chi2Cdf(n,ø,f) Arealet under χ²-tæthedsfunktionen fra den

nedre grænse n til den øvre grænse, ø for

frihedsgraden, f

4-6, 10, 25

invχ²(a,f) invChi2(a, f) Finder den x værdi, som svarer til at arealet

under χ²-tæthedsfunktionen fra 0 til x er a for

frihedsgraden, f

5, 25

χ²GOF (obs_liste,

forv_liste, f)

Chi2GOF(obs,

forv, f)

Sammenligner en observeret liste med en

forventet liste for frihedsgraden f. Gemmer

resulatet i stat.results

15-18

Stat.values Stat.values Viser χ²-testtallet, p-værdien, frihedsgraderne

og de enkelte bidrag til χ²-testtallet. (Først

aktiv efter at testen er udført)

16

Stat.results Stat.results Viser χ²-testtallet, p-værdien og

frihedsgraderne. (Først aktiv efter at testen er

udført)

23

Stat1.Complist Stat1.Complist Viser de enkelte bidrag til χ²-testtallet. (Først

aktiv efter at testen er udført)

23

χ²2way(Observeret

matrix)

Chi22way(M) Udfører en chi i anden uafhængighedstest på

en observeret matrix

26

Eksempler og noter der kan hjælpe til at huske og forstå:

Cdf står for cumulated density function

Pdf står for probability density function

svarer til og finder 5% konfindensniveau for en frihedsgrad på 1

viser at 36.6% af arealet ligger over x-værdien 3.17 for en χ²-tæthedsfunktionen

med frihedsgrad 3.

Viser, at hvis testværdien er χ²-fordelt

med frihedsgrad 4, er det mere end 7

gange så sandsynligt at få en testværdi tæt på 2, som at få en testværdi tæt på 9.

Documents

Goodness of Fit test med Nspire 05 dec 2011 - science-gym.dk · teoretisk model). Denne undersøgelse kaldes ”goodness of fit test” og er det første disse noter handler om. Dels