Statistik Lektion 6

StatistikLektion 6

Konfidensinterval for andele og variansHypoteseteori Hypotesetest af middelværdi, varians og andele

Repetition: Konfidensinterval

Et (1-)100% konfidensinterval er et interval, der indeholder værdien af populationsparameteren med (1-)100% sikkerhed (ikke sandsynlighed).

Hvis jeg i fremtiden gentager mit eksperiment, vil der være (1-)100% sandsynlighed for at intervallet indeholder den sande populationsværdi.

Repetition: Konfidensinterval for middelværdienHvis variansen er kendt og populationen enten er normalfordelt eller stikprøven er stor, så er et (1-a)100% konfidensinterval for populationsmiddelværdien, , givet ved

Hvis variansen er ukendt og populationen er normalfordelt, så er et (1-a)100% konfidensinterval for givet ved

Husk: n-1 frihedsgrader

Konfidensinterval for andele

Hvis stikprøven er stor, gælder

hvor er stikprøveandelen og p er populationsandelen.

som kan omskrives til

)1,0(~)1(

ˆ221 z

1)1(ˆ)1(ˆ22 nppzPpnppzPP

Konfidensinterval for andeleHvis stikprøven er stor er et (1-)100% konfidensinterval for populationsandelen p givet ved

hvor er stikprøveandelen for en stikprøve med n observationer.

nppzpnppzp )ˆ1(ˆˆ;)ˆ1(ˆˆ 22 p̂

Bemærk at som sædvanligt er estimatoren er erstattet af estimatet , og at vi har benyttet atp̂

nppnpp )1()ˆ1(ˆ

EksempelFor en given produkttype: Hvor stor en andel af det amerikanske marked er besat af udenlandske virksomheder?

En stikprøve på 100 forbrugere udtages og 34 af disse bruger et udenlandske produkt; resten bruger et amerikanske produkt.

Giv et 95% konfidensinterval for andelen af brugere af udenlandske produkter.

4328.02472.0

0928.034.0

)04737.0)(96.1(34.0

)66.0)(34.0(96.134.0

)ˆ1(ˆˆ

Løsning:

Konfidensinterval for

Hvis populationen er normalfordelt med varians , så gælder der at

hvor S2 er stikprøvevariansen.

Kritisk værdi: Antag X2 ~2(n-1) . Da er den kritiske værdi 2

n-1, defineret ved

P(X 2 > 2n-1,) =

Dvs. vi har

( 22,12

21,1 nn

Konfidensinterval for

Hvis populationen er normalfordelt, så er et (1-)100% konfidensinterval for givet ved

hvor n er antallet af observationer i stikprøven.

1)1()1(

2 )1(;

Bemærk, at estimatoren S2 er erstattet af estimatet s2.

Resultatet kommer sig af, at sandsynligheden på forrige slide kan omskrives til

EksempelEn maskine fylder kaffekander (med kaffe ;-) Hvis det gennemsnitlige indhold er forskellig fra hvad det skal være, kan maskinen justeres. Hvis variansen er for høj, skal maskinen sendes til reparation. En stikprøve på 30 kander giver et varians estimat på s2 = 18,540. Giv et 95% konfidensinterval for populations-variansen, .

Løsning:

2 )1(,

Chi-Square Distribution: df = 29

05.162975.0 72.452

Hypoteser og Hypotesetest

En hypotese er typisk et udsagn om en populationsparameter, fx middelværdien.

En hypotesetest er en procedure, der afgører om vi vil afvise eller ikke afvise vores hypotese.

Vi afviser vores hypotese, hvis vores data er passer ”usandsynligt dårligt” med vores hypotese.

Case: Hypotesetest på dåse

Baggrund: I egenskab af brygmestre hos Bryggeriet har vi fået installeret et nyt tappeanlæg, der fylder på 0.5l dåser. Vi tømmer 25 dåser og finder at gennemsnitsvolumen er 497.1ml…

Producenten af anlægget har oplyst at standardafvigelsen for den påfyldte volumen er 6.7ml.

Anklage: Producenten har sjusket med installationen

Spørgsmål: Er producenten skyldig i sjusk eller ej?

Trin I en Hypotesetest

En hypotesetest består af 5 elementer:

I. Antagelser

II. Hypoteser

III. Teststørrelser

IV. Beslutning/konklusion

a) Vha. p-værdi

b) Vha. kritisk værdi

I: Antagelser

Type af data: Se på om det er diskrete eller kontinuerte data.

Populationsfordeling: Se på hvilken fordeling populationen har.

Stikprøve: Hvilken metode er brugt til at indsamle data. Skal være en simpel stikprøve i de test vi bruger.

Stikprøvestørrelse: Hvor stor er den stikprøve vi har til at beregne test størrelsen?

I bryggeri-eksemplet antager vi at vi har n=25 observationer og at populationen af volumener er normalfordelt.

II: Hypoteser Nul-hypotesen H0:

En påstand om en populations-parameter. Er typisk mere specifik end alternativ hypotesen.

Den alternative hypotese H1:

En påstand om alle situationer, der ikke er dækket af H0, dvs. det ”modsatte af H0”.

Generelt princip: Nul-hypotesen er sand indtil det modsatte er bevist.

Strafferetsanalogi: H0 = uskyldig. Uskyldig indtil det det modsatte er bevist.

I bryggeri-eksemplet har vi to hypoteser:

H0: = 0 (her: 0 = 500) (ingen sjusk, uskyldig)

H1: 0 (sjusk, ikke uskyldig)

Teststørrelsen beregnes fra stikprøve data og bruges til at vurdere nul-hypotesen H0.

Den indeholder typisk et punktestimat for den parameter, der indgår i nul hypotesen – for eksempel stikprøve-gennemsnittet som punktestimat for middelværdien.

Gør det klart, hvilke værdier af teststørrelsen der er kritiske for H0, dvs. hvilke værdier, der taler imod H0- hypotesen.

I Bryggeri-eksemplet skal vi bruge

Teststørrelsen er

Hvis H0 er sand ved vi at

Værdier af z langt fra nul er kritiske for H0.

III: Teststørrelsen

1.497x

16.2257.6

5001.4970

)1,0(~0 Nn

IV: Konklusion/Beslutningsregel En beslutningsregel for en hypotese test, er en regel for under hvilke

betingelser nul-hypotesen kan forkastes på baggrund af stikprøven.

Intuitivt bygger beslutningsreglen på at vi afviser H0, hvis teststørrelsen ligger for langt fra hvad man ville forvente hvis H0 er sand.

Mest almindeligt er at bruge en p-værdi. En p-værdi er et udtryk for hvor ”trovædig” H0-hypotesen er på baggrund af en stikprøve. Hvis p-værdien er for lille afviser vi H0.

Lidt mere old-school er at bruge kritiske værdier. Her er ideen at afvise H0-hypotesen, hvis teststørrelsen er mere ”esktrem” end den/de kritiske værdier.

For begge metoder gælder, at sandsynligheden for at forkaste H0-hypotesen når H0 er sand betegnes signifikansniveauet og angives ved .

a) p-værdi og beslutningsregelDefinition: p-værdien for en test, er sandsynligheden for at observere en ny teststørrelse, der er mindst lige så kritisk for H0 som den observerede teststørrelse, under antagelse af at nul hypotesen er sand.

Fortolkning: Jo mere ekstrem teststørrelsen er, jo mindre er p-værdien. p-værdien bliver et udtryk for hvor meget vi tror på H0. Så når p-værdien bliver for lille, så tror vi så lidt på H0, at vi afviser H0.

Procedure:1.Vælg et signifikansniveau , typisk .2.Udfør testen, dvs. beregn teststørrelsen3.Beregn p-værdien4.Beslutning: Hvis p-værdien < , så afvises H0 (H1 accepteres)

Hvis p-værdien > , så kan vi ikke afvise H0

Eksempler på dåserAntag at volumen i populationen af 0.5l Bryggeri-dåser er normalfordelt med ukendt middelværdi og kendt varians .

Vi opstiller to hypoteserH0: = 0 (her: 0 = 500)H1: 0

I udgangspunktet er H0 sand, dvs.

Teststørrelsen er:

Skal vi afvise H0?

nNX 20 ,~ 1,0~0 N

16.2257.6

5001.4970

Beslutning vha. kritiske værdierBeslutningsregel: Vi afviser H0 hvis

Eller ækvivalent kan vi afvise H0, hvis

Sandsynligheden for at afvise en sand H0 er præcis .

Ovenfor har vi benyttet:

22 zzzz eller

2020 eller

Kritiske værdier

Eksempel: p-værdier på dåseBryggeri-eksemplet: Vi har observeret et gennemsnit på 497.1 ml for 25 observation fra en normalfordelt population.

Teststørrelsen:

En mere kritisk værdi ville være en teststørrelse mindre end -2.16 eller større end 2.16.

p-værdien er derfor

Da 0.03 < 0.05 afviser vi H0.

03.0)16.2(2)16.2()16.2( ZPZPZP

16.2257.6

5001.4970

Test af middelværdi(to-sidet test) Antagelse: Test af , X kvantitativ variabel og n>30.

Hypoteser:

Stikprøvefordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse

Teststørrelse:

standardisering

Eksempel Hypoteser: H0: = 30

H1: 30

Stikprøve: n = 50 = 31.5 = 5

Teststørrelse:

p-værdi:

Lille p-værdi, så H0 forkastes. Fordeling:

12,2505

305.31

034.0017.02)12,2(2

)12,2|(|

12.2 z 12.2z

Summe opgave

H0: = 30

H1: 30

Stikprøve: n = 20 = 31.5 = 5

Beregn værdien af test størrelsen og p-værdien.

H0: = 30

H1: 30

Stikprøve: n = 100 = 31.5 = 5

Beregn værdien af test størrelsen og p-værdien

Højresidet test (et en-sidet test) Antagelse: Test af , X kontinuert variabel og n>30.

Hypoteser:

Stikprøve-fordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse

Teststørrelse:

p-værdien: p( Z > observeret z værdi)

eller H

Eksempel højresidet test

H0: = 30

H1: > 30

Stikprøve: n = 50 = 31.5 = 5

Test størrelse:

p-værdi:

Lille p-værdi, så H0 forkastes.

Fordeling:

12,2505

305.31

017.0)21,2( ZP

Z=2,12

Test af middelværdi for ukendt varians Antagelse: Population normalfordelt med ukendt middelværdi

og ukendt varians σ²

Hypoteser:

Teststørrelse t er t-fordelt med (n-1) frihedsgrader:

p-værdien: 2·P(T > |t|), hvor T ~ tn-1 (kræver computer)

Venstre- og højre-sidet test efter samme princip som før.

Eksempel

H0: = 30 H1: 30

Signifikansniveau:

Stikprøve: n = 50 = 31.5 s = 5

Teststørrelse:

Teststørrelsens fordeling:

p-værdi:

Da p-værdi < , forkastes H0.12,2

305.31

040.0020.02

)12,2(2

|)12,2|(2

2.12-2.12

Eksempel - fortsat

H0: = 30 H1: 30

Signifikansniveau:

Stikprøve: n = 50 = 31.5 s = 5

Teststørrelse:

Teststørrelsens fordeling:

Slå tn-12 op, enten vha. tabel eller R.

t49,/2 = 2,01 Da 2,12 er større end 2,01

forkastes H0.

Hvis t = -2,12 ville vi forkaste H0 fordi da -2,12 er mindre end -2.01.

12,2505

305.31

2.02-2.01

Hypotesetest for middelværdi i R cmdr

Da p-værdien mindre end 0.05 forkaster vi H0 hypotesen og accepterer H1 hypotesen, dvs. at er forskellig fra 175.

t-teststørrelseantal frihedsgrader

p-værdi

H1 hypotese

Vælg mellem to- og en-sidede test

Middelværdi under H0

Statistics → Means → Single-sample t-test…

Test af en Andel

Antagelse: Test af populationsandel p, når np(1-p) > 9.

Hypoteser:

Stikprøvefordeling af når H0 er sand er approksimativ normal med middelværdi og standard afvigelse

Teststørrelse:

p-værdien: 2·P( Z > |z|)

Højresidet og venstresidet test efter samme princip som før.

p̂npp /)1( 00

Test af Variansen Antagelse: Populationen er normalfordelt med varians .

normal fordelt.

Hypoteser:

Teststørrelse:

Under H0 følger en -fordeling med n-1 frihedsgrader

Kritiske værdier:

p-værdi: hvis nog

ellers, hvor n.

Højresidet og venstresidet test efter samme princip som før.

)(2 22 ΧP

221,1 nn og

)(2 22 χΧP

Test af varians - Eksempel H0: H1: sn

Venstre-sidet test, så H0 forkastes, hvis .

Da kan vi ikke forkaste H0.

78.201

8659.0)125()1(20

85.13)24()1( 295.0

p Da p-værdi > 0.05 kan vi ikke afvise H0. p-værdien findes i R vha. pchisq(20.78,df=24)

3483.0)78.20())1(( 220

22 PsnPværdi

Opsummering: Test af middelværdi 1 Antagelser: Kendt varians + normalfordelt population eller stor

stikprøve: Z-test. Nul-hypotese

Teststørrelse:

Alternativ hypoteser H1: p-værdi = P( Z<z ) H1: p-værdi = P( Z>z ) H1: p-værdi = P( |Z|>|z| ) = 2⋅P( Z>|z| )

Beslutning: Hvis p-værdi < : Afvis H0 og accepter H1. Hvis p-værdi > : Ej afvis H0 og ej accepter H1.

Test vha. p-værdier

Opsummering: Test af middelværdi 1.1 Antagelser: Kendt varians + normalfordelt population eller stor

stikprøve: Z-test Nul-hypotese

Teststørrelse:

Alternativ hypoteser H1:

Afvis H0 hvis z < -Z

Afvis H0 hvis z > Z

Afvis H0 hvis |z| > Z

Test vha. kritiske værdier

Opsummering: Test af middelværdi 2 Antagelser: Ukendt varians + normalfordelt population: t-test Nul-hypotese

Teststørrelse:

Alternativ hypoteser H1:

Afvis H0 hvis t < -t n-1

Afvis H0 hvis t > tn-1

Afvis H0 hvis |t| > tn-1

Test vha. kritiske værdier

Statistik Lektion 6

Documents

Statistik Lektion 7

Statistik Lektion 3

Anvendt Statistik Lektion 2

Anvendt Statistik Lektion 5

Lektion 6 Wegbeschreib.doc

Anvendt Statistik Lektion 6

Statistik Lektion 2

Statistik II 3. Lektion

Statistik II 5. Lektion

Statistik 1 – Lektion 2

Statistik II 1. Lektion

Anvendt Statistik Lektion 9

Statistik Lektion 1

Statistik Lektion 5

Statistik Lektion 3

Anvendt Statistik Lektion 3

Anvendt Statistik Lektion 2 - people.math.aau.dkpeople.math.aau.dk/~rubak/teaching/2011/asta/asta06.pdf · Anvendt Statistik Lektion 6 Kontingenstabeller ... Tabel over stemme fordelingen

Statistik Lektion 4

Statistik – Lektion 2

Statistik II Lektion 3