30
Statistik Lektion 7 Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer 1

Statistik Lektion 7

  • Upload
    temima

  • View
    60

  • Download
    0

Embed Size (px)

DESCRIPTION

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer. Trin I en Hypotesetest. En hypotesetest består af 4 elementer: Antagelser Primært hvilken fordeling stikprøven følger Hypoteser Opstil H 0 og H 1 hypoteser - PowerPoint PPT Presentation

Citation preview

Page 1: Statistik Lektion 7

StatistikLektion 7

Hypotesetest og kritiske værdierType I og Type II fejlStyrken af en testSammenligning af to populationer

1

Page 2: Statistik Lektion 7

Trin I en Hypotesetest

En hypotesetest består af 4 elementer: I. Antagelser

• Primært hvilken fordeling stikprøven følgerII. Hypoteser

• Opstil H0 og H1 hypoteserIII. Teststørrelser

• Hvilken fordeling har teststørrelsen• Hvilke værdier er kritiske for H0?

IV. Beslutning/konklusion• Vha. p-værdi• Vha. kritisk værdi

2

Page 3: Statistik Lektion 7

Eksempel: Test af middelværdi (to-sidet test) Antagelse: Populations-variansen s2 er kendt og populationen er enten normal

eller stikprøven er stor (n>30).

Hypoteser:

Teststørrelsen:

Stikprøvefordeling: Når H0 er sand så følger Z en standard normalfordeling

Beslutning: Princippet er at H0 hypotesen er sand indtil det modsatte er bevis. Det betyder bl.a. at alle beregninger foretages under antagelse af at H0 er sand. I en-sidet test (fx: H0: m≤ m0) betyder H0 sand at beregning foretaget med m=m0.

01

00

:H:H

mmmm

nXZs

m0

3

Page 4: Statistik Lektion 7

p-værdi og signifikansniveau a

Signifikansniveauet a er et tal, således at H0 forkastes, hvis p-værdien er mindre end a.

a er normalvis 0.05 eller 0.01.

a vælges før analysen foretages.

Konklusion

p-værdi H0 H1

p < α Forkast Accepter

p > α Forkast ikke

Accepter ikke

Hvor lille et signifikans niveau man vælger, afhænger af hvilke konsekvenser beslutningen om at forkaste H0 har. Hvis det er et spørgsmål om liv eller død, for eksempel i medicinske forsøg, vælges α meget lille. Men hvis det ”bare” er at teste om et folketingsparti er større end et andet, kan man godt α større.

p-værdien af en test, er sandsynligheden for at observere en ny teststørrelse, der er mindst lige så fritisk for H0 som den allerede observerede teststørrelse, under antagelse af, at nul hypotesen er sand.

4

Page 5: Statistik Lektion 7

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Signifikansniveau: a0.05 Fordelingen Z under H0:

p-værdi:

Da p-værdi < a forkastes H0.

Eksempel Hypoteser: H0: m = 30 H1: m ≠ 30

Stikprøve: n = 50 = 31.5 s = 5

Teststørrelse:12,2

505305.31

Z

034.0017.02)12,2(2

)12,2|(|

Zp

ZPværdip

x

5

(1-a)100%

z

0.0170.017

-2,12 2,12

Page 6: Statistik Lektion 7

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Kritiske værdier I tilfælde, hvor man ikke kan bestemme p-værdien kan man typisk

finde de kritiske værdier. De kritiske værdier svarer til teststørrelser, der har en p-værdi lig

signifikansniveauet a. Eksempel: To-sidet test af middelværdien, s kendt, a=0.05. I dette tilfælde er de kritiske værdier -1.96 og 1.96

Tilsvarende kritiske værdier kan findes for andre fordelinger, fx t-fordelingen.

Dvs. hvis eller , så ved vi at p-værdien ≤ 0.05.

Hvis p-værdien ≤ 0.05 afviser vi H0.

96.1x 96.1x

6

95&

z

2.5%2.5%

-1,96 1,96

Page 7: Statistik Lektion 7

Eksempel H0: m = 30 H1: mm 30

Signifikansniveau: a0.05

Stikprøve: n = 50 = 31.5 s = 5

Test størrelse:

Kritiske værdi: Da 2,12 > 1,96 forkastes H0 (eller

hvis den var mindre end -1,96)

Hvis højresidet test, dvs. H1:μ>30: Da 2,12 > 1.645 forkastes H0

Hvis venstresidet test, dvs. H1:μ<30: Da 2,12 ikke er mindre end -1,645,

forkastes H0 ikke12,2505

305.31

Z

x

7

Page 8: Statistik Lektion 7

En- og to-sidet test af middelværdi for store eller normale stikprøver og kendt varians og signifikansniveau a.

H0: m m0

H1: m ≠ m0Forkast H0, hvis |z| > Za/2

H0: m m0

H1: m < m0Forkast H0, hvis z < -Za

H0: m m0

H1: m > m0Forkast H0, hvis z > Za

nxz

/0

sm

To-sidet test

En-sidet test

I alle tre tilfælde er teststørrelsen

8

Page 9: Statistik Lektion 7

Type I og type II fejl Type I fejl: En sand H0 forkastes. Type II fejl: En falsk H0 forkastes ikke.

Signifikans niveauet a er sandsynligheden for at begå en Type I fejl. Sandsynligheden for at begå en Type II fejl betegnes β.

Sandsynligheden for Type I og Type II fejl er inverst relaterede, dvs. når den ene stiger, så falder den anden, så man kan ikke vælge begge to så lavt som muligt – se næste slide.

BeslutningForkast H0 Forkast ikke H0

Sand tilstand af H0 H0 sand Type I fejl Korrekt beslutning

H0 falsk Korrekt beslutning Type II fejl

9

Page 10: Statistik Lektion 7

Hvordan α og β afhænger af hinanden

Typisk vælger man at fastsætte sandsynligheden for type II fejl, a,

så man ikke begår store fejl. For eksempel hvis H0 er, at en eller anden medicinsk behandling er

skadelig, er det bedre at være sikker på, at man ikke forkaster H0 selvom den er sand, end at være sikker på, at man ikke forkaster den, selvom den er falsk.

For forskellige nog et bestemt μ

10

Page 11: Statistik Lektion 7

Beregning af (for en venstre sidet test) Se på følgende hypoteser:

H0: m 1000 H1: m 1000

Lad s = 5, a = 5%, og n = 100. Man kan kun beregne for konkrete (alternative) valg af m. Vi vil beregne når m m1 998.

Se næste slide Figuren viser fordelingen af når m = m0 = 1000, og når m = m1 = 998. Bemærk at H0 vil blive forkastet, når er mindre end den kritiske

værdi givet ved

Omvendt, H0 vil ikke blive forkastet, når er større end .11

xx

18.999100/5645.11000/0 nzxkrit sm a

x kritx

Page 12: Statistik Lektion 7

Beregning af

12

Fordeling af Xnår m m1.

Fordeling af Xnår m m0.

18.999kritx

Forkast H0 Forkast ikke H0

Page 13: Statistik Lektion 7

Beregning af (for en venstre sidet test) Når m = m1 = 998, så er sandsynligheden for ikke at forkaste H0,

dvs. den er . Når m = m1, så vil følge en normal fordeling med middelværdi m1 og

standard afvigelse = s/n, så:

Styrken (power) af en test, er sandsynligheden for at den falske nul hypotese bliver opdaget af testen.

Styrken af testen = 1 – β = 1 – 0.0091 = 0.9909.

13

)( kritxXP

0091.0

)360.2()5.0/18.1(/

1

ZPZP

nXZP krit

sm

X

Page 14: Statistik Lektion 7

Sammenligning af to grupper Tjener mænd og kvinder lige meget? (Respons: Løn, Forklarende: Køn)

Kører en Fiat X-1/9 og en Lancia Stratos det samme antal kilometer per liter? (Forklarende: Bilmodel, Respons: antal kilometer per l)

Kører en VW Touran det samme antal kilometer per liter på almindelig benzin, som på bio benzin? (Forklarende: Benzin type, Respons: antal kilometer)

Er der forskel på hvor hurtigt man løber 5 km, når man har originale Nike sko og Super Nike sko på?

14

Page 15: Statistik Lektion 7

Afhængige og uafhængige stikprøver Ved en uafhængig stikprøve udtages en stikprøve fra hver

gruppe.1. Mænd og kvinders løn: Tag en stikprøve fra gruppen af mænd og en

stikprøve fra gruppen af kvinder og sammenlign gennemsnitslønnen for de to grupper.

2. Kilometer per liter: Tilfældig stikprøve af Touran’er og tilfældig stikprøve af Skoda’er.

Ved en afhængig stikprøve er observationerne i de to grupper parrede. Oftest er det den samme person/genstand, der bliver observeret i to forskellige situationer.

1. Bio benzin kontra almindelig benzin: Vælg tilfældigt et antal VW Touran’er og test dem med de to forskellige typer benzin.

2. Original Nike sko kontra Super Nike sko: Vælg tilfældigt nogle personer til at løbe 5 km og lad dem teste begge par sko.

15

Page 16: Statistik Lektion 7

Resten af forelæsningen

Sammenligning af to middelværdier – kendt varians1. Hypotesetest2. Konfidensinterval

Sammenligning af to middelværdier – ukendt varians1. Hypotesetest2. Konfidensinterval

16

Page 17: Statistik Lektion 7

Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationerAntag vi har to uafhængige populationer med ukendte middelværdier mx og my og kendte varianser s2

x og s2y.

Vi vil udtale os om forskellen i middelværdi: md = mx-my.

Fra hver population har vi hhv. nx og ny observationer.

Vi har

og

dvs. er en unbiased og konsistent estimator for md

yxYEXEYXE mm )()()(

y

y

x

x

nnYVXVYXV

22

)()()(ss

YX

17

Page 18: Statistik Lektion 7

Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationerSætning: Antag vi har to stikprøver fra to uafhængige populationer bestående af hhv. nx og ny observationer. De to populationer har middelværdier mx og my og kendte varianser s2

x og s2y. Hvis nx og ny er store eller de to populationer er

normalfordelte, så er et (1a)100% konfidensinterval for mx-my givet ved

y

y

x

x

nnzyx

22

2

ssa

Som sædvanligt har vi taget udgangspunkt i

222

02 aa

ssz

nn

DyxzPyyxx

18

Page 19: Statistik Lektion 7

Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationerAntagelser: To uafhængige stikprøver fra to populationer, og enten normalfordelte populationer eller store stikprøverHypoteser

H0: mx-my = D0 vs H1: mx-my D0

Teststørrelse

p-værdiBeslutning:Afvis H0, hvis p-værdi < a

yyxx nn

Dyxz220

ss

|)|(2 zZP 2azKritiske værdierBeslutning:Afvis H0 hvis |z|>za/2

19

Page 20: Statistik Lektion 7

Eksempel – er der forskel på hvor langt bilerne kører på 25 l. benzin?

84308

100

=σ =x=n

x

x

Population X: Fiat X-1/9

67254

100

=σ =y

=n

y

y

Population Y: Lancia Stratos

H0: mx-my = 0 vs H1: mx-my 0

Teststørrelse

p-værdi: 2·P(Z>|5,025|) ≈ 0Vi forkaster H0, dvs. der er en forskel i hvor langt de to biltyper kører på literen.95% Konfidensinterval:

025,575.1054

45.11554

10067

10084

)254308()(2222

y

y

x

x

nn

yxzss

]0675;94.32[45.11596.154

222

.

nnzyx yyxx

ssa

20

Page 21: Statistik Lektion 7

Sammenligning af to middelværdierTo normalfordelte populationer med ukendte varianserNår de to populationer har forskellige varianser varianserne er ukendte er et estimat af givet ved:

Hvis de to populationer har ens varianser, så er et estimat for givet ved

hvor s2p er den ”poolede” varians er et estimat for den fælles

varians:

][ YXVar

yyxx nsns 22

)11(2yxp nns

2)1()1( 22

2

yx

yyxxp nn

snsns

][ YXVar

21

Page 22: Statistik Lektion 7

Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationerSætning: Antag vi har to stikprøver fra to uafhængige normale populationer med middelværdier mx og my bestående af hhv. nx og ny observationer. Hvis de to populationer har samme varians, så er et (1a)100% konfidensinterval for mx-my givet ved

Hvis populationerne har forskellige varianser er konfidens-intervallet givet ved

hvor antallet af friheds grader er:

( )yxpnn nnstyxyx

1122,2 a

yyxx nsnstyx 222, a

1)(

1)(

)(

2

22

22

1

21

21

22

221

21

nns

nns

nsns

22

Page 23: Statistik Lektion 7

Sammenligning af to middelværdierKendt varians og store eller normalfordelte populationerHypoteser

H0: mx-my = D0 vs H1: mx-my D0

2,2~|)|(2 ayx nntTtTP hvor ,

( ))11(2

0

yxp nns

Dyxt

Hvis s2x = s2

y

Teststørrelse

p-værdi

Kritiske værdier2,2 a

yx nnt

tTtTP ~|)|(2 hvor ,

( )yyxx nsns

Dyxt22

0

Hvis s2x s2

y

Teststørrelse

p-værdi

Kritiske værdier2,at

23

Page 24: Statistik Lektion 7

Teststørrelse:

Kritiske punkter:

Beslutning: H0 afvises da 2.67 > 2.11

Eksempel Forskel på højden af drenge og piger

Antag s12 s2

2. Hypoteser:

H0: m1 = m2

H1: m1 ≠ m2

Signifikansniveau: a 0.05

910

y

x

nn

89,17030,181

yx

17,6

12,10

y

x

s

s

( )212

21

11

)(

nns

xxtp

2)1()1(

21

222

2112

nn

snsnsp

( )67,2

9110113,72)89,17030,181(

t

13,722910

17,6)19(12,10)110( 222

ps

(antal drenge)

(gennemsnitshøjde drenge)

(gennemsnitshøjde piger)

(est. standardafv. drenge)

(est. standardafv. piger)

(antal piger)

11.2025.0,172,2 ttxx nn a

24

Page 25: Statistik Lektion 7

Sammenligning af to middelværdier i R Er der en forskel på mænd og kvinder middelvægt? Altid plot før test!

> sundby = read.table("Sundby95.dat", header=T)> library(trellis) # udvidelse med ekstra plot-funktioner> histogram(~ vaegt | koen, data=sundby)

vaegt

Per

cent

of T

otal

0

10

20

30

40 60 80 100 120 140

Kvinde

40 60 80 100 120 140

Mand

Page 26: Statistik Lektion 7

Sammenligning af to middelværdier i R

> sundby = read.table("Sundby95.dat", header=T)> t.test(vaegt~koen, data=sundby, var.equal = F)

Welch Two Sample t-test

data: vaegt by koen t = -31.2108, df = 2449.037, p-value < 2.2e-16alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -15.52725 -13.69148 sample estimates:mean in group Kvinde mean in group Mand 64.38064 78.99001

Da p-værdien = 2.2∙10 -16 < 0.05 afviser vi H0 - hypotesen. Dvs. der er en forskel på mænds og kvinders middelvægt.

a

26

95% konfidens-interval for forskellen i middelværdi.

H1-hypotesen

t-teststørrelse Antal frihedsgrader p-værdi

Page 27: Statistik Lektion 7

Parrede observationer

For den i’te person har vi to observationer Xi,1 og Xi,2, fx. blodtryk før og efter behandling.

For den i’te person definerer vi differencen Di = Xi,1Xi,2.

Forskelle mellem ”før” og ”efter” kan nu undersøges vha. hypotesetest af middeldifferencen, mD.

Typisk antagelse er, at differencerne er normalfordelte, Di ~ N(mD, sD

2). Estimaterne for hhv. middelværdi og varians

betegnes og .2DsDx

27

Page 28: Statistik Lektion 7

Parrede observationer Udregn differencer:

Super-Original -1 -2 -1 -5 -1 1 -1 0

Nike Super 20 17 18 15 16 17 20 20

Nike Original 21 19 19 20 17 16 21 20

elte.normalford er rnedifference hvis der,frihedsgra med fordelt t Er

:lsenTeststørre

H

H

:ntervalKonfidensi rne.difference fra ud og Beregn

a

0

1

,

:

:

0

0

0 2

D

D

DD

DD

DDDD

DD

nns

xt

nstx

sx

mmm

mm a

28

Page 29: Statistik Lektion 7

Parret t-test i R> Nike = read.table("Nike.dat",header=T)> fix(Nike)> t.test(Nike$Super, Nike$Original, paired=T)

Paired t-test

data: Nike$Super and Nike$Original t = -2.0174, df = 7, p-value = 0.08345alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.7151678 0.2151678 sample estimates:mean of the differences -1.25

p-værdi = 0.08345 > 0.05, dvs. vi kan ikke afvise H0. Dvs. vi kan ikke afvise at de to sko-typer er lige gode

a

29

Bemærk: 95% konfidensinterval for forskellen i middelværdi indeholder 0!

Page 30: Statistik Lektion 7

Bemærkninger til parret t-test Selvom vi har to sæt af observationer, så koger det ned til et

sæt af differencer. Vi tester derfor kun én middelværdi, og kan derfor ”genbruge” t-testet fra sidst.

Ved at have parrede observationer, forsvinder variationen i observationerne, der skyldes variationen i ”deltagerne”. Dette gælder kun hvis differencerne er uafhængige af før-målingerne.

30