Eenzijdige Betrouwbaarheidsgrens

1

Herhaling: hoe kan een eenzijdige grens gevonden worden m.b.v. Statistisch Compendium?

Gevraagd: rechtseenzijdige 95% betrouwbaarheidsgrens.

Antwoord: = 0.05. Pas formule toe, gebruik rechter-grens, maar met i.p.v. /2, dus deze is

Eenzijdige Betrouwbaarheidsgrens

2

9,2/1

2

29,2/

2 9,

9

SS

Hand Auto Verschil Mean S0.5 0.8 -0.3 -0.12 0.15491930.8 0.9 -0.10.7 1 -0.31.3 1.2 0.10.6 0.7 -0.10.6 0.8 -0.20.6 0.6 01.8 1.7 0.11.1 1.4 -0.31.4 1.5 -0.1

Het tweezijdig 100*(1- )% b.i. voor 2 is nu

(zie compendium):

065.033.3

216.0)155.0(*992

9,95.0

2

29,1

2

S

2

Een betrouwbaarheidsinterval wordt smaller naarmate de steekproefomvang (sample size) groter wordt. Stel we willen dat de breedte van het (95%) b.i. maximaal 2B is. De vraag: hoe groot moet de steekproef zijn om dit te garanderen?

Als voorbeeld hoe je dit probleem aanpakt kijken we naar een b.i. voor in één steekproef wanneer de variantie onbekend is:

De breedte van dit interval is

Helaas, S weten we van tevoren niet. Maar, we kunnen wel eerst een kleine ‘pilotstudy’ doen: we nemen n = 10 en schatten S, de steekproefstandaard-deviatie. Nu vereisen we

We zijn er bijna: we pluggen de geschatte waarde S en vervolgens verhogen we systematisch n totdat aan de ongelijkheid wordt voldaan.

Steekproefomvang

nStXnStX nn /,/ 1,2/1,2/

./2 1,2/ nSt n

.2/2 1,2/ BnSt n

3

Grafisch

Steekproefomvang

BX

BX

X

µ

n=500 is dus voldoende in dit geval

4

De nulhypothese: H0. De nulhypothese geeft over het algemeen de situatie weer: geen effect, de waarde van de parameter is zoals we die verwachten, er is geen verschil.

Voorbeelden:

1. Laat 1 de gemiddelde bloeddrukverlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een medicijn en 2 de gemiddelde bloeddrukverlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een ander medicijn. Dan, H0: 1 = 2.

2. Casino (zie week 5): Casino belazert de boel niet, kans op nul is 1/37. Dan, H0: p = 1/37.

Altenatieve hypothese:

H1. Dat wat je wilt aantonen: er is een effect, er is een verschil. Als je niet geïnteresseerd bent in de richting van het effect dan zal je altijd tweezijdig toetsen. H1 is dan simpelweg de ontkenning van H0.

Hypothese opstellen

5

H1: Dat wat je wilt aantonen: er is een effect, er is een verschil. Als je niet geïnteresseerd bent in de richting van het effect dan zal je altijd tweezijdig toetsen. H1 is dan simpelweg de ontkenning van H0. (ongelijkheid)

Ongelijkheid kan betekenen > of < . Soms is men echter alleen geïnteresseerd in een van de twee mogelijke richtingen. Dan is H1 eenzijdig en in de richting van de interesse.

Voorbeelden

1.Laat 1 de gemiddelde bloeddrukverlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een medicijn en 2 de gemiddelde bloeddruk-verlaging (van de populatie) zijn over een bepaalde tijd na toedienen van een ander medicijn.

Dan, H0: 1 = 2 en H1: 1 2.

Echter als het 2e medicijn een placebo is, dan zal men alleen willen weten of 1 beter werkt:

H1: 1 > 2.

2.Casino: men wil weten of het casino de boel belazert. Dat is alleen het geval als p > 1/37, dus

H1: p > 1/37.

Hypothese opstellen, vervolg

6

Uiteindelijk zullen we de nulhypothese verwerpen (reject) of niet.

Wat kunnen we concluderen bij verwerpen?

Dat met (1 - )*100% zekerheid we kunnen stellen dat de alternatieve hypothese H1 waar is. ‘Er is een effect’

Dit is een sterke uitspraak.

Wat kunnen we zeggen als H0 niet verworpen wordt?

We kunnen stellen dat er niet genoeg bewijs in de data is om H0 te verwerpen ten faveure van H1. Let wel: hiermee weten we niet zeker of H0 waar is. Het kan ook zijn dat we niet genoeg data hebben om H1 te onder-steunen. Dit is een zwakke uitspraak.

Het aantonen van ‘geen effect’ (H0) is dus veel moeilijker dan het aantonen van een effect.

Hypothese (niet) verwerpen

7

Doorloop stappen van het toetsen (testing).

1. Wat is de interesseparameter (, 2, p)? Wat zijn de veronderstellingen (normale verdeling ja/nee?)

2. Opstellen hypothesen. Eenzijdig of tweezijdig?

3. Welke situatie: bekende variantie. onbekende variantie: gelijk veronderstellen of niet?

4. Hoe gaan we toetsen? a) M.b.v. de computer: p-waarden

b) Opstellen betrouwbaarheidsinterval

c) Bereken toetsingsgrootheid, vergelijk met tabel

5. Nulhypothese verwerpen alsa) p-waarde kleiner of gelijk aan b) waarde van parameter onder nulhypothese valt buiten (1 - )*100% betrouwbaarheidsinterval

c) Toetsingsgrootheid in kritieke gebied valt.

Toetsen, stapsgewijs

8

t-verdeling

t-verdeling

9

Voorbeeld:

Dit zijn de gemeten (gemiddelde) januaritemperaturen in West Europa de afgelopen 20 jaar.

Data: 3.9, 2.3, 4.0, 4.5, 1.5, 2.2, 1.7, 3.6, 6.1, 1.2, 5.3,

3.3, -0.6, 5.2, 0.2, 0.9, 2.6, 2.2, 3.4, 2.8

Veronderstel is onbekend

Toetsen van hypothesen, voorbeeld

Normal Q-Q Plot of temperatuur

Observed Value

76543210-1

Exp

ect

ed

No

rma

l

2.0

1.5

1.0

.5

0.0

-.5

-1.0

-1.5

-2.020N =

temperatuur

8

6

4

2

0

-2

Descriptive Statistics

20 -.6 6.1 2.815 1.7485

20

temperatuur

Valid N (listwise)

N Minimum Maximum MeanStd.

Deviation

10

0 19,0.05t

5%

19t

0 onder T H

1. Interesseparameter: , normaliteit is gecontroleerd

2. Hypothese:H0: = 2

H1: > 2

3. Situatie: Variantie onbekend, één streekproef.

4. Toetsingsgrootheid:

onder H0: T ~ t19

Waargenomen:

Waargenomen toetsingsgrootheid:

5. Beslissing: Verwerp H0 als t “onwaarschijnlijk groot”als dus als t > 1.729. Dit is het kritieke gebied of verwerpingsgebied (rejection area). Dus conclusie: verwerp H0

t-toets

2

20

XT

S

19,0.05t t

2.82 1.75sx

2.82 22.08

1.75 20t

11

De t-toets1. Bepaal situatie. Interesseparameter: Normale

verdeling redelijk (plots: week 4).

2. Toetsingsprobleem

H0: = 0

a. H1: 0 b. H1: > 0 c. H1: < 0

3. Hier: steekproef met µ

en 2 onbekend: t-toets (als variantie bekend is:

Z-toets)

4. We gaan een toetsingsgrootheid (test statistic)

gebruiken.

onder H0: T ~ tn-1

5. Beslissingscriterium

Verwerp H0 bij significantie niveau als

a. of als

b.

c.

Toetsen m.b.v. toetsingsgrootheid

2 1~ ( , ), ..iX NID i n

2/,1 ntt 2/,1 ntt

,1 ntt

,1 ntt

nS

XT 0

12

Belangrijkste vraag: welke toets heb ik nodig in welke situatie?

Ga het volgende na:

• Wordt er gevraagd om een eenzijdige toets of een tweezijdige toets? Eenzijdig: links of rechts, gebruik i.p.v. /2 in formules.

• Hebben we te maken met gepaarde waarnemingen (dus steeds twee waarnemingen op hetzelfde object/individu) of niet?

• Zijn de varianties bekend en gegeven? Gebruik dan de z -waarden (percentagepunten)

• Zijn de varianties onbekend, gebruik dan de t – waarden met het juiste aantal vrijheidsgraden. Worden de variantie gelijk verondersteld of niet?

Samenvatting toetsen voor µ

13

Wat is een p-waarde? De kans dat de toetsings-grootheid een extremere uitkomst (overeenkomstig met de alternatieve hypothese) geeft dan de waar-genomen waarde wanneer de nulhypothese zou gelden

Tweezijdig:

Eenzijdig: als H1: > 0 dan P(T > t), als H1: < 0 dan P(T < t).

Ook wel als definitie: het kleinste significantieniveau ( ) dat nog leidt tot verwerping.

p-waarde

0 als)(2

0 als)(2|)|(

ttTP

ttTPtTP

14

Laat de interesseparameter zijn. De volgende uitspraken zijn equivalent:

H0: = 0 wordt verworpen ten gunste van H1:

0 omdat:

H0: = 0 wordt verworpen ten gunste van H1:

> 0 omdat:

Toetsen, betrouwbaarheidsintervallen en p-waarden: equivalentie

•p-waarde van de tweezijdige toets kleiner is dan . 0 buiten het tweezijdig 1- b.i. van ligt.•de toetsingsgrootheid in het kritieke gebied voor significantieniveau valt.

•p-waarde van de eenzijdige toets kleiner is dan .0 groter is dan het rechtseenzijdige 1- betrouwbaarheidsgrens voor •de toetsingsgrootheid groter is dan de eenzijdige kritieke grens voor significantieniveau .

15

Van een bepaald casino vermoedt de kansspel-commissie dat ze de boel belazeren. Hun roulettetafel zou niet zuiver zijn en de kans op ‘0’ zou groter zijn dan 1/37, waardoor klanten meer kans hebben hun inzet te verliezen.

Daarom wordt de tafel 2000 keer getest, waarvan 90 keer een ‘0’ valt. We willen nu weten of de ware ‘succeskans’(=kans op ‘0’) te groot is. Week 5 behandelt de manier om dit te doen mbv betrouwbaar-heidsintervallen. Nu doen we ook een toets.

1. Interesseparameter: p. Veronderstelling: normale benadering voor binomiaal mag gebruikt worden.

2.Opstellen hypothesen: H0: p = 1/37, H1: p > 1/37 Eenzijdig dus!

3.Situatie: toets op fractie, variantie: p’(1-p’)/n met p’ schatter voor ‘succeskans’ p: x/n = 90/2000, waarbij x het aantal ‘0’ en in n experimenten is.

Toetsen, fracties voorbeeld

16

4. Hoe gaan we toetsen? Ter illustratie methoden a) en c):

a)M.b.v. de computer: p-waarden

c) Bereken toetsingsgrootheid, vergelijk met tabel

z = 4.95. Kritieke grens bij = 0.01: z0.01 = 2.33.

5.Nulhypothese verwerpen als

a) p-waarde kleiner of gelijk aan 0.01

p-waarde < 0.0001, dus verwerpen.

c) Toetsingsgrootheid in kritieke gebied valt.

z = 3.88 > 2.33, dus verwerpen.

Toetsen, fracties voorbeeld, vervolg

0001.0)96.4(

.96.4

2000)37/11(*37/1

37/12000/90

)1(

'

)1(

ZPn

pp

pp

pnp

npxz

17

Toetsen in de praktijk gebeurt vrijwel altijd met de computer.

• Installatie Statgraphics: Public Folders

• Open data set: Heart.sf (deze staat in de Statgraphics directory (onder ‘Program Files’) onder de subdirectory ‘data’)

• Verwijder controle data, kies ‘compare’ -> ‘two samples’ -> ‘two-sample comparison’ -> vul in ‘time = 4’ bij select -> klik gele button (‘tabular options’) in uitvoer -> vink aan ‘comparisons of means’

Zelfde stappenplan.

1. Interesseparameter: .= ax23 - bwwg Normale verdeling wordt verondersteld

2. H0: = 0 (beide middelen zijn even effectief)

H1: 0 (er is verschil)

3. Variantie onbekend, maar gelijk verondersteld.

4. Toets m.b.v. p-waarden en evt. betrouwbaarheid-sinterval voor .

5. Tweezijdige toets: p-waarde = 0.0066, dus verwerpen voor elke 0.0066. 95% betrouw-baarheidsinterval: [-11.0871,-2.16294] Hier ligt ‘0’ niet in, dus verwerpen.

Toetsen m.b.v. computer

Documents

Eenzijdige Betrouwbaarheidsgrens