35
1 Testovanie štatistických hypotéz

Testovanie š tatistických hypotéz

Embed Size (px)

DESCRIPTION

Testovanie š tatistických hypotéz. Parametre základného súboru nepoznáme . Môžeme však o nich vysloviť určité predpoklad y , ktoré formulujeme ako hypotézy a overujeme štatistickými postupmi - testovanie štitistických hypotéz (TH). - PowerPoint PPT Presentation

Citation preview

Page 1: Testovanie  š tatistických hypotéz

1

Testovanie štatistických hypotéz

Page 2: Testovanie  š tatistických hypotéz

2

Parametre základného súboru nepoznáme.

Môžeme však o nich vysloviť určité predpoklady, ktoré formulujeme ako hypotézy a overujeme štatistickými postupmi - testovanie štitistických hypotéz (TH).

Overovať možno nielen predpoklady o parametroch (napríklad strednej hodnote, rozptyle, smerodajnej odchylke), ale aj o tvare rozdelenia štatistického znaku (napr. testovanie zhody empirického rozdelenia s normálnym.

Page 3: Testovanie  š tatistických hypotéz

3

Príklady:

• Chceme overiť, či sa priemerné výdavky na potraviny v r. 2000 významne zvýšili oproti r.1999, pričom na základe výberového skúmania predstavovali v r. 1999 34% a v r. 2000 36%

• Výrobca reflektorov uvádza, že ich životnosť predstavuje 70 hodín. Za tým účelom sa uskutočnilo výberové skúmanie a na vzorke 20 reflektorov sa zistila priemerná životnosť 67 hodín a výberová smerodajná odchýlka 2 hodiny. Má výrobca pravdu ???

Page 4: Testovanie  š tatistických hypotéz

4

Základné pojmy

• H0 : = 0, , všeobecne H0 : G= G0

• Formulujeme východiskovú - nulovú hypotézu H0 , ktorá vždy tvrdí zhodu toho čo porovnávame - testujeme

• Oproti nulovej hypotéze formulujeme alternatívnu hypotézu H1,

• napr.

H1 : 0, , všeobecne H1 : G G0, obojstranný testresp. H1 : G > G0 jednostranné

H1 : G <G0 testyNulová a alternatívna hypotéza sa musia vzájomne

vylučovať

Page 5: Testovanie  š tatistických hypotéz

5

Parameter základného súboru G, o ktorom máme určitú hypotézu, nepoznáme, iba ho odhadujeme na základe výberového súboru, pomocou výberovej charkteristiky un .

Rozhodnutie o zamietnutí resp. nezamietnutí nulovej hypotézy uskutočňujeme na základe

náhodného výberu. Nemôžme ho urobiť s absolútnou

presnosťou. Existuje riziko odhadu.Za predpokladu, že platí nulová hypotéza , rovná sa parameter G predpokladanej veličine G0.

Keďže est. G = un, potom rozdiel

= un - G0 je iba náhodnou chybou ,

spôsobenou náhodným výberom.

Page 6: Testovanie  š tatistických hypotéz

6

Ak však H0 neplatí , t.j. G G0 , potom sa rozdiel môže skladať

• z náhodnej chyby•systematickej chyby, ktorá odráža skutočný rozdiel medzi

parametrom základného súboru G a jeho predpokladanou

veľkosťou G0

= un - G0 = (un - G) + (G - G0 )

Náhodná chyba

Systematickáchyba - rozdiel

V praxi nemožno zistiť , či rozdiel obsahuje iba náhodnúchybu, alebo aj systematickú. Ak je však malé pripisujeme ho iba náhodnosti výberu, ak prekročí určitú veľkosť, predpokladáme, že zahrňuje aj systematickú chybu - rozdiel.

Page 7: Testovanie  š tatistických hypotéz

7

Rozhodnutie o zamietnutí, resp. nezamietnutí H0 predpokladá

znalosť kritickej hodnoty, ktorá všetky možné výsledky rozdelí na dve časti :• pri rozdieloch menších ako kritická hodnota H0 nezamietame,• pri rozdieloch ako kritická hodnota, H0 zamietame.

Veľkosť v konkrétnych prípadoch kolíše, je náhodnou veličinou,. Preto sa snažíme transformovať , ktoré je funkciou un a parametra základného súboru G na veličinu G, ktorá má známe teoretické rozdelenie (napr. Normované normálne, res. Studentovo či iné rozdelenie).

G = f()pričom funkcia hustoty náhodnej premennej G je f(g) Vychádzame z platnosti H0:G = G0 a vypočítame testovaciu charakteristiku g = f(un , G0)

Page 8: Testovanie  š tatistických hypotéz

8

Rozhodnutie o výsledku testu:Môžeme potom nájsť také

kritické hodnoty g1 a g2 náhodnej veličiny G , pre ktoré platí:

P(g1 G g2) = 1 - alebo P(g1 G g2) =

kritický obor,obor zamietnutia H0

/2/2

1 -

g1 g1

Obor prijatia hypotézy H0

- hladina významnosti,základná hodnota je 0.05

kritický obor,obor zamietnutia H0

kritický obor,obor zamietnutia H0

Page 9: Testovanie  š tatistických hypotéz

9

•Rozhodnutie o výsledku testu, zamietnutí resp. nezamietnutí nulovej hypotézy H0 závisí od voľby hladiny významnosti ,

•hladina významnosti rozdeľuje obor hodnôtveličiny G na obor prijatia a obory zamietnutia H0

Page 10: Testovanie  š tatistických hypotéz

10

Pri testovaní sa všeobecne dopúšťame dvoch chýb:Chyba prvého druhu chyba druhého druhu

= P(H1/H0)= P(H0/H1)

1 - 1 -

f(H0) f(H1)

1 - … pravdepodobnosť prijatia správnej hypotézy1 - …sila testu

Page 11: Testovanie  š tatistických hypotéz

11

-  chyba prvého druhu, ktorá vzniká pri zamietnutí správnej hypotézy

- chyba druhého druhu, ktorá vzniká pri prijatí nesprávnej hypotézy

Schematicky môžeme možné výsledky rozhodovacieho procesu pri testovaní štatistických hypotéz znázorniť takto: 

HypotézaRozhodnutie

Správna Nesprávna 

Nezamietam Správne rozhodnutie

Chyba 2.druhu

Zamietam Chyba 1.druhu Správne rozhodnutie

         

Page 12: Testovanie  š tatistických hypotéz

12

Všeobecný algoritmus testovania: 

1. na základe vecne logického rozboru úlohy formulujeme nulovú (základnú) a alternatívnu hypotézu.2. na základe naformulovaných hypotéz volíme testovacie kritérium3.výpočet hodnoty testovacieho kritéria z údajov náhodného výberu4. určíme obor prijatia a obor zamietnutia nulovej hypotézy, tj. vyhľadáme v tabuľkách alebo vypočítame kvantily rozdelenia testovacieho kritéria.5. formulujeme záver a vyhodnotenie testu, na základe porovnania vypočítanej hodnoty testovacieho kritéria a kritických hodnôt.

Page 13: Testovanie  š tatistických hypotéz

13

Testy hypotéz o strednej hodnote

Testy zhody strednej hodnoty so známou konštantou H0 : = 0

Nech štatistický znak X má v základnom súbore približne normálne rozdelenie ….N(, 2)Predpokladajme, že odhadovaná stredná hodnota sa rovná známej konštante 0, t.j. H0 : = 0

oproti alternatívnej hypotéze - pri obostrannom teste H1 : 0

-         pri pravostrannom teste H1 : > 0

-         pri ľavostrannom teste H1 : < 0

x

Page 14: Testovanie  š tatistických hypotéz

14

a) predpokladajme, že poznáme rozptyl základného súboru 2 (teoretický predpoklad) a n je väčšie ako 30

Potom vytvoríme ako testovaciu chrakteristikunáhodnú veličinu:

n

σ - μx

u 0 má …N(0,1)

Page 15: Testovanie  š tatistických hypotéz

15

Rozhodnutie o výsledku testu:

21 uu

1uu 1uu

uu uu

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný

Pravostranný

Ľavostranný

21 uu

Rozhodnutie

Test

Page 16: Testovanie  š tatistických hypotéz

16

b) Ak nepoznáme rozptyl základného súboru, est 2 = s1

2 , a rozsah výberového súboru n > 30

n

s - μx

u 1

0

môžme použiť N(0,1)

Vyhodnotenie testu je rovnaké ako v predchádzajúcom prípade.

Page 17: Testovanie  š tatistických hypotéz

17

Rozhodnutie o výsledku testu:

21 uu

1uu 1uu

uu uu

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný

Pravostranný

Ľavostranný

21 uu

Rozhodnutie

Test

Page 18: Testovanie  š tatistických hypotéz

18

n

s - μx

t 1

0

c) Ak nepoznáme rozptyl základného súboru, est 2 = s1

2 , a rozsah výberového súboru n 30

t má Studentovo rozdelenie s v = (n-1)stupňami voľnosti

Page 19: Testovanie  š tatistických hypotéz

19

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný

Pravostranný

Ľavostranný

RozhodnutieTest

)(21 vtt )(21 vtt

)(1 vtt )(1 vtt

)(vtt )(vtt

Schéma vyhodnotenia testu:

Ak znázorníme obor možných hodnôt testovacieho kritéria v absolútnej hodnote úsečkou takto:

 

t)(205,01 vt )(201,01 vt

0

OP – OZ + OZ + +

Page 20: Testovanie  š tatistických hypotéz

20

Testy hypotéz o rozptyleTest zhody rozptylu s konštantou

Testujeme nulovú hypotézu o zhode rozptylu základného súboru so známou konštantou , čo sformulujeme do zápisu:

H0 :

oproti alternatívnej hypotéze -         pri obojstrannom teste H1 :

20

2

20

2

20

212 .1

sn

Page 21: Testovanie  š tatistických hypotéz

21

Testovacie kritérium má chí kvadrát rozdelenie s (n-1) stupňami voľnosti. Obor prijatia a obor zamietnutia nulovej hypotézy pre stupne voľnosti v  = n-1 a hladinu významnosti, sú nasledovné:    

Schéma vyhodnotenia testu:

2

vv 22

2221 v2

212

v22

2

RozhodnutieTest

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný

a

Page 22: Testovanie  š tatistických hypotéz

22

Test zhody dvoch rozptylov

Uvažujeme, dva náhodné výbery z normálnym rozdelením prvý o veľkosti n1 s výberovým rozptylom  

druhý s rozsahom n2 s výberovým rozptylom .

Predpokladajme zhodu rozptylov dvoch základných súborov tj:  H0 :

oproti alternatívnej hypotéze pri obojstrannom teste H1 :

22

21

22

21

211s

212s

Testovacím kritériom je veličina

 

 ktorá má rozdelenie F so stupňami voľnosti v = (n1 – 1);(n2 – 1)

a hladinou významnosti .

212

211

s

sF

Page 23: Testovanie  š tatistických hypotéz

23

Schéma vyhodnotenia testu:

vFFvF 212 vFF 2 vFF 21

RozhodnutieTest

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný a

Page 24: Testovanie  š tatistických hypotéz

24

Testy zhody viac ako dvoch rozptylov 

Ak porovnávame zhodu viac ako dvoch rozptylov navzájom nezávislých náhodných výberov pochádzajúcich zo základných súborov s normálnym rozdelením , pričom parametre základných súborov nepoznáme, formulujme nulovú hypotézu v tvare: 

H0 :

 kde k je počet náhodných výberov s rozsahmi Nulovú hypotézu overujeme pomocou Bartlettovho, Cochranovho a Hartteyovho testu.

Bartlettov test vychádza z predpokladu, že všetkých k výberov pochádza zo základného súboru s normálnym rozdelením s rovnakým rozptylom, je založený na výpočte testovacieho kritéria

222

21 k

knnn ,,, 21

Page 25: Testovanie  š tatistických hypotéz

25

k

iii snskN

CB

1

22 ln1ln1

Kde ( ) je nestranný výberový rozptyl i-teho výberu,

2is ki ,,1

knnnN 21

k

iii sn

kNs

1

22 11

k

i i kNnkC

1

1

1

1

13

11

Veličina B má pri platnosti H0 približne rozdelenie s

stupňami voľnosti (pokiaľ ni > 6, pre ). Nulovú hypotézu

o zhode rozptylov na hladine významnosti prijímame, ak testovacie kritérium je menšie ako kritická hodnota . Bartlettov test je veľmi citlivý na dodržanie predpokladu normality rozdelenia náhodných chýb.

2 1kv

ki ,,1

)1(2 k

Page 26: Testovanie  š tatistických hypotéz

26

Ak majú všetky výberové súbory rovnaké rozsahy tj. = n, je k testovaniu nulovej hypotézy lepšie použiť Cochranov test, založený na testovacom kritériu: 

knnn 21

222

21

2max

ksss

sG

pričom ak je vypočítaná hodnota testovacieho kritéria G menšia ako kritická hodnota pre Cochranov test , nulovú hypotézu o zhode rozptylov prijímame (k je počet porovnávaných rozptylov, sú stupne voľnosti, je zvolená hladina významnosti).

vkG ,

1nv

Page 27: Testovanie  š tatistických hypotéz

27

Hartleyov test vychádza z tých istých predpokladov o zhode rozsahov výberových súborov a predpoklade normality rozdelenia a testovacie kritérium je definované vzťahom  

nulovú hypotézu prijímame ak vypočítaná hodnota je menšia ako kritická hodnota pre Hartleyov test , (k je počet porovnávaných rozptylov, sú stupne voľnosti, je zvolená hladina významnosti).

2min

2max

max s

sF

maxF),(max, vkF

1nv

Page 28: Testovanie  š tatistických hypotéz

28

Pred samotným popisom testov parametrov z niekoľkých súborov jepotrebné rozlíšiť či robíme úsudky z nezávislých alebo závislých súborov.U nezávislých súborov predpokladáme, že výber štatistických jednotiek z jedného základného súboru nezávisí na výbere štatistických jednotiek z druhého súboru.U závislých súborov naopak výber jednotiek z prvého súboru závisí na výbere jednotiek zo súboru druhého, pričom sa vytvára logický pár z jednotiek oboch súborov ( často sa používa označenie párový test ).Niekedy môže byť vytvorenie takéhoto páru dané priamo tým, že skúmame rovnaké jednotky za rôznych okolností, v rôznych obdobiach (napr. tržby pred a po reklame ) a pod.

Testy hypotéz o zhode dvoch stredných hodnôt

Page 29: Testovanie  š tatistických hypotéz

29

Testy hypotéz o zhode dvoch stredných hodnôt pre nezávislé súbory

Nech štatistický znak X1 má v prvom základnom súbore približne normálne rozdelenie ….N(1, 1

2)

Štatistický znak X2 má v druhom základnom súbore tiežpribližne normálne rozdelenie ….N(2, 2

2)

Predpokladajme, že odhadované stredné hodnoty 1 a 2 sú

zhodné, t.j. testujeme H0 :1 = 2

oproti alternatívnej hypotéze H1 :1 2

pri obostrannom testeest 1 = … N(1, 1

2/n1)est 2 = … N(2, 2

2/n2)2x1x

Page 30: Testovanie  š tatistických hypotéz

30

► ďalší postup závisí na tom, čo platí pre rozptyly. Ak poznáme rozptyly základných súborov , čo je však vzácne a výberové súbory sú veľké (rozsahy výberových súborov sú väčšie ako 30), použijeme pre testovacie kritérium veličinu

2

22

1

21

21

nn

xxu

ktorá má normované normálne rozdelenie s parametrami 0,1

Schéma vyhodnotenia testu:

21 uu 21 uu

Rozhodnutie

Test

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný

22

21 ,

Page 31: Testovanie  š tatistických hypotéz

31

► ak nepoznáme rozptyly základných súborov a a výberové súbory sú veľké, použijeme ako testovacie kritérium veličinu u, v ktorej nahradíme rozptyly základných súborov ich odhadmi pomocou výberových rozptylov .

22

21 ,

212

211 , ss

2

212

1

211

21

n

s

n

s

xxu

Rozhodnutie

Test

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný21 uu 21 uu

ktorá má normované normálne rozdelenie s parametrami 0,1

Schéma vyhodnotenia testu:

Page 32: Testovanie  š tatistických hypotéz

32

► ak nepoznáme rozptyly základných súborov, ale môžeme aspoň predpokladať ich zhodu (o reálnosti tohto predpokladu sa presvedčíme testom o zhode rozptylov) a výberové súbory sú malé (rozsahy sú menšie ako 30), použijeme ako testovacie kritérium  

22

21

2121

2122

2111

21

11

2

11

nnnn

snsn

xxt

ktorá má Studentovo t rozdelenie s (n1 + n2 – 2) stupňami voľnosti. Vypočítané testovacie

kritérium t porovnávame s kvantilmi Studentovho t rozdelenia pre zvolenú hladinu významnosti a  v = ( n – 1 ) stupňov voľnosti.Schéma vyhodnotenia testu:

)(21 vtt )(21 vtt

RozhodnutieTest

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný

Page 33: Testovanie  š tatistických hypotéz

33

Zhoda dvoch stredných hodnôt pre závislé súbory.

Predpokladajme, že máme dva závislé súbory s normálnym rozdelením a rovnakými rozsahmi n1 = n2 = n. Pre každú dvojicu ( pár ) údajov

vypočítame rozdiel a vypočítame aritmetický priemer a rozptyl :

diii xxd 21 2ds

n

dd

n

ii

1

n

dds

n

ii

d

1

2

2

Nulovú hypotézu pre posúdenie zhody dvoch stredných hodnôt pre závislé súbory naformulujeme v tvare

H0 : 21

Page 34: Testovanie  š tatistických hypotéz

34

oproti alternatívnej hypotéze -         H1 : 21

Testovacím kritériom je veličina 

 

ktorá má Studentovo t rozdelenie s  v = (n – 1) stupňami voľnosti. Obory prijatia a zamietnutia nulovej hypotézy sú definované takto:

Schéma vyhodnotenia testu:

1

2

n

s

dt

d

)(21 vtt )(21 vtt

RozhodnutieTest

H0 prijímame

H1 zamietame

H0 zamietame

H1 prijímame

Obojstranný

Page 35: Testovanie  š tatistických hypotéz

35