22
Testování statistických hypotéz Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“ Libanonsko- americký básník Chalil Gibran (1883 –1931) v

Testování statistických hypotéz

  • Upload
    natane

  • View
    33

  • Download
    0

Embed Size (px)

DESCRIPTION

Testování statistických hypotéz. Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“ Libanonsko- americký básník Chalil Gibran (1883 –1931) v knize „The Prophet“. Typické zdroje hypotéz. 1) Požadavek na potřebnou kvalitu produktu - PowerPoint PPT Presentation

Citation preview

Page 1: Testování statistických hypotéz

Testování statistických hypotéz

Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“

Libanonsko- americký básník Chalil Gibran (1883 –1931) v knize „The Prophet“

Page 2: Testování statistických hypotéz

Typické zdroje hypotéz

•1) Požadavek na potřebnou kvalitu produktu

•2) Hypotéza je založena na předchozí zkušenosti

•3) Hypotéza vychází z teorie, kterou je třeba doložit

•4) Hypotéza je pouhým dohadem, založeným na náhodném pozorování

Page 3: Testování statistických hypotéz

Testování – postup

• Formulujeme testovanou (nulovou) a alternativní hypotézu

• Vybereme vhodný test (testové kritérium)• Zvolíme hladinu významnosti α (obvykle 0,05 =

5%)• Sestrojíme kritický obor W• Vypočítáme hodnotu testovacího kritéria• Učiníme závěr o prokázání či neprokázání

alternativní hypotézy (zamítnutí či nezamítnutí nulové hypotézy)

Page 4: Testování statistických hypotéz

Testování - pojmy

• Nulová / alternativní hypotéza

• Hladina významnosti

• Testovací kritérium

• Kritický obor (obor zamítnutí), kritická hodnota, obor přijetí

• Jednostranné testy – dvojstranné testy

Page 5: Testování statistických hypotéz

Chyby při testování hypotézChyba 1. druhu: nulová hypotéza sice platí, ale my ji zamítáme. Ještě před provedením pokusu (před pořízením výběrového souboru) zvolíme hladinu testu, což je maximální přípustná pravděpodobnost chyby 1. druhu. Hladina testu se zpravidla značí symbolem .

K chybě 2. druhu dochází, když nulová hypotéza neplatí, ale my ji nezamítneme (nepoznáme, že neplatí). Doplněk pravděpodobnosti chyby 2. druhu do jedničky (1 – ) se nazývá síla testu. Je to pravděpodobnost, že nulovou hypotézu zamítneme, když tato hypotéza neplatí, tedy pravděpodobnost, s jakou neplatnost hypotézy objevíme. Síla testu závisí na zvolené testové metodě a zejména na tom, jaké je skutečné rozdělení dat (a tedy použité statistiky), například jaké jsou skutečné hodnoty parametrů.

Page 6: Testování statistických hypotéz

Chyby při testování hypotéz

Znázornění hladiny významnosti a pravděpodobnosti chyby druhého druhu

Snižování zvyšuje (vše ostatní zůstává zachováno)

Větší rozsah výběru nám umožňuje snížit pravděpodobnost chyby 2. druhu () bez zvýšení pravděpodobnosti chyby 1. druhu ()

Page 7: Testování statistických hypotéz

Chyba druhého typu

Biolog, Statistik, Matematik a Informatik na safari Zastaví džíp a pozorují dalekohledem.Biolog "Podívejte se! Stádo zeber! A mezi nimi bílá zebra! To je fantastické! " "Existují bílé zebry! Budeme slavní!"Statistik: "To není významné. Platí pouze, že hypotézu, že bílé zebry neexistují nemůžeme zamítnout!"Matematik: "Ve skutečnosti víme, že existuje zebra, která je na jedné straně bílá."Informatik: "Ale kdepak! To je výjimka!"

Page 8: Testování statistických hypotéz

Kritický obor vsobor přijetí

Jednostranný vs. dvoustranný test

Page 9: Testování statistických hypotéz

Testy shodyParametrický test - Chí kvadrát test

Provést: intervalové rozdělení četností

Podmínky: - žádný interval s nulovou četností; maximálně 20% intervalů s četností menší než 5

Testovací kritérium:

kde: Ai = pozorovaná četnost a Ei = očekávaná četnost.

Pokud je hodnota testovacího kritéria vyšší, než příslušná kritická hodnota rozdělení chí-kvadrát pro ν = (r - 1) stupňů volnosti (kde r = počet intervalů), hypotézu o shodě dvou rozdělení zamítáme (na příslušné hladině významnosti)

n

i i

ii

E

EA

1

2)(

Page 10: Testování statistických hypotéz

Řešení chí-kvadrát testu pomocí ExceluFunkce CHITEST hodnotu rozdělení γ2 (hodnotu testovacího kritéria) pro dané testové kritérium a příslušné stupně volnosti. Pomocí testů γ2 můžete určit, zda experiment potvrzuje předpokládané výsledky.

Syntaxe: CHITEST(aktuální;očekávané)

Aktuální   je oblast dat obsahující pozorování, která chcete testovat a srovnávat s předpokládanými hodnotami.

Očekávané   je oblast dat obsahující podíl součinu součtů řádků a sloupců a celkového součtu.

Hodnotu vypočtenou funkcí CHITEST srovnáváme s kritickou hodnotou rozdělení γ2, vypočtenou funkcí CHIINV

Page 11: Testování statistických hypotéz

Funkce CHIINV – kritické hodnoty rozdělení γ2

Funkce CHIINV vrátí hodnotu funkce inverzní k distribuční funkci jednostranné pravděpodobnosti rozdělení chí-kvadrát(γ2). Pokud je pravděpodobnost rovna hodnotě funkce CHIDIST(x,...), hodnota funkce CHIINV(pravděpodobnost,...) je rovna hodnotě x. Syntaxe: CHIINV(prst;volnost)

Prst   je pravděpodobnost rozdělení γ2. Volnost   je počet stupňů volnosti.

Výsledná hodnota je kritickou hodnotou pro příslušnou hladinu významnosti prst-

Page 12: Testování statistických hypotéz

Funkce CHIDIST

Vrátí jednostrannou pravděpodobnost rozdělení chí-kvadrát (γ2). Rozdělení γ2 je spojeno s testem γ2. Pomocí testu γ2 se porovnávají pozorované a očekávané hodnoty. U genetického experimentu můžete například předpokládat, že následující generace rostlin bude mít květy určitých barev. Porovnáním pozorovaných výsledků s očekávanými výsledky můžete rozhodnout, zda původní předpoklad platí.

Syntaxe: CHIDIST(x;volnost)

X   je hodnota, pro kterou chcete zjistit pravděpodobnost rozdělení; volnost   je počet stupňů volnosti.

Page 13: Testování statistických hypotéz

Neparametrické testy shody

Používají se, pokud jsou předpoklady normality dat evidentně nesplněné, např.:

      v souboru je příliš mnoho stejných hodnot, nebo

      některé hodnoty evidentně příliš odlehlé, nebo

      rozdělení četností je sice souměrné, ale má tvar písmene "U".

Pro data s normálním rozdělením četností dávají horší výsledky (zamítají nulové hypotézy méně často, než je zdrávo - mají menší sílu)

Page 14: Testování statistických hypotéz

Kolgomorov-Smirnovův test shody pro

jeden výběr Používá se v případech, kdy se nedoporučuje 2 test (při počtu tříd >2 nemá být více než 20% četností menších než 5 a žádná menší než 1, při k=2 nemá být žádná menší než 5).

Testovací kritérium:

kde

Na,j = aktuální kumulativní četnost v j-tém řádku

Ne,j = očekávaná kumulativní četnost v j-tém řádku

jeja NNn

D ,,1 max1

Page 15: Testování statistických hypotéz

Kolgomorov-Smirnovův test shody pro jeden výběr

• a) zvolíme hladinu významnosti • b) výsledky měření rozdělíme do zvolených skupin (tříd)• c) stanovíme příslušné očekávané četnosti• d) vypočítáme jednotlivé kumulativní četnosti aktuální

(experimentální) a očekávané (teoretické)• e) stanovíme absolutní hodnoty rozdílů kumulativních

četností v každé skupině• f) v tabulce vyhledáme příslušnou kritickou hodnotu D,

• g) je-li D1 D,, zamítáme H0 a tvrdíme, že experimentální a očekávané četnosti se statisticky významně liší

Page 16: Testování statistických hypotéz

Kolmogorov-Smirnovův test shody pro dva výběry Užívá se pro hodnocení shody rozdělení četností dvou srovnávaných výběrů. Můžeme jej použít v těchto případech:

a)  malé výběry stejného rozsahu ne většího než 40 (n1 = n2 <

40)

b)  velké výběry (n1 i n2 > 40); nemusí mít stejný rozsah

Testovacím kritériem je:

kde F1,j, F2,j jsou relativní kumulativní četnosti souborů 1 a 2.

Kritické hodnoty nejsou tabelovány, počítají se podle vzorců

jj FFD ,2,12 max

21

2101,0;2

21

2105,0;2 .

63,1.

36,1nn

nnD

nn

nnD

Page 17: Testování statistických hypotéz

t-test pro párované hodnoty

(parametrický)

Testovací kritérium:

kde je absolutní hodnota průměrné diference párovaných hodnot a sd je směrodatná odchylka této

diference. Počítá se jako normální směrodatná odchylka, tj.

ds

ndt

1.

1

2)(2

n

ds n

d

d

d

Page 18: Testování statistických hypotéz

Dvojixi xii d=xi - xii d2

1 21 22 1.2 1.442 18 21 2.4 5.763 20 21 1.3 1.694 19 20 1.3 1.695 20 20 0 06 23 24 1 17 24 26 1.8 3.248 21 22 0.8 0.649 20 25 4.6 21.210 22 23 1.4 1.96

suma 208 223 15.8 38.6

průměr 21 22 1.58

23,19

964,2458,38

ds 3,85

1,23

1101,58

ds

1n.d

t

Page 19: Testování statistických hypotéz

Wilcoxonův test pro párované hodnoty

Test pořadový - testovaná veličina T se vypočte jako součet rozdílů v pořadí párovaných hodnot (zvlášť kladné a zvlášť záporné, jako testovací kritérium se bere absolutní hodnota menšího z nich).

Wilcoxonův test slouží k ověření, zda lze dva výběry považovat za výběry z jednoho základního souboru. Kritické hodnoty jsou tabelovány pro n < 25, pro n > 25 se vypočítávají podle vzorců:

24

)12)(1(4

)1(

;24

)12)(1(;

4

)1(

nnn

nnTT

unnnnn

T

TTTT

Page 20: Testování statistických hypotéz

TEST VÝZNAMNOSTI ROZDĹU DVOU ROZPTYLU (Fischerův test = F-test)

Testovací kritérium volíme tak, aby F>122

21

s

sF

Testovací kritérium F porovnáme s kritickou hodnotou rozdělení F, kterou zjistíme v Excelu pomocí funkce FINV.Sdružená funkce FTEST vrátí pravděpodobnost, že se rozptyly v argumentech pole1 a pole2 významně neliší. Tuto funkci lze použít pro rozhodnutí, zda dva výběry mají odlišný rozptyl. Pokud například porovnáváte výsledky testů ze dvou různých typů škol, můžete zjišťovat, zda mají tyto školy odlišný rozptyl výsledků.Syntaxe: FTEST(pole1;pole2). Pole1   je první matice nebo oblast dat; Pole2 je druhá matice nebo oblast dat.

Page 21: Testování statistických hypotéz

TESTY VÝZNAMNOSTI ROZDÍLU DVOU PRŮMĚRŮ (Studentův test = t-test)

Testovací kritérium t - pro s12 ~ s2

2:

21

2121

222

211

21 )2(

nn

nnnn

snsn

xxt

Testovací kritérium t - pro s12 s2

2:

11 2

22

1

21

21

n

s

n

s

xxt

Počet stupňů volnosti: 1 = n1 - 1, 2 = n2 - 1

Page 22: Testování statistických hypotéz

Test nezávislosti

Pro posouzení významnosti těchto výběrových korelačních koeficientů se porovnává testovací kritérium:

21 2

nr

rt

Toto kritérium má Studentovo rozdělení s ν = n - 2 stupni volnosti. Nulová hypotéza (H0): r = 0 (korelační koeficient je rovný nule).

Vypočtenou hodnotu testovacího kriteria t porovnáme s tabelovanou kritickou hodnotou Studentova rozdělení (t-rozdělení). Vyhodnocení: Vyjde-li tvyp < tkrit , H0 přijímáme a můžeme

vyslovit závěr, že proměnné X a Y na sobě nejsou závislé.