Testování statistických hypotéz

Preview:

DESCRIPTION

Testování statistických hypotéz. Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“ Libanonsko- americký básník Chalil Gibran (1883 –1931) v knize „The Prophet“. Typické zdroje hypotéz. 1) Požadavek na potřebnou kvalitu produktu - PowerPoint PPT Presentation

Citation preview

Testování statistických hypotéz

Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“

Libanonsko- americký básník Chalil Gibran (1883 –1931) v knize „The Prophet“

Typické zdroje hypotéz

•1) Požadavek na potřebnou kvalitu produktu

•2) Hypotéza je založena na předchozí zkušenosti

•3) Hypotéza vychází z teorie, kterou je třeba doložit

•4) Hypotéza je pouhým dohadem, založeným na náhodném pozorování

Testování – postup

• Formulujeme testovanou (nulovou) a alternativní hypotézu

• Vybereme vhodný test (testové kritérium)• Zvolíme hladinu významnosti α (obvykle 0,05 =

5%)• Sestrojíme kritický obor W• Vypočítáme hodnotu testovacího kritéria• Učiníme závěr o prokázání či neprokázání

alternativní hypotézy (zamítnutí či nezamítnutí nulové hypotézy)

Testování - pojmy

• Nulová / alternativní hypotéza

• Hladina významnosti

• Testovací kritérium

• Kritický obor (obor zamítnutí), kritická hodnota, obor přijetí

• Jednostranné testy – dvojstranné testy

Chyby při testování hypotézChyba 1. druhu: nulová hypotéza sice platí, ale my ji zamítáme. Ještě před provedením pokusu (před pořízením výběrového souboru) zvolíme hladinu testu, což je maximální přípustná pravděpodobnost chyby 1. druhu. Hladina testu se zpravidla značí symbolem .

K chybě 2. druhu dochází, když nulová hypotéza neplatí, ale my ji nezamítneme (nepoznáme, že neplatí). Doplněk pravděpodobnosti chyby 2. druhu do jedničky (1 – ) se nazývá síla testu. Je to pravděpodobnost, že nulovou hypotézu zamítneme, když tato hypotéza neplatí, tedy pravděpodobnost, s jakou neplatnost hypotézy objevíme. Síla testu závisí na zvolené testové metodě a zejména na tom, jaké je skutečné rozdělení dat (a tedy použité statistiky), například jaké jsou skutečné hodnoty parametrů.

Chyby při testování hypotéz

Znázornění hladiny významnosti a pravděpodobnosti chyby druhého druhu

Snižování zvyšuje (vše ostatní zůstává zachováno)

Větší rozsah výběru nám umožňuje snížit pravděpodobnost chyby 2. druhu () bez zvýšení pravděpodobnosti chyby 1. druhu ()

Chyba druhého typu

Biolog, Statistik, Matematik a Informatik na safari Zastaví džíp a pozorují dalekohledem.Biolog "Podívejte se! Stádo zeber! A mezi nimi bílá zebra! To je fantastické! " "Existují bílé zebry! Budeme slavní!"Statistik: "To není významné. Platí pouze, že hypotézu, že bílé zebry neexistují nemůžeme zamítnout!"Matematik: "Ve skutečnosti víme, že existuje zebra, která je na jedné straně bílá."Informatik: "Ale kdepak! To je výjimka!"

Kritický obor vsobor přijetí

Jednostranný vs. dvoustranný test

Testy shodyParametrický test - Chí kvadrát test

Provést: intervalové rozdělení četností

Podmínky: - žádný interval s nulovou četností; maximálně 20% intervalů s četností menší než 5

Testovací kritérium:

kde: Ai = pozorovaná četnost a Ei = očekávaná četnost.

Pokud je hodnota testovacího kritéria vyšší, než příslušná kritická hodnota rozdělení chí-kvadrát pro ν = (r - 1) stupňů volnosti (kde r = počet intervalů), hypotézu o shodě dvou rozdělení zamítáme (na příslušné hladině významnosti)

n

i i

ii

E

EA

1

2)(

Řešení chí-kvadrát testu pomocí ExceluFunkce CHITEST hodnotu rozdělení γ2 (hodnotu testovacího kritéria) pro dané testové kritérium a příslušné stupně volnosti. Pomocí testů γ2 můžete určit, zda experiment potvrzuje předpokládané výsledky.

Syntaxe: CHITEST(aktuální;očekávané)

Aktuální   je oblast dat obsahující pozorování, která chcete testovat a srovnávat s předpokládanými hodnotami.

Očekávané   je oblast dat obsahující podíl součinu součtů řádků a sloupců a celkového součtu.

Hodnotu vypočtenou funkcí CHITEST srovnáváme s kritickou hodnotou rozdělení γ2, vypočtenou funkcí CHIINV

Funkce CHIINV – kritické hodnoty rozdělení γ2

Funkce CHIINV vrátí hodnotu funkce inverzní k distribuční funkci jednostranné pravděpodobnosti rozdělení chí-kvadrát(γ2). Pokud je pravděpodobnost rovna hodnotě funkce CHIDIST(x,...), hodnota funkce CHIINV(pravděpodobnost,...) je rovna hodnotě x. Syntaxe: CHIINV(prst;volnost)

Prst   je pravděpodobnost rozdělení γ2. Volnost   je počet stupňů volnosti.

Výsledná hodnota je kritickou hodnotou pro příslušnou hladinu významnosti prst-

Funkce CHIDIST

Vrátí jednostrannou pravděpodobnost rozdělení chí-kvadrát (γ2). Rozdělení γ2 je spojeno s testem γ2. Pomocí testu γ2 se porovnávají pozorované a očekávané hodnoty. U genetického experimentu můžete například předpokládat, že následující generace rostlin bude mít květy určitých barev. Porovnáním pozorovaných výsledků s očekávanými výsledky můžete rozhodnout, zda původní předpoklad platí.

Syntaxe: CHIDIST(x;volnost)

X   je hodnota, pro kterou chcete zjistit pravděpodobnost rozdělení; volnost   je počet stupňů volnosti.

Neparametrické testy shody

Používají se, pokud jsou předpoklady normality dat evidentně nesplněné, např.:

      v souboru je příliš mnoho stejných hodnot, nebo

      některé hodnoty evidentně příliš odlehlé, nebo

      rozdělení četností je sice souměrné, ale má tvar písmene "U".

Pro data s normálním rozdělením četností dávají horší výsledky (zamítají nulové hypotézy méně často, než je zdrávo - mají menší sílu)

Kolgomorov-Smirnovův test shody pro

jeden výběr Používá se v případech, kdy se nedoporučuje 2 test (při počtu tříd >2 nemá být více než 20% četností menších než 5 a žádná menší než 1, při k=2 nemá být žádná menší než 5).

Testovací kritérium:

kde

Na,j = aktuální kumulativní četnost v j-tém řádku

Ne,j = očekávaná kumulativní četnost v j-tém řádku

jeja NNn

D ,,1 max1

Kolgomorov-Smirnovův test shody pro jeden výběr

• a) zvolíme hladinu významnosti • b) výsledky měření rozdělíme do zvolených skupin (tříd)• c) stanovíme příslušné očekávané četnosti• d) vypočítáme jednotlivé kumulativní četnosti aktuální

(experimentální) a očekávané (teoretické)• e) stanovíme absolutní hodnoty rozdílů kumulativních

četností v každé skupině• f) v tabulce vyhledáme příslušnou kritickou hodnotu D,

• g) je-li D1 D,, zamítáme H0 a tvrdíme, že experimentální a očekávané četnosti se statisticky významně liší

Kolmogorov-Smirnovův test shody pro dva výběry Užívá se pro hodnocení shody rozdělení četností dvou srovnávaných výběrů. Můžeme jej použít v těchto případech:

a)  malé výběry stejného rozsahu ne většího než 40 (n1 = n2 <

40)

b)  velké výběry (n1 i n2 > 40); nemusí mít stejný rozsah

Testovacím kritériem je:

kde F1,j, F2,j jsou relativní kumulativní četnosti souborů 1 a 2.

Kritické hodnoty nejsou tabelovány, počítají se podle vzorců

jj FFD ,2,12 max

21

2101,0;2

21

2105,0;2 .

63,1.

36,1nn

nnD

nn

nnD

t-test pro párované hodnoty

(parametrický)

Testovací kritérium:

kde je absolutní hodnota průměrné diference párovaných hodnot a sd je směrodatná odchylka této

diference. Počítá se jako normální směrodatná odchylka, tj.

ds

ndt

1.

1

2)(2

n

ds n

d

d

d

Dvojixi xii d=xi - xii d2

1 21 22 1.2 1.442 18 21 2.4 5.763 20 21 1.3 1.694 19 20 1.3 1.695 20 20 0 06 23 24 1 17 24 26 1.8 3.248 21 22 0.8 0.649 20 25 4.6 21.210 22 23 1.4 1.96

suma 208 223 15.8 38.6

průměr 21 22 1.58

23,19

964,2458,38

ds 3,85

1,23

1101,58

ds

1n.d

t

Wilcoxonův test pro párované hodnoty

Test pořadový - testovaná veličina T se vypočte jako součet rozdílů v pořadí párovaných hodnot (zvlášť kladné a zvlášť záporné, jako testovací kritérium se bere absolutní hodnota menšího z nich).

Wilcoxonův test slouží k ověření, zda lze dva výběry považovat za výběry z jednoho základního souboru. Kritické hodnoty jsou tabelovány pro n < 25, pro n > 25 se vypočítávají podle vzorců:

24

)12)(1(4

)1(

;24

)12)(1(;

4

)1(

nnn

nnTT

unnnnn

T

TTTT

TEST VÝZNAMNOSTI ROZDĹU DVOU ROZPTYLU (Fischerův test = F-test)

Testovací kritérium volíme tak, aby F>122

21

s

sF

Testovací kritérium F porovnáme s kritickou hodnotou rozdělení F, kterou zjistíme v Excelu pomocí funkce FINV.Sdružená funkce FTEST vrátí pravděpodobnost, že se rozptyly v argumentech pole1 a pole2 významně neliší. Tuto funkci lze použít pro rozhodnutí, zda dva výběry mají odlišný rozptyl. Pokud například porovnáváte výsledky testů ze dvou různých typů škol, můžete zjišťovat, zda mají tyto školy odlišný rozptyl výsledků.Syntaxe: FTEST(pole1;pole2). Pole1   je první matice nebo oblast dat; Pole2 je druhá matice nebo oblast dat.

TESTY VÝZNAMNOSTI ROZDÍLU DVOU PRŮMĚRŮ (Studentův test = t-test)

Testovací kritérium t - pro s12 ~ s2

2:

21

2121

222

211

21 )2(

nn

nnnn

snsn

xxt

Testovací kritérium t - pro s12 s2

2:

11 2

22

1

21

21

n

s

n

s

xxt

Počet stupňů volnosti: 1 = n1 - 1, 2 = n2 - 1

Test nezávislosti

Pro posouzení významnosti těchto výběrových korelačních koeficientů se porovnává testovací kritérium:

21 2

nr

rt

Toto kritérium má Studentovo rozdělení s ν = n - 2 stupni volnosti. Nulová hypotéza (H0): r = 0 (korelační koeficient je rovný nule).

Vypočtenou hodnotu testovacího kriteria t porovnáme s tabelovanou kritickou hodnotou Studentova rozdělení (t-rozdělení). Vyhodnocení: Vyjde-li tvyp < tkrit , H0 přijímáme a můžeme

vyslovit závěr, že proměnné X a Y na sobě nejsou závislé.

Recommended