Upload
natane
View
33
Download
0
Embed Size (px)
DESCRIPTION
Testování statistických hypotéz. Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“ Libanonsko- americký básník Chalil Gibran (1883 –1931) v knize „The Prophet“. Typické zdroje hypotéz. 1) Požadavek na potřebnou kvalitu produktu - PowerPoint PPT Presentation
Citation preview
Testování statistických hypotéz
Neříkej: „Objevil jsem pravdu!“ ale raději: „Objevil jsem jednu z pravd!“
Libanonsko- americký básník Chalil Gibran (1883 –1931) v knize „The Prophet“
Typické zdroje hypotéz
•1) Požadavek na potřebnou kvalitu produktu
•2) Hypotéza je založena na předchozí zkušenosti
•3) Hypotéza vychází z teorie, kterou je třeba doložit
•4) Hypotéza je pouhým dohadem, založeným na náhodném pozorování
Testování – postup
• Formulujeme testovanou (nulovou) a alternativní hypotézu
• Vybereme vhodný test (testové kritérium)• Zvolíme hladinu významnosti α (obvykle 0,05 =
5%)• Sestrojíme kritický obor W• Vypočítáme hodnotu testovacího kritéria• Učiníme závěr o prokázání či neprokázání
alternativní hypotézy (zamítnutí či nezamítnutí nulové hypotézy)
Testování - pojmy
• Nulová / alternativní hypotéza
• Hladina významnosti
• Testovací kritérium
• Kritický obor (obor zamítnutí), kritická hodnota, obor přijetí
• Jednostranné testy – dvojstranné testy
Chyby při testování hypotézChyba 1. druhu: nulová hypotéza sice platí, ale my ji zamítáme. Ještě před provedením pokusu (před pořízením výběrového souboru) zvolíme hladinu testu, což je maximální přípustná pravděpodobnost chyby 1. druhu. Hladina testu se zpravidla značí symbolem .
K chybě 2. druhu dochází, když nulová hypotéza neplatí, ale my ji nezamítneme (nepoznáme, že neplatí). Doplněk pravděpodobnosti chyby 2. druhu do jedničky (1 – ) se nazývá síla testu. Je to pravděpodobnost, že nulovou hypotézu zamítneme, když tato hypotéza neplatí, tedy pravděpodobnost, s jakou neplatnost hypotézy objevíme. Síla testu závisí na zvolené testové metodě a zejména na tom, jaké je skutečné rozdělení dat (a tedy použité statistiky), například jaké jsou skutečné hodnoty parametrů.
Chyby při testování hypotéz
Znázornění hladiny významnosti a pravděpodobnosti chyby druhého druhu
Snižování zvyšuje (vše ostatní zůstává zachováno)
Větší rozsah výběru nám umožňuje snížit pravděpodobnost chyby 2. druhu () bez zvýšení pravděpodobnosti chyby 1. druhu ()
Chyba druhého typu
Biolog, Statistik, Matematik a Informatik na safari Zastaví džíp a pozorují dalekohledem.Biolog "Podívejte se! Stádo zeber! A mezi nimi bílá zebra! To je fantastické! " "Existují bílé zebry! Budeme slavní!"Statistik: "To není významné. Platí pouze, že hypotézu, že bílé zebry neexistují nemůžeme zamítnout!"Matematik: "Ve skutečnosti víme, že existuje zebra, která je na jedné straně bílá."Informatik: "Ale kdepak! To je výjimka!"
Kritický obor vsobor přijetí
Jednostranný vs. dvoustranný test
Testy shodyParametrický test - Chí kvadrát test
Provést: intervalové rozdělení četností
Podmínky: - žádný interval s nulovou četností; maximálně 20% intervalů s četností menší než 5
Testovací kritérium:
kde: Ai = pozorovaná četnost a Ei = očekávaná četnost.
Pokud je hodnota testovacího kritéria vyšší, než příslušná kritická hodnota rozdělení chí-kvadrát pro ν = (r - 1) stupňů volnosti (kde r = počet intervalů), hypotézu o shodě dvou rozdělení zamítáme (na příslušné hladině významnosti)
n
i i
ii
E
EA
1
2)(
Řešení chí-kvadrát testu pomocí ExceluFunkce CHITEST hodnotu rozdělení γ2 (hodnotu testovacího kritéria) pro dané testové kritérium a příslušné stupně volnosti. Pomocí testů γ2 můžete určit, zda experiment potvrzuje předpokládané výsledky.
Syntaxe: CHITEST(aktuální;očekávané)
Aktuální je oblast dat obsahující pozorování, která chcete testovat a srovnávat s předpokládanými hodnotami.
Očekávané je oblast dat obsahující podíl součinu součtů řádků a sloupců a celkového součtu.
Hodnotu vypočtenou funkcí CHITEST srovnáváme s kritickou hodnotou rozdělení γ2, vypočtenou funkcí CHIINV
Funkce CHIINV – kritické hodnoty rozdělení γ2
Funkce CHIINV vrátí hodnotu funkce inverzní k distribuční funkci jednostranné pravděpodobnosti rozdělení chí-kvadrát(γ2). Pokud je pravděpodobnost rovna hodnotě funkce CHIDIST(x,...), hodnota funkce CHIINV(pravděpodobnost,...) je rovna hodnotě x. Syntaxe: CHIINV(prst;volnost)
Prst je pravděpodobnost rozdělení γ2. Volnost je počet stupňů volnosti.
Výsledná hodnota je kritickou hodnotou pro příslušnou hladinu významnosti prst-
Funkce CHIDIST
Vrátí jednostrannou pravděpodobnost rozdělení chí-kvadrát (γ2). Rozdělení γ2 je spojeno s testem γ2. Pomocí testu γ2 se porovnávají pozorované a očekávané hodnoty. U genetického experimentu můžete například předpokládat, že následující generace rostlin bude mít květy určitých barev. Porovnáním pozorovaných výsledků s očekávanými výsledky můžete rozhodnout, zda původní předpoklad platí.
Syntaxe: CHIDIST(x;volnost)
X je hodnota, pro kterou chcete zjistit pravděpodobnost rozdělení; volnost je počet stupňů volnosti.
Neparametrické testy shody
Používají se, pokud jsou předpoklady normality dat evidentně nesplněné, např.:
v souboru je příliš mnoho stejných hodnot, nebo
některé hodnoty evidentně příliš odlehlé, nebo
rozdělení četností je sice souměrné, ale má tvar písmene "U".
Pro data s normálním rozdělením četností dávají horší výsledky (zamítají nulové hypotézy méně často, než je zdrávo - mají menší sílu)
Kolgomorov-Smirnovův test shody pro
jeden výběr Používá se v případech, kdy se nedoporučuje 2 test (při počtu tříd >2 nemá být více než 20% četností menších než 5 a žádná menší než 1, při k=2 nemá být žádná menší než 5).
Testovací kritérium:
kde
Na,j = aktuální kumulativní četnost v j-tém řádku
Ne,j = očekávaná kumulativní četnost v j-tém řádku
jeja NNn
D ,,1 max1
Kolgomorov-Smirnovův test shody pro jeden výběr
• a) zvolíme hladinu významnosti • b) výsledky měření rozdělíme do zvolených skupin (tříd)• c) stanovíme příslušné očekávané četnosti• d) vypočítáme jednotlivé kumulativní četnosti aktuální
(experimentální) a očekávané (teoretické)• e) stanovíme absolutní hodnoty rozdílů kumulativních
četností v každé skupině• f) v tabulce vyhledáme příslušnou kritickou hodnotu D,
• g) je-li D1 D,, zamítáme H0 a tvrdíme, že experimentální a očekávané četnosti se statisticky významně liší
Kolmogorov-Smirnovův test shody pro dva výběry Užívá se pro hodnocení shody rozdělení četností dvou srovnávaných výběrů. Můžeme jej použít v těchto případech:
a) malé výběry stejného rozsahu ne většího než 40 (n1 = n2 <
40)
b) velké výběry (n1 i n2 > 40); nemusí mít stejný rozsah
Testovacím kritériem je:
kde F1,j, F2,j jsou relativní kumulativní četnosti souborů 1 a 2.
Kritické hodnoty nejsou tabelovány, počítají se podle vzorců
jj FFD ,2,12 max
21
2101,0;2
21
2105,0;2 .
63,1.
36,1nn
nnD
nn
nnD
t-test pro párované hodnoty
(parametrický)
Testovací kritérium:
kde je absolutní hodnota průměrné diference párovaných hodnot a sd je směrodatná odchylka této
diference. Počítá se jako normální směrodatná odchylka, tj.
ds
ndt
1.
1
2)(2
n
ds n
d
d
d
Dvojixi xii d=xi - xii d2
1 21 22 1.2 1.442 18 21 2.4 5.763 20 21 1.3 1.694 19 20 1.3 1.695 20 20 0 06 23 24 1 17 24 26 1.8 3.248 21 22 0.8 0.649 20 25 4.6 21.210 22 23 1.4 1.96
suma 208 223 15.8 38.6
průměr 21 22 1.58
23,19
964,2458,38
ds 3,85
1,23
1101,58
ds
1n.d
t
Wilcoxonův test pro párované hodnoty
Test pořadový - testovaná veličina T se vypočte jako součet rozdílů v pořadí párovaných hodnot (zvlášť kladné a zvlášť záporné, jako testovací kritérium se bere absolutní hodnota menšího z nich).
Wilcoxonův test slouží k ověření, zda lze dva výběry považovat za výběry z jednoho základního souboru. Kritické hodnoty jsou tabelovány pro n < 25, pro n > 25 se vypočítávají podle vzorců:
24
)12)(1(4
)1(
;24
)12)(1(;
4
)1(
nnn
nnTT
unnnnn
T
TTTT
TEST VÝZNAMNOSTI ROZDĹU DVOU ROZPTYLU (Fischerův test = F-test)
Testovací kritérium volíme tak, aby F>122
21
s
sF
Testovací kritérium F porovnáme s kritickou hodnotou rozdělení F, kterou zjistíme v Excelu pomocí funkce FINV.Sdružená funkce FTEST vrátí pravděpodobnost, že se rozptyly v argumentech pole1 a pole2 významně neliší. Tuto funkci lze použít pro rozhodnutí, zda dva výběry mají odlišný rozptyl. Pokud například porovnáváte výsledky testů ze dvou různých typů škol, můžete zjišťovat, zda mají tyto školy odlišný rozptyl výsledků.Syntaxe: FTEST(pole1;pole2). Pole1 je první matice nebo oblast dat; Pole2 je druhá matice nebo oblast dat.
TESTY VÝZNAMNOSTI ROZDÍLU DVOU PRŮMĚRŮ (Studentův test = t-test)
Testovací kritérium t - pro s12 ~ s2
2:
21
2121
222
211
21 )2(
nn
nnnn
snsn
xxt
Testovací kritérium t - pro s12 s2
2:
11 2
22
1
21
21
n
s
n
s
xxt
Počet stupňů volnosti: 1 = n1 - 1, 2 = n2 - 1
Test nezávislosti
Pro posouzení významnosti těchto výběrových korelačních koeficientů se porovnává testovací kritérium:
21 2
nr
rt
Toto kritérium má Studentovo rozdělení s ν = n - 2 stupni volnosti. Nulová hypotéza (H0): r = 0 (korelační koeficient je rovný nule).
Vypočtenou hodnotu testovacího kriteria t porovnáme s tabelovanou kritickou hodnotou Studentova rozdělení (t-rozdělení). Vyhodnocení: Vyjde-li tvyp < tkrit , H0 přijímáme a můžeme
vyslovit závěr, že proměnné X a Y na sobě nejsou závislé.