25
--- Hi-kvadrat test Razlike izmedu aritmetiekih sredina, neki raEuni korelacije itd., mogu se primije- niti samo na kuantitatiune brojEane podatke, koji su ili normalno rasporedeni ili bar simetriEno rasporedeni. Medutim, ako su podaci kualitatiuni ili ako im distribucija znatajno odstupa od normalne, onda se velik broj do sada opisanih postupaka (osim raCuna proporcija, nekih koeficijenata korelacije ne mogu upotrijebiti, nego se vetinom upotrebljava postupak nazvan x2-test (Citaj: hi-kvadrat). VeC u poEetku treba naglasiti da se hi-kvadrat test raEuna samo s frekuenczjama, pa, prema tome, nije dopuSteno u raEun unositi nikakve mjerne jedinice! Osnovni podaci istraiivanja dakako mogu biti i mjerene vrijednosti, ali u hi-kvadrat unose se samo njihove frekvencije. Hi-kvadrat test je vrlo praktiEan test, koji moie osobito posluiiti onda kad ielimo utvrditi da li neke dobivene (opaiene) frekvencije odstupaju od frekvencija koje bismo kekivali pod odredenom hipotezom. On je test0 utoliko slitan raEunu korelacije, Sto i kod hi-kvadrat testa katkada traiimo postoji li pouezanost izmedu dvije varijable, ali i u tim slucajevima postoji bitna razlika izmedu raEuna korelacije i hi-kvadrat testa, jer nam raEun korelacije pokazuje stupanj povezanosti izmedu dvije varijable, dok nam hi-kvadrat test pokazuje vjerojatnost povezanosti. 0 tome Ce joS biti rijeEi na kraju ovog poglavlja. Gotovo se u svim slutajevima hi-kvadrat izratunava na jednak naCin (uz ogranicenje da katkada treba unijeti neke dodatne korekcije, ili je pak praktitnije upotrijebiti neku drugu formulu koja skraCuje ratunanje), i to prema formuli: pri Eemu j,, znaCi opaiene frekvencije, a jt oCekivane (teoretske) frekvencije, tj. frekvencije koje bismo oCekivali pod nekom odredenom hipotezom. NajEeSCe upotrebljavamo hi-kvadrat test u ovim sluEajevima: 1. Kad imamo frekvencije jednog uzorka pa ielimo ustanoviti odstupaju li te frekvencije od frekvencija koje oCekujemo uz neku hipotezu.

Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

  • Upload
    voxuyen

  • View
    245

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

---

Hi-kvadrat test

Razlike izmedu aritmetiekih sredina, neki raEuni korelacije itd., mogu se primije- niti samo na kuantitatiune brojEane podatke, koji su ili normalno rasporedeni ili bar simetriEno rasporedeni. Medutim, ako su podaci kualitatiuni ili ako im distribucija znatajno odstupa od normalne, onda se velik broj do sada opisanih postupaka (osim raCuna proporcija, nekih koeficijenata korelacije ne mogu upotrijebiti, nego se vetinom upotrebljava postupak nazvan x2-test (Citaj: hi-kvadrat). VeC u poEetku treba naglasiti da se hi-kvadrat test raEuna samo s frekuenczjama, pa, prema tome, nije dopuSteno u raEun unositi nikakve mjerne jedinice! Osnovni podaci istraiivanja dakako mogu biti i mjerene vrijednosti, ali u hi-kvadrat unose se samo njihove frekvencije.

Hi-kvadrat test je vrlo praktiEan test, koji moie osobito posluiiti onda kad ielimo utvrditi da li neke dobivene (opaiene) frekvencije odstupaju od frekvencija koje bismo kekivali pod odredenom hipotezom. On je test0 utoliko slitan raEunu korelacije, Sto i kod hi-kvadrat testa katkada traiimo postoji li pouezanost izmedu dvije varijable, ali i u tim slucajevima postoji bitna razlika izmedu raEuna korelacije i hi-kvadrat testa, jer nam raEun korelacije pokazuje stupanj povezanosti izmedu dvije varijable, dok nam hi-kvadrat test pokazuje vjerojatnost povezanosti. 0 tome Ce joS biti rijeEi na kraju ovog poglavlja.

Gotovo se u svim slutajevima hi-kvadrat izratunava na jednak naCin (uz ogranicenje da katkada treba unijeti neke dodatne korekcije, ili je pak praktitnije upotrijebiti neku drugu formulu koja skraCuje ratunanje), i to prema formuli:

pri Eemu j,, znaCi opaiene frekvencije, a jt oCekivane (teoretske) frekvencije, tj. frekvencije koje bismo oCekivali pod nekom odredenom hipotezom.

NajEeSCe upotrebljavamo hi-kvadrat test u ovim sluEajevima:

1. Kad imamo frekvencije jednog uzorka pa ielimo ustanoviti odstupaju li te frekvencije od frekvencija koje oCekujemo uz neku hipotezu.

Page 2: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

250 15 HI-KVADRAT TEST

2. Kad imamo frekvencije dvuju ili vise nezavisnih uzoraka te ielimo ustanoviti razlikliju li se uzorci u opaienini svojstvima.

3. Kad imamo frekvenciju dvaju zavisnih uzoraka, koji imaju dihotomna svoj- stva, te ielimo ustanoviti razlikuju li se uzorci u mjerenim svojstvima, tj. je li do310 do promjene.

15.1. JEDAN UZORAK

Prvi primjer. 48 1ijeEnika iznijelo je miSljenje o tome treba li ieni u porodu dati analgeziju. Dobiveni su ovi odgovori: 26 odgovora "da", 12 odgovora "ne znam" i 10 odgovora "ne". Da li ti odgovori pokazuju neko znacajno odstupanje od onoga Sto bismo oEekivali ka.d bi odgovori bili dani "nasurnce", tj. posve slucajno?

Postavit Cemo "mil-hipotezu": nenla razlike izmedu dobivenih odgovora i s l ~ ~ F ( ~ j n o rasporedenih odgovora. Kad bi odgovori bili dani potpuno sluEajno, svaki bi od njih imao jednaku vjerojatnost, pa bisnio prema tome svaki odgovor otekivali 4813 = 16 puta. Daltle, oCeltivana frekvencija za svaki odgovor bila bi 16.

Najprije Cenlo rezultate tabelirati:

"Dan "Ne znam" "Ne" Ukupno

10 48

Kad smo dobili oEekivane frekvencije, moiemo izracunavati podatke potrebne za formulu (15.1):

Prije nego Sto interpretiramo dobiveni X" 9,50, rastumaEit Cemo princip njegove interpretacije: kad ne bi naSli nikakve razlike izmedu opaianih i otekiwnih frekven- cija, izraz X' bi bio 0. Sto su razlikc izmedu opaienih i oeekivanih frekvencija veCe, to je veCi i definitivni izraz X" Prema tome, Sto je hi-kvadrat manji (bliii nuli) (do neke odredene granice, vidi o tome zavrSetak poglavlja o hi-kvadrat testu), to je yjerojatnije da treba prihvatiti postavljenu hipotezu, a Sto je hi-kvadrat veCi, to je vjerojatnije da postavljenu hipotezu treba odbaciti, jer se opaieni rezultati znatno

Owner
Highlight
Page 3: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15 1 JEDAN UZORAK 251

razliltuju od onih koje bismo pod odredenom hipotezom otekivali. Tablzco graniCnih vrijednosti X L (tablica H u Dodatku) pokazuje nam do lcoje vrijednosti (uz odredeni broj stupnjeva slobode) moramo srnatrati da je hi-ltvadrat joS uvijek dovoljno vi- sok, a da bismo mogli odbaciti hipotezu, odnosno, drugim rijecima, koliko mora nojrnunje iznositi vrijednost hi-kvadrat pa da odbacimo hipotezu. Naravno da i ovdje (kao i kod svih dosada5rijih testiranja znaCajnosti) moiemo postaviti blaie ili stroke zalitjeve, tj. moiemo traiiti znatajnost na razini od 5%, od 1%, itd.

Kao praktitno pravilo moie posluiiti Cinjenica da centralna vrijednost hi- kvadrata uz neki stupanj slobode iznosi po prilici toliko ltoliko imamo stupnjeva slobode. Prema tome, nul-hipotezu sigurno moierno prihvatiti (bez uvida u tablicu hi-ltvadrata) ako je dobiveni hi-kvadrat manji ili jednak broju stupnjeva slobode.

Postanak tablice H moiemo relativno jednostavno protumaCiti: Zamislimo da smo 100 ispravnih komada novca bacili u zrak (ili 1 riovCiC 100 puta), i da smo dobili 46 "glava" i 54 "pisma". Kao Sto znamo, oCeltivane su frekvencije: 50 "glava" i 50 "pisama". Izraeunamo li hi-kvadrat, dobit Cemo:

Glava 46 50 -4 16 0,32 Pisrno 54 50 4 16 0,32

Nastavimo li bacarijem tih 100 komada riovaca i dalje, dobit Cemo i dalje Eesto odredene razlike izmedu broja "glava," i "pisma", a ako su novci potpuno ispravni (tj. nemaju pojedini liomadi novca tendenciju da preteirio padaju na jednu stranu), s igu,mo je da s u sua talcvu odstu.punjo potpuno slu,Eajnu. BuduCi da je dovoljno znat,i kolilto je palo "glava" pa da time odmah znamo koliko je palo "pisama." (jer su obje Celije zavisne jedna od druge), to je broj stupnjeva slobode = 1. Na slici 15.1. prikazaria je distribucija hi-ltvadrata uz razliEite stupnjeve slobode. Medu njima je i distribucija hi-kvadrata uz 1 stupanj slobode, tj. distribucija rezultata koje bismo dobili kad bismo zaista bacali 100 komada novca mnogo puta. Prema tome, sve su te vrijednosti hi-kvadrata slu,fajne.

( N a p o m e n a: Da smo umjesto 100 komada novCiCa bacali recimo 20 ko- mada, pa registrirali ishode "pismo" i "glava", i usporedivali 'ih s otekivanim ishodima, t e izra,Cunavali velik broj hi-kvadrata, dobili bismo jedriaku distribuciju hi-ltvadrat,a) .

Nledutim, one vrijednosti hi-kvadrata koje toliko jako odstupaju od oeekivanog da je njihovo sluCajno pojavljivanje moguCe samo u 1% ili u 5% sluEajeva, moiemo vet sniatrati tolikim odstuparijem da s pravom moiemo pretpostaviti d a vjeroja,tno 71'1s~ slueajne. Na slici 15.1. uz krivulju distribucije hi-kvadrata uz 1 stupanj slobode oznateria je na apscisi 5%-t,na granica, iza koje povrSina krivulje nadesno iznosi 5%. Kako se vidi iz slike (i Eitarno iz tablice H), t a je vrijednost 3,84.

Page 4: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

252 '4, 15. HI-KVADRAT TEST

d.f. = stupnjevi slobode

Slika 15.1. Distribucija uzoraka hi-kvadrata uz razliEite stupnjeve slobode

Ako umjesto 100 komada novca bacimo 100 igraCih kocaka, takoder moiiemo promatrati koliko odstupanje imamo kod svakog broja od 1 do 6, prema otekivanim frekvencijama (116 kocaka morala bi pasti na broj 1, 116 na broj 2, itd.). U tom slutaju imamo 6 - 1 = 5 stupnjeva slobode. Velikim brojem bacanja dobili bismo distribuciju hi-kvadrata, prikazanu na slici 15.1, uz 5 stupnjeva slobode. GraniEna vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ovdje iznosi 11,07. Na slici su jog prikazane i distribucije uzoraka hi-kvadrata za 3 i 10 stupnjeva slobode.

Kad imamo samo jednu varijablu s jednim nizom rezultata, broj stupnjeva slobode ratuna se prema formuli N - 1, pri Cemu N znati ukupan broj Celija (a ne ukupan broj frekvencija). Kako u naSem primjeru imamo samo 3 Celije ("da", "ne znam", "ne"), broj stupnjeva slobode = 3 - 1 = 2. ~ e l i m o li testirati znaCajnost na razini od 5%, otitat Cemo u tablici graniEnu vrijednost x2 uz 2 stupnja slobode, a na razini znatajnosti P = 0,05 (= 5%). Kako se iz tablice vidi, granitna vrijednost X 2 uz 2 stupnja slobode na razini od %5 = 5,991. Kako je nag hi-kvadrat veCi od 5,991, zakljutujemo da treba odbaczti postavljenu hipotezu, tj. dobiveni se odgovori statistitki znatajno razlikuju od odgovora koje bismo otekivali kad bi oni bili dani posve slutajno.

Razumljivo je da postavljena hipoteza ne mora uvijek biti takva kao u proSlom primjeru. U tome i jest prednost hi-kvadrat testa da moiemo postaviti hipotezu kakvu ielimo. Na primjer, moiemo postaviti hipotezu da bismo u nekom slutaju morali otekivati "normalnu raspodjelu", Sto Cemo pokazati u iduCem primjeru.

Drugi primjer. S pomoCu jednog testa psihomotorike testiramo 200 ljudi. Test je takve prirode da daje samo tri kategorije rezultata: A = slab, B = prosjetan, C = dobar.

Page 5: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.1. JEDAN UZORAK 253

Kao rezultat mjerenja dobijemo ove frekvencije:

A B C fo 40 110 50.

Odstupa li t a j rezultat znaEajno od rezultata koji bismo otekivali da je svojstvo normalno rasporedeno medu ispitanicima?

BuduCi da imamo 3 kategorije, najopravdanije je pretpostaviti da bi - po toj hipotezi - trebalo biti 50% prosjetnih, a po 25% loSih i dobrih:

A B C f t 50 100 50.

Prema tome, raEun Ce izgledati ovako:

Taj je broj rnunji od 5,991, pa Cemo, prema tome, prihuatiti hipotezu i za- kljuciti da se dobiveni rezultati ne razlikuju statistitki znatajno od onih koje bismo oEekivali pod pretpostavkom da je mjereno svojstvo normalno distribuirano u skupini.

TreCi primjer. Medutim, postoji moguCnost da mi neku otekivanu frekvenciju veC unaprijed znamo jer je ona poznata u populaciji. Tako, na primjer, moiemo ispitati da li se uzorak u kojem imalno 50 ljudi, i to 40 s tamnom kosom (80%) i 10 sa svjetlom kosom (20%), znacajno razlikuje od omjera koji je poznat u nekoj populaciji, tj. da 75% ljudi imaju tamnu, a 25% svjetlu kosu.

Prema tome, moiemo postaviti ovu tablicu:

Tamna Svjetla Ukupno

kosa kosa

Page 6: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15. HI-KVADRAT TEST

Broj stupnjeva slobode = 2-1 = 1. Dobiveni x h n a t n o je manji od granitne vri- jednosti 3,84, pa stoga zakljutujemo da nag uzorak ne odstupa statistitki znaEajno od stvarne proporcije tamne i svijetle kose u populaciji.

N a p o m e n a. Kada imamo vise od 2 Celije, ako je vise od 20% oEekivanih frekvencija manje od 5, treba spajati susjedne Celije zajedno. Kad radimo samo s 2 Celije, veCina statistiEara smatra (ali neki nisu tako strogi) da ne smije ni jedna otekivana frekvencija biti manja od 5.

~ e t v r t i primjer. Uzmimo da smo analizirali nesreCe kod 398 ljudi u jednom po- slu i rlasli da su one medu tim ljudima rasporedene kao Sto je prikazano u tablici

TABLICA 15.1.

Broj nesreCa Broj ljudi

Zanima. nas da li su nesrete medu tim ljudima rasporedene prema "sluFajun tj. prema zakonu "rijetkih dogadaja" (to je tzv. Poissonova raspodjela).

Poissonova se raspodjela moZe izracunati ovako:

1. Ukupan broj nesreCa podijelimo brojem ljudi te tako dobijemo "prosjetan" broj nesreCa;

2. izratunamo logaritam iz broja ljudi;

3. prosjeEan broj nesreCa (1) pomnoiimo izrazom 0,4343;

4. izvrSimo operaciju (2) - (3);

5. izratunamo antilogaritam izraza pod (4). Tako dobivamo frekvenciju ljudi s 0 nesreCa. Ovaj i daljnje ratune treba ratunati na nekoliko decimala, a kad smo sve izraEunali, inoiemo u tablicu otekivanih frekvencija unositi rezultate s manje (npr. 1 - 2) decimala;

6. izvedemo operaciju (5) . ( I ) , i tako dobivamo frekvenciju ljudi s 1 nesretom;

(6 ) . (1) 7. ----- = broj ljudi s 2 nesrete; 2

Page 7: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.1. JEDAN UZORAK

(7) . (1) 8. ,-= broj ljudi s 3 nesreCe;

(8) . (1) 9. ------ = broj ljudi s 4 nesreCe; 4

itd.

Jednostavnije i brie moiemo izraCunati otekivanu Poissonovu distribuciju uz pomoC Poissonovih tablica (vidi tablicu 3 u Dodatku). Ta tablica daje oEekivanu proporciju u razredu 0 (nula) lcod Poissonovih raspodjela s razlititom aritmetitkom sredinom. U naSem primjeru aritmetieka sredina iznosi 15491398 = 3,89. U tablici moiemo oEitati da proporcija u razredu 0 (tj. otekivana proporcija ljudi bez nesreka) iznosi 0,0204. Pomnoiimo li tu proporciju s brojem ljudi, dobivamo 0,0204.398 = 8,12. Od tog momenta dalje radimo prema veC opisanom postupku, tj. otekivan broj ljudi s 1 nesreCom dobivamo tako da oeekivan broj s 0 nesreCa pomnoiimo s aritmetitkom sredinom, itd.

Alco ovako izratunamo Poissonovu raspodjelu, dobit Cemo oEekivane frekvencije, prikazane u tablici 15.2:

TABLICA 15.2.

OCEKIVANA FREKVENCIJA LJUDI s RAZLIGITIM BROJEM NESRECA

Broj nesreta Broj ljudi

0 8,12 1 31,59 2 61,44 3 79,67 . 4 77,48 5 60,28 6 39,08 7 21,72 8 10,56 9 4,56 10 1,77 11 0,63 12 0,20 13 0,06 14 0,02 15 0,Ol

Kontxola rezultata sastoji se u tome da suma oEekivanih (teoretskih) frekvencija (uz dopustene manje razlilce zbog zaokruiivanja decimalnih brojeva) mora odgo- varat,i sumi opaienih frekvencija.

IzraCunavanje Ce nakon toga imati tok prikazan u tablici 15.3.

Page 8: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

256 15 HZ-KVADRAT TEST

TABLICA 15.3. IZRACUNAVANJE HI-KVADRATA ZA PODL4TKE IZ TABLICA 15.1. i 15.2.

Broj nesreta fo ft fo - ft (fo - ft)" (fo - fd2

ft 0 14 8,12 5,88 34,57 4,26 1 37 31,59 5,41 29,27 0,93 2 76 61,44 14,56 211,99 3,45 3 70 79,67 -9,67 93,51 1,17 4 64 77,48 -13,48 181,71 2,35 5 53 60,28 -7,28 53,OO 0,88 6 31 39,08 -8,08 65,29 1,67 7 19 21,72 -2,72 7,40 0,34 8 14 10,56 3,44 11,83 1,12

9 i vise 20 7,25 12,75 162,56 22,42

Vidljivo je da su u tablici spojeni rezultati od razreda 9. nadalje. To je utinjeno zato Sto kod te vrste hi-kvadrat, ratuna statistitari zahtijevaju da ni jedna oCekzvana freltvenci,ja ne bude rnanja od 5.

U testiranju Poissonove raspodjele broj stupnjeva slobode raEuna se po principu: broj razreda -2. (Jedan "stupanj slobode" izgubljen je na zajednitki N kod opaiene i teoretske krivulje, a drugi na zajednitku aritmetitku sredinu. Kod Poissonove raspodjele aritmetiEka sredina jednaka je varijanci, pa stoga na zajednitku varijancu ne gubimo daljnji. treCi stupanj slobode.) Dakle, u naSem slutaju imamo 10-2 = 8 stupnjeva slobode. Iz tablice hi-kvadrata moiemo otitati da uz 8 stupnjeva slobode granitna vrijedrlost hi-kvadrat iznosi (na razini znatajnosti od 5%) 15,507. Kako je naS dobiveni hi-kvadrat veCi, odbacujemo nul-hipotezu i zakljutujemo da vrlo vjerojatno (tj. uz rizik od 5%) naSa distribucija nesreCe nzje Poissonova distribucija. (Taj zakljuEak ima dakako vrlo dalekoseino znaEenje, jer on govori da u distribuciji nesreCa nije s lutaj onaj jedini faktor koji je odgovorarl za to da razliEiti ljudi imaju razlieit broj nesreCa! No da bismo taj zakljueak smjeli izvesti, mora biti manje-vise ispurljen uvjet da ljudi kojima smo registrirali nesreCe, na svojim radnim mjestima budu uglavnom podjednako eksponirani.)

N a p o m e n a. Za one titaoce, koji posjeduju bolje diepno elektronsko raEunalo evo metode da se bez tablica izratunaju sve otekivane proporcije Pois- sonove raspodjele: treba, naime, primijeniti originalnu matematitku formulu za Poissonovu raspodjelu, koja glasi: xxe-'

Px = - X ! '

pri Eemu P, znaEi vjerojatnost da Ce se pojaviti x, tj. neka odredenn frekven- cija nesreCa (npr. 4 nesrede), X = aritmetirka sredina, tj. prosjetan broj nesreta, e = baza prirodnih logaritama = 2,7182818. Na primjer, vjerojatnost da Ce se u naSem prirnjeru dogoditi 8 nesreCa je:

Page 9: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15 1. JEDAN UZORAK 257

0,027 je proporczja. Xko ielimo dobiti frekvenciju, treba ta j broj pomnoiiti s N, dakle s 398, i dobivamo 10,75. (U tablici 15.3. oEekivana frekvencija u razredu 8. iznosi 10,56, no razlika je posljedica razlititog naEina ratunanja i efekta zaokruiivarlja na dvije decimale.)

Pet i primjer. il4jereCi visinu 135 20-godisnjih zagrebatkill mladika (vidi tablicu 6.2, str. 74), dobiverii su rezultati prikazani ponovno u tablici 15.4. u stupcima 1 i 2.

~e l i rno li testirati odstupa li dobivena distribucija znatajno od normalne dis- tribucije, treba izvesti ove operacije:

1. IzraCunati aritmetitku sredinu i standardnu devijaciju rezultata.

2. IzraCunati koliko su prava donja i gornja granica svakog razreda udaljene od aritmetitlte sredine, i to izraziti u z- vrijednostima (stupci 4 i 5). Pritom Cemo iCi 1-2 razreda i viSe i rliie od razreda u kojima se rialaze opaiene frekvencije. BuduCi da je prava donja granica neltog razreda ujedno i gornja granica niieg razreda, to je dovoljno izraeunati udaljenost samo do jedne od njih; u tablici 15.4. u stupcu 4 prikazana je udaljenost do donje granice svakog razreda.

3. Iz tablice riormalrle raspodjele (vidi tablicu A u Dodatku) izraEunati povrSinu izmedu z-vlijednosti, koje predstavljaju doriju i gornju granicu svakog razreda (stupac 6 u tablici 15.4).

TABLICA 15.4. TESTIRANJE NORMALNOS?I RASPODJELE

ispod 153,5 0,0001 153,5 -19,97 -3,72 0,0002 156,5 -16,97 3 , 1 6 0,0039 !$} 81g 159,5 -13;97 -2,60 0,0160 2,O 162,5 -10,97 -2,04 0,0487 6,3

15 165,5 -7,97 -1,48 0,1068 14,7 25 168,5 -497 -0,93 0,1795 24,3 28 171,5 -1,97 -0,37 0,2197 29,6 20 174,5 1,03 0,19 0,1980 26,7 16 177,5 4,03 0,75 0,1315 17,6

19 180,5 7,03 1,31 0,0644 183,5 10,03 1 0,0232 13, l

1 186,5 13,03 2,43 0,0061 0,9 189,5 16,03 2,98 0,0012 0,2 192,s 19,03 3,54 0,0002

6 w 3 2

b o a k-dh :?:,% ~2g.g a z m E g z O 2

! % N * M

2

a a :z

- ~ f i ,: a m + a% o&

4

Q, .-? a .

$$a U k . 5 " a m

%

7

z :S a u .? 9 % A '0 w OLE

3

re a .%.2 = a a 2 O a N n hz

5

. d

42 m

0

'a3 a a a:? 5 9 4 4 0 3

Page 10: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

258 2 15. HI-KVADRAT TEST

4. BuduCi da povrSina ispod normalne krivulje predstavlja frekvenctju, to Cemo otekivane frekvencije (stupac 7) dobiti tako da proporciju povrsine (stupac 6) pomno2imo s N.

5. BuduCi da pri krajevima raspodjele otekivanih frekvencija imamo male bro- jeve, spojit Cemo krajnje razrede tako da ukupna frekvencija iznosi najmanje 5. Iste Cemo razrede spojiti i u opaienim frekvencijama.

6. IzraEunat Cemo hi-ltvadrat uz broj stupnjeva slobode koji se ratuna: broj Celi.ja -3.

Ako izvedemo hi-kvadrat raEun, dobivamo:

Stupnjevi slobode = 7 - 3 = 4 X 2 = 5,675

BuduCi da je naS hi-kvadrat manji od graniEne vrijednosti hi- kvadrata uz 4- stupnja slobode (5,675 < 9,488), prihvaCamo postavljenu nul-hipotezu da se do- bivena distribucija visine ne razlikuje od normalne distribucije.

15.2. DVA ILI VISE NEZAVISNIH UZORAKA

Prvi primjer. U jednoj tvornici provedena je anketa medu 23 radnika i 26 rad- nica te je ispitivan stav radnilca prema lijetniku u ambulanti. Iz dobivenih odgovora rnoglo se zaltljutiti je li stav prema lijetniku u cjelini "pozitivan" ili "negativan". BuduCi da je lijeEnik u toj ambulanti bila iena, postavljeno je pitanje razlikuju li se muskarci od iena u stavu prema toj lijetnici. Dobiverli su ovi rezultati:

MuSkarci (N = 23) ~ e n e (N = 26) Pozitivan stav 14 Pozitivan stav 9 Negativan stav 9 Negativan stav 17.

Najprije Cemo unijeti rezultate u tzv. 2.2 tablicu u kojoj Ce apscisa predstavljati jednu varijablu (stav), a ordinata drugu varijablu (spol):

Page 11: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.2. DVA ILI VISE NEZAVISNIH UZORAKA

Stav prema lijetniku

Ukupno 1 1 23b+d 1 49

Negativan

spol MuSkarci

i ene

Spol

~ e n e

Ukuprlo

Pozitivan

9a

17,

Pod pretpostavkom da nema znaCajne razlike izniedu muSkaraca i Zena, propor- cija negativnog (ili pozitivnog) stava morala bi biti jednaka kod muBkaraca i kod iena. BuduCi da u Citavoj grupi imarrio 26 ljudi s negativnim stavom, znati da je proporcija tih ljudi u uzorku 26/49, pa stoga frekvencija muSlcaraca s negativnim stavom treba biti: 23,26149 (jer imamo ukupno 23 mugkarca), a frekvencija iena s riegdtivnini stavom treba da bude: 26 . 26/49. Kako se vidi, oFekzvane frekven- cije u svakoj Celiji dobivamo jednostavno tako da pomnoizmo sumu reda sa sumom stupca z rezultat podijelzmo totalnom sumom frekvencya. Na t a j Cemo naEin dobiti otekivane frekvencije:

Stav prema lijetniku

VeCina statistitara preporuCuje da uvijek kad radimo s 2.2 tablicama (a takoder i onda kad radimo s drugim tablicama, npr. 2 . 3, itd., a u bilo kojoj Celiji imamo otekivan~~, frekvenciju manju od 5), upotrijebirno tzv. Yates-ovu korekciju, koja se sastoji u tome da se za 0,5 smanji svaka opaiena frekvencija, koja je veda od otekivane, a za 0,5 poveCa svalta opaiena frekvencija, koja je manja od otekivane. Drugim rijetima, svaka se razlilcn izmedu oEekivane i opaiene frekvencije smanji za 0,5.

Primijenimo li, dakle, t u korekciju na naS primjer (jer radimo s 2 . 2 tablicom), raCunat Cemo ovako:

Ukupno

Negativan

14b

9d

23a+b

26,+d

Pozitivan Ukupno

Page 12: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15. HI-KVADRAT TEST

U tablicama koje imaju redove i stupce, broj stupnjeva slobode izratunava se: (broj redova- 1) . (broj stupaca - I ) . BuduCi da mi imamo 2 .2 tablicu (jer imarno 2 reda. i 2 stupca), broj stuprijeva slobode =(2 - 1 ) . (2 - 1) = 1. Iz tablice X 2 moierno

.

otitati da je graniCna vrijednost X' uz 1 stupanj slobode na razini znatajnosti od 506, X" 3, 841. Bududi da je naS hi-kvadrat manji, prihvatit Cemo hipotezu, tj. zalcljutit Cemo da se muSkarci ne razlikuju statistitki znatajno od iena u stavu prerna konkretnom lijeEniku.

Ovo je gotovo "Skolski primjer" kako statistitki postupci "lcainjavaju" mali broj mjerenja. To je i potpuno opravdano, jer na 23 muBka i 26 zenskih ispitanika zaista bi se i potpuno s lu ta jno moglo dogoditi to, Sto se dogodilo tj. da iene u relativno veCem postotlcu imaju negativari stall prema lijetnici, nego muskarci. No buduCi da za takav rezultat postoje i izvjesna moguCa psiholoSka ili socioloSka opravdanja (tj. moida je lijetnica bila atraktivna osoba, pa se vise svidala muskarcima), bilo bi zanimljivo znati radi li se moida zaista o jednom takvom fenomenu. Pod pret- p o s t a ~ i k o m da bi odnosi izmedu pozitivnog i negativnog stava kod velikog broja ispitanika ostali jednoki (tj. da preko 65% iena irna riegativan stav, a samo 39% muSlcaraca takoder negativan stav prema toj lijetnici), uz 10 puta,veCe uzroke imali bismo 230 muSkaraca i 260 iena. MuSkaraca bi bilo 90, a iena 170 s negativnim stavom. Kada bisrno sada raFunali hi-kvadrat, dobili bismo da je on deset puta ueCi, tj. da iznosi gotovo 40, Sto je dakako (jer i sada imamo 1 stupanj slobode) statistitki potpuno znatajno. Iz toga bi u praksi bilo potpuno neopravdano, pa Eak i nedozvoljeno izvesti za.kljutak: "dakle, kada bi uzorak bio 10 puta veCi, ra,zlika bi bila statistielti znatajna". Za svakoga, tko je do sada nautio "statistitki misliti", bit Ce jasno, da hi ta j zak1.jutak bio toean samo pod pretpostaukom da odnosi 0s- tanu, jednaki. A to nikad ne moiemo znati, jer moida bi se kod velikih uzoraka pro7nijenio postotak zadovoljnih ili nezadovoljnih ispitariika razlieitih spolova.

Postoji medutim jedan jednostavniji postupak za izratunavanje hi- kvadrata kod 2 . 2 tablice, a jednostavniji je u tome Sto pomoCu tog postupka nije uopCe potrebno izraturlavati razlike izmedu opaienih i otekivanih frekvencija. Ako, naime, Celije oznaeimo slovinla a , b, c, d, onda se X"uklju~ujuCi i Yatesovu korekciju) moie izraElinati prenla formuli:

N a p o m e n a . Znak I I oko izraza lad - bcl znati da treba uvijek uzeti pozitiunu razliku izmedu ad i bc, tj. uvijelc treba oduzeti manji izraz od veCega.

U naSem primjeru dobivamo ove rezultate (vidi prvu tablicu):

Kalto se vidi, rezultat je pralctitki jedna.k rezultatu koji smo dobili prije.

(Malu razliku treba pripisati tome Sto smo izraze ( f O - jt)' sveli na samo 3 ft

decimale.)

Page 13: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.2. DVA ILI VISE NEZAVISNIH UZORAKA 261

D r ~ ~ g i primjer. Medicinski centar u Osijeku izvrSio je 1967. godine analizu obo- ljenja od epidenlije influence A-2 u poduzekima, od kojih su kolelctivi nekih bili necijepljeni, ltolelctivi nekih cijepljeni 11 mjeseci prije epidemije, a kolektivi nekih neposredno prije epidemije. Dobiveni su ovi rezultati:

IzraEunamo li ved spomerlutim postupltorn oEekivane frekvencije (surna stupca puts suma reda, podijeljeno ukupnom sumom), moiemo postaviti donju tablicu izraeunavanja hi-kvadrata:

Broj stupnjeva slobode je 1 . 2 = 2. Dobiveni hi-kvadrat je znatno veCi od 5,991, pa zalcljuEujemo da postoji statistitki znatajna razlika u frekvenciji oboljenja izmedu te tri grupe.

No, kao Sto se vidi iz forrnulacije gornjeg zaltljuCka, takua informacija jog nzje douoljn,a, jer treba zna,ti u Cemu se sastoji razlilca: jesu li cijepljeni obolijeva li marlje ili vige od necijepljenih? BuduCi da su veliEine skupina u sva.koj kategoriji dosta razliCite, t,o je interpretaczju rezultata najlakSe provesti ako vrijednosti u tablici pretvorimo u postotke. Pretvaranje u postotke treba obaviti u onom "smjeru" koji ispitujerno: buduCi da nas zarlima da li vise obolijevaju necijepljeni od cijepljenih, pretvorit Cemo naSe frekvencijc u tablici u postotke tako da Ce nam ukupne kate- gorije "necijepljenih", "cijepljcnih prije 11 mjeseci" i "cijepljenih neposredno prije" iznositi 100%. Prenla tome, nova tablica izgledat Ce ovako:

2 899

4 167

2 140

9 206

Necijepljeni

Cijepljeni 11 mjeseci prije epidernije

Cijepljeni neposredno prije epidernije

Oboljeli

402

378

131

911

Nisu oboljeli

2 497

3 789

2 009

8 295

Page 14: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

262 ".z 15. HI-KVADRAT TEST

Cijepljeni 11 mjeseci prije epidemije 1 9,1 1 90,9 / 100

Necijepljeni

Cijepljeni neposredno prije epidemije 1 6, l 1 93,9 1 100 p~~

Sada se iz tablice lijepo vidi da je najma.nji postotak oboljelih medu cijepljenim rieposredno prije epidemije (6,1%), a najveCi medu necijepljenima (13,9%), pa prema tome zalcljuCak iz prethodnog ratuna treba glasiti otprilike ovako: Postoji statistitki znatajria razlika u frekvenciji oboljenja izmedu cijepljenih i necijepljenih, s tim da medu cijepljeriima ima najmanje oboljelih.

Oboljeli

13,9

N a p o m e n a . Ova nam tablica, dakle, govori da postoje statistieki znaEajne razlilte u frekvencijama medu pojedinim grupama. Medutim, hi-kvadrat ne govo- ri niSt,a o tome medu kojim grupa,ina je razlika signifiltantna. U naSem slutaju znatajnost razlike mogla bi se odriositi samo na grupe "neci,jepljenin i "cijepljeni neposredno prije". Ako nas izriCito zanima postoji li statistieki znaCajna razlika izmedu grupe "cijepljeni prije 11 mjeseci" i grupe "cijepljeni neposredno prije", morali bismo izraCunati poseban hi-kvadrat samo za te dvije skupine. (Da smo to izratunali dobili bismo hi-kvadrat veCi od 16, Sto znaEi da bi i t a razlika bila statistieki znatajna, tj. da najman.je oboljevaju oni, koji su cijepljeni neposredno prije epidemije).

U vezi s pretwranjem rezultata tablice u postotke treba posebno naglasiti da se to radi sanlo radi lakSe interpretacije rezultata, a iz te postotne tablice nikako ne smijemo ratunatz hi-kvadrat, nego se on raCuna jedino iz tablice s originalnim frekvencijama.

TreCi przmjer. Uzmimo primjer koji smo spomenuli kod koeficijenta kontingen- cije C (str. 228), tj. postoji li zavisnost izmedu boje otiju sinova i oFeva. Ako rezultate lineserno u tzv. tablicu lcontingencije, i ujedno u svakli Celijli prema veC spomenutom principu (surna reda puta suma stupca podijeljena ukupnom sumom) urlesemo otekivane frekvencije (pod pretpostavkom da nema asocijacije izmedu boje oCiju sinova i otaca), dobivamo ove rezultate (otekivane frekvencije navedene su u zagradama):

Boja otiju oteva

Boja oCiju sinova

Nisu oboljeli

86,l 100

Page 15: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.2. DVA ILI V ISE NEZAVISNIH UZORAK.4

IzraCunavanje:

Broj stupnjeva slobode = (4 - 1 ) . (4 - 1) = 9. Iz tablice se vidi da granicna vri- jednost X%z 9 stupnjeva slobode, a na razini znaEajnosti od 5%, iznosi 16,919. NaS je hi-kvadrat znatno veCi Cak i od granitne vrijednosti X 2 na razini znatajnosti od I%, pa zato odbacujerno hipotezu (tj. da nema asocijacije izmedu boje oEiju sinova i otaca) i postavljamo zakljutalt da su te dvije varijable posve sigurno povezane.

V a i n a n a p o m e n a. Hi kvadrat kod 2 . 2 tablica, kao i formula (15.2), srnije se upotrijebiti uvijek ako je N veCi od 40. Kad je N manji od 40, ali veCi od 20, smijemo raCunati samo ako ni jedna oeekivana frekvencija nije manja od 5. U tab!icama kontingencije, lud je broj stupnjeva slobode veCi od 1, hi-kvadrat test moie se joS raCunati ako manje od 20% Celija imaju otekivanu frekvenciju manju od 5, a ako ni jedna Celija nema otekivanli frekvenciju manju od 1. Ako ta j uvjet nije postignut, moramo neke kategorije (Celije) spajati zajedno da bismo tako poveCali otekivanu frekvenciju. No vet smo kazali da neki statistiCari smatraju da nije rieophodno pridriavati se tih pravila.

Za slueajeve vrlo rnalog N postoji tzv. Fisherov "egzaktni test" (koji ukljutuje dosta opseino raCunanje), no mi Cemo ovdje izloiiti jednu sasvim jednostavnu metodu, i to samo za one sluEajeve kada se radi o dvije gednako velzke skupine.

Uzmimo da imarno dvije skupine od po 15 ispitanika; eksperimentalna skupina primila je jedno sredstvo protiv morske bolesti, a kontrolna skupina primila je "placebo", tj. nedjelotvorne pilule (to je potrebno utiniti zato da bi se iz- jedndfilo eventualno djelovanje sugestije na rezultate). Svi su ispitanici podvrgnuti vestibularnim stresovima vrtnje, i nakon toga 2 ispitanika eksperimentalne skupine poltazala su znakove "morske bolesti", a iz kontrolne skupine 8 ispitanika ih je

Page 16: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15. HI-KVADRAT TEST

pokazalo jednake znakove. Rezultate eksperimenta mogli bismo, dakle, prikazati u tablici ovako:

Imaju simptome Nemaju simptome Eksperimentalna skupina Kontrolna skupina

Moie li se razlika izmedu eksperimentalne i kontrolne skupine smatrati zna- Eajnom?

Tablica I u Dodatku daje odgovor na t o pitanje. Da bi se tablica mogla koristiti, treba naCi najmanju frekvenciju u rezultatima (to je u naSem primjeru frekvencija 2), kao i frekvenciju koja u drugoj grupi njoj korespondira (u naSem primjeru t o je frekvencija 8). U glavi tablice I nalaze se brojevi koji oznaEuju najmanju frekvenciju u rezultatima, a uz lijevi rub tablice nalazi se veliEina jednog od uzoraka (Nl = N2) . RjeSavajuCi naS primjer, treba u glavi tablice naCi broj 2 (naSa najmanja frekvencija), a na lijevom rubu broj 15 (velicina uzorka): u sjeciStu stupca 2 i reda 15 u tablici Eita~no brojeve 9 i 10. To su najmanje frekvencije koje bi morala imati korespondentna Celija, i t o za razine znatajnosti od 5% (9) i 1% (10). BuduCi da naSa korespondentna Celija ima frekvenciju 8, zakljuEujemo da razliku ne moiemo smatrati statistieki znatajnom.

Ali da smo na primjer dobili rezultat:

Imaju simptome Nemaju simptome

Eksperimentalna skupina Kontrolna skupina

prema podacima iz tablice I t a hi razlika bila znatajna na razini od 5% (ali ne i na razini od 1%).

15.3. DVA ZAVISNA UZORKA (McNemarov test)

Ako usporedujemo rezultate jedne te iste grupe "prije" i "poslije", ili us- poredujemo istu grupu u dvije razliEite aktivnosti, onda vjerojatno postoji ko- relaczja izmedu prvih i drugih rezultata.

Primjer. Uzmimo isti primjer ltoji smo upotrijebili pri izraeunavanju znaEajnosti razlike u proporcijama koje su u korelaciji (vidi str. 172): 100 ispitanika ispitani su testom 1 i testorn 2. Dobili smo ove rezultate:

Test 2

Test 1

Nisu zadovoljili Zadovoljili

Zadovoljili

Nisu zadovoljili 25c

Page 17: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.3. DVA ZAVlSNA UZORKA (MCNEMAROV TEST) 265

Postoji li znatajna razlika izmedu rezultata u 1. i 2. testu? Kako se iz tablice vidi, razlike izmedu 1. i 2. testa nalaze se u Celijama A i Dl

dok su u Celijama B i C navedeni samo oni koji su ili uspjeli ili nisu uspjeli u oba testa. Prema tome, A + D predstavlja totalni broj onih kod kojih se ne slaz'e uspjeh prvog i drugog mjerenja.

BuduCi da A + D predstavljaju ukupan broj ispitanika koji su promijenili svoj uspjeh, oEekivali bismo pod nul-hipotezom da bi se 112 (A + D) slutajeva promi- jenilo u jednom, a 112 (A + D) u drugom smjeru. Drugim rijecima, pod nul- hipotezom oCekivane frekvencije u Celiji A iznose 112 (A + D), a jednako toliko u Celiji D. Zanimaju nas samo Celije A i D (jer B i C pokazuju poklapanje), pa su, prema tome, opaiene frekvencije one koje se nalaze u A i Dl a oEekivane su frekvencije: 112 (A + D).

Dakle,

IzvrSimo li potrebne raCunske operacije u gornjoj formuli, dobivamo na kraju:

. (A-D)" X2 =

A + D ' a uz Yatesovu korekciju (ako je (A + D) < 20) konaEna fromula glasi:

X2 = ((A - Dl - 1)2 A + D

U naSem primjeru dobivamo:

Broj stupnjeva slobode (2 . 2 tablica!) = 1. GraniCna vrijednost X2 za 1 stupanj slobode je 3,841, a kako je naS hi-kvadrat veCi, odbacit Cemo nul-hipotezu (tj. da nema razlike u teiini testova) i zakljuEiti da razlika postoji, tj. da je drugi test lakSi.

N a p o m e n a. U ovom se ratunu zapravo radi o testiranju znatajnosti razlike izmedu dviju proporcija pl = (A + B) /N; p2 = ( B + D) /N . dakle jednako kao i u primjeru na strani 172, samo ga sada izraeunavamo drugaeije.

N a p o m e n a. Treba paziti na smisao Celija A i D. To su Celije koje pred- stavljaju one ispitanike koji su se promzjenzli. Ako je tablica formirana druktije treba analogno tome preurediti i forrnule 15.3. do 15.5.

( N a p o m e n a. Ako su otekivane frekvencije u Celijama A i D manje od 5, t a j se ratun ne moie upotrijebiti.)

Valja uotiti da bi primjena standardnog postupka za izratunavanje opekivanih frekvencija , koji inace koristimo kod kontingencijskih tablica hi-kvadrata (suma reda puta suma stupca, podijeljeno s ukupnom sumom) daln potpuno n,elogiEne i neupotrebdjive rezultate. Evo primjera, koji Ce to dokazati: pretpostavimo da u

Page 18: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

266 \ 15. HI-KVADRAT TEST

naSem prijaSnjem primjeru nije dodo ni do kalcvih promjena izmedu prvog i drugog mjerenja, i da je rezultat recinlo bio ovalav:

Test 2

Kako vidimo, od ultupno 100 ispitanika isti ispitanici koji nisu zadovoljili u pr- vom testiran,ju (njih 30), nisu zadovoljili ni u drugom, a takoder istih 70 ispitanika oba je puta zadovoljilo. IzraCunamo li standardnim postupkom oCekivane frekven- cije, dobili bi ove frekvencije: 21, 49, 9, 21. IzraEunati hi-kvadrat (uz Yatesovu ko- rekciju) iznosio bi 95,29, no ta j bi rezultat bio potpuno besmislen, jer n i i ta se nije promijenilo. McNemarov test (ovaj puta bez Yatesove korekture, jer je u brojniku nula) dao bi naprotiv potpuno t,oCan rezultat: hi-kvadrat = 0, tj. nema promjene.

Za neke (rijetke) situaci,je moie McNemarov test ipak biti izriEito nepogo- dan: ako neki postupak, primijenjen na grupu ispitanika, moie kod njih proizvesti suprotne uCinlte (npr. neki ispitanici se od nekog sredstva uzbude, a neki umire, ili palc neki postupak kod jednih ispitarlika dovodi do poveCanja, a kod drugih do snlanjenja agresivnosti), onda se dakako moie dogoditi da ih bude podjednako ili sliran broj u Celijarna A i D, i McNemarov test Ce dati malu vrijednost (Sto bi trebalo znatiti da nije do310 do promjene), a do znatajnih promjena je dodo!

Test 1

15.4. NEKI OSNOVNI UVJETI ZA UPOTREBU HI-KVADRAT TESTA

Kao $to smo vidjeli, hi-kvadrat test je stvarno vrlo jednostavan test, jer je njegova logika jasna, a izraEunava,n,je vrlo jednostavno. No upravo se u tome vjero- jatno i krije opasnost da se njegova jednostavnost precijeni, pa se tako u struEnoj i nauC11oj literaturi najviSe pogreSala u primjeni stlat,istjiEkih postupaka nalazi upravo kod primjene hi-kvadrat testa. Dok se mnogi drugi statistitki postupci dadu Cesto primijeniti dosta rnehanirlci i bez posebnog opreza, kod hi-kvadrat testa uvijek je potrebno dobro proniisliti lcako Cemo rezultate prikazati u tablici.

Prije nego Sto iznesemo ncke osnovne uvjete, koji moraju biti ispunjeni da bi se smio raEunat,i hi-kvadrat test, navest Cemo jednu praktiEnu stranu hi-kvadrata. To je test koji posjeduje tzv. aditivna svojstva, a to znaFi da imamo pravo zbro- jiti nekoliko hi-kvadrata iz istih istra,iivanja, i na znaCajnost dobivenog rezultata zakl.juEivati iz tablice, s tim da, zbrojimo i stupnjeve slobode. Tako je, na primjer, poznato da su svojedobno, u doba ispitivanja cjepiva protiv kolere, izvrSena brojna istraiivanja djelovanja cjepiva. Iz Indije je bilo poznat ,~ 5 izvjeStaja o 5 manjih ispitiva.nja, ltoja., ako se rezultati izraze hi-kvadrat testom, daju ovakvu situaciju:

Zadovoljili

Nisu zadovoljili

Nisu zadovoljili

0 A

30 C

30

Zadovoljili

70 B

0 D

70

70

30

100

Page 19: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.4. NEKI OSNOVNI UVJETI ZA UPOTREBU HI-KVADRAT TESTA

xL Regimenta pokrajine ist. Lancashire 2,04 Britanske trupe u Cowrlporeu 1,83 Britdnske trupe u Dinaporeu 1,60 Gya Jail 5,90 Durbhanga Jail 3,18.

Svi t i rezultati bili su vezani svaki za 1 stupanj slobode. Kako se vidi, samo jedan od njih bio je statistitki znatajan. No, ako sve te rezultate zbrojzmo, dobivamo x2 = 14,55, a iz tablice ustanovljujenio da je uz 5 stupnjeva slobode ta j rezultat statistitki znatajan (P < 0,05).

Pri takvim sitliacijama zbrajanja rezultata hi-kvadrata treba paziti da se zbroje svi raspoloiivi rrzultati (a ne samo pozitivni!). Osim toga, potpuno je razurnljivo d a smijemo zbrajati samo one hi-kvadrate koji svi pokazuju devijaciju u "istom smjeru". BuduCi da je "smjer" devijacije kod hi-kvadrata vidljiv samo iz inspekczje tahlzce (a ne iz samog broja, jer je broj uvijek pozitivan!), pri tom poslu treba biti vrlo oprezarl.

Evo na ltraju saietih glavnih uvjeta, koji moraju biti ispunjeni da bi se smio raeunati hi-ltvadrat test:

1. hz-kuadrat test m o i e se ratunatz samo s frekvenczjama. Prema tome, u delije hi-ltvadrat testa ne smijemo unositi aritmetitke sredine, kao ni postotk~, ni proporcije. Ako 11 Celije unesemo postotke, sveli smo na ta j naEin N svake glupe na 100, Sto, naravno, nije dopuSteno.

2. Suma otekrvanzh frekvenczja mora bztz jednalca sumz opaienzh frekvencya. Toleriraju se rninimalne razlike u vezi sa zaolcruiivanjem decimalnih brojeva.

3. Kad god u hi-ltvadrat testu ratlimo s nekim svojstvom koje se pojavzlo ili se nzje pojavilo, treba u raeurlu staviti i frrkvencije u kojima se to svojstvo nije pojavilo. Ako to ne uCinimo, moie nanl se u neltim sluFajevirna dogoditi da suma opaieriih frekvencija ne odgovara sumi otekivanih frekvencija.

I kad suma orekivanih frekvencija potpuno odgovara sumi opaienih frekvencija, treba se pridriavati pravila da u ratunu navedemo i frekvencije u kojima se svojstvo nije pojavilo.

Pr~n i j e r . Zanima nas postoje li razlilte u frekvenciji ozljedivanja medu radnicima razlitite starosti, i izvrSirno registraciju nesreka u jednom poduzetu te dobijemo ove rezultate:

Starost radnika 20-29 god. 30-49 god. 50 i vise god. Broj radnika 200 500 300 Broj radnika sa dvije ili vise nesreCa 70 100 30

Alto nema razlilte u frekvenciji ozljedivanja medu radnicima razliFite starosne dobi (nul-hipoteza), moiemo uzeti sve radnike zajedno, pa tako dobivamo da je od ukupno 1000 radnila njih 200 imalo nesrrte. To iznosi 20%, pa bismo stoga morali otekivati jednak postotak u svim dobnim skupinama; to su ove otekivane frekven- cije: 40, 100, 60. Kako se vidi, suma otekivanih frekvencija iznosi 200, jednako

Page 20: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

268 4, 15. HI-KVADRAT TEST

kao i suma opaHenih frekvencija. Medutim, izratunamo li samo iz tih rezultata hi-kvadrat, dobit Cemo X 2 = 37,5. Naprotiv, unesemo li u tablicu hi-kvadrata i frekvencije radnika bez nesreCa (tj. s manje od dvije nesreCe), hi-kvadrat Ce iznositi 46,9. U granitnim slucajevima, tj. kada je hi-kvadrat upravo u blizini granitne vrijednosti prema tablici, upotreba ispravnog postupka moie imati odluEujuCe znatrnje za krajnji rezultat.

JoS hi, naravno, t e ia pogreSka bila da se uopCe ne osvrCemo na stvarni broj slutajeva u svakoj kategoriji, nego da otekivane frekvencije izratunamo samo na temelju prosjeka opaienih frekvencija. Ako su opaiene frekvencije: 70, 100, 30 (ultupno 200), onda bi otekivane frekvencije trebale biti 20013 = 66,7, 66,7, 66,7. I takvi su sluCajevi mogu katkada u praltsi naCi, ali to vet prestavlja potpuno nerazumijevanje hi-kvadrat postupka.

4. Frekuencije u pojedinim Celijama moraju biti u t o m smislu nezavisne da svaka frekvencija u pojedinoj Celiji rnora pripadati drugom individuumu. Na prim- jer, ne smijerno u tablicu unositi nekoliko odgovora jednog ispitanika; takoder se N ne smije poveCati tako da se na svakom ispitaniku uEini nekoliko pokusa pa se svalti pokus unese u tablicu.

5 . Nijedna otekivana frekvencija ne smije biti odueC mala. U tom se treba pridriavati ovih pravila:

a) Ka,d imamo vise od dvije Celije, ako je vise od 20% oeekivanih frekven- cija manje od 5, treba spajati susjedne Celije. Kad radimo samo s dvije Celije, ne smije ni jedna otekivana frekvencija biti manja od 5.

b) Kod 2.2 tablica hi-kvadrat smije se upotrijebiti uvijek ako je N vedi od 40. Alto je N manji od 40, ali veCi od 20, ne smije ni jedna oeekivana frekvencija biti manja od 5.

c) U tablicama kontingencije kad je broj stupnjeva slobode veCi od 1, hi-kvadrat se smije ratunati ako manje od 20% Celija ima oeekivanu frekvenciju manju od 5, a ni jedna Celija manju od 1. Ako to nije postignuto, treba spajati Celije u ltojima su oCekivane frekvencije odveC malene. (Naravno da raditi takvo spajanje ima smisla samo onda ako se time ne upropasti svrha saniog ispitivanja, tj. ako fenomen koji ispitu- jemo, ostaje i dalje vidljiv.)

V a i n a n a p o m e n a: U novije vrijeme pojavile su se medutim rasprave koje dokazuju da nije naroEito uazno pridriavati se pravila 5.

6 . Kada postoji samo 1 stupanj slobode, potrebno je provesti korekciju za kon- t inui tet (Yat,esova ltorekcija). Ako su razlike izmedu opaienih i oEekivanih frcltr~encija vrlo male, tako da primjenom Yatesove korekcije dobijemo razliku koja je numeriEki ueCa (bez obzira na predznak), onda upotreba te korekcije nema oprauda~tja! No i ovdje valja primijetiti da t a korekcija ima smisla samo kod malih frekvencija u Celijama, jer Ce kod velikih frekvencija s korekcijom doCi sa,mo do nlalih razlika u zavrSnom rezultatu.

Page 21: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.5. JOS 0 HI-KVADRAT TESTU 269

15.5. JOS 0 HI-KVADRAT TESTU

Na kraju rasprave o hi-kvadrat testu dodajemo joS tri riapomene, od kojih smo prvu spomenuli veC nd poEetltu ovog poglavlja, druga je manje poznata, ali je vrlo zanirnljiva, a treCa je posebiio vaina za one koji nedovolpzo razrnzSZpju prilikom koristenja toga testa.

1. Prva se riapoineria odnosi na spomenuto svojstvo hi-kvadrat testa da uz njegovu pomob moiemo ustanoviti i vjerojatnost povezanosti izmedu dvije varijable (ne dalcle ~~?sznu povezanosti koju narn daje koeficijerit korelacije).

BuduCi dd u tom pogledu 1tadSto vlada kod poCetnika odredena konfuzija, raz- jasnit Cemo na jednom jednostavnom prinijeru o Cemu se zapravo radi.

Uz~nimo da nas zanima razlikuju li se muskarci od iena u svom stavu prema boksaElcim borbdnia i da anketom dobijenlo podatke da od 200 ankctiranih iena samo rijih 50 izjavljuje da odobrava boksaFka natjecanja. a od 300 anketiranih muSkaraca njih 200 izjasnilo se u pr ilog boksu. U donjoj tablici prikazani su dobiveni rezultati:

Stav

za proti-

Spol 2ene m-1 ::: muSkarci

250 250 500

IznaCuriarno li na osnovi tih podatala hi-kvadrat,, dobit Cemo da on iznosi 83,4, i prema tome visoko je statistiCki znatajan, pa smo, dakle, dokazali da se muSkarci od iena statistieki znatajrio razlikuju u stavu prema tom pitanju, tj. da muSkarci imaju znatno povol.jniji stav prema boksu. No istotlobno mi smo time dokazali i postojas~je pouezanosti izmedu vcirzjuble "stav prema boksaCkim natjecanjima" i var- ijable "spol". Drugim rijetima, riije svejedno anketiramo li o tom pitanju muS1arce ili iene, a ako nije svejedno, onda znaCi da postoji korelaczja izmedu sta,va. i spola! To, nara,vno, ne ,moru znatzti da je korelacija visoka, vet samo to da ona postoji i da je statistitlti znatajna. A kolika je aproksimativno Cemo ustanoviti ako uz pomoC hi-kvadrat,a izraCuna,m Crumerou Fz koeficijent (formula 13.28):

(Kao Sto se moie lako ustanoviti, jednak rezultat dobili bismo da smo raCunali i kritizirani koeficijent kontingencije C . Razlog tome je Cinjenica da kod 2 . 2 kontin- gencijskih tablica nema razlike izrnedu C i Cramerova Fi.).

( N a p o m e n a. Hi kvadrat ima za ltorelaciju otprilike ono isto znatenje Sto ga ima i testiranje znaCajnosti korelacije: ako je hi-kvadrat znaCajan, i korelacija - bila ona niska ili visola. - statistiEki je znaCajna.)

2. Druga napomena o hi-ltvadrat testu pripada medu rijetko poznate, a radi se o mulzm vrijednostima hi-kvaclrata. Evo u Eemu se t a napomena sastoji:

Page 22: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15. HI-KVADRAT TEST

Iz t-testa nauCeni smo da neku razliku smatramo statistiEki znaEajnom ako je dobiveni t veCi od grarlitne t-vrijednosti u tablici. Jednako p o ~ t ~ ~ i p a m o i kod hi- kvadrat testa, tj. smatramo da je razlika izmedu opaicnih i teoretskih frekvencija statistitki znaEajna ako je dobiveni hi-kvadrat veCi od granitne vrijednosti u tablici hi-kvadrata, uz odredeni broj stup~ljeva slobode. U tumaEenju logike hi-kvadrat testa na strani 250, zato smo i rekli: " s t0 je hi-kvadrat manji (bliii nuli), to je v.jerojatnije da treba prihvatiti postavljenu hipotezu ...". hledutim, malo pailjiviji uvid u distribuciju uzoraka hi-kvadrata (vidi slikli 15.1) pokazat Ce da to ne mora biti doslovno tako.

Uzmimo primjer s bacanjem igraCe kocke. Ako je kocka ispravna, vjerojatnost po,ja~l.jivarlja svakog ishoda je jednalta i iznosi P = 116. Pretpostavimo da u jednom izvjegtaju iz jedne igraCnice Citamo da je izvrzeno testiranje igraCe kocke tako da je k o c h batena Sesto put,a, te je zabiljeieno koliko je puta dobiven rezultat 1, koliko puta 2, 3, 4, itd., te je nakon toga izratunat hi-kvadrat test,. Uzmimo da objavljeni rezultati izgledaju ovako:

Ishod

1

Izratuna,mo li na temelju tih podataka hi-kvadrat, dobiwmo X' = 0,12. BuduCi da je granitria vrijeclnost hi-kvadrata uz 5 stupnjeva slobode 11,070, u prvi mah bez ikakve sumnje prihvac'arno nul-hipotezu, tj. zakljutujemo da ,je kocka potpuno ispravna, jer se rezultati t,ek minimalno razlikuju od oCekivanih frekvencija.

No je li to zaista talco'? Pogledajmo distribuciju uzoraka hi-kvadrata uz 5 stup- rijeva slobode na slici 15.1. Tu moiemo vid.jeti da bi se - i kod najispravnije kocke - hi-kvadrati distribuirali tako da im se dominantna urijednost kreCe negdje oko 4, a vrijednosti koje od dominaritne zriaCajno odstupaju rijetke su na obje strane krivulje. Drugim rijetima, iz krivul*je jasno vidimo da u ovom slutaju i izritito mel i I-ii-kvadrat ne moiemo smatrati sigurno slutajnim, jer bi se on slutajno mogao pojaviti sarno izvanredrio rijetko. Vjerojatnost slutajnog pojavljivanja hi-ltvadrata veCe.9 od 15,086 je jednaka (P = 0,Ol) kao i vjerojatnost sluEajnog pojavljivanja, hi-kvadrata m,anjey od 0,554 ( P = 0,99, Sto znati da je vjerojatnost 99% da Ce slueajni hi-kvadrat biti veCi od 0,554).

Daltle, u t-testu - Sto je t manji, to smo sigurniji da nema razlike izmedu dvije populacije; a ltod hi-ltvadrat testa i suviSe m,ali hi-kvadrat moiemo smatrat,i da nije sluEajno nastao!

to u ovom sluEaju treba zakljuCiti? Samo jedno: rezultati izvjeStaja vrlo su jerojatno izmiSljeni (jer su "predobri" da bi rnogli biti i~tinit~i!), a izmislio ih

Ukupno

f o 98

ft. b

100

600 600

Page 23: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.5. JOS I) HI-KVADRAT TESTU 271

je netlco tko zna ratunati hi-kvadrat i poznaje njegovu osnovnu logiku, ali ga ne razurnije doleraja.

Neka usputno bude spomenuto i to da su naknadna provjeravanja eksperimenata osnivata genetilee Gregora Mendela (prvi je te podatke provjeravao R. A. Fisher, jedan od najveCili statistitara do sada) pokazala (la se stvarno dobivene frekvencije nekih nasljednih karakteristika u njegovim pokusinla toliko dobro slaiu s teoret,ski otekivanim frekvencijama Mendelovih zakona da su svi hi-kvadrat,i (koje Mendel, naravno, u ono vrijeme nije znao raCunati) "previSe visoki da hi izgledali istiniti"! StruCnjaci danas na razlitite naEine tumate tu pojavu (jer Mendelovi zakoni su toEni i riit,lco u njih ne sumnja), pa se izmedu ostaloga spominje i mogutnost da su njegovi mladi suradnici, ieleCi mu ugoditi, poneSto "frizirali" rezultate eksperime- nata kako bi se oni joS bolje slagali s otekivanim frekvencijama. No, bilo kako bilo, Mendelovo otkriCe - kako kaiu Hodges, Krech i Crutchfield - koje mriogi smatraju jednim od najveCih trijumfa ljudslcog uma, bilo je dovoljno snaino da odoli Cak i kritici "odvet dobrih rezultata".

N a p o m e n a. Spo~nenutu moguCnost oCitavanja hi-kvadrat distribucije i s lzjeuog kraja (tj. za one hi-kvadrat vrijednosti koje su "suviSe male da bi iz- gledale istinite") ne treba niijeSati s "jednosmjernim" ili "dvosmjernim" testiranjem znaCajnosti ra,zlike kod t-testa!"Dvosmnjcrnon testiranje - kao Sto smo rekli - znaEi testirati je li neka razlika - bez obzira n,a smjer te razlz'ke - statistitki znaCajna ili nije. Drligirn ri,jeCirna, ako nademo da je npr. grupa djece A viSa od grupe djece B, onda dvosrn.jernim test,irari,jem znatajnosti razlilte mi samo odgovaramo na pitanje je li mogude da se razlila, koju snio medu uzorcima dobili, dogodila slutajno ili ne. Pri tome je potpuno svejedno je li t a razlika, u korist grupe A ili grupe B, jer zanima nas samo velitina razlilce, bez obzira ria predznak, tj. na njezin smjer. (A ako nas opravdano za,nima sanio jedan srnjer razlike, onda - eventualno - moiemo koris- titi samo jednu qtranu normalne odnosno t-distribucije, i provesti "jednosmjerno" testiranje.)

Granicne vrijednosti hi-kvadrat distribucije, koje se nalaze u hi-kva,drat t,ablici, makar se odnose na "desnu stranu" hi-kvadrat distribucije, jesu vrijednosti dvosm- jernog testiranja, jer pomodu njih testiramo znaCajnost razlike bez ohziru nu njezin sn~jcr! (Kao Sto znamo, prilikom raEunanja hi-kvadrata smjer razlike u raCunu nema nikdkvu ulogu, jer se razlike izmedu opaienih i oEekivanih frelcvencija kvadriraju!)

Prema tome, upozorerije da i suviSe mali hi-kvadrat moie biti sumnjiv (tj. da moida nije nast,ao potpuno slutajno), i da se to moie provjeriti s lzjeve strane krivulje distribucije hi-lcvadrata - problem je sasvim druge vrste od problema "jednosmnjernog" ili "dvosmjernog" testiranja znaCajnosti razlike.

3. Isltustvo pokazuje, da pojedini korisnici hi-ltvadrat testa katkada nedovoljno razrniSl.jaju o torne, ito ih zapravo zaninla u njihovu istraz'ivanju. To Cemo najbolje objasniti jednim primjerom, koji se katkada dogada.

Recimo da je neki istraiivaC sakupio podatke o broju samoubojstava u toku svih 12 mjeseci nelce godine u jedriom velikom gradu, i da ga zanima postoje li razlike izmedu muskaraca i icna u sniislu frekvencije samoubojstava, tj. da li muSkarci ili iene Cine veSe samoubojstava. Pretpostavimo da je dobio ove rezultate:

Page 24: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

272 \ 15. HI-KVADRAT TEST

SijeC. Velj. Oi . Trav. Svib. Lip. Srp. Kol. Ruj. List. Stud. Pros. Ukupno MuSk. 5 7 8 4 12 10 12 9 10 6 10 9 102 ~ e n c 4 7 10 8 7 10 9 8 4 5 8 12 92

Ako on sada na sue te rezultate primijeni pravila izratunava,nja oEekivanih frekvencija (tj. utirli i sume stupaca, pa rrinoZi sume reda sa sumom stupca i di- jeli ultupnom sumorn), on je zapravo ratunao razlikuju li se muSkarci od iena po broju samoubojstava u toku pojedinih rmjeseci, a nije dobio odgovor na svoje pi- tanje da li muSkarci ili iene imaju vise samoubojstava. Alio je to problem, koji on ieli rijeSiti uz pomoC hi-kvadrat test,a, onda ga uopCe ne zani~na stanje samoubo- jstava po mjesecima, vet jedino ukupni broj sarnoubojstava kod iena i muSkaraca u toku godine dana. Bududi da u poplilaciji postoji uglavnom jednaki broj iena i muSliaraca, on bi mogao postaviti jednostavnu tablieti:

f o ft MuSkarci 102 97 ~ e n e 84 97

pa sada upotrijebiti hi-kvadrat. * Kao Sto vidimo, glavna opasnost od hi-kvadrat testa je u torne Sto se on

lagano izr(~Euna.ua, ali treba prethodno dobro promisliti Sto nus zapravo zanima, pa tek tada iCi na izratunavanje teoretskih (oteltivanih) frekvencija, jer one ovise o hipotezi, koju smo postavili.

ZADACI ZA VJEZBU

1. Jedan je nastavnik tvrdio da medu njegovih 50 studenata tridesetorica moraju pasti, da s11 15 prosjetni, a 5 vrlo dobri. Odstupa li takva raspod,jela statistitlti znatajno od orioga Sto bismo mogli otekivati pod vitlom normalne raspodjelr, tj. da je 50% uCeriika u srednjoj kategoriji?

2. ~ e t v o r i c a na,stavnika istog predrneta irnali su ovaj rezultat ispita na kraju godine:

A B C D Broj"palihnuEenika 8 5 4 7 Broj"proSlihn utenika 48 40 35 43.

Ra.zliltuje Ii se proporcija proSlih (ili palih) utenika kod ove Eetvorice nastavnika?

3. Na jednom tr ta ju statistilie, na kojem je bilo 40 muSkaraca i 30 iena, na zavrSnom ispitju postignuti su ovi rezultati:

I nedovoljan ( dovoljan i dobar I v. dobar i odliFan I

Je li razlika izmedu muSkaraca i iena statistitki znaEajna?

MuSkarci

~ e n e

8

5

24

16

8

9

Page 25: Hi-kvadrat test - zaf.biol.pmf.unizg.hrzaf.biol.pmf.unizg.hr/behaviour/Hi kvadrat test.pdf · vrijednost hi-kvadrata (na razini znaEajnosti od 5%) ... jog prikazane i distribucije

15.5. JOS 0 HI-KVADRAT TESTU

4. Jedan je sociolog ispitivao postoje li razlike u vrsti kriminalnih Eina izmedu 3 grada i dobio je ove rezultate:

Krada Krade i Silovanje automob. diepar. Ostalo

Grad A 76 112 87 102 Grad B 64 184 77 98 Grad C 39 131 48 82

Postoji li statisticki znaEajna razlika medu gradovima?

5. U jednoj zemlji anketirano je nekoliko desetaka pripadnika razliEitih politiEkih stranka pitanjem: odobravaju li smrtnu kaznu. Rezultati su prikazani u donoj tablici:

Republikanci Demokrati Nezavisni

a . Je li razlika medu grupama statisticki znaEajna?

b. PoveCajte sve brojeve deset puta, izraEunajte hi-kvadrat test te prokomentirajte rezultat.

6. U toku 8-godiSnjeg razdoblja 17 952 ameritka pilota imala su distribu- ciju nesreCa u sluibi kao Sto je prikazano dolje:

8

Broj nesreCa Broj pilota

0 12 475 1 4 117 2 1016 3 269 4 53 5 14 6 6 7 2

17 952

J e li t a distribucija nesreCa sluEajna (Poissonova) distribucija?