62
PEDAGOŠKA STATISTIKA Skripta doc.dr.sc. Andreja Bubić Filozofski fakultet Sveučilište u Splitu ak.god. 2012/2013

statistika_skripta2012

Embed Size (px)

Citation preview

Page 1: statistika_skripta2012

PEDAGOŠKA STATISTIKA

Skripta

doc.dr.sc. Andreja Bubić

Filozofski fakultet

Sveučilište u Splitu

ak.god. 2012/2013

Page 2: statistika_skripta2012

Sadržaj

SADRŽAJ

KLJUČNI SIMBOLI

KLJUČNE FORMULE

1. OSNOVNI POJMOVI U STATISTICI

1.1. Skale mjerenja

1.2. Uzorkovanje

2. DESKRIPTIVNA STATISTIKA

2.1. Organizacija prikupljenih podataka i prikazivanje rezultata

2.1.1. Grupiranje rezultata u razrede

2.1.2. Tablično i grafičko prikazivanje rezultata

2.2. Mjere središnjih vrijednosti

2.2.1. Aritmetička sredina

2.2.2. Centralna vrijednost

2.2.3. Ostale mjere središnjih vrijednosti

2.3. Mjere raspršenja rezultata

2.3.1. Raspon rezultata

2.3.2. Varijanca

2.3.3. Standardna devijacija

2.3.4. Koeficijent varijabilnosti

2.3.5. Ostale mjere raspršenja

2.4. Distribucije rezultata

2.4.1. Normalna distribucija

2.5. Položaj rezultata u skupini

2.5.1. z-vrijednosti

2.5.2. Centili i decili

3. INFERENCIJALNA STATISTIKA

3.1. Pogreške mjerenja

3.2. Procjena parametara

3.3. Testiranje hipoteza

4. OSNOVNI STATISTIČKI POSTUPCI I ANALIZE

4.1. Odabir prikladne statističke analize

4.2. t-test

4.3. Korelacija

4.4. hi-kvadrat test

5. ZADACI ZA VJEŽBANJE

6. PREPORUČENA LITERATURA

PRILOG: STATISTIČKE TABLICE

Page 3: statistika_skripta2012

Ključni simboli

1

KLJUČNI SIMBOLI

Općenito

- suma (zbroj) svih rezultata

x - simbol za apsolutnu vrijednost od x (npr. 1 =1 ili 1 =1 )

Nx - Simbol (x) koji se nalazi uz glavni (N) označava podskup na koji se glavni simbol odnosi

x – simbol za svaki pojedinačni rezultat / podatak

N – ukupan broj podataka / izmjerenih vrijednosti

n – broj podataka / izmjerenih vrijednosti u nekom podskupu ili uzorku

Grupiranje i organizacija rezultata

f – frekvencija rezultata (u razredu); ima isto značenje kao i „n“

rf – relativna frekvencija

kf – kumulativna frekvencija

rkf – relativna kumulativna frekvencija

i - interval razreda kod grupiranja rezultata

TR – totalni raspon rezultata

Rx – položaj neke vrijednosti u skupu podataka (najčešće se koristi Rc za položaj centralne vrijednosti)

Središnje vrijednosti

X - aritmetička sredina

• Za označavanje aritmetičke sredine često se koristi i „M“ (eng. „mean“ – aritmetička sredina);

aritmetička sredina razreda može se označiti i kao „m“

• Ukoliko se radi o aritmetičkoj sredini populacije najčešće se koristi simbol „μ“

C – centralna vrijednost / medijan

D – dominantna vrijednost / mod

G – geometrijska sredina

H – harmonična sredina

Mjere raspršenja

s (sd) - standardna devijacija

s2 (sd

2) – varijanca

• Ukoliko se radi o populacijskoj vrijednosti (standardnoj devijaciji i varijanci populacije) onda

se najčešće koriste simboli „σ“ i „σ2“

V – koeficijent varijabilnosti

Q – poluinterkvartilno raspršenje / interkvartilni raspon

Položaj rezultata u grupi

z – z-vrijednost

Page 4: statistika_skripta2012

Ključni simboli

2

Testiranje hipoteza

Xs - pogreška aritmetičke sredine

ps - pogreška proporcije

t – vrijednost t-testa

- razlika između 2 uzorka

r - Pearsonov koeficijent korelacije

df (ili ss)– stupnjevi slobode (eng. degrees of freedom)

p – vjerojatnost slučajne pojave neke vrijednosti

Kod kategorijalnih varijabli:

2 - hi-kvadrat test

k – broj kategorija unutar jedne varijable (npr. spol: k=2 (muški i ženski))

p – proporcija podataka jedne kategorije; q – proporcija podataka druge kategorije (q=1-p)

fo - opažene frekvencije

ft - teoretske frekvencije

Osim ovih, u statistici se koristi i mnoštvo drugih mjera i simbola koje možete pronaći u statističkoj literaturi (neke

preporuke za daljnje čitanje navedene su i u ovoj skripti).

Page 5: statistika_skripta2012

Ključne formule

3

KLJUČNE FORMULE

Deskriptivna statistika

Aritmetička sredina

N

xX

Položaj centralne vrijednosti 5,0

2

NRc

Raspon Raspon = xmax – xmin

Standardna devijacija N

Xxs

2)(

(populacija)

1

)( 2

N

Xxs

(uzorak)

Varijanca

N

Xxs

2

2)(

(populacija)

1

)( 2

2

N

Xxs

(uzorak)

Koeficijent varijabilnosti 100X

sV

Položaj rezultata u skupini

z-vrijednost

s

Xxz

decil 10xN

rangd

centil 100xN

rangc

Page 6: statistika_skripta2012

Ključne formule

4

Procjena parametara

Pogreška aritmetičke sredine N

ss

X

Procjena aritmetičke sredine populacije

X 2.58 X

s (uz 99% sigurnosti)

X 1.96X

s (uz 95% sigurnosti)

Pogreška proporcije N

pxqs p

Procjena proporcije u populaciji

p 2.58 ps (uz 99% sigurnosti)

p 1.96ps (uz 95% sigurnosti)

Testovi

t-test: osnovna formula

st

t-test za velike (N 30) nezavisne uzorke

22

21

21 Xss

XXt

X

;

df=(N1-1) + (N2-1)

t-test za velike (N 30) zavisne uzorke 2121

222

21

XXX

srsss

XXt

X

;

df=N-1

hi-kvadrat test

t

to

f

ff 22 )(

;

df=k-1 ili df=(k1 -1) (k2-1)

Legenda: Vidi „Ključni simboli“

Page 7: statistika_skripta2012

Osnovni pojmovi u statistici

5

1. OSNOVNI POJMOVI U STATISTICI

Statistika je znanstvena disciplina (grana primijenjene matematike) koja se bavi

prikupljanjem, obradom, interpretacijom i prezentacijom podataka, a ima primjenu u gotovo

svim znanostima. Iako statistiku primijenjenu u različitim znanostima ne treba nužno

označavati posebnim imenima, ponekad se može susresti i takva praksa (npr. njezina

primjena u pedagoškim i ostalim obrazovnim znanostima ponekad se naziva pedagoška

statistika).

Prednosti korištenja statistike uključuju veću preciznost u opisivanju pojava;

sređivanje podataka u smislenom i pogodnom obliku; uočavanje zakonitosti;

prognozu mogućeg kretanja neke pojave i pronalaženje uzročno-posljedičnih veza.

Nedostaci korištenja statistike uključuju povremenu nemogućnost kvantifikacije svih

pojava koje nas zanimaju; rad s nepreciznim pokazateljima (npr. brojčane ocjene);

nesavjesne pojedince; neispravne interpretacije ispravnih rezultata te precjenjivanje /

pretjeranu generalizaciju dobivenih zaključaka. Zbog ovih nedostataka treba naglasiti

kako je uvijek važno provjeravati i nadograđivati znanja dobivena provedbom

istraživanja i primjenom statističkih postupaka.

Statističke metode se koriste u dvije osnovne svrhe: (1) kako bi se opisala i analizirala

mjerena pojava na razini prikupljenih podataka čime se bavi deskriptivna statistika te (2)

kako bi se na temelju podataka dobivenih mjerenjem na uzorku generaliziralo, odnosno

zaključivalo o stanju u široj populaciji što omogućuju metode inferencijalne statistike.

Stoga, prvi koraci statističke obrade uključuju deskriptivne analize kojima je cilj opisati

izmjereni skup podataka navođenjem frekvencija, mjera središnjih vrijednosti (vrijednosti koje

reprezentiraju taj skup) i pripadajućeg raspršenja (mjere koja nam pokazuje koliko središnja

vrijednost dobro reprezentira spomenuti skup), te ga grafički ili tablično prikazati. Nakon toga

možemo se u daljnjim analizama koristiti brojnim postupcima inferencijalne statistike koje

međusobno razlikujemo s obzirom na vrstu modela koje koriste (parametrijske ili

neparametrijske metode), broj varijabli koje uzimaju u obzir (univarijantne, bivarijantne ili

multivarijantne tehnike) te osobine uzorka i izmjerenih podataka. Na kraju treba naglasiti da

odabir prikladne statističke metode u istraživanju prvenstveno ovisi o istraživačkom pitanju

na koje želimo odgovoriti.

Prije nego što se detaljnije usmjerimo na statistiku, potrebno je vrlo kratko navesti i

osnovne metodološke pojmove koje ćemo koristiti u ovoj skripti. Savjetujemo vam da o

metodologiji provođenja znanstvenih istraživanja više naučite iz preporučene literature jer se

radi o znanjima koja trebate savladati prije početka planiranja i provođenja istraživanja.

Page 8: statistika_skripta2012

Osnovni pojmovi u statistici

6

Osnovni pojam u statistici je varijabla koja se odnosi na bilo koji proces ili pojavu koji

možemo opažati i mjeriti unutar istraživanja. Varijabla je osobina koja može poprimiti različite

vrijednosti (za razliku od konstante koja uvijek ima jednaku vrijednost), pa ovaj pojam

koristimo za skup podataka iste vrste, npr. spol, dob ili zadovoljstvo životom. U

(eksperimentalnim) istraživanjima razlikujemo dvije vrste varijabli, nezavisne i zavisne.

Nezavisna varijabla je ona varijabla koju manipuliramo i čiji nas utjecaj na mjerenu pojavu

zanima. Za razliku od toga, zavisna varijabla je varijabla čije promjene pratimo, odnosno

varijabla koju mjerimo. U istraživanjima nas često zanima utjecaj nezavisne na zavisnu

varijablu: npr. ako istraživanjem želimo ispitati kako najavljivanje testova utječe na uspjeh

učenika, onda nam način najave testa predstavlja nezavisnu, a uspjeh na testu učenika

zavisnu varijablu. Svaki od učenika koji sudjeluju u našem istraživanju pritom predstavlja

jednog ispitanika ili sudionika istraživanja. Tijekom ovakvo osmišljenog istraživanja za

svakog od naših ispitanika prikupit ćemo po jedan rezultat na nezavisnoj (način na koji je

najavljen test), te jedan na zavisnoj varijabli (ocjenu ili bodove na testu).

Dakako, u istraživanjima je moguće mjeriti i više od jedne zavisne i nezavisne

varijable. Na primjer, uz spomenute podatke, o svakom učeniku možemo prikupiti i druge

informacije (npr. zabilježiti njihov spol, dob, razred i slično) koje onda predstavljaju dodatne

varijable u istraživanju.

Prilikom mjerenja ciljanih varijabli na nekom uzorku uvijek se izlažemo određenim

pogreškama o kojima će kasnije biti više riječi. Statističke metode nam pomažu nositi se s

ovim pogreškama, i to onima koje nisu posljedica sustavnih pristranosti. Naime, u

istraživanjima uvijek polazimo od pretpostavke da svaki mjereni rezultat predstavlja

(jednostavnu linearnu) kombinaciju konstantnih faktora ili pravih rezultata mjerenja

(vrijednost koja nas zanima) i slučajnih varijacija, takozvanih nesistematski varijabilnih

faktora (neki od njih povećavaju, a neki smanjuju mjerene vrijednosti; njihov ukupni zbroj je

0). Na primjer, ako u skupini učenika mjerimo vrijeme potrebno za rješavanje zadatka, osim

prave vrijednosti mjerenja (stvarno vrijeme potrebno za rješavanje) na dobivene rezultate

mogu djelovati i neki slučajni faktori (npr. kod nekih učenika neočekivana buka može

produžiti rješavanje, dok neki učenici mogu načuti točno rješenje i stoga neopravdano imati

kraći izmjereni rezultat).

Rezultati unutar svake ispitane varijable mogu biti izmjereni na različitim skalama ili

ljestvicama, o čemu ćemo detaljnije nešto reći u sljedećem dijelu. Nakon toga kratko ćemo

se osvrnuti i na načine odabira učenika koji sudjeluju u našem istraživanju, odnosno

uzorkovanje.

Page 9: statistika_skripta2012

Osnovni pojmovi u statistici

7

1.1. SKALE MJERENJA

Nominalnu skalu mjerenja pronalazimo kod varijabli koje su kategorijalne ili kvalitativne,

odnosno onih varijabli kod kojih ispitanike možemo razlikovati prema nekoliko kategorija

među kojima ne postoji nikakav prirodni slijed (nema kriterija prema kojemu bi se vrijednosti

mogle odrediti kao “veće od” ili „manje od“ drugih). Stoga nominalna skala ne predstavlja

pravu skalu mjerenja, već imenovanje nominalnih obilježja varijable. Na primjer, završena

srednja škola predstavlja kategorijalnu varijablu koju možemo kodirati na sljedeći način: 1-

gimnazija, 2 - stručna škola, 3 - tehnička škola i 4 - umjetnička ili sportska škola

Kao što je vidljivo u primjeru, pripadnost različitim kategorijama ove varijable vezuje

se uz određenu brojčanu vrijednost, ali ona je potpuno proizvoljno određena. S obzirom na

broj kategorija koje se unutar varijable mogu odrediti, razlikujemo binarne (dihotomne)

varijable koje imaju samo dvije, te multikategorijalne varijable koje imaju više kategorija.

S obzirom na osobitosti nominalnih skala, u analizi rezultata na tim skalama

dozvoljeno je koristiti samo ograničeni broj statističkih analiza i postupaka: dominantnu

vrijednost (ne i aritmetičku sredinu), proporcije, hi-kvadrat test i neke druge vrste analiza koje

se temelje na frekvencijama.

Kod ordinalnih (rangovnih ili ljestvičnih) skala mjerena varijabla ima vrijednosti koje se

nižu prema određenom redoslijedu koji reflektira izraženost mjerenog svojstva. Međutim,

ovdje redoslijed vrijednosti reflektira relativne razlike mjerenja (poredak) bez točnog stupnja

tih razlika. Primjer ordinalne skale je završni poredak sportaša na natjecanjima – pobjednik

koji dobije zlatnu medalju ima najbolji rezultat na natjecanju; onaj koja dobije srebrnu medalju

je drugi, a brončanu treći po uspjehu. Međutim, rang predstavlja relativno grubo određenje

položaja jer nam ne govori ništa o pravom rezultatu pojedinca – stoga ne možemo tvrditi da

je sportaš sa srebrnom medaljom bolji od onoga s brončanom jednako onoliko koliko je

pobjednik natjecanja bolji od njega.

S obzirom na karakteristike ordinalnih skala, u obradi podataka na ovim skalama se

najčešće koristi centralna vrijednost, rang korelacija i drugi postupci koji se temelje na

rangovima, te neki oblici neparametrijskih metoda za testiranje hipoteza.

Metričke ili kvantitativne skale vezuju se uz varijable kojima možemo pridružiti realne

brojeve i na njima koristiti matematičke operacije. Njihove vrijednosti mogu biti

diskontinuirane (diskretne ili međusobno razdvojene) ili kontinuirane. Diskontinuirane

varijable su one koje mogu poprimiti konačan broj svojstava; one se zapisuju isključivo

cjelobrojno, npr. broj izlazaka na ispit. Kontinuirane varijable, za razliku od toga, mogu

poprimiti bilo koju vrijednost unutar nekog intervala i mogu se zapisivati i decimalnim

Page 10: statistika_skripta2012

Osnovni pojmovi u statistici

8

brojevima, npr. dužina, težina, itd. Općenito kod metričkih varijabli jednake razlike u

brojevima na skali predstavljaju jednake razlike u promatranom svojstvu – dakle, dvije osobe

koje imaju 55 i 57 kilograma jednako se međusobno razlikuju po težini kao i osobe koje imaju

74 i 76 kilograma.

Dvije su osnovne vrste metričkih skala - intervalne i omjerne. Intervalne skale su one

metričke skale koje ne posjeduju apsolutnu već samo relativnu nulu, kao što je slučaj sa

skalom temperature mjerenom u stupnjevima Celsiusa. Dakle, kod njih su položaj nule i

mjerne jedinice određeni dogovorno. Stoga kod ovih skala nije moguće koristiti omjere: npr.

nije moguće reći da je temperatura od 25°C dvaput hladnija od 50°C (iako vrijedi da je razlika

između 75 i 50°C jednaka onoj od 50 i 25°C). Kod omjerne (odnosne) skale jednake razlike

brojeva također predstavljaju jednake razlike mjerenog svojstva. Uz to, kod ovih skala postoji

i apsolutna nula, te je stoga ovdje dopušteno koristiti omjere. Primjeri omjerne skale su visina

učenika ili vrijeme.

Kod rezultata izmjerenih na metričkim skalama moguće je koristiti najveći broj

statističkih analiza, uključujući i široki spektar parametrijskih postupaka (ako su zadovoljeni i

ostali uvjeti za njihovo korištenje). Iako za odabir prikladne statističke analize nije svejedno

imamo li podatke na intervalnoj ili omjernoj skali mjerenja, u praktičnim se situacijama rijetko

postavlja vrlo stroga razlika između tih skala.

Page 11: statistika_skripta2012

Osnovni pojmovi u statistici

9

1.2. UZORKOVANJE

Uzorkovanje je postupak formiranja uzorka iz populacije, odnosno odabira ispitanika koji će

sudjelovati u nekom istraživanju. Populaciju čine svi mogući članovi neke skupine s

određenim značajkama (ponekad se naziva i statistički skup). Uzorak je dio populacije na

kojem provodimo istraživanje (dio statističkog skupa).

Na primjer, ukoliko nas zanima ranije opisano pitanje o utjecaju najave testova na

uspjeh učenika, cilj nam je provesti istraživanje čije ćemo rezultate moći podijeliti s kolegama

u drugim školama i donijeti zaključke koji će biti korisni za osmišljavanje budućih strategija

organizacije nastave. Međutim, u svom istraživanju gotovo sigurno nećemo moći uključiti sve

učenike na koje će se odnositi doneseni zaključci, već ćemo umjesto toga odabrati malu

skupinu učenika i na njoj provesti mjerenje. Općenito smo u istraživanjima gotovo uvijek

usmjereni na mjerenje uzoraka jer je ponekad populaciju nemoguće, preskupo ili presloženo

izmjeriti, a ponekad tako nešto ne bi imalo smisla raditi (npr. ako mjerenjem uništavamo

elemente skupa).

Način odabira uzorka reflektira naše ciljeve i želju za kasnijom generalizacijom

zaključaka; nažalost, taj je izbor uvijek ograničen praktičnim mogućnostima. Važno je

naglasiti da nam je kod odabira uzorka cilj odabrati onu skupinu ispitanika koja što bolje

reprezentira populaciju kojoj pripada jer nam to omogućuje bolje zaključivanje i predviđanje

pojava. Na temelju toga koliko dobro uzorak predstavlja ciljanu populaciju, moguće je odrediti

njegovu reprezentativnost za ciljanu populaciju, odnosno njegov stupanj pristranosti.

Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije

potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloženi određenim

pogreškama mjerenja o kojima će kasnije biti više riječi.

S obzirom na osobine uzorka na kojem provodimo istraživanje, razlikujemo nekoliko

temeljnih vrsta uzoraka (osim ovih, postoje i drugi načini odabira uzoraka o kojima možete

više saznati u dodatnoj literaturi):

o SLUČAJNI - Uzorak kod kojeg svaki član populacije ima jednaku vjerojatnost biti

odabran (odabir se vrši uz pomoć npr. tablica slučajnih brojeva). Slučajni uzorak

je obično i reprezentativan za populaciju, dok za one uzorke kod kojih neki članovi

imaju veću vjerojatnost da budu odabrani kažemo da su pristrani.

o SISTEMATSKI – Uzorak kod kojeg se članovi populacije biraju uz pomoć nekog

pravilnog algoritma (npr. svaki peti učenik u imeniku). Vrlo često je ovaj uzorak

također reprezentativan za populaciju, što dakako ovisi o korištenom algoritmu.

o STRATIFICIRANI – Uzorak koji pokušava zadržati strukturu populacije za koju

znamo da se sastoji od određenih slojeva. Pritom se članovi svakog sloja biraju

Page 12: statistika_skripta2012

Osnovni pojmovi u statistici

10

po principu slučajnog uzorka (npr. ako u nekoj školi imamo 25% učenika iz

manjinskih skupina, isti postotak tih učenika možemo zadržati i u uzorku)

o KVOTNI - Uzorak se bira tako da se odrede stratumi ili skupine (npr. skupine

učenika s različitim općim uspjehom), a istraživač po svom slobodnom izboru iz

svakog predviđenog stratuma odabere definiran broj ispitanika (npr. po 30

učenika s izvrsnim, vrlo dobrim, dobrim, dovoljnim i nedovoljnim uspjehom)

o PRIGODNI – Uzorak koji se ne može unaprijed odrediti, već se ispituju oni

pojedinci koji su istraživaču dostupni, odnosno osobe koje zateknemo na

željenom mjestu u trenutku mjerenja (npr. studenti koji se trenutno nalaze na

nekoj studijskoj grupi).

Odabir uzorka predstavlja vrlo važan dio svakog istraživanja koji jako može utjecati

na kvalitetu dobivenih podataka te je na njega stoga posebno usmjeriti posebnu pažnju.

Osim odabira vrste uzorka i načina biranja ispitanika, važno je odrediti i broj ispitanika koje

želimo ispitati. Prilikom određivanja veličine uzorka treba prije svega uzeti u obzir

varijabilnost pojave koju mjerimo (ako varijabilnost ne postoji i sve osobe imaju jednako

izraženo svojstvo, dovoljan nam je 1 ispitanik; ako je pojava jako varijabilna potrebno nam je

mnogo ispitanika) i željenu preciznost koju bismo htjeli postići prilikom mjerenja (ako želimo

veću preciznost i manju pogrešku mjerenja, u istraživanje ćemo uključiti više ispitanika). U

nekim situacijama kod odabira veličine uzorka treba uzeti u obzir i veličinu populacije,

frekvenciju ciljane pojave u populaciji, planirane analize rezultata i mogući „otpad“, odnosno

napuštanje istraživanja od strane odabranih ispitanika.

Page 13: statistika_skripta2012

Organizacija i prikazivanje podataka

11

2. DESKRIPTIVNA STATISTIKA

Jednom kad ste prikupili određene podatke potrebno ih je organizirati, prikazati i statistički

obraditi. Metode deskriptivne statistike omogućuju nam upravo takvu organizaciju, opis i

osnovnu analizu prikupljenih podataka.

2.1. ORGANIZACIJA PRIKUPLJENIH PODATAKA I PRIKAZIVANJE REZULTATA

Organizacija podataka prije svega uključuje kodiranje, odnosno kvantificiranje svih varijabli, i

njihovo unošenje u odabrani program za statističku obradu. Kod nekih varijabli je taj proces

jednostavan jer su izmjerene na metričkim skalama, pa podatke samo trebamo unijeti u

prikladni statistički program (npr. ako smo zadovoljstvo životom mjerili na skali od 1 do 5,

rezultate ispitanika već imamo u brojčanoj formi).

Nešto je složeniji proces kodiranja varijabli koje nisu unaprijed kvantificirane, odnosno

pretvaranja onih vrijednosti koje su još uvijek prikazane opisno u brojeve (npr. spol ispitanika

ne možete uzeti u obzir u analizi ukoliko ga nekako (proizvoljno) brojčano ne odredite, na

primjer kodu „muški“ možemo dodijeliti broj 1, a kodu „ženski“ broj 2). Uz to, prilikom

kodiranja dobro je razmisliti kako ćete riješiti situacije u kojima neki podaci nedostaju jer npr.

ispitanik nije dao podatke ili su vam napisani odgovori nečitljivi. Pritom trebate odlučiti kako

ćete te podatke kodirati (najčešće je dobro dodati dodatan kod, odnosno brojčanu vrijednost

koja predstavlja kategoriju „nema odgovora“) i kako ćete ih kasnije tretirati u složenijim

analizama.

Nakon toga, ovisno o vrsti i broju izmjerenih podataka, moguće je grupirati podatke

u razrede.

2.1.1. Grupiranje prikupljenih rezultata u razrede

Nakon što smo prikupili željene podatke, cilj nam je organizirati definirane vrijednosti tako da

ih što lakše možemo predočiti, vidjeti oblik distribucije rezultata i prije statističke analize

provjeriti pogodnost primjene određenih statističkih analiza. Dakle, svaka bi statistička

analiza trebala započeti grafičkim prikazom rezultata. Često nam to prikazivanje, kao i daljnju

statističku analizu, olakšava grupiranje rezultata.

Kako grupirati rezultate?

Proces grupiranja rezultata može se opisati kao slijed nekoliko koraka:

1. Odrediti u koliko razreda želimo grupirati rezultate.

Page 14: statistika_skripta2012

Organizacija i prikazivanje podataka

12

2. Odrediti raspon unutar svakog razreda, tzv. interval razreda. Interval razreda računa

se po formuli:

interval = totalni raspon / broj razreda.

Totalni raspon uključuje ukupan broj rezultata, kojeg izračunamo kao razliku najvećeg

i najmanjeg rezultata uvećanu za 1 (TR = (xmax – xmin) +1)).

Nakon što smo izračunali vrijednost intervala razreda, dobiveni omjer može se

zaokružiti na veću vrijednost (nikada manju) čime osiguravamo da nam svi izmjereni

rezultati uđu u predviđene razrede.

3. Odrediti donju i gornju granicu svakog razreda. U pravilu se granice razreda određuju

tako da preciznošću odgovaraju mjerenim podacima (npr. ako imamo rezultate koji su

u formatu cijelih brojeva, onda i granice razreda određujemo kao cijele brojeve). Osim

toga, moguće je odrediti i tzv. pravu gornju i pravu donju granicu razreda o kojima

možete više saznati u preporučenoj literaturi.

4. Prikazati distribuciju rezultata, odnosno odrediti frekvenciju rezultata u svakom

razredu. Frekvencija (učestalost) nekog podatka je broj pojavljivanja tog podatka –

npr. u skupini rezultata „1, 1, 2, 2, 2, 3“ broj 1 ima frekvenciju 2, broj 2 frekvenciju 3, a

broj 3 frekvenciju 1. Osim ove frekvencije, za svaki podatak moguće je izračunati i

relativnu frekvenciju koja predstavlja omjer obične frekvencije i ukupnog broja

podataka (npr. relativna frekvencija broja 2 u prethodnom primjeru je 3/6, odnosno

0.5), te postotak koji predstavlja omjer obične frekvencije i ukupnog broja podataka

pomnožen sa 100. Zbroj relativnih frekvencija svih rezultata iznosi 1, a postotaka 100.

Kod grupiranja rezultata neke korake i vrijednosti određujemo samostalno, odnosno

proizvoljno (npr. broj razreda u koje želimo grupirati podatke).

Kod ovih koraka moguće je, a ponekad i nužno, slijediti nekoliko preporuka za

grupiranje rezultata:

• Intervali razreda (kvantitativne kategorije) se ne bi smjeli preklapati, odnosno svaki

izmjereni podatak mora biti smješten u jedan (i samo jedan) razred.

• Svi intervali razreda bi trebali biti jednake veličine.

• Treba preferirati neparan broj razreda.

• Broj razlika je provizoran, ali najbolji je u rasponu od 5-15.

• Što je broj mjerenja manji i broj razreda treba biti manji, i obrnuto.

• Ako je moguće, treba izbjegavati distribucije s praznim razredima.

• U odabiru broja razreda treba se služiti pokušajima, te uzeti onaj broj razreda koji

daje najbolju distribuciju.

Page 15: statistika_skripta2012

Organizacija i prikazivanje podataka

13

Primjer grupiranja rezultata

Ovo je popis skupa originalnih rezultata nekog mjerenja (N=40).

85 80 65 84 88 80 93 86

92 79 70 87 62 86 90 78

77 94 77 91 71 82 75 80

68 71 80 73 71 79 79 76

73 67 81 69 78 81 73 83

Želimo grupirati rezultate i za to odabiremo broj od 5 razreda; taj broj je opravdan s

obzirom na to da želimo neparan broj razreda te da imamo relativno mali broj izmjerenih

podataka.

Zatim izračunavamo interval razreda koji predstavlja omjer totalnog raspona

(računamo ga kao ukupni broj rezultata (94-62=)+1=32+1=33) i broja razreda (proizvoljno

smo odlučili da to bude 5). Dakle, računamo 33/5=6.6. To ćemo zatim zaokružiti na 7.

Sljedeći korak je određivanje gornjih i donjih granica pojedinačnih razreda. Kod

odabira početne vrijednosti, odnosno donje granice prvog razreda krećemo od 61; iako se

radi o broju koji je manji od najmanje izmjerene vrijednosti biramo ga zbog prethodnog

zaokruživanja vrijednosti. S obzirom na to da nam je interval razreda 7, gornja granica prvog

razreda mora biti 67 što omogućuje da se u njemu nađe 7 mogućih rezultata (61, 62, 63, 64,

65, 66 i 67). Na isti način možemo odrediti donje i gornje granice svakog sljedećeg razreda.

Nakon što smo odredili granične vrijednosti pojedinačnih razreda, trebamo smjestiti

rezultate u razrede, odnosno odrediti frekvenciju rezultata unutar svakog od njih. Za tu svrhu

možemo koristiti pomoćnu tablicu koja je dolje prikazana. Prilikom popunjavanja tablice

idemo rezultat po rezultat i označavamo koje smo rezultate uvrstili u tablicu. U donjoj tablici

prikazani su rezultati grupiranja rezultata iz prethodnog primjera.

Pomoćna tablica za grupiranja rezultata u razrede

Razred Granice

razreda Frekvencija

Ukupni broj

rezultata

1. 61-67 III 3

2. 68-74 IIII 9

3. 75-81 15

4. 82-88 III 8

5. 89-95 5

Page 16: statistika_skripta2012

Organizacija i prikazivanje podataka

14

2.1.2. Tablično i grafičko prikazivanje podataka

Podatke možete prikazati grafički i tablično. Nema previše smisla prikazivati iste podatke i

tablično i grafički pa se, ovisno o ciljevima i preglednosti prikaza, treba odlučiti za jednu od

ovih metoda.

I. Tablično prikazivanje podataka

Nekoliko je smjernica koje treba poštivati prilikom tabličnog prikazivanja podataka.

• Svaka tablica mora imati redni broj i naslov.

• Naslov mora biti kratak i jasan, a tablica “samo-pojašnjavajuća”. Ukoliko je potrebno,

ispod tablice se može dodati i Legenda koja pojašnjava eventualne skraćenice ili

informacije koje inače iz same tablice ne bi bile jasne. Dodatna pojašnjenja moraju biti

naznačena uz tablicu, ne u tekstu. Na temelju naslova, legende i onoga što se u tablici

nalazi, čitatelj mora biti u mogućnosti razumjeti sadržaj tablice.

• Naslov tablice nalazi se iznad tablice, i može biti centriran. Tekst “Tablica br.” se može

napisati u italic stilu, a sam naslov tablice u običnom tekstu. Općenito, stil pisanja naslova

tablice (font, prored) može se razlikovati od ostatka teksta.

• Stupce i retke treba jasno i sažeto označiti.

• Vrijednosti u redovima ili pak stupcima treba logički poredati (npr. logično je da se najprije

prikaže aritmetička sredina, pa onda standardna devijacija, a ne obrnuto).

• Treba izbjegavati okomite crte u tablicama, a vodoravnima treba odvajati tek zaglavlje i

podnožje tablice od ostalog dijela tablice, ili pak neke cjeline tablice međusobno.

• Najčešće je uputno prikazane veće brojeve razložiti u skupove po 3 znamenke (npr.

umjesto 457635 napisati 457 635).

• Kad god je to moguće, u tablicama je uputno prikazati originalne, mjerene podatke.

• Ako se neki podatak iz tablice želi istaknuti, to se može učiniti zvjezdicom (npr. statistička

značajnost) i to dodatno komentirati.

• Tablicu se u tekstu navodi njezinim rednim brojem (npr. „vidi Tablicu 3“; ili „u Tablici 3“

nalaze se rezultati...).

• Tablica treba biti centrirana na stranici.

Važne napomene: U organizaciji tabličnog prikaza treba biti fleksibilan, i uskladiti je s

ciljevima prikazivanja. Također, ovisno o tome gdje se tablica prikazuje, ona se mora / može

formatirati, odnosno organizirati i prikazati u skladu s relevantnim konvencijama, npr.

pravilima časopisa u kojima želimo objaviti rezultate. Isto vrijedi i za grafičko prikazivanje

rezultata.

Page 17: statistika_skripta2012

Organizacija i prikazivanje podataka

15

Primjer tablica organiziranih prema gornjim naputcima

Tablica 1

Aritmetičke sredine ( X ) i standardne devijacije (s) rezultata dobivenih primjenom skala depresivnosti i

zadovoljstva životom kod studenata i studentica pedagogije i povijesti.

Skale

Spol ispitanika

Studenti

pedagogije

Studenti povijesti

X s X s

Depresivnost m 75 11.2 77 14.1

ž 83 13.3 82 15.2

svi 82 12.5 80 14.6

Zadovoljstvo

životom

m 55 17.5 71 14.5

ž 64 18.2 62 14.6

svi 58 18.0 66 14.4

Tablica 2

Broj studenata i studentica upisanih na studijske grupe Pedagogija i Povijest u akademskoj godini

2000/2001.

Spol studenata

Studijska grupa

Ukupno

Pedagogija Povijest

Ženski 29 16 45

Muški 1 14 15

Ukupno 30 30 60

Page 18: statistika_skripta2012

Organizacija i prikazivanje podataka

16

II. Grafičko prikazivanje podataka

Grafičko prikazivanje rezultata omogućuje jasno i cjelovito zahvaćanje odnosa koji postoje

među podacima. Stoga je ono korisno ne samo za razumijevanje dobivenih rezultata, već se

može koristiti čak i za procjenjivanje onih vrijednosti koje mjerenjem nisu izravno utvrđene

(interpolacija i ekstrapolacija). Grafičko prikazivanje rezultata je naročito važno za otkrivanje

neke posebne ili neočekivane karakteristike rezultata, te nam olakšava usporedbu različitih

vrijednosti, trendova i odnosa među rezultatima.

Općenita preporuka prilikom grafičkog prikazivanja jest što jasnije i jednostavnije prikazati

dobivene rezultate. Kako biste u tome uspjeli, možete slijediti nekoliko jednostavnih principa:

• Svaki grafički prikaz mora imati redni broj i naslov. Pri označavanju, graf se naziva

“Slika br.”, nakon čega slijedi kratak i jasan naslov. Stil pisanja naslova je sličan

onome kod tablica (“Slika br. Naslov”)

• Redni broj i naslov grafičkog prikaza (slike) nalaze se ispod grafičkog prikaza.

• Navođenje grafičkog prikaza u tekstu čini se preko rednog broja slike (pr. vidi Sliku 1).

• U najvećem broju slučajeva, grafičkom prikaz treba dodati Legendu koja sadrži

objašnjenja potrebna za razumijevanje prikaza.

• Grafički prikaz treba biti jasan i čitljiv – treba paziti prilikom odabira boja različitih

kategorija, veličine i čitljivosti fonta na slici, i sl.

• Grafički prikaz treba biti centriran na stranici.

Postoje različite vrste grafičkih prikaza podataka koje možemo koristiti, ovisno o vrsti

podataka kojeg imamo i cilju njihovog prikazivanja. Među njima najčešće koristimo:

• Kružni dijagram (torta-dijagram; “pie-chart”)

• jednostavan, dobar za deskripciju podataka

• uključuje prikaz kategorije i pripadajućih postotaka koji mogu biti prikazani

unutar dijagrama ili u posebnoj legendi (ovisi o broju kategorija i preglednosti)

Primjer grafičkog prikaza – kružni dijagram:

Slika 1. Uspjeh studenata I. godine na ispitu iz Pedagoške psihologije. Prikazan je postotak studenata koji su na ispitu dobili pojedinačne ocjene.

Page 19: statistika_skripta2012

Organizacija i prikazivanje podataka

17

• Dijagram u obliku stupaca / stupčasti dijagram

• prikazuje odnos između neke kvalitativne varijable i njezine frekvencije

• sastoji se od pravokutnika u kojima površina (i visina) svakog pravokutnika

odgovara frekvenciji svake kategorije

• osi dijagrama su sljedeće: apscisa (x) – kategorija; ordinata (y) – najčešće

frekvencija

• Histogram

• predstavlja stupčasti dijagram s kontinuiranim varijablama

• sastoji se od pravokutnika u kojima površina (i visina) svakog pravokutnika

odgovara frekvenciji svakog intervala

• osi dijagrama su sljedeće: apscisa (x) – vrijednost mjerenja; ordinata (y) –

najčešće frekvencija

• Poligon frekvencija

• prikazuje odnos između neke varijable i njezine frekvencije

• predstavljen je linijom koju definiraju točke čija visina pokazuje frekvenciju

svakog intervala

• histogram se lako može transformirati u poligon frekvencija ukoliko se na

sredinu gornje linije svakog pravokutnika postavi točka koja onda predstavlja

osnovu za izradu poligona.

Pri konstrukciji stupčastog dijagrama, histograma i poligona frekvencija treba voditi

računa o:

• odnosu dužine apscise i ordinate (dužina ordinate je oko 2/3 dužine apscise)

• prekidanju apscise ili ordinate

• označavanju jedinica na osima (nije potrebno označavati sve izmjerene

vrijednosti, već nanositi uporišne vrijednosti, obično cijele brojeve)

• organizaciji ordinate: kod ovih grafičkih pristupa na osi y najčešće se nalazi

frekvencija, iako se ponekad mogu koristiti i postotci ili relativne frekvencije

• optimalnoj organizaciji: pomoću ovih grafičkih prikaza može se prikazati i više

od jedne distribucije. Pritom treba biti pažljiv u organizaciji grafa i ne zaboraviti

u njega uključiti jasnu legendu.

• Isti ili slični principi vrijede i za grafičke prikaze koji opisuju odnos dviju varijabli,

odnosno pokazuju kako se mijenja jedna pod utjecajem druge varijable. Pritom se

načelno na os x nanosi nezavisna, a na os y zavisna varijabla.

Page 20: statistika_skripta2012

Organizacija i prikazivanje podataka

18

Primjer grafičkog prikaza – histogram frekvencija:

Slika 2. Prosječne ocjene na kraju školske godine kod skupine od 60 učenika i 60 učenica trećih

razreda područne škole X.

Primjer grafičkog prikaza – poligon frekvencija:

Slika 3. Prosječne ocjene na kraju školske godine kod skupine od 60 učenika i 60 učenica trećih

razreda područne škole X.

Page 21: statistika_skripta2012

Mjere središnjih vrijednosti i raspršenja

19

2.2. MJERE SREDIŠNJIH VRIJEDNOSTI

Računanje središnje vrijednosti predstavlja jednu od najčešćih statističkih analiza koju

koristimo kako bismo kratko i zorno prikazali određeni skup podataka. Računanjem središnje

vrijednosti cijeli skup zamjenjujemo jednom vrijednošću za koju smatramo da ga dobro

reprezentira, te stoga moramo biti jako pažljivi prilikom odabira prikladne mjere.

2.2.1. Aritmetička sredina

Aritmetička sredina ( X ) predstavlja jednu od najčešće korištenih mjera središnjih vrijednosti.

Ona se smatra najboljim pokazateljem prave vrijednosti mjerenja, i jedina je vrijednost koju je

opravdano koristiti u složenijim obradama podataka. Aritmetička sredina određuje se tako da

se sve vrijednosti u nekom skupu rezultata zbroje, a zatim se taj zbroj podijeli s ukupnim

brojem rezultata.

N

xX

N – broj rezultata Σ – sigma, simbol za zbroj

x – svaki pojedinačni rezultat mjerenja

Međutim, aritmetičku sredinu nije opravdano koristiti uvijek, već samo u onim

situacijama u kojima su ispunjeni neki uvjeti. Naime, s obzirom na to da na vrijednost

aritmetičke sredine djeluje svaki rezultat svojom veličinom, kod računanja aritmetičke sredine

veliki problem predstavlja postojanje ekstremnih vrijednosti, odnosno rezultata koji jako

odstupaju od većine izmjerenih vrijednosti unutar jednog skupa. Općenito, što su rezultati

homogeniji, aritmetička sredina bolje reprezentira te podatke.

Aritmetička sredina predstavlja težište rezultata, jer je zbroj odstupanja pojedinačnih

rezultata od aritmetičke sredine jednak 0, dok je zbroj kvadrata tih odstupanja manji od

zbroja kvadrata odstupanja od bilo koje druge vrijednosti u nekom skupu podataka.

Aritmetičku sredinu dozvoljeno je koristiti samo kada su ispunjeni sljedeći uvjeti:

o postoje pravi mjerni podaci koji su točno određeni

o izmjeren je dovoljan broj podataka (zbog stabilnosti)

o distribucija rezultata je simetrična.

Primjer računanja aritmetičke sredine:

Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Izračunajte

aritmetičku sredinu.

4,415

66876655444433322

NX

Page 22: statistika_skripta2012

Mjere središnjih vrijednosti i raspršenja

20

2.2.2. Centralna vrijednost (medijan)

Za razliku od aritmetičke sredine, centralna vrijednost (C) nije izračunata vrijednost, već

vrijednost položaja. Naime, centralna vrijednost predstavlja onaj rezultat koji se u nizu

rezultata poredanih po veličini nalazi točno po sredini. Na nju ne utječu vrijednosti pojedinih

rezultata već samo njihov broj, te je stoga pogodna za korištenje u situacijama kada se u

skupu podataka može pronaći nekoliko ekstremnih rezultata.

Prilikom određivanja centralne vrijednosti najprije je potrebno odrediti položaj te

vrijednosti u nizu rezultata poredanih po veličini. Pritom se koristi formula:

5,02

NRc

N – broj rezultata

Nakon što smo odredili položaj centralne vrijednosti, moramo odrediti i njezinu

vrijednost. Ukoliko pred sobom imamo neparni broj rezultata, onda samo trebamo očitati onu

vrijednost koja se nalazi na rednom položaju kojeg smo izračunali u prethodnoj formuli. Ako

se radi o parnom broju rezultata, onda je centralna vrijednost jednaka prosjeku dviju

susjednih vrijednosti. Npr. ako imamo pet rezultata centralna vrijednost je ona koja se nalazi

na trećem mjestu, a ako ih imamo četiri onda se radi o prosjeku (aritmetičkoj sredini)

rezultata koji se nalaze na drugom i trećem mjestu.

Primjer računanja centralne vrijednosti:

Mjerenjem smo dobili sljedeće rezultate: 7, 8, 4, 2, 3, 3, 3, 4, 2, 5, 4, 4, 5, 6, 6. Izračunajte

centralnu vrijednost.

Najprije treba poredati rezultate po veličini: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8.

85,02

15Rc ; C = 4

2.2.3. Dominantna vrijednost (mod)

Dominantna vrijednost (D) predstavlja onu vrijednost koja među rezultatima dominira

čestinom pojavljivanja, dakle onu vrijednost koja ima najveću frekvenciju. Na nju utječe samo

broj, ali ne i vrijednost pojedinačnih rezultata. Stoga se preporučuje koristiti ju ako imamo

velik broj rezultata od kojih su neki ekstremni, te ako samo jedna vrijednost dominira

čestinom. Naime, često se događa da skupina rezultata nema samo jednu, već više

vrijednosti s jednakom frekvencijom. U slučaju da npr. distribucija ima dva ili više jednakih

vrhova tada se očitaju dvije ili više dominantnih vrijednosti, te govorimo o bimodalnim ili

Page 23: statistika_skripta2012

Mjere središnjih vrijednosti i raspršenja

21

multimodalnim distribucijama. Iako dominantna vrijednost predstavlja najslabiju mjeru

središnjih vrijednosti, u nekim situacijama i ona može biti informativna i korisna.

Primjer računanja dominantne vrijednosti:

Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

dominantnu vrijednost.

D = 4

2.2.4. Ostale mjere središnjih vrijednosti

Osim gore spomenutih, ponekad se mogu koristiti i druge mjere središnjih vrijednosti. One

uključuju harmoničnu i geometrijsku sredinu koje se mogu koristiti samo kod omjernih skala

mjerenja.

Harmonična sredina se koristi kada želimo izračunati prosjeke nekih odnosa (npr.

prosječni km/h, broj slova u minuti), a smije se računati ako broj nije negativan ili nula.

Geometrijska sredina se pretežno koristi kao prosječna mjera brzine nekih

promjena, te se također smije računati ako broj nije negativan ili nula.

Važna napomena: U nekim skupovima moguće je izračunati više od jedne mjere središnjih

vrijednosti, najčešće aritmetičku sredinu, centralnu vrijednost i dominantnu vrijednost. Ako to

napravimo, usporedba ovih vrijednosti nešto nam može reći i o obliku distribucije rezultata, o

čemu će biti govora malo kasnije.

Page 24: statistika_skripta2012

Mjere središnjih vrijednosti i raspršenja

22

2.3. MJERE RASPRŠENJA REZULTATA

Kao što smo opisali u prethodnom poglavlju, unutar deskriptivne statistike moguće je cijeli

skup podataka zamijeniti jednom, središnjom vrijednošću koja ga najbolje reprezentira. Ta

nam vrijednost, međutim, ne govori ništa o tome koliko taj podatak dobro reprezentira

izmjerene podatke (npr. središnja vrijednost „4“ bolje reprezentira skup „3 3 4 4 4 4 4 5 5“

nego skup „1 1 2 2 3 4 5 6 6 7 7“). Tu nam informaciju nudi neka od mjera raspršenja

(razlikovanja) rezultata koje ćemo sada opisati.

2.3.1. Raspon rezultata

Raspon podataka poredanih prema veličini predstavlja razliku najvećeg i najmanjeg podatka.

Raspon = xmax – xmin

Kao što je uočljivo, raspon rezultata počiva na samo dvije vrijednosti rezultata te je

stoga jako osjetljiv na ekstremne rezultate. Osim toga, raspon najčešće raste s porastom

broja mjerenja (rezultata), te predstavlja vrlo nesigurnu mjeru raspršenja rezultata.

Primjer računanja raspona rezultata:

Mjerenjem smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

raspon rezultata.

Raspon = 8 - 2 = 6

2.3.2. Varijanca

Varijanca (s2) predstavlja jednu od informativnijih mjera raspršenja rezultata koja se smije

računati samo uz aritmetičku sredinu. Varijanca predstavlja prosjek sume kvadriranih

odstupanja svakog rezultata od aritmetičke sredine; dakle, računa se tako da izračunamo

razliku između svakog rezultata i aritmetičke sredine, zatim te razlike kvadriramo i zbrojimo,

te na kraju zbroj podijelimo s ukupnim brojem rezultata.

N

Xxs

2

2)(

x – svaki pojedinačni rezultat mjerenja X - aritmetička sredina

N – broj rezultata

Kao što je vidljivo iz formule, kod računanja varijance veća odstupanja kvadriranjem

dolaze više do izražaja, te se na taj način „kažnjava“ postojanje ekstremnih rezultata u

Page 25: statistika_skripta2012

Mjere središnjih vrijednosti i raspršenja

23

mjerenju. Općenito, varijanca se kao samostalna vrijednost ne koristi često, iako je ona vrlo

korisna prilikom provođenja nekih drugih statističkih analiza.

Važno je naglasiti da se gore napisana formula za varijancu načelno koristi kada radimo

s podacima iz cijele populacije. Ukoliko su naši podaci dobiveni mjerenjem uzorka, preciznije

je koristiti modificiranu formulu:

1

)( 2

2

N

Xxs

Primjer računanja varijance:

Mjerenjem (na vrlo maloj populaciji) dobili smo sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

varijancu dobivenih rezultata.

Najprije određujemo aritmetičku sredinu rezultata, a zatim varijancu:

37

214433322

NX

57.07

4

7

)34()34()33()33()33()32()32( 22222222

s

2.3.4. Standardna devijacija

Standardna devijacija (s) usko je povezana s varijancom. Ona predstavlja drugi korijen iz

vrijednosti varijance, odnosno drugi korijen iz prosjeka sume kvadriranih odstupanja. Kao i

varijanca, standardna devijacija računa se samo uz aritmetičku sredinu. I kod ove vrijednosti

postoje dvije formule – jednu koristimo kad imamo rezultate mjerene na populaciji, a drugu

ukoliko su rezultati dobiveni na uzorku.

Mjerenje na populaciji Mjerenje na uzorku

N

Xxs

2)(

1

)( 2

N

Xxs

x – svaki pojedinačni rezultat mjerenja

X - aritmetička sredina N – broj rezultata

Standardna devijacija je najčešće korištena mjera raspršenja koju uvijek treba navesti uz

aritmetičku sredinu. Najjednostavnije rečeno, to je vrijednost koja označava tipičnu, ili

prosječnu razliku između pojedinačnih rezultata i aritmetičke sredine nekog skupa. Što je

standardna devijacija manja, to nam aritmetička sredina bolje reprezentira dobivene rezultate

jer se oni u prosjeku manje razlikuju od nje.

Ako poznajemo ove dvije vrijednosti za neki skup rezultata, možemo rekonstruirati još

neke podatke o njemu, o čemu će biti riječi u idućem poglavlju.

Page 26: statistika_skripta2012

Mjere središnjih vrijednosti i raspršenja

24

Primjer računanja standardne devijacije:

Mjerenjem (na vrlo maloj populaciji) dobili smo sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

standardnu devijaciju dobivenih rezultata.

Najprije određujemo aritmetičku sredinu rezultata, a zatim standardnu devijaciju:

37

214433322

NX

75.057.07

4

7

)34()34()33()33()33()32()32( 2222222

s

2.3.5. Koeficijent varijabilnosti

Kada su nam za dva skupa podataka poznate dvije aritmetičke sredine i standardne

devijacije, rezultati su potpuno definirani. No, ukoliko nas zanima koji od ta dva skupa

rezultata više varira, nije nam dopušteno jednostavno usporediti njihove standardne

devijacije.

Umjesto toga, trebamo izračunati drugu, standardiziranu mjeru raspršenja koju

nazivamo koeficijent varijabilnosti (V). Ovaj koeficijent koristimo kada želimo znati koja od

dvije skupine rezultata relativno više varira, odnosno ako nas zanima u kojem svojstvu neka

skupina varira više, a u kojem manje ili koja od ispitanih grupa varira više, a koja manje u

istom svojstvu.

100X

sV

s – standardna devijacija X - aritmetička sredina

Primjer računanja koeficijenta varijabilnosti:

Mjerenjem (na vrlo maloj populaciji) smo dobili sljedeće rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

koeficijent varijabilnosti dobivenih rezultata.

Najprije računamo aritmetičku sredinu i standardnu devijaciju rezultata. Te ćemo

vrijednosti uvrstiti u formulu za koeficijent varijabilnosti.

37

214433322

NX

75.057.07

4

7

)34()34()33()33()33()32()32( 2222222

s

%2510025.01003

75.0 xV

Page 27: statistika_skripta2012

Mjere središnjih vrijednosti i raspršenja

25

2.3.6. Ostale mjere raspršenja

Osim gore spomenutih, ponekad se mogu koristiti i druge mjere raspršenja rezultata.

Jedna od tih mjera koja nam može biti od koristi naziva se poluinterkvartilno

raspršenje, odnosno interkvartilni raspon. Ova se mjera računa uz centralnu vrijednost, na

rezultatima poredanim po veličini. Određuje se kao razlika između rezultata koji se nalazi na

granici trećeg ili gornjeg kvartila (rezultat koji razdvaja 75% najmanjih rezultata od onih većih)

i onoga koji se nalazi na granici prvog ili donjeg kvartila (rezultat koji razdvaja 25% najmanjih

podataka od ostalih). Više o računanju poluinterkvartilnog raspršenja saznajte u dodatnoj

literaturi.

Osim spomenutih, postoje i druge mjere raspršenja, npr. indeks srednjeg

odstupanja s kojim ćete se rijetko susretati.

Page 28: statistika_skripta2012

Distribucije rezultata

26

2.4. DISTRIBUCIJE REZULTATA

Distribuciju rezultata čine sve učestalosti, odnosno pojedinačni rezultati i njihove

frekvencije unutar nekog skupa podataka. Kao što već znate, postoji veliki broj različitih

oblika distribucija od kojih smo neke već spominjali. Kratak pregled nekih oblika distribucija

prikazan je ovdje:

Kvadratična / uniformna

U - distribucija Bimodalna Normalna

2.4.1. Normalna distribucija

Normalna distribucija predstavlja temeljni oblik distribucije koji u statistici ima

neobično veliku važnost. Ona predstavlja osnovu za razumijevanje pojmova statističke

vjerojatnosti. Ponekad se, prema njemačkom matematičaru C. Gaussu, naziva i Gaussova

krivulja. Njezine temeljne osobine su zvonolik oblik, simetričnost i asimptotsko približavanje

apscisi.

Veliki broj pojava i osobina (ne sve!) u prirodi distribuira se normalno. Slično tome, u

istraživanjima koja se provode na uzorcima također je često moguće očekivati ovu

distribuciju, i to onda kada su ispunjeni sljedeći uvjeti:

• ako se osobina koju mjerimo zaista distribuira normalno u populaciji

• ako imamo dovoljno velik broj mjerenja

• ako su svi izmjereni rezultati dobiveni korištenjem iste metode i prikupljeni u istim

uvjetima

• ako je skupina koju mjerimo homogena po svim osobinama, osim one koju

mjerimo (po kojoj je heterogena).

Page 29: statistika_skripta2012

Distribucije rezultata

27

Općenito, kada u nekom istraživanju izmjerimo određeno svojstvo i prikažemo

rezultate, vrlo rijetko će se dogoditi da su oni distribuirani u obliku „idealne“ normalne

distribucije. Naime, češće ćemo imati priliku susresti se s nekim manjim varijacijama, među

kojima su osnovne razlike u „širini“ i simetriji distribucije.

Vezano uz varijacije u širini, razlikujemo leptokurtične (uske, visoke distribucije kod

kojih se većina rezultata grupira oko aritmetičke sredine) i platikurtične (široke distribucije u

kojima ima relativno puno rezultata koji se razlikuju od aritmetičke sredine) distribucije. Na

slici su prikazane tri takve distribucije koje se međusobno razlikuju po širini, odnosno

statistički gledano, prema raspršenju rezultata:

Osim po „širini“, distribucije često razlikujemo i prema stupnju simetrije. Kao što je

spomenuto ranije, prava normalna distribucija je potpuno simetrična te su stoga kod nje sve

mjere središnjih vrijednosti (aritmetička sredina, centralna i dominantna vrijednost)

međusobno jednake. Za razliku od toga, kod asimetričnih distribucija to nije slučaj.

Pogledajte na slici odnos pojedinačnih središnjih vrijednosti kod pozitivno asimetrične

(distribucija kod koje postoji više ekstremnih rezultata viših vrijednosti) i negativno

asimetrične (distribucija kod koje postoji više ekstremnih rezultata nižih vrijednosti)

distribucije.

Simetrična Pozitivno asimetrična Negativno asimetrična

X =C=D

D ‹ C ‹ X

X ‹ C ‹ D

Općenito, ukoliko distribucija rezultata izmjerenih na nekom uzorku značajno odstupa

od normalne, to može biti indikator da se mjerena pojava ni u populaciji ne distribuira

normalno. S druge strane, jednako često ili češće nam to može ukazivati na pogreške u

odabiru uzorka, odnosno postojanju nekih pristranosti u mjerenju (djelovanja sistematskih

faktora na dobivene rezultate). Na primjer, ukoliko na testu matematike veliki broj djece

0

5

10

15

20

5 10 15 20 25 30 35 10152025303540

Page 30: statistika_skripta2012

Distribucije rezultata

28

dobije ocjene vrlo dobar i izvrstan (dakle, ako je distribucija negativno asimetrična), to nam

može ukazivati na to da je test bio prelagan.

Važno je napomenuti da je u istraživanjima važno provjeriti oblik distribucije – osim

subjektivno (preko grafičkih prikaza), to se može objektivno napraviti korištenjem testova za

provjeru asimetrije i zaobljenosti, primjerice Kolmogorov-Smirnov testom koji se u praksi

često koristi. Ako izmjerena distribucija rezultata nije normalna, treba izbjegavati korištenje

parametrijskih metoda analize koje se inače koriste kod normalno distribuiranih rezultata, jer

to može dovesti do pogrešnih zaključaka.

Normalna distribucija je u praksi jako važna jer predstavlja osnovu za izračunavanje

vjerojatnosti određenog rezultata u nizu mjerenja. To možemo lako napraviti za bilo koje

mjerenje ukoliko nam je poznata aritmetička sredina i standardna devijacija rezultata koji se

normalno distribuiraju.

Page 31: statistika_skripta2012

Položaj rezultata u skupini

29

2.5. POLOŽAJ REZULTATA U SKUPINI

Ukoliko smo u nekoliko istraživanja izmjerili jednu ili više pojava i želimo usporediti

pojedinačne rezultate tih mjerenja, to ne možemo napraviti samo usporedbom mjerenih

vrijednosti jer one mogu npr. biti izmjerene na različitim skalama. Stoga je potrebno rezultate

standardizirati, odnosno pretvoriti ih u neki standardni oblik. Pritom najčešće koristimo tzv.

z-vrijednosti.

2.5.1. z-vrijednosti

Logika z-vrijednosti temelji se na razlikama rezultata od aritmetičke sredine skupine

kojoj pripadaju. Dakle, određuje se odstupanje svakog rezultata od aritmetičke sredine koje

onda izražavamo na standardizirani način. Pri tom koristimo univerzalne jedinice koje se

mogu međusobno uspoređivati. To su jedinice standardne devijacije.

s

Xxz

x-svaki pojedinačni rezultat s – standardna devijacija

X - aritmetička sredina

Pretvaranjem distribucije izmjerenih vrijednosti u onu z-vrijednosti dobijemo novu

distribuciju čija je aritmetička sredina 0, a standardna devijacija 1. Općenito, unutar cijele

normalne distribucije uvijek se nalazi isti postotak rezultata, a to isto možemo reći i za

pojedine dijelove te distribucije. Kod normalne distribucije se tako praktično svi rezultati

(99.9%) nalaze u rasponu aritmetička sredina ± 3 standardne devijacije. Unutar granice

aritmetička sredina ± 2 standardne devijacije nalazi se više od 95%, a unutar granice

aritmetička sredina ± 1 standardne devijacije 68% rezultata.

Osim toga, kod normalne distribucije je moguće izračunati točan postotak (broj

rezultata) dobivenih u nekom rasponu u distribuciji; to činimo pomoću formule za

izračunavanje z-vrijednosti i Statističkih tablica, odnosno tablica koje nam za svako

Page 32: statistika_skripta2012

Položaj rezultata u skupini

30

standardizirano odstupanje (z) pokazuju površinu ispod normalne distribucije (Tablica u

prilogu: „Površine ispod normalne krivulje“).

Na temelju gore navedenog postupka, u nekoj distribuciji možemo odrediti npr. točan

položaj rezultata u nekoj skupini, broj ispitanika koji su postigli rezultate veće ili manje od

neke vrijednosti, broj ispitanika koji je postigao rezultat unutar određenog raspona, itd. Pri

izračunavanju tih vrijednosti, važno je pažljivo pratiti organizaciju tablice, te prije samog

izračuna grafički prikazati problem koji se pokušava riješiti.

Važno je naglasiti da je uz pomoć z-vrijednosti moguće i kombinirati rezultate dvaju ili

više testova, npr. zbrojiti z-vrijednost pojedinca na nekoliko testova kako bi se odredio njegov

ukupni / prosječan uspjeh u skupini.

Primjer računanja z-vrijednosti:

Mjerenjem nekog uzorka dobili smo skup od 600 normalno distribuiranih rezultata čija

je aritmetička sredina 100, a standardna devijacija 10. Odredite koja je vjerojatnost da je neki

rezultat veći ili jednak od rezultata 103.

3.010

3

10

100103

s

XXz

U Statističkim tablicama za vrijednost z=0.3 možemo iščitati željeni rezultat. Dakle,

vjerojatnost da je neki rezultat veći ili jednak 103 je 0.382.

Page 33: statistika_skripta2012

Položaj rezultata u skupini

31

2.5.2. Centili i decili

Osim z-vrijednosti, postoje i drugi načini određivanja položaja rezultata u skupini drugih

rezultata. Vrlo često se koriste skale centila i decila, naročito kod distribucija koje nisu

distribuirane normalno. Logika njihovog korištenja slična je ranije spominjanom računanju

kvartila kod kojih se niz rezultata dijeli na četiri jednaka dijela (granica drugog kvartila je

centralna vrijednost). Slično tome, kod decila se određuju granice koje dijele niz rezultata

poredanih po veličini u skupine od po 10% rezultata, dok se kod centila radi o skupinama od

po 1% rezultata. To se može napraviti uz pomoć z-vrijednosti jer se u normalnoj distribuciji

za ciljani granični postotak rezultata može odrediti z-vrijednost uz koju se on vezuje, a zatim i

originalni izmjereni rezultat.

Međutim, još je jednostavnije odrediti decile ili centile pomoću bruto vrijednosti. Na

primjer, kod određivanja decila najprije je potrebno rezultate poredati po veličini. Nakon toga,

određuju se gornje granične vrijednosti decila kojih ima 9. Prva granica odvaja prvih 10%

ispitanika, druga prvih 20%, itd. Granica 5. decila je centralna vrijednost.

Računski decil u kojem se nalazi neki rezultat možemo izračunati pomoću formule:

10xN

rangd

Prema istoj logici, računski se centil u kojem se nalazi neki rezultat može izračunati pomoću

formule:

100xN

rangc

Kao što je spomenuto, ove se skale često koriste kada nije opravdano koristiti z-

vrijednosti ili kad se rezultati žele prikazati nestatističarima. Iako korisne, ove skale imaju

svojih ograničenja jer su grube, neaditivne i neekvidistantne, te se stoga u složenijim

analizama ne koriste.

Page 34: statistika_skripta2012

Inferencijalna statistika

32

3. INFERENCIJALNA STATISTIKA

Metode inferencijalne statistike omogućuju nam da na temelju podataka dobivenih

mjerenjem na uzorku generaliziramo, odnosno donosimo zaključke o stanju u široj populaciji.

Unutar inferencijalne statistike ključno je poznavati osnove uzorkovanja koje, kao što je

objašnjeno u prikazu Deskriptivne statistike, predstavlja postupak formiranja uzorka iz

populacije, odnosno odabira ispitanika koji će sudjelovati u nekom istraživanju. Populaciju

čine svi mogući članovi neke skupine s određenim značajkama (ponekad se naziva i

statistički skup). Uzorak je dio populacije na kojem provodimo istraživanje (dio statističkog

skupa).

Općenito smo u istraživanjima gotovo uvijek usmjereni na mjerenje uzoraka jer je

ponekad populaciju nemoguće, preskupo ili presloženo izmjeriti, a ponekad tako nešto ne bi

imalo smisla raditi (npr. ako mjerenjem uništavamo elemente skupa). Način odabira uzorka

reflektira naše ciljeve i želju za kasnijom generalizacijom zaključaka; nažalost, taj je izbor

uvijek ograničen praktičnim mogućnostima. Važno je naglasiti da nam je kod odabira uzorka

cilj odabrati onu skupinu ispitanika koja što bolje reprezentira populaciju kojoj pripada jer

nam to omogućuje bolje zaključivanje i predviđanje pojava. Na temelju toga koliko dobro

uzorak predstavlja ciljanu populaciju, moguće je odrediti njegovu reprezentativnost za

ciljanu populaciju. Prilikom organizacije mjerenja moguće je izabrati različite vrste uzoraka,

pri čemu se često koristi slučajni uzorak, odnosno uzorak kod kojeg svaki član populacije ima

jednaku vjerojatnost biti odabran (odabir se vrši uz pomoć npr. tablica slučajnih brojeva).

Slučajni uzorak je obično i reprezentativan za populaciju, dok za one uzorke kod kojih neki

članovi imaju veću vjerojatnost da budu odabrani kažemo da su pristrani.

Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije

potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloženi određenim

pogreškama mjerenja koje trebamo uzeti u obzir prilikom interpretacije i korištenja rezultata.

S obzirom na to, kada na temelju uzorka želimo zaključivati o stanju u populaciji (npr.

predvidjeti izraženost neke osobine u populaciji ili provjeriti postojanje razlika među

grupama), tu pogrešku moramo uzeti u obzir. Kako mi kod samog mjerenja nikad ne

možemo znati veličinu pogreške koja se vezuje upravo uz to mjerenje, kao ni pravo stanje u

populaciji, u praksi sve zaključke donosimo s određenom vjerojatnošću ili uz određeni

stupanj sigurnosti. Drugim riječima, uz naše se zaključke uvijek veže mogućnost pogreške;

veličinu te pogreške izražavamo tako što uz dobiveni rezultat uvijek navodimo i vjerojatnost

javljanja te pogreške, koju nazivamo i razinom rizika unutar istraživanja.

Sam istraživač određuje željeni stupanj sigurnosti na kojem želi temeljiti svoje

zaključke: najčešće se pritom odlučuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili

Page 35: statistika_skripta2012

Inferencijalna statistika

33

99% (razinu rizika od 1%). Odabrana razina rizika pritom odražava vjerojatnost pogreške

prilikom procjene: ukoliko se odlučimo za razinu rizika od 1%, možemo pretpostaviti da ćemo

kod napravljene procjene pogriješiti u 1% slučajeva, odnosno u jednoj od sto napravljenih

procjena.

Različite postupke i analize unutar inferencijalne statistike međusobno razlikujemo s

obzirom na vrstu modela koje koriste (parametrijske ili neparametrijske metode), broj varijabli

koje uzimaju u obzir (univarijantne, bivarijantne ili multivarijantne tehnike) te osobine uzorka i

izmjerenih podataka. Pritom treba posebno naglasiti da odabir prikladne statističke metode u

istraživanju prvenstveno ovisi o istraživačkom pitanju na koje želimo odgovoriti.

Page 36: statistika_skripta2012

Inferencijalna statistika

34

3.1. POGREŠKE MJERENJA

Ako bismo iz neke populacije izvadili veliki broj uzoraka jednake veličine i za svaki od njih

odredili prosječne vrijednost, aritmetičke sredine tih uzoraka međusobno bi se razlikovale

iako svi ti uzorci dolaze iz iste populacije (i nju predstavljaju). Ukoliko bismo sve te

aritmetičke sredine uzoraka grafički prikazali, vidjeli bismo da će se aritmetičke sredine

populacije grupirati oko prave aritmetičke sredine populacije, a njihova će distribucija

nalikovati normalnoj. Što su izmjereni uzorci veći, to će distribucija njihovih aritmetičkih

sredina biti sličnija normalnoj i imati manju standardnu devijaciju. Štoviše, čak i ako

distribucija populacije nije normalna, kod velikih uzoraka (često N>30) će distribucija

aritmetičkih sredina biti normalna. To nazivamo teoremom centralne granice.

Slika 1. Primjeri distribucije rezultata u populaciji (slike u retku 1), te distribucije aritmetičkih

sredina uzoraka različite veličine (slike u retcima 2-4)

Dakle, možemo zaključiti kako aritmetička sredina velikog broja uzoraka neće točno

odgovarati pravoj aritmetičkoj sredini populacije, već će se od nje više ili manje razlikovati.

Isto vrijedi i za ostale karakteristike uzorka, npr. standardnu devijaciju ili proporcije.

Pogreška uzorka predstavlja upravo tu razliku između vrijednosti dobivenih mjerenjem

uzorka i stvarnog stanja u populaciji. Razlozi zbog kojih dolazi do pogrešaka mjerenja

uključuju: neslučajnost uzorka ili selektivni otpad ispitanika, netočne i/ili neiskrene odgovore,

nejasna pitanja, pogrešan unos/kopiranje podataka i sl. Pogreška uzorka bit će veća kod

manjih uzoraka koji slabije reprezentiraju populaciju iz koje potječu.

Formula za računanje pogreške aritmetičke sredine N

ss

X s - standardna devijacija

N- broj ispitanika

p – proporcija jedne kategorije

q – proporcija druge kategorije Formula za računanje pogreške

proporcije N

pxqs p

Page 37: statistika_skripta2012

Inferencijalna statistika

35

Primjer određivanja pogreške aritmetičke sredine:

U skupini od 64 učenika izmjerena je prosječna visina od 155 cm, uz standardnu devijaciju 8.

Izračunajte pogrešku aritmetičke sredine ovog uzorka.

18

8

64

8

Xs

Primjer određivanja pogreške proporcije:

U skupini od 64 ukupno upisanih studenta jedne generacije, njih je 58 uspješno upisalo sljedeću

akademsku godinu. Izračunajte pogrešku proporcije u ovom uzorku.

p = 58/64 = 0.91

q = 1-0.91 = 0.09

035.0001.064

082.0

64

09.091.0

xs p

Page 38: statistika_skripta2012

Inferencijalna statistika

36

3.2. PROCJENA PARAMETARA

Ukoliko na nekom uzorku izmjerimo određenu vrijednost, npr. aritmetičke sredine, i na

temelju toga želimo odrediti stvarnu aritmetičku sredinu populacije, preporučljivo je

prognozirati ne samo jednu, već raspon vrijednosti. To radimo zato jer se uz vrijednosti

izmjerene na uzorku uvijek veže određena pogreška koju pokušavamo neutralizirati

korištenjem manje preciznih zaključaka i navođenjem stupnja uvjerenja u te zaključke.

Proces određivanja raspona u kojem se, uz određenu sigurnost (rizik), nalazi

vrijednost u populaciji ili parametar populacije naziva se procjena parametara. Parametar

se pritom može odnositi na npr. aritmetičku sredinu, proporciju, ili raspršenje unutar uzorka.

Za procjenu parametra potrebno je znati vrijednost uzorka i pogrešku koja se veže uz

vrijednost uzorka.

U praksi se procjena parametara najčešće radi za aritmetičku sredinu (kod podataka

na intervalnim i omjernim skalama mjerenja), te proporcije (kod podataka na nominalnoj skali

mjerenja). Pritom se koriste formule za računanje pripadajućih pogrešaka uzoraka s kojima

smo se već upoznali. Nakon što smo izračunali pogrešku uzorka, tu mjeru možemo koristiti

za procjenu intervala pouzdanosti. Taj interval označava raspon u kojem se, uz određeni

stupanj sigurnosti kojeg odabire sam istraživač, nalazi prava vrijednost populacije. Kod

određivanja intervala pouzdanosti uvijek krećemo od vrijednosti uzorka te širimo taj interval

tako da od te vrijednosti oduzimamo i dodajemo jednaku vrijednost prema formuli:

Procjena aritmetičke sredine populacije

X 2.58X

s (uz 99% sigurnosti)

X 1.96X

s (uz 95% sigurnosti)

Procjena proporcije u populaciji

p 2.58ps (uz 99% sigurnosti)

p 1.96ps (uz 95% sigurnosti)

Primjer određivanja intervala pouzdanosti aritmetičke sredine:

Deklarirana težina konzerve tunjevine nekog proizvođača je 250 grama. Inspekcija je to provjerila tako

da je izmjerila težinu na uzorku od 500 konzervi i pritom odredila da aritmetička sredina iznosi 247, a

standardna devijacija 15 grama. Da li je deklaracija na konzervama točna?

67.0500

15

Xs

Procjena uz 1% rizika da je prava prosječna težina u ovom rasponu:

247 ± 2.58 x 0.67=247 ± 1.73 (245.3 do 248.7)

Uz stupanj sigurnosti od 99%, možemo zaključiti da deklarirana težina ne spada u izračunati raspon,

dakle deklaracija proizvođača nije točna.

Page 39: statistika_skripta2012

Inferencijalna statistika

37

3.3. TESTIRANJE HIPOTEZA

Testiranje hipoteza predstavlja sistematski proces kojim provjeravamo potvrđuju li podaci

prikupljeni unutar određenog istraživanja testirane znanstvene teorije i hipoteza. Testiranje

hipoteza provodi se kroz nekoliko koraka koji započinju postavljanjem hipoteze koja

predstavlja odgovor na postavljeno istraživačko pitanje, nastavljaju se odabirom i

provođenjem prikladne statističke analize, a završavaju odlukom o valjanosti postavljene

hipoteze.

Postupkom testiranja hipoteza možemo, na primjer, provjeriti:

oblik distribucije frekvencija: najčešće to radimo kako bismo odredili da li je neka

distribucija normalna ili ne.

pripada li uzorak određenoj populaciji. Na primjer, ukoliko u skupini nadarene djece

primijenimo test inteligencije, možemo usporediti dobivenu vrijednost s prosječnom

vrijednosti za koju nam je poznato da vrijedi u populaciji (u slučaju inteligencije je to

100), i zatim odrediti da li se nadareni svojom inteligencijom ističu u usporedbi s

drugom djecom njihove dobi.

pripadaju li dva ili više uzoraka istoj populaciji, odnosno postoji li statistički značajna

razlika između dviju ili više skupina podataka. Na primjer, na ovaj način možemo

provjeriti da li se učenici različitog socioekonomskog statusa razlikuju po ocjenama iz

nekog predmeta.

povezanost dviju ili više varijabli. Na primjer, možemo provjeriti da li je količina

domaćeg rada kojeg učenici trebaju napraviti tijekom semestra povezana s količinom

znanja koju steknu iz nekog predmeta

1. KORAK: Postavljanje hipoteze

Znanstvena istraživanja predstavljaju sustavne načine provjere postavki određenih

znanstvenih teorija ili odgovaranja na neka praktična pitanja. Na početku istraživačkog

procesa nužno je postaviti određenu hipotezu koja će se unutar istraživanja provjeriti. Važno

je razlikovati dvije vrste hipoteza: istraživačke hipoteze koje odražavaju teorijska ili

istraživačeva uvjerenja o očekivanim rezultatima, te nul ili nulte hipoteze (H0) koje

predstavljaju statističke hipoteze u koje sam istraživač ne mora vjerovati, ali ih treba postaviti

kako bi ih provođenjem statističkih analiza provjerio.

Na primjer, zamislite da radite u srednjoj školi, i imate dojam da djeca iz bogatijih

obitelji bolje usvajaju gradiva iz tehničkih i znanstvenih predmeta od djece iz siromašnijih

obitelji. Čini vam se da je to možda vezano uz veću dostupnost knjiga i informatičke

tehnologije kod djece iz bogatijih obitelji, te razmišljate o tome da ravnatelju predložite

otvaranje informatičke radionice koja bi djeci bila stalno dostupna, i u kojoj bi i oni siromašniji

Page 40: statistika_skripta2012

Inferencijalna statistika

38

imali stalan pristup informacijama važnim za učenje. Međutim, prije toga želite svoju sumnju i

provjeriti, te organizirate istraživanje u kojem ćete provjeriti postoji li povezanost između

ekonomskog statusa obitelji djeteta i uspjeha u odabranim predmetima. Pritom je vaša

istraživačka hipoteza afirmativna, odnosno vi smatrate da veza između tih dviju varijabli

postoji. Štoviše, vaša je istraživačka hipoteza direktivna, odnosno ona uključuje

pretpostavljeni smjer povezanosti: smatrate da djeca iz bogatijih obitelji imaju veće ocjene iz

odabranih obitelji. Za razliku od toga, nedirektivna hipoteza bi bila ona kod koje istraživač

nema pretpostavke o smjeru efekta, ali pretpostavlja da nekakav efekt postoji. Na primjer, u

istraživanju povezanosti dobi nastavnika i uspjeha učenika istraživač može imati nedirektivnu

istraživačku hipotezu jer nije siguran da li će za uspjeh učenika biti presudno (veće i bolje)

iskustvo starijih nastavnika ili (veća) pristupačnost i motivacija mlađih nastavnika.

Za razliku od istraživačke hipoteze koja odražava stvarna očekivanja i uvjerenja

istraživača, nul-hipoteza je statistička hipoteza koja pretpostavlja nepostojanje značajnih

efekata, npr. nepostojanje razlika između skupina ispitanika, nepostojanje korelacije između

varijabli i slično. Nul-hipotezu testiramo korištenjem statističkih analiza, nakon čega tu

hipotezu možemo odbaciti ukoliko dobijemo statistički značajan efekt, odnosno prihvatiti ako

ne pokažemo statistički značajan rezultat.

Primjer nul-hipoteze:

H0: Ne postoji statistički značajna razlika između dječaka i djevojčica u verbalnoj

inteligenciji.

2. KORAK: Odabir prikladne statističke analize i razine statističke značajnosti

Nakon što smo postavili hipotezu, trebamo odabrati prikladnu statističku analizu kojom ćemo

odgovoriti na postavljeno istraživačko pitanje. Pritom odabir statističkih testova i analiza u

istraživanju ovisi o nekoliko činitelja:

postavljenom istraživačkom pitanju

vrsti i veličini ispitanog uzorka

karakteristikama prikupljenih podataka (osobinama i broju korištenih varijabli;

skalama mjerenja; distribuciji dobivenih rezultata).

Jedan od najvažnijih čimbenika koje trebamo odrediti prilikom odabira prikladne

statističke analize je vrsta uzoraka koje smo imali u istraživanju. Naime, ukoliko našim

istraživanjem želimo provjeriti razlikuju li se dvije različite skupine ispitanika koje smo

izmjerili, onda među podacima imamo dva nezavisna skupa, ili dva nezavisna uzorka

podataka koje moramo usporediti. Ukoliko nas, međutim, zanima razlika između uspjeha

jedne te iste skupine ispitanika na dva testa ili dvije situacije, onda našu analizu provodimo

na dva međusobno zavisna skupa podataka, odnosno na zavisnim uzorcima.

Page 41: statistika_skripta2012

Inferencijalna statistika

39

3. KORAK: Provedba statističke analize i određivanje granice odbacivanja nulte

hipoteze

Nakon odabira prikladne statističke analize, možemo krenuti u samo izračun kod kojeg

koristimo standardne procedure opisane u udžbenicima iz Statistike. Općenito je lako pronaći

informacije o tome kako provesti statističku analizu jednom kad je odabrana, a uz to veliki dio

izračuna najčešće možemo prepustiti programima za statističku analizu podataka.

Važno je spomenuti da se provedba velikog broja statističkih analiza temelji na

usporedbi uzorka kojeg smo izmjerili s tzv. „usporednim uzorkom“, odnosno distribucijom

podataka kod koje vrijedi nul-hipoteza, odnosno kod koje nema statistički značajnog efekta

kojeg ispitujemo. Unutar te usporedne distribucije određuje se kritični rezultat kod kojeg bi

nul-hipotezu trebalo odbaciti; ta vrijednost predstavlja rezultat koji bi se u teoriji (i praksi)

mogao dobiti čak i ukoliko nul-hipoteza zaista vrijedi, ali je taj ishod malo vjerojatan. Dakle,

kod testiranja hipoteza uvijek radimo s vjerojatnostima i nikad nismo apsolutno sigurni u

dobiveni zaključak. Nakon što smo odredili kritični rezultat unutar usporednog uzorka, ovaj se

uspoređuje s vrijednosti statističkog testa kojeg smo dobili unutar provedenog istraživanja.

Treba naglasiti da određivanje kritičnog rezultata unutar usporedne distribucije ovisi i

o željenom stupnju sigurnosti na kojem istraživač želi temeljiti svoje zaključke. Naime, kao

što je ranije objašnjeno kod procjene parametara, istraživač sam određuje tu razinu, i to tako

da se pritom najčešće odlučuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili 99%

(razinu rizika od 1%).

4. KORAK: Odluka o prihvaćanju ili odbacivanju nul-hipoteze

Usporedbom rezultata dobivenog provedbom statističke analize i unaprijed određene kritične

razine rezultata donosi se odluka o prihvaćanju ili odbacivanju nul-hipoteze. Spomenuta

kritična rezultata može se odrediti korištenjem Statističkih tablica za prikladni statistički test

unutar kojih se može očitati granična vrijednost koja se veže uz broj stupnjeva slobode

(eng. degrees of freedom) koje smo imali u uzroku (kod svakog testa postoji posebna

Page 42: statistika_skripta2012

Inferencijalna statistika

40

formula pomoću koje se oni računaju). Ukoliko je rezultat dobiven provedbom odabranog

testa manje ekstreman od kritične vrijednosti koju smo očitali u tablicama, zaključujemo da

nul-hipoteza vrijedi i da ne postoji statistički značajan efekt. Ukoliko, međutim, dobiveni

rezultat bude toliko ekstreman da se odbaci nul-hipoteza, smatra se da je rezultat dosegao

statističku značajnost. Prilikom donošenja tih zaključaka nikad ne možemo biti apsolutno

sigurni da smo u pravu, jer uvijek baratamo s vjerojatnostima. Stoga je važno napomenuti:

Čak i ako odbacimo nul-hipotezu to ne znači da je alternativna, odnosno

istraživačka hipoteza potvrđena (baratamo s vjerojatnostima).

Ako prihvatimo nul-hipotezu ne možemo reći da smo "dokazali nul-hipotezu".

Naime, iako dobiveni rezultati nisu dovoljno snažni da odbace nul-hipotezu, to ne

znači da ona nije pogrešna.

5. KORAK: Izvještavanje o prihvaćanju ili odbacivanju nul-hipoteze

Nakon što je provedena statistička analiza, treba izvjestiti o dobivenim rezultatima. To se radi

na način da se jasno navede korišteni test, napiše dobiveni rezultat provedenog testa,

ukoliko je potrebno i pripadajući stupnjevi slobode („ss“ ili „df“), te vjerojatnost slučajne

pojave dobivenog rezultata („p“). Pritom se vjerojatnost p može navesti ili kao točna

vrijednost (npr. p=0.12) ili kao relativna vrijednost (npr. p < 0.05)

Uz to se i opisno može navesti što dobiveni rezultat govori o nul-hipotezi (da li je

prihvaćamo ili odbacujemo), odnosno o statističkoj značajnosti dobivenog efekta (da li je

statistički značajan ili ne). Ukoliko se razlika između podataka pokaže statistički

značajnima, možemo zaključiti da se ona vjerojatno nije dogodila slučajno (jer je jako malo

vjerojatna). Na primjer, ako vidite p < 0.05 u nekom istraživanju, to znači da se taj rezultat

slučajno mogao pojaviti u manje od 5 od ukupno 100 slučajeva, a p < 0.01 znači da je to bilo

moguće u manje od 1 od ukupno 100 slučajeva.

Primjer navođenja dobivenih rezultata:

t=3.2, df=65, p<0.05 ili t(65)=3.2, p<0.05 ili t(65)=3.2, p=0.03

Pogreške kod testiranja hipoteza

Prilikom testiranja hipoteza uvijek se izlažemo, a ponekad ćemo i počiniti, jednu od mogućih

pogrešaka koje se u procesu testiranja mogu napraviti. Općenito razlikujemo dvije vrste

pogrešaka: pogrešku tipa I i tipa II. Pogreška tipa I (α-pogreška) je pogreška kod koje

odbacujemo nul-hipotezu, iako je ona točna, dok kod pogreške tipa II (β) ne odbacimo nul-

hipotezu, iako zapravo postoji razlika među uzorcima.

Page 43: statistika_skripta2012

Osnovni statistički postupci i analize

41

4. OSNOVNI STATISTIČKI POSTUPCI I ANALIZE

Općenito, statističke postupke i analize možemo podijeliti na parametrijske i neparametrijske

postupke. Parametrijski testovi vezani su uz normalnu distribuciju, te u najvećem broju

slučajeva predstavljaju efikasniji odabir za analizu podataka. Naime, kao testovi koji koriste

preciznije podatke oni imaju veću snagu od neparametrijskih testova. Snaga testa pritom

predstavlja vjerojatnost odbacivanja nul-hipoteze koja nije točna ili prihvaćanja one koja je

točna; što je snaga testa veća to ćemo vjerojatnije istraživanjem pokazati pravi efekt i rjeđe

ćemo počiniti jednu od pogrešaka koje se vezuju uz statističke analize. Međutim, važno je

naglasiti da se parametrijski testovi mogu koristiti samo kada su zadovoljene osnovne

pretpostavke za njihovo korištenje (prema teorijskom okviru):

opažanja moraju biti nezavisna. Selekcija bilo koje jedinice iz populacije ne smije

utjecati na selekciju neke druge jedinice (mjerenja, ispitanika). Taj se uvjet odnosi na

sve parametrijske testove.

mjerenje mora biti učinjeno najmanje na intervalnoj ljestvici (zbog provedbe operacija

nužnih pri izračunavanju aritmetičke sredine i standardne devijacije). Jedini izuzetak

od ovog pravila je t-test za proporcije.

statističke jedinice (opažanja) moraju potjecati iz normalno distribuirane populacije.

Kad određujemo dolaze li naši podaci iz normalne populacije, možemo uzeti u obzir

podatke iz ranijih mjerenja koji nam mogu biti informativni. Također, možemo provesti

test normaliteta distribucije podataka koje smo prikupili; u tu se svrhu najčešće koristi

Kolmogorov-Smirnov test (automatski ga možemo izračunati korištenjem programa

za statističku analizu). Ukoliko imamo veliki uzorak, problem normaliteta distribucije

često nije problem, i to zbog ranije spomenutog teorema centralne granice.

populacije (kod kojih testiramo razliku) moraju imati istu varijancu (ili u nekim

slučajevima poznat omjer varijanci).

Neparametrijski testovi su testovi koji se mogu koristiti i kada nisu zadovoljeni uvjeti

za korišenje parametrijskih testova. To su testovi koje moramo koristi kod podataka na

nominalnoj ili ordinalnoj skali mjerenja. Uz to, neparametrijske testove možemo koristiti i kod

podataka na intervalnoj ili omjernoj skali (ponekad i moramo, kad je npr. N < 10). No u tom

slučaju gubimo veliki dio informacija transformirajući podatke s intervalne na ordinalnu ili pak

nominalnu skalu, te stoga ovi testovi imaju manju snagu. Neparametrijski testovi često imaju

jednostavniju logiku korištenja te se mogu koristiti i kada:

je broj ispitanika mali, a ne postoji ekvivalentan parametrijski test

su izmjereni podaci nalaze ispod intervalne skale (ordinalne ili nominalne skale)

Page 44: statistika_skripta2012

Osnovni statistički postupci i analize

42

4.1. ODABIR PRIKLADNE STATISTIČKE ANALIZE

Kao što je ranije spomenuto, odabir statističkih testova i analiza u istraživanju ovisi o

istraživačkom pitanju, vrsti i veličini uzorka te karakteristikama izmjerenih podataka. Sve te

informacije moraju se uzeti u obzir prije provedbe statističke analize. U tablici se nalaze

faktori koji se trebaju uzeti u obzir kod izbora statističke analize i testovi koji se mogu

primijeniti u određenoj situaciji. Ona se može koristiti kao vodič prilikom odabira prikladne

statističke analize, čiji ćete detaljan postupak zatim u slučaju potrebe pronaći opisan u

naprednijim statističkim udžbenicima ili programima za statističku analizu podataka.

Osobine podataka Podaci na nominalnoj

skali mjerenja

Podaci na ordinalnoj ili intervalnoj/omjernoj skali bez normalne

distribucije

Podaci na intervalnoj ili omjernoj skali mjerenja

s normalnom distribucijom Cilj

istraživanja

Usporedba jedne skupine rezultata i neke

hipotetske vrijednosti

Procjena parametara

Hi-kvadrat test* Wilcoxonov test

Procjena parametara

t-test za jedan uzorak

Usporedba dvaju nezavisnih uzoraka (dviju

različitih skupina ispitanika)

Hi-kvadrat test (Fisherov test)

t-test za proporcije

Medijan test

Rang test

Test homogenog niza

Siegel-Tukeyev test

t-test za nezavisne uzorke*

Usporedba dvaju zavisnih uzoraka (dva skupa rezultata jedne

skupine ispitanika)

McNemarov test (hi-kvadrat test za zavisne uzorke)

Test predznaka

Wilcoxonov test ekvivalentnih parova

t-test za zavisne uzorke*

Usporedba više od dva nezavisna uzorka (dvije

različite skupine ispitanika)

Hi-kvadrat test* Prošireni medijan test

Kruskal Wallisov test

Analiza varijance

Usporedba više od dva zavisna uzorka (dva

skupa rezultata jedne skupine ispitanika)

Cochraneov Q

Friedmanov test

Fergusonov test monotonije trenda

Analiza varijance s ponovljenim mjerenjima

Određenje povezanost dviju varijabli mjerenih

na jednom skupu ispitanika

Koeficijent kontingencije

Spearmanov koeficijent korelacije

Pearsonov koeficijent korelacije*

Važna napomena: nema potrebe učiti napamet testove koje u kolegiju nećemo obrađivati; oni koje trebate znati označeni su zvjezdicom.

Page 45: statistika_skripta2012

Osnovni statistički postupci i analize

43

4.2. t-TEST

t-test predstavlja jedan od najčešće korištenih parametrijskih testova koji se koriste za

testiranje statističke značajnosti razlike između dvije aritmetičke sredine. Osim t-testa kojim

se testiraju razlike između aritmetičkih sredina, postoji i nešto rjeđe korišteni t-test kojim se

testiraju razlike između proporcija (češće se u tim slučajevima koristi hi-kvadrat test).

Temeljni uvjeti primjene t-testa između dvije aritmetičke sredine:

izmjereni rezultati trebaju se nalaziti barem na intervalnim skalama

izmjereni podaci trebaju se normalno distribuirati

uzorci trebaju imati podjednake varijance (ili barem broj ispitanika).

Postoje različiti postupci za računanje t-testa koji se međusobno razlikuje ovisno o:

vrsti uzorka: razlikujemo t-test za zavisne i t-test za nezavisne uzorke

broju ispitanika: razlikujemo t-testove za velike i male uzorke (velikim uzorcima se

najčešće smatraju oni s 30 i više ispitanika)

smjeru istraživačke hipoteze: razlikujemo jednosmjerni i dvosmjerni t-test.

Dvosmjernim testom se testira postojanje razlike bez obzira na smjer (u kojoj je

skupini prosječna vrijednost veća ili manja), dok se kod jednosmjernog testa i smjer

razlike uzima u obzir. Općenito se dvosmjerni testovi češće koriste (i automatski su

izbor u statističkim programima).

Bez obzira na podvrstu t-testa koju odaberemo, testiranje razlika između aritmetičkih

sredina izvodi se na temelju razlike između izmjerenih aritmetičkih sredina, i standardne

pogreške razlike dviju aritmetičkih sredina tih uzoraka. Osnovna formula t-testa je sljedeća:

razlikepogreška

uzorkadvaivrijednostrazlikat

_

___

Na temelju ove formule razvijaju se finalne formule koje se koriste u računanju t-testa

kod zavisnih i nezavisnih uzoraka ispitanika.

t-test za velike nezavisne uzorke

22

21

21 Xss

XXt

X

;

df=(N1 -1) + (N2-1)

X - aritmetička sredina

Xs - pogreška aritmetičke

sredine

N – broj ispitanika unutar

svakog uzorka

df – stupnjevi slobode

t-test za velike (N 30) zavisne uzorke 2121

222

21

XXX

srsss

XXt

X

;

df=N-1

Page 46: statistika_skripta2012

Osnovni statistički postupci i analize

44

Kao što je vidljivo, formule za zavisne i nezavisne uzorke su vrlo slične; razlika je u

tome što se kod zavisnih uzoraka dodatno u obzir uzima korelacija između rezultata svakog

ispitanika u dvije točke mjerenja (vidi Sekciju 4.3).

Kod računanja t-testa potrebno je izračunati ne samo t-vrijednost, već i pripadajuće

stupnjeve slobode na temelju kojih će se odrediti granična vrijednost t-testa; ona se zatim

može iščitati iz Statističke tablice za t-test (Tablica u prilogu: „Granične vrijednosti t uz zadani

broj stupnjeva slobode“). Prilikom navođenja rezultata t-testa navodi se najprije vrijednost t-

testa (t), a zatim pripadajući stupnjevi slobode (ss ili df) i vjerojatnost slučajne pojave (p)

dobivene t-vrijednosti. Ukoliko je p-vrijednost manja od 5% (ili 1%) razliku možemo proglasiti

statistički značajnom (uz rizik od 5% ili 1%)

Primjer računanja t-testa za nezavisne uzorke

Na testu znanja iz matematike u razredu od 30 djece postignut je prosječni uspjeh od 16.5

boda uz standardnu devijaciju 1.3. Na istom testu, 35 djece iz susjednog razreda postiglo je

prosječno 15 bodova uz standardnu devijaciju 2. Razlikuju li se dva razreda po svom uspjehu

na testu iz matematike?

Hipoteza H0 : Nema razlika između dvaju razreda na testu iz matematike

Kod računanja t-testa najprije možemo izračunati pogreške aritmetičkih sredina dvaju

uzoraka, a zatim i samu vrijednost t-testa.

Prije interpretacije dobivenih rezultata trebamo odrediti graničnu vrijednost t-testa koja se

određuje na temelju stupnjeva slobode, koji u ovom slučaju iznose: df=(35-1) + (30-1)=63.

Za 99% razinu značajnosti iz tablice se može očitati granična vrijednost 2.66.

3.53 > 2.66 (Dobiveni t veći je od tabličnog t uz 1% pogreške).

Dobiveni rezultat: t=3.53, df=63, p<0.01.

Uz razinu rizika od 1%, možemo odbaciti nul-hipotezu i zaključiti da se aritmetičke sredine

ovih dvaju uzoraka međusobno razlikuju, odnosno da su učenici iz prvog razreda postigli

statistički bolji uspjeh iz matematike.

53.342.0

5.1

18.0

5.1

12.006.0

5.1

34.024.0

155.16

34.092.5

2

35

2

24.048.5

3.1

30

3.1

222

2

2

1

21

2

1

XX

X

X

ss

XXt

s

s

Page 47: statistika_skripta2012

Osnovni statistički postupci i analize

45

Primjer računanja t-testa za zavisne uzorke

Na testu znanja iz matematike u razredu od 30 djece postignut je prosječni uspjeh od 16.5

boda uz standardnu devijaciju 1.3. Taj je isti razred na prethodnom testu iz istog predmeta

postigao u prosjeku 15 bodova uz standardnu devijaciju 2. Povezanost rezultata učenika na

dva testa iznosi 0.6. Razlikuje li se uspjeh ovih učenika u dva testa iz matematike?

Hipoteza H0 : Nema razlika između rezultata skupine učenika na dva testa iz

matematike.

Prije interpretacije dobivenih rezultata trebamo odrediti graničnu vrijednost t-testa koja se

određuje na temelju stupnjeva slobode, koji u ovom slučaju iznose:

df=30-1=29

Za 99% razinu značajnosti iz tablice se može očitati granična vrijednost 2.76.

5.17 > 2.76 (Dobiveni t veći je od tabličnog t uz 1% pogreške).

Dobiveni rezultat: t=5.17, df=29, p<0.01.

Uz razinu rizika od 1%, možemo odbaciti nul-hipotezu i zaključiti da se aritmetičke sredine

ovih dvaju uzoraka međusobno razliku, odnosno da su učenici bolje riješili drugi test iz

matematike

Važna napomena:

Ako trebamo usporediti vrijednosti više od 2 skupine rezultata ne smijemo koristiti t-test

zbog problema višestrukih usporedbi i povećanja vjerojatnosti pogreške tipa I. Umjesto toga

koristimo analizu varijance.

17.529.0

5.1

083.0

5.1

104.0187.0

5.1

36.024.06.0236.024.0

155.16

2

36.048.5

2

30

2

24.048.5

3.1

30

3.1

2222

21

2

1

2121

xxxsrsss

XXt

s

XXX

X

X

X

Page 48: statistika_skripta2012

Osnovni statistički postupci i analize

46

4.3. KORELACIJA

U korelacijskoj analizi se utvrđuje postojanje veze između pojava ili njihovih obilježja,

odnosno postojanje, smjer i veličina povezanosti između dvije varijable. Koeficijent

korelacije kojeg pritom izračunavamo predstavlja vrijednost koja pokazuje i snagu i smjer

odnosa između dva događaja ili mjerenja. Važno je naglasiti da korelacija pokazuje

povezanost, ali ne govori ništa o uzročno-posljedičnom odnosu.

Predznak korelacije govori o smjeru odnosa: pozitivna korelacija pokazuje da se

dva faktora zajedno povećavaju ili smanjuju, kao što je slučaj s visinom i težinom. Negativna

korelacija pokazuje da povećavanje jednog faktora rezultira smanjivanjem drugoga, pa tako,

na primjer, što kraće učite neko gradivo imat ćete više vremena za slobodne aktivnosti.

Što se veličine (snage) povezanosti tiče, raspon korelacije kreće se u rasponu od

1.00 do -1.00. Što je korelacija bliža vrijednosti 1.00 ili -1.00, to je odnos jači. Na primjer,

korelacija između visine i težine je oko 0.70 i predstavlja snažnu povezanost, dok je

korelacija između inteligencije i boje kose oko 0.00 (ne postoji povezanost). Kada se

izračuna koeficijent korelacije između dviju varijabli, prije daljnje interpretacije dobivene

vrijednosti treba izračunati da li je dobivena vrijednost statistički značajna ili ne, pa tek tada

interpretirati dobivene rezultate.

S obzirom na karakteristike varijabli koje obrađujemo i podataka koje smo prikupili

moguće koristiti različite koeficijente korelacije. Najčešće korišteni koeficijent korelacije je

Pearsonov koeficijent korelacije (r) koji se računa ako:

je povezanost između dviju varijabli linearna

su rezultati obje varijable izraženi barem na intervalnoj skali

su distribucije obiju varijabli simetrične te ako imamo više od 30 parova podataka.

Page 49: statistika_skripta2012

Osnovni statistički postupci i analize

47

4.4. HI-KVADRAT TEST

Hi-kvadrat test predstavlja neparametrijski test kojeg koristimo kad imamo podatke na

nominalnoj skali mjerenja. On se temelji na usporedbi dobivenih (izmjerenih) frekvencija

(ne postotaka!) različitih skupina ispitanika i očekivanih (teorijskih) frekvencija koje je prije

računanja samog testa potrebno odrediti. Teorijske se frekvencije određuju na temelju

istraživačke hipoteze i pitanja kojeg postavljamo. Odabir teorijskih frekvencija najčešće

predstavlja kritični i ključni dio izračuna hi-kvadrat testa i na ovaj korak uvijek treba usmjeriti

posebnu pažnju.

Slično kao kod računanja t-testa, kod hi-kvadrat testa potrebno je izračunati ne samo

vrijednost samog testa, već i pripadajuće stupnjeve slobode na temelju kojih će se odrediti

granična vrijednost hi-kvadrat testa; ta se vrijednost može iščitati iz Statističke tablice za hi-

kvadrat test (Tablica u prilogu: „Granične vrijednosti 2 “). Prilikom navođenja rezultata hi-

kvadrat testa navodi se najprije vrijednost testa (2 ), a zatim i pripadajući stupnjevi slobode

(ss ili df) i vjerojatnost slučajne pojave (p) dobivene vrijednosti hi-kvadrat testa. Ukoliko je p-

vrijednost manja od 5% (ili 1%) razliku možemo proglasiti statistički značajnom (uz rizik od

5% ili 1%).

hi-kvadrat test

t

to

f

ff 22 )(

;

df=k-1 ili df=(k1 -1) (k2-1)

fo - opažene frekvencije; ft - teoretske frekvencije;

k – broj kategorija unutar pojedinih (jedne ili više) varijabli

Kod korištenja hi-kvadrat testa treba naglasiti i to da se kod zavisnih uzoraka koristi posebna

verzija ovog testa, tzv. McNemarov test. Također, u slučaju malog broja ispitanika (ili

kategorija), može se primijeniti i tzv. Yatesova korekcija unutar hi-kvadrat testa.

Primjer računanja hi-kvadrat testa kod istraživanja s jednom varijablom:

U skupini od 24 djevojčice istražena je čestina sudjelovanja u izvanškolskim aktivnostima.

Dobiveni rezultati pokazali su da je ukupno 7 djevojčica pohađalo neku sportsku aktivnost,

njih 11 strani jezik, dok ih se 6 upisalo u debatni klub. Preferiraju li djevojčice određenu

slobodnu aktivnost, ili sve biraju jednakom čestinom?

Hipoteza H0: Djevojčice jednako često biraju svaku od mogućih slobodnih aktivnosti.

Page 50: statistika_skripta2012

Osnovni statistički postupci i analize

48

Nakon što smo izračunali teorijske frekvencije na temelju hipoteze o jednolikoj raspodjeli (vidi

Tablicu), možemo izračunati i sami hi-kvadrat test.

SPORTOVI STRANI JEZIK DEBATNI KLUB U K U P N O

OPAŽENE

FREKVENCIJE 7 11 6 24

TEORIJSKE

FREKVENCIJE 24/3=8 24/3=8 24/3=8 24

75.15.0125.1125.0

8

)86(

8

)811(

8

)87(

2

2222

Broj stupnjeva slobode: df=3-1=2

Za 95% razinu značajnosti iz tablice se može očitati granična vrijednost 5.99.

1.75 < 5.99 (Dobiveni hi-kvadrat je manji od graničnog uz 5% pogreške).

Dobiveni rezultat: 0.05>,2,75.12 pdf

Uz razinu rizika od 5%, možemo prihvatiti nul-hipotezu i zaključiti da djevojčice jednako često

biraju sve testirane slobodne aktivnosti.

Primjer računanja hi-kvadrat testa kod istraživanja s dvije varijable:

U skupini od 50 djece, 25 dječaka i 25 djevojčica, istražena je čestina sudjelovanja u

izvanškolskim aktivnostima. Dobiveni rezultati pokazali su da je ukupno 7 djevojčica

pohađalo neku sportsku aktivnost, njih 12 strani jezik, dok ih 6 nije upisalo nikakvu aktivnost.

U uzorku dječaka, njih 10 je pohađalo sportsku aktivnost, 5 strani jezik, a 10 ih nije pohađalo

nikakvu aktivnost. Razlikuju li se dječaci i djevojčice po odabiru slobodnih aktivnosti?

SPORTOVI STRANI JEZIK NEMA

AKTIVNOSTI U K U P N O

DJEVOJČICE 7 12 6 25

DJEČACI 10 5 10 25

U K U P N O 17 17 16 50

Hipoteza H0: Dječaci i djevojčice ne razlikuju se po odabiru slobodnih aktivnosti

Page 51: statistika_skripta2012

Osnovni statistički postupci i analize

49

Najprije trebamo izračunati teorijske frekvencije za svaku pojedinačnu kućicu u tablici. To

radimo tako da izračunamo umnožak ukupnog broja ispitanika u pripadajućem stupcu i retku,

i tu vrijednost podijelimo s ukupnim brojem ispitanika.

850

1625

5.850

1725

5.850

1725

850

1625

5.850

1725

5.850

1725

23

22

21

13

12

11

T

T

T

T

T

T

f

f

f

f

f

f

Zatim možemo izračunati i sami hi-kvadrat test.

4.45.044.126.05.044.126.0

8

)810(

5.8

)5.85(

5.8

)5.810(

8

)86(

5.8

)5.812(

5.8

)5.87(

2

2222222

Broj stupnjeva slobode: df=(2-1)(3-1)=2

Za 95% razinu značajnosti iz tablice se može očitati granična vrijednost 5.99.

4.4 < 5.99 (Dobiveni hi-kvadrat je manji od graničnog uz 5% pogreške).

Dobiveni rezultat: 0.05>,2,4.42 pdf

Uz razinu rizika od 5%, možemo prihvatiti nul-hipotezu i zaključiti da dječaci i djevojčice

međusobno ne razlikuju po izboru slobodnih aktivnosti.

Page 52: statistika_skripta2012

Zadaci za vježbanje

50

5. ZADACI ZA VJEŽBANJE

1. U razredu od 17 učenika nastavnik je izmjerio znanje iz hrvatskog jezika uz pomoć dva testa (Tablica 1). Organizirajte podatke iz tablice tako da ih za oba testa grupirate u jednake razrede. Podatke prikažite tablično i u obliku histograma.

Redni broj

Učenik Test 1 Test 2 Redni broj

Učenik Test 1 Test 2

1. K. L. 38 35 10. K. O. 26 19

2. S. P. 24 18 11. I.E. 29 28

3. L. A. 48 44 12. P.L. 47 43

4. P. K. 47 52 13. E. M. 24 16

5. Ć. D. 33 28 14. A. M. 18 29

6. L. M. 52 49 15. A. T. 37 34

7. P. A. 33 15 16. V. Đ. 49 49

8. P. M. 41 45 17. H. V. 34 30

9. Š. M. 34 34

2. U tablici su prikazani rezultati mjerenja depresivnosti skupine studenata. Nacrtajte distribuciju

rezultata grupiranih u razrede te izračunajte pripadajuće središnje vrijednosti (aritmetičku sredinu, centralnu i dominantnu vrijednost) i standardnu devijaciju rezultata.

19 26 14 25 20 26 12

14 24 20 23 24 30 7

18 18 15 22 19 17 24

19 26 13 20 19 25 24

22 25 20 24 21 28 18

20 23 27 13 29 7 23

25 21 19 17 27 13 21

26 20 25 22 12 15 32

3. Izračunajte prosječne vrijednosti (aritmetičku sredinu, centralnu i dominantnu vrijednost) sljedećih

distribucija. Razmislite o tome koje biste mjere koristili kao najbolje reprezentante pojedinih distribucija.

X C D

A 9 8 8 8 7 7 7 7 7 6 6 6 5

B 10 9 9 8 7 7 6 5 4 3 2 2 1

C 9 8 8 7 7 7 7 7 6 6 5 3 2

D 10 10 9 9 8 8 7 6 6 5 5 4 4

4. Studenti prve godine sociologije (N=40) imali su 9 ispita koje su trebali položiti. Do kraja godine

jedan je student položio svih 9 ispita, 6 je položilo njih 8, 10 studenata je položilo 7, 9 ih je položilo 6, 7 je položilo 5, 3 je položilo 4, dvoje 3 ispita, jedan 2 ispita, a jedan student nije položio niti jedan ispit. Koliko su ispita studenti u prosjeku položili? Izračunajte standardnu devijaciju rezultata. Komentirajte dobivenu distribuciju rezultata.

5. Izračunajte aritmetičku sredinu, centralnu vrijednost i dominantnu vrijednost, te standardnu

devijaciju za niže navedene podatke. Razmislite o prikladnosti pojedinih mjera središnjih vrijednosti u svakom primjeru. a) 10, 8, 6, 0, 8, 3, 2, 2, 8, 1, 0. b) 1, 3, 3, 5, 5, 5, 7, 7, 9. c) 13, 5, 4, 4, 4, 4, 2, 1, 0.

Page 53: statistika_skripta2012

Zadaci za vježbanje

51

6. U ispitivanju zadovoljstva poslom nastavnici jedne škole su popunjavali upitnik čiji je mogući

raspon bodova bio od 0-30. Pritom su dobiveni sljedeći rezultati: 12, 14, 14, 14, 13, 14, 14, 15, 16, 13, 14, 15, 12, 14, 18, 17, 25, 15, 14, 14, 13, 13, 14. Izračunajte sve prikladne središnje vrijednosti koje poznajete, usporedite dobivene rezultate i prokomentirajte koja je središnja vrijednosti najprikladnija za ove rezultate! Odredite raspon dobivenih rezultata.

7. Na željezničkoj stanici registrirano je vrijeme kašnjenja jednog brzog vlaka u razdoblju od 30 dana. Dobiveni su sljedeći rezultati u minutama: 18, 15, 24, 2, 5, 16, 26, 8, 12, 10, 47, 32, 16, 17, 22, 25, 15, 10, 3, 7, 19, 31, 30, 11, 24, 16, 35, 22, 45, 20. Sastavite tablicu po razredima intervala 7 i nacrtajte histogram frekvencija. Odredi aritmetičku sredinu, medijan i mod.

8. Na testu iz matematike učenici su prosječno dobili 14 bodova (s=2.5), iz hrvatskog su imali

prosječno 15 bodova (s=2.5), a iz engleskog 40 bodova (s=8). U kojem ispitu je raspršenje ocjena bilo najveće, a u kojem najmanje?

9. U ispitivanju samopoštovanja skupina učenika je postigla rezultate navedene u tablici. Izračunajte

središnje vrijednosti, standardnu devijaciju i koeficijent varijabilnosti dobivenih rezultata.

24 39 31 26 12

23 22 29 53 26

18 33 28 54 23

20 14 28 36 35

20 53 33 38 51

10. Prosječno vrijeme reakcije skupine ispitanika (N=100) iznosi 120 ms, dok je standardna devijacija

te distribucije 12. Izračunajte koliko ispitanika ima rezultat: a) jednak ili manji od 100 b) jednak ili veći od 150 c) jednak ili manji od 90 d) između 115 i 130.

11. Studenti (N=300) su rješavali tri različita testa:

TEST 1 TEST 2 TEST 3

X 50 60 30

s 10 7 10

Studenti A i B su na testovima postigli sljedeće rezultate:

Student TEST 1 TEST 2 TEST 3

A 50 50 40

B 40 60 40

Izračunajte koji je student ukupno postigao bolji rezultat.

12. Skupina studenata (N=60) je rješavala zadatak kojim se mjerila vještina rješavanja problema. Prosječno vrijeme dovršavanja zadatka bilo je 130 sekundi, a standardna devijacija 15s. Izračunajte: a) Koliko studenata ima rezultat manji od 100s? b) Koliko studenata ima rezultat veći od 140s? c) Koliko studenata ima rezultat veći od 110s? d) Koliko vrijeme je postiglo 10% najboljih (najbržih) studenata? e) Koliko vrijeme je postiglo 20% najlošijih studenata (s najdužim vremenom)? f) Kolika je vjerojatnost da će neki student postići vrijeme brže (manje od) 110s?

13. Na ispitu iz statistike studenti su prosječno riješili 11 zadataka, pri čemu je standardna devijacija rezultata iznosila 4. Na ispitu je prošlo 40% studenata koji su najbolje riješili test. Koliki je najmanji rezultat morao imati student koji je prošao ispit?

Page 54: statistika_skripta2012

Zadaci za vježbanje

52

14. Ukoliko je aritmetička sredina distribucije kvocijenta inteligencije 100, a standardna devijacija 20, koliki najmanji kvocijent inteligencije moraju imati osobe koje se nalaze u 1% najinteligentnijih ljudi?

15. U jednom istraživanju, 15 roditelja navelo je prosječan broj sati koje njihova djeca tjedno provedu u izradi domaće zadaće: 6, 10, 3, 5, 1, 2, 3, 7, 5, 5, 4, 6, 6, 7, 4, 4, 5, 5, 6, 7. a) Navedite prosječan broj sati koje djeca provedu u izradi domaće zadaće. Izračunajte aritmetičku sredinu, centralnu i dominantnu vrijednost. b) Izračunajte pripadajuće raspršenje distribucije (raspon i standardnu devijaciju) rezultata. c) Izračunajte z-vrijednosti za djecu koja uče 3, 7 i 4 sata. d) Kad biste sve rezultate pretvorili u z-vrijednosti, koja bi bila aritmetička sredina i standardna devijacija nove distribucije? e) Odredite u kojem se decilu nalazi učenik koji tjedno provede 3 sati u izradi domaće zadaće, a u kojem onaj koji provede 10 sati.

16. Slučajni uzorak 100 zaposlenika velike firme je sudjelovao u ispitivanju karakteristika zaposlenika. Prosječna dob radnika je 36.4 godine, a raspršenje je SD=11 godina. Kolika je prosječna dob svih zaposlenika ta firme?

17. Agencija za istraživanje javnog mnijenja je tijekom predsjedničkih izbora prognozirala uspjeh prva dva predsjednička kandidata u drugom krugu izbora. Na uzroku od 600 ispitanika prognozirali su da će pobjednički kandidat dobiti 65% pri čemu je na samim izborima ovaj osvojio 67.9%. Da li je agencija uspješno prognozirala rezultate izbora?

18. 95 pacijenata koji se liječe od depresije podijeljeni su u dvije skupine. Jednu skupinu je sačinjavalo 50 pacijenata (E) i oni su tijekom 2 tjedna primali novi lijek za koji se smatra da smanjuje broj simptoma. Druga je skupina od 45 ispitanika (K) u to vrijeme bila bez takvog tretmana. Nakon terapije svi ispitanici su ispunili upitnik depresivnosti i pritom postigli sljedeće rezultate (veći rezultat ukazuje na veću depresivnost). Postoji li razlika u broju simptoma između te dvije skupine. Interpretirajte dobiveni rezultat.

E K

ARITM. SRED. 14 16

STAN. DEV. 3.2 4.4

19. Skupina od 60 plivača u dva navrata je preplivala dužinu od 500 metara. Izračunato je prosječno vrijeme plivanja u sekundama za prvi i drugi slučaj te povezanost između vremena plivanja u prvom i drugom pokušaju. Da li postoji razlika u vremenu u kojem su plivači preplivali bazen u prvom i drugom slučaju? Interpretirajte dobivene rezultate.

1. slučaj 2. slučaj

ARITM. SRED. 270 284

STAN. DEV. 25.7 35.6

r +0.74

20. Udruga za ljudska prava provodila je edukacije o pravima djece među učenicima šestih razreda osnovne škole. Prije i poslije edukacije među sudionicima edukacije primjenjen je upitnik vezan uz poznavanje prava djeteta pri čemu su dobili sljedeće rezultate (veći rezultat ukazuje na bolje poznavanje prava):

Prije edukacije Poslije edukacije

ARITM. SRED. 32 33,5

STAN. DEV. 4.5 5

N 50

r 0.6

Page 55: statistika_skripta2012

Zadaci za vježbanje

53

a) Da li su učenici poslije edukacije bolje poznavali svoja prava?

b) Zamislite da niste ispitali znanje učenika prije početka edukacije, već ste umjesto toga ispitali znanje usporedne (kontrolne) skupine učenika (N=50) koji nisu pohađali edukaciju i pritom dobili iste vrijednosti kao u prvom primjeru. Odredite da li u tom slučaju učenici koji su pohađali edukaciju bolje poznaju prava djece od onih koji edukaciju nisu pohađali.

21. Na uvodnom predavanju iz statistike profesor je studente upozorio da studenti koji tijekom godine polože barem 2 od 4 kolokvija u pravilu postižu bolji uspjeh na pismenom ispitu iz statistike. Na kraju godine je na ispit izašlo 75 studenata od kojih je 35 prošlo dva kolokvija ili više. Ta je skupina studenata u pismenom ispitu ukupno postigla 12 bodova (s=1.4), dok su studenti koji nisu položili kolokvije u prosjeku postigli 10.5 bodova (s=2). Razlikuju li se studenti po svom uspjehu na ispitu. Interpretirajte dobivene rezultate.

22. Skupina studenata postigla je sljedeći uspjeh na kolegiju Osnove sociologije. Provjerite da li postoji razlika u zastupljenosti pojedinih ocjena na ovom kolegiju.

Nedovoljan Dovoljan Dobar Vrlo

dobar Izvrstan Ukupno

Opažene frekvencije

2 7 15 20 6 50

Page 56: statistika_skripta2012

Zadaci za vježbanje

54

Rješenja zadataka

1. Koristeći razredni interval 10, moguće je ovako grupirati podatke (moguća su i drugačija rješenja).

Broj bodova Test 1 Test 2

11-20 1 4

21-30 4 4

31-40 6 3

41-50 5 5

51-60 1 1

2. Moguće grupiranje:

od 6-9 (2), 10-13 (5), 14-17 (6), 18-21 (17), 22-25 (16), 26-29 (8), 30-33 (2).

X 20.7

C 21

D 20

s 5.43

3.

A B C D

X 7 5.6 6.3 7

C 7 6 7 7

D 7 9/7/2 7 -

4. Distribucija je negativno asimetrična.

X 5.9

C 6

D 7

s 1.84

5.

A B C

X 4.4 5 4.1

C 3 5 4

D 8 5 4

s 3.70 2.45 3.72

6.

X 14.5

C 14

D 14

Raspon 25-12=13

7. Moguće grupiranje:

od 0-6 (3), 7-13 (6), 14-20 (9), 21-27 (6), 28-34 (3), 35-41 (1), 42-48 (2).

X 19.4

C 17.5

D 16

Page 57: statistika_skripta2012

Zadaci za vježbanje

55

8. Raspršenje je najveće na testu iz engleskog (20%), a najmanje na testu iz hrvatskog (16.7%). 9.

X 30.8

C 28

D besmisleno

s 11.99

V 38.93%

10. a) Oko 4.5% ispitanika (z=-1.67). b) Manje od 1% ispitanika (z=2.5). c) Manje od 1% ispitanika (z=-2.5). d) 46.95% ispitanika (z1=-0.42; z1=0.83). 11. Student B je ukupno postigao bolji rezultat (A: z=-0.43; B: z=0). 12. a) 2.3% studenata (z=-2) b) 25.14% studenata (z=0.67) c) Oko 91% studenata (z=-1.33) d) z=-1.25; x=111.25 e) z=0.84; x=142.6 f) Oko 0.09. 13. Studenti su morali imati najmanje 12 bodova (z=0.25).

14. Minimalno moraju imati kvocijent 126 (z=1.3).

15. a) X =5.05; C=5; D= 5

b) s=2.01; raspon=9 c) -1.01, 0.97, -0.52 d) X =0, s=1

e) Učenik koji tjedno provede 3 sati u izradi domaće zadaće nalazi se u drugom, a onaj koji provede 10 sati u desetom decilu.

16. Uz rizik od 5% prosječna dob zaposlenika tvrtke je između 34.2 i 38.6, a uz rizik od 1% između 33.6 i 39.3 godina.

17. Agencija je dobro prognozirala izbore: uz rizik od 1% procjena na temelju njihove procjene u populaciji se mogao očekivati rezultat između 63 i 73%.

18. t-test za velike nezavisne uzorke: t=2.5, df=93, p < 0.05, p > 0.01

19. t-test za velike zavisne uzorke: t=4.6, df=59, p < 0.01

20. t-test za velike zavisne uzorke: t=2.49, df=49, p< 0.05; t-test za velike nezavisne uzorke: t=1.58, df=98, p > 0.05

21. t-test za velike nezavisne uzorke: t=3.7, df=73, p < 0.01

22. hi-kvadrat test: 2 =21.4, df=4, p < 0.01

Page 58: statistika_skripta2012

Literatura

56

6. PREPORUČENA LITERATURA

Mejovšek, M. (2007). Metode znanstvenog istraživanja u društvenim i humanističkim

znanostima. Jastrebarsko: Naklada Slap.

Milas, G. (2009). Istraživačke metode u psihologiji i drugim društvenim znanostima.

Jastrebarsko: Naklada Slap.

Mužić, V. (2004). Uvod u metodologiju istraživanja odgoja i obrazovanja. Zagreb:

Educa.

Petz, B. (2004). Osnovne statističke metode za nematematičare. Jastrebarsko:

Naklada Slap.

Page 59: statistika_skripta2012

Prilog

57

PRILOG: STATISTIČKE TABLICE

Tablica 1. „Površine ispod normalne krivulje“

Tablica 2. „Granične vrijednosti t uz zadani broj stupnjeva slobode“

Tablica 3. „Granične vrijednosti 2 “

Page 60: statistika_skripta2012
Page 61: statistika_skripta2012
Page 62: statistika_skripta2012