62
PEDAGOŠKA STATISTIKA Skripta doc.dr.sc. Andreja Bubić Filozofski fakultet Sveučilište u Splitu ak.god. 2012/2013

pedagoska statistika

  • Upload
    bar-fly

  • View
    566

  • Download
    25

Embed Size (px)

DESCRIPTION

skripta

Citation preview

  • PEDAGOKA STATISTIKA

    Skripta

    doc.dr.sc. Andreja Bubi

    Filozofski fakultet

    Sveuilite u Splitu

    ak.god. 2012/2013

  • Sadraj

    SADRAJ

    KLJUNI SIMBOLI

    KLJUNE FORMULE

    1. OSNOVNI POJMOVI U STATISTICI

    1.1. Skale mjerenja

    1.2. Uzorkovanje

    2. DESKRIPTIVNA STATISTIKA

    2.1. Organizacija prikupljenih podataka i prikazivanje rezultata

    2.1.1. Grupiranje rezultata u razrede

    2.1.2. Tablino i grafiko prikazivanje rezultata

    2.2. Mjere sredinjih vrijednosti

    2.2.1. Aritmetika sredina

    2.2.2. Centralna vrijednost

    2.2.3. Ostale mjere sredinjih vrijednosti

    2.3. Mjere rasprenja rezultata

    2.3.1. Raspon rezultata

    2.3.2. Varijanca

    2.3.3. Standardna devijacija

    2.3.4. Koeficijent varijabilnosti

    2.3.5. Ostale mjere rasprenja

    2.4. Distribucije rezultata

    2.4.1. Normalna distribucija

    2.5. Poloaj rezultata u skupini

    2.5.1. z-vrijednosti

    2.5.2. Centili i decili

    3. INFERENCIJALNA STATISTIKA

    3.1. Pogreke mjerenja

    3.2. Procjena parametara

    3.3. Testiranje hipoteza

    4. OSNOVNI STATISTIKI POSTUPCI I ANALIZE

    4.1. Odabir prikladne statistike analize

    4.2. t-test

    4.3. Korelacija

    4.4. hi-kvadrat test

    5. ZADACI ZA VJEBANJE

    6. PREPORUENA LITERATURA

    PRILOG: STATISTIKE TABLICE

  • Kljuni simboli

    1

    KLJUNI SIMBOLI

    Openito

    - suma (zbroj) svih rezultata

    x - simbol za apsolutnu vrijednost od x (npr. 1 =1 ili 1 =1 )

    Nx - Simbol (x) koji se nalazi uz glavni (N) oznaava podskup na koji se glavni simbol odnosi

    x simbol za svaki pojedinani rezultat / podatak

    N ukupan broj podataka / izmjerenih vrijednosti

    n broj podataka / izmjerenih vrijednosti u nekom podskupu ili uzorku

    Grupiranje i organizacija rezultata

    f frekvencija rezultata (u razredu); ima isto znaenje kao i n

    rf relativna frekvencija

    kf kumulativna frekvencija

    rkf relativna kumulativna frekvencija

    i - interval razreda kod grupiranja rezultata

    TR totalni raspon rezultata

    Rx poloaj neke vrijednosti u skupu podataka (najee se koristi Rc za poloaj centralne vrijednosti)

    Sredinje vrijednosti

    X - aritmetika sredina

    Za oznaavanje aritmetike sredine esto se koristi i M (eng. mean aritmetika sredina);

    aritmetika sredina razreda moe se oznaiti i kao m

    Ukoliko se radi o aritmetikoj sredini populacije najee se koristi simbol

    C centralna vrijednost / medijan

    D dominantna vrijednost / mod

    G geometrijska sredina

    H harmonina sredina

    Mjere rasprenja

    s (sd) - standardna devijacija

    s2 (sd

    2) varijanca

    Ukoliko se radi o populacijskoj vrijednosti (standardnoj devijaciji i varijanci populacije) onda

    se najee koriste simboli i 2

    V koeficijent varijabilnosti

    Q poluinterkvartilno rasprenje / interkvartilni raspon

    Poloaj rezultata u grupi

    z z-vrijednost

  • Kljuni simboli

    2

    Testiranje hipoteza

    Xs - pogreka aritmetike sredine

    ps - pogreka proporcije

    t vrijednost t-testa

    - razlika izmeu 2 uzorka

    r - Pearsonov koeficijent korelacije

    df (ili ss) stupnjevi slobode (eng. degrees of freedom)

    p vjerojatnost sluajne pojave neke vrijednosti

    Kod kategorijalnih varijabli:

    2 - hi-kvadrat test

    k broj kategorija unutar jedne varijable (npr. spol: k=2 (muki i enski))

    p proporcija podataka jedne kategorije; q proporcija podataka druge kategorije (q=1-p)

    fo - opaene frekvencije

    ft - teoretske frekvencije

    Osim ovih, u statistici se koristi i mnotvo drugih mjera i simbola koje moete pronai u statistikoj literaturi (neke

    preporuke za daljnje itanje navedene su i u ovoj skripti).

  • Kljune formule

    3

    KLJUNE FORMULE

    Deskriptivna statistika

    Aritmetika sredina N

    xX

    Poloaj centralne vrijednosti 5,0

    2

    NRc

    Raspon Raspon = xmax xmin

    Standardna devijacija N

    Xxs

    2)(

    (populacija)

    1

    )( 2

    N

    Xxs

    (uzorak)

    Varijanca

    N

    Xxs

    2

    2)(

    (populacija)

    1

    )( 22

    N

    Xxs

    (uzorak)

    Koeficijent varijabilnosti 100X

    sV

    Poloaj rezultata u skupini

    z-vrijednost

    s

    Xxz

    decil 10xN

    rangd

    centil 100xN

    rangc

  • Kljune formule

    4

    Procjena parametara

    Pogreka aritmetike sredine N

    ssX

    Procjena aritmetike sredine populacije

    X 2.58 X

    s (uz 99% sigurnosti)

    X 1.96X

    s (uz 95% sigurnosti)

    Pogreka proporcije N

    pxqs p

    Procjena proporcije u populaciji

    p 2.58 ps (uz 99% sigurnosti)

    p 1.96 ps (uz 95% sigurnosti)

    Testovi

    t-test: osnovna formula

    st

    t-test za velike (N 30) nezavisne uzorke

    22

    21

    21 Xss

    XXt

    X

    ;

    df=(N1-1) + (N2-1)

    t-test za velike (N 30) zavisne uzorke 2121

    222

    21

    XXX

    srsss

    XXt

    X

    ;

    df=N-1

    hi-kvadrat test

    t

    to

    f

    ff 22 )( ;

    df=k-1 ili df=(k1 -1) (k2-1)

    Legenda: Vidi Kljuni simboli

  • Osnovni pojmovi u statistici

    5

    1. OSNOVNI POJMOVI U STATISTICI

    Statistika je znanstvena disciplina (grana primijenjene matematike) koja se bavi

    prikupljanjem, obradom, interpretacijom i prezentacijom podataka, a ima primjenu u gotovo

    svim znanostima. Iako statistiku primijenjenu u razliitim znanostima ne treba nuno

    oznaavati posebnim imenima, ponekad se moe susresti i takva praksa (npr. njezina

    primjena u pedagokim i ostalim obrazovnim znanostima ponekad se naziva pedagoka

    statistika).

    Prednosti koritenja statistike ukljuuju veu preciznost u opisivanju pojava;

    sreivanje podataka u smislenom i pogodnom obliku; uoavanje zakonitosti;

    prognozu mogueg kretanja neke pojave i pronalaenje uzrono-posljedinih veza.

    Nedostaci koritenja statistike ukljuuju povremenu nemogunost kvantifikacije svih

    pojava koje nas zanimaju; rad s nepreciznim pokazateljima (npr. brojane ocjene);

    nesavjesne pojedince; neispravne interpretacije ispravnih rezultata te precjenjivanje /

    pretjeranu generalizaciju dobivenih zakljuaka. Zbog ovih nedostataka treba naglasiti

    kako je uvijek vano provjeravati i nadograivati znanja dobivena provedbom

    istraivanja i primjenom statistikih postupaka.

    Statistike metode se koriste u dvije osnovne svrhe: (1) kako bi se opisala i analizirala

    mjerena pojava na razini prikupljenih podataka ime se bavi deskriptivna statistika te (2)

    kako bi se na temelju podataka dobivenih mjerenjem na uzorku generaliziralo, odnosno

    zakljuivalo o stanju u iroj populaciji to omoguuju metode inferencijalne statistike.

    Stoga, prvi koraci statistike obrade ukljuuju deskriptivne analize kojima je cilj opisati

    izmjereni skup podataka navoenjem frekvencija, mjera sredinjih vrijednosti (vrijednosti koje

    reprezentiraju taj skup) i pripadajueg rasprenja (mjere koja nam pokazuje koliko sredinja

    vrijednost dobro reprezentira spomenuti skup), te ga grafiki ili tablino prikazati. Nakon toga

    moemo se u daljnjim analizama koristiti brojnim postupcima inferencijalne statistike koje

    meusobno razlikujemo s obzirom na vrstu modela koje koriste (parametrijske ili

    neparametrijske metode), broj varijabli koje uzimaju u obzir (univarijantne, bivarijantne ili

    multivarijantne tehnike) te osobine uzorka i izmjerenih podataka. Na kraju treba naglasiti da

    odabir prikladne statistike metode u istraivanju prvenstveno ovisi o istraivakom pitanju

    na koje elimo odgovoriti.

    Prije nego to se detaljnije usmjerimo na statistiku, potrebno je vrlo kratko navesti i

    osnovne metodoloke pojmove koje emo koristiti u ovoj skripti. Savjetujemo vam da o

    metodologiji provoenja znanstvenih istraivanja vie nauite iz preporuene literature jer se

    radi o znanjima koja trebate savladati prije poetka planiranja i provoenja istraivanja.

  • Osnovni pojmovi u statistici

    6

    Osnovni pojam u statistici je varijabla koja se odnosi na bilo koji proces ili pojavu koji

    moemo opaati i mjeriti unutar istraivanja. Varijabla je osobina koja moe poprimiti razliite

    vrijednosti (za razliku od konstante koja uvijek ima jednaku vrijednost), pa ovaj pojam

    koristimo za skup podataka iste vrste, npr. spol, dob ili zadovoljstvo ivotom. U

    (eksperimentalnim) istraivanjima razlikujemo dvije vrste varijabli, nezavisne i zavisne.

    Nezavisna varijabla je ona varijabla koju manipuliramo i iji nas utjecaj na mjerenu pojavu

    zanima. Za razliku od toga, zavisna varijabla je varijabla ije promjene pratimo, odnosno

    varijabla koju mjerimo. U istraivanjima nas esto zanima utjecaj nezavisne na zavisnu

    varijablu: npr. ako istraivanjem elimo ispitati kako najavljivanje testova utjee na uspjeh

    uenika, onda nam nain najave testa predstavlja nezavisnu, a uspjeh na testu uenika

    zavisnu varijablu. Svaki od uenika koji sudjeluju u naem istraivanju pritom predstavlja

    jednog ispitanika ili sudionika istraivanja. Tijekom ovakvo osmiljenog istraivanja za

    svakog od naih ispitanika prikupit emo po jedan rezultat na nezavisnoj (nain na koji je

    najavljen test), te jedan na zavisnoj varijabli (ocjenu ili bodove na testu).

    Dakako, u istraivanjima je mogue mjeriti i vie od jedne zavisne i nezavisne

    varijable. Na primjer, uz spomenute podatke, o svakom ueniku moemo prikupiti i druge

    informacije (npr. zabiljeiti njihov spol, dob, razred i slino) koje onda predstavljaju dodatne

    varijable u istraivanju.

    Prilikom mjerenja ciljanih varijabli na nekom uzorku uvijek se izlaemo odreenim

    pogrekama o kojima e kasnije biti vie rijei. Statistike metode nam pomau nositi se s

    ovim pogrekama, i to onima koje nisu posljedica sustavnih pristranosti. Naime, u

    istraivanjima uvijek polazimo od pretpostavke da svaki mjereni rezultat predstavlja

    (jednostavnu linearnu) kombinaciju konstantnih faktora ili pravih rezultata mjerenja

    (vrijednost koja nas zanima) i sluajnih varijacija, takozvanih nesistematski varijabilnih

    faktora (neki od njih poveavaju, a neki smanjuju mjerene vrijednosti; njihov ukupni zbroj je

    0). Na primjer, ako u skupini uenika mjerimo vrijeme potrebno za rjeavanje zadatka, osim

    prave vrijednosti mjerenja (stvarno vrijeme potrebno za rjeavanje) na dobivene rezultate

    mogu djelovati i neki sluajni faktori (npr. kod nekih uenika neoekivana buka moe

    produiti rjeavanje, dok neki uenici mogu nauti tono rjeenje i stoga neopravdano imati

    krai izmjereni rezultat).

    Rezultati unutar svake ispitane varijable mogu biti izmjereni na razliitim skalama ili

    ljestvicama, o emu emo detaljnije neto rei u sljedeem dijelu. Nakon toga kratko emo

    se osvrnuti i na naine odabira uenika koji sudjeluju u naem istraivanju, odnosno

    uzorkovanje.

  • Osnovni pojmovi u statistici

    7

    1.1. SKALE MJERENJA

    Nominalnu skalu mjerenja pronalazimo kod varijabli koje su kategorijalne ili kvalitativne,

    odnosno onih varijabli kod kojih ispitanike moemo razlikovati prema nekoliko kategorija

    meu kojima ne postoji nikakav prirodni slijed (nema kriterija prema kojemu bi se vrijednosti

    mogle odrediti kao vee od ili manje od drugih). Stoga nominalna skala ne predstavlja

    pravu skalu mjerenja, ve imenovanje nominalnih obiljeja varijable. Na primjer, zavrena

    srednja kola predstavlja kategorijalnu varijablu koju moemo kodirati na sljedei nain: 1-

    gimnazija, 2 - struna kola, 3 - tehnika kola i 4 - umjetnika ili sportska kola

    Kao to je vidljivo u primjeru, pripadnost razliitim kategorijama ove varijable vezuje

    se uz odreenu brojanu vrijednost, ali ona je potpuno proizvoljno odreena. S obzirom na

    broj kategorija koje se unutar varijable mogu odrediti, razlikujemo binarne (dihotomne)

    varijable koje imaju samo dvije, te multikategorijalne varijable koje imaju vie kategorija.

    S obzirom na osobitosti nominalnih skala, u analizi rezultata na tim skalama

    dozvoljeno je koristiti samo ogranieni broj statistikih analiza i postupaka: dominantnu

    vrijednost (ne i aritmetiku sredinu), proporcije, hi-kvadrat test i neke druge vrste analiza koje

    se temelje na frekvencijama.

    Kod ordinalnih (rangovnih ili ljestvinih) skala mjerena varijabla ima vrijednosti koje se

    niu prema odreenom redoslijedu koji reflektira izraenost mjerenog svojstva. Meutim,

    ovdje redoslijed vrijednosti reflektira relativne razlike mjerenja (poredak) bez tonog stupnja

    tih razlika. Primjer ordinalne skale je zavrni poredak sportaa na natjecanjima pobjednik

    koji dobije zlatnu medalju ima najbolji rezultat na natjecanju; onaj koja dobije srebrnu medalju

    je drugi, a bronanu trei po uspjehu. Meutim, rang predstavlja relativno grubo odreenje

    poloaja jer nam ne govori nita o pravom rezultatu pojedinca stoga ne moemo tvrditi da

    je sporta sa srebrnom medaljom bolji od onoga s bronanom jednako onoliko koliko je

    pobjednik natjecanja bolji od njega.

    S obzirom na karakteristike ordinalnih skala, u obradi podataka na ovim skalama se

    najee koristi centralna vrijednost, rang korelacija i drugi postupci koji se temelje na

    rangovima, te neki oblici neparametrijskih metoda za testiranje hipoteza.

    Metrike ili kvantitativne skale vezuju se uz varijable kojima moemo pridruiti realne

    brojeve i na njima koristiti matematike operacije. Njihove vrijednosti mogu biti

    diskontinuirane (diskretne ili meusobno razdvojene) ili kontinuirane. Diskontinuirane

    varijable su one koje mogu poprimiti konaan broj svojstava; one se zapisuju iskljuivo

    cjelobrojno, npr. broj izlazaka na ispit. Kontinuirane varijable, za razliku od toga, mogu

    poprimiti bilo koju vrijednost unutar nekog intervala i mogu se zapisivati i decimalnim

  • Osnovni pojmovi u statistici

    8

    brojevima, npr. duina, teina, itd. Openito kod metrikih varijabli jednake razlike u

    brojevima na skali predstavljaju jednake razlike u promatranom svojstvu dakle, dvije osobe

    koje imaju 55 i 57 kilograma jednako se meusobno razlikuju po teini kao i osobe koje imaju

    74 i 76 kilograma.

    Dvije su osnovne vrste metrikih skala - intervalne i omjerne. Intervalne skale su one

    metrike skale koje ne posjeduju apsolutnu ve samo relativnu nulu, kao to je sluaj sa

    skalom temperature mjerenom u stupnjevima Celsiusa. Dakle, kod njih su poloaj nule i

    mjerne jedinice odreeni dogovorno. Stoga kod ovih skala nije mogue koristiti omjere: npr.

    nije mogue rei da je temperatura od 25C dvaput hladnija od 50C (iako vrijedi da je razlika

    izmeu 75 i 50C jednaka onoj od 50 i 25C). Kod omjerne (odnosne) skale jednake razlike

    brojeva takoer predstavljaju jednake razlike mjerenog svojstva. Uz to, kod ovih skala postoji

    i apsolutna nula, te je stoga ovdje doputeno koristiti omjere. Primjeri omjerne skale su visina

    uenika ili vrijeme.

    Kod rezultata izmjerenih na metrikim skalama mogue je koristiti najvei broj

    statistikih analiza, ukljuujui i iroki spektar parametrijskih postupaka (ako su zadovoljeni i

    ostali uvjeti za njihovo koritenje). Iako za odabir prikladne statistike analize nije svejedno

    imamo li podatke na intervalnoj ili omjernoj skali mjerenja, u praktinim se situacijama rijetko

    postavlja vrlo stroga razlika izmeu tih skala.

  • Osnovni pojmovi u statistici

    9

    1.2. UZORKOVANJE

    Uzorkovanje je postupak formiranja uzorka iz populacije, odnosno odabira ispitanika koji e

    sudjelovati u nekom istraivanju. Populaciju ine svi mogui lanovi neke skupine s

    odreenim znaajkama (ponekad se naziva i statistiki skup). Uzorak je dio populacije na

    kojem provodimo istraivanje (dio statistikog skupa).

    Na primjer, ukoliko nas zanima ranije opisano pitanje o utjecaju najave testova na

    uspjeh uenika, cilj nam je provesti istraivanje ije emo rezultate moi podijeliti s kolegama

    u drugim kolama i donijeti zakljuke koji e biti korisni za osmiljavanje buduih strategija

    organizacije nastave. Meutim, u svom istraivanju gotovo sigurno neemo moi ukljuiti sve

    uenike na koje e se odnositi doneseni zakljuci, ve emo umjesto toga odabrati malu

    skupinu uenika i na njoj provesti mjerenje. Openito smo u istraivanjima gotovo uvijek

    usmjereni na mjerenje uzoraka jer je ponekad populaciju nemogue, preskupo ili presloeno

    izmjeriti, a ponekad tako neto ne bi imalo smisla raditi (npr. ako mjerenjem unitavamo

    elemente skupa).

    Nain odabira uzorka reflektira nae ciljeve i elju za kasnijom generalizacijom

    zakljuaka; naalost, taj je izbor uvijek ogranien praktinim mogunostima. Vano je

    naglasiti da nam je kod odabira uzorka cilj odabrati onu skupinu ispitanika koja to bolje

    reprezentira populaciju kojoj pripada jer nam to omoguuje bolje zakljuivanje i predvianje

    pojava. Na temelju toga koliko dobro uzorak predstavlja ciljanu populaciju, mogue je odrediti

    njegovu reprezentativnost za ciljanu populaciju, odnosno njegov stupanj pristranosti.

    Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije

    potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloeni odreenim

    pogrekama mjerenja o kojima e kasnije biti vie rijei.

    S obzirom na osobine uzorka na kojem provodimo istraivanje, razlikujemo nekoliko

    temeljnih vrsta uzoraka (osim ovih, postoje i drugi naini odabira uzoraka o kojima moete

    vie saznati u dodatnoj literaturi):

    o SLUAJNI - Uzorak kod kojeg svaki lan populacije ima jednaku vjerojatnost biti

    odabran (odabir se vri uz pomo npr. tablica sluajnih brojeva). Sluajni uzorak

    je obino i reprezentativan za populaciju, dok za one uzorke kod kojih neki lanovi

    imaju veu vjerojatnost da budu odabrani kaemo da su pristrani.

    o SISTEMATSKI Uzorak kod kojeg se lanovi populacije biraju uz pomo nekog

    pravilnog algoritma (npr. svaki peti uenik u imeniku). Vrlo esto je ovaj uzorak

    takoer reprezentativan za populaciju, to dakako ovisi o koritenom algoritmu.

    o STRATIFICIRANI Uzorak koji pokuava zadrati strukturu populacije za koju

    znamo da se sastoji od odreenih slojeva. Pritom se lanovi svakog sloja biraju

  • Osnovni pojmovi u statistici

    10

    po principu sluajnog uzorka (npr. ako u nekoj koli imamo 25% uenika iz

    manjinskih skupina, isti postotak tih uenika moemo zadrati i u uzorku)

    o KVOTNI - Uzorak se bira tako da se odrede stratumi ili skupine (npr. skupine

    uenika s razliitim opim uspjehom), a istraiva po svom slobodnom izboru iz

    svakog predvienog stratuma odabere definiran broj ispitanika (npr. po 30

    uenika s izvrsnim, vrlo dobrim, dobrim, dovoljnim i nedovoljnim uspjehom)

    o PRIGODNI Uzorak koji se ne moe unaprijed odrediti, ve se ispituju oni

    pojedinci koji su istraivau dostupni, odnosno osobe koje zateknemo na

    eljenom mjestu u trenutku mjerenja (npr. studenti koji se trenutno nalaze na

    nekoj studijskoj grupi).

    Odabir uzorka predstavlja vrlo vaan dio svakog istraivanja koji jako moe utjecati

    na kvalitetu dobivenih podataka te je na njega stoga posebno usmjeriti posebnu panju.

    Osim odabira vrste uzorka i naina biranja ispitanika, vano je odrediti i broj ispitanika koje

    elimo ispitati. Prilikom odreivanja veliine uzorka treba prije svega uzeti u obzir

    varijabilnost pojave koju mjerimo (ako varijabilnost ne postoji i sve osobe imaju jednako

    izraeno svojstvo, dovoljan nam je 1 ispitanik; ako je pojava jako varijabilna potrebno nam je

    mnogo ispitanika) i eljenu preciznost koju bismo htjeli postii prilikom mjerenja (ako elimo

    veu preciznost i manju pogreku mjerenja, u istraivanje emo ukljuiti vie ispitanika). U

    nekim situacijama kod odabira veliine uzorka treba uzeti u obzir i veliinu populacije,

    frekvenciju ciljane pojave u populaciji, planirane analize rezultata i mogui otpad, odnosno

    naputanje istraivanja od strane odabranih ispitanika.

  • Organizacija i prikazivanje podataka

    11

    2. DESKRIPTIVNA STATISTIKA

    Jednom kad ste prikupili odreene podatke potrebno ih je organizirati, prikazati i statistiki

    obraditi. Metode deskriptivne statistike omoguuju nam upravo takvu organizaciju, opis i

    osnovnu analizu prikupljenih podataka.

    2.1. ORGANIZACIJA PRIKUPLJENIH PODATAKA I PRIKAZIVANJE REZULTATA

    Organizacija podataka prije svega ukljuuje kodiranje, odnosno kvantificiranje svih varijabli, i

    njihovo unoenje u odabrani program za statistiku obradu. Kod nekih varijabli je taj proces

    jednostavan jer su izmjerene na metrikim skalama, pa podatke samo trebamo unijeti u

    prikladni statistiki program (npr. ako smo zadovoljstvo ivotom mjerili na skali od 1 do 5,

    rezultate ispitanika ve imamo u brojanoj formi).

    Neto je sloeniji proces kodiranja varijabli koje nisu unaprijed kvantificirane, odnosno

    pretvaranja onih vrijednosti koje su jo uvijek prikazane opisno u brojeve (npr. spol ispitanika

    ne moete uzeti u obzir u analizi ukoliko ga nekako (proizvoljno) brojano ne odredite, na

    primjer kodu muki moemo dodijeliti broj 1, a kodu enski broj 2). Uz to, prilikom

    kodiranja dobro je razmisliti kako ete rijeiti situacije u kojima neki podaci nedostaju jer npr.

    ispitanik nije dao podatke ili su vam napisani odgovori neitljivi. Pritom trebate odluiti kako

    ete te podatke kodirati (najee je dobro dodati dodatan kod, odnosno brojanu vrijednost

    koja predstavlja kategoriju nema odgovora) i kako ete ih kasnije tretirati u sloenijim

    analizama.

    Nakon toga, ovisno o vrsti i broju izmjerenih podataka, mogue je grupirati podatke

    u razrede.

    2.1.1. Grupiranje prikupljenih rezultata u razrede

    Nakon to smo prikupili eljene podatke, cilj nam je organizirati definirane vrijednosti tako da

    ih to lake moemo predoiti, vidjeti oblik distribucije rezultata i prije statistike analize

    provjeriti pogodnost primjene odreenih statistikih analiza. Dakle, svaka bi statistika

    analiza trebala zapoeti grafikim prikazom rezultata. esto nam to prikazivanje, kao i daljnju

    statistiku analizu, olakava grupiranje rezultata.

    Kako grupirati rezultate?

    Proces grupiranja rezultata moe se opisati kao slijed nekoliko koraka:

    1. Odrediti u koliko razreda elimo grupirati rezultate.

  • Organizacija i prikazivanje podataka

    12

    2. Odrediti raspon unutar svakog razreda, tzv. interval razreda. Interval razreda rauna

    se po formuli:

    interval = totalni raspon / broj razreda.

    Totalni raspon ukljuuje ukupan broj rezultata, kojeg izraunamo kao razliku najveeg

    i najmanjeg rezultata uveanu za 1 (TR = (xmax xmin) +1)).

    Nakon to smo izraunali vrijednost intervala razreda, dobiveni omjer moe se

    zaokruiti na veu vrijednost (nikada manju) ime osiguravamo da nam svi izmjereni

    rezultati uu u predviene razrede.

    3. Odrediti donju i gornju granicu svakog razreda. U pravilu se granice razreda odreuju

    tako da preciznou odgovaraju mjerenim podacima (npr. ako imamo rezultate koji su

    u formatu cijelih brojeva, onda i granice razreda odreujemo kao cijele brojeve). Osim

    toga, mogue je odrediti i tzv. pravu gornju i pravu donju granicu razreda o kojima

    moete vie saznati u preporuenoj literaturi.

    4. Prikazati distribuciju rezultata, odnosno odrediti frekvenciju rezultata u svakom

    razredu. Frekvencija (uestalost) nekog podatka je broj pojavljivanja tog podatka

    npr. u skupini rezultata 1, 1, 2, 2, 2, 3 broj 1 ima frekvenciju 2, broj 2 frekvenciju 3, a

    broj 3 frekvenciju 1. Osim ove frekvencije, za svaki podatak mogue je izraunati i

    relativnu frekvenciju koja predstavlja omjer obine frekvencije i ukupnog broja

    podataka (npr. relativna frekvencija broja 2 u prethodnom primjeru je 3/6, odnosno

    0.5), te postotak koji predstavlja omjer obine frekvencije i ukupnog broja podataka

    pomnoen sa 100. Zbroj relativnih frekvencija svih rezultata iznosi 1, a postotaka 100.

    Kod grupiranja rezultata neke korake i vrijednosti odreujemo samostalno, odnosno

    proizvoljno (npr. broj razreda u koje elimo grupirati podatke).

    Kod ovih koraka mogue je, a ponekad i nuno, slijediti nekoliko preporuka za

    grupiranje rezultata:

    Intervali razreda (kvantitativne kategorije) se ne bi smjeli preklapati, odnosno svaki

    izmjereni podatak mora biti smjeten u jedan (i samo jedan) razred.

    Svi intervali razreda bi trebali biti jednake veliine.

    Treba preferirati neparan broj razreda.

    Broj razlika je provizoran, ali najbolji je u rasponu od 5-15.

    to je broj mjerenja manji i broj razreda treba biti manji, i obrnuto.

    Ako je mogue, treba izbjegavati distribucije s praznim razredima.

    U odabiru broja razreda treba se sluiti pokuajima, te uzeti onaj broj razreda koji

    daje najbolju distribuciju.

  • Organizacija i prikazivanje podataka

    13

    Primjer grupiranja rezultata

    Ovo je popis skupa originalnih rezultata nekog mjerenja (N=40).

    85 80 65 84 88 80 93 86

    92 79 70 87 62 86 90 78

    77 94 77 91 71 82 75 80

    68 71 80 73 71 79 79 76

    73 67 81 69 78 81 73 83

    elimo grupirati rezultate i za to odabiremo broj od 5 razreda; taj broj je opravdan s

    obzirom na to da elimo neparan broj razreda te da imamo relativno mali broj izmjerenih

    podataka.

    Zatim izraunavamo interval razreda koji predstavlja omjer totalnog raspona

    (raunamo ga kao ukupni broj rezultata (94-62=)+1=32+1=33) i broja razreda (proizvoljno

    smo odluili da to bude 5). Dakle, raunamo 33/5=6.6. To emo zatim zaokruiti na 7.

    Sljedei korak je odreivanje gornjih i donjih granica pojedinanih razreda. Kod

    odabira poetne vrijednosti, odnosno donje granice prvog razreda kreemo od 61; iako se

    radi o broju koji je manji od najmanje izmjerene vrijednosti biramo ga zbog prethodnog

    zaokruivanja vrijednosti. S obzirom na to da nam je interval razreda 7, gornja granica prvog

    razreda mora biti 67 to omoguuje da se u njemu nae 7 moguih rezultata (61, 62, 63, 64,

    65, 66 i 67). Na isti nain moemo odrediti donje i gornje granice svakog sljedeeg razreda.

    Nakon to smo odredili granine vrijednosti pojedinanih razreda, trebamo smjestiti

    rezultate u razrede, odnosno odrediti frekvenciju rezultata unutar svakog od njih. Za tu svrhu

    moemo koristiti pomonu tablicu koja je dolje prikazana. Prilikom popunjavanja tablice

    idemo rezultat po rezultat i oznaavamo koje smo rezultate uvrstili u tablicu. U donjoj tablici

    prikazani su rezultati grupiranja rezultata iz prethodnog primjera.

    Pomona tablica za grupiranja rezultata u razrede

    Razred Granice

    razreda Frekvencija

    Ukupni broj

    rezultata

    1. 61-67 III 3

    2. 68-74 IIII 9

    3. 75-81 15

    4. 82-88 III 8

    5. 89-95 5

  • Organizacija i prikazivanje podataka

    14

    2.1.2. Tablino i grafiko prikazivanje podataka

    Podatke moete prikazati grafiki i tablino. Nema previe smisla prikazivati iste podatke i

    tablino i grafiki pa se, ovisno o ciljevima i preglednosti prikaza, treba odluiti za jednu od

    ovih metoda.

    I. Tablino prikazivanje podataka

    Nekoliko je smjernica koje treba potivati prilikom tablinog prikazivanja podataka.

    Svaka tablica mora imati redni broj i naslov.

    Naslov mora biti kratak i jasan, a tablica samo-pojanjavajua. Ukoliko je potrebno,

    ispod tablice se moe dodati i Legenda koja pojanjava eventualne skraenice ili

    informacije koje inae iz same tablice ne bi bile jasne. Dodatna pojanjenja moraju biti

    naznaena uz tablicu, ne u tekstu. Na temelju naslova, legende i onoga to se u tablici

    nalazi, itatelj mora biti u mogunosti razumjeti sadraj tablice.

    Naslov tablice nalazi se iznad tablice, i moe biti centriran. Tekst Tablica br. se moe

    napisati u italic stilu, a sam naslov tablice u obinom tekstu. Openito, stil pisanja naslova

    tablice (font, prored) moe se razlikovati od ostatka teksta.

    Stupce i retke treba jasno i saeto oznaiti.

    Vrijednosti u redovima ili pak stupcima treba logiki poredati (npr. logino je da se najprije

    prikae aritmetika sredina, pa onda standardna devijacija, a ne obrnuto).

    Treba izbjegavati okomite crte u tablicama, a vodoravnima treba odvajati tek zaglavlje i

    podnoje tablice od ostalog dijela tablice, ili pak neke cjeline tablice meusobno.

    Najee je uputno prikazane vee brojeve razloiti u skupove po 3 znamenke (npr.

    umjesto 457635 napisati 457 635).

    Kad god je to mogue, u tablicama je uputno prikazati originalne, mjerene podatke.

    Ako se neki podatak iz tablice eli istaknuti, to se moe uiniti zvjezdicom (npr. statistika

    znaajnost) i to dodatno komentirati.

    Tablicu se u tekstu navodi njezinim rednim brojem (npr. vidi Tablicu 3; ili u Tablici 3

    nalaze se rezultati...).

    Tablica treba biti centrirana na stranici.

    Vane napomene: U organizaciji tablinog prikaza treba biti fleksibilan, i uskladiti je s

    ciljevima prikazivanja. Takoer, ovisno o tome gdje se tablica prikazuje, ona se mora / moe

    formatirati, odnosno organizirati i prikazati u skladu s relevantnim konvencijama, npr.

    pravilima asopisa u kojima elimo objaviti rezultate. Isto vrijedi i za grafiko prikazivanje

    rezultata.

  • Organizacija i prikazivanje podataka

    15

    Primjer tablica organiziranih prema gornjim naputcima

    Tablica 1

    Aritmetike sredine ( X ) i standardne devijacije (s) rezultata dobivenih primjenom skala depresivnosti i

    zadovoljstva ivotom kod studenata i studentica pedagogije i povijesti.

    Skale

    Spol ispitanika

    Studenti

    pedagogije

    Studenti povijesti

    X s X s

    Depresivnost m 75 11.2 77 14.1

    83 13.3 82 15.2

    svi 82 12.5 80 14.6

    Zadovoljstvo

    ivotom

    m 55 17.5 71 14.5

    64 18.2 62 14.6

    svi 58 18.0 66 14.4

    Tablica 2

    Broj studenata i studentica upisanih na studijske grupe Pedagogija i Povijest u akademskoj godini

    2000/2001.

    Spol studenata

    Studijska grupa

    Ukupno

    Pedagogija Povijest

    enski 29 16 45

    Muki 1 14 15

    Ukupno 30 30 60

  • Organizacija i prikazivanje podataka

    16

    II. Grafiko prikazivanje podataka

    Grafiko prikazivanje rezultata omoguuje jasno i cjelovito zahvaanje odnosa koji postoje

    meu podacima. Stoga je ono korisno ne samo za razumijevanje dobivenih rezultata, ve se

    moe koristiti ak i za procjenjivanje onih vrijednosti koje mjerenjem nisu izravno utvrene

    (interpolacija i ekstrapolacija). Grafiko prikazivanje rezultata je naroito vano za otkrivanje

    neke posebne ili neoekivane karakteristike rezultata, te nam olakava usporedbu razliitih

    vrijednosti, trendova i odnosa meu rezultatima.

    Openita preporuka prilikom grafikog prikazivanja jest to jasnije i jednostavnije prikazati

    dobivene rezultate. Kako biste u tome uspjeli, moete slijediti nekoliko jednostavnih principa:

    Svaki grafiki prikaz mora imati redni broj i naslov. Pri oznaavanju, graf se naziva

    Slika br., nakon ega slijedi kratak i jasan naslov. Stil pisanja naslova je slian

    onome kod tablica (Slika br. Naslov)

    Redni broj i naslov grafikog prikaza (slike) nalaze se ispod grafikog prikaza.

    Navoenje grafikog prikaza u tekstu ini se preko rednog broja slike (pr. vidi Sliku 1).

    U najveem broju sluajeva, grafikom prikaz treba dodati Legendu koja sadri

    objanjenja potrebna za razumijevanje prikaza.

    Grafiki prikaz treba biti jasan i itljiv treba paziti prilikom odabira boja razliitih

    kategorija, veliine i itljivosti fonta na slici, i sl.

    Grafiki prikaz treba biti centriran na stranici.

    Postoje razliite vrste grafikih prikaza podataka koje moemo koristiti, ovisno o vrsti

    podataka kojeg imamo i cilju njihovog prikazivanja. Meu njima najee koristimo:

    Kruni dijagram (torta-dijagram; pie-chart)

    jednostavan, dobar za deskripciju podataka

    ukljuuje prikaz kategorije i pripadajuih postotaka koji mogu biti prikazani

    unutar dijagrama ili u posebnoj legendi (ovisi o broju kategorija i preglednosti)

    Primjer grafikog prikaza kruni dijagram:

    Slika 1. Uspjeh studenata I. godine na ispitu iz Pedagoke psihologije. Prikazan je postotak studenata koji su na ispitu dobili pojedinane ocjene.

  • Organizacija i prikazivanje podataka

    17

    Dijagram u obliku stupaca / stupasti dijagram

    prikazuje odnos izmeu neke kvalitativne varijable i njezine frekvencije

    sastoji se od pravokutnika u kojima povrina (i visina) svakog pravokutnika

    odgovara frekvenciji svake kategorije

    osi dijagrama su sljedee: apscisa (x) kategorija; ordinata (y) najee

    frekvencija

    Histogram

    predstavlja stupasti dijagram s kontinuiranim varijablama

    sastoji se od pravokutnika u kojima povrina (i visina) svakog pravokutnika

    odgovara frekvenciji svakog intervala

    osi dijagrama su sljedee: apscisa (x) vrijednost mjerenja; ordinata (y)

    najee frekvencija

    Poligon frekvencija

    prikazuje odnos izmeu neke varijable i njezine frekvencije

    predstavljen je linijom koju definiraju toke ija visina pokazuje frekvenciju

    svakog intervala

    histogram se lako moe transformirati u poligon frekvencija ukoliko se na

    sredinu gornje linije svakog pravokutnika postavi toka koja onda predstavlja

    osnovu za izradu poligona.

    Pri konstrukciji stupastog dijagrama, histograma i poligona frekvencija treba voditi

    rauna o:

    odnosu duine apscise i ordinate (duina ordinate je oko 2/3 duine apscise)

    prekidanju apscise ili ordinate

    oznaavanju jedinica na osima (nije potrebno oznaavati sve izmjerene

    vrijednosti, ve nanositi uporine vrijednosti, obino cijele brojeve)

    organizaciji ordinate: kod ovih grafikih pristupa na osi y najee se nalazi

    frekvencija, iako se ponekad mogu koristiti i postotci ili relativne frekvencije

    optimalnoj organizaciji: pomou ovih grafikih prikaza moe se prikazati i vie

    od jedne distribucije. Pritom treba biti paljiv u organizaciji grafa i ne zaboraviti

    u njega ukljuiti jasnu legendu.

    Isti ili slini principi vrijede i za grafike prikaze koji opisuju odnos dviju varijabli,

    odnosno pokazuju kako se mijenja jedna pod utjecajem druge varijable. Pritom se

    naelno na os x nanosi nezavisna, a na os y zavisna varijabla.

  • Organizacija i prikazivanje podataka

    18

    Primjer grafikog prikaza histogram frekvencija:

    Slika 2. Prosjene ocjene na kraju kolske godine kod skupine od 60 uenika i 60 uenica treih

    razreda podrune kole X.

    Primjer grafikog prikaza poligon frekvencija:

    Slika 3. Prosjene ocjene na kraju kolske godine kod skupine od 60 uenika i 60 uenica treih

    razreda podrune kole X.

  • Mjere sredinjih vrijednosti i rasprenja

    19

    2.2. MJERE SREDINJIH VRIJEDNOSTI

    Raunanje sredinje vrijednosti predstavlja jednu od najeih statistikih analiza koju

    koristimo kako bismo kratko i zorno prikazali odreeni skup podataka. Raunanjem sredinje

    vrijednosti cijeli skup zamjenjujemo jednom vrijednou za koju smatramo da ga dobro

    reprezentira, te stoga moramo biti jako paljivi prilikom odabira prikladne mjere.

    2.2.1. Aritmetika sredina

    Aritmetika sredina ( X ) predstavlja jednu od najee koritenih mjera sredinjih vrijednosti.

    Ona se smatra najboljim pokazateljem prave vrijednosti mjerenja, i jedina je vrijednost koju je

    opravdano koristiti u sloenijim obradama podataka. Aritmetika sredina odreuje se tako da

    se sve vrijednosti u nekom skupu rezultata zbroje, a zatim se taj zbroj podijeli s ukupnim

    brojem rezultata.

    N

    xX

    N broj rezultata sigma, simbol za zbroj

    x svaki pojedinani rezultat mjerenja

    Meutim, aritmetiku sredinu nije opravdano koristiti uvijek, ve samo u onim

    situacijama u kojima su ispunjeni neki uvjeti. Naime, s obzirom na to da na vrijednost

    aritmetike sredine djeluje svaki rezultat svojom veliinom, kod raunanja aritmetike sredine

    veliki problem predstavlja postojanje ekstremnih vrijednosti, odnosno rezultata koji jako

    odstupaju od veine izmjerenih vrijednosti unutar jednog skupa. Openito, to su rezultati

    homogeniji, aritmetika sredina bolje reprezentira te podatke.

    Aritmetika sredina predstavlja teite rezultata, jer je zbroj odstupanja pojedinanih

    rezultata od aritmetike sredine jednak 0, dok je zbroj kvadrata tih odstupanja manji od

    zbroja kvadrata odstupanja od bilo koje druge vrijednosti u nekom skupu podataka.

    Aritmetiku sredinu dozvoljeno je koristiti samo kada su ispunjeni sljedei uvjeti:

    o postoje pravi mjerni podaci koji su tono odreeni

    o izmjeren je dovoljan broj podataka (zbog stabilnosti)

    o distribucija rezultata je simetrina.

    Primjer raunanja aritmetike sredine:

    Mjerenjem smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Izraunajte

    aritmetiku sredinu.

    4,415

    66876655444433322

    NX

  • Mjere sredinjih vrijednosti i rasprenja

    20

    2.2.2. Centralna vrijednost (medijan)

    Za razliku od aritmetike sredine, centralna vrijednost (C) nije izraunata vrijednost, ve

    vrijednost poloaja. Naime, centralna vrijednost predstavlja onaj rezultat koji se u nizu

    rezultata poredanih po veliini nalazi tono po sredini. Na nju ne utjeu vrijednosti pojedinih

    rezultata ve samo njihov broj, te je stoga pogodna za koritenje u situacijama kada se u

    skupu podataka moe pronai nekoliko ekstremnih rezultata.

    Prilikom odreivanja centralne vrijednosti najprije je potrebno odrediti poloaj te

    vrijednosti u nizu rezultata poredanih po veliini. Pritom se koristi formula:

    5,02

    NRc

    N broj rezultata

    Nakon to smo odredili poloaj centralne vrijednosti, moramo odrediti i njezinu

    vrijednost. Ukoliko pred sobom imamo neparni broj rezultata, onda samo trebamo oitati onu

    vrijednost koja se nalazi na rednom poloaju kojeg smo izraunali u prethodnoj formuli. Ako

    se radi o parnom broju rezultata, onda je centralna vrijednost jednaka prosjeku dviju

    susjednih vrijednosti. Npr. ako imamo pet rezultata centralna vrijednost je ona koja se nalazi

    na treem mjestu, a ako ih imamo etiri onda se radi o prosjeku (aritmetikoj sredini)

    rezultata koji se nalaze na drugom i treem mjestu.

    Primjer raunanja centralne vrijednosti:

    Mjerenjem smo dobili sljedee rezultate: 7, 8, 4, 2, 3, 3, 3, 4, 2, 5, 4, 4, 5, 6, 6. Izraunajte

    centralnu vrijednost.

    Najprije treba poredati rezultate po veliini: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8.

    85,02

    15Rc ; C = 4

    2.2.3. Dominantna vrijednost (mod)

    Dominantna vrijednost (D) predstavlja onu vrijednost koja meu rezultatima dominira

    estinom pojavljivanja, dakle onu vrijednost koja ima najveu frekvenciju. Na nju utjee samo

    broj, ali ne i vrijednost pojedinanih rezultata. Stoga se preporuuje koristiti ju ako imamo

    velik broj rezultata od kojih su neki ekstremni, te ako samo jedna vrijednost dominira

    estinom. Naime, esto se dogaa da skupina rezultata nema samo jednu, ve vie

    vrijednosti s jednakom frekvencijom. U sluaju da npr. distribucija ima dva ili vie jednakih

    vrhova tada se oitaju dvije ili vie dominantnih vrijednosti, te govorimo o bimodalnim ili

  • Mjere sredinjih vrijednosti i rasprenja

    21

    multimodalnim distribucijama. Iako dominantna vrijednost predstavlja najslabiju mjeru

    sredinjih vrijednosti, u nekim situacijama i ona moe biti informativna i korisna.

    Primjer raunanja dominantne vrijednosti:

    Mjerenjem smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

    dominantnu vrijednost.

    D = 4

    2.2.4. Ostale mjere sredinjih vrijednosti

    Osim gore spomenutih, ponekad se mogu koristiti i druge mjere sredinjih vrijednosti. One

    ukljuuju harmoninu i geometrijsku sredinu koje se mogu koristiti samo kod omjernih skala

    mjerenja.

    Harmonina sredina se koristi kada elimo izraunati prosjeke nekih odnosa (npr.

    prosjeni km/h, broj slova u minuti), a smije se raunati ako broj nije negativan ili nula.

    Geometrijska sredina se preteno koristi kao prosjena mjera brzine nekih

    promjena, te se takoer smije raunati ako broj nije negativan ili nula.

    Vana napomena: U nekim skupovima mogue je izraunati vie od jedne mjere sredinjih

    vrijednosti, najee aritmetiku sredinu, centralnu vrijednost i dominantnu vrijednost. Ako to

    napravimo, usporedba ovih vrijednosti neto nam moe rei i o obliku distribucije rezultata, o

    emu e biti govora malo kasnije.

  • Mjere sredinjih vrijednosti i rasprenja

    22

    2.3. MJERE RASPRENJA REZULTATA

    Kao to smo opisali u prethodnom poglavlju, unutar deskriptivne statistike mogue je cijeli

    skup podataka zamijeniti jednom, sredinjom vrijednou koja ga najbolje reprezentira. Ta

    nam vrijednost, meutim, ne govori nita o tome koliko taj podatak dobro reprezentira

    izmjerene podatke (npr. sredinja vrijednost 4 bolje reprezentira skup 3 3 4 4 4 4 4 5 5

    nego skup 1 1 2 2 3 4 5 6 6 7 7). Tu nam informaciju nudi neka od mjera rasprenja

    (razlikovanja) rezultata koje emo sada opisati.

    2.3.1. Raspon rezultata

    Raspon podataka poredanih prema veliini predstavlja razliku najveeg i najmanjeg podatka.

    Raspon = xmax xmin

    Kao to je uoljivo, raspon rezultata poiva na samo dvije vrijednosti rezultata te je

    stoga jako osjetljiv na ekstremne rezultate. Osim toga, raspon najee raste s porastom

    broja mjerenja (rezultata), te predstavlja vrlo nesigurnu mjeru rasprenja rezultata.

    Primjer raunanja raspona rezultata:

    Mjerenjem smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 5, 6, 6, 7, 8. Odredite

    raspon rezultata.

    Raspon = 8 - 2 = 6

    2.3.2. Varijanca

    Varijanca (s2) predstavlja jednu od informativnijih mjera rasprenja rezultata koja se smije

    raunati samo uz aritmetiku sredinu. Varijanca predstavlja prosjek sume kvadriranih

    odstupanja svakog rezultata od aritmetike sredine; dakle, rauna se tako da izraunamo

    razliku izmeu svakog rezultata i aritmetike sredine, zatim te razlike kvadriramo i zbrojimo,

    te na kraju zbroj podijelimo s ukupnim brojem rezultata.

    N

    Xxs

    2

    2)(

    x svaki pojedinani rezultat mjerenja X - aritmetika sredina

    N broj rezultata

    Kao to je vidljivo iz formule, kod raunanja varijance vea odstupanja kvadriranjem

    dolaze vie do izraaja, te se na taj nain kanjava postojanje ekstremnih rezultata u

  • Mjere sredinjih vrijednosti i rasprenja

    23

    mjerenju. Openito, varijanca se kao samostalna vrijednost ne koristi esto, iako je ona vrlo

    korisna prilikom provoenja nekih drugih statistikih analiza.

    Vano je naglasiti da se gore napisana formula za varijancu naelno koristi kada radimo

    s podacima iz cijele populacije. Ukoliko su nai podaci dobiveni mjerenjem uzorka, preciznije

    je koristiti modificiranu formulu:

    1

    )( 22

    N

    Xxs

    Primjer raunanja varijance:

    Mjerenjem (na vrlo maloj populaciji) dobili smo sljedee rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

    varijancu dobivenih rezultata.

    Najprije odreujemo aritmetiku sredinu rezultata, a zatim varijancu:

    37

    214433322

    NX

    57.07

    4

    7

    )34()34()33()33()33()32()32( 22222222

    s

    2.3.4. Standardna devijacija

    Standardna devijacija (s) usko je povezana s varijancom. Ona predstavlja drugi korijen iz

    vrijednosti varijance, odnosno drugi korijen iz prosjeka sume kvadriranih odstupanja. Kao i

    varijanca, standardna devijacija rauna se samo uz aritmetiku sredinu. I kod ove vrijednosti

    postoje dvije formule jednu koristimo kad imamo rezultate mjerene na populaciji, a drugu

    ukoliko su rezultati dobiveni na uzorku.

    Mjerenje na populaciji Mjerenje na uzorku

    N

    Xxs

    2)(

    1

    )( 2

    N

    Xxs

    x svaki pojedinani rezultat mjerenja

    X - aritmetika sredina N broj rezultata

    Standardna devijacija je najee koritena mjera rasprenja koju uvijek treba navesti uz

    aritmetiku sredinu. Najjednostavnije reeno, to je vrijednost koja oznaava tipinu, ili

    prosjenu razliku izmeu pojedinanih rezultata i aritmetike sredine nekog skupa. to je

    standardna devijacija manja, to nam aritmetika sredina bolje reprezentira dobivene rezultate

    jer se oni u prosjeku manje razlikuju od nje.

    Ako poznajemo ove dvije vrijednosti za neki skup rezultata, moemo rekonstruirati jo

    neke podatke o njemu, o emu e biti rijei u iduem poglavlju.

  • Mjere sredinjih vrijednosti i rasprenja

    24

    Primjer raunanja standardne devijacije:

    Mjerenjem (na vrlo maloj populaciji) dobili smo sljedee rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

    standardnu devijaciju dobivenih rezultata.

    Najprije odreujemo aritmetiku sredinu rezultata, a zatim standardnu devijaciju:

    37

    214433322

    NX

    75.057.07

    4

    7

    )34()34()33()33()33()32()32( 2222222

    s

    2.3.5. Koeficijent varijabilnosti

    Kada su nam za dva skupa podataka poznate dvije aritmetike sredine i standardne

    devijacije, rezultati su potpuno definirani. No, ukoliko nas zanima koji od ta dva skupa

    rezultata vie varira, nije nam doputeno jednostavno usporediti njihove standardne

    devijacije.

    Umjesto toga, trebamo izraunati drugu, standardiziranu mjeru rasprenja koju

    nazivamo koeficijent varijabilnosti (V). Ovaj koeficijent koristimo kada elimo znati koja od

    dvije skupine rezultata relativno vie varira, odnosno ako nas zanima u kojem svojstvu neka

    skupina varira vie, a u kojem manje ili koja od ispitanih grupa varira vie, a koja manje u

    istom svojstvu.

    100X

    sV

    s standardna devijacija X - aritmetika sredina

    Primjer raunanja koeficijenta varijabilnosti:

    Mjerenjem (na vrlo maloj populaciji) smo dobili sljedee rezultate: 2, 2, 3, 3, 3, 4, 4. Odredite

    koeficijent varijabilnosti dobivenih rezultata.

    Najprije raunamo aritmetiku sredinu i standardnu devijaciju rezultata. Te emo

    vrijednosti uvrstiti u formulu za koeficijent varijabilnosti.

    37

    214433322

    NX

    75.057.07

    4

    7

    )34()34()33()33()33()32()32( 2222222

    s

    %2510025.01003

    75.0 xV

  • Mjere sredinjih vrijednosti i rasprenja

    25

    2.3.6. Ostale mjere rasprenja

    Osim gore spomenutih, ponekad se mogu koristiti i druge mjere rasprenja rezultata.

    Jedna od tih mjera koja nam moe biti od koristi naziva se poluinterkvartilno

    rasprenje, odnosno interkvartilni raspon. Ova se mjera rauna uz centralnu vrijednost, na

    rezultatima poredanim po veliini. Odreuje se kao razlika izmeu rezultata koji se nalazi na

    granici treeg ili gornjeg kvartila (rezultat koji razdvaja 75% najmanjih rezultata od onih veih)

    i onoga koji se nalazi na granici prvog ili donjeg kvartila (rezultat koji razdvaja 25% najmanjih

    podataka od ostalih). Vie o raunanju poluinterkvartilnog rasprenja saznajte u dodatnoj

    literaturi.

    Osim spomenutih, postoje i druge mjere rasprenja, npr. indeks srednjeg

    odstupanja s kojim ete se rijetko susretati.

  • Distribucije rezultata

    26

    2.4. DISTRIBUCIJE REZULTATA

    Distribuciju rezultata ine sve uestalosti, odnosno pojedinani rezultati i njihove

    frekvencije unutar nekog skupa podataka. Kao to ve znate, postoji veliki broj razliitih

    oblika distribucija od kojih smo neke ve spominjali. Kratak pregled nekih oblika distribucija

    prikazan je ovdje:

    Kvadratina / uniformna

    U - distribucija Bimodalna Normalna

    2.4.1. Normalna distribucija

    Normalna distribucija predstavlja temeljni oblik distribucije koji u statistici ima

    neobino veliku vanost. Ona predstavlja osnovu za razumijevanje pojmova statistike

    vjerojatnosti. Ponekad se, prema njemakom matematiaru C. Gaussu, naziva i Gaussova

    krivulja. Njezine temeljne osobine su zvonolik oblik, simetrinost i asimptotsko pribliavanje

    apscisi.

    Veliki broj pojava i osobina (ne sve!) u prirodi distribuira se normalno. Slino tome, u

    istraivanjima koja se provode na uzorcima takoer je esto mogue oekivati ovu

    distribuciju, i to onda kada su ispunjeni sljedei uvjeti:

    ako se osobina koju mjerimo zaista distribuira normalno u populaciji

    ako imamo dovoljno velik broj mjerenja

    ako su svi izmjereni rezultati dobiveni koritenjem iste metode i prikupljeni u istim

    uvjetima

    ako je skupina koju mjerimo homogena po svim osobinama, osim one koju

    mjerimo (po kojoj je heterogena).

  • Distribucije rezultata

    27

    Openito, kada u nekom istraivanju izmjerimo odreeno svojstvo i prikaemo

    rezultate, vrlo rijetko e se dogoditi da su oni distribuirani u obliku idealne normalne

    distribucije. Naime, ee emo imati priliku susresti se s nekim manjim varijacijama, meu

    kojima su osnovne razlike u irini i simetriji distribucije.

    Vezano uz varijacije u irini, razlikujemo leptokurtine (uske, visoke distribucije kod

    kojih se veina rezultata grupira oko aritmetike sredine) i platikurtine (iroke distribucije u

    kojima ima relativno puno rezultata koji se razlikuju od aritmetike sredine) distribucije. Na

    slici su prikazane tri takve distribucije koje se meusobno razlikuju po irini, odnosno

    statistiki gledano, prema rasprenju rezultata:

    Osim po irini, distribucije esto razlikujemo i prema stupnju simetrije. Kao to je

    spomenuto ranije, prava normalna distribucija je potpuno simetrina te su stoga kod nje sve

    mjere sredinjih vrijednosti (aritmetika sredina, centralna i dominantna vrijednost)

    meusobno jednake. Za razliku od toga, kod asimetrinih distribucija to nije sluaj.

    Pogledajte na slici odnos pojedinanih sredinjih vrijednosti kod pozitivno asimetrine

    (distribucija kod koje postoji vie ekstremnih rezultata viih vrijednosti) i negativno

    asimetrine (distribucija kod koje postoji vie ekstremnih rezultata niih vrijednosti)

    distribucije.

    Simetrina Pozitivno asimetrina Negativno asimetrina

    X =C=D

    D C X

    X C D

    Openito, ukoliko distribucija rezultata izmjerenih na nekom uzorku znaajno odstupa

    od normalne, to moe biti indikator da se mjerena pojava ni u populaciji ne distribuira

    normalno. S druge strane, jednako esto ili ee nam to moe ukazivati na pogreke u

    odabiru uzorka, odnosno postojanju nekih pristranosti u mjerenju (djelovanja sistematskih

    faktora na dobivene rezultate). Na primjer, ukoliko na testu matematike veliki broj djece

    0

    5

    10

    15

    20

    5 10 15 20 25 30 35 10152025303540

  • Distribucije rezultata

    28

    dobije ocjene vrlo dobar i izvrstan (dakle, ako je distribucija negativno asimetrina), to nam

    moe ukazivati na to da je test bio prelagan.

    Vano je napomenuti da je u istraivanjima vano provjeriti oblik distribucije osim

    subjektivno (preko grafikih prikaza), to se moe objektivno napraviti koritenjem testova za

    provjeru asimetrije i zaobljenosti, primjerice Kolmogorov-Smirnov testom koji se u praksi

    esto koristi. Ako izmjerena distribucija rezultata nije normalna, treba izbjegavati koritenje

    parametrijskih metoda analize koje se inae koriste kod normalno distribuiranih rezultata, jer

    to moe dovesti do pogrenih zakljuaka.

    Normalna distribucija je u praksi jako vana jer predstavlja osnovu za izraunavanje

    vjerojatnosti odreenog rezultata u nizu mjerenja. To moemo lako napraviti za bilo koje

    mjerenje ukoliko nam je poznata aritmetika sredina i standardna devijacija rezultata koji se

    normalno distribuiraju.

  • Poloaj rezultata u skupini

    29

    2.5. POLOAJ REZULTATA U SKUPINI

    Ukoliko smo u nekoliko istraivanja izmjerili jednu ili vie pojava i elimo usporediti

    pojedinane rezultate tih mjerenja, to ne moemo napraviti samo usporedbom mjerenih

    vrijednosti jer one mogu npr. biti izmjerene na razliitim skalama. Stoga je potrebno rezultate

    standardizirati, odnosno pretvoriti ih u neki standardni oblik. Pritom najee koristimo tzv.

    z-vrijednosti.

    2.5.1. z-vrijednosti

    Logika z-vrijednosti temelji se na razlikama rezultata od aritmetike sredine skupine

    kojoj pripadaju. Dakle, odreuje se odstupanje svakog rezultata od aritmetike sredine koje

    onda izraavamo na standardizirani nain. Pri tom koristimo univerzalne jedinice koje se

    mogu meusobno usporeivati. To su jedinice standardne devijacije.

    s

    Xxz

    x-svaki pojedinani rezultat s standardna devijacija X - aritmetika sredina

    Pretvaranjem distribucije izmjerenih vrijednosti u onu z-vrijednosti dobijemo novu

    distribuciju ija je aritmetika sredina 0, a standardna devijacija 1. Openito, unutar cijele

    normalne distribucije uvijek se nalazi isti postotak rezultata, a to isto moemo rei i za

    pojedine dijelove te distribucije. Kod normalne distribucije se tako praktino svi rezultati

    (99.9%) nalaze u rasponu aritmetika sredina 3 standardne devijacije. Unutar granice

    aritmetika sredina 2 standardne devijacije nalazi se vie od 95%, a unutar granice

    aritmetika sredina 1 standardne devijacije 68% rezultata.

    Osim toga, kod normalne distribucije je mogue izraunati toan postotak (broj

    rezultata) dobivenih u nekom rasponu u distribuciji; to inimo pomou formule za

    izraunavanje z-vrijednosti i Statistikih tablica, odnosno tablica koje nam za svako

  • Poloaj rezultata u skupini

    30

    standardizirano odstupanje (z) pokazuju povrinu ispod normalne distribucije (Tablica u

    prilogu: Povrine ispod normalne krivulje).

    Na temelju gore navedenog postupka, u nekoj distribuciji moemo odrediti npr. toan

    poloaj rezultata u nekoj skupini, broj ispitanika koji su postigli rezultate vee ili manje od

    neke vrijednosti, broj ispitanika koji je postigao rezultat unutar odreenog raspona, itd. Pri

    izraunavanju tih vrijednosti, vano je paljivo pratiti organizaciju tablice, te prije samog

    izrauna grafiki prikazati problem koji se pokuava rijeiti.

    Vano je naglasiti da je uz pomo z-vrijednosti mogue i kombinirati rezultate dvaju ili

    vie testova, npr. zbrojiti z-vrijednost pojedinca na nekoliko testova kako bi se odredio njegov

    ukupni / prosjean uspjeh u skupini.

    Primjer raunanja z-vrijednosti:

    Mjerenjem nekog uzorka dobili smo skup od 600 normalno distribuiranih rezultata ija

    je aritmetika sredina 100, a standardna devijacija 10. Odredite koja je vjerojatnost da je neki

    rezultat vei ili jednak od rezultata 103.

    3.010

    3

    10

    100103

    s

    XXz

    U Statistikim tablicama za vrijednost z=0.3 moemo iitati eljeni rezultat. Dakle,

    vjerojatnost da je neki rezultat vei ili jednak 103 je 0.382.

  • Poloaj rezultata u skupini

    31

    2.5.2. Centili i decili

    Osim z-vrijednosti, postoje i drugi naini odreivanja poloaja rezultata u skupini drugih

    rezultata. Vrlo esto se koriste skale centila i decila, naroito kod distribucija koje nisu

    distribuirane normalno. Logika njihovog koritenja slina je ranije spominjanom raunanju

    kvartila kod kojih se niz rezultata dijeli na etiri jednaka dijela (granica drugog kvartila je

    centralna vrijednost). Slino tome, kod decila se odreuju granice koje dijele niz rezultata

    poredanih po veliini u skupine od po 10% rezultata, dok se kod centila radi o skupinama od

    po 1% rezultata. To se moe napraviti uz pomo z-vrijednosti jer se u normalnoj distribuciji

    za ciljani granini postotak rezultata moe odrediti z-vrijednost uz koju se on vezuje, a zatim i

    originalni izmjereni rezultat.

    Meutim, jo je jednostavnije odrediti decile ili centile pomou bruto vrijednosti. Na

    primjer, kod odreivanja decila najprije je potrebno rezultate poredati po veliini. Nakon toga,

    odreuju se gornje granine vrijednosti decila kojih ima 9. Prva granica odvaja prvih 10%

    ispitanika, druga prvih 20%, itd. Granica 5. decila je centralna vrijednost.

    Raunski decil u kojem se nalazi neki rezultat moemo izraunati pomou formule:

    10xN

    rangd

    Prema istoj logici, raunski se centil u kojem se nalazi neki rezultat moe izraunati pomou

    formule:

    100xN

    rangc

    Kao to je spomenuto, ove se skale esto koriste kada nije opravdano koristiti z-

    vrijednosti ili kad se rezultati ele prikazati nestatistiarima. Iako korisne, ove skale imaju

    svojih ogranienja jer su grube, neaditivne i neekvidistantne, te se stoga u sloenijim

    analizama ne koriste.

  • Inferencijalna statistika

    32

    3. INFERENCIJALNA STATISTIKA

    Metode inferencijalne statistike omoguuju nam da na temelju podataka dobivenih

    mjerenjem na uzorku generaliziramo, odnosno donosimo zakljuke o stanju u iroj populaciji.

    Unutar inferencijalne statistike kljuno je poznavati osnove uzorkovanja koje, kao to je

    objanjeno u prikazu Deskriptivne statistike, predstavlja postupak formiranja uzorka iz

    populacije, odnosno odabira ispitanika koji e sudjelovati u nekom istraivanju. Populaciju

    ine svi mogui lanovi neke skupine s odreenim znaajkama (ponekad se naziva i

    statistiki skup). Uzorak je dio populacije na kojem provodimo istraivanje (dio statistikog

    skupa).

    Openito smo u istraivanjima gotovo uvijek usmjereni na mjerenje uzoraka jer je

    ponekad populaciju nemogue, preskupo ili presloeno izmjeriti, a ponekad tako neto ne bi

    imalo smisla raditi (npr. ako mjerenjem unitavamo elemente skupa). Nain odabira uzorka

    reflektira nae ciljeve i elju za kasnijom generalizacijom zakljuaka; naalost, taj je izbor

    uvijek ogranien praktinim mogunostima. Vano je naglasiti da nam je kod odabira uzorka

    cilj odabrati onu skupinu ispitanika koja to bolje reprezentira populaciju kojoj pripada jer

    nam to omoguuje bolje zakljuivanje i predvianje pojava. Na temelju toga koliko dobro

    uzorak predstavlja ciljanu populaciju, mogue je odrediti njegovu reprezentativnost za

    ciljanu populaciju. Prilikom organizacije mjerenja mogue je izabrati razliite vrste uzoraka,

    pri emu se esto koristi sluajni uzorak, odnosno uzorak kod kojeg svaki lan populacije ima

    jednaku vjerojatnost biti odabran (odabir se vri uz pomo npr. tablica sluajnih brojeva).

    Sluajni uzorak je obino i reprezentativan za populaciju, dok za one uzorke kod kojih neki

    lanovi imaju veu vjerojatnost da budu odabrani kaemo da su pristrani.

    Bez obzira na kvalitetu odabranog uzorka, treba imati na umu da uzorak nikada nije

    potpuni preslik populacije. Naime, prilikom mjerenja uvijek smo izloeni odreenim

    pogrekama mjerenja koje trebamo uzeti u obzir prilikom interpretacije i koritenja rezultata.

    S obzirom na to, kada na temelju uzorka elimo zakljuivati o stanju u populaciji (npr.

    predvidjeti izraenost neke osobine u populaciji ili provjeriti postojanje razlika meu

    grupama), tu pogreku moramo uzeti u obzir. Kako mi kod samog mjerenja nikad ne

    moemo znati veliinu pogreke koja se vezuje upravo uz to mjerenje, kao ni pravo stanje u

    populaciji, u praksi sve zakljuke donosimo s odreenom vjerojatnou ili uz odreeni

    stupanj sigurnosti. Drugim rijeima, uz nae se zakljuke uvijek vee mogunost pogreke;

    veliinu te pogreke izraavamo tako to uz dobiveni rezultat uvijek navodimo i vjerojatnost

    javljanja te pogreke, koju nazivamo i razinom rizika unutar istraivanja.

    Sam istraiva odreuje eljeni stupanj sigurnosti na kojem eli temeljiti svoje

    zakljuke: najee se pritom odluuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili

  • Inferencijalna statistika

    33

    99% (razinu rizika od 1%). Odabrana razina rizika pritom odraava vjerojatnost pogreke

    prilikom procjene: ukoliko se odluimo za razinu rizika od 1%, moemo pretpostaviti da emo

    kod napravljene procjene pogrijeiti u 1% sluajeva, odnosno u jednoj od sto napravljenih

    procjena.

    Razliite postupke i analize unutar inferencijalne statistike meusobno razlikujemo s

    obzirom na vrstu modela koje koriste (parametrijske ili neparametrijske metode), broj varijabli

    koje uzimaju u obzir (univarijantne, bivarijantne ili multivarijantne tehnike) te osobine uzorka i

    izmjerenih podataka. Pritom treba posebno naglasiti da odabir prikladne statistike metode u

    istraivanju prvenstveno ovisi o istraivakom pitanju na koje elimo odgovoriti.

  • Inferencijalna statistika

    34

    3.1. POGREKE MJERENJA

    Ako bismo iz neke populacije izvadili veliki broj uzoraka jednake veliine i za svaki od njih

    odredili prosjene vrijednost, aritmetike sredine tih uzoraka meusobno bi se razlikovale

    iako svi ti uzorci dolaze iz iste populacije (i nju predstavljaju). Ukoliko bismo sve te

    aritmetike sredine uzoraka grafiki prikazali, vidjeli bismo da e se aritmetike sredine

    populacije grupirati oko prave aritmetike sredine populacije, a njihova e distribucija

    nalikovati normalnoj. to su izmjereni uzorci vei, to e distribucija njihovih aritmetikih

    sredina biti slinija normalnoj i imati manju standardnu devijaciju. tovie, ak i ako

    distribucija populacije nije normalna, kod velikih uzoraka (esto N>30) e distribucija

    aritmetikih sredina biti normalna. To nazivamo teoremom centralne granice.

    Slika 1. Primjeri distribucije rezultata u populaciji (slike u retku 1), te distribucije aritmetikih

    sredina uzoraka razliite veliine (slike u retcima 2-4)

    Dakle, moemo zakljuiti kako aritmetika sredina velikog broja uzoraka nee tono

    odgovarati pravoj aritmetikoj sredini populacije, ve e se od nje vie ili manje razlikovati.

    Isto vrijedi i za ostale karakteristike uzorka, npr. standardnu devijaciju ili proporcije.

    Pogreka uzorka predstavlja upravo tu razliku izmeu vrijednosti dobivenih mjerenjem

    uzorka i stvarnog stanja u populaciji. Razlozi zbog kojih dolazi do pogreaka mjerenja

    ukljuuju: nesluajnost uzorka ili selektivni otpad ispitanika, netone i/ili neiskrene odgovore,

    nejasna pitanja, pogrean unos/kopiranje podataka i sl. Pogreka uzorka bit e vea kod

    manjih uzoraka koji slabije reprezentiraju populaciju iz koje potjeu.

    Formula za raunanje pogreke aritmetike sredine N

    ssX s - standardna devijacija

    N- broj ispitanika

    p proporcija jedne kategorije

    q proporcija druge kategorije Formula za raunanje pogreke

    proporcije N

    pxqs p

  • Inferencijalna statistika

    35

    Primjer odreivanja pogreke aritmetike sredine:

    U skupini od 64 uenika izmjerena je prosjena visina od 155 cm, uz standardnu devijaciju 8.

    Izraunajte pogreku aritmetike sredine ovog uzorka.

    18

    8

    64

    8

    Xs

    Primjer odreivanja pogreke proporcije:

    U skupini od 64 ukupno upisanih studenta jedne generacije, njih je 58 uspjeno upisalo sljedeu

    akademsku godinu. Izraunajte pogreku proporcije u ovom uzorku.

    p = 58/64 = 0.91

    q = 1-0.91 = 0.09

    035.0001.064

    082.0

    64

    09.091.0

    xs p

  • Inferencijalna statistika

    36

    3.2. PROCJENA PARAMETARA

    Ukoliko na nekom uzorku izmjerimo odreenu vrijednost, npr. aritmetike sredine, i na

    temelju toga elimo odrediti stvarnu aritmetiku sredinu populacije, preporuljivo je

    prognozirati ne samo jednu, ve raspon vrijednosti. To radimo zato jer se uz vrijednosti

    izmjerene na uzorku uvijek vee odreena pogreka koju pokuavamo neutralizirati

    koritenjem manje preciznih zakljuaka i navoenjem stupnja uvjerenja u te zakljuke.

    Proces odreivanja raspona u kojem se, uz odreenu sigurnost (rizik), nalazi

    vrijednost u populaciji ili parametar populacije naziva se procjena parametara. Parametar

    se pritom moe odnositi na npr. aritmetiku sredinu, proporciju, ili rasprenje unutar uzorka.

    Za procjenu parametra potrebno je znati vrijednost uzorka i pogreku koja se vee uz

    vrijednost uzorka.

    U praksi se procjena parametara najee radi za aritmetiku sredinu (kod podataka

    na intervalnim i omjernim skalama mjerenja), te proporcije (kod podataka na nominalnoj skali

    mjerenja). Pritom se koriste formule za raunanje pripadajuih pogreaka uzoraka s kojima

    smo se ve upoznali. Nakon to smo izraunali pogreku uzorka, tu mjeru moemo koristiti

    za procjenu intervala pouzdanosti. Taj interval oznaava raspon u kojem se, uz odreeni

    stupanj sigurnosti kojeg odabire sam istraiva, nalazi prava vrijednost populacije. Kod

    odreivanja intervala pouzdanosti uvijek kreemo od vrijednosti uzorka te irimo taj interval

    tako da od te vrijednosti oduzimamo i dodajemo jednaku vrijednost prema formuli:

    Procjena aritmetike sredine populacije

    X 2.58X

    s (uz 99% sigurnosti)

    X 1.96X

    s (uz 95% sigurnosti)

    Procjena proporcije u populaciji

    p 2.58 ps (uz 99% sigurnosti)

    p 1.96 ps (uz 95% sigurnosti)

    Primjer odreivanja intervala pouzdanosti aritmetike sredine:

    Deklarirana teina konzerve tunjevine nekog proizvoaa je 250 grama. Inspekcija je to provjerila tako

    da je izmjerila teinu na uzorku od 500 konzervi i pritom odredila da aritmetika sredina iznosi 247, a

    standardna devijacija 15 grama. Da li je deklaracija na konzervama tona?

    67.0500

    15

    Xs

    Procjena uz 1% rizika da je prava prosjena teina u ovom rasponu:

    247 2.58 x 0.67=247 1.73 (245.3 do 248.7)

    Uz stupanj sigurnosti od 99%, moemo zakljuiti da deklarirana teina ne spada u izraunati raspon,

    dakle deklaracija proizvoaa nije tona.

  • Inferencijalna statistika

    37

    3.3. TESTIRANJE HIPOTEZA

    Testiranje hipoteza predstavlja sistematski proces kojim provjeravamo potvruju li podaci

    prikupljeni unutar odreenog istraivanja testirane znanstvene teorije i hipoteza. Testiranje

    hipoteza provodi se kroz nekoliko koraka koji zapoinju postavljanjem hipoteze koja

    predstavlja odgovor na postavljeno istraivako pitanje, nastavljaju se odabirom i

    provoenjem prikladne statistike analize, a zavravaju odlukom o valjanosti postavljene

    hipoteze.

    Postupkom testiranja hipoteza moemo, na primjer, provjeriti:

    oblik distribucije frekvencija: najee to radimo kako bismo odredili da li je neka

    distribucija normalna ili ne.

    pripada li uzorak odreenoj populaciji. Na primjer, ukoliko u skupini nadarene djece

    primijenimo test inteligencije, moemo usporediti dobivenu vrijednost s prosjenom

    vrijednosti za koju nam je poznato da vrijedi u populaciji (u sluaju inteligencije je to

    100), i zatim odrediti da li se nadareni svojom inteligencijom istiu u usporedbi s

    drugom djecom njihove dobi.

    pripadaju li dva ili vie uzoraka istoj populaciji, odnosno postoji li statistiki znaajna

    razlika izmeu dviju ili vie skupina podataka. Na primjer, na ovaj nain moemo

    provjeriti da li se uenici razliitog socioekonomskog statusa razlikuju po ocjenama iz

    nekog predmeta.

    povezanost dviju ili vie varijabli. Na primjer, moemo provjeriti da li je koliina

    domaeg rada kojeg uenici trebaju napraviti tijekom semestra povezana s koliinom

    znanja koju steknu iz nekog predmeta

    1. KORAK: Postavljanje hipoteze

    Znanstvena istraivanja predstavljaju sustavne naine provjere postavki odreenih

    znanstvenih teorija ili odgovaranja na neka praktina pitanja. Na poetku istraivakog

    procesa nuno je postaviti odreenu hipotezu koja e se unutar istraivanja provjeriti. Vano

    je razlikovati dvije vrste hipoteza: istraivake hipoteze koje odraavaju teorijska ili

    istraivaeva uvjerenja o oekivanim rezultatima, te nul ili nulte hipoteze (H0) koje

    predstavljaju statistike hipoteze u koje sam istraiva ne mora vjerovati, ali ih treba postaviti

    kako bi ih provoenjem statistikih analiza provjerio.

    Na primjer, zamislite da radite u srednjoj koli, i imate dojam da djeca iz bogatijih

    obitelji bolje usvajaju gradiva iz tehnikih i znanstvenih predmeta od djece iz siromanijih

    obitelji. ini vam se da je to moda vezano uz veu dostupnost knjiga i informatike

    tehnologije kod djece iz bogatijih obitelji, te razmiljate o tome da ravnatelju predloite

    otvaranje informatike radionice koja bi djeci bila stalno dostupna, i u kojoj bi i oni siromaniji

  • Inferencijalna statistika

    38

    imali stalan pristup informacijama vanim za uenje. Meutim, prije toga elite svoju sumnju i

    provjeriti, te organizirate istraivanje u kojem ete provjeriti postoji li povezanost izmeu

    ekonomskog statusa obitelji djeteta i uspjeha u odabranim predmetima. Pritom je vaa

    istraivaka hipoteza afirmativna, odnosno vi smatrate da veza izmeu tih dviju varijabli

    postoji. tovie, vaa je istraivaka hipoteza direktivna, odnosno ona ukljuuje

    pretpostavljeni smjer povezanosti: smatrate da djeca iz bogatijih obitelji imaju vee ocjene iz

    odabranih obitelji. Za razliku od toga, nedirektivna hipoteza bi bila ona kod koje istraiva

    nema pretpostavke o smjeru efekta, ali pretpostavlja da nekakav efekt postoji. Na primjer, u

    istraivanju povezanosti dobi nastavnika i uspjeha uenika istraiva moe imati nedirektivnu

    istraivaku hipotezu jer nije siguran da li e za uspjeh uenika biti presudno (vee i bolje)

    iskustvo starijih nastavnika ili (vea) pristupanost i motivacija mlaih nastavnika.

    Za razliku od istraivake hipoteze koja odraava stvarna oekivanja i uvjerenja

    istraivaa, nul-hipoteza je statistika hipoteza koja pretpostavlja nepostojanje znaajnih

    efekata, npr. nepostojanje razlika izmeu skupina ispitanika, nepostojanje korelacije izmeu

    varijabli i slino. Nul-hipotezu testiramo koritenjem statistikih analiza, nakon ega tu

    hipotezu moemo odbaciti ukoliko dobijemo statistiki znaajan efekt, odnosno prihvatiti ako

    ne pokaemo statistiki znaajan rezultat.

    Primjer nul-hipoteze:

    H0: Ne postoji statistiki znaajna razlika izmeu djeaka i djevojica u verbalnoj

    inteligenciji.

    2. KORAK: Odabir prikladne statistike analize i razine statistike znaajnosti

    Nakon to smo postavili hipotezu, trebamo odabrati prikladnu statistiku analizu kojom emo

    odgovoriti na postavljeno istraivako pitanje. Pritom odabir statistikih testova i analiza u

    istraivanju ovisi o nekoliko initelja:

    postavljenom istraivakom pitanju

    vrsti i veliini ispitanog uzorka

    karakteristikama prikupljenih podataka (osobinama i broju koritenih varijabli;

    skalama mjerenja; distribuciji dobivenih rezultata).

    Jedan od najvanijih imbenika koje trebamo odrediti prilikom odabira prikladne

    statistike analize je vrsta uzoraka koje smo imali u istraivanju. Naime, ukoliko naim

    istraivanjem elimo provjeriti razlikuju li se dvije razliite skupine ispitanika koje smo

    izmjerili, onda meu podacima imamo dva nezavisna skupa, ili dva nezavisna uzorka

    podataka koje moramo usporediti. Ukoliko nas, meutim, zanima razlika izmeu uspjeha

    jedne te iste skupine ispitanika na dva testa ili dvije situacije, onda nau analizu provodimo

    na dva meusobno zavisna skupa podataka, odnosno na zavisnim uzorcima.

  • Inferencijalna statistika

    39

    3. KORAK: Provedba statistike analize i odreivanje granice odbacivanja nulte

    hipoteze

    Nakon odabira prikladne statistike analize, moemo krenuti u samo izraun kod kojeg

    koristimo standardne procedure opisane u udbenicima iz Statistike. Openito je lako pronai

    informacije o tome kako provesti statistiku analizu jednom kad je odabrana, a uz to veliki dio

    izrauna najee moemo prepustiti programima za statistiku analizu podataka.

    Vano je spomenuti da se provedba velikog broja statistikih analiza temelji na

    usporedbi uzorka kojeg smo izmjerili s tzv. usporednim uzorkom, odnosno distribucijom

    podataka kod koje vrijedi nul-hipoteza, odnosno kod koje nema statistiki znaajnog efekta

    kojeg ispitujemo. Unutar te usporedne distribucije odreuje se kritini rezultat kod kojeg bi

    nul-hipotezu trebalo odbaciti; ta vrijednost predstavlja rezultat koji bi se u teoriji (i praksi)

    mogao dobiti ak i ukoliko nul-hipoteza zaista vrijedi, ali je taj ishod malo vjerojatan. Dakle,

    kod testiranja hipoteza uvijek radimo s vjerojatnostima i nikad nismo apsolutno sigurni u

    dobiveni zakljuak. Nakon to smo odredili kritini rezultat unutar usporednog uzorka, ovaj se

    usporeuje s vrijednosti statistikog testa kojeg smo dobili unutar provedenog istraivanja.

    Treba naglasiti da odreivanje kritinog rezultata unutar usporedne distribucije ovisi i

    o eljenom stupnju sigurnosti na kojem istraiva eli temeljiti svoje zakljuke. Naime, kao

    to je ranije objanjeno kod procjene parametara, istraiva sam odreuje tu razinu, i to tako

    da se pritom najee odluuje za stupanj sigurnosti od 95% (razinu rizika od 5%) ili 99%

    (razinu rizika od 1%).

    4. KORAK: Odluka o prihvaanju ili odbacivanju nul-hipoteze

    Usporedbom rezultata dobivenog provedbom statistike analize i unaprijed odreene kritine

    razine rezultata donosi se odluka o prihvaanju ili odbacivanju nul-hipoteze. Spomenuta

    kritina rezultata moe se odrediti koritenjem Statistikih tablica za prikladni statistiki test

    unutar kojih se moe oitati granina vrijednost koja se vee uz broj stupnjeva slobode

    (eng. degrees of freedom) koje smo imali u uzroku (kod svakog testa postoji posebna

  • Inferencijalna statistika

    40

    formula pomou koje se oni raunaju). Ukoliko je rezultat dobiven provedbom odabranog

    testa manje ekstreman od kritine vrijednosti koju smo oitali u tablicama, zakljuujemo da

    nul-hipoteza vrijedi i da ne postoji statistiki znaajan efekt. Ukoliko, meutim, dobiveni

    rezultat bude toliko ekstreman da se odbaci nul-hipoteza, smatra se da je rezultat dosegao

    statistiku znaajnost. Prilikom donoenja tih zakljuaka nikad ne moemo biti apsolutno

    sigurni da smo u pravu, jer uvijek baratamo s vjerojatnostima. Stoga je vano napomenuti:

    ak i ako odbacimo nul-hipotezu to ne znai da je alternativna, odnosno

    istraivaka hipoteza potvrena (baratamo s vjerojatnostima).

    Ako prihvatimo nul-hipotezu ne moemo rei da smo "dokazali nul-hipotezu".

    Naime, iako dobiveni rezultati nisu dovoljno snani da odbace nul-hipotezu, to ne

    znai da ona nije pogrena.

    5. KORAK: Izvjetavanje o prihvaanju ili odbacivanju nul-hipoteze

    Nakon to je provedena statistika analiza, treba izvjestiti o dobivenim rezultatima. To se radi

    na nain da se jasno navede koriteni test, napie dobiveni rezultat provedenog testa,

    ukoliko je potrebno i pripadajui stupnjevi slobode (ss ili df), te vjerojatnost sluajne

    pojave dobivenog rezultata (p). Pritom se vjerojatnost p moe navesti ili kao tona

    vrijednost (npr. p=0.12) ili kao relativna vrijednost (npr. p < 0.05)

    Uz to se i opisno moe navesti to dobiveni rezultat govori o nul-hipotezi (da li je

    prihvaamo ili odbacujemo), odnosno o statistikoj znaajnosti dobivenog efekta (da li je

    statistiki znaajan ili ne). Ukoliko se razlika izmeu podataka pokae statistiki

    znaajnima, moemo zakljuiti da se ona vjerojatno nije dogodila sluajno (jer je jako malo

    vjerojatna). Na primjer, ako vidite p < 0.05 u nekom istraivanju, to znai da se taj rezultat

    sluajno mogao pojaviti u manje od 5 od ukupno 100 sluajeva, a p < 0.01 znai da je to bilo

    mogue u manje od 1 od ukupno 100 sluajeva.

    Primjer navoenja dobivenih rezultata:

    t=3.2, df=65, p

  • Osnovni statistiki postupci i analize

    41

    4. OSNOVNI STATISTIKI POSTUPCI I ANALIZE

    Openito, statistike postupke i analize moemo podijeliti na parametrijske i neparametrijske

    postupke. Parametrijski testovi vezani su uz normalnu distribuciju, te u najveem broju

    sluajeva predstavljaju efikasniji odabir za analizu podataka. Naime, kao testovi koji koriste

    preciznije podatke oni imaju veu snagu od neparametrijskih testova. Snaga testa pritom

    predstavlja vjerojatnost odbacivanja nul-hipoteze koja nije tona ili prihvaanja one koja je

    tona; to je snaga testa vea to emo vjerojatnije istraivanjem pokazati pravi efekt i rjee

    emo poiniti jednu od pogreaka koje se vezuju uz statistike analize. Meutim, vano je

    naglasiti da se parametrijski testovi mogu koristiti samo kada su zadovoljene osnovne

    pretpostavke za njihovo koritenje (prema teorijskom okviru):

    opaanja moraju biti nezavisna. Selekcija bilo koje jedinice iz populacije ne smije

    utjecati na selekciju neke druge jedinice (mjerenja, ispitanika). Taj se uvjet odnosi na

    sve parametrijske testove.

    mjerenje mora biti uinjeno najmanje na intervalnoj ljestvici (zbog provedbe operacija

    nunih pri izraunavanju aritmetike sredine i standardne devijacije). Jedini izuzetak

    od ovog pravila je t-test za proporcije.

    statistike jedinice (opaanja) moraju potjecati iz normalno distribuirane populacije.

    Kad odreujemo dolaze li nai podaci iz normalne populacije, moemo uzeti u obzir

    podatke iz ranijih mjerenja koji nam mogu biti informativni. Takoer, moemo provesti

    test normaliteta distribucije podataka koje smo prikupili; u tu se svrhu najee koristi

    Kolmogorov-Smirnov test (automatski ga moemo izraunati koritenjem programa

    za statistiku analizu). Ukoliko imamo veliki uzorak, problem normaliteta distribucije

    esto nije problem, i to zbog ranije spomenutog teorema centralne granice.

    populacije (kod kojih testiramo razliku) moraju imati istu varijancu (ili u nekim

    sluajevima poznat omjer varijanci).

    Neparametrijski testovi su testovi koji se mogu koristiti i kada nisu zadovoljeni uvjeti

    za korienje parametrijskih testova. To su testovi koje moramo koristi kod podataka na

    nominalnoj ili ordinalnoj skali mjerenja. Uz to, neparametrijske testove moemo koristiti i kod

    podataka na intervalnoj ili omjernoj skali (ponekad i moramo, kad je npr. N < 10). No u tom

    sluaju gubimo veliki dio informacija transformirajui podatke s intervalne na ordinalnu ili pak

    nominalnu skalu, te stoga ovi testovi imaju manju snagu. Neparametrijski testovi esto imaju

    jednostavniju logiku koritenja te se mogu koristiti i kada:

    je broj ispitanika mali, a ne postoji ekvivalentan parametrijski test

    su izmjereni podaci nalaze ispod intervalne skale (ordinalne ili nominalne skale)

  • Osnovni statistiki postupci i analize

    42

    4.1. ODABIR PRIKLADNE STATISTIKE ANALIZE

    Kao to je ranije spomenuto, odabir statistikih testova i analiza u istraivanju ovisi o

    istraivakom pitanju, vrsti i veliini uzorka te karakteristikama izmjerenih podataka. Sve te

    informacije moraju se uzeti u obzir prije provedbe statistike analize. U tablici se nalaze

    faktori koji se trebaju uzeti u obzir kod izbora statistike analize i testovi koji se mogu

    primijeniti u odreenoj situaciji. Ona se moe koristiti kao vodi prilikom odabira prikladne

    statistike analize, iji ete detaljan postupak zatim u sluaju potrebe pronai opisan u

    naprednijim statistikim udbenicima ili programima za statistiku analizu podataka.

    Osobine podataka Podaci na nominalnoj

    skali mjerenja

    Podaci na ordinalnoj ili intervalnoj/omjernoj skali bez normalne

    distribucije

    Podaci na intervalnoj ili omjernoj skali mjerenja

    s normalnom distribucijom Cilj

    istraivanja

    Usporedba jedne skupine rezultata i neke

    hipotetske vrijednosti

    Procjena parametara

    Hi-kvadrat test* Wilcoxonov test

    Procjena parametara

    t-test za jedan uzorak

    Usporedba dvaju nezavisnih uzoraka (dviju

    razliitih skupina ispitanika)

    Hi-kvadrat test (Fisherov test)

    t-test za proporcije

    Medijan test

    Rang test

    Test homogenog niza

    Siegel-Tukeyev test

    t-test za nezavisne uzorke*

    Usporedba dvaju zavisnih uzoraka (dva skupa rezultata jedne

    skupine ispitanika)

    McNemarov test (hi-kvadrat test za zavisne uzorke)

    Test predznaka

    Wilcoxonov test ekvivalentnih parova

    t-test za zavisne uzorke*

    Usporedba vie od dva nezavisna uzorka (dvije

    razliite skupine ispitanika)

    Hi-kvadrat test* Proireni medijan test

    Kruskal Wallisov test

    Analiza varijance

    Usporedba vie od dva zavisna uzorka (dva

    skupa rezultata jedne skupine ispitanika)

    Cochraneov Q

    Friedmanov test

    Fergusonov test monotonije trenda

    Analiza varijance s ponovljenim mjerenjima

    Odreenje povezanost dviju varijabli mjerenih

    na jednom skupu ispitanika

    Koeficijent kontingencije

    Spearmanov koeficijent korelacije

    Pearsonov koeficijent korelacije*

    Vana napomena: nema potrebe uiti napamet testove koje u kolegiju neemo obraivati; oni koje trebate znati oznaeni su zvjezdicom.

  • Osnovni statistiki postupci i analize

    43

    4.2. t-TEST

    t-test predstavlja jedan od najee koritenih parametrijskih testova koji se koriste za

    testiranje statistike znaajnosti razlike izmeu dvije aritmetike sredine. Osim t-testa kojim

    se testiraju razlike izmeu aritmetikih sredina, postoji i neto rjee koriteni t-test kojim se

    testiraju razlike izmeu proporcija (ee se u tim sluajevima koristi hi-kvadrat test).

    Temeljni uvjeti primjene t-testa izmeu dvije aritmetike sredine:

    izmjereni rezultati trebaju se nalaziti barem na intervalnim skalama

    izmjereni podaci trebaju se normalno distribuirati

    uzorci trebaju imati podjednake varijance (ili barem broj ispitanika).

    Postoje razliiti postupci za raunanje t-testa koji se meusobno razlikuje ovisno o:

    vrsti uzorka: razlikujemo t-test za zavisne i t-test za nezavisne uzorke

    broju ispitanika: razlikujemo t-testove za velike i male uzorke (velikim uzorcima se

    najee smatraju oni s 30 i vie ispitanika)

    smjeru istraivake hipoteze: razlikujemo jednosmjerni i dvosmjerni t-test.

    Dvosmjernim testom se testira postojanje razlike bez obzira na smjer (u kojoj je

    skupini prosjena vrijednost vea ili manja), dok se kod jednosmjernog testa i smjer

    razlike uzima u obzir. Openito se dvosmjerni testovi ee koriste (i automatski su

    izbor u statistikim programima).

    Bez obzira na podvrstu t-testa koju odaberemo, testiranje razlika izmeu aritmetikih

    sredina izvodi se na temelju razlike izmeu izmjerenih aritmetikih sredina, i standardne

    pogreke razlike dviju aritmetikih sredina tih uzoraka. Osnovna formula t-testa je sljedea:

    razlikepogreka

    uzorkadvaivrijednostrazlikat

    _

    ___

    Na temelju ove formule razvijaju se finalne formule koje se koriste u raunanju t-testa

    kod zavisnih i nezavisnih uzoraka ispitanika.

    t-test za velike nezavisne uzorke

    22

    21

    21 Xss

    XXt

    X

    ;

    df=(N1 -1) + (N2-1)

    X - aritmetika sredina

    Xs - pogreka aritmetike

    sredine

    N broj ispitanika unutar

    svakog uzorka

    df stupnjevi slobode

    t-test za velike (N 30) zavisne uzorke 2121

    222

    21

    XXX

    srsss

    XXt

    X

    ;

    df=N-1

  • Osnovni statistiki postupci i analize

    44

    Kao to je vidljivo, formule za zavisne i nezavisne uzorke su vrlo sline; razlika je u

    tome to se kod zavisnih uzoraka dodatno u obzir uzima korelacija izmeu rezultata svakog

    ispitanika u dvije toke mjerenja (vidi Sekciju 4.3).

    Kod raunanja t-testa potrebno je izraunati ne samo t-vrijednost, ve i pripadajue

    stupnjeve slobode na temelju kojih e se odrediti granina vrijednost t-testa; ona se zatim

    moe iitati iz Statistike tablice za t-test (Tablica u prilogu: Granine vrijednosti t uz zadani

    broj stupnjeva slobode). Prilikom navoenja rezultata t-testa navodi se najprije vrijednost t-

    testa (t), a zatim pripadajui stupnjevi slobode (ss ili df) i vjerojatnost sluajne pojave (p)

    dobivene t-vrijednosti. Ukoliko je p-vrijednost manja od 5% (ili 1%) razliku moemo proglasiti

    statistiki znaajnom (uz rizik od 5% ili 1%)

    Primjer raunanja t-testa za nezavisne uzorke

    Na testu znanja iz matematike u razredu od 30 djece postignut je prosjeni uspjeh od 16.5

    boda uz standardnu devijaciju 1.3. Na istom testu, 35 djece iz susjednog razreda postiglo je

    prosjeno 15 bodova uz standardnu devijaciju 2. Razlikuju li se dva razreda po svom uspjehu

    na testu iz matematike?

    Hipoteza H0 : Nema razlika izmeu dvaju razreda na testu iz matematike

    Kod raunanja t-testa najprije moemo izraunati pogreke aritmetikih sredina dvaju

    uzoraka, a zatim i samu vrijednost t-testa.

    Prije interpretacije dobivenih rezultata trebamo odrediti graninu vrijednost t-testa koja se

    odreuje na temelju stupnjeva slobode, koji u ovom sluaju iznose: df=(35-1) + (30-1)=63.

    Za 99% razinu znaajnosti iz tablice se moe oitati granina vrijednost 2.66.

    3.53 > 2.66 (Dobiveni t vei je od tablinog t uz 1% pogreke).

    Dobiveni rezultat: t=3.53, df=63, p

  • Osnovni statistiki postupci i analize

    45

    Primjer raunanja t-testa za zavisne uzorke

    Na testu znanja iz matematike u razredu od 30 djece postignut je prosjeni uspjeh od 16.5

    boda uz standardnu devijaciju 1.3. Taj je isti razred na prethodnom testu iz istog predmeta

    postigao u prosjeku 15 bodova uz standardnu devijaciju 2. Povezanost rezultata uenika na

    dva testa iznosi 0.6. Razlikuje li se uspjeh ovih uenika u dva testa iz matematike?

    Hipoteza H0 : Nema razlika izmeu rezultata skupine uenika na dva testa iz

    matematike.

    Prije interpretacije dobivenih rezultata trebamo odrediti graninu vrijednost t-testa koja se

    odreuje na temelju stupnjeva slobode, koji u ovom sluaju iznose:

    df=30-1=29

    Za 99% razinu znaajnosti iz tablice se moe oitati granina vrijednost 2.76.

    5.17 > 2.76 (Dobiveni t vei je od tablinog t uz 1% pogreke).