Download pdf - 93371151 SPSS Najnovije Izdanje II

SPSS za psihologe i pedagoge 1

SPSS za psihologe i pedagoge

Predgovor

Ovaj tekst koji je pred Vama, pokušaće da Vas uvede u osnovne primjene statističkih procedura u okviru statističkog programa SPSS. Danas se svi statistički poslovi obavljaju primjenom više ili manje složenih kompjuterskih programa, te smo mi pokušali da uvedemo čitaoca u svijet kvantitativne analize podataka u praksi, kroz jednostavan “ korak-po-korak” pristup korištenja statističkih analiza i programa SPSS. Svako poglavlje smo pokušali da ilustrujemo praktičnim primjerom, tako da je čitaocima lakše da savladaju logiku metodologije i statistike u konkretnom slučaju. Svako poglavlje koje se bavi određenom statističkom operacijom koncipirano je tako da prvo pruži uvid, u najkraćim crtama, u matematičku pozadinu operacije, a nakon toga i u primjenu operacije kroz primjer u SPSS-u. Knjiga je zasnovana je kako na višegodišnjim iskustvima autora u radu sa praktičnim statističkim problemima, tako i sa uvidom u edukativne potrebe studenata društvenih nauka. Namijenjena je prvenstveno studentima socijalnih nauka, kao štu su psihologija, sociologija, pedagogija i socijalni rad, ali mogu je koristiti i profesionalci koji nemaju iskustva u radu sa statističkim programima. Iako postoji i drugi programi za statističke analize, mi smo se odlučili za SPSS iz prostog razloga jer je najrasprostranjeniji i najdostupniji paket ne samo kod nas – već i u svijetu, ali logika rada je toliko slična u većini programa, da su znanja potpuno prenosiva. Treba napomenuti da knjiga ne pretenduje da bude udžbenik iz statistike, već da posluži kao vodič za primijenjenu statistiku. Za detaljniji uvid u statistiku kao nauku (bar onaj dio koji je obuhvaćen ovim priručnikom), preporučujemo Vam da obratite pažnju na osnovne udžbenike kao što su “Statistika za psihologe” Čedomira Dragičevića i “Osnovne statističke metode za nematematičare” Borisa Petza. Što se tiče daljeg usavršavanja u baratanju statističkim programom SPSS preporučujemo udžbenik “Statistika u psihologiji - priručnik” Lazara Tenjovića.

UVOD

1


O psihološkim istraživanjima

U istraživanjima u psihologiji, kao i u ostalim društvenim naukama, se nastoji operisati sa što je moguće više objektivnih i mjerljivih činjenica. Takvo nastojanje, koje se ostvaruje kroz primjenu i pridržavanje metodoloških standarda u istraživanjima, omogućava razvoj nauke na empirijski dobijenim, provjerljivim, podacima. Iz toga proizlazi da psihologija kroz metodološki korektna istraživanja ostvaruje dvostruku korist. Kao prvo, mogućnost stalnog razvoja i kumulacije psiholoških saznanja baziranih na empirijskim podacima i argumentima koje oni pružaju. I kao drugo, mogućnost primjene sofisticiranih statističkih metoda u razmatranju velikog broja fenomena i njihovih međusobnih odnosa. Stoga je potpuno jasno zašto se insistira na poštivanju metodoloških načela u psihološkim istraživanjima.

Kroz svakodnevni život ljudi se susreću sa brojnim psihološkim pojavama. Opažaju ih, interpretiraju i o njima donose zaključke i sudove. Takva saznanja se nazivaju zdravorazumskim. Iako ponekad interesantna, obuhvatna ili prihvatljiva, zdravorazumska znanja su mnogo češće površna i diskutabilna. Kako nisu naučno zasnovana, njihova glavna karakteristika ostaje nepouzdanost. Naučna znanja, sa druge strane, bazirana su na korektnim empirijskim istraživanjima. Takva saznanja imaju daleko veću naučnu težinu i značaj u rasvjetljavanju fenomena kojima se psihologija bavi. Stoga je bitno poznavati aspekte istraživanja koji ih čine naučnim. Todorović (1995) kao osnovne karakteristike naučnih istraživanja navodi:

1) sistematičnost – ova kakakteristika se odnosi na prijeku potrebu da istraživanje bude sistematski osmišljeno, pripremljeno, sprovedeno i obrađeno. Drugim riječima, neophodno je da potpuno precizno bude određen predmet ispitivanja, uslovi i način ispitivanja, uzorak ispitanika i način obrade dobijenih podataka.

2) objektivnost – svako istraživanje započinje sa određenom pretpostavkom istraživača. Pri njenoj provjeri neophodno je potpuno objektivno razmatranje činjenica. To znači da ni u kom slučaju nije dozvoljen razvoj takve istraživačke strategije koja će omogućiti rezultate koje sam istraživač zbog nečeg favorizuje.

3) kumulativnost – ogromna većina istraživanja u psihologiji danas je bazirana na postojećim saznanjima (vrlo su rijetka područja koja su u istraživačkom smislu tabula rasa). Iz toga slijedi da je istraživačima omogućeno da na osnovu radova pređašnjih autora i rezultata koji su iz njih proizašli, obuhvatnije i preciznije ispita određenu pojavu. Istovremeno se time nameće i zahtjev da se istraživač podrobno uputi u postojeća saznanja o onome što istražuje.

4) temeljnost - zaključci doneseni na osnovu malog broja slučajeva se ne mogu pohvaliti svojom pouzdanosti. Naučna saznanja zato počivaju na većem broju slučajeva (npr, većem broju osoba, više ponavljanja istraživanja,...).

5) kontrolisanost – Sa obzirom na to da na svaku pojavu djeluje veliki broj faktora, neophodno je poznavanje tih faktora i odnosa kojkoje oni ostvaruju (kako sa mjerenom pojavom, tako i međusobnog). Veći stepen kontrole nad uslovima u kojima se istraživanje sprovodi, jasno omogućava i veći stepen preciznosti dobijenih podataka i povjerenja u njim.

2


6) preciznost – nezaobilazna stavka ukoliko istraživač želi da njegovo istraživanje bude naučno. Da bi se izbjegli nerazumijevanje, neprovjerljivost istraživanja i nerječitost rezultata nužno je da pojmovi sa kojima se barata, uslovi u kojima se istraživanje sprovodi, hipoteze koje se razmatraju i rezultati koji proizlaze iz istraživanja budu što preciznije izrečeni.

7) logičnost – kao osobina istraživanja odnosi se na zahtjev da se prate logička i pravila naučnog istraživanja.

8) kritičnost – sva istraživanja i sistemi znanja koji na njima počivaju podliježu kritičkom razmatranju. Ukoliko prođu sistematske kritike i opstanu mogu se uzeti kao prihvatljiva.

9) obrađenost – U razmatranju podataka dobijenih istraživanjem primjenjuju se različiti postupci. Ova osobina naučnih istraživanja se odnosi na upućenost istraživača u matematičke i statističke metode obrade podataka i primjenu onih koji odgovaraju datom istraživanju.

Klasifikacije naučnih istraživanja počivaju na karakteristikama samih istraživanja prema kojima se ona međusobom razlikuju. Izraženost ili stepen prisustva različitih osobina istraživanja predstavlja osnovu na kojoj ih autori razlikovuju i klasifikuju. Odmah treba istaći da ne postoji opšta saglasnost kada se radi o klasifikaciji istraživanja. Insistiranje na pojedinim kriterijima ili broj kriterijuma na osnovu kojih je moguće izvršiti klasifikaciju naučnih istraživanja se značajno razlikuju među različitim autorima (Todorović 1995, Halmi, 1999, Baker 1994,). Zato je neophodno prije upuštanja u svrstavanje istraživanja u neku od mogućih klasa navesti na osnovu čega (koje karakteristike istraživanja) je svrstavanje bazirano. Neki od kriterija prema kojima se istraživanja klasifikuju su:

a) Prema uslovima u kojima se sprovode istraživanja se mogu podijeliti na terenska (prirodna) i laboratorijska. Terenska istraživanja se sprovode u prirodnim uslovima, gdje istraživač najčešće nema nikakvu kontrolu nad uslovima u kojima se istraživanje odvija. Laboratorijska se, pak, odlikuju visokim stepenom kontrole nad uslovima istraživanja. Vrše se u opremljenim laboratorijama što pruža mogućnost razmatranja i manipulacije velikim brojem faktora bitnih za istraživanje.

b) Prema stepenu kontrole mogu biti eksperimentalna i neeksperimentalna (deskriptivna). Eksperimentalna istraživanja imaju veći stepen kontrole, što proizlazi iz mogućnosti manipulacije varijablama i uslovima istraživanja. Neeksperimentalna istraživanja karakteriše znatno manji stepen kontrole i minimalna ili čak gotovo nikakva kontrola nad varijablama i uslovima istraživanja. Sljedstveno tome, istraživanja eksperimentalnog tipa su preciznija i omogućavaju pouzdanije zaključke.

c) Ako je namjena istraživanja ono čime se rukovodimo pri klasifikaciji tada razlikujemo: bazična (temeljna, fundamentalna) istraživanja, aplikativna (primijenjena, akciona) i evaluativna (procjenjivačka) istraživanja. Namjena bazičnih istraživanja je unapređenje i razvoj naučnih saznanja, pri čemu je pragmatički aspekt istraživanja potpuno nebitan. Sa druge strane aplikativna istraživanja su orjentisana otkrivanju mogućnosti da se riješe neki praktični

3


problemi. I konačno evaluativna istraživanja bave se procjenom najrazličitijih efekata neke pojave.

d) Sa obzirom na cilj istraživanja mogu se razlikovati eksplorativna, replikativna i parametarska istraživanja. Eksplorativna se istraživanja odnose na prva ispitivanja nekog fenomena, replikativna su ponavljanje ranije izvedenih istraživanja dok su parametarska istraživanja usmjerena na pojave koje su u određenoj mjeri istražene uz nastojanje da se pojedini aspekti date pojave detaljnije ispitaju. e) Klasifikacija prema vrsti podataka sa kojima u istraživanju operišemo,

(Emanuel J Mason & William J. Bramble, 1997), je za ovu knjigu najzgodnija. To je podjela istraživanja na kvantitativna i kvalitativna. U okviru kvantitativnih istraživanja se primijenjuju matematički i statistički principi mjerenja i modeli koji se koriste u prirodnim naukama. U kvalitativnim istraživanjima se susrećemo sa opažanjima, utiscima i interpretacijama koji su znatno teži za objektivno analiziranje i mjerenje. Budući da se ova knjiga prvenstveno bavi analizama podataka, našu pažnju ćemo usmjeriti na kvantitativna istraživanja i podatke koje dobijamo iz njih.

Da bi psihološka istraživanja mogla obezbijediti kvantitativne podatke nužno je da za pojave koje su predmet interesovanja postoji mjerni instrument za koji je istraživač siguran da mjeri ono čemu je namijenjen. Ovo je vrlo bitno zbog same činjenice da u psihologiji ne postoji mjerni instrument čija je mjerna jedinica precizno definisana vrijednost svojstva koje se mjeri. Drugim riječima, ne dešava se da su mjerna jedinica i predmet mjerenja isto svojstvo određenih vrijednosti (predmet mjerenja sa varijabilnom vrijednosti svojstva i mjerna jedinica kao precizno definisana vrijednost datog svojstva). Iz takve činjenice, da zaključivanje o vrijednosti jednog donosimo preko vrijednosti drugog svojstva, proizlazi osnovna karakteristika mjerenja u psihologiji, a to je indirektnost mjerenja. Ovakav tip mjerenja je vrlo čest (razlog je u nevelikom broju svojstava koja se neposredno mogu svesti na mjerila koja posjeduju mjereno svojstvo). Npr, jedna od mogućnosti izražavanja intenziteta zemljotresa je preko Merkalijeve skale, koja u stvari pokazuje stepen promjene zemljišta i oštećenja objekata u području epicentra. Temperatura vazduha se izražava prema broju Celzijusevih stepeni koji je rezultat skupljanja ili širenja žive. Indirektni tip mjerenja se u psihološkoj praksi svakodnevno susreće pri mjerenju inteligencije. Tu se zaključivanje o nečijim intelektualnim sposobnostima zasniva na uspješnosti u rješavanju problema i snalaženju u datim situacijama. Iako se iz navedenog može zaključiti suprotno, nema mjesta mišljenju da korektna mjerenja i valjana istraživanja nije moguće sprovesti u psihologiji. Imajući u vidu definiciju mjerenja koju je dao (Campbell, N.,1953); mjerenje predstavlja pridruživanje brojeva pojavama ili svojstvima prema precizno određenim pravilima, slijedi da je za mjerenje u psihologiji potrebno utvrditi pravilan i postojan odnos vrijednosti različitih svojstava. Takvo će mjerenje biti korektno, saglasno sa metodološkim načelima i samim tim primjenjivo u istraživanjima.

O nivoima mjerenja (tipovima podataka)

Podatke koji se u istraživanjima razmatraju mogu se skupiti putem posmatranja, upitnika, intervjua ili eksperimenta. U okviru kvantitativnog istraživanje prikupljenim

4


podacima se prema određenim pravilima pridružuju odgovarajući brojevi. Značenje tih brojeva zavisi od karakteristika samih podataka, što je opet neodvojivo vezano za vrstu skale sa koje podaci potiču. Stoga je za u okviru statističkog razmatranja vrlo bitno da znamo sa koje skale potiču podaci. Znači, tip skale koja je primjenjena, odnosno, nivo mjerenja, uslovljava karakteristike numeričkih podataka koje dobijamo, a time neposredno određuje i statističke metode i postupke koje možemo koristiti. Stoga ćemo ukratko predstaviti postojeće nivoe mjerenja. (Radi potpunijeg prikazivanja karakteristika pojedinih skala u prilozima se nalaze i karakteristike brojeva koje je pri razvijanju definicije mjerenja naveo Campbell (1953).

Nominalni nivo Brojčane vrijednosti sa ove skale nisu ništa drugo do zamjena za neki naziv. Npr.

kada određujemo vrijednosti za, recimo, pol ispitanika, možemo izvršti sljedeće pridruživanje: numeričku vrijednost 1 pridružiti muškom polu, a vrijednost 2 ženskom (može i obrnuto, potpuno je svejedno). Ukoliko pogledamo igrače nekog fudbalskog tima primijetićemo da se oni međusobno razlikuju prema brojevima na svojim dresovima. Tako recimo golman ima na leđima broj jedan a centarfor (najčešće) broj devet. To nikako ne označava da je centarfor za osam jedinica ili devet puta bolji igrač od golmana, već samo pokazuje pozicije ovih igrača u timu. Osnovna operacija koja se primijenjuje na podatke je klasifikacija, a statistički postupci koji se mogu primijeniti na podatke sa nominalne skale su: prebrojavanje, utvrđivanje koeficijenta kontigencije i Φ koeficijenta (kao koeficijenata korelacije) i utvrditi koeficijent razdiobe.

Ordinalni nivoOrdinalne skale omogućavaju međusobna poređenje pojedinačnih vrijednosti

svojstva koje je predmet mjerenja. To daje mogućnost rangovanja dobijenih vrijednosti po nekom kriterijumu. Recimo da nastavnik na času fizičkog reda učenike po visini. Najviši učenik će biti na početku reda a dalje sve niži do posljednjeg u nizu. U ovom slučaju nastavnik će bez problema moći da uporedi koji je učenik viši od drugog (ili drugih). Međutim ono što ne može znati je stvarna visina bilo kog od učenika i kolika je razlika u visini između pojedinih učenika. Znači u radu sa podacima dobijenim sa ordinalne skale ne raspolažemo je informacija o količini mjerenog svojstva u pojedinačnim slučajevima, kao ni vrijednosti razlike između pojedinačnih mjera. Operacija primjenjiva na ovom nivou mjerenja je rangovanje (odreživanje redosljeda na osnovu poreženja slučajeva prema vrijednosti svojstva), a od statističkih postupaka se koriste percentili, rang-korelacija i kao mjera centralne tendencije medijana.

Intervalni nivoPodaci sa intervalnih skala nam govore nešto o veličini svojstva koje je predmet

mjerenja (npr. da je 4 veće od 3, ali manje od 5). Takođe nam govore o tome da je razlika izmedju brojčanih vrijednosti jednaka (npr. da je razmak između 17 i 18 jednak onome između 108 i 109). To znači da skale ovog nivoa mjerenja imaju tačno definisanu mjernu jedinicu na osnovu koje je moguće precizno utvrđivanje razlika između pojedinih mjera (izraženo preko broja mjernih jedinica). Ono što je osnovni nedostatak intervalnih skala je nedostatak prirodne (apsolutne nule). Nula je na ovim skalama arbitrarna, odnosno dogovorom određena. Tako označavanje neke vrijednosti sa 0 ne znači odsustvo mjerenog svojstva. Npr, temperatura od 0 Celzijusovih stepeni ne znači nepostojanje temperature, već njenu vrijednost na kojoj voda prelazi u led.

5


Najpoznati primjer primjene intervalnih skala u psihologiji imamo pri mjerenje koeficijenta inteligencije. Na ovom nivou mjerenja dozvojene su sve numeričke operacije peracije i odgovarajući statistici izuzimajući razmatranje odnosa proporcija vrijednosti mjera toga što one ne predstavljaju apsolutnu vrijednost samih mjera.

Nivo razmjere (racio)Racio skala (skala realnih brojeva) ima sve osobine intervalne skale, uz dodatak

realne nule. Obično su to podaci kojima se opisuju fizičke pojave: vrijeme, prostorne dimenzije, masa,... gdje nula kao broj označava nepostojanje svojstva koje je predmet mjerenja itd. Osnovna karakteristika skala razmjere je ta da je mjerna jedinica precizno određena vrijednost svojstva koje se mjeri. Kao oznake za vrijednosti svojstava koja se mjere brojevi se na ovom nivou mjerenja upotrebljavaju u svom potpunom značenju. To znači da pri razmatranju odnosa dvaju mjera koje potiču sa skale razmjere možemo reći koja je od mjera veća i za koliko jedinica. Unapređenje u odnosu na skale intervalnog nivoa se ogleda u mogućnosti da se odnos dvije mjere može izraziti količnikom (prema tome je skala razmjere i dobila ime). Svi statistički postupci su primjenjivi na ovom nivou mjerenja jer između korištenih brojeva i svojstava koje oni označavaju postoji potpuna saglasnost Mjerenja u psihologiji ne dostižu ovaj nivo.

Mnogi autori metodoloških i statističkih udžbenika i priručnika (Dragičević, Bukvić, 1986, Baker, 1994, Mason at al, 1997, Levin & Fox, 1997 Halmi, 1999,) navode ova četiri nivoa mjerenja, što uglavnom zadovoljava akademske potrebe studenata. Međutim pored njih postoje i drugi nivoi mjerenja. Tako Fajgelj (2003) pored navedenih kao nivoe mjerenja predstavlja:

Log-intervalni nivoMjerenje na ovom nivou se zasniva na dodjeljivanju brojeva objektima tako da se

razlomci između vrijednosti svojstva odražavaju preko razlomaka brojeva. Primjer ovog nivo mjerenja potrošnja goriva izražena u broju litara po pređenim kilometrima.

Aditivni nivoPridruživanje brojeva osobinama koje su predmet mjerenja se na aditivnom nivou

mjerenja ostvaruje tako da svojstva brojeva odražavaju istovrsna svojstva atributa, izuzimajući nultu tačku. Takav nivo mjerenja imamo kod pitanja “koliko dugo radite” ili “koliko imate prijatelja”. Na osnovu primjera se može zaključiti da se ovakvim mjerenjem dobijaju određene vrijednosti atributa koje su različite od nule.

Apsolutni nivoDodjeljivanje brojeva pojedinačnim slučajevima se vrše tako da svojstva brojeva

odražavaju istovrsna svojstva atributa. Za razliku od prethodnog nivoa mjerenja ovdje je postoji mogućnosti pridruživanja nulte tačke. Prednost u odnosu na nivo razmjereje u tome da skale ovog nivoa imaju prirodnu mjernu jedinicu, a to je jedan prebrojani element. Primjeri mjerenja na ovom nivou su: broj zapamćenih besmislenih slogova, broj studenata II godine psihologije koji su dali uslov u junu.

Neki osnovni pojmovi istraživanja u psihologiji

Varijabla

6


U psihologiji varijablu često definišemo kao psihološko svojstvo koje je predmet mjerenja. Sam termin je preuzet iz statistike i puni naziv je slučajna varijabla. Pod slučajnom varijablom se podrazumijeva pravilo ili funkcija koja svakom ishodu u uzorku pridružuje jednu vrijednost (Fajgelj, 2003). U tom smislu varijablu preciznije možemo definisati kao rezultat mjerenja nekog psihološkog svojstva na uzorku ispitanika – svojstvo objekta, osobe, pojave, stanja, procesa, događaja i dr. koje može uzeti ma koju vrijednost iz određenog skupa vrijednosti (Ristić, 1983). Pored ovog termina kao sininom se koristi termin promjenjiva. Nerijetko se kao sinonim za varijablu se koristi i termin varijat, međutim ovaj termin se prije odnosi na određenu vrijednost bilo koje varijable.

Mjerenje jedne varijable pretpostavlja poznavanje karakteristika varijable, oblika i uslova ispoljavanja. Drugim riječima prije istraživanja nužno je precizno definisati varijable koje namjeravamo mjeriti. Sam metod definisanja varijabli može da bude različit. Neke od metoda definisanja navodi Bukvić (1988):

1. Metod sinonima – Kod primjene ovog metoda definisanja određen termin se tumači na osnovu ekvivalentnog izraza koji bi trebao biti najrazumljiviji datoj sredini. Često se primjenjuje u psihologiji.

2. Genetički metod – U ovom slučaju aspekti svojstva na koje se ukazuje su njeno porijeklo, nastanak i razvoj.

3. Sintetički metod – Definisanje svojstva prema ovom metodu obuhvata ukazivanje na permanentne i nužne odnose definisanog svojstva sa nekim grugim svojstvom.

4. Operacionalno definisanje – Najeksploatisaniji metod definisanja varijabli u empirijskoj psihologiji. Operacionalnim definicaijama se upućuje na vidljive strane varijabli, navodeći pri tome kako se one opažaju, izazivaju i mjere.

Precizne definicije, bez obzira na primijenjenu metodu, omogućavaju preglednost u polju naučnih saznanja. Nepridržavanjem pravila definisanja pojmova, proizvoljnim davanjem naziva pojavama, davanjem novih imena odveć poznatom, dolazi do stvaranja konfuzije u nauci. Prevelik broj pojmova se međusobno prepliće ili sukobljava, uz nemogućnost njihovih poređenja, provjera i mjerenja. Iz tog razloga u psihologiji je najzastupljenije operacionalno definisanje, koje preko vidljivih strana varijabli omogućava njihovo precizno određivanje. Insistiranje na preciznom određenju pojmova dovelo je do uvođenja pojma hipotetički kinstrukt. On predstavlja nepotpun naučni pojam. Pojavu objašnjava na osnovu provjerenih i dokazanih činjenica, ali i neprovjerenih pretpostavki. Označavanjem neke pojave hipotetičkim konstruktom mi je, u stvari, objašnjavamo na osnovu nečega za šta ne znamo da li stvarno njeno svojstvo. Time ukazujemo da se radi o nečem nepotpunom i neprovjerenom što ne treba uzimati zdravo za gotovo.

- vrste varijabli

IndikatorIndikator je znak u ispoljavanju varijable na osnovu čijeg prisustva, kao i stepena

njegovog prisustva, zaključujemo o postojanju određene varijable. Sinonimi koji se koriste su pokazatelj i znak varijable.

vrste indikatora i njihove karakteristike

7


Ajtem(stavka, čestica) Jedna tvrdnja ili pitanje u testu.???????????????????vrste ajtema??????????????????????razlike indikator - ajtemod varijable do ajtema

O vrstama statističkih analiza

Često treba da rezimiramo velike količine podataka da bismo imali nekakav uvid u njihovu prirodu, ili, pak, da donosimo zaključke u vezi sa dobijenim podacima. Da bi ovo rezimiranje i zaključivanje očuvalo suštinu originalnih pojava (što je i smisao statistike) moramo se potruditi da izaberemo odgovarajuće statističke postupke koji će nam najbolje poslužiti.

Razlikujemo dvije grupe statističkih operacija: 1. Deskriptivna statistika – obuhvata procedure kojima opisujemo podatke. To su

mjere poput frekvencija, procenata, prosjeka, odstupanja, zakrivljenja itd. Pri izboru ovih mjera treba voditi računa o tipu podataka kojim raspolažemo (npr. ne možemo računati prosjek iz varijable “pol”).

2. Statistika zaključivanja – obuhvata procedure kojimja izvlačimo određene zaključke iz naših podataka. U okviru ovih procedura testiramo određene hipoteze koje smo postavili. To mogu biti hipoteze o povezanosti nekih pojava ili razlikama u izraženosti nekih pojava, a statistička operacija će nas dovesti do nekog pokazatelja koji će nam reći da li se naša hipoteza pokazala ispravnom ili ne. Ovaj pokazatelj (rezultat statističkog testa) će nam to reći sa nekim stepenom statističke vjerovatnoće – uobičajeno su to nivoi 0.05 i 0.01. Za vjerovatnoće manje od od ovih vrijednosti kažemo: “statistički značajno na nivou 0.05” ili “0.01” (što znači da su vjerovatnoće da pogriješimo kad tvrdimo da postoje statističke značajnosti 5% ili 1%). U okviru procedura statistike zaključivanja, takođe, imamo dvije vrste statističkih testova. Parametrijski testovi se rade nad podacima koji zadovoljavaju sljedeće kriterijume: 1. da podaci budu sa intervalne ili racio skale i 2. da podaci budu normalno raspodijeljeni. Neparametrijski testovi se rade na podacima koji ne mogu da zadovolje ove kriterijume. Parametrijski testovi imaju veću “snagu” (precizniji su) u odnosu na neparametrijske, i treba im dati prednost ukoliko nam podaci dozvoljavaju.

Nivoi značajnosti pri statističkom zaključivanju i tipovi statističkih grešaka

Svaki put kad radimo statističke testove, mi u stvari testiramo istraživačke hipoteze. Uopšteno, možemo razlikovati dvije vrste hipoteza: nulta hipoteza (označava se sa H0) sadrži tvrdnju o nepostojanju statističke značajnosti pojave nađene na uzorku, dok afirmativnih hipoteza može biti više (označavaju se sa Hn, gdje je n = redni broj hipoteze) i one govore o nekakvim potvrdnim pretpostavkama koje donosimo.

8


Prilikom primjene statističkih testova, obično se koristimo terminom "nivo značajnosti" kad govorimo o nekim granicama statističke značajnosti. Pri tom se uglavnom koristimo nivoima značajnosti p=0.05 (ili 5% nivo) i p=0.01 (1% nivo značajnosti). Ti nivoi značajnosti se interpretiraju kao: "...postoji 5% vjerovatnoće da pogriješimo kad tvrdimo da ... ", odnosno "...to tvrdimo sa 95% sigurnosti... " Isto važi i za nivo značajnosti p=0.01. Nivo značajnosti od p=0.01 je strožiji od nivoa p=0.05, jer podrazumijeva veću sigurnost kod određenih tvrdnji.

Treba reći da su ova dva nivoa značajnosti sasvim arbitrarno prihvaćena, i da nas ništa ne sprečava da se služimo blažim kriterijumima (npr. p=0.10), ili strožijim (npr. p=0.001), pri donošenju statističkih zaključaka. Ove granice su ustanovljene da bi se ujednačili kriterijumi prilikom donošenja odluka, a takođe i da bi se istraživačima olakšalo donošenje statističkih odluka. U stvarnosti, nivo značajnosti postavljamo u zavisnosti od toga kakva je priroda pojave koju ispitujemo i značajnosti zaključka koji donosimo. Kad, na primjer, istraživači ispituju lijek koji se primjenjuje na dotad neizlječivim bolesnicima, oni se odlučuju za blaže kriterijume značajnosti, jer u takvim situacijama čak i 50% vjerovatnoće dejstva takvog lijeka govori o vjerovatnoći da se spasi 50% ljudskih života koji su bili suočeni sa izvjesnom skorom smrti. S druge strane, kad se ispituju lijekovi koji imaju potencijalno opasne prateće pojave, kriterijumi sigurnosti se moraju povećati na najviši nivo, jer u slučaju pogreške u zaključivanju mogu dovesti do fatalnih posljedica.

U skladu sa prethodnom pričom o nivoima značajnosti, govori se o dva tipa grešaka pri generalizaciji statističkih zaključaka sa uzorka na populaciju. Greška tipa I, koja se naziva i "greška alfa tipa", nastaje kad donosimo zaključak o statističkoj značajnosti pojave (npr.o postojanju značajne razlike između pojava, ili značajne korelacije), a ona u stvari ne postoji. Greška tipa II (greška beta tipa), nastaje u obrnutom slučaju, kad odbacujemo tvrdnju o značajnosti pojave a ona u stvari postoji. Šematski prikazano, tipovi grešaka izgledaju ovako:

Donesena odluka Stanje u populacijiNulta hipoteza ispravna Afirmativna hipoteza ispravna

Prihvaćena afirmativna hipoteza Greška tipa I (alfa) Ispravna odlukaPrihvaćena nulta hipoteza Ispravna odluka Greška tipa II (beta)

Svaki put kad donosimo odluku na osnovu nekog od postavljenih kriterijuma značajnosti, součavamo se sa mogućnošću da načinimo neku od navedenih grešaka, ali to je rizik koji prihvatamo u statistici.

SPSS programski paket

Programski paket SPSS čini više zasebnih modula (dijelova programa). U zavisnosti od toga koje statističke procedure su nam potrebne, odredićemo i koje module ćemo moći priuštiti, budući da se svaki modul zasebno kupuje. Mi ćemo se ovdje dotaći upotrebe svakog od modula programskog paketa SPSS 11.5, a sve navedeno o čemu budemo govorili može se upotrijebiti za sve verzije programa,

9


počevši od verzije 8 pa naviše, budući da se proceduralno vrlo malo razlikuju (više su u pitanju "kozmetičke" izmjene).

U SPSS-u svaku proceduru možemo obaviti na dva načina: pomoću biranja opcija putem menija, ili “ručno” – korištenjem posebnog programskog jezika u okviru procedure koja se zove Syntax. Syntax omogućava mnogo veću fleksibilnost od korištenja već ponuđenih opcija, omogućava i programiranje novih statističkih procedura koje nisu predviđene u osnovnom paketu SPSS-a, pogotovo kad su u pitanju napredne statističke procedure1, ali s druge strane, u velikoj mjeri je obiman i komplikovan da to prevazilazi okvire naših zanimanja i zahtijeva zaseban udžbenik. Mi ćemo se, u našim objašnjenjima, zadržati na predviđenim funkcijama, i to će nam biti više nego dovoljno.

Podešavanja svih opcija programa, do najsitnijih detalja, mogu se obaviti kroz meni Edit/Options.

1 Tako na primjer, u SPSS-u nije predviđena mogućnost da se radi statistička procedura kanonička korelaciona analiza već je ponuđena samo u obliku potprograma koji možemo naći u SPSS-ovom direktorijumu pod nazivom “Canonical correlation.sps”. Tim rješenjem nisu bili zadovoljni dvojica autora iz Beograda (psiholozi G.Knežević i K.Momirović), te su napravili sopstvenu verziju potprograma uz pomoć kojeg se ta procedura može obaviti. Slično tome, praktično je moguće programiranjem u Syntaxu napraviti drugačije verzije gotovo svih statističkih operacija predviđenih u SPSS-u.

10


Rad sa programom

U radu sa SPSS-om postoje tri glavna područja: unošenje podataka, analiza podataka, i pregled dobijenih rezultata.

Nakon startovanja programa SPSS sačekaće vas uvodni ekran koji možete vidjeti na slici. To je takozvani Data Editor, tj matrica za unošenje i manipulaciju podacima. Uočimo da u donjem lijevom uglu postoje dva jezička: jedan na kome piše Data View (pregled podataka), i drugi, na kojem piše Variable View (pregled varijabli).

Za početak, uočimo da je izgled programa karakterističan za sve Windows programe: u gornjem dijelu ekrana postoji niz menija - od File do Help, ispod njega Toolbar (traka sa alatkama) - dugmad sa skraćenicama za naredbe koje možemo izvršiti i uz pomoć gornjih menija, a donji dio je rezervisan za unošenje podataka.

11


Priprema podataka za unošenje i obradu

Kodiranje

Da bismo prešli na unošenje podataka, prvo moramo da kodiramo instrument koji smo koristili (upitnik, test itd.). Kodiranje vršimo tako što svakom od ponudjenih odgovora dodijelimo neku brojčanu vrijednost. Ako imamo pitanja otvorenog tipa, onda je poželjno da pregledamo sve odgovore i kategorišemo ih u nekoliko kategorija koje ćemo, takodje, označiti brojčanim oznakama. Ako radimo sa skalama procjene, onda kodiramo tako da odgovoru koji izražava najveći stepen dajemo najveći broj (može i obrnuto, program ne pravi pitanja, ali će nam biti nelogičnije u pregledu obradjenih podataka).

Korisno je i numerisati sve upitnike koje smo upotrebljavali, ukoliko se ispitanici nisu potpisivali, da bi kasnije mogli lakše da vršimo ispravke ako pogriješimo pri unošenju podataka.

Specifičnosti kompjuterske obrade

Kompjuterska obrada ima neke specifičnosti koje je potrebno poštovati. Iako u projektovanju našeg instrumenta pitanja nazivamo ajtemima, a grupe ajtema varijablama, kompjuterski program tretira svaku unijetu kolonu u matricu podataka kao varijablu. Znači, svako pitanje ćemo označiti nekim imenom i to ćemo nazivati varijablom.

Ukoliko radimo sa nekom skalom procjene koja ima više tvrdnji sa kojima ispitanik pokazuje slaganje ili neslaganje, možemo odmah sabrati brojčane oznake i te zbirne podatke za čitavu skalu unositi u samo jednu varijablu koja nam govori o izraženosti nekog stava. Ili ako imamo test znanja možemo odmah sabrati tačne odgovore i onda sve te podatke staviti u samo jednu varijablu - varijablu zbira tačnih odgovora. Ovakvi postupci su mogući, ali se ne preporučuju, budući da time u daljoj obradi gubimo podatke o tome kako su ispitanici odgovarali na pojedinačne odgovore. Štaviše, uz pomoć kompjutera možemo ta računanja i transformacije obaviti kasnije i bez gubitaka podataka, tako da imamo i pojedinačne i zbirne podatke.Kodni plan možemo napraviti tako što ćemo uzeti jedan nepopunjen primjerak upitnika koji smo koristili, i na njemu označiti sve varijable (naziv varijable može imati samo 8 slova odnosno brojeva) i sve moguće kodne vrijednosti varijabli. Taj papir treba da nam je u blizini, tako da imamo brzi uvid u kodni proces dok ga ne zapamtimo.

12


Definisanje varijabli

Kada otvorimo program SPSS naći ćemo se pred praznom tabelom podataka. Vidjećemo da svaki red počinje sa brojevima, a svaka kolona oznakom "var". SPSS podrazumijeva da svaki red sadrži podatke o pojedinom ispitaniku (slučaju), a u kolonama se nalaze vrijednosti varijabli.

Za početak ćemo definisati sve varijable koje imamo. To radimo tako što odaberemo Variable View jezičak u donjem lijevom uglu glavnog prozora za unos podataka. Izgled ekrana će se promijeniti i dobićemo sljedeći prozor:

Za razliku od matrice za unošenje podataka, ovdje (u matrici varijabli) redovi označavaju varijable (u matrici podataka redovi su slučajevi), a kolone opisuju karakteristike varijabli. Jednostavno treba kliknuti na praznu ćeliju koju želimo da definišemo i odredimo željene osobine.

U koloni gdje piše Name upisujemo ime varijable. Ime može sadržavati slova i brojeve, i neke znakove interpunkcije (razmak se ne može upotrebiti) i ne smije biti duže od 8 znakova. Kad završimo sa upisivanjem imena varijable, program će nam automatski upisati pretpostavljene osobine varijable u ostale kolone, ali mi bez problema možemo da ih izmijenimo.

Sljedeća osobinaje Type i tu možemo da biramo izmedju više tipova podataka koje varijabla sadrži: za nas najzanimljiviji i uglavnom ćemo taj oblik koristiti - Numeric - brojčani oblik. Ostali tipovi definišu neke posebne varijante matematičkih, datumskih ili novčanih podataka, dok nam String daje za pravo da pišemo slovne sadržaje. Opcije Width (cijeli brojevi) i Decimal Places (decimalna mjesta) definišu širinu kolone koju upotrebljavamo. Ako je varijabla kategorička, ili ako sadrži samo cjelobrojne podatke, možemo u kućicu Decimal Places da upišemo 0.

13


Labels nam daje mogućnost da upišemo duži opis varijable (mogu se upisati i čitave rečenice). Ovo je veoma korisna opcija kad imamo veliki broj varijabli kojima moramo smišljati kratka imene. Opis varijable će nam kasnije dati ideju o tome šta sadrže vrijednosti naše varijable ukoliko zaboravimo.

U kolonu Value definišemo kod (brojčanu oznaku koju unosimo kao jednu od vrijednosti varijable). Value je brojčana vrijednost koju ćemo unositi, a pod Value Label unosimo naziv te vrijednosti (npr. u potpunosti se slažem ako smo kodirali neku skalu procjene). Onda pritisnemo dugme Add, vrijednost i njen opis bivaju ubačene donji prozorčić i tako oslobadjamo prostor za definisanje nove vrijednosti na isti način. Dugme Change omogućava da mijenjamo već definisane vrijednosti i oznake, a dugme Remove da odstranimo neželjene vrijednosti i oznake.

Opcija Missing nam otvara mogućnosti da odredimo koje unijete vrijednosti neće biti uzimane u obzir pri obradi podataka. Znači, te vrijednosti ćemo vidjeti u tabeli podataka ali se neće obradjivati. Opcija Discrete Missing Values nam omogućava da unesemo pojedinačne vrijednosti (3 kućice za 3 vrijednosti). Drugi način je Range of missing values, koji nam omogućava da definišemo najnižu (Low) i najvišu (High) vrijednost raspona koji će se tretirati kao nevaljani podatak (odnosno, neće se tretirati u obradi). Range plus one discrete missing value predstavlja kombinaciju prve dve spomenute opcije.

U kolonama Columns i Align odredjujemo širinu (u brojčanim podacima) i poravnanje (lijevo, desno ili centralno) kolone za unos podataka - kako će biti prikazana na ekranu.

Posljednja kolona ima naziv Measure i tu određujemo nivo podataka koji unosimo: Scale (brojčani podaci), Ordinal (ordinalni/rangovani podaci) i Nominal (nominalni/kategorički podaci).

Kad definišemo prvu varijablu, možemo kliknuti na Data View u donjem lijevom uglu ekrana, i time ćemo otići na matricu podataka. Sad ćemo vidjeti da ime naše nove varijable stoji u zaglavlju prve kolone matrice podataka. Svaku sljedeću varijablu možemo definisati na sličan način: treba da odemo na Variable View prikaz (dole lijevo odaberemo) i definišemo osobine varijabli kako je već opisano. Ukoliko želimo da ubacimo varijablu izmedju dve već definisane varijable, kliknemo (desnim dugmetom miša) na ime varijable ispred koje hoćemo da ubacimo novu varijablu, i odabremo opciju Insert Variable. Dalji postupak definisanja se odvija kako je na prethodnim stranicama opisano.

14


Unošenje podataka

Podatke možemo unositi u okviru različitih programa i na različite načine. Uvoz u SPSS tih podataka opisan je na drugom mjestu, i ovdje ćemo opisati samo unošenje podataka u okviru programa SPSS.

Podatke unosimo po redovima, odnosno po slučajevima, ispitanicima ili upitnicima. Počinjemo sa prvim ispitanikom i prvom varijablom, dakle prva prazna ćelija u gornjem lijevom uglu tabele (matrice) podataka. Inače, po tabeli se možemo slobodno kretati uz pomoć kursorskih strelica, tasterom Tab (jedno polje u desno), tasterom Enter (na dole). Kad unesete prvu vrijednost, dovoljno je da pritisnete strelicu desno, ili Tab pa da se pomjerite na sljedeću ćeliju (sljedeću varijablu). Tako radite sve dok ne stignete do posljednje definisane varijable desno. Onda se vratite na početak, uz pomoć strelica ili miša, i predjete na novi red.Preporuka: redovno snimajte unijete podatke, jer u slučaju da nestane struje ili se kompjuter "zaglavi" - ponovo ćete unositi izvjesnu količinu podataka (onoliko koliko ste ih unijeli od prošlog snimanja fajla).

Unošenje podataka u Notepad-u

Podatke možemo unositi i uz pomoć drugih programa, da bismo ih naknadno uvezli u SPSS, i obrađivali. Sve verzije Windows operativnih sistema imaju instaliran jednostavan program za kreiranje tekstualnih datoteka, koji se zove Notepad. Možemo ga pronaći ukoliko idemo na Start/Programs/Accessories meni Windows-a.

Izgled Notepad-a po otvaranju:

Prednost Notepad-a jeste njegova jednostavnost i rasprostranjenost – može se naći na svakom kompjuteru sa instaliranim Windows-ima.

15


Podatke u Notepad unosimo jednostavno kao redove brojeva. Svaki red predstavlja jedan upitnik, a svaka kolona (ili više kolona) može da predstavlja varijablu. Ukoliko varijabla sadrži dvocifrene brojeve, onda ih treba pissti u formatu: 00, 01, 02 itd., a ukoliko ima trocifrene, onda: 001, 002, 003 itd. Time osiguravamo fiksnu širinu kolona, što nam olakšava neke stvari. Između grupa varijabli koje unosimo zgodno je da stavimo jednu praznu kolonu, tako da imamo jednostavan vizuelni uvid u tačnost količine unesenih podataka: ukoliko na kraju unošenja jedne grupe varijabli vidimo da imamo brojku više ili manje od predviđenih – možemo odmah izvršiti provjeru podataka. Pri unošenju, tabela podataka može izgledati otprilike ovako:

gdje imamo unesene podatke o ocjenama deset učenika neke škole na prvom i drugom tromjesečju. U prvoj i drugoj koloni nam se nalazi redni broj učenika, sljedećih devet kolona su nam devet ocjena na prvom, a narednih devet su ocjene na drugom tromjesečju. Podatke snimimo kao običnu tekstualnu datoteku.

Sljedeći korak nam je uvoz ovako kreirane baze podataka u SPSS. Novije verzije SPSS-a imaju jednostavan postupak za uvoz ovakvih podataka. Nakon što otvorimo SPSS, idemo na meni File/Open/Data, i dolazimo do prozora za odabir datoteke:

16


Pod Look in: odaberemo direktorijum gdje smo snimili datoteku, a pod Files of type: odaberemo tip datote – u našem slučaju to je Text (*.txt) tip. Selektujemo datoteku i kliknemo na Open i otvara nam se procedura koja nas kroz šest koraka vodi kroz uvoz podataka:

Tu možemo ostaviti sve kako jeste, potvrdimo sa Next, i dolazimo do sljedećeg koraka:

17


U drugom koraku treba da selektujemo kućicu Fixed width, jer smo unosili podatke tako da broj kolona bide fiksan. Pošto nismo još definisali imena varijabli, odgovor na pitanje “Are variable names included at the top of your file?” će biti No. Potvrdimo sa Next, i dolazimo do trećeg koraka:

Pošto smo podatke unosili počevši sa prvim redom, u prvoj kućici ostaje upisano 1. Takođe, rekli smo da svaki red predstavlja jedan upitnik (odnosno jednog ispitanika), te i u drugoj kućici ostaje upisano 1. Kroz treće pitanje treba da odredimo koliko podataka uvozimo, i tu treba da ostane selektovano All of the cases, jer mi uvozimo sve podatke. Kliknemo na Next, i idemo na četvrti korak:

18


Ovde treba da definišemo koje kolone će predstavljati varijable, a to ćemo učiniti tako što kliknemo na prostor između dvije kolone brojeva i pojaviće se crna linija na tom mjestu. Na slici možemo vidjeti kako smo mi to učinili. Kad definišemo sve linije koje dijele varijable, potvrdimo sa Next i idemo na peti korak:

U petom koraku imamo jednostavan u to kako će izgledati podaci u SPSS-u. Ukoliko smo nešto pogriješili, ili nam se ne sviđa, jednostavno se vratimo na prethodni korak sa Back. Ako smo zadovoljni ishodom potvrdimo sa Next, i idemo na poslednji korak:

19


Šesti korak je formalan, i treba da sve ostavimo kako jeste, i potvrdimo sa Finish. Po završetku imamo podatke u SPSS-u:

Budući da vidimo kako imena varijabli nisu definisana, već samo pišu oznake v1 do v19, možemo otići na Variable View, i definisati imena varijabli i tipove podataka kako je to već ranije opisano:

20


Kad završimo definisanje ovako uvezene baze podataka, ostalo je još da snimimo sve to pod nekim imenom kao SPSS-ov fajl (tip *.sav), i imamo gotovu bazu podataka u SPSS-u.

21


Unošenje podataka u Microsoft Excel-u

Microsoft Excel je još jedan program koji je široko zastupljen, i u našim uslovima se nalazi instaliran na skoro svim kompjuterima u okviru paketa Microsoft Office. Zbog toga ćemo opisati postupak unošenja podataka i pomoću ovog programa. Excel je sposoban i za brojne matematičke i statističke procedure, ali time se nećemo baviti na ovom mjestu.

Nakon što otvorimo Excel, naći ćemo se pred velikom praznom tabelom kod koje brojevi označavaju redove, a slova kolone:

Sve podatke možemo upisivati u tabelu počevši sa prvom ćelijom tabele koja je označena sa podebljanim kvadratom (A1). Ako za primjer uzmemo isti slučaj upisivanja ocjena kod učenika na prvom i drugom tromjesečju, odlučićemo da odmah definišemo i imena naših varijabli tako da prvi red kolone nosi ime varijable. Prva kolona (A) će nam biti varijabla sa rednim brojem ispitanika. Druga kolona (B) će biti varijabla u kojoj će se nalaziti ocjena iz prvog predmeta na prvom polugodištu (nazvaćemo je oc1t1), i tako dalje.

22


Kad završimo sa unošenjem podataka, tabela će izgledati ovako:

Podatke, naravno, snimimo (možemo mu dati ime ocjene.xls). Sljedeći korak je da te podatke uvezemo u SPSS. U SPSS-u idemo na meni File/Open/Data, i dolazimo do sljedećeg dijalog prozora:

Pod opcijom Files of type odaberemo Excel tip fajlova, kliknemo na fajl ocjene, i potvrdimo sa Open. Dolazimo do sljedećeg dijalog prozora:

23


Ovdje sve treba da ostavimo kako jeste, a to znači da program iščitava imena varijabli iz prvog reda, a automatski prepoznaje i količinu unesenih podataka. Potvrdimo sa OK, i imamo podatke unesene u SPSS:

Ostaje još da snimimo podatke pod odgovarajućim imenom, i možemo da radimo sa podacima kao i sa drugim podacima unesenim u okviru SPSS-a.

24


Snimanje podataka

U SPSS-u imamo više vrsta snimanja i izvoza podataka i rezultata naših statističkih obrada. Sve te operacije obavljamo u glavnom meniju File.

Save - snimanje podataka. Koristimo ako smo već ranije dali ime fajlu.

Ukoliko nismo ranije odredili ime i tip fajla, koristićemoSave As... - snimanje novih podataka sa odredjivanjem imena i tipa fajla. Kad izaberemo ovu opciju dobićemo prozor gotovo identičan onom sa Open opcijom: pod "Save in" odredićemo direktorijum u koji snimamo, pod "File Name" upisaćemo naziv fajla, a pod "Files of type" odredićemo tip fajla. Za kraj pritisnemo dugme "Save".

Export - snimanje tabela, grafikona i rezultata obrade u drugim formatima, tako da ih možemo otvoriti u drugim programima. Ovu opciju imamo na raspolaganju kad je aktivan prozor Output.Pod opcijom "Export" biramo šta će sve biti u eksportovanom fajlu:

Output Document - sve se eksportujeOutput Document (No Charts) - sve sem grafikona se eksportujeCharts Only - samo grafikoni se eksportuju

Pod "File Name" odredjujemo ime fajla i putanju do direktorijuma gdje će biti snimljen.Pod "Export What" možemo izabrati "All Objects" ukoliko želimo da se sve eksportuje u fajl, "All Visible Objects" ako želimo da eksportujemo samo vidljive sadržaje, i "Selected Objects" ako želimo da eksportujemo samo selektovane objekte.Pod "File Type" biramo tip fajla pod kojim će se snimiti naša datoteka:

htm - HTML fajl, čitljiv u internet čitačima, ali i u većini novih programa za obradu teksta (Word 97 i noviji)txt - tekstualni fajl, čitljiv u većini programa i na većini kompjutera, ali sadrži samo tekst - bez grafikona

Otvaranje datoteka

Pod otvaranjem datoteka u SPSS-u podrazumijeva se svako otvaranje ili uvoz baza podataka koji su kreirani bilo u okviru samog SPSS-a, ili nekog drugog programa (Excel, Access, Statistica itd). Takođe, možemo otvarati i rezultate ranije napravljenih ispisa ili komandnih procedura.

Open - koristimo za otvaranje ranije snimljenih fajlova (baza podataka, ispisa rezultata, komandnih programa).Kad izaberemo ovu opciju dobijamo sljedeći prozor:

Tamo gdje piše "Look in" odredjujemo direktorijum u kome se nalaze naši fajlovi. Opcija "Files of type" je veoma bitna: SPSS će nam prikazati samo fajlove one vrste koja je definisana u okviru "Files of type", a druge neće. Što

25


znači da ako želimo da otvorimo (ili vidimo) fajlove drugog tipa, moraćemo da promijenimo tip fajlova.Tipovi fajlova (neki):

sav - standardni SPSS sirovi podacispo - ispisi rezultata obradesps - komandni programsbs - skriptxls - Excel datotekapor - prenosivi (medju različitim programima) tip sa sirovim podacimaall files - vidjećemo sve tipove fajlova koje Windows poznaju

Na kraju izaberemo odredjeni fajl i pritisnemo dugme "Open".

Read ASCII Data - otvaranje fajlova sa sirovim podacima koji su snimljeni u tekstualnom obliku. Imamo dvije podopcije:

Freefield - varijable se idu po istom redoslijedu za svaki red, ali se ne nalaze nužno uvijek u istim kolonama za svaki red (ili su odvojene nekim znakovima, kao što su tačka ili zarez)Fixed Columns - čita tekstualne datoteke kod kojih su kolone fiksne - varijable se nalaze na istom mjestu (u istoj koloni) za svaki red

26


Manipulisanje podacima

Spajanje datoteka

Ako želimo da spojimo više datoteka, obavićemo to po menijem Data/Merge Files. Tu imamo mogućnosti da dodajemo nove ispitanike (Add Cases) ili da dodajemo nove varijable (Add Variables) već otvorenoj datoteci. Ovo je korisno kad se podaci unose na više različitih mjesta, pa na kraju mogu da se spoje svi u jednu veliku datoteku, za finalnu analizu podataka.

Dodavanje novih ispitanika (slučajeva):

Ako smo želimo da spojimo fajlove koji sadrže iste varijable, ali dodatne ispitanike, izabraćemo opciju Add Cases, i dobićemo prvi dijalog prozor koji nam omogućava da izaberemo datoteku u kojoj se nalaze novi ispitanici. Dakle, treba da izaberemo željeni fajl i pritisnemo Open.

Ukoliko nova datoteka sadrži sve iste varijable kao i stara, u prozoru s lijeve strane (Unpaired Variables) se neće nalaziti ni jedna varijabla. U prozoru s desne strane se nalaze imena varijabli u novokreiranoj datoteci. Ukoliko ne želimo da zadržimo neke varijable u novom fajlu, dovoljno je da ih selektujemo u prozoru Variables in New Data File i izbacimo (pritisnemo strelicu koja pokazuje lijevo).

Dodavanje novih varijabli:

27


Ako smo želimo da spojimo fajlove koji sadrže iste ispitanike, ali dodatne varijable, izabraćemo opciju Add Variables, i dobićemo prvi dijalog prozor koji nam omogućava da izaberemo datoteku u kojoj se nalaze novi ispitanici. Izaberemo željeni fajl i pritisnemo Open.

U okviru s lijeve strane (Excluded Variables) nalaze se imena varijabli koje neće biti ubačene u novu datoteku - sve varijable koje se već nalaze u staroj datoteci. Sa (+) su označene sve varijable iz datoteke koju dodajemo, a sa (*) sve varijable u datoteci kojoj dodajemo. U prozoru s desne strane (New Working Data File) vidimo koje će sve varijable biti uključene u novu datoteku. U našem slučaju dodajemo samo jednu varijablu koja se ne nalazi u staroj datoteci - "novavar".

28


Spajanje podataka tako da grupe ispitanika čine jedan zbirni slučaj

Ovu proceduru možemo obaviti pod opcijom Data/Aggregate.

U prozorčić sa natpisom Break Variable(s) upisujemo varijablu na osnovu čijih vrijednosti se sažimaju podaci iz varijabli koje upišemo u prozorčić Aggregate Variable(s). Znači, za sve ispitanike koji imaju zajedničku vrijednost na Break Variable program računa neku zbirnu funkciju (na primjer aritmetičku sredinu) na Aggregate Variable. Pod dugmetom Name&Label odredjujemo imena novih varijabli, a pod Function odredjujemo funkciju sažimanja podataka. Ime novog fajla odredjujemo ako je uključena opcija Create new data file, u suprotnom - otvara se nova radna matrica (tabela) podataka.

Najjednostavniji primjer za ovu proceduru je kad želimo da izračunamo prosječan skor na nekoj varijabli za muškarce i žene. Onda nam je pol Break, a varijabla čiji prosjek želimo je Aggregate, i pod Function izaberemo Mean.

29


Grupisanje i selekcija podataka

Grupisanje podataka

Data/Split File opcija grupiše ispitanike po vrijednostima varijable koju odredimo (Groups Based on). Ako izaberemo više varijabli, prva na spisku će biti primarna, i u okviru njenih kategorija će biti izvršena grupisanja za drugu varijablu. Kad je uključena opcija Split File, sav ispis će biti organizovan po ovim kategorijama. Opcija Compare groups znači da će ispis biti zajednički, tj. grupe će se nalaziti u istoj tabeli radi medjusobnih poredjenja. Opcija Organize output by groups dovodi do zasebnog ispisa za svaku kategoriju varijable koja grupiše.

30


Selekcija podataka

Data/Select Cases selektuje ispitanike prema vrijednostima neke varijable, oni koji nisu selektovani izbačeni su iz dalje analize ili su potpuno izbrisani iz datoteke.

U dnu prozora, pod "Unselected Cases Are" biramo da li će neselektovani ispitanici biti samo filtrirani (Filtered), tj neće se uzimati u obzir pri statističkim operacijama, ili će biti trajno izbrisani iz datoteke (Deleted).Ukoliko je uključena opcija "All cases" znači da su selektovani svi ispitanici.

Kad uključimo opciju If condition is satisfied i pritisnemo dugme If... dobijamo mogućnosti da odredimo uslove selekcije.U gornji prozorčić upisujemo uslov: u našem slučaju uslov je da ispitanici imaju vrijednost 1 na varijabli "pol", što znači da će u dalju obradu biti uključene samo žene (u našem slučaju je tako kodirano da žene imaju oznaku 1, a muškarci 2). Ukoliko želimo višestruke uslove, npr. želimo da u dalju obradu uključimo žene koje pohadjaju odredjenu školu, izmedju dve jednakosti (pol=1 i skola=2) stavimo logičko I (znak "&"). Znak "|" je logičko ILI. U podopcijama imamo još mnogo matematičkih funkcija koje nećemo nabrajati. Naravno treba da potvrdimo sa Continue na ovom, i OK na prethodnom prozoru.

31


Možemo da selektujemo ispitanike na bazi slučajnog izbora, ako uključimo opciju Random sample of cases, i u okviru toga podesimo željeni procenat ili broj ispitanika koji nam treba.

Na osnovu ranga (odnosno redoslijeda u datoteci) ih selektujemo pod Based on time or case range, gdje podesimo prvi i posljednji redni broj koji želimo da selektujemo.

Use filter variable iz dalje obrade izbacuje ispitanike koji na datoj varijabli imaju vrijednost 0 ili im nedostaje podatak.

Data/Weight Cases - ponderisanje (operećivanje) ispitanika. Simulira se replikacija ispitivanja, i to u zavisnosti od vrijednosti izabrane varijable. Vrijednosti ponder varijable govore o navodnom broju opservacija. Iz dalje obrade se izbacuju ispitanici koji imaju 0, negativnu vrijednost ili nedostajući podatak.

32


33


Transformacija podataka

Izračunavanja

Transform/Compute opcija nam omogućava da kreiramo novu varijablu različitim oblicima izračunavanja na osnovu vrijednosti već postojećih varijabli.Na mjesto gdje piše Target Variable upisujemo ime nove varijable koju kreiramo. Tamo gdje stoji Numeric Expression upisujemo formulu na osnovu koje računamo vrijednosti nove varijable. Opet imamo na raspolaganju sve računske operacije, kao i mnogo matematičkih i statističkih funkcija. U našem primjeru (na slici gore) kreiramo novu varijablu zbirsekc čije vrijednosti se dobijaju sabiranjem vrijednosti varijabli sekc1, sekc2 i sekc3. Takodje, imamo i dugme If... kojim dolazimo do mogućnosti postavljanja uslova za računanje vrijednosti varijable (detaljnije pod Data/Select Cases).

34


Prebrojavanja

Data/Count kreira varijablu u okviru koje se nalaze prebrojane iste vrijednosti koje se nalaze u okviru raznih varijabli. Npr. ukoliko imamo nekoliko varijabli koje govore o tome da li ispitanici gledaju ili ne gledaju neke TV stanice (npr. 1 znači da, a 0 ne), pa na kraju želimo da znamo koliko ispitanik ukupno gleda TV stanica, iskoristićemo Count.U okviru Target Variable upisujemo naziv nove zbirne varijable, a u Target Label detaljnije pojašnjenje sadržaja varijable. U okviru Numeric Variables ubacimo varijable koje želimo da prebrojavamo. Obavezno je da se u okviru opcije Define Values specifikuju vrijednosti čije prebrojavanje se želi (u prethodnom primjeru sa TV stanicama, tu ćemo specifikovati da želimo prebrojavanje pojavljivanja vrijednosti 1). Tu je i postavljanje uslova pod opcijom If...

Rekodiranje

Rekodiranje radimo u ukviru menija Data/Recode.

Ako izaberemo podopciju Into Same Variables mijenjamo vrijednosti u okviru varijable koju izaberemo. Pod Old and New Values definišemo kako vršimo to rekodiranje, tj. koje vrijednosti će, i kako, biti izmijenjene. A tu je i uslov If...S lijeve strane definišemo koje vrijednosti ćemo mijenjati. Možemo da unesemo pojedinačne vrijenosti (Value), nedostajuće podatke (System-missing, System-or user-missing), ili nizove vrijednosti (Range). S desne strane definišemo nove vrijednosti, i to tako što u prozorčiću gdje piše Value upišemo novu vrijednost, i pritisnemo dugme Add. Za kraj, naravno, Continue.U gornjem primjeru možemo vidjeti da smo mi obrnuli vrijednosti nek varijable, tako da rekodiramo 1 u 5, 2 u 4 itd.

35


Ako izaberemo podopciju Into Different Variables rekodirane vrijednosti će biti zapisane pod novom varijablom koju kreiramo. Bitno je da izaberemo varijablu koju rekodiramo (pod Numeric Variable), pod Output Variable definišemo ime nove varijable (pod Label njeno pojašnjenje), i pritisnemo dugme Change.Pod Old and New Values definišemo kako vršimo to rekodiranje, tj. koje vrijednosti će, i kako, biti izmijenjene. Prozor za to redefinisanje je gotovo identičan kao i u slučaju opcije Into Same Variables.

Automatsko rekodiranje - Transform/Automatic Recode kreira novu varijablu i automatski rekodira sadržaj neke string (slovne) ili brojčane varijable u sekvencijalne vrijednosti.

U prozor s desne strane ubacimo varijablu čije vrijednosti želimo da rekodiramo, a u prozorčić dole unesemo ime nove varijable, i pritisnemo dugme New Name. Možemo i da definišemo da li će kodiranje početi od najniže (Lowest value) ili najviše vrijednosti.String varijable se kodiraju po abecednom redu.

36


Rangovanje podataka

Opcija Transform/Rank Cases nam omogućava da kreiramo novu varijablu koja sadrži rangovane vrijednosti izabrane varijable.

Program sam odredjuje ime nove varijable, na osnovu imena izabrane varijable. Varijablu čije vrijednosti želimo da rangujemo ubacimo u okvir Variable(s). U okvir By možemo da ubacimo neku varijablu na osnovu koje će organizovati rangovanje izabrane varijable (rangovaćemo slučajeve zasebno u okviru svake vrijednosti organizacione varijable). Možemo da definišemo rangove u uzlaznom ili silaznom rasporedu (Assign Rank 1 to). Pod Rank Types možemo izabrati višestruke metode rangovanja, a pod Ties metod dodjeljivanja rangova istovjetnim vrijednostima.

Kreiranje vremenskih serija

Create Time Series - kreira novu varijablu transformacijom postojeće varijable bazirane kao vremenski serijal (gdje svaka sljedeća vrijednost u koloni predstavlja opservaciju u sljedećem ekvidistantnom vremenskom periodu).

37


U okvir gdje piše New Variable(s) ubacimo vremensku varijablu koju želimo da transformišemo. Tamo gdje piše Name možemo da unesemo ime nove varijable, mada se automatski upisuje podrazumijevano ime - prvih šest slova stare varijable plus brojčana oznaka. Ispod natpisa Function možemo izabrati funkciju transformacije.

Tretiranje nedostajućih podataka

Replace Missing Values - popunjava ćelije kod kojih postoji nedostajući podatak.

U okvir New Variable(s) ubacimo varijablu kod koje želimo da eliminišemo prazne ćelije. Tamo gdje piše Name možemo da unesemo ime nove varijable, mada se automatski upisuje podrazumijevano ime - prvih šest slova stare varijable plus brojčana oznaka. Ispod natpisa Method možemo izabrati funkciju na osnovu koje se vrši popunjavanje nedostajućih podataka.

38


39


Deskriptivne statističke mjere

Deskriptivne statističke mjere, kao što smo to već rekli u uvodu, predstavljaju osnovne mjere kojima na osnovu dobijenih podataka opisujemo naš uzorak. To mogu biti najjednostavnija prebrojavanja, tako da postignuća ispitanika sumarno prikažemo u obliku broja slučajeva u okviru pojedinih kategorija (razreda distribuiranih rezultata), procentualni prikazi, ili različite mjere centralne tendencije i mjere idsperzije (raspršenja, odstupanja rezultata).

Frekvencije i procenti

Prostim frekvencijskim prikazom se predstavlja frekvencija (broj) ispitanika koji su postigli određeni rezultat na nekom mjernom instrumentu koji smo zadali (test, upitnik, anketa, opservacija itd.). Time dobijamo najbrži uvid u raspodjelu skorova ispitanika koje oni postižu pri datom mjerenju. Međutim kada se radi o mjernim instrumentima koji imaju veliki raspon mogućih rezultata (npr. test informisanosti koji se sastoji od 85 ajtema i gdje konačan rezultat može da se kreće od 0 do 85 bodova) prosti frekvencijski prikaz (nazivamo ga i frekvencijskim prikazom sirovih rezultata) može biti veoma nezgodan, kako za razmatranje rezultata, tako i za prikazivanje. Problem pri razmatranju raspodjele skorova u navedenom primjeru se ogleda u tome što se vrlo često frekvencije pojedinih rezultata koje se međusobom vrlo malo razlikuju. Sa druge strane frekvencijski prikaz sirovih rezultata dobijen mjernim instrumentom sa većim rasponom dobijenih rezultata je često vrlo nepregledan. Zbog toga se onda distribucija rezultata dijeli u manji broj kategorija, koje nazivamo intervalnim razredima, tako da tada frekvencijski prikaz ima više smisla. Samo razvrstavanje rezultata koje ispitanici ostvaruju u manji broj kategorija obavlja se prema prema određenim kriterijumima koji koje postavlja sam istraživač prema zahtjevima koji su postavljeni određenom statističkom metodom koja se primjenjuje2 ili teorijskom idejom na kojoj je istraživanje zasnovano3. Pojmovi kojima se barata pri razmatranju raspodjele ispitanika po kategorijama su:

R - raspon dobijenih skorova; čija je vrijednost razlika između najvišeg i najnižeg skora dobijenog pri jednom mjerenju,

i - interval; brojna vrijednost koja pokazuje opseg jednog razreda. Vrijednost intervala dodana na najnižu mjeru jednog razreda jednaka je najnižoj mjeri sljedećeg razreda. Interval može biti bilo koji pozitivan cijeli broj4,

r - razred; jedna od kategorija u koju spadaju ispitanici čiji je dobijeni rezultat jednak ili veći od njegove najmanje mjere i jednak ili manji od njegove

2 Kao primjer raspodjele ispitanika u kategorije prema zahtjevima određene statističke metode koja se primjenjuje možemo navesti slučaj kada želimo utvrditi postoji li statistički značajna razlika između ispitanika koji su položili ispit iz Psihometrije ili ne, prema uspjehu na testu informisanosti. Ukoliko želimo da eventualno postojanje značajne razlike ispitamo putem t-testa, prvo je potrebno ispitanike razvrstati na osnovu ukupnog broja bodova postignutih na testu iz Psihometrije u dvije kategorije, položili i nisu položili ispit. Zatim utvrditi da li postoji razlika između aritmetičkih sredina tako formiranih grupa prema uspjehu na testu informisanosti i da li je eventualna razlika između grupa statistički značajna na nekom od nivoa značajnosti ili ne.3 Studentima psihologije najpoznatiji primjer raspodjele ispitanika u kategorije zasnovan na određenoj teorijskoj ideji je razvrstavanje ispitanika u kategorije prema postognutom koeficijentu inteligencije. Tako koeficijentu inteligencije, numeričkoj varijabli dobijenoj na testu inteligencije VITI ispitanici se razvrstavaju u kategorije prema Vekslerovoj teoriji inteligencije (Biro, 1996).4 Za intervale se najčešće uzimaju neparni brojevi (u objašnjenju izbora neparnog broja bi najjednostavnijebilo reći da je to esnafski običaj).

40


najveće mjere. Broj rezreda u jednoj distribuciji jednak je količniku raspona i intervala (ukoliko vrijednost količnika nije cijeli broj, broj razreda jednak je vrijednosti cijolog broja uvećanoj za 1)5,

f - frekvencija; broj slučajeva (ispitanika) koji prema ostvarenoj vrijednosti date varijable pripadaju jednoj i samo jednoj kategoriji kategoriji te varijable.

U opisu rezultata istraživanja se pored frekvencija, koje se mogu označiti apsolutnim mjerama prebrojavanja, koriste i procenti i proporcije, koje se nazivaju relativnim mjerama prebrojavanja. Razlika između frekvencija sa jedne, i procenata i proporcija sa druge strane, je u tome što frekvencije ukazuju na broj slučajeva koji pripadaju samo jednoj kategoriji, dok procenati i proporcije govore o odnosu broja slučajeva (ispitanika) jedne kategorije sa ukupnim brojem slučajeva.

Procenat tako kao relativna mjera prebrojavanja pokazuje odnos broja slučajeva jedne kategorije prema ukupnom broju ispitanika pomnoženom sa 100.

100 · N

fP = , gdje je

P - procenat ispitanika koji postiže određen rezultat (pripada određenoj kategoriji),

f - frekvencija date kategorije,N - ukupan broj ispitanika u uzorku.

Proporcija je takođe relativna mjera i jednaka je odnosu broja slučajeva jedne kategorije prema ukupnom broju ispitanika.

p = N

f, gdje je

p - proporcija ispitanika koji postiže određen rezultat (pripada određenoj kategoriji),

f - frekvencija date kategorije,N - ukupan broj ispitanika u uzorku.

Rezultate u obliku frekvencija možemo dati predstaviti preko tabele ili grafikona. Grafikoni frekvencija koje načešće primjenjujemo su histogram (ili stupčasti dijagram) i poligon frekvencija. I tabele i grafikoni kojima se rezultati prikazuju preko frekvnecija kao mjera prebrojavanja su vrlo jednostavni i pregledni6.

Histogram Poligon frekvencija

5 Raspon i interval je jedino moguće utvrditi kada se barat sa podacima sa najmanje intervalne skale. 6 Mislimo da nije zgoreg pomenuti da nije potrebno da se rezutati predstavljaju na oba načina, i u tabelama i putem grafikona. Time se samo bespotrebno ponavljaju dobijeni rezultati i njihove interpretacije. Takav pleonazam samo razvodnjava rezultate istraživanja koji se prikazuju.

41


30.029.028.027.026.025.024.023.022.021.020.019.018.017.0

40

30

20

10

0

29.528.527.526.525.524.523.522.521.520.519.518.016.5

Co

unt

30

20

10

0

I kod histograma i kod poligona frekvencija se na apscici nalaze rezultati koje ispitanici postižu pri nekom mjerenju, u obliku pojedinačnih rezultata koje ispitanici postižu ili formiranih kategorija, dok su na ordinati frekvencije postignutih rezultata ili razreda ispitanika.

Procentni prikaz bi bio nešto naprednija verzija, gdje relativizovanje frekvencija omogućava najelementarnija poređenja različitih grupa ispitanika po određenim razredima distribucije. Na primjerima histograma i poligona frekvencija je prikazana razlika između pripadnika muškog i ženskog pola ispitanika na testu informisanosti.

Histogram Poligon frekvencija

Rezultat testa

29.5

28.5

27.5

26.5

25.5

24.5

23.5

22.5

21.5

20.5

19.5

18.0

16.5

Per

cent

12

10

8

6

4

2

0

POL

muski

zenski

Rezultat testa

29.5

28.5

27.5

26.5

25.5

24.5

23.5

22.5

21.5

20.5

19.5

18.0

16.5

Pe

rce

nt

12

10

8

6

4

2

0

POL

muski

zenski

Sad se prvi put susrećemo sa analizama podataka. Kad prvi put uradimo analizu podataka SPSS će ih prikazati u zasebnom prozoru koji se zove Output (ili prozor za

42


ispis). On će nam biti aktivan u donjoj traci radne površine i prikazivaće se kao zaseban program.

Deskriptivne analize kategoričkih varijabli obično radimo tako da rezultate prikažemo u vidu frekvencija i procenata. U SPSS-u ćemo tu mogućnost ostvariti preko menija Analyze/Descriptive Statistics/Frequencies. Dobićemo prozor sa opcijama koji izgleda kao na slici: stics/Frequencies.

U donjem dijelu slike vidimo tri tastera koja nas vode do različitih mogućnosti. U ovom trenutku za nas će biti interesantna opcija iscrtavanja grafikona (opcija Charts), u okviru koje možemo potvrditi opciju Bar charts (histogram ili stupčasti prikaz). Kad unesemo u prostor s desne strane unesemo varijable (mi smo unijeli varijablu pol) i potvrdimo sa OK, dobićemo sljedeći ispis:

Frequencies

Statistics

pol N Valid 507

Missing 1

pol

Frequency Percent Valid PercentCumulative

PercentValid muski 229 45.1 45.2 45.2

zenski 278 54.7 54.8 100.0

Total 507 99.8 100.0

Missing System 1 .2

Total 508 100.0

43


pol

pol

zenskimuski

Fre

quen

cy300

200

100

0

Prva tabela nam govori koliki je ukupan uzorak ispitanika. Vidimo da smo u ovom primjeru imali ukupno 508 ispitanika, od kojih je 507 uzeto u obradu (ispitanici sa valjanim podacima - Valid), i jedan za koga nismo registrovali polnu pripadnost (Missing).

Druga tabela nam je najinformativnija, i u njoj se nalaze za nas najbitniji i najzanimljiviji podaci. U prvoj koloni tabele (Frequencies) se nalaze oznake kategorija za koje su utvrđene frekvencije (kategorije varijable pol, muški i ženski) i pored njih ukupna veličina uzorka, broj valjanih podataka i podataka koji izostaju iz obrade. Druga kolona nam govori o vrijednostima opaženih (empirijskih) frekvencija za kategorije date varijable. Kolona Percent nam govori o procentualnoj zastupljenosti muških i ženskih ispitanika u odnosu na ukupan broj ispitanika (508 u našem slučaju), uključujući i jednog čiji pol nismo registrovali. Kolona Valid Percent nam govori o procentualnoj zastupljenosti muških i ženskih ispitanika, ali ovaj put u odnosu na valjani broj ispitanika (507 u našem slučaju), i uglavnom koristimo ovaj procentualni prikaz. Konačno, posljednja kolona (Cumulative Percent) nam daje kumulativne procente, odnosno predstvlja zbir procenata datog razreda sa procentima prethodnih razreda. Red tabele u kojoj piše Missing nam (opet) govori o broju i procentu ispitanika sa nedostajućim podacima.

Na kraju imamo i grafički prikaz podataka, ovaj put u stupčastom grafikonu (histogramu), mada smo mogli izabrati i neki drugi prikaz (pitasti ili histogram sa normalnom krivom).

44


Mjere centralne tendencije

Mjere centralne tendencije nam ukazuju na tendencije grupisanja oko neke centralne vrijednosti u distribuciji rezultata mjerenja. Njihovim korištenjem se najbrže, najjednostavije i najuopštenije mogu opisati mjerene pojave na datom uzorku. Najčešće mjere centralne tendencije koje se koriste su: aritmetička sredina, medijana i mod.

Aritmetička sredina je mjera sa kojom se najčešće susrećemo u statističkim izvještajima, i govori nam koji je prosječan skor u našoj distribuciji. U odnosu na medijanu i mod mnogo je pouzdanija. Pored oznake M, aritmetička sredina se još može označiti i sa AS i X . Matematički se izražava kao količnik zbira svih dobijenih rezultata i ukupnog broja rezultata.

N

XM ∑= , gdje je

M - aritmetička sredina,X - pojedinačni skor ispitanika,N - ukupan broj slučajeva mjerenja (broj rezultata),Σ - oznaka za sumu.

Za računanje aritmetičku sredinu, moraju biti ispunjena dva uslova:1. da rezultati mjerenja potiču sa intervalne ili racio skale2. da postoji pretpostavka o normalnoj raspodjeli tih mjera u populaciji.

Medijana nam govori koji je centralni rezultat u distribuciji, odnosno ukazuje na skor koji dijeli distribuciju na dva jednaka dijela. Znači, ako rezultate mjerenja poredamo po veličini, medijanu ćemo dobiti tako što ćemo izdvojiti rezultat koji se nalazi na samoj sredini (u slučaju kada distribucija ima paran broj rezultata, to će biti sredina između dva srednja skora). Formula za određivanje medijane iz niza podataka poredanih po veličini je:

2

NMdn = , gdje je

Mdn - medijana,N - ukupan broj rezultata.

Mod, konačno, predstavlja najgrublju, odnosno statistički najneprecizniju, mjeru centralne tendencije neke distribucije. Govori nam koji se rezultat u jednoj distribuciji podataka najčešće pojavljuje. Nedostatak moda kao mjere centralne temdecije uočavamo kad se sretnemo sa distribucijom u kojoj imamo dva ili više najčešća rezultata (bimodalne, odnosno polimodalne distribucije). U takvim slučajevima ne može se uzeti samo jedna najfrekventnija vrijednost jer se time značajno narušava

45


dobijena distribucija podataka i jer se tada interpretacije i zaključci baziraju na netačnim rezultatima rezultata

Iako je statistički pouzdanija od moda i medijane, i treba je koristiti uvijek kad

je to moguće, aritmetička sredina ima svojih nedostataka – osjetljiva je na ekstremne rezultate. Ako za primjer uzmemo firmu u kojoj imamo sedam zaposlenih koji primaju sljedeće plate: radnici primaju 200, 210, 220, 230, 240 i 250 KM, dok direktor prima 5000 KM. Ako izračunamo aritmetičku sredinu, reći ćemo da prosječna plata u toj firmi iznosi 907.14 KM. Primjetićemo da nam ta cifra ne odslikava pravo stanje u toj firmi. S druge strane, ako uzmemo medijanu (centralnu vrijednost u nizu), to će biti 230 KM, što je već realniji podatak kojim bismo oslikali našu priču7.

Mjere varijabilnosti

Za potpunije opisivanje mjerenih pojava, pored mjera centralne tendencije, navodimo i mjere variranja (odstupanja, raspršenja, disperzije) od centralnih mjera. Ako su vrijednosti nekog niza mjera gusto grupisane oko srednje vrijednosti, onda ta srednja vrijednost dosta vjerno reprezentuje mjerenu pojavu. S druge strane, ukoliko su odstupanja rezultata velika, onda smo u situaciji da nam ta srednja vrijednost ne govori mnogo o tendencijama mjerene pojave. Od statističkih mjera varijabilnosti se najčešće koriste raspon, kvartilna devijacija, standardna devijacija, standardna greška aritmetičke sredine, varijansa, skjunis i kurtozis.

Najjednostavnija mjera varijabilnosti rezultata je raspon, i govori nam kolika je razlika između najveće i najmanje mjere u nizu. Raspon je prilično gruba mjera odstupanja, ali se može koristiti kao dodatni opis mjerene pojave. Formula za utvrđivanje ove mjere disperzije je:

R = Xmax - Xmin, gdje je

R - raspon,Xmax - najveći dobijeni rezultat, Xmin - najmanji dobijeni rezultat.

Kvartilnu devijaciju koristimo kad opisujemo distribucije koje odstupaju od normalne raspodjele. To mogu biti različite asimetrične distribucije, ili polimodalne distribucije rezultata. Matematički se izražava kao:

7 Kako aritmetička sredina kao mjera centralne tendencije može biti nepouzdan parametar koji predstavlja skup vrijednosti jedne varijable može se vidjeti iz sljedećeg primjera. Petorica mladića, od kojih svaki ima 20 godina su provodili popodne na zabačenoj plaži. Od jednog prolaznika su čuli da na se na drugoj plaži nalazi pet ženskih osoba, čija je aritmetička sredina godina takođe 20. Ne časeći ni časa njih petorica su krenuli prema drugoj plaži, međutim tamo nisu našli baš onakav prizor kakav su očekivali. Naime tu se zaista nalazilo pet ženskih osoba, ali su to bile četiri djevojčice, koje su imale po 5, 5, 7 i 8 godina, sa svojom bakom koja je imala 65 godina. Iz primjera je jasno da postoje situacije gdje je mod pouzdanije mjere centralne tendencije od aritmetičke sredine. Šteta je jedino što ga i Halmi (1999) pri navođenju nije iskoristio u istu svrhu, već je na osnovu njega nezgrapno pokušao objasniti “statističke laži”.

46


213 QQ

Q−

= , gdje je

Q - kvartilna devijacija, Q 3 - treći kvartil,Q1 - prvi kvartil.

Pri tome treba reći da je

Q 1 = P25 i Q 3 = P75, gdje je

P25 - percentil 25 i P75 - percentil 75,

odnosno da je prvi kvartil jednak percentilu 25 i treći kvartil jednak percentilu 75. Percentil predstavlja mjesto u distribuciji mjera ispod kojeg se nalazi određen procenat slučajeva, tako da je percentil 25, odnosno prvi kvartil, mjesto u distribuciji podataka ispod koga se nalazi 25% i percentil 75, odnosno treći kvartil, mjesto u distribuciji podataka ispod koga se nalazi 75% ukupnih slučajeva.

Standardna devijacija za najpreciznija i najpouzdanija mjera varijabilnosti pojava. Definiše se kao mjera varijabiliteta koja pokazuje koliko je odstupanje skorova distribucije od njene aritmetičke sredine. Sa obzirom da se standardna devijacija računa u odnosu na aritmetičku sredinu (nikad medijanu ili mod) i za nju važe uslovi: da dobijeni podaci potiču sa intervalne ili racio skale, i pretpostavka o normalnoj raspodjeli mjera u populaciji. Imajući u vidu važnost standardne devijacije Sprinthall (1990) je opisuje kao srce i dušu koncepta varijabilnosti. Standardna devijacija je specifična mjera varijabilnosti, i može se opisati kao kvadratni korijen iz prosječnog zbira kvadrata odstupanja. Matematički prikazano, formula za izračunavanje σ izgleda ovako:

( )1

2

−−

= ∑N

MXσ , gdje je:

σ - standardna devijacija,X - pojedinačni skor ispitanika,M - aritmetička sredina,

47


N - ukupan broj slučajeva mjerenja,Σ - oznaka za sumu.

Standardna devijacija nam služi ne samo za prosti opis mjerene pojave, nego i za statistici zaključivanja, što nam onda pruža veće mogućnosti generalizacije zaključaka, ali time ćemo se pozabaviti kasnije.

Kada su zaključci koji se donose vezani za aritmetičku sredinu, u stvari se koristi aritmetičku sredinu dobijenu na određenom uzorku da bi se procijenila aritmetičku sredinu populacije. Greška koju se čini prilikom te procjene naziva se standardna greška aritmetičke sredine. Zaključivanje o populacijskoj aritmetičkoj sredini će biti utoliko tačnije što je veći uzorak i što je mjerena pojava manje varijabilna. Pošto se na varijabilnost neke pojave ne može uticati, ukoliko se ne može da obaviti mjerenje na svim članovima populacije (a to se gotovo nikad ne može), greška procjene se može smanjiti većim brojem mjerenja. Oznaka za standardnu grašku aritmetičke sredine je Mσ ili SE M, a formula za njeno izračunavanje:

NM

σσ =

ili

1−

=N

M

σσ (za uzorke manje od 100), gdje je

Mσ - standardna greška aritmetičke sredineσ - standardna devijacija N - ukupan broj slučajeva mjerenja,

Varijansu je najjednostavnije predstaviti kao mjeru varijabilnosti koja je jednaka kvadriranoj vrijednosti standardne devijacije, pa je njena formula:

V = 2σ , gdje je

V - varijansaσ - standardna devijacija,

ili V =1

)( 2

−−∑

N

MX, gdje je

48


V - varijansa,X - pojedinačni skor ispitanika,M - aritmetička sredina,N - ukupan broj slučajeva mjerenja,Σ - oznaka za sumu.

U osnovi varijansa i standardna devijacija predstavljaju istu mjeru varijabilnosti. Međutim, postoje situacije u kojima statističke operacije sa varijansom dozvoljavaju analize koje bez učešća varijanse ne bi bile moguće.

Pored navedenih, kao mjera varijabilnosti su vrlo važne i skjunis (skewness) i kurtozis (kurtosis). Na osnovu njihovih vrijednosti se donose zaključci o odstupanja empirijske raspodjele od normalne krive. Na osnovu vrijednosti skjunisa se vrši zaključivanje o pozitivnom ili negativnom odstupanju dobijene raspodjele podataka u odnosu na normalnu (horizontalno odstupanje), dok se na osnovu poznavanja vrijednosti kurtozisa zaključuje o odstupanju dobijene raspodjele po visini (vertikalno odstupanje).

Kako je navedeno skjunis je statistik na osnovu kojeg se donosi zaključak o tome da li je empirijska raspodjela podataka pozitivno ili negativno asimetrična (iji jednostavnije rečeno da li distribucija podataka grafčki predstavljeno skreće u lijevu ili desnu stranu. Formula za izračunavanja skjunisa je:

501090

2P

PPSk −

+= , gdje je

Sk - skjunis P90 - precentil 90 P10 - percentil 10P50 - percentil 50

Svojom vrijednosti skjunis izražava veličinu asimetrije, dok svojim predznakom ukazuje na smjer asimetrije, pozitivan ili negativan. Šematski prikazane, asimetrične distribucije izgledaju ovako:

49


Kao što je već rečeno prilikom izračunavanja kurtozisa se utvrđuje eventualno vertikalno odstupanje dobijene distribucije od normalne. Na osnovu raspodjele podataka i vrijednosti kurtozisa se utvrđuje da li postoji tendecija grupisanja podataka oko aritmetičke sredine ili se podaci raspršuju podjednako duž apscise. Formula za izračunavanje kurosisa je:

1090 PP

QKu

−= ,

Q - kvartilna devijacija,Ku - kurtozis,P90 - precentil 90, P10 - percentil 10

Pri tome je: 2

2575 PPQ

−= , gdje je

Q - kvartilna devijacijaP915 - precentil 15,P25 - percentil 25.

Vrijednost kurtozisa koja se izračunava je uvijek manja od jedan. Dobijenu vrijednost se uvijek poredi sa vrijednosti 0.263 koliko iznosi kurtosis za normalnu krivu. Ukoliko je dobijena vrijednost kurtozisa veća od 0.263 onda je distribucija platikurtična, tj. spljoštena. Ako je dobijena vrijednost manja od 0.263, onda je distribucija leptokurtična, tj. izduženog oblika. Šematski prikazano, te distribucije izgledaju kao na slici:

50


Ku < .263 - leptokurtična kriva,Ku = .263 - normalna kriva,Ku > .263 - platikurtična kriva.

Sad treba da vidimo kako ćemo računanja ovih mjera centralne tendencije i varijabilnosti obaviti u SPSS-u. Znači, zanimaju nas mod, medijana i aritmetička sredina, a od mjera odstupanja tu su standardna devijacija, kvartilna odstupanja i mjere zakrivljenosti dobijene distribucije podataka. Nije zgoreg napomenuti da aritmetičku sredinu i standardnu devijaciju koristimo ukoliko imamo podatke koji zadovoljavaju uslove intervalne ili racio skale. Za primjer ćemo uzeti rezultate sa skale autoritarnosti kao osobine ličnosti, koja je primijenjena na uzorku od 496 ispitanika.

Ukoliko radimo na podacima sa ordinalne skale, mjere centralne tendencije i odstupanja ćemo tražiti na sličan način kao i kod frekvencijskih tabela: preko menija Analyze/Descriptive Statistics/Frequencies, i možemo da isključimo kućicu Display frequency tables da na bismo gledali neželjeno velike frekvencijske tabele...

51


...a zatim ćemo pritisnuti dugme Statistics, i zabraćemo neke od mjera koje želimo.

Ako želimo prikaz aritmetičke sredine i standardne devijacije za intervalne ili racio podatke, kao i drugih mjera opisa, idemo na meni Analyze/Descriptive Statistics/Descriptives i unesemo u desni prozor željenu varijablu (u našem slučaju to je skor na skali autoritarnosti).

52


Da bi vidjeli koje statističke mjere su nam na raspolaganju, kliknemo na dugme Options i dolazimo do izbora mjera. Za početak su označene aritmetička sredina (Mean), standardna devijacija, minimum i maksimum, raspon Range), standardna greška aritmetičke sredine (S.E. mean). Ukoliko želimo da vidimo zakrivljenost naše distribucije možemo uključiti i mjere zakrivljenja (Kurtosis i Skewness), da bismo vidjeli da li značajno odstupa od normalne raspodjele mjera.

Kad na kraju potvrdimo sa OK, dobićemo sljedeći ispis:

DescriptivesDescriptive Statistics

N Range Minimum Maximum Mean Std. Deviation Skewness Kurtosis

Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Statistic Statistic

SKOR.AUT 495 50 18 68 47.991 0.389 8.663 -0.325 -0.0193

Valid N (listwise) 495

Iz tabele možemo vidjeti da imamo 495 ispitanika čiji su rezultati uzeti u obradu. Raspon rezultata iznosi 50, vrijednost minimalnog skora je 18, a maksimalnog 68. Vrijednost aritmetičke sredine je 47.98, a njena standardne greške 0.389, dok standardna devijacija iznosi 8.66. Skewness iznosi –0.325 što znači da je naša distribucija negativno asimetrična (skreće na lijevu stranu). Kurtosis je manji od 0.263 na onsnovu čega zaključujemo da je kriva empirijske distribucije izdužena u odnosu na normalnu, tj. leptokurtična.

53


Deskriptivne mjere za dva ili više uzoraka

Često se javlja potreba za upoređenjem deskriptivnih mjera dvaju ili više poduzoraka u okviru jednog istraživanja. To recimo može biti slučaj kad se žele uopšteno uporediti postignuća muških i ženskih ispitanika na nekom testu, ili da se uporede prosjeci učeničkih ocjena po razredima osnovne škole. Mi ćemo za primjer uzeti jedno ispitivanje koje se bavilo znanjem iz oblasti informatickih tehnologija, gdje je predmet interesovanja razlika u stepenu informatickih znanja kod ljudi različitih uzrasnih skupina. Postoji više načina da se ovo uradi u SPSS-u. Najjednostavniji je sljedeći:

Idemo na meni Analyze/Compare Means/Means, i u okvir iznad kojeg piše Dependent List ubacimo varijablu čije skorove želimo porediti (u našem slučaju to je rezultat na testu znanja iz informatike). U Independent List ubacimo kategoričku varijablu u kojoj se nalaze informacije o našim poduzorcima (u našem slučaju to je varijabla starost). Da bismo odabrali deskriptivne mjere koje želimo vidjeti, pritisnemo dugme Options.

Time se dobija prozor na čijoj lijevoj strani se nalaze mjere koje su na raspolaganju, a s desne strane je okvir u koji se unose parametri koje želimo da razmotrimo. Za početak su odabrane aritmetičke sredine (Means), standardne devijacije (Standard Deviation) i broj slučajeva (Number of Cases) i, ali nas ništa ne spriječava da izaberemo bilo koju drugu mjeru koja nas zanima, te smo mi odabrali još i medijanu (Median) i minimalan i maksimalan rezultat na testu.

54


Kao rezultat dobijamo sljedeći ispis:

Means

Case Processing Summary

Cases

Included Excluded Total

N Percent N Percent N Percentznanje iz informatike * STAROST 401 98.8% 5 1.2% 406 100.0%

Report

znanje iz informatike

STAROST Mean N Std. Deviation Median Minimum Maximum18 - 20 godina 26.1882 85 5.62201 26.0000 14.00 38.0021 - 29 godina 24.7458 177 6.97217 24.0000 14.00 41.00

30 - 39 godina 20.0000 37 7.43117 15.0000 14.00 38.00

40 - 49 godina 17.1127 71 6.63443 14.0000 14.00 41.00

preko 50 godina 15.0323 31 4.49061 14.0000 14.00 39.00

Total 22.5112 401 7.57532 21.0000 14.00 41.00

Prva tabela (Case Processing Summary) nas, već uobičajeno, izvještava o tome koje varijable se ukrštaju (u našem slučaju to su znanje iz informatike i starost), i koliko ispitanika je imalo valjane podatke, odnosno koliko je ispitanika uzeto u obradu.

Druga tabela (Report) daje prikaz deskriptivnih statističkih mjera koje smo tražili. Pošto vidimo da su sve na broju (AS, N, σ , medijana, min i max), možemo obaviti i uvid u dobijene rezultate. U koloni Means vidimo da je stepen poznavanja

55


oblasti informatike veći kod mlađih ispitanika i da progresivno opada sa porastom starosne dobi ispitanika. Poređenje se dalje može vršiti i na osnovu drugih dobivenih statističkih mjera. Tako vrijednosti medijane, naravno, prate vrijednosti aritmetičkih sredina po kategorijama ispitanika. Dalje se, recimo, može zaključiti da je najveće prosječno odstupanje rezultata prisutno u grupi ispitanika starosti između 30 i 39 godina, dok su najveći skorovi dobijeni u grupama ispitanika starosti od 21 do 29 i od 40 do 49 godina. najmanji dobijeni skor je jednak u svim grupama. Na kraju (samo po redoslijedu navođenja, nikako i važnosti podataka koje sadrži), kolona N pokazuje broj ispitanika po kategorijama, što je vrlo važno ne samo jer pruža informaciju o brojnosti kategorija, već prije svega ukazuje na to da li je smisleno porediti grupe (ako su razlike u broju članova poduzoraka velike, npr. u kategoriji starosti od 30 do 39 148 ispitanika i u u kategoriji starosti od 40 do 49 njih 17).

Testiranje normalnosti distribucije podataka

Već smo vidjeli da je za veliki broj statističkih analiza neophodno ustanoviti da li distribucija dobijenih podataka zadovoljava uslov normalnosti, tj. da li u dovoljnoj mjeri podražava normalnu raspodjelu (npr. za odluku da li će se u razmatranju određenih podataka primijeniti neki parametrijski ili neparametrijski test). Provjera eventualnog odstupanja empirijske od normalne distribucije se može izvršiti na više načina.

Jedan od načina je da se (već predstavljene) deskriptivne mjere odstupanja, skjunis i kurtozis podijele sa njihovim standardnim greškama. Ukoliko bilo koja od dobijenih vrijednosti bude veća od 1.96 ili 2.58, zaključuje se da empirijska distribucija značajno (na nivou 0.05, odnosno 0.01) odstupa od normalne krive. Znači,

58.2SESk

Sk ∨ 58.2

KuSE

Ku ⇒ p .05

i

96.1SESk

Sk ∨ 96.1

KuSE

Ku ⇒ p .01,

gdje je

Sk - skjunisSESk - standardna greška skjunisaKu - kurtozisSEKu - standardna greška kurtozis ap - oznaka za statističku značajnost2.58 - vrijednost sa kojom se poređenje vrši na nivou značajnosti p<.051.96 - vrijednost sa kojom se poređenje vrši na nivou značajnosti p<.01

56


Sljedeći način testiranja eventualnog odstupanja empirijske raspodjele od normalne bi bio uz pomoć Hi-kvadrat (χ2) testa, ali pošto je to dosta komplikovano uraditi u okviru SPSS-a, ovaj put nećemo to objašnjavati.

Kolmogorov-Smirnov test je još jedan od mogućih načina provjeravanja empirijske distribucije. U okviru Kolmogorov-Smirnov testa se vrši poređenje empirijske i teorijske distribucije. U ovom postupku se uzima u obzir ono mjesto u kome se dvije raspodjele najviše razlikuju, a zatim ispituje da li ta najveća vrijednost razlike empirijske i teorijske distribucije (Dmax) statistički značajno odstupa od normalne, van granica slučajnosti. Mi ćemo za primjer uzeti naš već opisani slučaj sa skalom autoritarnosti.

Potrebno je za početak otići na meni Analyze/Descriptive Statistics/Explore i da varijablu čiju distribuciju želimo da testiramo ubacimo u okvir gdje piše Dependent List (u našem slučaju to je varijabla skor.aut koja je rezultat na nekoj skali autoritarnosti).Sljedeći korak je da idemo na opciju Plots u donjem dijelu prozora.

Treba da potvrdimo opcije Histogram i Normality plots with tests. Ovo će nam dati grafički prikaz raspodjele naših rezultata u formi histograma, a dobićemo i statističke testove normalnosti.

57


Dobićemo sljedeći ispis:

ExploreCase Processing Summary

Cases

Valid Missing Total

N Percent N Percent N PercentSKOR.AUT 495 97.6% 12 2.4% 507 100.0%

Descriptives

Statistic Std. ErrorSKOR.AUT Mean 47.9919 .38942

95% Confidence Interval for Mean

Lower Bound 47.2268

Upper Bound48.7570

5% Trimmed Mean 48.1768

Median 48.0000

Variance 75.065

Std. Deviation 8.66399

Minimum 18.00

Maximum 68.00

Range 50.00

Interquartile Range 12.0000

Skewness -.326 .110

Kurtosis -.019 .219

Tests of Normality

Kolmogorov-Smirnov(a) Shapiro-Wilk

Statistic df Sig. Statistic df Sig.SKOR.AUT .048 495 .008 .991 495 .005

a Lilliefors Significance Correction

58


SKOR.AUT

70.0

65.0

60.0

55.0

50.0

45.0

40.0

35.0

30.0

25.0

20.0

Histogram

Fre

quen

cy120

100

80

60

40

20

0

Std. Dev = 8.66

Mean = 48.0

N = 495.00

Prva tabela nam govori o broju valjanih podataka uzetih u obradu, a druga o generalnim deskriptivnim podacima za našu skalu. Dok se u drugoj tabeli nalaze deskriptivne statističke mjere razmatrane distribucije koje smo odabrali o okviru opcije Statistics, u trećoj (onoj koja nas najviše zanima) dobijamo izvještaj o distribuciji koju testiramo. U okviru te tabele, pod nazivom Test of Normality, prve tri kolone predstavljaju izvještaj o obavljenom Kolmogorov-Smirnov testu. Kolona Statistic kaže kolika je izračunata mjera odstupanja naše distribucije od normalne (u našem slučaju 0.048), a kolona Sig. nam govori o značajnosti utvrđenog odstupanja (u našem slučaju 0.008). Budući da je p (odnosno Sig. u SPSS-u) manje od 0.01, a hipoteza je bila da naša distribucija ne odstupa značajno od normalne, odbacujemo postavljenu hipotezu, i donosimo zaključak da naša distribucija statistički značajno (na nivou značajnosti od 0.01) odstupa od normalne. Tabela takođe pokazuje da je radjen i drugi test eventualnog odstupanja empirijske raspodjele od normalne krive i da on takođe ukazuje na statistički značajno odstupanje testirane raspodjele od normalne (Shapiro-Wilk). No, budući da je on predviđen za uzorke od 50 ili manje ispitanika (u našem slučaju ih ima 495), on nam zasad nije potreban.

Takođe, ukoliko skewness podijelimo sa njegovom standardnom greškom dobijamo: -0.326/0.110 = -2.96, gdje takođe potvrđujemo značajno odstupanje dobijene od normalne raspodjele.

Histogram koji smo dobili nam može ponešto reći o dobijenim podacima. Vidimo da se veći broj ispitanika gomila na gornjem dijelu naše skale, što znači da su rezultati za našu ispitivanu populaciju negativno asimetrični, odnosno varijabilnost negativne strane je povećana.

59


Testiranje značajnosti razlika aritmetičkih sredina

Jedna od najčešćih razmatranja s kojima se istraživači bave u okviru analize podataka jesu testiranja značajnosti razlika aritmetičkih sredina između uzoraka. Ukoliko se žele uporediti aritmetičke sredine dobijene na dva uzorka iz iste populacije, gotovo sigurno će njihove vrijednosti biti različite. Da bi se utvrdio da li te razlike potiču od nekih sistematskih faktora, ili su, pak, rezultat slučajnih činilaca, poslužićemo se nekim od statističkih testova konstruisanih u tu svrhu. Na osnovu rezultata testiranja razlika, u zavisnosti od toga da li rezultat bude značajan ili ne, mogu se izvesti dva zaključka:

1. Ukoliko test ne pokaže statistički značajnu razliku između aritmetičkih sredina uzoraka, zaključuje se sa mogućnosti greške manjom od 1% ili 5%, da su uzorci homogeni (pripadaju istoj populaciji), odnosno da su nastale razlike rezultat slučajnih faktora.2. Ukoliko test pokaže značajnu razliku između aritmetičkih sredina, uz mogućnost prisustva greške manjom od 1% ili 5% donosi se zaključak da su uzorci heterogeni, odnosno da su nastale razlike rezultat dejstva nekog sistematskog faktora. U pozadini ovog postupka testiranja značajnosti razlika između aritmetičkih

sredina, leži procjenjivanje njene standardne greške, definisanja intervala pouzdanosti oko te razlike i procjene značajnosti te razlike.

Da bismo radili testiranje značajnosti razlika između izraženosti pojava potrebno je da znamo nekoliko stvari:

Da li podaci zadovoljavaju uslove primjene parametrijskih testova? - da podaci sa kojima se barata potiču bar sa intervalne skale - da podaci podržavaju normalno raspodjeljujuDa li se radi o nezavisnim ili zavisnim uzorcima?Da li postoji dvije ili više grupa ispitanika?Ovi podaci će odrediti vrste statističkih testova koji se mogu koristiti, a

vidjećemo da ih ima mnogo.

Testiranje značajnosti razlike između dva uzorka

T – test za nezavisne uzorke

Kao prvo treba reći da se pod nezavisnim uzorcima podrazumijevaju se oni uzorci koji nakog izvršenog mjerenja ne stoje ni u kakvom pravilnom odnosu, odnosno nisu u korelaciji. Ukoliko postoji potreba da se izvrši testiranje razlika između aritmetičkih sredina dvaju nezavisnih uzoraka, pod uslovom da su zadovoljaeni uslovi za primjenu parametrijskih testova, onda koristimo t-test za nezavisne uzorke. Formula za njegovo izračunavanje je:

60


MD

MDt

σ= , gdje je:

t - t-test

21 MMDM −= - (apsolutna razlika između AS)

MDσ - standardna greška razlike između AS, gdje je

22

21 MMDMσσσ += ,

pri čemu je

1

1

1 NM

σσ = i 2

22

NM

σσ =

Dobijenu vrijednost t-testa se mogu porediti sa vrijednostima intervala pouzdanosti .05 i .01, koje iznose 1.96 i 2.58 za velike uzorke, i ukoliko izlazi izvan okvira neke od ovih vrijednosti, prihvata se hipoteza o postojanju značajnih razlika između uzoraka.

Za primjer ćemo uzeti testiranja značajnosti polnih razlika u postignuću na testu iz engleskog jezika na više raznih fakulteta. Imaćemo jednu kategoričku varijablu – pol, i drugu numeričku (intervalnog nivoa), skor na testu znanja iz engleskog jezika.

Potrebno je da idemo na opciju Analyze/Compare Means/Independent-Samples T Test. Test Varijable je naša zavisna varijabla (skor na testu iz engleskog jezika u našem slučaju), a Grouping Variable je nezavisna varijabla (u našem slučaju to je pol).

Moraćemo da definišemo koje grupe poredimo, jer SPSS podrazumijeva da nezavisna varijabla koja je kategorička, može imati više od dva modaliteta. Kliknemo na dugme Define i moći ćemo da nastavimo.

61


Pošto smo mi definisali modalitete naše varijable tako da 1 označava ženski, a 2 muški pol, te vrijednosti ćemo upisati u kućice. Potvrdimo sa Continue.

Kad smo definisali grupe i potvrdili sve, dobijamo sljedeći ispis kao rezultat našeg testiranja:

T-Test

Group Statistics

POL N Mean Std. Deviation Std. Error MeanRezultat testa iz engleskog

muski 88 22.648 2.3843 .2542zenski 128 23.992 2.8416 .2512

Independent Samples Test

Levene's Test for Equality of Variances t-test for Equality of Means

F Sig. t dfSig. (2-tailed)

Mean Difference

Std. Error Difference

95% Confidence Interval of the

Difference

Lower UpperRezultat testa iz engleskog

Equal variances assumed

2.641 .106 -3.643 214 .000 -1.344 .3691 -2.0719 -.6170

Equal variances not assumed

-3.763 205.582 .000 -1.344 .3573 -2.0490 -.6400

Prva tabela (Group Statistics) koju smo dobili daje nam deskriptivne mjere za naša dva uzorka. Vidimo da ukupno ima 88 muških i 128 ženskih ispitanika. Takođe vidimo da je prosječni rezultat na testu iz engleskog manji kod muških nego kod ženskih ispitanika (kolona Mean), ali i da je varijabilnost rezultata veća kod ženskih ispitanika (kolona Std. Deviation).

Druga tabela (Independent Samples Test) je nešto složenija. Prvo treba da pogledamo rezultate Levenovog testa jednakosti varijansi. Kad je vjerovatnoća veća od .05 (u našem slučaju to je 0.106), onda zaključujemo da se pretpostavljaju jednake varijanse u okviru naših subpopulacija i očitavamo rezultate iz prvog reda (Equal variances assumed). Da je značajnost Levenovog testa bila manja od .05, rezultate bismo očitavali iz drugog reda (Equal variances not assumed).

Već smo vidjeli iz prve tabele da djevojke postižu nešto bolje rezultate od mladića (za 1.344 poena u prosjeku), ali da li je ta razlika statistički značajna? Veličina statistika t od –3.643 (predznak nam nije bitan, u obzir se uzima apsolutna veličina) i

62


njegova značajnost od .000 (znači manje od .05 i od .01), nam govori da su razlike između aritmetičkih sredina statistički značajne.

Testiranje t-testom možemo obaviti na više načina u SPSS-u, ali za sad ćemo ostati kod ovoga.

Mann – Whitneyjev U-test

U slučaju kad imamo dva nezavisna uzorka koji ne zadovoljavaju uslove za primjenu parametrijskog t testa, za testiranje značajnosti razlike koristimo neparametrijski ekvivalent, a to je Mann-Whitneyjev test. Potrebno je da imamo podatke koji potiču bar sa ordinalne skale. Mi ćemo za primjer uzeti polne razlike u osobini autoritarnosti (ta varijabla, pokazalo se ranije, ne zadovoljava uslov normalnosti za primjenu parametrijskih testova).

Idemo na meni Analyze/Nonparametric Tests/2 Independent Samples, i ubacimo zavisnu varijablu u okvir gdje piše Test Variable List, a nezavisnu varijablu u okvir Grouping Variable. Moramo definisati grupe u okviru nezavisne varijable na isti način kao što smo to opisali kod t testa.

Kad smo sve uradili, potvrdimo sa OK, i dobijamo sljedeći ispis:

NPar Tests

Mann-Whitney Test

Ranks

pol N Mean Rank Sum of RanksSKOR.AUT muski 220 252.55 55562.00

zenski 275 244.36 67198.00

Total 495

63


Test Statistics(a)

SKOR.AUTMann-Whitney U 29248.000Wilcoxon W 67198.000

Z -.634

Asymp. Sig. (2-tailed) .526

a Grouping Variable: pol

Ono što nas zanima je u drugoj tabeli (Test statistics), i to je veličina Mann-Whitney U statistika (u našem slučaju 29248.00) i njegova značajnost (u našem slučaju 0.526). Znači ustanovili smo da kod naših ispitanika ne postoje statistički značajne razlike u autoritarnosti između muškaraca i žena.

Ovaj test nam nije prikazao deskriptivne mjere koje nas zanimaju, mjere raspršenja i centralnih tendencija, ali te podatke možemo dobiti na način kako je to opisano u poglavlju Deskriptivne mjere za dva ili više uzoraka.

T – test za zavisne uzorke

Zavisnim uzorcima smatramo one uzorke čije mjere su na neki način u korelaciji. U praksi se sa ovakvim uzorcima najčešće srećemo kad projektujemo neku od dvije osnovne vrste eksperimentalnih nacrta. Prvi slučaj takvog nacrta se naziva metodom iste grupe", gdje se ispitivanje pojave obavlja na istoj grupi ispitanika prije i poslije uvođenja dejstva nezavisne varijable. Drugi slučaj se naziva "metodom ekvivalentnih grupa", gdje se formiraju dvije grupe ispitanika koje se ujednačavaju po nekim, za to istraživanje, relevantnim kriterijumima (npr. uzrast, školske ocjene, da limaju brace i sestara,...). Dejstvo nezavisne varijable uvodi se u jednu grupu, koju nazivamo eksperimentalnom grupom, dok u drugoj, kontrolnoj grupi izostaje djelovanje nezavisne varijable. Nakon toga se vrši mjerenje pojave. U oba slučaja rezultati mjerenja su u korelaciji, bilo zato što su u pitanju isti ispitanici, bilo zato što su različite grupe ispitanika ujednačene po nekom (za mjerenu varijablu) relevantnom kriterijumu.

Kod zavisnih uzoraka standardnu grešku razlika između aritmetičkih sredina se računa na sljedeći način:

22,122 ***2

121 MMMMD rM

σσσσσ −+= , gdje je

- standardna greška razlika između aritmetičkih sredina,r1,2 - mjera linearne korelacije između dva uzorka,

- standardna greška aritmetičke sredine prvog uzorka (može se još označaiti i sa SE1)

- standardna greška aritmetičke sredine prvog uzorka (može se još o označaiti i sa SE1)

Statistik t se računa na isti način kao i kod nezavisnih uzoraka:

64


MD

MDt

σ= , gdje je

t – t-test - razlika aritmetičkih sredina, - standardna greška razlika između aritmetičkih sredina

Ukoliko se istraživač susreće sa velikim grupama, dobijeni rezultat se poredi sa granicama 1.96 i 2.58, a ukoliko su grupe manje – onda se granice intervala pouzdanosti očitavaju iz odgovarajućih tablica, pri čemu broj stepeni slobode dobija po obrascu: df = N-1.

Recimo da smo imali slučaj da trebamo provjeriti znanje iz engleskog jezika prije i poslije kursa iz engleskog jezika koga su studenti slušali na fakultetima. Ista grupa od 216 studenata , znači, radila je dva puta isti test, prije i poslije kursa, i mi treba da uporedimo te rezultate i zaključimo da li je nastava iz jezika doprinijela boljem znanju.

Treba da idemo na meni Analyze/Compare Means/Paired-Samples T Test, selektujemo dvije varijable čije rezultate želimo da poredimo, i unesemo ih u okvir gdje piše Paired Variables. U našem slučaju to su rezultati na testu prije (skor.eng) i poslije kursa (sk.eng2).

Kad smo na kraju potvrdili svoj izbor, dobijamo sljedeći ispis:

T-Test

Paired Samples Statistics

Mean N Std. Deviation Std. Error MeanPair 1 Rezultat testa iz

engleskog prije kursa

23.444 216 2.7402 .1864

Rezultat testa iz engleskog poslije kursa

25.3194 216 2.83988 .19323

Paired Samples Correlations

65


N Correlation Sig.Pair 1 Rezultat testa iz

engleskog prije kursa & Rezultat testa iz engleskog poslije kursa

216 .982 .000

Paired Samples Test

Paired Differences t dfSig. (2-tailed)

MeanStd.

DeviationStd. Error

Mean95% Confidence Interval

of the Difference

Lower Upper Pair 1 Rezultat testa iz

engleskog prije kursa - Rezultat testa iz engleskog poslije kursa

-1.8750 .53538 .03643 -1.9468 -1.8032 -51.472 215 .000

Prva tabela (Paired Samples Statistics) nam daje deskriptivne statističke mjere za naše zavisne uzorke. Iz nje možemo vidjeti kolika su prosječna postignuća na testu prije i poslije kursa (Mean), kao i druge podatke (broj ispitanika, standardnu devijaciju). Vidimo da su na prvom testu ispitanici postizali u prosjeku 23.444 bodova, a na drugom testu (poslije kursa) u prosjeku 25.319, što znači da su ostvarili napredak od 1.87 poena u prosjeku.

Druga tabela (Paired Samples Correlations) nam govori kolika je povezanost između rezultata na prvom i drugom testu. U našem slučaju ta korelacija iznosi veoma visokih 0.982, što bi značilo da je gotovo svaki ispitanik popravio svoje znanje iz engleskog za istu količinu. U realnosti gotovo nikad nećete naići na povezanosti ovoe veličine, ali, budući da su naši rezultati izmišljeni – to je prihvatljivo :-)

U trećoj tabeli (Paired SamplesTest) nas zanima prvenstveno statistik t i njegova vjerovatnoća (Sig.). Možemo vidjeti da u našem slučaju veličina t iznosi -51.472 (opet nam predznak nije bitan), a da je njegova vjerovatnoća 0.000. Znači, možemo reći da se prosječni rezultati značajno razlikuju, odnosno da su studenti (najvjerovatnije) zbog pohađanja kursa engleskog jezika, unaprijedili svoje znanje.

66


Test predznaka

Kad imamo dva zavisna uzorka, a koji ne zadovoljavaju uslove za primjenu parametrijskog testa za testiranje značajnosti razlike, koristimo neparametrijski ekvivalent, a to je test predznaka (Sign Test). Ovaj test ne postavlja uslove u pogledu normalnosti distribucije, a mi ćemo za primjer uzeti isto ispitivanje kao i u poglavlju T test za zavisne uzorke, znači testiranje razlika u postignuću na testu engleskog prije i poslije kursa engleskog jezika na fakultetu.

Izabraćemo opciju Analyze/Nonparametric Tests/2 Related Samples, i u okvir Test Pair List unijećemo par varijabli čije vrijednosti poredimo (u našem slučaju to su skor.eng i sk.eng2). Sljedeći korak je da odaberemo odgovarajući test, i to činimo tako što u donjem dijelu prozora izaberemo opciju Sign, a isključimo ostale opcije.

Nakon što potvrdimo svoj izbor sa OK, dobijamo sljedeći ispis:

NPar Tests

Sign Test

Frequencies

NRezultat testa iz engleskog poslije kursa - Rezultat testa iz engleskog prije kursa

Negative Differences(a) 6Positive Differences(b) 209

Ties(c) 1

Total 216

a Rezultat testa iz engleskog poslije kursa < Rezultat testa iz engleskog prije kursab Rezultat testa iz engleskog poslije kursa > Rezultat testa iz engleskog prije kursac Rezultat testa iz engleskog poslije kursa = Rezultat testa iz engleskog prije kursa

Test Statistics(a)

Rezultat testa iz engleskog poslije kursa - Rezultat

testa iz engleskog prije

kursaZ -13.776Asymp. Sig. (2-tailed) .000

67


a Sign Test

Prva tabela (Frequencies) nas izvještava o detaljima naših podataka. Pošto se ovaj test bazira na poređenju veličina dvije varijable kod ispitanika, i sabiranju broja pozitivnih i negativnih razlika, u našem primjeru tabela nam govori sljedeće:

- slučajeva kad druga varijabla (u našem slučaju to su rezultati na testu poslije kursa) ima manju vrijednost (Negative Differences) ima 6

- slučajeva kad druga varijabla ima veću vrijednost (Positive Differences) ima 209

- jednakih vrijednosti obe varijable (Ties) ima 1

Druga Tabela nam govori o veličini statistika Z, koji uzima u obzir zbir razlika predznaka, (u našem slučaju –13.776) i njegovu vjerovatnoću (u našem slučaju 0.000). Znači, možemo reći da su rezultati na testu iz engleskog kod naših ispitanika poslije kursa značajno veći nego prije kursa.

68


Značajnosti razlika između više uzoraka

Analiza varijanse

Analiza varijanse je statistička procedura koja nam omogućava da testiramo razlike između aritmetičkih sredina dvaju ili više uzoraka. Kao primjer možemo uzeti slučaj kada želimo da poredimo postignuća na nekom testu kod više nezavisnih grupa ispitanika, što u našem slučaju može biti postignuće na testu iz engleskog jezika kod studenata tri različita fakulteta. Ukoliko smo već upoznati sa t-testom kao statističkom mjerom za poređenje aritmetičkih sredina, mogli bismo zaključiti da testiranje možemo obaviti i na taj način, ali u slučaju kad imamo više nezavisnih grupa – broj poređenja t-testom može biti veliki: ako imamo tri grupe, dobijamo tri para za poređenje, za četiri grupe tu je šest parova za poređenje, i tako dalje. Rečenica kojom bismo saželi ideju analize varijanse glasi: da li su varijacije između grupa veće od varijacija unutar grupa koje poredimo? Statistička mjera variranja koju ćemo upotrijebiti u ovom slučaju je varijansa, koju dobijamo kad kvadriramo standardnu devijaciju:

2σ=v

Primjer slučaja kad je varijansa između grupa veća od unutargrupne varijanse, što bi značilo da grupe ne pripadaju istoj populaciji:

Primjer slučaja kad je varijansa između grupa manja od unutargrupne varijanse, što bi značilo da grupe pripadaju istoj populaciji:

Značajnost razlika između aritmetičkih razlika utvrđujemo uz pomoć F-testa, kojim utvrđujemo odnos između dviju varijansi:

69


Analizu varijanse radimo uz pomoć razlaganja ukupne varijanse na komponente, a sve to ćemo dobiti preko suma kvadrata odstupanja rezultata od aritmetičkih sredina:

bwT SSSSSS +=

gdje su: SST – ukupna suma kvadrata odstupanjaSSw - suma kvadrata odstupanja unutar grupaSSb - suma kvadrata odstupanja između grupa

Ako za primjer uzmemo slučaj testiranja razlika u postignuću na testu iz engleskog jezika između 216 studenata tri fakulteta (naknadno ćemo isti ovaj primjer uraditi uz pomoć SPSS-a):

dfSume kvadrata odstupanja (SS)

Varijansa(v = SS/df)

Između grupa (b) 2 (df =broj grupa – 1) 145.007 72.503

Unutar grupa (w) 215 (broj ispitanika – 1) 1469.326 6.898

Ukupno (T) 217 1614.333

Na kraju izračunavamo F kroz formulu: 51.10898.6

503.72 ==F

Na osnovu odgovarajuće tabele, koju možemo naći u osnovnim udžbenicima iz statistike, očitavamo granice značajnosti i donosimo zaključak o statističkoj značajnosti razlika.

U slučaju da ustanovimo da je F statistik značajan, onda trebamo utvrditi između kojih grupa postoje značajne razlike, da li između svih mogućih parova, ili samo između nekih? Tada se koristimo t-testom, ili nekim od SPSS-ovih post-hoc testova za detekciju razlika između pojedinačnih parova poduzoraka.

70

Varijansa između grupaF= Varijansa unutar grupa


Jednofaktorska univarijantna analiza varijanse za nezavisne uzorke

Jednofaktorsku univarijantnu analizu varijanse radimo kad imamo jednu kategoričku varijablu (faktor) sa dva ili više modaliteta, i drugu varijablu intervalnog nivoa i normalne raspodjele rezultata. Sada ćemo vidjeti kako ćemo statističko testiranje obaviti uz pomoć SPSS-a. Mi ćemo za primjer uzeti opet naš test iz engleskog; poredićemo postignuće na testu iz engleskog jezika studenata različitih fakulteta. Najjednostavniji način da to učinimo jeste na sljedeći način:

Idemo na Analyze/Compare Means/One Way ANOVA i u Dependent List unesemo našu zavisnu varijablu (skor na testu engleskog u našem slučaju), a pod Factorunesemo nezavisnu varijablu (fakultet u našem slučaju).

Specifičnost analize varijanse jeste to da će nam ona za rezultat pokazati postoji li između nekih grupa statistički značajna razlika, ali nam ne može reći između koji grupa. U našem primjeru varijabla fakultet ima 3 modaliteta (filozofski, medicinski i tehnološki), i može pojaviti do tri razlika (tri su moguća poređenja). No, ići ćemo korak po korak pa ćemo vidjeti šta ćemo dobiti.

Kao ispis naše analize varijanse dobijamo:

Oneway

Descriptives

Rezultat testa iz engleskog

N Mean Std. Deviation Std. Error95% Confidence Interval for

Mean Minimum Maximum

Lower Bound Upper Bound tehnoloski 72 23.174 2.6071 .3072 22.561 23.786 16.5 27.5medicinski 72 22.604 2.6122 .3078 21.990 23.218 17.0 28.0

filozofski 72 24.556 2.6598 .3135 23.931 25.181 19.0 29.5

Total 216 23.444 2.7402 .1864 23.077 23.812 16.5 29.5

ANOVA

Rezultat testa iz engleskog

Sum of Squares df Mean Square F Sig.Between Groups 145.007 2 72.503 10.510 .000Within Groups 1469.326 215 6.898

71


Total 1614.333 216

Kao što smo navikli, prva tabela (Descriptives) nam daje deskriptivne podatke o našim poduzorcima. N je broj ispitanika, Mean je aritmetička sredina, a Std.Deviation standardna devijacija. U našem primjeru možemo vidjeti da su studenti filozofskog fakulteta postigli najviše, studenti tehnološkog fakulteta nešto manje, a studenti medicinskog fakulteta najmanje rezultate na testu iz engleskog jezika.

Druga tabela (ANOVA) nam daje rezultate testa: očitavamo vrijednost mjere F i njenu značajnost. U našem slučaju F=10.510, a značajnost je 0.000 (znači statistički značajno na nivou 0.01). Možemo reći da se statistički značajno razlikuju studenti ova tri fakulteta po postignuću na testu iz engleskog jezika.

Ako želimo da znamo između kojih fakulteta konkretno postoje razlike, to možemo učiniti uz pomoć t-testa. Trebali bi se vratiti na poglavlje T-test za nezavisne uzorke i uraditi sve kako je tamo opisano, s tim da nam je nezavisna varijabla ovaj put fakultet, čije modalitete upisujemo pod Define Groups. Imaćemo tri moguća poređenja: filozofski-medicinski, filozofski-tehnološki i medicinski-tehnološki.

Ipak, za brzi uvid u te razlike poslužićemo se opcijom Post Hoc kad radimo analizu varijanse (dugme pod tim nazivom u donjem dijelu prozora).

Ovde se nalazi grupa posthok testova za ispitivanje međugrupnih razlika. Iako se zasnivaju na različitim matematičkim procedurama, većina će nam dati slične rezultate. Mi ćemo izabrati LSD test i potvrditi naš izbor sa Continue.

72


Kao rezultat ćemo dobiti iste dve tabele kao što je prethodno opisano za analizu varijanse, ali dobićemo i jednu dodatnu:

Post Hoc Tests

Multiple Comparisons

Dependent Variable: Rezultat testa iz engleskog LSD

(I) FAKULTET (J) FAKULTETMean Difference

(I-J) Std. Error Sig.

95% Confidence Interval

Lower Bound Upper Boundtehnoloski medicinski .569 .4377 .195 -.293 1.432

filozofski -1.382(*) .4377 .002 -2.245 -.519

medicinski tehnoloski -.569 .4377 .195 -1.432 .293

filozofski -1.951(*) .4377 .000 -2.814 -1.089

filozofski tehnoloski 1.382(*) .4377 .002 .519 2.245medicinski 1.951(*) .4377 .000 1.089 2.814

* The mean difference is significant at the .05 level.

Ova tabela će nam pokazati koji parovi fakulteta se porede (kolona Fakultet), kolika je razlika u prosječnom postignuću na testu (Mean Difference), i značajnosti tih razlika (Sig.). U našem slučaju, vidimo da postoje značajne razlike između filozofskog i tehnološkog, filozofskog i medicinskog fakulteta, i to obe razlike značajne na nivou 0.05. Razlika između medicinskog i tehnološkog fakulteta nije statistički značajna.

Kruskal Wallis test

Ovaj test nam služi za utvrđivanje značajnosti razlika između dve ili više mjerenih osobina, kad podaci ne zadovoljavaju uslove za primjenu analize varijanse. Potrebno je da imamo jednu kategoričku varijablu sa dva ili više modaliteta, i drugu varijablu bar ordinalnog tipa. Mi ćemo kao primjer istraživanje u kojem je ispitivano prihvatanje socijalnih odnosa sa Italijanima u vezi sa različitim socio-demografskim varijablama. Nezavisna varijabla će nam biti stepen obrazovanja majke sa tri modaliteta (završena osnovna škola, srednja škola i viša/visoka škola), a zavisna varijabla će nam biti broj prihvaćenih odnosa sa Italijanima (ponuđeno je 7).

Idemo na meni Analyze/Nonparametric Tests/K Independent Samples, i pod Test Variable List unesemo zavisnu varijablu, a pod Grouping Variable unesemo nezavisnu varijablu. Nakon toga je potrebno kliknuti na dugme Define Range i definisati koji je raspon vrijednosti nezavisne varijable. U našem slučaju to je od 1 do 3. Pod okvirom Test Typeimamo ponuđena tri testa, ali mi biramo Kruskal-Wallis H test.

73


Nakon što smo sve obavili, dobijamo sljedeći ispis u Output prozoru:

NPar Tests

Kruskal-Wallis Test

Ranks

strucna sprema majke N Mean RankPrihvatanje odnosa sa Italijanima

OS 51 209.82SS 231 198.44

VS ili VSS 123 208.73

Total 405

Test Statistics(a,b)

Prihvatanje odnosa sa Italijanima

Chi-Square .839df 2

Asymp. Sig. .657

a Kruskal Wallis Testb Grouping Variable: strucna sprema majke

Prva tabela (Ranks) nas izvještava o broju ispitanika u pojedinim grupama našeg uzorka, i prosječnim rangovima zavisne varijable.

Druga tabela (Test Statistics) nam daje mjeru χ2 (hi na kvadrat, Chi-Square) i njenu značajnost (Asymp. Sig.). U našem slučaju vidimo da je χ2 =0.839 i da nije statistički značajno (vjerovatnoća veća od 0.05 i 0.01), što bi značilo da ne postoje značajne razlike u pogledu prihvatanja socijalnih odnosa sa Italijanima između grupa ispitanika čiji očevi su različito obrazovani.

Dvofaktorska univarijantna analiza varijanse

Dvofaktorsku univarijantnu analizu varijanse primjenjujemo kad za nezavisne varijable imamo dve kategoričke varijable, i jednu zavisnu kvantitativnu varijablu. Mi ćemo kao primjer uzeti fiktivno istraživanje u kojem je za zavisnu varijablu uzeta izraženost osobine depresivnosti, a za zavisne su uzeti pol i zaposlenost. Znači, pitanja su: da li izraženost depresivnost zavisi od pola, zaposlenja ili od kombinacije ova dva

74


faktora? Kombinacija faktora u analizi varijanse naziva se interakcija faktora. Potrebno je reći da su naši faktori neponovljeni, što znači da svaki ispitanik ima kombinaciju ove dvije odlike: određenog je pola i ima određeno radno stanje (zaposlen ili nezaposlen) Vidjećemo da postoji i analiza varijanse za ponovljene faktore..

Idemo na meni Analyze/General Linear Model/Univariate, i pod Dependent Variable unosimo zavisnu varijablu (depresivnost u našem slučaju), a pod Fixed Factor(s) unosimo nezavisne varijable.

Sljedeći korak nam da idemo na dugme Options s desne strane prozora, i tu treba da među opcijama u okviru Display odaberemo descriptives. Time ćemo dobiti osnovne deskriptivne mjere za podgrupe našeg uzorka.

75


Dalje, zgodno je da imamo i nekakav grafički prikaz naših rezultata, jer će nam to pomoći pri tumačenju. To ćemo uraditi kroz dugme Plots. Dolazimo do prozora gdje trebamo odrediti varijable koje će odrediti naš grafikon. Ukoliko imamo dve varijable, upisujemo ih u okvire Horizontal Axis i Separate Lines (gdje će ići koja varijabla zavisi od istraživačkih potreba). Na kraju je neophodno da pritisnemo dugme Add (nakon toga bi se trebale pojaviti ove varijable u donjem okviru Plots) inače SPSS neće upamtiti naš izbor.

Nakon što smo obavili sve, dobijamo sljedeći ispis:

Univariate Analysis of Variance

Between-Subjects Factors

Value Label NPOL 1 muski 88

2 zenski 128

ZAPOSLEN 1.00 zaposlen 99

2.00 nezaposlen 117

Descriptive Statistics

Dependent Variable: depresivnost

POL ZAPOSLEN Mean Std. Deviation Nmuski zaposlen 22.2969 2.16340 64

nezaposlen 23.5833 2.72535 24

Total 22.6477 2.38429 88

zenski zaposlen 23.3143 2.38896 35

nezaposlen 24.2473 2.96595 93

Total 23.9922 2.84161 128

Total zaposlen 22.6566 2.28644 99

nezaposlen 24.1111 2.91925 117

Total 23.4444 2.74017 216

Tests of Between-Subjects Effects

76


Dependent Variable: depresivnost

SourceType III Sum of

Squares df Mean Square F Sig.Corrected Model 145.286(a) 3 48.429 6.989 .000Intercept 90372.098 1 90372.098 13041.706 .000

POL 29.261 1 29.261 4.223 .041

ZAPOSLEN 50.987 1 50.987 7.358 .007

POL * ZAPOSLEN 1.293 1 1.293 .187 .666

Error 1469.047 212 6.929

Total 120337.000 216

Corrected Total 1614.333 215

a R Squared = .090 (Adjusted R Squared = .077)

Profile Plots

Estimated Marginal Means of depresivnost

POL

zenskimuski

Est

imat

ed M

arg

inal

Me

ans

24.5

24.0

23.5

23.0

22.5

22.0

ZAPOSLEN

zaposlen

nezaposlen

Iz prve tabele (Between-Subjects Factors) vidimo kako se raspoređuju ispitanici po kategorijama pojedinih varijabli.

Sljedeća tabela (Descriptive Statistics) nam več daje bitnije podatke. Iz nje već vidimo da (kolona Means) muški nezaposleni imaju više izraženu depresivnost od muških zaposlenih, da ženski nezaposleni imaju više izraženu depresivnost od ženskih zaposlenih, da žene imaju imaju višu depresivnost od muških, a nezaposleni veću od zaposlenih. Takođe, u koloni N možemo vidjeti i da je u okviru muških veći procenat ispitanika zaposlen, a u okviru ženskih veći procenat je nezaposlen.

Sljedeća tabela (Tests of Between-Subjects Effects) nam daje podatke o statističkim značajnostima. Nas zanimaju redovi u kojima piše POL, ZAPOSLEN i POL*ZAPOSLEN, i kolone F i Sig. U okviru reda POL vidimo da je mjera F=4.223 i da je statistički značajno na nivou 0.05, a u redu ZAPOSLEN da je F=7.358 i da je značajno na nivou 0.01. Ovo su glavni efekti pola i zaposlenja na depresivnost i, kao što vidimo, oba su značajna: u našem uzorku žene su depresivnije, i nezaposleni su depresivniji. Red ispod njih je interakcija pola i zaposlenosti (POL*ZAPOSLEN) i F je 0.187 a njegova značajnost veća od 0.05, što bi za nas značilo da nema interakcije između pola i zaposlenosti u pogledu uticaja na depresivnost.

Grafikon na kraju (Estimated Marginal Means of depresivnost) nam daje grafički prikaz onoga što smo imali u tabeli Descriptive Statistics. Sa vremenom, kako budemo primjenjivali analize varijanse, vidjećemo da nam paralelnost linija govori o

77


tome da ne postoji interakcija faktora (kad su ukrštene postoji), dok nam razmaknutost i nagib linija govore o glavnim efektima (uticaju pojedinih nezavisnih varijabli).

78


Analize kategoričkih varijabli

U psihologiji, kao i ostalim društvenim naukama, većina pojava koje pokušavamo da registrujemo ima diskretni (isprekidani, kategorijalni) karakter. Tako većina podataka koje skupimo u istraživanju sačinjavaju upravo takvi podaci: sociodemografski podaci kao što su pol, uzrasne ili obrazovne skupine, a i razni anketni podaci.

Hi-kvadrat test

Za podatke koji potiču sa nominalne skale postoje posebne statističke procedure oslobođene od striktnih pretpostavki o distribuciji mjera (kao npr. Pretpostavka o normalnoj raspodjeli mjera). Najraširenija je upotreba mjere χ2 (grčko slovo hi, na engleskom Chi Square). χ2 nam služi da testiramo odstupanje dobijenih frekvencija od nekih očekivanih (teorijskih) vrijednosti.

( )∑ −=

e

eo

f

ff 22χ

Ovo je matematički izraz za izračunavanje hi-kvadrata, gdje fo predstavlja dobijene frekvencije (o skraćeno od observed na engleskom), dok fe predstavlja teorijski pretpostavljene, odnosno očekivane frekvencije (e skraćeno od expected na engleskom). Te očekivane vrijednosti mogu biti zadate po nekom ranije zamišljenom modelu, što može biti pretpostavka o jednakoj raspodjeli podataka u ćelijama tabele, ili o normalnoj raspodjeli, ili o bilo kakvoj drugačijoj raspodjeli frekvencija. Znači, kad imamo jednu varijablu sa više modaliteta, onda moramo dati neku pretpostavku o tome kako mislimo da će se raspoređivati frekvencije po modalitetima varijable. Na kraju ćemo, na osnovu rezultata hi-kvadrat testa, zaključiti da li opažene frekvencije odstupaju od očekivanih, odnosno da li je ispravna naša hipoteza.

Vidjećemo kako to izgleda na primjeru analize jednog zamišljenog anketnog rezultata, gdje 60 ispitanika odgovaralo na pitanje: “Da li se zalažete za civilno služenje vojnog roka?”, a ponuđeni su odgovori: da, nisam siguran i ne. Mi smo pretpostavili da će se odgovori ispitanika podjednako raspodijeliti u sve tri kategorije.

fo fe (fo- fe) (fo- fe)2 (fo- fe)2 /fe

Da 30 20 10 100 5Nisam siguran 15 20 -5 25 1.25

Ne 15 20 -5 25 1.25χ2=7.5

Broj stepeni slobode se računa po obrascu: df = (broj kolona – 1) x (broj redova –1), i u našem slučaju to je: (2-1)x(3-1) = 2. Iz tablica očitavamo granične vrijednosti odgovarajućih intervala sigurnosti: 5.99 (p=0.05) i 9.21 (p=0.01). Na osnovu datih granica i veličine dobijenog hi-kvadrata možemo zaključiti da dobijene frekvencije odstupaju značajno od očekivanih na nivou 0.05.

U tabelama ukrštanja više varijabli (u daljem tekstu ćemo tabele podataka nastale ukrštanjem kategoričkih varijabli nazivati kontingencijskim tabelama) očekivane vrijednosti se obično računaju putem kalkulisanja sa zbirovima redova i kolona. Ukoliko se pokaže da je količina odstupanja dovoljno velika, prihvatamo

79


hipotezu o značajnom odstupanju od očekivanih vrijednosti. Postoje situacije kad primjena hi kvadrata ne daje pouzdane rezultate, a to je slučaj kad u kontingencijskoj tabeli postoji preko 20% ćelija sa očekivanim frekvencijama 5 ili manje, ili kad je jedna od očekivanih frekvencija manja od 1. U tim slučajevima se obično radi sažimanje većeg broja kategorija varijable na manji broj, ili ako je u pitanju tabela 2x2 (znači, ne može se više smanjivati), onda se radi statistički postupak nazvan Yates-ova korekcija.

Korelacije kategoričkih varijabli

Kao što smo vidjeli, χ2 nam može poslužiti za testiranje značajnosti odstupanja, ali da bismo vidjeli kolika je povezanost između dvije kategoričke varijable poslužićemo se Φ koeficijentom korelacije za tabele veličine 2x2, i C koeficijentom kontingencije za veće tabele. Obe ove mjere korelacije se izračunavaju na osnovu hi-kvadrata, i to po sljedećim formulama:

N

2χφ =

2

2

χχ+

=N

C

Kao primjer kojim ćemo sve ovo ilustrovati u SPSS-u, možemo uzeti vezu između pola i radnog statusa (posjedovanja zaposlenja) u nekom fiktivnom ispitivanju. Obe varijable imaju po dva modaliteta: muško-žensko i zaposlen-nezaposlen.

Idemo na Analyze/Descriptive Statistics/Crosstabs i u okvire Row(s) i Column(s) unesemo naše varijable. Treći okvir Layer nam služi za prikaze ukrštanja više od dvije varijable. Poniđene su nam i opcije za grafički prikaz (Display clustered bar charts) i opcija za eliminisanje frekvencijskih tabela iz prikaza (Suppress tables) tako da vidimo samo statističke mjere i grafikone. Za nas će biti značajna dva dugmeta u donjem dijelu prozora: Statistics i Cells.

80


Pritisnuvši dugme Statistics dolazimo do prozora za izbor statističkih mjera koje želi. Na početku nije odabrana ni jedna, pa treba da se odlučimo. Tu su razne vrste statističkih mjera za nominalne i ordinalne mjere. Biramo Chi-square i Phi and Cramer's V jer imamo tabelu tipa 2x2. Kad imamo veću tabelu, rekli smo, kao mjeru korelacije uzimamo C koeficijent (Contingency coefficient).

Dugme Cells nas vodi do prozora za izbor onoga što će biti prikazano u kontingencijskim tabelama. U okviru Counts biramo Observed (dobijene frekvencije), a ponuđen je i prikaz očekivanih frekvencija (Expected). U okviru Percentages možemo da biramo da li ćemo vidjeti prikaz procenata, i koji tip prikaza: u odnosu na red (Row), kolonu (Column), ili ukupan broj (Total). U našem primjeru odlučili smo se za procentualni prikaz po redovima.

Kad smo sve potvrdili sa Continue i OK i dobijamo sljedeći ispis:

Crosstabs

POL * ZAPOSLEN Crosstabulation

ZAPOSLEN

Totalzaposlen nezaposlenPOL muski Count 64 24 88

81


% within POL

72.7% 27.3% 100.0%

zenski Count 35 93 128

% within POL

27.3% 72.7% 100.0%

Total Count 99 117 216

% within POL

45.8% 54.2% 100.0%

Chi-Square Tests

Value dfAsymp. Sig. (2-

sided)Exact Sig. (2-

sided)Exact Sig. (1-

sided)Pearson Chi-Square 43.264(b) 1 .000 Continuity Correction(a) 41.455 1 .000

Likelihood Ratio 44.628 1 .000

Fisher's Exact Test .000 .000

Linear-by-Linear Association 43.063 1 .000

N of Valid Cases 216

a Computed only for a 2x2 tableb 0 cells (.0%) have expected count less than 5. The minimum expected count is 40.33.

Symmetric Measures

Value Approx. Sig.Nominal by Nominal Phi .448 .000 Cramer's V .448 .000

N of Valid Cases 216

a Not assuming the null hypothesis.b Using the asymptotic standard error assuming the null hypothesis.

Prva tabela (POL * ZAPOSLEN Crosstabulation) nas izvještava o distribuciji frekvencija u pojedinim ćelijama tabele. Takođe, tu su i procentualni podaci dati za redove tabele. U našem primjeru, već na prvi podgled vidimo da se zaposlenost distribuira nejednako po kategorijama pola: kod žena je više nezaposlenih, a kod muškaraca više zaposlenih. Možemo da pogledamo sljedeću tabelu (Chi-Square Tests) i očitamo veličinu hi kvadrata (Pearson Chi-square): 43.264. Njegova značajnost (Asymp. Sig 2-sided) nam kazuje da je značajan na nivou 0.01. Znači na osnovu veličine hi kvadrata zaključujemo da su odstupanja dobijenih podataka značajna na nivou 0.01, a da bismo vidjeli da li postoji neka pravilnost u tim odstupanjima – pogledaćemo brojke u sljedećoj tabeli (Symmetric Measures). Tu očitavamo veličinu Phi i vidimo da iznosi 0.448 i da je značajno na nivou 0.01. To je mjera povezanosti vrijednosti ove dvije varijable (pola i zaposlenosti) i za nju možemo reći da je srednjeg intenziteta. Pol i zaposlenost, u našem primjeru, koreliraju u srednjoj mjeri, ali statistički značajno na nivou 0.01.

82


Mjere korelacije

Korelacija predstavlja mjeru povezanosti između varijabli. Karakteristike korelacije koje treba poznavati su visina ili jačina (od 0 do 1), smijer (+ ili -), i statistička značajnost.

Visine korelacije aproksimativno ocjenjujemo kao:r od 0 do ± 0.20 → nikakva do neznatna povezanostr od ± 0.20 do ± 0.40 → niska povezanostr od ± 0.40 do ± 0.60 → povezanost srednjeg intenzitetar od ± 0.60 do ± 0.80 → visoka povezanostr od ± 0.80 do ± 1 → veoma visoka do apsolutna povezanost

Svakako treba imati na umu da korelaciju ne treba miješati sa uzročno posljedičnom vezom, mada je to najčešća greška koja se sreće u interpretacijama rezultata istraživanja: ukoliko su dvije varijable u korelaciji, to nikako ne znači da promjene jedne varijabla uzrokuju promjene druge varijable.

Već smo imali priliku da se u poglavlju sa opisom analize kategoričkih varijabli sretnemo sa koeficijentima korelacije između kategoričkih varijabli: bili su to Φ i C koeficijenti korelacija. Vidjećemo još kako možemo dobiti Pearsonov koeficijent linearne korelacije, Spearmanov koeficijent rang korelacije, i koeficijent biserijske korelacije.

Koeficijent linearne korelacije

Pearsonov koeficijent linearne korelacije predstavlja parametrijski test, i stoga mora da zadovolji uslove intervalnosti podataka, normalnosti raspodjele, i linearnosti odnosa između varijabli. Osnovna formula za izračunavanje Pearsonovog koeficijenta je:

1−

+

=∑

N

yx

r YXXY

σσ , gdje su: x = X – MX i y = Y – MY (odstupanja od AS)

Određenim transformacijama osnovne formule dolazimo do sljedeće formule za izračunavanje korelacije iz sirovih skorova, takozvane “mašinske formule”:

( )( )( )[ ] ( )[ ]2222 ∑∑∑∑

∑∑∑−−

−=

YYNXXN

YXXYNrXY

Prednost ove formule je u tome što je jedino potrebno da znamo sirove skorove X i Y, i nisu nam potrebne standardne devijacije.

Linearnost veze između varijabli do sada nismo sretali, a najlakše ga utvrđujemo uvidom u grafički prikaz raspršenja parova tačaka (skater grafikon). Ukoliko vidimo da se odnos između varijabli ne može približno predstaviti pravom linijom, onda je bolje da ne koristimo koeficijent linearne korelacije.

83


Ako za primjer uzmemo naše podatke o rezultatima testa znanja iz engleskog jezika (za koje smo već vidjeli da ispunjavaju uslov normalnosti raspodjele), da bismo grafički ustanovili linearnost odnosa, idemo na meni Graphs/Scatter, izaberemo opciju Simple i kliknemo na dugme Define.

Tako smo došli do dijalog prozora u kojem treba da odredimo dvije varijable čiji grafikon ćemo vidjeti. Naše varijable ubacujemo u polja Y Axis i X Axis (u našem slučaju to su varijable sk.eng2 i sk.eng), i sve što treba da uradimo je da potvrdimo sa OK.

Dobijamo grafikon na kojem vidimo kako se distribuiraju rezultati na dva testa koje analiziramo. Vidimo da nema velikih odstupanja, i da rezultati čine približno ravnu liniju, što nam govori da ima smisla da računamo koeficijent linearne korelacije. Primjeri odstupanja od linearnosti bi bile krive koje izgledaju kao ∩, ∪, , , , ili na druge načine različito od ravne linije.

84


Rezultat testa iz engleskog prije kursa

3028262422201816

Rez

ulta

t tes

ta iz

eng

lesk

og

po

slije

kur

sa

40

30

20

10

Da bismo izračunali Pearsonov koeficijent, idemo na Analyze/Correlate/Bivariate. Za početak je već označena kućica Pearson i Two-tailed significance, i tako treba i da ostavimo. Varijable čije korelacije želimo da vidimo ubacujemo u desni okvir (u našem slučaju to su varijable sk.eng2 i sk.eng), i potvrdimo sa OK.

Za ispis dobijamo sljedeću tabelu:

Correlations

SKOR.ENG Rezultat testa iz engleskog prije kursa

SK.ENG2 Rezultat testa iz

engleskog poslije kursa

SKOR.ENG Rezultat testa iz engleskog prije kursa

Pearson Correlation 1 .914(**)Sig. (2-tailed) . .000N 216 216

SK.ENG2 Rezultat testa iz engleskog poslije kursa

Pearson Correlation .914(**) 1Sig. (2-tailed) .000 .

N 216 216

** Correlation is significant at the 0.01 level (2-tailed).

85


Pošto možemo odjednom da ubacimo u obradu više od dvije varijable, program nam daje ispis tabele sa svim mogućim korelacijama, pa tako i svake varijable sa samom sobom, što nam daje korelaciju 1, tako da dijagonalu tabele možemo da ignorišemo. Pored visine korelacije date u redu Pearson Correlation, dobijamo i značajnost korelacije u redu Sig. (2-tailed), i broj ispitanika uzetih u obradu N. Značajnost korelacije nam je prikazana i u formi zvjezdica pored same korelacije. Po običaju, jedna zvjezdica znači da je korelacija značajna na nivou 0.05, a dvije zvjezdice govore o značajnosti na nivou 0.01.

U našem primjeru vidimo da je korelacija pozitivna i veoma visoka, čitavih 0.914. Znajući da su u pitanju rezultati testa iz engleskog jezika prije i poslije kursa, zaključujemo da su studenti linearno napredovali, i to tako da su oni koji su bili bolji na prvom testu bivali bolji i na drugom, a i oni koji su bili srednji i lošiji takođe su napredovali. Sam koeficijent korelacije i njegova značajnost nam ne govore da postoji bilo kakav napredak, ali to možemo vidjeti iz grafikona, jer u slučaju da napretka nema, skater (tačkasti prikaz korelacije) bi kretao iz nule i išao po dijagonali dijagrama, što bi govorilo o sličnim rezultatima na oba testa.

Koeficijent rang korelacije

Spearmanov koeficijent rang korelacije (ρ, čita se: ro) je neparametrijski test i ne postavlja zahtjeve u pogledu distribucije, jedino što treba da imamo jesu podaci koji potiču bar sa ordinalne skale, tj. rangovani podaci. Znači, ovaj test možemo upotrebljavati kad u početku imamo rangovane podatke, a tako i kada imamo podatke koji nisu rangovani, ali ne zadovoljavaju uslove normalne raspodjele. Kao posljedicu nižeg mjernog nivoa, imamo to da je ova mjera korelacije nepreciznija od r koeficijenta korelacije. Računanje ρ koeficijenta se zasniva na razlikama u rangovima rezultata dva niza brojeva, a formula po kojoj se računa je:

( )1

61

2

2

−−= ∑

NN

Dρ

gdje je: D – razlika između rangova na prvoj i drugoj varijabli N – ukupan broj slučajeva

Za primjer ćemo uzeti situaciju kad je nastavnik jednog razreda srednje škole želio da vidi da li postoje povezanosti između uspjeha iz predmeta Matemetika, Fizika i Istorija. On je učenike rangirao po uspjesima iz ova tri predmeta i poredio ih međusobno, a mi ćemo to uraditi u SPSS-u na sljedeći način:

Kao i kod slučaja linearne korelacije idemo na Analyze/Correlate/Bivariate, u desni okvir ubacimo varijable, ali ovaj put označimo kućicu Spearman. Mi smo ubacili tri varijable, što znači da ćemo imati tri moguća poređenja. Na kraju ćemo, naravno, potvrditi sa OK, i idemo ka analizi ispisa.

86


Correlations

MATEMATI FIZIKA ISTORIJASpearman's rho MATEMATI Correlation

Coefficient1.000 .759(**) -.007

Sig. (2-tailed) . .000 .967N 35 35 35

FIZIKA Correlation Coefficient

.759(**) 1.000 .113

Sig. (2-tailed) .000 . .517N 35 35 35

ISTORIJA Correlation Coefficient

-.007 .113 1.000

Sig. (2-tailed) .967 .517 .N 35 35 35


Sve važi kao i u slučaju linearne korelacije: program nam je dao sve moguće korelacije, a mi gledamo one tri koje nas zanimaju. Iz tabele vidimo da korelacija između uspjeha u matematici i fizici iznosi 0.759, i da je statistički značajna na nivou 0.01. Takođe, vidimo da korelacije između uspjeha iz matematike i istorije gotovo da nema (iznosi –0.007), a da izvjesne pozitivne korelacije između uspjeha u fizici i istoriji ima (iznosi 0.113), ali da nije statistički značajna.

Biserijska i point-biserijska korelacija

Biserijsku korelaciju računamo kad imamo dvije varijable od kojih je jedna kvantitativnog tipa (intervalni nivo podataka), a druga je vještački dihotomizirana u varijablu sa samo dva modaliteta. Kao primjer nam može poslužiti imaginarni slučaj kad želimo da vidimo da li postoji veza između opštih intelektualnih sposobnosti (inteligencije) i prolaznosti na ispitu iz matematike.

Point-biserijska korelacija je vrlo sličan slučaj, ali ovaj put jedna varijabla je intervalnog nivoa, a druga je prirodno podijeljena u dvije kategorije (npr. pol).

U oba slučaja, najlakše je da u okviru SPSS-a ovu proceduru radimo kao i koeficijent linearne korelacije. Za primjer smo uzeli slučaj korelacije između opštih sposobnosti i prolaznosti na ispitu iz matematike. Sposobnosti smo mjerili jednim

87


standardizovanim testom inteligencije, a onda smo na ispitu iz matematike registrovali ko je prošao a ko nije.

Kao i u slučajevima prethodne dvije korelacije, idemo na Analyze/Correlate/Bivariate, i možemo da ostavimo označenu kućicu Pearson. Unesemo u desni okvir naše dvije varijable i potvrdimo sa OK.

Nakon toga dobijamo sljedeću tabelu sa rezultatima:

Correlations

MATEMAT SPOSOBNOMATEMAT Pearson

Correlation1 .416(**)

Sig. (2-tailed) . .000N 100 100

SPOSOBNO Pearson Correlation

.416(**) 1

Sig. (2-tailed) .000 .N 100 100


U našem fiktivnom primjeru, na uzorku od 100 studenata tražili smo vezu između opštih sposobnosti i prolaznosti na ispitu iz matematike. Iz tabele možemo vidjeti da korelacija iznosi 0.416, pozitivna je i statistički značajna na nivou 0.01. Znači, mogli bismo reći da postoji srednja pozitivna i statistički značajna korelacija između opštih sposobnosti i prolaznosti na ispitu iz matematike.

***********************************************************

88


Kratak pregled opcija programa

U menijima koji su prikazani, trenutno dostupne opcije su ispisane crnom bojom, dok su zasivljene opcije koje trenutno nisu dostupne. Znači, kad nemamo otvorene podatke - nemamo na raspolaganju opcije Save ili Save As, tj nemamo šta da snimimo.

File meni

U file meniju se nalazi skup naredbi za otvaranje i čuvanje fajlova sa podacima. Opcije koje postoje su:

New, sa podopcijama Data, Syntax, Output i Script - služi nam za otvaranje novog prozora za razne tipove podataka.

Data - sirovi podaci koje unosimo u matricu podataka Syntax - komandni režim u kojem unosimo niz naredbi za manipulaciju podacima - znači, SPSS ima i poseban komandni jezikOutput - prozor za prikaz rezultata obrade podatakaScript - slično Syntax režimu, ali ovaj put je u pitanju skript za automatizaciju niza nekih procesa koje često redom obavljamo

Open - koristimo za otvaranje ranije snimljenih fajlova (baza podataka, ispisa rezultata, komandnih programa).

Read ASCII Data - otvaranje fajlova sa sirovim podacima koji su snimljeni u tekstualnom obliku.

Close - zatvaranje prozora.

Save - snimanje podataka. Koristimo ako smo već ranije dali ime fajlu.

Save As... - snimanje novih podataka sa odredjivanjem imena i tipa fajla.

Export - snimanje tabela, grafikona i rezultata obrade u drugim formatima, tako da ih možemo otvoriti u drugim programima.

Display Data Info... - prikazuje informacije o fajlu koji izaberemo.

Apply Data Dictionary - prebacuje već postojeće definicije podataka (varijable, kategorije...) na nove datoteke.

Print - štampanje. Kad izaberemo ovu opciju moći ćemo da biramo izmedju štampanja svega (All) ili samo onog što selektujemo (Selection). Ovde, takodje, odredjujemo i broj kopija koje štampamo.

89


Stop SPSS Processor - prekida proces obrade koji je aktivan, koji se u tom trenutku odvija.

Exit SPSS - izlazak iz programa.

Edit meni

U ovom meniju se nalaze opcije za operacije sa tekstom i podešavanje programa našim potrebama.

Undo - poništava zadnju obavljenu operaciju.

Cut, Copy, Paste, Clear - standardne Windows operacije za isjecanje, kopiranje, lijepljenje i brisanje selektovanih sadržaja.

Find... - pronalaženje podataka ili teksta.

Options... (u nekim verzijama programa "Preferences") - podešavanje opcija programa.

Za nas će u ovom trenutku biti zanimljivo jedino da se pod opcijom General, pa u okviru nje pod "Display Order for Variable Names" može podesiti redoslijed varijabli koje smo unosili (alfabetski ili onako kako smo ih unosili), i da se pod opcijom Pivot Tables podešava tip tabela u kojima se prikazuju rezultati (uvijek je korisno smanjiti veličinu tabela, jer su često prevelike da bi stale na jedan ekran).

Kad radimo u prozoru Output, imamo još neke opcije u meniju Edit (Copy Objects, Paste After, Paste Special...), ali to su neke naprednije opcije, te ih ovde nećemo detaljnije razmatrati.

View meni

Pod ovim menijem biramo opcije za ono šta ćemo vidjeti na ekranu.

Status Bar - odredjuje da li ćemo u dnu ekrana imati ispisan trenutni status programa. Kad ništa ne radimo od operacija, tu obično piše "SPSS Processor is ready", a kad je neka operacija aktivna obično piše "Running..." i vrsta operacije.

Toolbars - pod ovom opcijom definišemo šta će od brojnih mogućnosti programa biti dostupno u vidu dugmića ispod menija.

Fonts, Grid Lines i Value Labels - odredjuju izgled matrice podataka.

90


Kad je aktiviran prozor Output, imamo još opcije Expand, Collapse, Show i Hide koje se odnose na vidljivost objekata u Output prozoru (takodje i Outline Size i Outline Font).

Data meni

U Data meniju imamo niz opcija za definisanje varijabli i manipulaciju podacima.

Define Variable - definisanje varijabli. U odjeljku Unos podataka će biti detaljnije obradjene podopcije.

Define Dates - definišemo format datuma (ukoliko unosimo podatke vezane za vrijeme).

Templates - ukoliko imamo ranije napravljene šablone za definisanje varijabli, ovde ih biramo.

Insert Variable - umeće novu varijablu ispred one koja je trenutno selektovana.

Insert Case - umeće novi red (slučaj, ispitanik...) iznad trenutno selektovanog.

Go to Case - odvodi nas na traženi slučaj.

Sort Cases - sortira redove (uzlazno ili silazno) po vrijednostima neke varijable.

Transpose - pravi novu matricu podataka tako što redove pretvara u kolone.

Merge Files - spajanje datoteka. Podopcije su "Add Cases" (dodaje ispitanike, slučajeve) i "Add Variables" (dodaje varijable).

Aggregate - spajanje podataka tako da grupe ispitanika čine jedan zbirni slučaj u okviru nove datoteke.

Orthogonal Design - (tiče se faktorske analize i spada u napredne statističke operacije)

Generate - pravi novu datoteku koja sadrži dizajn ortogonalnih glavnih efekata koji dozvoljava statističko testiranje nekoliko faktora bez testiranja svih kombinacija faktorskih nivoa.Display - prikazuje eksperimentalni nacrt koji je napravljen uz pomoć Generate, ili bilo koji drugi nacrt u okviru radne datoteke.

Split File - pravi podjelu u okviru datoteke (grupiše ispitanike) po vrijednostima varijable koju odredimo.

Select Cases - selektuje ispitanike prema vrijednostima neke varijable, oni koji nisu selektovani izbačeni su iz dalje analize.

91


Weight Cases - ponderisanje (operećivanje) ispitanika. Simulira se replikacija ispitivanja, i to u zavisnosti od vrijednosti izabrane varijable. Vrijednosti ponder varijable govore o navodnom broju opservacija. Iz dalje obrade se izbacuju ispitanici koji imaju 0, negativnu vrijednost ili nedostajući podatak.

Transform meniOvaj meni nam omogućava razne transformacije podataka.

Compute - kreira novu varijablu različitim oblicima izračunavanja na osnovu vrijednosti već postojećih varijabli.

Random Number Seed - podešavanje generatora slučajnih brojeva.

Count - kreira varijablu u okviru koje se nalaze prebrojane iste vrijednosti koje se nalaze u okviru raznih varijabli. Npr. ukoliko imamo nekoliko varijabli koje govore o tome da li ispitanici gledaju ili ne gledaju neke TV stanice (npr. 1 znači da, a 0 ne), pa na kraju želimo da znamo koliko ispitanik ukupno gleda TV stanica, iskoristićemo Count.

Recode - rekodiranje (ponovno kodiranje na drugačiji način) vrijednosti varijable.

Rank Cases - kreira novu varijablu koja sadrži rangovane vrijednosti izabrane varijable.

Automatic Recode - kreira novu varijablu i automatski rekodira sadržaj neke string (slovne) ili brojčane varijable u sekvencijalne vrijednosti.

Replace Missing Values - popunjava ćelije kod kojih postoji nedostajući podatak.

Analyze meni

Budući da je SPSS modularno organizovan program (sastavljen je iz više dijelova koje možete instalirati - prema vašim potrebama, a u zavisnosti od toga biće dostupan različit broj statističkih procedura), broj statističkih operacija koje možete vidjeti u Statistics meniju može da varira. Ja ću u ovom trenutku samo nabrojati koje su to operacije dostupne kad su instalirani svi moduli:

Summarize - sumarne procedureFrequences - prikazuje frekvencije, procente i osnovne mjere devijacija i centralnih tendencija

92


Descriptives - prikazuje deskriptivne mjere (minimalnu i maksimalnu vrijednost, neke od mjera devijacija i aritmetičku sredinu)Explore - razne zbirne mjere i grafički prikazi, za sve ispitanike ili za podgrupe ispitanika Crosstabs - krostabulacije, tabelarni prikazi ukrštanja varijabli - uz to idu i brojne deskriptivne i statističke procedureCase Summaries - statističke mjere za podgrupe ispitanika grupisanih po kategorijama neke varijableReport Summaries in Rows - prikazuje ispis gdje se sumarne mjere pojavljuju u redovimaReport Summaries in Columns - prikazuje ispis gdje se sumarne mjere pojavljuju u kolonama

Custom Tables - razne vrste tabelarnih prikaza rezultataBasic Tables - krostabelarni prikazi i statističke mjereGeneral Tables - krostabelarni prikazi i statističke mjereTables of Frequencies - krostabelarni prikazi frekvencija i procenata

Compare Means - poredjenje aritmetičkih sredinaMeans - računa aritmetičke sredine (i druge statističke mjere) za zavisne varijable unutar grupa koje odredimo kategorijama nezavisne varijable. Opciono možemo da dobijemo i univarijantnu analizu varijanse.One-Sample T Test - testira da li aritmetička sredina jedne varijable značajno odstupa od konstante koju odredimoIndependent-Samples T Test - t test za nezavisne uzorke (testira značajnost razlika izmedju aritmetičkih sredina dvaju nezavisnih uzoraka)Paired-Samples T Test - t test za zavisne uzorke (testira značajnost razlika izmedju aritmetičkih sredina dvaju zavisnih uzoraka - usti uzorak u dva mjerenja ili upareni ispitanici)One-Way ANOVA - univarijanta analiza varijanse (testira značajnost razlika izmedju aritmetičkih sredina dvaju ili više uzoraka)

General Linear Model - analiza varijanse (ANOVA) i analiza kovarijanse (ANCOVA)Simple Factorial - analiza varijanse za faktorijalni dizajnGLM-General Factorial - regresiona analiza i analiza varijanseGLM-Multivariate - regresiona analiza i analiza varijanse više zavisnih varijabliGLM-Repeated Measures - analiza grupe zavisnih varijabli koje sadrže različita mjerenja istog atributaVariance Components -

Correlate - korelacijeBivariate - računa Pirsonov, Spirmanov i Kendalov koeficijent korelacijePartial - daje koeficijent korelacije uz kontrolu jedne ili više dodatnih varijabliDistances - daje statističke mjere mjereći sličnosti ili razlike parova varijabli ili ispitanika

Regression - daje regresione koeficijenteLinear - računa koeficijent linearne regresije koji najbolje predvidja vrijednost zavisne varijable, poznavajući vrijednosti jedne ili više nezavisnih varijabli

93


Curve Estimation - ova procedura daje procjene regresijskih mjera za 11 različitih modela procjene regresionih funkcijaLogistic - koristimo kad hoćemo da predvidimo prisustvo ili odsustvo neke karakteristike na osnovu grupe prediktorskih varijabliProbit - mjeri povezanost izmedju jačine stimulusa i proporcije slučajeva istovjetnih odgovora na stimulusNonlinear - nalazi nelinearni model povezanosti izmedju zavisne i nezavisnih varijabliWeight Estimation - kad se ne pretpostavlja konstantna veličina varijanse unutar populacije koju tretiramo2-Stage Least Squares - kad se pretpostavlja da greške unutar zavisne varijable koreliraju sa nezavisnim varijablama

Loglinear - višestruke frekvencijske analizeGeneral - opšta višestruka frekvencijska analiza Logit - kad jednu od kategoričkih varijabli smatramo za zavisnu, a ostale za nezavisneModel Selection - analizira višestruke kontingencijske tabele i pomaže u pronalaženju povezanosti izmedju kategoričkih varijabli

Classify - pronalazi grupisanja u okviru podatakaK-Means Cluster - identifikuje homogene grupe na bazi izabranih karakteristika, koristeći algoritam za baratanje velikim brojem slučajevaHierarchical Cluster - identifikuje homogene grupe na bazi izabranih karakteristika, koristeći algoritam koji započinje sa svakim slučajem u odvojenom klasteru i kombinuje klastere sve dok ne ostane samo jedanDiscriminant - predvidja pripadnost odredjenoj grupi na osnovu grupe varijabli (karakteristika)

Data Reduction - redukcija podatakaFactor - faktorska analiza za grupu kvantitativnih varijabliCorrespondence Analysis - analiza povezanosti dve kategoričke varijable grafičkiOptimal Scaling - slično faktorskoj analizi, ali možemo da radimo sa različitim tipovima varijabli: kvantitativnim, ordinalnim ili nominalnim

Scale - analize mjernih skalaReliability Analysis - analiza pouzdanosti mjerne skaleMultidimensional Scaling - analiza distanci izmedju objekata ili slučajeva

Nonparametric Tests - neparametrijski testoviChi Square - χ2 testBinomial - testira binomnu raspodjelu jedne dihotomne varijableRuns - da li je redoslijed pojavljivanja dve vrijednosti jedne varijable slučajan1-Sample K-S - Kolmogorov-Smirnov test odstupanja raspodjele od zadate teorijske raspodjele vrijednosti2 Independent Samples - poredi dve grupe ispitanikaK Independent Samples - poredi dve ili više grupa ispitanika2 Related Samples - poredi distribucije dve varijableK Related Samples - poredi distribucije dve ili više varijabli

94


Time Series - analiza podataka u vremenskim serijamaExponential Smoothing - ispravlja neregularne komponente podataka u vremenskim serijamaAutoregression - ARIMA - X11 ARIMA - Seasonal Decomposition -

Survival - Life Tables - poseban način rada sa vremenskim periodima koji još nisu okončani (npr. dužina zaposlenja u nekoj firmi za ljude koji još uvijek rade), dijeljenjem na manje vremenske periodeKaplan-Meier - Kaplan-Majerov model rada sa vremenskim periodima koji još nisu okončaniCox Regression - predvidjanje dužine vremenskih perioda na osnovu podataka (takodje uključuje rad sa vremenskim periodima koji još nisu okončani)Cox w/ Time-Dep Cov - Koksov regresioni model sa računanjem vrmenski zavisne kovarijanse

Multiple Response - rad sa spojenim varijablamaDefine Sets - spajanje više osnovnih varijabli u jednu varijablu sa više kategorija. Tek kad definišemo setove varijabli možemo da pristupimo opcijama Frequencies i Crosstabs.

Graphs meni

U okviru Graphs menija možemo da pravimo razne vrste grafičkih reprezentacija podataka koje imamo.

Bar - stupčasti grafikoniLine - linijski dijagramiArea - dijagrami sa popunjenim površinamaPie - kružni ("pita") dijagramHigh-Low - grafikoni sa reprezentacijom koja se zasniva na vertikalnim visinskim razlikama ("visoko-nisko" grafikon)Pareto - kombinovani histogramski i kumulativni linijski prikazControl - grafikoni sa kontrolnim linijamaBoxplot - grafikoni u obliku kutijeError Bar - grafikoni za prikaz mjera disperzijeScatter - tačkasti prikaz raspodjela dve ili tri varijable u dvodimenzionalnom ili trodimenzionalnom prostoruHistogram - histogramiP-P - grafikoni kumulativnih proporcijaQ-Q - grafikoni centilaSequence - grafikoni sekvencijalnih slučajevaTime Series - grafikoni podataka u vremenskim serijama

95


Utilities meni

Ovaj meni sačinjavaju razni alati.

Variables - prikazuje nam podatke o varijablama koje odaberemoFile Info - daje podatke o svim varijablamaDefine Sets - definišemo zajedničke skupove varijabliUse Sets - definišemo koje skupove varijabli ćemo koristiti u obradama, tako da samo njih vidimo pri izboruRun Script - startuje skriptni program koji smo ranije snimiliMenu Editor - podešavamo menije koje koristimo, ubacujemo nove ili izbacujemo opcije koje ne koristimo

Windows i Help meniji su standardni meniji za sve windows programe, te nećemo ulaziti u njihovo opisivanje.

Literatura

Dragičević, Bukvić, 1986, Baker, 1994, Mason at al, 1997, Levin & Fox, 1997 Halmi, 1999Todorović (1995Campbell (1953Ristić, 1983G.Knežević i K.Momirović

Campbell (1953

96