6
Primena SPSS paketa u statističkoj obradi podataka Ćuslović Miloš Fakultet tehničkih nauka, Čačak, Inženjer informacionih tehnologija, Master informacione tehnologije, 2014/2015 [email protected] Mentor rada: prof. dr. Vera Lazarević ApstraktU master radu prikazan je statistički softverski paket SPSS. Opisane su osnovne funkcije softvera, kao i njegova primena u statističkoj analizi naučnog istraživanja, postepeno kroz faze. Korak po korak su opisane funkcije za izračunavanje deskriptivnih statističkih mera, statistička testiranja i korelacije, kako bi rad mogao poslužiti kao vodič za upotrebu ovog programa . Ključne reči: spss, statistika, mere, korelacija, testiranje. 1. UVOD U tranziciji između dva sistema obrazovanja, na brisanom prostoru između tendencioznosti privatnih i gordosti javnih obrazovnih institucija, i nauka u našoj zemlji je zapela negde u procepu između antičke metodologije i užurbanog kapitalizma. U informatičko doba u kojem su Homerova dela odavno digitalizovana, kod nas se naučni radovi pišu na filozofskom principu “ljubavi prema mudrosti“, uz mnogo teoretisanja i bez ikakve praktične koristi i svrhe. Listanjem požutelih stranica radova iz prošlog veka i njihovim upornim prepisivanjem nikada nećemo sustići zahuktalu lokomotivu civilizacije koja eksponencijalno ubrzava. Vreme je da se nauka podigne iz prašine i otisne u istraživanje okeana nepoznanica sveta kroz koji tek tako prolazimo. Iako je statistika studentima uglavnom mrzak predmet, bez merljivih parametara nemoguće je napraviti ozbiljan naučni rad. U svojim seminarskim i diplomskim radovima studenti često pokušavaju izbeći statistiku, tako da se gotovo redovno dešava da kasnije kao postdiplomci imaju problema kad moraju da se uhvate u koštac sa pravim istraživačkim izazovima. Možda krivica za ovo leži i u lošoj prezentaciji statistike u društvu, jer se jako često zloupotrebljava u svrhu zamazivanja očiju javnosti fascinirajućim parametrima i brojkama, ali upravo je ovo dodatni razlog da se bolje upoznamo sa njihovim značenjem Obrada velike količine podataka je spor i mukotrpan proces. Na sreću, danas imamo računare koji mogu da obave milijarde kalkulacija u sekundi. Od pojave prvog elektronskog kalkulatora razvijana su sve kompleksnija pomagala koja bi olakšala posao u obradi velike količine podataka, tako da danas postoje različiti kompjuterski programi koji se koriste u ovu svrhu, i dok je osnovne statističke parametre moguće izračunati i pomoću Excel-a, kao namenski programi za statistiku izdvajaju se posebno SAS, Statistica, Minitab i SPSS. Na engleskom jeziku se mogu naći brojne publikacije iz ove oblasti, ali je nepostojanje literature na srpskom značajna prepreka u implementaciji ovih naprednih softverskih rešenja kod nas. Kako sam već koristio neke osnovne funkcije SPSS-a ranije u toku studija, odabrao sam ovu temu kako bih proširio svoja znanja u vezi samog programa, ali i statistike uopšte. ali i da pokušam kolegama napraviti relativno razumljiv vodič za upotrebu programa i da im olakšam da sami i bez velike muke naprave statističku analizu svog istraživanja. U radu neće biti detaljno objašnjavana statistička teorija, već njena praktična primena u programu. Kod pojedinih statističkih tehnika i metoda će se samo spomenuti najvažnije teorijske stvari vezane za tu tehniku, odnosno metodu. Za potrebe izrade rada korištena je verzija IBM SPSS v20.0. 2. POJAM I RAZVOJ STATISTIKE Reč „statistika“ prvi put je objavljena u prvoj polovini XVIII veka u radovima Gottfried Achenwal-a, profesora univerziteta u Getingenu. On je uveo u praksu naziv statistika i smatrao je da taj naziv dolazi od italijanske reči „stato“ što znači država. Začeci statistike kao naučne discipline, nastali su skoro istovremeno u Nemačkoj i Engleskoj u XVIII veku, kada se javljaju dve statističke koncepcije. Po jednoj koja je zastupala nemačka „ Univerzitetska statistika“ inspirisana radovima H. Conoringa i njegovih sledbenika od kojih su najpoznatiji M. Shimeitizel i G. Achenwel, zadatak statistike je sistematizacija podataka o stanovništvu i privredi u cilju vođenja državne politike, bez pretenzija na otkrivanje zakonitosti. Zadatak statistike, zasnivao se uglavnom na opisu, deskripciji, pa je kasnije ovaj pravac, nazvan još i deskriptivna škola ili državopis.

SPSS

Embed Size (px)

DESCRIPTION

SPSS

Citation preview

Page 1: SPSS

Primena SPSS paketa u statističkoj obradipodataka

Ćuslović MilošFakultet tehničkih nauka, Čačak,

Inženjer informacionih tehnologija, Master informacione tehnologije, 2014/[email protected]

Mentor rada: prof. dr. Vera Lazarević

Apstrakt— U master radu prikazan je statistički softverski paket SPSS. Opisane su osnovne funkcije softvera, kao i njegova

primena u statističkoj analizi naučnog istraživanja, postepeno kroz faze. Korak po korak su opisane funkcije za izračunavanje

deskriptivnih statističkih mera, statistička testiranja i korelacije, kako bi rad mogao poslužiti kao vodič za upotrebu ovog programa. Ključne reči: spss, statistika, mere, korelacija, testiranje.

1. UVOD

U tranziciji između dva sistema obrazovanja, na brisanom prostoru između tendencioznosti privatnih i gordostijavnih obrazovnih institucija, i nauka u našoj zemlji je zapela negde u procepu između antičke metodologije iužurbanog kapitalizma. U informatičko doba u kojem su Homerova dela odavno digitalizovana, kod nas se naučniradovi pišu na filozofskom principu “ljubavi prema mudrosti“, uz mnogo teoretisanja i bez ikakve praktične koristi isvrhe. Listanjem požutelih stranica radova iz prošlog veka i njihovim upornim prepisivanjem nikada nećemo sustićizahuktalu lokomotivu civilizacije koja eksponencijalno ubrzava. Vreme je da se nauka podigne iz prašine i otisne uistraživanje okeana nepoznanica sveta kroz koji tek tako prolazimo.

Iako je statistika studentima uglavnom mrzak predmet, bez merljivih parametara nemoguće je napraviti ozbiljannaučni rad. U svojim seminarskim i diplomskim radovima studenti često pokušavaju izbeći statistiku, tako da se gotovoredovno dešava da kasnije kao postdiplomci imaju problema kad moraju da se uhvate u koštac sa pravim istraživačkimizazovima. Možda krivica za ovo leži i u lošoj prezentaciji statistike u društvu, jer se jako često zloupotrebljava u svrhuzamazivanja očiju javnosti fascinirajućim parametrima i brojkama, ali upravo je ovo dodatni razlog da se boljeupoznamo sa njihovim značenjem

Obrada velike količine podataka je spor i mukotrpan proces. Na sreću, danas imamo računare koji mogu da obavemilijarde kalkulacija u sekundi. Od pojave prvog elektronskog kalkulatora razvijana su sve kompleksnija pomagala kojabi olakšala posao u obradi velike količine podataka, tako da danas postoje različiti kompjuterski programi koji se koristeu ovu svrhu, i dok je osnovne statističke parametre moguće izračunati i pomoću Excel-a, kao namenski programi zastatistiku izdvajaju se posebno SAS, Statistica, Minitab i SPSS. Na engleskom jeziku se mogu naći brojne publikacije iz ove oblasti, ali je nepostojanje literature na srpskom značajnaprepreka u implementaciji ovih naprednih softverskih rešenja kod nas.

Kako sam već koristio neke osnovne funkcije SPSS-a ranije u toku studija, odabrao sam ovu temu kako bih proširiosvoja znanja u vezi samog programa, ali i statistike uopšte. ali i da pokušam kolegama napraviti relativno razumljivvodič za upotrebu programa i da im olakšam da sami i bez velike muke naprave statističku analizu svog istraživanja. U radu neće biti detaljno objašnjavana statistička teorija, već njena praktična primena u programu. Kod pojedinihstatističkih tehnika i metoda će se samo spomenuti najvažnije teorijske stvari vezane za tu tehniku, odnosno metodu.

Za potrebe izrade rada korištena je verzija IBM SPSS v20.0.

2. POJAM I RAZVOJ STATISTIKE

Reč „statistika“ prvi put je objavljena u prvoj polovini XVIII veka u radovima Gottfried Achenwal-a, profesorauniverziteta u Getingenu. On je uveo u praksu naziv statistika i smatrao je da taj naziv dolazi od italijanske reči „stato“što znači država.

Začeci statistike kao naučne discipline, nastali su skoro istovremeno u Nemačkoj i Engleskoj u XVIII veku, kada sejavljaju dve statističke koncepcije. Po jednoj koja je zastupala nemačka „ Univerzitetska statistika“ inspirisana radovimaH. Conoringa i njegovih sledbenika od kojih su najpoznatiji M. Shimeitizel i G. Achenwel, zadatak statistike jesistematizacija podataka o stanovništvu i privredi u cilju vođenja državne politike, bez pretenzija na otkrivanjezakonitosti. Zadatak statistike, zasnivao se uglavnom na opisu, deskripciji, pa je kasnije ovaj pravac, nazvan još ideskriptivna škola ili državopis.

Page 2: SPSS

Statistika se danas do te mere razvila da i sam njen naziv više ne odgovara savremenoj sadržini. Pomoću staističkihmetoda vrše se procene, odmeravaju rizici, istražuju tendencije, analiziraju odnosi i faktori koji ih određuju. Ona se jošuvek bavi i kvantitativnom deskripcijom, ali stanja shvaćenog u smislu trenutka ili tačke na dinamičnoj liniji razvoja.

Pod statistikom se danas podrazumeva trostruki sadržaj. Pored statistike u užem smislu ili deskriptivne statistike,ona obuhvata statističku analizu i statističku teoriju.

Statistika u užem smislu ili deskriptivna statistika usmerena je na prikupljanje, obradu i prezentaciju podataka.Statistička analiza podrazumeva skup staističkih metoda kvantitativne analize, pojava i njihovih odnosa, koji

omogućavaju pribavljanje numeričkih informacija, njihovu kvalitativnu interpretaciju, donošenje zaključaka iformulisanje zakonitosti ponašanja posmatranih pojava.

Statistička analiza iznalazi statističke metode, objašnjava ih, dokazuje i usavršava.

3. POJAM, PREDMET, ZNAČAJ I PODELA STATISTIKE

Predmet statističkog istraživanja su masovne pojave, koje su po svojoj prirodi varijabilne, pa ih treba posmatrati navelikom broju slučajeva i na osnovu tih posmatranja doneti zaključke. Zbog toga se statistika najčešće interpretira kaonaučni metod kvanitiativnog istraživanja masovnih pojava. Zadaci statistike su da: otkrije bitne karakteristikeposmatrane pojave; otkrije povezanost sa drugim pojavama; otkrije uzroke i posledice njihovog stanja i promena; daotkrije zakonitosti u pojavama i objasni njihovo zbivanje.

Značaj statistike raste sa razvijenošću zemlje – svaka zajednica zahteva sa razvojem obimnija i složenija statističkaistraživanja, koja treba da budu i međusobno uporediva. Podela statistike:

teorijska i primenjena

statistika stanovništva (demografska)

statistika nacionalne privrede (ekonomska)

statistika društvenih službi

poslovna statistika (statistika preduzeća)

3.1 Kratak opis istraživanja

U prikazu statističkih metoda i tehnika koje se koriste u SPSS-u, za potrebe pisanja ovog rada bili su potrebni podacina kojim bi se praktično pokazalo kako se program upotrebljava.Podaci koji su korišteni u primerima i kasnije u ovom radu su podaci prikupljeni za istraživanje iz godišnjaka „Fakultetatehničkih nauka, Čačak“ o studentima koji su diplomirali u 2011 i 2012 godine. Sve ovi podaci su uneti u SPSS iformiran je baza podataka na osnovu koje su se vršila dalja testiranja i ispitivanja, koja su prezentovana u ovm radu(slika 1).

Slika 1. Prikupljeni podaci uneti u bazu koji se koriste za dalju obradu

Page 3: SPSS

4. SPSS I NAUČNO ISTRAŽIVANJE

SPSS je skraćenica za Statistical Package for the Social Sciences (engl. statistički program za društvene nauke).Iako su autori programa Norman Nie i C. Hadlai Hull svoj program 1968 nazvali tako, primena programa je danastoliko univerzalna da se koristi u gotovo svim oblastima gde je statistika potrebna: sociologiji, psihologiji, medicini,ekonomiji, političkim naukama, prirodnim naukama, obrazovanju, vladinim institucijama i drugim. Prema on-lineenciklopediji Wikipedia, SPSS je „Kompjuterski program koji se koristi za kreiranje i implementaciju istraživanja, datamining, analizu sadržaja, statističku analizu te zajednički rad i implementaciju istraživanja.

4.1 Osnovni elementi interfejsa i početak rada s programom

Po otvaranju programa SPSS, dočekaće nas početni ekran koji možemo videti na slici 2. Ovo je takozvani „DataEditor (Data View)“, koji služi za unošenje i manipulaciju podacima. U donem lievom uglu možemo videti jezičak„Data View“, a odmah pored njega „Variable View“. Ovo je drugi važan deo interfejsa, koji će nam služiti zadefinisanje varijabli. Praktično, rad u SPSS-u se sastoji od četiri faze: definisanje varijabli; unošenje podataka; analize;interpretacija rezultata.

Slika 2. Izgled Data View prozora u SPSS -u

Poput većine programa u Windows-u, SPSS ima liniju naslova, liniju padajućih menija, toolbar, status bar, kao icentralni radni deo. SPSS ima samo jedan toolbar, ali je on izmenjiv i moguće ga je prilagoditi specifičnim potrebamakorisnika. Radni deo je tabela poput one u Excel-u, ali koja za kolone ima varijable, a za redove ispitanike. U ovutabelu unosimo podatke dobijene istraživanjem. Prva tri i poslednja dva padajuća menija su više-manje istovetna svimWindows programima.

5. PRIPREMNE RADNJE

Obrada podataka pomoću računara ima svoje specifičnosti, pa je potrebno pre samog unosa podataka pripremiti seza taj proces. Važno je imati na umu da računar može samo i jedino manipulisati brojevima, te je potrebno pretvoritiistraživanje u nekakav numerički oblik.

5.1 Definisanje varijabli

Pre samog unosa podataka, potrebno je definisati varijable. SPSS će znati da računa i bez definisanja varijabli, aliće ispis biti zbrkan i nerazumljiv. Da bismo mogli koristiti SPSS Output (ispis) u istraživanju, korisno je da detaljnodefinišemo sve varijable. Ovo ćemo uraditi u „Variable View“. Kao što možemo videti na slici 3, u redovima su

pobrojane pojedinačne varijable, a u kolonama se nalaze atributi varijabli.

Slika 3. Var iable View i def inisanje var ijabli

Page 4: SPSS

6. UNOS PODATAKA

Podatke je u SPSS moguće unositi na nekoliko načina. Osim direktnog načina, moguće je koristiti Excel i Notepad.Detaljnije ćemo objasniti prva dva načina. Preporučljivo je odmah nakon definisanja varijabli sačuvati datoteku i datijoj naziv (Save As), a u toku unosa podataka što češće snimati podatke.

6.1 Direktan unos podataka

Direktno unošenje podataka je jako jednostavno. Podatke unosimo na „Data View“ listu, i to tako što unosimo svevarijable jednog slučaja, upitnika i slično, pa tek onda prelazimo na sledeći. Iz polja u polje se krećemo pomoću strelicaili pomoću „TAB“ tastera, a zatim prelazimo u sledeći red (ispitanika, slučaj, upitnik).

Preporučljivo je u toku unošenja podataka što češće sačuvati podatke na hard-disk opcijom „Save“ iz „File“padajućeg menija ili prečicom „CTRL+S“, jer u slučaju nestanka struje ili drugih poteškoća s računarom možemo ostatibez podataka koje smo mukotrpno unosili. Direktno unošenje podataka je prikazano na slici 4.

Slika 4. Direktno unošenje podataka u Data View SPSS-a

7. TRANSFORMACIJA PODATAKA

Podaci uneseni u tabele nisu uvek odmah spremni za analizu. Nekad nam neka varijabla nije adekvatno numeričkikodirana, ili je potrebno preračunati i slično. Nakon što su svi podaci uneseni, a pre statističkih kalkulacija i analiza,potrebno je izvršiti transformaciju podataka.

7.1 Izračunavanje

Recimo da imamo varijablu „Godina rođenja“ u našoj tabeli, ali nam je u stvari potreban podatak koliko ispitanikima godina. „Transform/Compute Variable“ će nam otvoriti Dialog Box (slika 5) u kojem ćemo podesiti da se kreiranova varijabla „Starost“ a u kojoj će se preračunati varijabla „Godina rođenja“ tako da se vrednosti godine rođenjaoduzmu od 2015, (trenutna godina).

Slika 5. Dialog box u kom unosimo naziv nove varijable i formulu

Page 5: SPSS

Na slici 5 možemo na desnoj strani videti da postoje i već unapred pripremljene matematičke funkcije zapreračunavanje, koje nam uveliko mogu pomoći da ne moramo ručno unositi sve formule. Tu su grupe aritmetičkih ifinansijskih funkcija, zatim onih koje se odnose na računanje vremena i slično.

8. DESKRIPTIVNA STATISTIKA

Deskriptivna statistička analiza predstavlja skup metoda kojima se vrši izračunavanje, prikazivanje i opisivanjeosnovnih karakteristika statističkih serija. Deskriptivna statistička analiza ima sledeće zadatke: grupisanje i sređivanjestatističkih podataka; prikazivanje statističkih podataka; Određivanje osnovnih pokazatelja statističkih serija.

8.1 Numeričke varijable – deskriptivne statističke mere

Kod numeričkih varijabli moguće je izračunati mnoge deskriptivne statističke mere koje nam mogu poslužiti unašem istraživanju. „Analyze/Descriptive Statistics/Descriptive“ otvrara se prozora gde biramo varijable i statističkemere. Odabraćemo nekoliko varijabli, a zatim kliknuti dugme „Options“, da bismo odabrali koje deskriptivne mereželimo (slika 6)

Slika 6. Odabir Deskriptivnih statističkih mera

Nakon što odaberemo željene statističke mere i potvrdimo „Ok“, dobićemo u SPSS Outputu tabelu kao na slici 7.

Slika 7. Dekriptivne statističke mere za nekoliko varijabli

9. TESTOVI ZNAČAJNOSTI RAZLIKA

Kada se statističko posmatranje organizuje sa ciljem da se analizira uzorak, neminovno se rađa potreba da se opisupoređuje bilo sa nekom zamišljenom teorijskom veličinom, bilo s nekim drugim na isti način određenim uzorkom.Razlike ili istovetnosti mogu biti slučajne ili organizovane. Slučajne razlike su posledica slučajnih variranja i po pravcu,odnosno smislu i ne mogu se predvideti. Organizovane promene vode poreklo od delovanja faktora koji se mogu, ili jepoželjno da se identifikuju.

Kod poređenja testovima pripadništva uzorka skupu, odnosno razlikama među njima, istraživač postavlja nultu iradnu hipotezu: H0 – obično za nultu hipotezu uzimamo pretpostavku da ne postoji statistički značajna razlika izmeđuuzorka i populacije (ili između dva uzorka); H1 – radna ili alternativna hipoteza: kod testiranja obično pretpostavljamoda postoji statistički značajna razlika između uzorka i populacije (ili između dva uzorka).

Takođe, postavlja se i nivo značajnosti sa kojim ćemo raditi test, odnosno nivo sigurnosti sa kojom možemo tvrditida je nešto onako kako tvrdimo. Kao standardan nivo pouzdanosti se obično uzima nivo p=0.05, što znači da sasigurnošću od 95% možemo tvrditi da je nešto onako kako tvrdimo. Kao veći stepen pouzdanosti se uzima p=0.01,odnosno da smo 99% sigurni u ono što tvrdimo.

Page 6: SPSS

10. TESTIRANJE STATISTIČKIH VEZA

Među pojavama, odnosno varijablama koje ih opisuju, mogu postojati različite vrste veza, odnosno korelacija. Jednaod oblasti statistike je otkrivanje, merenje i opisivanje tih veza. Za razliku od eksperimentalnih projekata, ove varijablese ne modifikuju i ne kontrolišu, već se opisuju u svom prirodnom stanju. Korelacionim tehnikama može se: istražitiveza između parova varijabli (korelacija); predvideti vrednosti jedne varijable na osnovu druge (bivarijantna regresija);predvideti vrednosti zavisne varijable na osnovu više nezavisnih varijabli (višestruka regresija); identifikovati strukturagrupe povezanih varijabli (faktorska analiza).

Korelacija opisuje jačinu i smer linearne veze između dve varijable. Pomoću SPSS-a možemo izračunati višestatističkih parametara za merenje korelacije, koje biramo u zavisnosti od nivoa merenja varijabli i prirode podataka. Zavarijable sa intervalne skale koristićemo „Pearson-ov r-koeficijent korelacije“, dok ćemo za varijable sa ordinalne skalekoristiti „Spearman-ov ρ-koeficijent“.

Koeficijent korelacije je vrednost između 0 i 1. Prema raznim autorima ovi keoficijenti se različito tumače, ali zapotrebe ovog rada prihvatićemo tumačenje prema Cohen-u, gde je:

0.10 – 0.29 mala korelacija

0.30 – 0.49 srednja korelacija

0.50 – 1.00 velika korelacijaPostoji više vrsta testova kojima možemo utvrditi korelacije između varijabli, a uglavnom se odnose na vrstu skale

kojoj serija pripada.

11. ZAKLJUČAK

Bez elementarnih pojmova o statističkoj teoriji, prosečan korisnik će se teško snaći u naprednom statističkomprogramu kakav je SPSS. Ipak, dovoljno je poznavanje osnova da bismo se upustili u svet brojeva i njihovih veza irazličitosti kroz statističke tehnike kojima ovaj program raspolaže.

SPSS je u rukama znalca moćna alatka kojoj nikakva slučajnost ne može promaći. Ipak, ne moramo svi bitiapsolutni eksperti na svim poljima. Dovoljno je poznavati elementarne stvari kako bismo sebi omogućili barempreliminarnu statističku analizu istraživanja.

Moja ideja je bila da koliko-toliko približim mogućnosti ovog programa onima kojima on može biti potreban,kolegama studentima i naučnim radnicima, koji zbog jezičkih barijera i inertnosti naše naučne scene nisu bili umogućnosti da se ranije upoznaju s njim. Takođe, pokušao sam da na jednostavan način i kroz primer analize jednestatističke baze podataka pokažem da statistika nije strašna. Kada se komplikovane stvari objasne prostim jezikom, oneprestaju biti komplikovane.

SPSS je vrlo kompleksan program i ovaj rad ne iscrpljuje ni mali deo njegovih mogućnosti. Ipak, nadam se da samnapravio jedan početnički vodič, i da će pomoći nekome da uz njega napravi svoje prve korake u statističkoj analizi, aujedno i da ga možda zainteresuje za statistiku kao naučnu disiplinu.

12. LITERATURA

[1] Dr. Mileva Žižić, DR. Miodrag Lovrić, Dr. Dubravka Pavličić, Metodi statističke analize, Univerzitet u Beogradu, Ekonomskifakultet, Beograd 1992.

[2] Dr. Vera Lazarević, Marija Đukić, Inženjerska matematika, Tehnički fakultet Čačak, 2010.[3] Sheridan J. Coakes, SPSS 20 Analiza bez muke, Kompjuter bibilioteka, Beograd, 2013.[4] Tanjga, R. Statistika u medicini. Banja Luka, Društvo informatičara RS, 2004.[5] Turjačanin, V. i Čekrlija, Đ. Osnovne statističke metode i tehnike u SPSS-u. Banja Luka : Centar za kulturni i socijalni

popravak, 2006.[6] Pallant, J. SPSS Survival Manual, Philadelphia, McGraw Hill, 2007.

Korišteni sajtovi:1. http://www.regentsprep.org/regents/math/algtrig/ats2/normallesson.htm (poslednja poseta 12.10.2015)2. http://en.wikipedia.org/wiki/SPSS (poslednja poseta 10.10.2015)