Upload
anastazija-kladic
View
295
Download
8
Embed Size (px)
DESCRIPTION
SPSS
Citation preview
Uvod u SPSS
_____________ Daniela Širinić 2012/2013
Kontakt:
ili
STUDOMAT
Pravila rada
• Poštovanje načela akademskog poštenja.
– Najočitiji oblici akademskog nepoštenja su
• varanje (namjerno i svjesno dovođenje nastavnika u zabludu),
• služenje nedozvoljenim izvorima u pisanom ispitu (prepisivanje
od kolega ili iz knjiga, bilježnica i "šalabahtera"),
• plagiranje (doslovno preuzimanje dijelova teksta iz drugih
radova – knjiga, članaka, uradaka kolega, Interneta i sl. – bez
navođenja),
• te korištenje istih pisanih uradaka (preko 50% identičnog teksta)
na više kolegija.
• Akademsko se nepoštenje oštro kažnjava negativnim
bodovima!
2
Pravila rada
• 2 kolokvija:
– Teorijski dio:
• Kolokvij 1
• Kolokvij 2 (mogu izaći samo studenti koji su položili prvi
kolokvij)
– Praktični dio:
• Ispit na kraju semestra = mogu izaći svi studenti bez
obzira na rezultate kolokvija
• Domaći zadatak – do siječnja.
• Sustav ocjenjivanja po normalnoj distribuciji
3
Pravila rada
• Dolazak na nastavu:
– Dolazite na predavanja jer će većina ispitnih pitanja biti
iz predavanja!
– Nema opravdanih izostanaka, student ne treba najaviti
izostanak s vježbi ukoliko se pridržava pravila od 3
izostanka
– Više od 3 izostanka – gubitak prava na potpis iz
kolegija!!!!
– Ispričnice se ne uzimaju u obzir, ukoliko izostanete više
od 3 puta zaredom zbog bolesti– prihvaćam samo
ispričnice fakultetske doktorice
4
Akademska komunikacija
• Bilo da šaljete upite preko Studomata ili preko e-maila
molim vas da pratite osnovna pravila
poslovne/akademske komunikacije:
– Naslovite upit sa:
• Draga kolegice/kolega/profesorice/profesore
• Poštovana kolegice/kolega/profesorice/profesore
– Pratite pravila hrvatskog jezika i gramatike
– Završite upit sa:
• Srdačan pozdrav
• Lijep pozdrav
5
Akademska komunikacija
• Provjerite http://www.fpzg.unizg.hr/index.php?q=/nastavnici-
na-fakultetu-politickih-znanosti
• Akademicima, profesorima emeritusima, redovnim,
izvanrednim profesorima morate se obraćati sa
“Profesore/profesorice”
• Docentima se ne morate obraćati sa prof. ali je to obično
praksa
• Višim asistentima i znanstvenim novacima se ne treba obraćati
sa prof. nego najčešće kolega/kolegice i prezime
• Svim zaposlenicima fakulteta se trebate obraćati sa “vi” osim
ako vam ne kažu suprotno
6
Zašto učimo statistiku?
• Tri osnovna razloga:
– Numeričke informacije su posvuda.
• http://planecrashinfo.com/cause.htm
• http://www.uefa.com/uefachampionsleague/season=2013/s
tatistics/round=2000347/clubs/index.html
– Statističke tehnike se koriste da bi se donijele odluke
koje utječu na naše svakodnevne živote.
• http://www.dzs.hr/
– Bez obzira na to koji posao budete obavljali u
budućnosti donosit ćete profesionalne odluke koje će
uključivati statističke podatke.
7
Istraživački proces
Dizajn istraživanja
Mjerenje osnovnih pojmova
Prikupljanje podataka
Analiza podataka
Zaključivanje
Istraživačko pitanje
8
1. Istraživačko pitanje
• 1 korak svakog istraživanja:
– Formuliranje problema istraživanja u obliku
istraživačkog pitanja. Na koje pitanje tražim odgovor?
• Mora biti:
– Precizno: formulirati pitanje tako da ga svatko razumije
– Jasno: sadrži pojmove koji su općeprihvaćeni
• Primjer:
– Zašto mladi ljudi izlaze na parlamentarne izbore u
manjoj mjeri od starijih građana?
9
2. Dizajn istraživanja
Kvalitativna metoda Kvantitativna metoda
Cilj je potpun i detaljan opis
Cilj je klasifikacija osobina, stvaranje
statističkog modela u pokušaju objašnjenja
pojave koja se promatra.
Istraživač sam prikuplja podatke.
Najčešće se koriste sekundarni podaci ili
istraživač sam provodi upitnik, eksperiment i
slično.
Podaci su u obliku riječi, slika ili objekata.
Podaci su u obliku brojeva i statistike.
Subjektivna interpretacija podataka i događaja
je jako bitna.
Istraživač traži precizne mjere i analize
pojmova koje istražuje.
Kvalitativni podaci su mnogo detaljniji,
vremenski zahtjevniji i teže ih je koristiti za
donošenje općenitih zaključaka.
Kvantitativni podatci su učinkovitiji, moguće
je testirati postavljene hipoteze ali i moguće ne
vidjeti kontekstualne detalje.
10
3. Mjerenje osnovnih pojmova
• VARIJABLA:
– Logički skup nekih obilježja
• Spol: muški i ženski
• Društvena klasa: niža, srednja i visoka
• Dob: 1,44,67,99...
– Najčešće odgovara pitanju u anketi
11
4. Prikupljanje osnovnih podataka
• Odakle podaci dolaze: – Popisi stanovništva (cenzus)
• Hrvatska 2011
• Hrvatska 2001
• Hrvatska 1991
– Ankete provedene na slučajnom i reprezentativnom uzorku građana
• Puls
• Gallup
• Eurobarometar
– Administrativni podaci
• Matične knjige
• Registri udruga
• Broj registriranih automobila
• Broj oboljelih od raka pluća
• Broj korisnika mobilnih telefona
12
Zapamtite:
• There are three kinds of lies: lies, damned lies, and
statistics.
Benjamin Disraeli (1804–1881)
13
Analiza podataka u SPSS-u
• Statistical Package for Social Sciences
– Norman Nie
• ČEMU SPSS?
– Olakšanje i ubrzanje analize
• OPASNOST!
– Nekritično i pogrešno korištenje
14
15
3 vrste datoteka
• 3 vrste datoteka:
– Sadrže podatke
– Sadrže sintaksu naredbi
– Sadrže rezultate
16
2 prozora prijateljskog sučelja
• SPSS data and variable editor
• Priprema za unos podataka i definiranje varijabli
• Obrada podataka
• SPSS output
– Prikaz rezultata obrade podataka
17
SPSS Data editor
• Stupci = varijable
• Redovi = ispitanici
18
SPSS Output
19
Baze podataka u SPSS-u
• 2 opcije:
– Unos vlastitih podataka
– Korištenje sekundarnih baza podataka
• Sačuvanih u SPSS datotekama (.sav ili .por)
• Sačuvanih kao neka druga datoteka (.xls, .dta …)
– Neki izvori sekundarnih podataka:
» Eurobarometar
» European Social Survey
» International Social Survey Programme
» European Values Study
» International Election Studies
20
Baze podataka u SPSS-u
21
# Zadatak 1
• Otvorite SPSS
– Upišite podatke prikupljene anketom:
– 5 ispitanika (Spol, Dob, Mjesto rođenja)
• Ako ste uspješno upisali podatke snimite datoteku:
– “prezime.sav”
RB ispitanika
Dob Spol Mjesto rođenja
1 18 M Zagreb
2 25 Ž Split
3 53 Ž Vukovar
4 71 Ž Dubrovnik
5 19 M Dubrovnik
22
Mjerenje pojmova
• Istraživačke hipoteze: – Glasači HDZ-a su u prosjeku niže obrazovani od glasača SDP-a.
– Glasači HDZ-a su u prosjeku više zainteresirani za politiku od
glasača HSLS-a.
• Kako statistički potvrditi ili opovrgnuti ove hipoteze?
– Prvi korak: kako mjeriti ove pojmove?
• Formulacija pitanja u upitniku
• Kodiranje pojma nakon što su odgovori prikupljeni
– 2 osnovna tipa pojmova:
• Direktno mjerljivi
• Indirektno mjerljivi
– VEĆINA pojmova u društvenim znanostima:
23
Mjerenje pojmova
• Istraživačke hipoteze:
– Glasači HDZ-a su u prosjeku prosjeku niže obrazovani od glasača SDP-a.
• Direktno mjerljivi pojmovi/varijable:
– Razina obrazovanja:
• Niska
• Visoka
– Razina obrazovanja:
• Niska
• Srednja
• Visoka
– Razina obrazovanja:
• Nezavršena osnovna škola
• Završena osnovna škola
• Završena srednja škola
• Završen fakultet, magisterij ili doktorat
– Razina obrazovanja
• Godine završenog obrazovanja ...
24
Mjerenje pojmova
• Istraživačke hipoteze:
– Glasači HDZ-a su u prosjeku više zainteresirani za politiku od glasača
HSLS-a.
• Indirektno mjerljivi pojmovi/varijable:
– “interes za politiku” – politološki pojam
– Kako ga mjeriti? Na koji način formulirati pitanje?
• Izmisliti nešto novo
• Proučiti prijašnja istraživanja i “posuditi” pitanje
– Kako procjenjujete svoj interes za aktualna politička zbivanja?
• jako sam zainteresiran/a
• osrednje sam zainteresiran/a
• slabo sam zainteresiran/a
• ravnodušan/na sam, politika me ne zanima
– Da li smo pojam dobro osmislili:
• Da li odgovara našoj definiciji “interesa za politiku”
• Provjeriti dobivene odgovore – najčešće imati neka očekivanja (napr. interes će u
prosjeku biti jako nizak)
25
Mjerenje pojmova
• Indirektno mjerljivi pojmovi/varijable:
– Razina religioznosti:
• Izuzimajući vjenčanja, pogrebe i krštenja, koliko često odlazite u crkvu?
– nikada ili gotovo nikada
– možda jednom godišnje
– dva-tri puta godišnje, za važnijih vjerskih blagdana
– jednom u dva mjeseca
– jednom mjesečno
– jednom tjedno
– češće od jednom tjedno
– PROXY pitanje
26
Definiranje varijabli
• U SPSS ne možemo unositi modalitete u tekstualnom
obliku
• Zato prvo moramo utvrditi način označavanja pojedinih
modaliteta brojčano
• A potom definirati svaki broj u SPSS preko opcije
Data/Define variable
– Možemo analizirati podatke i ako ne definiramo svaku
varijablu posebno
– No, često se dogodi da istraživač zaboravi kako je
označio pojedine kategorije
– Definiranje varijabli je zapravo osiguranje za budući rad
27
Definiranje varijabli
• Ime varijable
– U istoj datoteci ne mogu postojati varijable istog imena
– Najviše 8 znakova
– Počinje slovom
– Neki izrazi se ne mogu koristiti jer se koriste kao naredbe u sintaksi (ALL,
AND, BY, EQ, NOT...)
28
Definiranje varijabli
• Vrsta varijable
29
Definiranje varijabli
• Vrijednosti koje nedostaju
– Sistemske
• SPSS ih automatski označava sa zarezom (,)
– Vrijednosti koje sami označimo nevažećima
30
Definiranje varijabli
• Tekstualne oznake modaliteta odgovora
– Opis značenja numeričkih oznaka koje odaberemo (za
lakše snalaženje u bazi podataka)
SPOL STUDENTA/ICE
1
ŽENSKI
31
!Skale mjerenja
• Određuju:
– Tip obilježja koje koristimo u mjerenju
– Izrazito bitno za bilo kakve analize u SPSS-u!!!
32
Skale mjerenja
• 4 osnovne vrste:
– INTERVALNE SKALE
– OMJERNE SKALE
– ORDINALNE SKALE
– NOMINALNE SKALE
33
Intervalne skale
• Skale kod kojih je poznat redoslijed i razlika među
brojevima na skali
– Primjer: temperaturne skale mjerenja
• 0◦ C, 15◦ C
– redoslijed je jasan, niže temperature su bliže nuli i ispod nule,
više u suprotnom smjeru
• 0◦ C do 1◦ C i 15◦ C do 16◦ C
– Razlika je jednaka, uvijek je 1◦ C
• No nemaju APSOLUTNU NULU:
• Ne možemo reći da je 100◦ F dva puta veće od 50◦ F,
JER…
• Ako te temperature prebacimo u stupnjeve Celzijusa
dobivamo 38◦ C i 10◦ C
34
Omjerne skale
• Imaju apsolutnu nulu! Nula znači nepostojanje
obilježja!
– Primjer: dužina, težina, godine života
• Zato što možemo reći da je netko tko ima 30 godina 2 puta
mlađi od nekoga tko ima 60 godina
• U SPSS označene kao “scale”
• Ove skale su omiljene među statističarima jer se
varijable koje pripadaju ovom obilježju mogu
podvrgnuti svim statističkim operacijama
35
Ordinalne skale
• Služe samo za označavanje redoslijeda, razlike između
pojedinih jedinica skale nisu jednake
– Primjer: školske ocjene, stupanj završenog obrazovanja,
razni oblici Likertove psihometrijske ljestvice …
• Većina varijabli kojima ćemo se baviti pripadaju
ordinalnoj skali
• U SPSS-u “ordinal”
36
Nominalne skale
• Nominalne skale zapravo i nisu skale
• Služe za identifikaciju kvalitativnih varijabla čije
modalitete zbog jednostavnije analize u programima
označavamo brojevima – KODIRAMO ili
ŠIFRIRAMO
– Primjer: Mjesto rođenja, ime i prezime, kategorije
zaposlenja … itd.
• U SPSS-u “nominal”
• Vrijednost nominalnog obilježja je naziv, ime ili
kategorija – broj NOMENKLATURA (popis
modaliteta obilježja)
37
Snalaženje s gotovim bazama podataka
• !PREČAC:
– Kako znati koje podatke varijabla sadrži (ukoliko je
gotova baza s upisanim vrijednostima i oznakama
vrijednosti)
– Utilities/Variables
– Utilities/File info
38
#Zadatak
• Otvori bazu “Mala_anketa_2007.sav”
• Ispuni test o ljestvicama mjerenja
39
Nazad na početak
• Statistika
– Deskriptivna
• opisuje, upoznaje, uspoređuje i analizira masovne
pojave temeljem prikaza i brojčane obrade poznatih
podataka
– Inferencijalna (Induktivna)
• opisuje, upoznaje, uspoređuje i analizira masovne pojave
temeljem uzorka koji procjenjuje podatke cjeline
40
Deskriptivna statistika
• Što moramo naučiti?
– Kako opisati podatke
• Numeričkim parametrima statističkog skupa
– Tablica frekvencija
– Mjere srednjih vrijednosti
– Mjere raspršenosti
– Mjere rasporeda
– Normalna distribucija
• Grafičkim prikazima
– Histogram
– Strukturni grafikon (pie chart)
– Stem-and-leaf chart
– Q-Q plot
– Scatter plot
41
Tablica frekvencija
42
Tablica frekvencija
Osnovne informacije o varijabli
Broj ispitanika u kategoriji/ukupan broj ispitanika * 100
Bez “missing” u ukupnom broju
Postotak
vrijednosti
kod ili
ispod svake
kategorije
43
Križne tablice (Crosstabs)
44
Križne tablice (Crosstabs)
Hocete li izaci na ove izbore? * Spol Crosstabulation
Count
43 37 80
19 14 33
74 117 191
338 386 724
20 30 50
494 584 1078
sigurno necu
v jerojatno necu
v jerojatno hocu
sigurno hocu
ne znam
Hoceteli izacina oveizbore?
Total
muški ženski
Spol
Total
Case Processing Summary
1078 99,5% 5 ,5% 1083 100,0%Hocete li izaci na oveizbore? * Spol
N Percent N Percent N Percent
Valid Missing Total
Cases
45
#Zadatak
• Zatraži tablicu frekvencija za varijable:
– Stav prema Stipi Mesiću
– Spol
– Ukupan broj članova kućanstva
– Školska naobrazba
• Napomena! Možete zatražiti tablicu frekvencija za
svaku varijablu posebno ili sve zajedno, output će
prikazati isti rezultat
46
#Zadatak
1. Koliko ispitanika nije odgovorilo na pitanje o školskoj
naobrazbi?
2. Koliko je ispitanika odgovorilo na pitanje o spolu?
3. Koliki udio ispitanika nema ni pozitivan ni negativan
stav prema S. Mesiću?
4. Kod pitanja o S. Mesiću imamo 8 ispitanika koji su
odbili odgovoriti na pitanje, to su sustavne vrijednosti
koje nedostaju, odakle dolazi onaj 1 ispitanik čiji
odgovor nije označen kao System Missing?
5. Koliko je muškaraca reklo da ima 2 člana kućanstva?
6. Provjerite pitanje o školskoj naobrazbi, što ne valja s
upisanim podacima?
47
Numerički parametri statističkog skupa
• Srednje vrijednosti (aritmetička sredina, mod i medijan)
– Pokazatelji centralne tendencije rasporeda varijable
• Mjere disperzije/raspršenosti (standardna devijacija i
varijanca)
– Pokazuju stupanj odstupanja pojedinih vrijednosti
obilježja od aritmetičke sredine
• Mjere rasporeda (asimetrija i zaobljenost)
– Pokazuju kako su frekvencije pojedinih vrijednosti
obilježja raspoređene u odnosu na srednju vrijednost
48
Numerički parametri statističkog skupa Mjere srednjih vrijednosti
Mjere disperzije/raspršenosti
Mjere rasporeda
49
Srednje vrijednosti
• Zašto ih koristimo u deskriptivnoj statistici?
– Da bi jednim rezultatom (brojem) izrazili centralnu
tendenciju skupa podataka
– Različiti tipovi mjerenja varijabli imaju različite
numeričke karakteristike. Ovisno o vrsti skale mjerenja
koristimo:
• Aritmetičku sredinu (MEAN)
• Centralna vrijednost ili medijan(MEDIAN)
• Dominantna vrijednost ili mod (MOD)
50
Aritmetička sredina
• Osnovna formula za negrupirane podatke:
• Zapamti! Ukoliko statistički niz sadrži podatke koje
imaju ekstremne vrijednosti onda aritmetička sredina
nije dobar pokazatelj središnje vrijednosti!
(a) 1 2 3 4 5 6 7 8 9 10 = 5.5
(b) 1 2 3 4 5 6 7 8 9 20 = 6.5
(c) 1 2 3 4 5 6 7 8 9 100 = 14.5
𝑋 = X
𝑁
51
Centralna vrijednost - MEDIJAN
• Vrijednost koja se nalazi na sredini statističkog niza, tj.
ima jednak broj elemenata niza s jedne i druge strane
• Izračunavanje se svodi na rangiranje svih rezultata i
pronalaženje sredine.
52
Centralna vrijednost - MEDIJAN
• Osnovna formula za negrupirane podatke:
• Rangirati elemente niza po veličini:
– 12, 15, 11, 11, 7, 13, 10 – originalan niz
– 7,10, 11, 11, 12, 13, 15 – rangiran niz
• Pronađi broj u sredini niza ukoliko je ukupan broj
podataka neparan
– 7,10, 11, 11, 12, 13, 15
• Ili pronađi prosjek dva broja u sredini ukoliko imamo
paran broj podataka:
– 7,11, 11, 12, 13, 15 (11+12=23/2=11.5)
53
Centralna vrijednost - MEDIJAN
• Medijan je i drugi kvartil Q2
• Medijan se ubraja i među kvantile, vrijednosti koje
dijele numerički ili redoslijedni (ordinalni) niz na
jednake dijelove
– 4 dijela – kvartili
– 10 dijelova – decili
54
Centralna vrijednost - kvartili
• Q1 i Q3 – prvi i treći kvartil se računaju tako da se
uzme donja polovica koju određuje medijan i gornja
polovica te se računa medijan za svaki od tog manjeg
niza podataka
• Q2=3.9, 4.1, 4.2, 4.3, 4.3, 4.4, 4.4, 4.4, 4.4, 4.5, 4
.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1
• Q1= 3.9, 4.1, 4.2, 4.3, 4.3, 4.4, 4.4, 4.4 =
(4.3+4.3)/2= 4.3
• Q3= 4.5, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1 = (4.7 +
4.8)/2 = 4.75
55
Aritmetička sredina i medijan
• U nizovima gdje aritmetička sredina nije prikladna
zbog postojanja ekstremnih vrijednosti, medijan može
biti alternativna mjera centralne tendencije.
• !!!! Medijan je u sva tri slučaja 5.5. Znači da je
pouzdanija mjera srednje vrijednosti kada imamo
ekstremne vrijednosti.
(a) 1 2 3 4 5 6 7 8 9 10
(b) 1 2 3 4 5 6 7 8 9 20
(c) 1 2 3 4 5 6 7 8 9 100
56
Mod
• Položajna srednja vrijednost
• Vrijednost koja se NAJČEŠĆE pojavljuje u nizu
• Postoji ako su u nizu bar dva jednaka podatka
– 12, 15, 11, 11, 7, 13
• UNIMODALAN NIZ
– 2, 9, 5, 7, 8, 6, 4, 7, 5
• BIMODALAN NIZ
– 3, 8, 7, 6, 12, 11, 2, 1
• NEMA MODA
57
Mjere srednjih vrijednosti
Numerička varijabla -
scale
Ordinalna varijabla –
redoslijedni niz
Nominalna varijabla
a) Razdvojiti slučajeve u
različite kategorije
b) Rangirati slučajeve s
obzirom na relativnu
količinu karakteristike
c) Odrediti točnu količinu
karakteristike
a) Razdvojiti slučajeve u
različite kategorije
b) Rangirati slučajeve s
obzirom na relativnu
količinu karakteristike
a) Razdvojiti slučajeve u
različite kategorije
MOD, MEDIJAN I
ARITMETIČKA
SREDINA
MOD I MEDIJAN MOD
58
Mjere srednjih vrijednosti u SPSS-u
Statistics/Summarize/Frequencies/Statistics... 59
Statistics
65 62 64 65
0 3 1 0
2,23 11175,00 764,06 4,25
2,00 10000,00 500,00 4,00
2 10000 500 4
,98 4736,83 542,22 ,61
,96 22437602,46 294005,46 ,38
2,182 ,973 1,384 -,191
,297 ,304 ,299 ,297
8,425 ,087 1,508 -,510
,586 ,599 ,590 ,586
6 21200 2400 2
1 3800 100 3
7 25000 2500 5
Valid
Missing
N
Mean
Median
Mode
Std. Dev iat ion
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Broj djece
u obitelji
Mjesecni
prihod
kucanstva Dzeparac
Uspjeh u
zav ršnom
razredu
Mjere srednjih vrijednosti u SPSS-u
60
– Mean:
• Prosječan broj djece u obitelji ispitanika uzorka je 2,23 djeteta.
– Median:
• Polovina ispitanika je odgovorila (ili 50%) ima 2 djeteta ili
manje od 2 djeteta, a druga polovina više od 2 djeteta.
– Mod:
• Najčešći broj djece u obitelji ispitanika uzorka je 2 djeteta.
Statistics
65 62 64 65
0 3 1 0
2,23 11175,00 764,06 4,25
2,00 10000,00 500,00 4,00
2 10000 500 4
,98 4736,83 542,22 ,61
,96 22437602,46 294005,46 ,38
2,182 ,973 1,384 -,191
,297 ,304 ,299 ,297
8,425 ,087 1,508 -,510
,586 ,599 ,590 ,586
6 21200 2400 2
1 3800 100 3
7 25000 2500 5
Valid
Missing
N
Mean
Median
Mode
Std. Dev iat ion
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Broj djece
u obitelji
Mjesecni
prihod
kucanstva Dzeparac
Uspjeh u
zav ršnom
razredu
Mjere srednjih vrijednosti u SPSS-u
61
Što je distribucija varijable??
• Dvije vrste distribucija:
– Empirijske distribucije frekvencija opaženih podataka
• Raspored podataka koje smo prikupili
• Najuočljivija na histogramu kroz grafički prikaz
prikupljenih podataka
– Teorijske distribucije vjerojatnosti
• Kada neka empirijska distribucija slijedi određenu
teorijsku distribuciju vjerojatnosti, možemo upotrijebiti
teorijsko znanje o dotičnoj distribuciji kako bismo dobili
odgovore na pitanja o podacima. To najčešće zahtjeva
procjenu vjerojatnosti.
• O tome više u inferencijalnoj statistici.
62
Mjere raspršenosti i varijacije
• Stupanj odstupanja pojedinih vrijednosti obilježja od
aritmetičke sredine!
• Kada svi prikupljeni podaci imaju iste vrijednosti mjere
disperzije iznose 0
• Uz tendenciju centralnog okupljanja, varijabilnost je
druga važna karakteristika statističkog skupa
– VARIJACIJA – promjenljivost svojstva
– RASPRŠENOST – odstupanja vrijednosti svojstva
prema srednjoj vrijednosti
• Mjere varijacije i raspršenosti uz srednju vrijednost
daju karakterizaciju distribucije frekvencija
63
Mjere raspršenosti i varijacije
Aritmetička sredina = 5.5
Mod = 5 i 6
Medijan = 5.5
!!!Ista srednja vrijednost može karakterizirati
različite distribucije
0
25
50
75
100
125
1 2 3 4 5 6 7 8 9 10 0
25
50
75
100
125
1 2 3 4 5 6 7 8 9 10
64
Mjere raspršenosti i varijacije
• ZAŠTO IH KORISTIMO?
– Za provjeru raspršenosti empirijske distribucije
– Zato što nam mjere srednjih vrijednosti ne nude dovoljno
informacija o karakteristikama prikupljenih podataka.
65
Mjere raspršenosti i varijacije
Više mjera raspršenosti i varijacije:
• Apsolutne:
– raspon varijacije
– interkvartil
– varijanca
– standardna devijacija.
• Relativne: (zašto relativan – računa se pomoću omjera)
– koeficijent varijacije
– koeficijent kvartilne devijacije.
• U SPSS-u (zato što se najviše koriste):
• standardna devijacija, raspon varijacije (RANGE) i
varijanca
66
Mjere raspršenosti i varijacije
67
Mjere raspršenosti i varijacije
• Raspon varijacije:
• Rx = Xmax – Xmin
• Razlika najveće i najmanje vrijednosti obilježja
• Interkvartil:
• Iq = Q3 – Q1
• Razlika gornjeg i donjeg kvartila
• Koeficijent kvartilne devijacije
• Vq=Q3 – Q1/Q1 + Q3
• Omjer interkvartila i zbroja kvartila
– ! Q2 = MEDIJAN
68
Mjere raspršenosti i varijacije
• Varijanca
– je prosječno kvadratno odstupanje vrijednosti
numeričkog obilježja od aritmetičke sredine.
• Standardna devijacija
– je pozitivan korijen iz varijance i izražena je u
originalnim jedinicama mjere.
69
Varijanca
1. Pronađi aritmetičku sredinu
= (600 + 470 + 170 + 430 + 300)/5 = 394
70
Varijanca
2. Izračunaj razliku visine svakog psa od aritmetičke
sredine
71
Varijanca
3. Zbroji kvadrirane razlike i podijeli sa brojem elemenata
ČEGA? mm na kvadrat
Zato se ne koristi jako često!
72
Standardna devijacija σ (sigma)
• Standardna devijacija je najvažnija i najčešće
upotrebljavana mjera varijabilnosti
• Standardna devijacija (deviatio = odstupanje, variranje,
raspršenost, disperzija)
• Utvrđuje se iz varijance izračunavanjem kvadratnog
korijena
• Standardna devijacija zajedno sa srednjom vrijednošću
određuje da li je distribucija statističkog skupa
normalna ( o tome kasnije)
73
Standardna devijacija
4. Uzmi pozitivni drugi korijen iz varijance...
σ = √21,704 = 147.32... = 147 mm
• Interpretacija: Veliki pas je unutar 2 SD udaljen od
aritmetičke sredine.
74
Interpretacija mjera disperzije
• SD: Prosječno apsolutno odstupanje broja djece od
prosječnog broja djece u uzorku je 0,98 djece.
• Varijanca: općenito se ne interpretira. Mora biti
značajno veća od nule i ovisi o vrijednostima
obilježja. Ako je 0 onda nema varijacije!
Statistics
65 62 64 65
0 3 1 0
2,23 11175,00 764,06 4,25
2,00 10000,00 500,00 4,00
2 10000 500 4
,98 4736,83 542,22 ,61
,96 22437602,46 294005,46 ,38
2,182 ,973 1,384 -,191
,297 ,304 ,299 ,297
8,425 ,087 1,508 -,510
,586 ,599 ,590 ,586
6 21200 2400 2
1 3800 100 3
7 25000 2500 5
Valid
Missing
N
Mean
Median
Mode
Std. Dev iat ion
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Broj djece
u obitelji
Mjesecni
prihod
kucanstva Dzeparac
Uspjeh u
zav ršnom
razredu
Statistics
65 62 64 65
0 3 1 0
2,23 11175,00 764,06 4,25
2,00 10000,00 500,00 4,00
2 10000 500 4
,98 4736,83 542,22 ,61
,96 22437602,46 294005,46 ,38
2,182 ,973 1,384 -,191
,297 ,304 ,299 ,297
8,425 ,087 1,508 -,510
,586 ,599 ,590 ,586
6 21200 2400 2
1 3800 100 3
7 25000 2500 5
Valid
Missing
N
Mean
Median
Mode
Std. Dev iat ion
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Broj djece
u obitelji
Mjesecni
prihod
kucanstva Dzeparac
Uspjeh u
zav ršnom
razredu
75
Mjere rasporeda
• Brojčani izraz za opisivanje OBLIKA empirijske
distribucije!
• ZAŠTO IH KORISTIMO?
– Za usporedbu distribucija više varijabli
– Za provjeru da li je varijabla normalno distribuirana (uz
histogram s normalnom krivuljom)
76
Mjere rasporeda
• Mjera asimetrije:
Pozitivna Negativna
Normalna
77
Mjere rasporeda
• Mjera asimetrije
• U SPSS-u “SKEWNESS”
• Ako je skewness < 0, distribucija je negativno asimetrična
• Ako je skewness > 0, distribucija je pozitivno asimetrična
• Ako je skewness = 0 distribucija je simetrična
• Što je vrijednost mjere asimetrije dalja od 0, distribucija je
više asimetrična
78
Mjere rasporeda
• Mjera zaobljenosti
• U SPSS-u “KURTOSIS”
Mesokurtyc (s4 = 3)
Leptokurtic – šiljasta
(s4 > 3)
Platykurtic – zaobljena
(s4 < 3)
Normalno zaobljena
79
Mjere rasporeda
– Mjera asimetrije:
• Distribucija varijable broj djece u obitelji je pozitivno
asimetrična.
– Mjera zaobljenosti:
• Distribucija varijable broj djece u obitelji je šiljastija od
normalne distribucije.
Statistics
65 62 64 65
0 3 1 0
2,23 11175,00 764,06 4,25
2,00 10000,00 500,00 4,00
2 10000 500 4
,98 4736,83 542,22 ,61
,96 22437602,46 294005,46 ,38
2,182 ,973 1,384 -,191
,297 ,304 ,299 ,297
8,425 ,087 1,508 -,510
,586 ,599 ,590 ,586
6 21200 2400 2
1 3800 100 3
7 25000 2500 5
Valid
Missing
N
Mean
Median
Mode
Std. Dev iat ion
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Broj djece
u obitelji
Mjesecni
prihod
kucanstva Dzeparac
Uspjeh u
zav ršnom
razredu
Statistics
65 62 64 65
0 3 1 0
2,23 11175,00 764,06 4,25
2,00 10000,00 500,00 4,00
2 10000 500 4
,98 4736,83 542,22 ,61
,96 22437602,46 294005,46 ,38
2,182 ,973 1,384 -,191
,297 ,304 ,299 ,297
8,425 ,087 1,508 -,510
,586 ,599 ,590 ,586
6 21200 2400 2
1 3800 100 3
7 25000 2500 5
Valid
Missing
N
Mean
Median
Mode
Std. Dev iat ion
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Broj djece
u obitelji
Mjesecni
prihod
kucanstva Dzeparac
Uspjeh u
zav ršnom
razredu
80
#Zadatak
• Otvori bazu “Mala_anketa_2007.sav”
• Izračunaj odgovarajuće mjere srednjih vrijednosti za
varijable:
– “glas”; “ideol”; “br_dj”; “prihod”
– Interpretiraj rezultate
• Izračunaj varijancu i standardnu devijaciju za omjerne
varijable
– Interpretiraj rezultate
• Izračunaj mjere rasporeda za omjerne i ordinalne
varijable
– Interpretiraj rezultate
81
Odabir i analiza skupina ispitanika
• U statističkoj analizi podataka prikupljenih anketnim i
drugim istraživanjima često trebamo provesti određene
procedure samo na nekim skupinama ispitanika, dok
ostale želimo privremeno zanemariti ili trajno ukloniti
iz baze.
• Možemo, npr., analizirati podatke samo za neku
županiju, odgovore samo nekih kategorija ispitanika i
sl.
82
Odabir i analiza skupina ispitanika
Procedure
odabira
ispitanika
za analizu
83
Odabir i analiza skupina ispitanika
• Želimo li odabrati ispitanike ne mijenjajući vrijednosti
varijabli, koristit ćemo proceduru Select Cases sa
opcijama:
– Select: All cases
– Select: If condition is satisfied
– Select: Random sample of
cases
– Select: Based on time or
case range
– Use filter variable
84
Odabir i analiza skupina ispitanika
• Select: All cases
– nije uključen nikakav filtar za odabir, selektirani su svi
ispitanici
– Ova je opcija programski default , tj. aktivna je u
početnom postavu programa, nakon pokretanja SPSS–a.
85
Odabir i analiza skupina ispitanika
• Select: If condition is satisfied
– odabir samo onih ispitanika koji zadovoljavaju
postavljeni uvjet (ili više uvjeta)
– Možemo, npr. za analizu odabrati samo one ispitanike
koji na varijabli SPOL imaju rezultat 1 (Muškarci)
86
87
ISKLJUČITI NAKON ANALIZE!
88
Odabir i analiza skupina ispitanika
• Select: Random sample of cases
– odabir slučajnog uzorka ispitanika
– Možemo zatražiti da u slučajni uzorak uđe određeni
postotak ispitanika,
– ili slučajno odabrati točno određeni broj on prvih k
ispitanika:
89
Odabir i analiza skupina ispitanika
• Select: Based on time or case range
– odabir na temelju vremenskog raspona ili rednih brojeva
ispitanika
– Npr.: odabiremo ispitanike od rednog broja 1 do rednog
broja 10.
90
Odabir i analiza skupina ispitanika
• Use filter variable
– odabir na temelju vrijednosti filtar varijable
– Kriteriju udovoljavaju svi ispitanici koji na filtar
varijabli imaju vrijednost¸različitu od nule ili missing–
vrijednosti:
91
Analiza ispitanika po skupinama
• SPSS za rad sa skupinama ispitanika nudi još jednu
upotrebljivu proceduru, koju koristimo onda kada
želimo uključiti u obradu sve ispitanike, ali tako da
određenu analizu provedemo zasebno za skupine
ispitanika s istom vrijednošću na nekoj kriterijskoj
varijabli .
• Riječ je o proceduri Split File…, koju pozivamo iz
Data menija SPSS Data Editora (procedura nije
dostupna u drugim prozorima!)
92
Analiza ispitanika po skupinama
• Osim (default) opcije Analyze all cases, do not create
groups (svi ispitanici tretiraju se na uobičajeni način,
bez kreiranja skupina), nude se još dvije mogućnosti:
– Compare Groups
• Uključimo li opciju Compare Groups uz odabir kriterijske
varijable (na temelju koje se oblikuju skupine ispitanika)
kao SPOL te potom zatražimo tablice frekvencija za ostale
varijable ispis rezultata će biti podijeljen po muškarcima i
ženama.
– Organize output by groups
• Sličan rezultat dobijemo i ukoliko odaberemo ovu opciju,
samo će tablice biti drugačije organizirane (REZULTATI
UVIJEK ISTI!)
93
Transformacije varijabli
• Rekodiranje varijabli je promjenom numeričkih ili
alfanumeričkih kodova dodijeljenih određenim
odgovorima ispitanika.
• Jednostavno: promjena numeričkih oznaka ili spajanje
više kategorija u manje kategorija
• ZAPAMTITI:
– Ispitanici i dalje zadržavaju svoje odgovore i varijabla
sadrži istu informaciju, samo se numerički kodovi
mijenjaju
94
Transformacije varijabli
• Najčešći razlozi rekodiranja jesu:
– spajanje dviju ili više kategorija u jednu
• npr. kad želimo iskazati slažu li se ispitanici s nekom
tvrdnjom ili ne, bez obzira ne intenzitet njihova stava –
pretvorimo ljestvicu od 5 kategorija (Likert skala) u 3
kategorije
– spajanje kategorija varijable zbog prevelikog broja ćelija
s malim teorijskim frekvencijama (onemogućava neke
analize i komplicira interpretaciju)
• napr. ako imamo samo par ispitanika koji imaju završen
magisterij ili doktorat – njih dodamo u viša stručna sprema
– Kao što je primjer u zadatku gore
95
Transformacije varijabli
– Ispuštanje nekih kategorija iz analize tako da im
dodijelimo missing vrijednost
• Još jedan način na koji se mogu izbaciti kategorije
odgovora iz varijable ukoliko nam nisu zanimljive (slično
kao kod opcije Define variable)
– “preokretanje” ljestvice procjene kod konstrukcije
indeksa i skala, kako bi veći ili manji rezultat na ljestvici
imao isti smisao za sve čestice.
• Nekada anketna pitanja nisu postavljena na pravilan ili
ujednačen način i potrebno je preokrenuti skalu (iz od
pozitivog prema negativnom u suprotnu opciju) da bi se
varijabla mogla analizirati
96
Transformacije varijabli
• SPSS za takve promjene nudi proceduru Recode, koju
pozivamo iz menija Transform u SPSS Data Editoru:
– odabirom inačice Recode into Same Variables tražene
promjene provest će se transformiranjem postojećih
varijabli; OVU OPCIJU NE KORISTIMO JER BRIŠE
STARU VARIJABLU!
– odabirom inačice Recode into Different Variables
postojeće varijable neće se mijenjati, već će se kreirati
nove varijable koje će SPSS smjestiti na kraj niza
postojećih varijabli.
97
Transformacije varijabli
98
Transformacije varijabli
1. Nakon odabira
varijable koju
rekodiramo (u ovom
primjeru to je
varijabla re_1)
2. valja definirati ime
nove varijable
(re_nova)
3. te pritiskom na tipku
Change upisati tu
transformaciju u
okvir sa zadanim
transformacijama.
1
3 2
99
Transformacije varijabli
• Varijabla re_1 (učestalost odlaska u crkvu) izvorno
uključuje sljedeće vrijednosti:
– 1 – nikada ili gotovo nikada
– 2 – možda jednom godišnje
– 3 – dva, tri puta godišnje
– 4 – jednom u dva mjeseca
– 5 – jednom mjesečno
– 6 – jednom tjedno
– 7 – češće od jednom tjedno
100
Transformacije varijabli
• Rekodiranjem želimo razlikovati samo dvije skupine
ispitanika:
– One koji ne idu često idu u crkvu (stare vrijednosti 1,2 i
3)
– One koji idu često u crkvu (stare vrijednosti 4,5,6 i 7)
• Željenu transformaciju možemo definirati pozivanjem
opcije Old and New Values
101
Transformacije varijabli
102
Transformacije varijabli
103
Transformacije varijabli
104
Transformacije varijabli
Sve ostale vrijednosti SPSS tretira
kao missing values. 105
#Zadatak
• Izdvoji samo onu grupu koja ima izrazito negativan stav prema
Stipi Mesiću i zatraži tablicu frekvencija za tu varijablu.
• Koje su prosječne godine starosti ispitanika koji imaju socijal-
demokratski politički svjetonazor?
• Spoji kategoriju magisterija i doktorata sa kategorijom fakultet
u varijabli obrazovanje ispitanika.
• Da li više muškaraca ili žena ima visoko obrazovanje (fakultet,
magisterij i doktorat)?
• Da li obrtnici imaju veće prosječne mjesečne prihode od
stručnjaka?
• Kreiraj novu varijablu od varijable godine života tako da ima
samo 4 kategorije. Kako bi nazvali te kategorije?
106
Normalna distribucija
• Najpoznatiji primjer teorijske distribucije vjerojatnosti
– Zato što se pojavljuje kao distribucija mnogih fizičkih,
bioloških i društvenih fenomena
• Visina ljudi
• Krvni tlak
• Ocjene na ispitu
• IQ
• Najčešće se veže uz eksperimente Carla Friedricha
Gaussa i Francisa Galtona
– “Gaussova krivulja”
– Galtonov eksperiment s čavlima
107
Normalna distribucija
108
Normalna distribucija
• Ima oblik zvona
• Simetrična je prema centru
109
Normalna distribucija i standardna devijacija
68% vrijednosti se nalazi unutar
1 SD od aritmetičke sredine
95% vrijednosti se nalazi unutar
2 SD od aritmetičke sredine
99,7% vrijednosti se nalazi unutar
3 SD od aritmetičke sredine
110
Testiranje normalnosti distribucije
• Grafički testovi:
– Histogram
• Zatraži ga za varijablu koju analiziraš, pogledaj i procijeni
da li izgleda kao normalna distribucija
• Često teško odlučiti!
– Q-Q plot
• Ako slučajevi odstupaju od zelene linije (koja predstavlja
očekivanu normalnu distribuciju slučajeva) onda varijabla
nije normalno distribuirana.
• Odstupanje se obično vidi ako su slučajevi nelinearno
raspoređeni (ne može se provući ravna crta kroz njih),
krivulja ide u S obliku
111
Q-Q plot (Graphs/Q-Q plot)
112
Zašto je još koristimo?
• Drugi način gledanja na distribuciju
– Ne koliko se često rezultati pojavljuju (frekvencije) nego
koja je vjerojatnost da će se određeni rezultat pojaviti s
obzirom na normalnu distribuciju
• Primjer:
– Beachy Head – Sussex, UK
– “depresivna litica”
113
114
Zašto je koristimo?
115
Standardizirane z vrijednosti
• Drugi način gledanja na distribuciju
– Koja je vjerojatnost da će netko stariji od 70 godina
počiniti samoubojstvo u Beachy Head-u?
– Možemo li ovo izračunati precizno?
• Distribucija vjerojatnosti (idealna distribucija)
• vjerojatnost da će se određen rezultat dobiti kod idealne
distribucije s aritmetičkom sredinom 0 i standardnom
devijacijom 1
116
Standardizirane z vrijednosti
• Ali što ako je naša distribucija približno slična
normalnoj distribuciji, a nema a.s. 0 i sd 1?
– Svi podaci se mogu transformirati tako da imaju
aritmetičku sredinu 0 i SD 1.
• Kako?
– Od svakog elementa oduzmemo aritmetičku sredinu tog
niza i podijelimo sa standardnom devijacijom niza
– Dobijemo nove vrijednosti za svaki element
117
Standardizirane z vrijednosti
• Primjer:
– Odgovor na pitanje “koja je vjerojatnost da će stariji od
70 godina počiniti samoubojstvo na temelju prethodnih
podataka?
• X=70
• Aritmetička sredina varijable = 36
• Standardna devijacija = 13
– Z=(70-36)/13=2.62
• Što sad?
118
2.62 = ?%
119
Standardizirane z vrijednosti
• Vjerojatnost je 0.0044.
• Postoji 0,44% šanse (0.0044*100) da će žrtva
samoubojstva na Beachy Headu biti starija od 70
godina.
• Ako pogledamo “Larger proportion”, od rezultata
prema desnoj stranici distribucije, onda možemo reći
da postoji 99% šanse da će žrtva samoubojstva na
Beachy Headu biti mlađa od 70 godina.
120
Slavne z vrijednosti – upamti!!
• 1,96 = odvaja 2,5% distribucije s desne i lijeve strane
(5% odvajaju zajedno, a 95% svih z-vrijednosti leži
unutar intervala od -1,96 do +1,96)
• 2,58 = odvaja 1% distribucije s desne i lijeve strane
(2% odvajaju zajedno, a 98% svih z-vrijednosti leži
unutar intervala od - 2,58 do + 2,58)
• 3,29 = odvaja 0,1% distribucije s desne i lijeve strane
(0,2% odvajaju zajedno, a 99,9% svih z-vrijednosti leži
unutar intervala od - 3,29 do + 3,29)
121
Provjera netipičnih vrijednosti
• Da li varijabla sadrži ekstremne vrijednosti??!!
• Provjera ekstremnih vrijednosti UVIJEK prije primjene
inferencijalne statistike i kod izračuna aritmetičke
sredine
• Odaberi varijablu koju ćeš kasnije koristiti u analizi
• Odi na Statistics/Summarize/Decriptives i odaberi
opciju Save as standardized values, stisni ok i zatvori
prozor.
122
Provjera netipičnih vrijednosti
• Sada je stvorena nova varijabla dodana u bazi, koja
započinje slovom z
• Zatraži tablicu frekvencija za novu varijablu –
očekujemo:
– 5% slučajeva koji će imati vrijednosti veću od +/- 1.96
– 1% slučajeva koji će imati vrijednosti veću od +/-2.58
– Ne očekujemo slučajeve koji će imati vrijednosti veću od
+/- 3.29
• Ukoliko imamo previše slučajeva iznad ili ispod +/-
2.58 nije dobro
123
Provjera ekstremnih vrijednosti
D11 AGE EXACT
755 10,0 10,0 10,0
756 10,0 10,0 20,1
749 9,9 9,9 30,0
724 9,6 9,6 39,6
804 10,7 10,7 50,3
820 10,9 10,9 61,2
721 9,6 9,6 70,8
701 9,3 9,3 80,1
684 9,1 9,1 89,1
818 10,9 10,9 100,0
7532 100,0 100,0
15 years
16
17
18
19
20
21
22
23
24 years
Total
Valid
Frequency Percent
Valid
Percent
Cumulativ e
Percent
Originalne vrijednosti varijable Standardizirane vrijednosti varijable
ZAKLJUČAK: U ovoj tablici nema vrijednosti koje prelaze +/-1.96, znači nema
vrijednosti koje značajno odstupaju od vrijednosti koje bi očekivali kod normalno
distribuirane varijable. 124
Zscore: D11 AGE EXACT
755 10,0 10,0 10,0
756 10,0 10,0 20,1
749 9,9 9,9 30,0
724 9,6 9,6 39,6
804 10,7 10,7 50,3
820 10,9 10,9 61,2
721 9,6 9,6 70,8
701 9,3 9,3 80,1
684 9,1 9,1 89,1
818 10,9 10,9 100,0
7532 100,0 100,0
-1,56175
-1,21382
-,86589
-,51797
-,17004
,17789
,52582
,87375
1,22167
1,56960
Total
Valid
Frequency Percent
Valid
Percent
Cumulat iv e
Percent
# Zadatak
• Provjeri ekstremne vrijednosti na omjernim varijablama
u bazi Mala_anketa
• Provjeri da li su iste varijable normalno distribuirane
• Odaberi 3 ordinalne varijable iz baze i provjeri da li su
normalno distribuirane
125
SPSS 8 vs SPSS 20
126
SPSS 8 vs SPSS 20
127
SPSS 8 vs SPSS 20
128
SPSS 8 vs SPSS 20
129
SPSS 8 vs SPSS 20
130
#Zadatak
• Otvorite 3 nove baze podataka:
– “cars”; “employee data”; “World95”
– Odgovori za svaku bazu:
• Što su jedinice analize – slučajevi?
• Koliko ima varijabli?
• Koliko slučajeva?
– Izdvoji iz svake baze 1 omjernu, 1 ordinalnu i 1
nominalnu varijablu (ako je moguće) i napiši imena tih
varijabli na papiru
– Za omjerne varijable zatraži histogram
131
INFERENCIJALNA
STATISTIKA:
Objašnjenja, hipoteze i
usporedbe
Što? i Zašto?
• Prvi cilj politološkog istraživanja je definirati i mjeriti
pojmove
– Što je politička tolerancija i što bi bila valjana mjera tog
pojma?
• Drugi cilj je predložiti i testirati OBJAŠNJENJA za
društvene fenomene i donositi ZAKLJUČKE
– Zašto neki ljudi redovito odlaze u crkvu, a drugi ne?
– Zašto neki studenti sjede u zadnjim klupama dok ostali
preferiraju prve klupe?
– Zašto neki građani glasuju a drugi ne izlaze na izbore?
133
Što? i Zašto?
• Predlaganje objašnjenja je BIT društvenih istraživanja,
ali mu uvijek prethodi proučavanje pojave kroz alate
deskriptivne statistike:
– Što? Proučavanje pojave:
• Polovina građana SAD-a ne izlazi na izbore
– Zašto? Ponuditi objašnjenje:
• Obrazovanje igra ulogu u odazivu glasača. Glasači s
višom razinom obrazovanja su više “politički svjesni” te
više izlaze na izbore.
• Ovakvo objašnjenje se naziva STATISTIČKOM
HIPOTEZOM
– ali samo ukoliko je to izjava o pojavama koje možemo mjeriti
– i o tipu odnosa koji možemo testirati statističkim metodama.
134
Objašnjenja – ZAŠTO?
Mnogi ljudi u SAD-u vjeruju da bi država trebala
otežati postupak kupnje oružja, no mnogi također
vjeruju da država ne bi trebala mijenjati zakone ili bi
čak trebala olakšati postupak kupnje oružja.
- Zašto?
- Koji su uzroci takve razlike u vjerovanjima?
NAPOMENA:
- “UZROK” – ili varijable (pojave) kojima objašnjavamo
posljedice se nazivaju i NEZAVISNIM
VARIJABLAMA.
- “POSLJEDICA” – ili varijabla (pojava) koju
pokušavamo objasniti se naziva i ZAVISNOM
VARIJABLOM. 135
Objašnjenja – ZAŠTO?
• Zato što bi otežan postupak smanjio broj oružja na
ulicama;
– Ovakav odgovor je TAUTOLOGIJA: kružna izjava koja
je uvijek točna i ne mora se testirati.
• Dobro objašnjenje izbjegava kružne izjave:
– Stav prema kontroli oružja ima veze sa stranačkom
pripadnošću. Demokrati i republikanci imaju drugačije
stavove o ovoj javnoj politici.
• Drugi primjer je bolji:
– Navodi još jednu varijablu: “stranačku pripadnost” kao
moguće objašnjenje.
136
Objašnjenja – ZAŠTO?
• Ali, nudimo objašnjenje koje izgleda ovako: STRANAČKA PRIPADNOST STAV PREMA KONTROLI ORUŽJA
• Ova je izjava još nejasna, a dobro objašnjenje ne može
biti nejasno
– Ono mora uključiti dobro objašnjenje o povezanosti
dvije varijable
– I jasnim uzročnim vezama između njih
137
Objašnjenja – ZAŠTO?
• U fazi sazrijevanja, pojedinci imaju samo osnovne
orijentacije prema politici. Stranačka pripadnost je
jedna od tih orijentacija. Na sličan način na koji djeca
prihvate vjeroispovijest svojih roditelja oni prihvaćaju i
njihove stranačke stavove. Stranački stavovi mogu biti
nejasni u mladosti, no u trenucima odlučivanja u
kasnijim životnim fazama, ti stavovi imaju utjecaj na
naše odluke. Kontrola oružja je dobar primjer, kao
jedno od temeljnih pitanja koje dijeli DEM od REP.
Demokrati zagovaraju strože mjere kontrole dok
republikanci zagovaraju status quo. Stavovi građana
prate tu osnovnu podjelu. Građani koji su demokrati će
vjerojatnije zagovarati kontrolu oružja. 138
Dobra hipoteza - usporedbe
• … u usporedbi pojedinaca, oni koji su demokrati će
vjerojatnije podupirati kontrolu oružja, nego oni koji su
republikanci.
• …u usporedbi (jedinica analize), oni koji imaju
(određene vrijednosti na nezavisnoj varijabli) će
vjerojatnije imati (određenu vrijednost na zavisnoj
varijabli) nego što je to slučaj s onima koji imaju
(određenu vrijednost na nezavisnoj varijabli).
139
Dobra hipoteza - usporedbe
• U usporedbi pojedinaca, neki pojedinci će vjerojatnije donirati
novac političkim kandidatima nego drugi pojedinci.
• Nije hipoteza, gdje je objašnjenje veze između najmanje dvije
varijable!
• Religiozniji pojedinci češće izlaze na birališta.
• Nije hipoteza, ne uključuje nikakvu usporedbu.
• U usporedbi pojedinaca, spol i stav prema pobačaju su
povezani.
• Na koji način? Kako su vrijednosti stava povezane sa spolom?
• Zbog važnih kulturalnih promjena koji su započeli 1960ih
godina, mnogi sadašnji politički sukobi su utemeljeni na
generacijskim razlikama.
• Zanimljiva, ali potpuno nejasna. Što su kulturalne promjene, kakvi
politički sukobi? Kako bi identificirali zavisnu i nezavisnu
varijablu? 140
Intervenirajuće varijable
• Pojedinci koji imaju viši stupanj obrazovanja će češće
izlaziti na izbore.
141
OBRAZOVANJE
GLASOVANJE
VAN-NASTAVNE AKTIVNOSTI
POLITIČKA INFORMIRANOST
GRAĐANSKI ODGOJ
ČLANSTVO U UDRUGAMA
Intervenirajuće varijable
• Varijabla koja djeluje kao posrednik između nezavisne i
zavisne varijable. Opisuje KAKO nezavisna varijabla zapravo
djeluje na zavisnu varijablu.
• U knjizi “Bowling Alone” R. Putnam je zaključio da pojedinci koji
se aktiviraju u nevladinim organizacijama razvijaju posebne
vještine političke participacije. Participativne vještine također
utječu na glasačko ponašanje. Pojedinci s više iskustva u političkoj
participaciji glasuju češće od pojedinaca bez takvog iskustva.
• Ovo objašnjenje kaže da nezavisna varijabla – članstvo u
NGO-ima ima utjecaja na zavisnu varijablu – “glasovanje na
izborima” preko intervenirajuće varijable. Koja je to varijabla?
• Napišite hipotezu prema kojoj će intervenirajuća varijabla biti
zavisna varijabla ili posljedica.
142
• Što je statistička hipoteza?
– Tvrdnja o veličini parametra u populaciji ili o obliku
distribucije osnovnog skupa
– Ispituje se pomoću slučajnog uzorka
Statističke hipoteze
143
• Testiranje statističkih hipoteza je
– Postupak kojim se donosi odluka o PRIHVAĆANJU ili
NEPRIHVAĆANJU tvrdnje na temelju podataka iz
uzorka.
Testiranje hipoteza
144
• Svaki postupak kreće od:
– Nulte hipoteze (Ho)
• govori o nepostojanju statistički značajnih razlika između
testiranih parametara; ostaje se pri početnoj tvrdnji (hipotezi)
– Alternativne hipoteze (Halt)
• govori o statistički značajnim razlikama između testiranih
parametara, što vodi odbacivanju početne hipoteze i
formuliranju nove tvrdnje.
I. Postavljanje nulte hipoteze
145
• Provjera hipoteze o pretpostavljenoj vrijednosti parametra u
populaciji na temelju uzorka
– Aritmetička sredina
• T-test
• Usporedba parametara dvaju grupa ili dvaju uzoraka:
– Testiranje razlike između aritmetičkih sredina ili proporcija
• T-test s neovisnim uzorcima
– Usporedba varijanci dvaju skupova
• Korelacija
• HI – kvadrat metoda
II. Izbor prikladnog testa
146
• 2 vrste statističkih testova s obzirom na:
– TIP RASPODJELE FREKVENCIJA
• NORMALNA DISTRIBUCIJA
• OSTALE DISTRIBUCIJE
– VRSTU PODATAKA
• OMJERNE
• ORDINALNE
• NOMINALNE
II. Izbor prikladnog testa
147
PARAMETRIJSKI/NEPARAMETRIJSKI (ovisno o distribuciji)
NE-PARAMETRIJSKI TESTOVI
NE-PARAMETRIJSKI TESTOVI
PARAMETRIJSKI TESTOVI
• Testiranjem hipoteza testiramo vjerojatnost da je
dobiveni rezultat slučajan ili je statistički značajan.
• Ako zaključujemo na temelju podataka iz uzorka uvijek
pretpostavljamo da na rezultat koji smo dobili utječe
slučajna greška uzorka – odnosno pretpostavljamo
da u stvarnoj populaciji razlike koje vidimo ne
postoje (krećemo od H0 = razlike nema)
• Slučajna greška uzorka – razlika između parametara
uzorka i populacije koja je nastala, slučajno, procesom
uzorkovanja
– Veličina uzorka
– Varijacija uzorka
III. Odabir P - vrijednosti
148
III. Odabir P - vrijednosti
• P-vrijednost omogućuje da odredimo da li imamo
dovoljno dokaza za odbacivanje nul-hipoteze
– ukoliko je P-vrijednost velika, postoji velika vjerojatnost
da su naši podaci jednostavno rezultat slučajnosti i da
rezultat koji smo dobili ne možemo pouzdano
interpretirati kao rezultat koji bi dobili da imamo
podatke o cijeloj populaciji.
– ukoliko je P-vrijednost mala tada je mala vjerojatnost da
je dobiveni rezultat posljedica slučajnosti. Razlika ili
rezultat koji vidimo u uzorku vjerojatno postoji i u
populaciji.
149
• Najčešće korištena razina značajnosti iznosi 0,05 (5%)
– Ukoliko P iznosi manje od 0,05 (P<0,05) nul hipotezu
odbacujemo, a razlike proglašavamo statistički
značajnim.
– Ukoliko P iznosi više od 0,05 (P>0.05) nemamo
dovoljno dokaza da je razlika koju vidimo u uzorku
stvarno takva i u populaciji. Rezultat testa nije statistički
značajan!
• Možemo u SPSS povećati razinu značajnosti, s čime se
povećava i mogućnost da nećemo pronaći statistički
značajne razlike, konzervativniji test (npr. 0.01)
• Može biti dvosmjeran (two-tail test) i jednosmjeran
(one-tail test). Mi ćemo koristiti samo dvosmjeran.
III. Odabir P - vrijednosti
150
• Provjera hipoteze o pretpostavljenoj vrijednosti
parametra u populaciji
– 2 namjene:
• Ukoliko imamo očekivanja o prosječnoj vrijednosti neke
varijable u populaciji te imamo varijablu koja mjeri istu
pojavu u našoj bazi, možemo provjeriti da li su naša
očekivanja ispravna.
• Ukoliko smo sigurni za vrijednost prosjeka u populaciji i
hoćemo provjeriti da li je anketa provedena na
reprezentativnom uzorku.
T-test
151
• U SPSS-u:
– Statistics/Compare Means/One Sample T-test
T-test
Varijabla čiji prosjek u uzorku
uspoređujemo s populacijskim
prosjekom
Vrijednost koju testiramo,
očekivana aritmetička sredina
u populaciji
152
• Pitanje: da li postoji statistički značajna razlika između
prosječne godine starosti ispitanika u uzorku i očekivane
prosječne godine starosti stanovnika Hrvatske?
• Nulta hipoteza: ???
– Ne postoji statistički značajna razlika.
– Moramo je odbaciti ako je p manji od 0,05
T-test: interpretacija rezultata
153
T-test: interpretacija rezultata
One-Sample Statistics
1453 47,31 18,26 ,48Age of respondent,calculated
N MeanStd.
DeviationStd. Error
Mean
One-Sample Test
25,696 1452 ,000 12,31 11,37 13,25Age of respondent,calculated
t dfSig.
(2-tailed)Mean
Dif f erence Lower Upper
95% Conf idenceInterv al of the
Dif f erence
Test Value = 35
Aritmetička sredina uzorka
Očekivana aritmetička
sredina populacije
Što gledamo? Vrijednost statističke značajnosti iznosi 0,000. Ako je vrijednost Sig
manja od 0,05 uvijek zaključujemo da postoje statistički značajne razlike
između dvije grupe koje smo usporedili (uzorak i populacija s obzirom na
godine starosti). 154
T-test s neovisnim uzorcima
• Independent sample T-test
– Koristimo ga kada želimo provjeriti da li postoji
statistički značajna razlika između nekih grupa ispitanika
s obzirom na prosječnu vrijednost odgovora na omjernoj,
normalno distribuiranoj varijabli
– Primjer: da li se muškarci i žene razlikuju po prosječnim
mjesečnim primanjima?
• Grupe/uzorci koji se uspoređuju: muškarci i žene
• Omjerna varijabla (zavisna varijabla): ukupna mjesečna
primanja
155
T-test s neovisnim uzorcima
• Pretpostavke testa:
– Zavisna varijabla je omjerna i normalno distribuirana
(možemo provjeriti korištenjem Q-Q plota)
– Dvije grupe imaju otprilike jednaku varijancu na
zavisnoj varijabli
• provjera kroz Levene test varijance:
– Ako dvije skupine imaju jednaku varijancu onda će p
vrijednost Levene testa biti veća od 0.05 (neće biti značajan)
– Dvije grupe su međusobno nezavisne.
156
T-test s neovisnim uzorcima
• Nulta hipoteza testa:
– Aritmetičke sredine dviju skupina na zavisnoj varijabli
nisu značajno drugačije.
• Alternativna hipoteza testa:
– Aritmetičke sredine dviju skupina na zavisnoj varijabli
su značajno drugačije.
• Ukoliko je p vrijednost testa manja od 0.05 onda
odbacujemo nultu hipotezu da grupe nisu značajno
drugačije i prihvaćamo alternativnu.
• Zaključujemo: dvije skupine zaista imaju značajno
različite aritmetičke sredine.
157
• Uključuje bivarijatne podatke (2 varijable)
• Osnovno pitanje: DA LI SU DVIJE POJAVE
POVEZANE?
• Više vrsta testova korelacije koji ovise o vrsti mjerenja
varijabli
Korelacija
158
• Scatterplot – vrijednosti 2 varijable (x i y) prikazane u
koordinatnom sustavu
– Nije bitno koja je varijabla označena sa x a koja sa y
• U SPSS-u: Graphs/Scatter
Grafički pristup korelaciji
159
Grafički pristup korelaciji
160
• Svako testiranje uključuje (bez obzira na vrstu testa):
1. Smjer povezanosti
2. Snagu povezanosti
3. Oblik veze
4. Da li je veza statistički značajna ili ne (uvijek ovo prvo
provjeravamo!!!)
Što moramo zapamtiti kod korelacije?
161
• Pozitivna korelacija
– Vrijednosti 2 varijable se kreću u istom smjeru
• Negativna korelacija
– Vrijednosti 2 varijable se kreću u suprotnim smjerovima
Smjer povezanosti
162
• Dva osnovna oblika povezanosti su :
– LINEARNA KORELACIJA
• VEĆINA TESTOVA JE NAMJENJENA TESTIRANJU
LINEARNE KORELACIJE
– NELINEARNA KORELACIJA
• NEPARAMETRIJSKI TESTOVI
Oblik povezanosti
163
• Koeficijenti korelacije imaju vrijednosti od -1 do +1
• Savršena linearna korelacija:
– Svaka promjena u x praćena je jednakom promjenom u y
– Bez obzira u kojem smjeru
– Takva korelacija, ovisno o smjeru imala bi vrijednosti
koeficijenta korelacije -1 ili 1
– 0 znači da su dvije varijable potpuno neovisne, nema
nikakve povezanosti između njih
Stupanj povezanosti (intenzitet)
164
Stupanj povezanosti (intenzitet)
165
• Ovaj element testiranja bitan je za sve testove ne samo
korelaciju
– Provjeravamo da li se rezultati testova na uzorku mogu
koristiti pri interpretaciji odnosa među pojavama u
populaciji
– SPSS označava statistički značajne rezultate sa
zvjezdicom i vidimo ga u tablicama pod Sig.
• Ako je koeficijent korelacije označen sa * onda kažemo da
sa 95 postotnom razinom pouzdanosti možemo zaključiti
da je rezultat takav i u populaciji.
• Ako je koeficijent korelacije označen sa ** onda kažemo
da sa 99 postotnom razinom pouzdanosti možemo
zaključiti da je rezultat takav i u populaciji.
Da li je veza statistički značajna ili ne
166
• Pearsonov koeficijent korelacije (“r”)
• PARAMETRIJSKI
– za ispitivanje veza između numeričkih varijabli koje su
normalno distribuirane
– i za varijable koje imaju samo 2 kategorije – BINARNE
VARIJABLE (spol)
– Odnosno kada imamo kombinaciju NUMERIČKA i
NUMERIČKA ili BINARNA i NUMERIČKA
• Kendallov tau-b koeficijent i Spearman rho koeficijent
• NEPARAMETRIJSKI TESTOVI
– Za ispitivanje snage veze između ORDINALNIH
varijabli, i NUMERIČKIH varijabli koje nisu normalno
distribuirane
Korelacija: testovi u SPSS-u
167
• U SPSS-u (Statistics/Correlate/Bivariate)
– Tu su sva 3 tipa korelacija
• označimo koji želimo s obzirom na tip varijable
• Označimo Flag significant correlations da nam SPSS
označi statistički značajne rezultate
– Primjer Pearsonove korelacije:
• Pitanje: Da li postoji veza između godina života i
završenih godina obrazovanja u Hrvatskoj?
Primjer: numeričke varijable
168
Pearsonov koeficijent korelacije:
169
Pearsonov koeficijent korelacije:
Correlations
1,000 -,419**
, ,000
1453 1429
-,419** 1,000
,000 ,
1429 1456
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Age of respondent,calculated
Years of full-timeeducation completed
Age ofrespondent,calculated
Years off ull-time
educationcompleted
Correlation is signif icant at the 0.01 level (2-tailed).**.
170
• Prvo gledamo Sig. = tu je Sig. 0,000 i SPSS nam odmah
označava Pearsonov koeficijent sa dvije zvijezdice (**)
– Veza između godina života i godina obrazovanja je statistički
značajna (na razini od 0,01). Sa 99 postotnom razinom
pouzdanosti možemo reći da veza među ovim pojavama
postoji u populaciji, a ne samo u uzorku koji testiramo.
Kako interpretiramo rezultat?
171
• Ako je rezultat značajan, onda možemo krenuti u
interpretaciju koeficijenta
– Smjer veze:
• Pearsonov koeficijent je negativan (-,419), što znači da je veza
između godina života i godina obrazovanja negativna.
– Stupanj veze (rule of thumb)
• Slaba veza: 0.1 to 0.3 ili -0.1 to -0.3
• Srednja veza: 0.3 to 0.5 ili -0.3 to -0.5
• Jaka veza: 0.5 to 1.0 ili -0.5 to -1.0
• Između godina života i godina obrazovanja u Hrvatskoj postoji
srednje jaka veza.
Kako interpretiramo rezultat?
172
• Ako testiranje nije statistički značajno onda samo
napišemo:
– Rezultati korelacije nisu statistički značajni, nemamo
dovoljno dokaza da donosimo bilo kakve zaključke o
pojavama u populaciji na temelju ovog uzorka.
• I ne interpretiramo dalje rezultate.
Kako interpretiramo rezultat?
173
• Interpretacija je slična
• Samo su varijable koje testiramo drugačije
– Ili ordinalne ili nisu normalno distribuirane
– U ispitu uvijek zatražiti oba testa korelacije
• Razlika između Kendallov tau-b koeficijent i Spearman rho
koeficijenta je u interpretaciji
– Kendall:
• ista interpretacija kao Pearson koeficijent (stupanj
povezanosti), samo što se računa iz rangiranih vrijednosti
– Spearman:
• predstavlja razliku između vjerojatnosti da su dvije varijable
identične te vjerojatnosti da su dvije varijable sasvim nezavisne
jedna od druge.
Kendallov tau-b i Spearmanov rho
174
Kendallov tau-b i Spearmanov rho
Correlations
1,000 -,273**
, ,000
1453 1429
-,273** 1,000
,000 ,
1429 1456
1,000 -,373**
, ,000
1453 1429
-,373** 1,000
,000 ,
1429 1456
Correlation Coef f icient
Sig. (2-tailed)
N
Correlation Coef f icient
Sig. (2-tailed)
N
Correlation Coef f icient
Sig. (2-tailed)
N
Correlation Coef f icient
Sig. (2-tailed)
N
Age of respondent,calculated
Years of full-timeeducation completed
Age of respondent,calculated
Years of full-timeeducation completed
Kendall's tau_b
Spearman's rho
Age ofrespondent,calculated
Years off ull-time
educationcompleted
Correlation is signif icant at the .01 level (2-tailed).**.
175
Što korelacija nije?
• U malom gradiću u Illinoisu je uočen čudna pojava.
Lokalni šerif je uočio da je stopa kriminala rasla
zajedno s većom potrošnjom sladoleda. Kada bi
potrošnja sladoleda padala, padala bi i stopa kriminala.
• Da smo ucrtali podatke u graf raspršenosti uočili bi
jasnu povezanost između te dvije pojave. One su
pozitivno povezane (korelirane).
176
Što korelacija nije?
• Da li netko zna rješenje tog problema? – Toplije vrijeme :
• ljudi su opušteniji
• Prozori su otvoreni
• Više vremena provode vani
• I jedu sladoled
177
• Korelacija ne dokazuje uzročno-posljedičnu vezu
– Ona nam samo govori da nekakva veza između dvije
pojave postoji
– Zato ne možemo govoriti o nezavisnim i zavisnim
varijablama u ovom kontekstu
– KORELACIJA NIJE KAUZACIJA!
Što korelacija nije?
178
Primjer interpretacije rezultata (4 elementa)
• Veza između stava prema EU unifikaciji i razine
obrazovanja je statistički značajna na razini testiranja
od 0,01. Sa 99 postotnom razinom pouzdanosti
možemo reći da veza među ovim pojavama postoji u
populaciji, a ne samo u uzorku koji testiramo.
• Kendallov koeficijent iznosti 0,062, a Spearmanov
0,085. Veza je izrazito slaba.
• Veza je pozitivna, rastom razine obrazovanja raste i
pozitivan stav prema EU unifikaciji, i padom razine
obrazovanja stav prema EU unifikaciji postaje
negativan (nisu za proširenje). Početna hipoteza je
potvrđena.
179
Hi-kvadrat test povezanosti
• Pretpostavke:
– 2 varijable koje su ordinalne ili nominalne
– 2 ili više grupa unutar svake varijable
180
Hi-kvadrat test povezanosti
181
Hi-kvadrat test povezanosti
182
Hi-kvadrat test povezanosti
183
Hi-kvadrat test povezanosti
184
Da li je veza između dvije varijable statistički
značajna?
Ukoliko je veza značajna,
koliko je snažna?
Čitamo Phi ako je tablica
2x2, a Cramerov V za
varijable s više grupa.
Hi-kvadrat test povezanosti
185
186