Uvod u SPSS_sve Prezentacije

Uvod u SPSS

_____________ Daniela Širinić 2012/2013

Kontakt:

[email protected]

ili

STUDOMAT

mailto:[email protected]

Pravila rada

• Poštovanje načela akademskog poštenja.

– Najočitiji oblici akademskog nepoštenja su

• varanje (namjerno i svjesno dovođenje nastavnika u zabludu),

• služenje nedozvoljenim izvorima u pisanom ispitu (prepisivanje

od kolega ili iz knjiga, bilježnica i "šalabahtera"),

• plagiranje (doslovno preuzimanje dijelova teksta iz drugih

radova – knjiga, članaka, uradaka kolega, Interneta i sl. – bez

navođenja),

• te korištenje istih pisanih uradaka (preko 50% identičnog teksta)

na više kolegija.

• Akademsko se nepoštenje oštro kažnjava negativnim

bodovima!

2

Pravila rada

• 2 kolokvija:

– Teorijski dio:

• Kolokvij 1

• Kolokvij 2 (mogu izaći samo studenti koji su položili prvi

kolokvij)

– Praktični dio:

• Ispit na kraju semestra = mogu izaći svi studenti bez

obzira na rezultate kolokvija

• Domaći zadatak – do siječnja.

• Sustav ocjenjivanja po normalnoj distribuciji

3

Pravila rada

• Dolazak na nastavu:

– Dolazite na predavanja jer će većina ispitnih pitanja biti

iz predavanja!

– Nema opravdanih izostanaka, student ne treba najaviti

izostanak s vježbi ukoliko se pridržava pravila od 3

izostanka

– Više od 3 izostanka – gubitak prava na potpis iz

kolegija!!!!

– Ispričnice se ne uzimaju u obzir, ukoliko izostanete više

od 3 puta zaredom zbog bolesti– prihvaćam samo

ispričnice fakultetske doktorice

4

Akademska komunikacija

• Bilo da šaljete upite preko Studomata ili preko e-maila

molim vas da pratite osnovna pravila

poslovne/akademske komunikacije:

– Naslovite upit sa:

• Draga kolegice/kolega/profesorice/profesore

• Poštovana kolegice/kolega/profesorice/profesore

– Pratite pravila hrvatskog jezika i gramatike

– Završite upit sa:

• Srdačan pozdrav

• Lijep pozdrav

5

Akademska komunikacija

• Provjerite http://www.fpzg.unizg.hr/index.php?q=/nastavnici-

na-fakultetu-politickih-znanosti

• Akademicima, profesorima emeritusima, redovnim,

izvanrednim profesorima morate se obraćati sa

“Profesore/profesorice”

• Docentima se ne morate obraćati sa prof. ali je to obično

praksa

• Višim asistentima i znanstvenim novacima se ne treba obraćati

sa prof. nego najčešće kolega/kolegice i prezime

• Svim zaposlenicima fakulteta se trebate obraćati sa “vi” osim

ako vam ne kažu suprotno

6

http://www.fpzg.unizg.hr/index.php?q=/nastavnici-na-fakultetu-politickih-znanosti









Zašto učimo statistiku?

• Tri osnovna razloga:

– Numeričke informacije su posvuda.

• http://planecrashinfo.com/cause.htm

• http://www.uefa.com/uefachampionsleague/season=2013/s

tatistics/round=2000347/clubs/index.html

– Statističke tehnike se koriste da bi se donijele odluke

koje utječu na naše svakodnevne živote.

• http://www.dzs.hr/

– Bez obzira na to koji posao budete obavljali u

budućnosti donosit ćete profesionalne odluke koje će

uključivati statističke podatke.

7

http://planecrashinfo.com/cause.htm

http://www.uefa.com/uefachampionsleague/season=2013/statistics/round=2000347/clubs/index.html

http://www.uefa.com/uefachampionsleague/season=2013/statistics/round=2000347/clubs/index.html

http://www.dzs.hr/

Istraživački proces

Dizajn istraživanja

Mjerenje osnovnih pojmova

Prikupljanje podataka

Analiza podataka

Zaključivanje

Istraživačko pitanje

8

1. Istraživačko pitanje

• 1 korak svakog istraživanja:

– Formuliranje problema istraživanja u obliku

istraživačkog pitanja. Na koje pitanje tražim odgovor?

• Mora biti:

– Precizno: formulirati pitanje tako da ga svatko razumije

– Jasno: sadrži pojmove koji su općeprihvaćeni

• Primjer:

– Zašto mladi ljudi izlaze na parlamentarne izbore u

manjoj mjeri od starijih građana?

9

2. Dizajn istraživanja

Kvalitativna metoda Kvantitativna metoda

Cilj je potpun i detaljan opis

Cilj je klasifikacija osobina, stvaranje

statističkog modela u pokušaju objašnjenja

pojave koja se promatra.

Istraživač sam prikuplja podatke.

Najčešće se koriste sekundarni podaci ili

istraživač sam provodi upitnik, eksperiment i

slično.

Podaci su u obliku riječi, slika ili objekata.

Podaci su u obliku brojeva i statistike.

Subjektivna interpretacija podataka i događaja

je jako bitna.

Istraživač traži precizne mjere i analize

pojmova koje istražuje.

Kvalitativni podaci su mnogo detaljniji,

vremenski zahtjevniji i teže ih je koristiti za

donošenje općenitih zaključaka.

Kvantitativni podatci su učinkovitiji, moguće

je testirati postavljene hipoteze ali i moguće ne

vidjeti kontekstualne detalje.

10

3. Mjerenje osnovnih pojmova

• VARIJABLA:

– Logički skup nekih obilježja

• Spol: muški i ženski

• Društvena klasa: niža, srednja i visoka

• Dob: 1,44,67,99...

– Najčešće odgovara pitanju u anketi

11

4. Prikupljanje osnovnih podataka

• Odakle podaci dolaze: – Popisi stanovništva (cenzus)

• Hrvatska 2011

• Hrvatska 2001

• Hrvatska 1991

– Ankete provedene na slučajnom i reprezentativnom uzorku građana

• Puls

• Gallup

• Eurobarometar

– Administrativni podaci

• Matične knjige

• Registri udruga

• Broj registriranih automobila

• Broj oboljelih od raka pluća

• Broj korisnika mobilnih telefona

12

Zapamtite:

• There are three kinds of lies: lies, damned lies, and

statistics.

Benjamin Disraeli (1804–1881)

13

Analiza podataka u SPSS-u

• Statistical Package for Social Sciences

– Norman Nie

• ČEMU SPSS?

– Olakšanje i ubrzanje analize

• OPASNOST!

– Nekritično i pogrešno korištenje

14

15

3 vrste datoteka

• 3 vrste datoteka:

– Sadrže podatke

– Sadrže sintaksu naredbi

– Sadrže rezultate

16

2 prozora prijateljskog sučelja

• SPSS data and variable editor

• Priprema za unos podataka i definiranje varijabli

• Obrada podataka

• SPSS output

– Prikaz rezultata obrade podataka

17

SPSS Data editor

• Stupci = varijable

• Redovi = ispitanici

18

SPSS Output

19

Baze podataka u SPSS-u

• 2 opcije:

– Unos vlastitih podataka

– Korištenje sekundarnih baza podataka

• Sačuvanih u SPSS datotekama (.sav ili .por)

• Sačuvanih kao neka druga datoteka (.xls, .dta …)

– Neki izvori sekundarnih podataka:

» Eurobarometar

» European Social Survey

» International Social Survey Programme

» European Values Study

» International Election Studies

20

Baze podataka u SPSS-u

21

# Zadatak 1

• Otvorite SPSS

– Upišite podatke prikupljene anketom:

– 5 ispitanika (Spol, Dob, Mjesto rođenja)

• Ako ste uspješno upisali podatke snimite datoteku:

– “prezime.sav”

RB ispitanika

Dob Spol Mjesto rođenja

1 18 M Zagreb

2 25 Ž Split

3 53 Ž Vukovar

4 71 Ž Dubrovnik

5 19 M Dubrovnik

22

Mjerenje pojmova

• Istraživačke hipoteze: – Glasači HDZ-a su u prosjeku niže obrazovani od glasača SDP-a.

– Glasači HDZ-a su u prosjeku više zainteresirani za politiku od

glasača HSLS-a.

• Kako statistički potvrditi ili opovrgnuti ove hipoteze?

– Prvi korak: kako mjeriti ove pojmove?

• Formulacija pitanja u upitniku

• Kodiranje pojma nakon što su odgovori prikupljeni

– 2 osnovna tipa pojmova:

• Direktno mjerljivi

• Indirektno mjerljivi

– VEĆINA pojmova u društvenim znanostima:

23

Mjerenje pojmova

• Istraživačke hipoteze:

– Glasači HDZ-a su u prosjeku prosjeku niže obrazovani od glasača SDP-a.

• Direktno mjerljivi pojmovi/varijable:

– Razina obrazovanja:

• Niska

• Visoka


• Niska

• Srednja

• Visoka


• Nezavršena osnovna škola

• Završena osnovna škola

• Završena srednja škola

• Završen fakultet, magisterij ili doktorat

– Razina obrazovanja

• Godine završenog obrazovanja ...

24

Mjerenje pojmova

• Istraživačke hipoteze:

– Glasači HDZ-a su u prosjeku više zainteresirani za politiku od glasača

HSLS-a.

• Indirektno mjerljivi pojmovi/varijable:

– “interes za politiku” – politološki pojam

– Kako ga mjeriti? Na koji način formulirati pitanje?

• Izmisliti nešto novo

• Proučiti prijašnja istraživanja i “posuditi” pitanje

– Kako procjenjujete svoj interes za aktualna politička zbivanja?

• jako sam zainteresiran/a

• osrednje sam zainteresiran/a

• slabo sam zainteresiran/a

• ravnodušan/na sam, politika me ne zanima

– Da li smo pojam dobro osmislili:

• Da li odgovara našoj definiciji “interesa za politiku”

• Provjeriti dobivene odgovore – najčešće imati neka očekivanja (napr. interes će u

prosjeku biti jako nizak)

25

Mjerenje pojmova

• Indirektno mjerljivi pojmovi/varijable:

– Razina religioznosti:

• Izuzimajući vjenčanja, pogrebe i krštenja, koliko često odlazite u crkvu?

– nikada ili gotovo nikada

– možda jednom godišnje

– dva-tri puta godišnje, za važnijih vjerskih blagdana

– jednom u dva mjeseca

– jednom mjesečno

– jednom tjedno

– češće od jednom tjedno

– PROXY pitanje

26

Definiranje varijabli

• U SPSS ne možemo unositi modalitete u tekstualnom

obliku

• Zato prvo moramo utvrditi način označavanja pojedinih

modaliteta brojčano

• A potom definirati svaki broj u SPSS preko opcije

Data/Define variable

– Možemo analizirati podatke i ako ne definiramo svaku

varijablu posebno

– No, često se dogodi da istraživač zaboravi kako je

označio pojedine kategorije

– Definiranje varijabli je zapravo osiguranje za budući rad

27


• Ime varijable

– U istoj datoteci ne mogu postojati varijable istog imena

– Najviše 8 znakova

– Počinje slovom

– Neki izrazi se ne mogu koristiti jer se koriste kao naredbe u sintaksi (ALL,

AND, BY, EQ, NOT...)

28


• Vrsta varijable

29


• Vrijednosti koje nedostaju

– Sistemske

• SPSS ih automatski označava sa zarezom (,)

– Vrijednosti koje sami označimo nevažećima

30


• Tekstualne oznake modaliteta odgovora

– Opis značenja numeričkih oznaka koje odaberemo (za

lakše snalaženje u bazi podataka)

SPOL STUDENTA/ICE

1

ŽENSKI

31

!Skale mjerenja

• Određuju:

– Tip obilježja koje koristimo u mjerenju

– Izrazito bitno za bilo kakve analize u SPSS-u!!!

32

Skale mjerenja

• 4 osnovne vrste:

– INTERVALNE SKALE

– OMJERNE SKALE

– ORDINALNE SKALE

– NOMINALNE SKALE

33

Intervalne skale

• Skale kod kojih je poznat redoslijed i razlika među

brojevima na skali

– Primjer: temperaturne skale mjerenja

• 0◦ C, 15◦ C

– redoslijed je jasan, niže temperature su bliže nuli i ispod nule,

više u suprotnom smjeru

• 0◦ C do 1◦ C i 15◦ C do 16◦ C

– Razlika je jednaka, uvijek je 1◦ C

• No nemaju APSOLUTNU NULU:

• Ne možemo reći da je 100◦ F dva puta veće od 50◦ F,

JER…

• Ako te temperature prebacimo u stupnjeve Celzijusa

dobivamo 38◦ C i 10◦ C

34

Omjerne skale

• Imaju apsolutnu nulu! Nula znači nepostojanje

obilježja!

– Primjer: dužina, težina, godine života

• Zato što možemo reći da je netko tko ima 30 godina 2 puta

mlađi od nekoga tko ima 60 godina

• U SPSS označene kao “scale”

• Ove skale su omiljene među statističarima jer se

varijable koje pripadaju ovom obilježju mogu

podvrgnuti svim statističkim operacijama

35

Ordinalne skale

• Služe samo za označavanje redoslijeda, razlike između

pojedinih jedinica skale nisu jednake

– Primjer: školske ocjene, stupanj završenog obrazovanja,

razni oblici Likertove psihometrijske ljestvice …

• Većina varijabli kojima ćemo se baviti pripadaju

ordinalnoj skali

• U SPSS-u “ordinal”

36

Nominalne skale

• Nominalne skale zapravo i nisu skale

• Služe za identifikaciju kvalitativnih varijabla čije

modalitete zbog jednostavnije analize u programima

označavamo brojevima – KODIRAMO ili

ŠIFRIRAMO

– Primjer: Mjesto rođenja, ime i prezime, kategorije

zaposlenja … itd.

• U SPSS-u “nominal”

• Vrijednost nominalnog obilježja je naziv, ime ili

kategorija – broj NOMENKLATURA (popis

modaliteta obilježja)

37

Snalaženje s gotovim bazama podataka

• !PREČAC:

– Kako znati koje podatke varijabla sadrži (ukoliko je

gotova baza s upisanim vrijednostima i oznakama

vrijednosti)

– Utilities/Variables

– Utilities/File info

38

#Zadatak

• Otvori bazu “Mala_anketa_2007.sav”

• Ispuni test o ljestvicama mjerenja

39

Nazad na početak

• Statistika

– Deskriptivna

• opisuje, upoznaje, uspoređuje i analizira masovne

pojave temeljem prikaza i brojčane obrade poznatih

podataka

– Inferencijalna (Induktivna)

• opisuje, upoznaje, uspoređuje i analizira masovne pojave

temeljem uzorka koji procjenjuje podatke cjeline

40

Deskriptivna statistika

• Što moramo naučiti?

– Kako opisati podatke

• Numeričkim parametrima statističkog skupa

– Tablica frekvencija

– Mjere srednjih vrijednosti

– Mjere raspršenosti

– Mjere rasporeda

– Normalna distribucija

• Grafičkim prikazima

– Histogram

– Strukturni grafikon (pie chart)

– Stem-and-leaf chart

– Q-Q plot

– Scatter plot

41

Tablica frekvencija

42

Tablica frekvencija

Osnovne informacije o varijabli

Broj ispitanika u kategoriji/ukupan broj ispitanika * 100

Bez “missing” u ukupnom broju

Postotak

vrijednosti

kod ili

ispod svake

kategorije

43

Križne tablice (Crosstabs)

44

Križne tablice (Crosstabs)

Hocete li izaci na ove izbore? * Spol Crosstabulation

Count

43 37 80

19 14 33

74 117 191

338 386 724

20 30 50

494 584 1078

sigurno necu

v jerojatno necu

v jerojatno hocu

sigurno hocu

ne znam

Hoceteli izacina oveizbore?

Total

muški ženski

Spol

Total

Case Processing Summary

1078 99,5% 5 ,5% 1083 100,0%Hocete li izaci na oveizbore? * Spol

N Percent N Percent N Percent

Valid Missing Total

Cases

45

#Zadatak

• Zatraži tablicu frekvencija za varijable:

– Stav prema Stipi Mesiću

– Spol

– Ukupan broj članova kućanstva

– Školska naobrazba

• Napomena! Možete zatražiti tablicu frekvencija za

svaku varijablu posebno ili sve zajedno, output će

prikazati isti rezultat

46

#Zadatak

1. Koliko ispitanika nije odgovorilo na pitanje o školskoj

naobrazbi?

2. Koliko je ispitanika odgovorilo na pitanje o spolu?

3. Koliki udio ispitanika nema ni pozitivan ni negativan

stav prema S. Mesiću?

4. Kod pitanja o S. Mesiću imamo 8 ispitanika koji su

odbili odgovoriti na pitanje, to su sustavne vrijednosti

koje nedostaju, odakle dolazi onaj 1 ispitanik čiji

odgovor nije označen kao System Missing?

5. Koliko je muškaraca reklo da ima 2 člana kućanstva?

6. Provjerite pitanje o školskoj naobrazbi, što ne valja s

upisanim podacima?

47

Numerički parametri statističkog skupa

• Srednje vrijednosti (aritmetička sredina, mod i medijan)

– Pokazatelji centralne tendencije rasporeda varijable

• Mjere disperzije/raspršenosti (standardna devijacija i

varijanca)

– Pokazuju stupanj odstupanja pojedinih vrijednosti

obilježja od aritmetičke sredine

• Mjere rasporeda (asimetrija i zaobljenost)

– Pokazuju kako su frekvencije pojedinih vrijednosti

obilježja raspoređene u odnosu na srednju vrijednost

48

Numerički parametri statističkog skupa Mjere srednjih vrijednosti

Mjere disperzije/raspršenosti

Mjere rasporeda

49

Srednje vrijednosti

• Zašto ih koristimo u deskriptivnoj statistici?

– Da bi jednim rezultatom (brojem) izrazili centralnu

tendenciju skupa podataka

– Različiti tipovi mjerenja varijabli imaju različite

numeričke karakteristike. Ovisno o vrsti skale mjerenja

koristimo:

• Aritmetičku sredinu (MEAN)

• Centralna vrijednost ili medijan(MEDIAN)

• Dominantna vrijednost ili mod (MOD)

50

Aritmetička sredina

• Osnovna formula za negrupirane podatke:

• Zapamti! Ukoliko statistički niz sadrži podatke koje

imaju ekstremne vrijednosti onda aritmetička sredina

nije dobar pokazatelj središnje vrijednosti!

(a) 1 2 3 4 5 6 7 8 9 10 = 5.5

(b) 1 2 3 4 5 6 7 8 9 20 = 6.5

(c) 1 2 3 4 5 6 7 8 9 100 = 14.5

𝑋 = X

𝑁

51

Centralna vrijednost - MEDIJAN

• Vrijednost koja se nalazi na sredini statističkog niza, tj.

ima jednak broj elemenata niza s jedne i druge strane

• Izračunavanje se svodi na rangiranje svih rezultata i

pronalaženje sredine.

52


• Osnovna formula za negrupirane podatke:

• Rangirati elemente niza po veličini:

– 12, 15, 11, 11, 7, 13, 10 – originalan niz

– 7,10, 11, 11, 12, 13, 15 – rangiran niz

• Pronađi broj u sredini niza ukoliko je ukupan broj

podataka neparan

– 7,10, 11, 11, 12, 13, 15

• Ili pronađi prosjek dva broja u sredini ukoliko imamo

paran broj podataka:

– 7,11, 11, 12, 13, 15 (11+12=23/2=11.5)

53


• Medijan je i drugi kvartil Q2

• Medijan se ubraja i među kvantile, vrijednosti koje

dijele numerički ili redoslijedni (ordinalni) niz na

jednake dijelove

– 4 dijela – kvartili

– 10 dijelova – decili

54

Centralna vrijednost - kvartili

• Q1 i Q3 – prvi i treći kvartil se računaju tako da se

uzme donja polovica koju određuje medijan i gornja

polovica te se računa medijan za svaki od tog manjeg

niza podataka

• Q2=3.9, 4.1, 4.2, 4.3, 4.3, 4.4, 4.4, 4.4, 4.4, 4.5, 4

.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1

• Q1= 3.9, 4.1, 4.2, 4.3, 4.3, 4.4, 4.4, 4.4 =

(4.3+4.3)/2= 4.3

• Q3= 4.5, 4.5, 4.6, 4.7, 4.8, 4.9, 5.0, 5.1 = (4.7 +

4.8)/2 = 4.75

55

Aritmetička sredina i medijan

• U nizovima gdje aritmetička sredina nije prikladna

zbog postojanja ekstremnih vrijednosti, medijan može

biti alternativna mjera centralne tendencije.

• !!!! Medijan je u sva tri slučaja 5.5. Znači da je

pouzdanija mjera srednje vrijednosti kada imamo

ekstremne vrijednosti.

(a) 1 2 3 4 5 6 7 8 9 10

(b) 1 2 3 4 5 6 7 8 9 20

(c) 1 2 3 4 5 6 7 8 9 100

56

Mod

• Položajna srednja vrijednost

• Vrijednost koja se NAJČEŠĆE pojavljuje u nizu

• Postoji ako su u nizu bar dva jednaka podatka

– 12, 15, 11, 11, 7, 13

• UNIMODALAN NIZ

– 2, 9, 5, 7, 8, 6, 4, 7, 5

• BIMODALAN NIZ

– 3, 8, 7, 6, 12, 11, 2, 1

• NEMA MODA

57

Mjere srednjih vrijednosti

Numerička varijabla -

scale

Ordinalna varijabla –

redoslijedni niz

Nominalna varijabla

a) Razdvojiti slučajeve u

različite kategorije

b) Rangirati slučajeve s

obzirom na relativnu

količinu karakteristike

c) Odrediti točnu količinu

karakteristike



b) Rangirati slučajeve s

obzirom na relativnu

količinu karakteristike



MOD, MEDIJAN I

ARITMETIČKA

SREDINA

MOD I MEDIJAN MOD

58

Mjere srednjih vrijednosti u SPSS-u

Statistics/Summarize/Frequencies/Statistics... 59

Statistics

65 62 64 65

0 3 1 0

2,23 11175,00 764,06 4,25

2,00 10000,00 500,00 4,00

2 10000 500 4

,98 4736,83 542,22 ,61

,96 22437602,46 294005,46 ,38

2,182 ,973 1,384 -,191

,297 ,304 ,299 ,297

8,425 ,087 1,508 -,510

,586 ,599 ,590 ,586

6 21200 2400 2

1 3800 100 3

7 25000 2500 5

Valid

Missing

N

Mean

Median

Mode

Std. Dev iat ion

Variance

Skewness

Std. Error of Skewness

Kurtosis

Std. Error of Kurtosis

Range

Minimum

Maximum

Broj djece

u obitelji

Mjesecni

prihod

kucanstva Dzeparac

Uspjeh u

zav ršnom

razredu


60

– Mean:

• Prosječan broj djece u obitelji ispitanika uzorka je 2,23 djeteta.

– Median:

• Polovina ispitanika je odgovorila (ili 50%) ima 2 djeteta ili

manje od 2 djeteta, a druga polovina više od 2 djeteta.

– Mod:

• Najčešći broj djece u obitelji ispitanika uzorka je 2 djeteta.

Statistics

65 62 64 65

0 3 1 0

2,23 11175,00 764,06 4,25

2,00 10000,00 500,00 4,00

2 10000 500 4

,98 4736,83 542,22 ,61

,96 22437602,46 294005,46 ,38

2,182 ,973 1,384 -,191

,297 ,304 ,299 ,297

8,425 ,087 1,508 -,510

,586 ,599 ,590 ,586

6 21200 2400 2

1 3800 100 3

7 25000 2500 5

Valid

Missing

N

Mean

Median

Mode

Std. Dev iat ion

Variance

Skewness


Kurtosis


Range

Minimum

Maximum

Broj djece

u obitelji

Mjesecni

prihod

kucanstva Dzeparac

Uspjeh u

zav ršnom

razredu


61

Što je distribucija varijable??

• Dvije vrste distribucija:

– Empirijske distribucije frekvencija opaženih podataka

• Raspored podataka koje smo prikupili

• Najuočljivija na histogramu kroz grafički prikaz

prikupljenih podataka

– Teorijske distribucije vjerojatnosti

• Kada neka empirijska distribucija slijedi određenu

teorijsku distribuciju vjerojatnosti, možemo upotrijebiti

teorijsko znanje o dotičnoj distribuciji kako bismo dobili

odgovore na pitanja o podacima. To najčešće zahtjeva

procjenu vjerojatnosti.

• O tome više u inferencijalnoj statistici.

62

Mjere raspršenosti i varijacije

• Stupanj odstupanja pojedinih vrijednosti obilježja od

aritmetičke sredine!

• Kada svi prikupljeni podaci imaju iste vrijednosti mjere

disperzije iznose 0

• Uz tendenciju centralnog okupljanja, varijabilnost je

druga važna karakteristika statističkog skupa

– VARIJACIJA – promjenljivost svojstva

– RASPRŠENOST – odstupanja vrijednosti svojstva

prema srednjoj vrijednosti

• Mjere varijacije i raspršenosti uz srednju vrijednost

daju karakterizaciju distribucije frekvencija

63


Aritmetička sredina = 5.5

Mod = 5 i 6

Medijan = 5.5

!!!Ista srednja vrijednost može karakterizirati

različite distribucije

0

25

50

75

100

125

1 2 3 4 5 6 7 8 9 10 0

25

50

75

100

125

1 2 3 4 5 6 7 8 9 10

64


• ZAŠTO IH KORISTIMO?

– Za provjeru raspršenosti empirijske distribucije

– Zato što nam mjere srednjih vrijednosti ne nude dovoljno

informacija o karakteristikama prikupljenih podataka.

65


Više mjera raspršenosti i varijacije:

• Apsolutne:

– raspon varijacije

– interkvartil

– varijanca

– standardna devijacija.

• Relativne: (zašto relativan – računa se pomoću omjera)

– koeficijent varijacije

– koeficijent kvartilne devijacije.

• U SPSS-u (zato što se najviše koriste):

• standardna devijacija, raspon varijacije (RANGE) i

varijanca

66


67


• Raspon varijacije:

• Rx = Xmax – Xmin

• Razlika najveće i najmanje vrijednosti obilježja

• Interkvartil:

• Iq = Q3 – Q1

• Razlika gornjeg i donjeg kvartila

• Koeficijent kvartilne devijacije

• Vq=Q3 – Q1/Q1 + Q3

• Omjer interkvartila i zbroja kvartila

– ! Q2 = MEDIJAN

68


• Varijanca

– je prosječno kvadratno odstupanje vrijednosti

numeričkog obilježja od aritmetičke sredine.

• Standardna devijacija

– je pozitivan korijen iz varijance i izražena je u

originalnim jedinicama mjere.

69

Varijanca

1. Pronađi aritmetičku sredinu

= (600 + 470 + 170 + 430 + 300)/5 = 394

70

Varijanca

2. Izračunaj razliku visine svakog psa od aritmetičke

sredine

71

Varijanca

3. Zbroji kvadrirane razlike i podijeli sa brojem elemenata

ČEGA? mm na kvadrat

Zato se ne koristi jako često!

72

Standardna devijacija σ (sigma)

• Standardna devijacija je najvažnija i najčešće

upotrebljavana mjera varijabilnosti

• Standardna devijacija (deviatio = odstupanje, variranje,

raspršenost, disperzija)

• Utvrđuje se iz varijance izračunavanjem kvadratnog

korijena

• Standardna devijacija zajedno sa srednjom vrijednošću

određuje da li je distribucija statističkog skupa

normalna ( o tome kasnije)

73

Standardna devijacija

4. Uzmi pozitivni drugi korijen iz varijance...

σ = √21,704 = 147.32... = 147 mm

• Interpretacija: Veliki pas je unutar 2 SD udaljen od

aritmetičke sredine.

74

Interpretacija mjera disperzije

• SD: Prosječno apsolutno odstupanje broja djece od

prosječnog broja djece u uzorku je 0,98 djece.

• Varijanca: općenito se ne interpretira. Mora biti

značajno veća od nule i ovisi o vrijednostima

obilježja. Ako je 0 onda nema varijacije!

Statistics

65 62 64 65

0 3 1 0

2,23 11175,00 764,06 4,25

2,00 10000,00 500,00 4,00

2 10000 500 4

,98 4736,83 542,22 ,61

,96 22437602,46 294005,46 ,38

2,182 ,973 1,384 -,191

,297 ,304 ,299 ,297

8,425 ,087 1,508 -,510

,586 ,599 ,590 ,586

6 21200 2400 2

1 3800 100 3

7 25000 2500 5

Valid

Missing

N

Mean

Median

Mode

Std. Dev iat ion

Variance

Skewness


Kurtosis


Range

Minimum

Maximum

Broj djece

u obitelji

Mjesecni

prihod

kucanstva Dzeparac

Uspjeh u

zav ršnom

razredu

Statistics

65 62 64 65

0 3 1 0

2,23 11175,00 764,06 4,25

2,00 10000,00 500,00 4,00

2 10000 500 4

,98 4736,83 542,22 ,61

,96 22437602,46 294005,46 ,38

2,182 ,973 1,384 -,191

,297 ,304 ,299 ,297

8,425 ,087 1,508 -,510

,586 ,599 ,590 ,586

6 21200 2400 2

1 3800 100 3

7 25000 2500 5

Valid

Missing

N

Mean

Median

Mode

Std. Dev iat ion

Variance

Skewness


Kurtosis


Range

Minimum

Maximum

Broj djece

u obitelji

Mjesecni

prihod

kucanstva Dzeparac

Uspjeh u

zav ršnom

razredu

75

Mjere rasporeda

• Brojčani izraz za opisivanje OBLIKA empirijske

distribucije!

• ZAŠTO IH KORISTIMO?

– Za usporedbu distribucija više varijabli

– Za provjeru da li je varijabla normalno distribuirana (uz

histogram s normalnom krivuljom)

76

Mjere rasporeda

• Mjera asimetrije:

Pozitivna Negativna

Normalna

77

Mjere rasporeda

• Mjera asimetrije

• U SPSS-u “SKEWNESS”

• Ako je skewness < 0, distribucija je negativno asimetrična

• Ako je skewness > 0, distribucija je pozitivno asimetrična

• Ako je skewness = 0 distribucija je simetrična

• Što je vrijednost mjere asimetrije dalja od 0, distribucija je

više asimetrična

78

Mjere rasporeda

• Mjera zaobljenosti

• U SPSS-u “KURTOSIS”

Mesokurtyc (s4 = 3)

Leptokurtic – šiljasta

(s4 > 3)

Platykurtic – zaobljena

(s4 < 3)

Normalno zaobljena

79

Mjere rasporeda

– Mjera asimetrije:

• Distribucija varijable broj djece u obitelji je pozitivno

asimetrična.

– Mjera zaobljenosti:

• Distribucija varijable broj djece u obitelji je šiljastija od

normalne distribucije.

Statistics

65 62 64 65

0 3 1 0

2,23 11175,00 764,06 4,25

2,00 10000,00 500,00 4,00

2 10000 500 4

,98 4736,83 542,22 ,61

,96 22437602,46 294005,46 ,38

2,182 ,973 1,384 -,191

,297 ,304 ,299 ,297

8,425 ,087 1,508 -,510

,586 ,599 ,590 ,586

6 21200 2400 2

1 3800 100 3

7 25000 2500 5

Valid

Missing

N

Mean

Median

Mode

Std. Dev iat ion

Variance

Skewness


Kurtosis


Range

Minimum

Maximum

Broj djece

u obitelji

Mjesecni

prihod

kucanstva Dzeparac

Uspjeh u

zav ršnom

razredu

Statistics

65 62 64 65

0 3 1 0

2,23 11175,00 764,06 4,25

2,00 10000,00 500,00 4,00

2 10000 500 4

,98 4736,83 542,22 ,61

,96 22437602,46 294005,46 ,38

2,182 ,973 1,384 -,191

,297 ,304 ,299 ,297

8,425 ,087 1,508 -,510

,586 ,599 ,590 ,586

6 21200 2400 2

1 3800 100 3

7 25000 2500 5

Valid

Missing

N

Mean

Median

Mode

Std. Dev iat ion

Variance

Skewness


Kurtosis


Range

Minimum

Maximum

Broj djece

u obitelji

Mjesecni

prihod

kucanstva Dzeparac

Uspjeh u

zav ršnom

razredu

80

#Zadatak

• Otvori bazu “Mala_anketa_2007.sav”

• Izračunaj odgovarajuće mjere srednjih vrijednosti za

varijable:

– “glas”; “ideol”; “br_dj”; “prihod”

– Interpretiraj rezultate

• Izračunaj varijancu i standardnu devijaciju za omjerne

varijable


• Izračunaj mjere rasporeda za omjerne i ordinalne

varijable


81

Odabir i analiza skupina ispitanika

• U statističkoj analizi podataka prikupljenih anketnim i

drugim istraživanjima često trebamo provesti određene

procedure samo na nekim skupinama ispitanika, dok

ostale želimo privremeno zanemariti ili trajno ukloniti

iz baze.

• Možemo, npr., analizirati podatke samo za neku

županiju, odgovore samo nekih kategorija ispitanika i

sl.

82


Procedure

odabira

ispitanika

za analizu

83


• Želimo li odabrati ispitanike ne mijenjajući vrijednosti

varijabli, koristit ćemo proceduru Select Cases sa

opcijama:

– Select: All cases

– Select: If condition is satisfied

– Select: Random sample of

cases

– Select: Based on time or

case range

– Use filter variable

84


• Select: All cases

– nije uključen nikakav filtar za odabir, selektirani su svi

ispitanici

– Ova je opcija programski default , tj. aktivna je u

početnom postavu programa, nakon pokretanja SPSS–a.

85


• Select: If condition is satisfied

– odabir samo onih ispitanika koji zadovoljavaju

postavljeni uvjet (ili više uvjeta)

– Možemo, npr. za analizu odabrati samo one ispitanike

koji na varijabli SPOL imaju rezultat 1 (Muškarci)

86

87

ISKLJUČITI NAKON ANALIZE!

88


• Select: Random sample of cases

– odabir slučajnog uzorka ispitanika

– Možemo zatražiti da u slučajni uzorak uđe određeni

postotak ispitanika,

– ili slučajno odabrati točno određeni broj on prvih k

ispitanika:

89


• Select: Based on time or case range

– odabir na temelju vremenskog raspona ili rednih brojeva

ispitanika

– Npr.: odabiremo ispitanike od rednog broja 1 do rednog

broja 10.

90


• Use filter variable

– odabir na temelju vrijednosti filtar varijable

– Kriteriju udovoljavaju svi ispitanici koji na filtar

varijabli imaju vrijednost¸različitu od nule ili missing–

vrijednosti:

91

Analiza ispitanika po skupinama

• SPSS za rad sa skupinama ispitanika nudi još jednu

upotrebljivu proceduru, koju koristimo onda kada

želimo uključiti u obradu sve ispitanike, ali tako da

određenu analizu provedemo zasebno za skupine

ispitanika s istom vrijednošću na nekoj kriterijskoj

varijabli .

• Riječ je o proceduri Split File…, koju pozivamo iz

Data menija SPSS Data Editora (procedura nije

dostupna u drugim prozorima!)

92

Analiza ispitanika po skupinama

• Osim (default) opcije Analyze all cases, do not create

groups (svi ispitanici tretiraju se na uobičajeni način,

bez kreiranja skupina), nude se još dvije mogućnosti:

– Compare Groups

• Uključimo li opciju Compare Groups uz odabir kriterijske

varijable (na temelju koje se oblikuju skupine ispitanika)

kao SPOL te potom zatražimo tablice frekvencija za ostale

varijable ispis rezultata će biti podijeljen po muškarcima i

ženama.

– Organize output by groups

• Sličan rezultat dobijemo i ukoliko odaberemo ovu opciju,

samo će tablice biti drugačije organizirane (REZULTATI

UVIJEK ISTI!)

93

Transformacije varijabli

• Rekodiranje varijabli je promjenom numeričkih ili

alfanumeričkih kodova dodijeljenih određenim

odgovorima ispitanika.

• Jednostavno: promjena numeričkih oznaka ili spajanje

više kategorija u manje kategorija

• ZAPAMTITI:

– Ispitanici i dalje zadržavaju svoje odgovore i varijabla

sadrži istu informaciju, samo se numerički kodovi

mijenjaju

94


• Najčešći razlozi rekodiranja jesu:

– spajanje dviju ili više kategorija u jednu

• npr. kad želimo iskazati slažu li se ispitanici s nekom

tvrdnjom ili ne, bez obzira ne intenzitet njihova stava –

pretvorimo ljestvicu od 5 kategorija (Likert skala) u 3

kategorije

– spajanje kategorija varijable zbog prevelikog broja ćelija

s malim teorijskim frekvencijama (onemogućava neke

analize i komplicira interpretaciju)

• napr. ako imamo samo par ispitanika koji imaju završen

magisterij ili doktorat – njih dodamo u viša stručna sprema

– Kao što je primjer u zadatku gore

95


– Ispuštanje nekih kategorija iz analize tako da im

dodijelimo missing vrijednost

• Još jedan način na koji se mogu izbaciti kategorije

odgovora iz varijable ukoliko nam nisu zanimljive (slično

kao kod opcije Define variable)

– “preokretanje” ljestvice procjene kod konstrukcije

indeksa i skala, kako bi veći ili manji rezultat na ljestvici

imao isti smisao za sve čestice.

• Nekada anketna pitanja nisu postavljena na pravilan ili

ujednačen način i potrebno je preokrenuti skalu (iz od

pozitivog prema negativnom u suprotnu opciju) da bi se

varijabla mogla analizirati

96


• SPSS za takve promjene nudi proceduru Recode, koju

pozivamo iz menija Transform u SPSS Data Editoru:

– odabirom inačice Recode into Same Variables tražene

promjene provest će se transformiranjem postojećih

varijabli; OVU OPCIJU NE KORISTIMO JER BRIŠE

STARU VARIJABLU!

– odabirom inačice Recode into Different Variables

postojeće varijable neće se mijenjati, već će se kreirati

nove varijable koje će SPSS smjestiti na kraj niza

postojećih varijabli.

97


98


1. Nakon odabira

varijable koju

rekodiramo (u ovom

primjeru to je

varijabla re_1)

2. valja definirati ime

nove varijable

(re_nova)

3. te pritiskom na tipku

Change upisati tu

transformaciju u

okvir sa zadanim

transformacijama.

1

3 2

99


• Varijabla re_1 (učestalost odlaska u crkvu) izvorno

uključuje sljedeće vrijednosti:

– 1 – nikada ili gotovo nikada

– 2 – možda jednom godišnje

– 3 – dva, tri puta godišnje

– 4 – jednom u dva mjeseca

– 5 – jednom mjesečno

– 6 – jednom tjedno

– 7 – češće od jednom tjedno

100


• Rekodiranjem želimo razlikovati samo dvije skupine

ispitanika:

– One koji ne idu često idu u crkvu (stare vrijednosti 1,2 i

3)

– One koji idu često u crkvu (stare vrijednosti 4,5,6 i 7)

• Željenu transformaciju možemo definirati pozivanjem

opcije Old and New Values

101


102


103


104


Sve ostale vrijednosti SPSS tretira

kao missing values. 105

#Zadatak

• Izdvoji samo onu grupu koja ima izrazito negativan stav prema

Stipi Mesiću i zatraži tablicu frekvencija za tu varijablu.

• Koje su prosječne godine starosti ispitanika koji imaju socijal-

demokratski politički svjetonazor?

• Spoji kategoriju magisterija i doktorata sa kategorijom fakultet

u varijabli obrazovanje ispitanika.

• Da li više muškaraca ili žena ima visoko obrazovanje (fakultet,

magisterij i doktorat)?

• Da li obrtnici imaju veće prosječne mjesečne prihode od

stručnjaka?

• Kreiraj novu varijablu od varijable godine života tako da ima

samo 4 kategorije. Kako bi nazvali te kategorije?

106

Normalna distribucija

• Najpoznatiji primjer teorijske distribucije vjerojatnosti

– Zato što se pojavljuje kao distribucija mnogih fizičkih,

bioloških i društvenih fenomena

• Visina ljudi

• Krvni tlak

• Ocjene na ispitu

• IQ

• Najčešće se veže uz eksperimente Carla Friedricha

Gaussa i Francisa Galtona

– “Gaussova krivulja”

– Galtonov eksperiment s čavlima

107


108


• Ima oblik zvona

• Simetrična je prema centru

109

Normalna distribucija i standardna devijacija

68% vrijednosti se nalazi unutar

1 SD od aritmetičke sredine

95% vrijednosti se nalazi unutar


99,7% vrijednosti se nalazi unutar


110

Testiranje normalnosti distribucije

• Grafički testovi:

– Histogram

• Zatraži ga za varijablu koju analiziraš, pogledaj i procijeni

da li izgleda kao normalna distribucija

• Često teško odlučiti!

– Q-Q plot

• Ako slučajevi odstupaju od zelene linije (koja predstavlja

očekivanu normalnu distribuciju slučajeva) onda varijabla

nije normalno distribuirana.

• Odstupanje se obično vidi ako su slučajevi nelinearno

raspoređeni (ne može se provući ravna crta kroz njih),

krivulja ide u S obliku

111

Q-Q plot (Graphs/Q-Q plot)

112

Zašto je još koristimo?

• Drugi način gledanja na distribuciju

– Ne koliko se često rezultati pojavljuju (frekvencije) nego

koja je vjerojatnost da će se određeni rezultat pojaviti s

obzirom na normalnu distribuciju

• Primjer:

– Beachy Head – Sussex, UK

– “depresivna litica”

113

114

Zašto je koristimo?

115

Standardizirane z vrijednosti

• Drugi način gledanja na distribuciju

– Koja je vjerojatnost da će netko stariji od 70 godina

počiniti samoubojstvo u Beachy Head-u?

– Možemo li ovo izračunati precizno?

• Distribucija vjerojatnosti (idealna distribucija)

• vjerojatnost da će se određen rezultat dobiti kod idealne

distribucije s aritmetičkom sredinom 0 i standardnom

devijacijom 1

116


• Ali što ako je naša distribucija približno slična

normalnoj distribuciji, a nema a.s. 0 i sd 1?

– Svi podaci se mogu transformirati tako da imaju

aritmetičku sredinu 0 i SD 1.

• Kako?

– Od svakog elementa oduzmemo aritmetičku sredinu tog

niza i podijelimo sa standardnom devijacijom niza

– Dobijemo nove vrijednosti za svaki element

117


• Primjer:

– Odgovor na pitanje “koja je vjerojatnost da će stariji od

70 godina počiniti samoubojstvo na temelju prethodnih

podataka?

• X=70

• Aritmetička sredina varijable = 36

• Standardna devijacija = 13

– Z=(70-36)/13=2.62

• Što sad?

118

2.62 = ?%

119


• Vjerojatnost je 0.0044.

• Postoji 0,44% šanse (0.0044*100) da će žrtva

samoubojstva na Beachy Headu biti starija od 70

godina.

• Ako pogledamo “Larger proportion”, od rezultata

prema desnoj stranici distribucije, onda možemo reći

da postoji 99% šanse da će žrtva samoubojstva na

Beachy Headu biti mlađa od 70 godina.

120

Slavne z vrijednosti – upamti!!

• 1,96 = odvaja 2,5% distribucije s desne i lijeve strane

(5% odvajaju zajedno, a 95% svih z-vrijednosti leži

unutar intervala od -1,96 do +1,96)

• 2,58 = odvaja 1% distribucije s desne i lijeve strane

(2% odvajaju zajedno, a 98% svih z-vrijednosti leži

unutar intervala od - 2,58 do + 2,58)

• 3,29 = odvaja 0,1% distribucije s desne i lijeve strane

(0,2% odvajaju zajedno, a 99,9% svih z-vrijednosti leži

unutar intervala od - 3,29 do + 3,29)

121

Provjera netipičnih vrijednosti

• Da li varijabla sadrži ekstremne vrijednosti??!!

• Provjera ekstremnih vrijednosti UVIJEK prije primjene

inferencijalne statistike i kod izračuna aritmetičke

sredine

• Odaberi varijablu koju ćeš kasnije koristiti u analizi

• Odi na Statistics/Summarize/Decriptives i odaberi

opciju Save as standardized values, stisni ok i zatvori

prozor.

122

Provjera netipičnih vrijednosti

• Sada je stvorena nova varijabla dodana u bazi, koja

započinje slovom z

• Zatraži tablicu frekvencija za novu varijablu –

očekujemo:

– 5% slučajeva koji će imati vrijednosti veću od +/- 1.96

– 1% slučajeva koji će imati vrijednosti veću od +/-2.58

– Ne očekujemo slučajeve koji će imati vrijednosti veću od

+/- 3.29

• Ukoliko imamo previše slučajeva iznad ili ispod +/-

2.58 nije dobro

123

Provjera ekstremnih vrijednosti

D11 AGE EXACT

755 10,0 10,0 10,0

756 10,0 10,0 20,1

749 9,9 9,9 30,0

724 9,6 9,6 39,6

804 10,7 10,7 50,3

820 10,9 10,9 61,2

721 9,6 9,6 70,8

701 9,3 9,3 80,1

684 9,1 9,1 89,1

818 10,9 10,9 100,0

7532 100,0 100,0

15 years

16

17

18

19

20

21

22

23

24 years

Total

Valid

Frequency Percent

Valid

Percent

Cumulativ e

Percent

Originalne vrijednosti varijable Standardizirane vrijednosti varijable

ZAKLJUČAK: U ovoj tablici nema vrijednosti koje prelaze +/-1.96, znači nema

vrijednosti koje značajno odstupaju od vrijednosti koje bi očekivali kod normalno

distribuirane varijable. 124

Zscore: D11 AGE EXACT

755 10,0 10,0 10,0

756 10,0 10,0 20,1

749 9,9 9,9 30,0

724 9,6 9,6 39,6

804 10,7 10,7 50,3

820 10,9 10,9 61,2

721 9,6 9,6 70,8

701 9,3 9,3 80,1

684 9,1 9,1 89,1

818 10,9 10,9 100,0

7532 100,0 100,0

-1,56175

-1,21382

-,86589

-,51797

-,17004

,17789

,52582

,87375

1,22167

1,56960

Total

Valid

Frequency Percent

Valid

Percent

Cumulat iv e

Percent

# Zadatak

• Provjeri ekstremne vrijednosti na omjernim varijablama

u bazi Mala_anketa

• Provjeri da li su iste varijable normalno distribuirane

• Odaberi 3 ordinalne varijable iz baze i provjeri da li su

normalno distribuirane

125

SPSS 8 vs SPSS 20

126

SPSS 8 vs SPSS 20

127

SPSS 8 vs SPSS 20

128

SPSS 8 vs SPSS 20

129

SPSS 8 vs SPSS 20

130

#Zadatak

• Otvorite 3 nove baze podataka:

– “cars”; “employee data”; “World95”

– Odgovori za svaku bazu:

• Što su jedinice analize – slučajevi?

• Koliko ima varijabli?

• Koliko slučajeva?

– Izdvoji iz svake baze 1 omjernu, 1 ordinalnu i 1

nominalnu varijablu (ako je moguće) i napiši imena tih

varijabli na papiru

– Za omjerne varijable zatraži histogram

131

INFERENCIJALNA

STATISTIKA:

Objašnjenja, hipoteze i

usporedbe

Što? i Zašto?

• Prvi cilj politološkog istraživanja je definirati i mjeriti

pojmove

– Što je politička tolerancija i što bi bila valjana mjera tog

pojma?

• Drugi cilj je predložiti i testirati OBJAŠNJENJA za

društvene fenomene i donositi ZAKLJUČKE

– Zašto neki ljudi redovito odlaze u crkvu, a drugi ne?

– Zašto neki studenti sjede u zadnjim klupama dok ostali

preferiraju prve klupe?

– Zašto neki građani glasuju a drugi ne izlaze na izbore?

133

Što? i Zašto?

• Predlaganje objašnjenja je BIT društvenih istraživanja,

ali mu uvijek prethodi proučavanje pojave kroz alate

deskriptivne statistike:

– Što? Proučavanje pojave:

• Polovina građana SAD-a ne izlazi na izbore

– Zašto? Ponuditi objašnjenje:

• Obrazovanje igra ulogu u odazivu glasača. Glasači s

višom razinom obrazovanja su više “politički svjesni” te

više izlaze na izbore.

• Ovakvo objašnjenje se naziva STATISTIČKOM

HIPOTEZOM

– ali samo ukoliko je to izjava o pojavama koje možemo mjeriti

– i o tipu odnosa koji možemo testirati statističkim metodama.

134

Objašnjenja – ZAŠTO?

Mnogi ljudi u SAD-u vjeruju da bi država trebala

otežati postupak kupnje oružja, no mnogi također

vjeruju da država ne bi trebala mijenjati zakone ili bi

čak trebala olakšati postupak kupnje oružja.

- Zašto?

- Koji su uzroci takve razlike u vjerovanjima?

NAPOMENA:

- “UZROK” – ili varijable (pojave) kojima objašnjavamo

posljedice se nazivaju i NEZAVISNIM

VARIJABLAMA.

- “POSLJEDICA” – ili varijabla (pojava) koju

pokušavamo objasniti se naziva i ZAVISNOM

VARIJABLOM. 135


• Zato što bi otežan postupak smanjio broj oružja na

ulicama;

– Ovakav odgovor je TAUTOLOGIJA: kružna izjava koja

je uvijek točna i ne mora se testirati.

• Dobro objašnjenje izbjegava kružne izjave:

– Stav prema kontroli oružja ima veze sa stranačkom

pripadnošću. Demokrati i republikanci imaju drugačije

stavove o ovoj javnoj politici.

• Drugi primjer je bolji:

– Navodi još jednu varijablu: “stranačku pripadnost” kao

moguće objašnjenje.

136


• Ali, nudimo objašnjenje koje izgleda ovako: STRANAČKA PRIPADNOST STAV PREMA KONTROLI ORUŽJA

• Ova je izjava još nejasna, a dobro objašnjenje ne može

biti nejasno

– Ono mora uključiti dobro objašnjenje o povezanosti

dvije varijable

– I jasnim uzročnim vezama između njih

137


• U fazi sazrijevanja, pojedinci imaju samo osnovne

orijentacije prema politici. Stranačka pripadnost je

jedna od tih orijentacija. Na sličan način na koji djeca

prihvate vjeroispovijest svojih roditelja oni prihvaćaju i

njihove stranačke stavove. Stranački stavovi mogu biti

nejasni u mladosti, no u trenucima odlučivanja u

kasnijim životnim fazama, ti stavovi imaju utjecaj na

naše odluke. Kontrola oružja je dobar primjer, kao

jedno od temeljnih pitanja koje dijeli DEM od REP.

Demokrati zagovaraju strože mjere kontrole dok

republikanci zagovaraju status quo. Stavovi građana

prate tu osnovnu podjelu. Građani koji su demokrati će

vjerojatnije zagovarati kontrolu oružja. 138

Dobra hipoteza - usporedbe

• … u usporedbi pojedinaca, oni koji su demokrati će

vjerojatnije podupirati kontrolu oružja, nego oni koji su

republikanci.

• …u usporedbi (jedinica analize), oni koji imaju

(određene vrijednosti na nezavisnoj varijabli) će

vjerojatnije imati (određenu vrijednost na zavisnoj

varijabli) nego što je to slučaj s onima koji imaju

(određenu vrijednost na nezavisnoj varijabli).

139

Dobra hipoteza - usporedbe

• U usporedbi pojedinaca, neki pojedinci će vjerojatnije donirati

novac političkim kandidatima nego drugi pojedinci.

• Nije hipoteza, gdje je objašnjenje veze između najmanje dvije

varijable!

• Religiozniji pojedinci češće izlaze na birališta.

• Nije hipoteza, ne uključuje nikakvu usporedbu.

• U usporedbi pojedinaca, spol i stav prema pobačaju su

povezani.

• Na koji način? Kako su vrijednosti stava povezane sa spolom?

• Zbog važnih kulturalnih promjena koji su započeli 1960ih

godina, mnogi sadašnji politički sukobi su utemeljeni na

generacijskim razlikama.

• Zanimljiva, ali potpuno nejasna. Što su kulturalne promjene, kakvi

politički sukobi? Kako bi identificirali zavisnu i nezavisnu

varijablu? 140

Intervenirajuće varijable

• Pojedinci koji imaju viši stupanj obrazovanja će češće

izlaziti na izbore.

141

OBRAZOVANJE

GLASOVANJE

VAN-NASTAVNE AKTIVNOSTI

POLITIČKA INFORMIRANOST

GRAĐANSKI ODGOJ

ČLANSTVO U UDRUGAMA

Intervenirajuće varijable

• Varijabla koja djeluje kao posrednik između nezavisne i

zavisne varijable. Opisuje KAKO nezavisna varijabla zapravo

djeluje na zavisnu varijablu.

• U knjizi “Bowling Alone” R. Putnam je zaključio da pojedinci koji

se aktiviraju u nevladinim organizacijama razvijaju posebne

vještine političke participacije. Participativne vještine također

utječu na glasačko ponašanje. Pojedinci s više iskustva u političkoj

participaciji glasuju češće od pojedinaca bez takvog iskustva.

• Ovo objašnjenje kaže da nezavisna varijabla – članstvo u

NGO-ima ima utjecaja na zavisnu varijablu – “glasovanje na

izborima” preko intervenirajuće varijable. Koja je to varijabla?

• Napišite hipotezu prema kojoj će intervenirajuća varijabla biti

zavisna varijabla ili posljedica.

142

• Što je statistička hipoteza?

– Tvrdnja o veličini parametra u populaciji ili o obliku

distribucije osnovnog skupa

– Ispituje se pomoću slučajnog uzorka

Statističke hipoteze

143

• Testiranje statističkih hipoteza je

– Postupak kojim se donosi odluka o PRIHVAĆANJU ili

NEPRIHVAĆANJU tvrdnje na temelju podataka iz

uzorka.

Testiranje hipoteza

144

• Svaki postupak kreće od:

– Nulte hipoteze (Ho)

• govori o nepostojanju statistički značajnih razlika između

testiranih parametara; ostaje se pri početnoj tvrdnji (hipotezi)

– Alternativne hipoteze (Halt)

• govori o statistički značajnim razlikama između testiranih

parametara, što vodi odbacivanju početne hipoteze i

formuliranju nove tvrdnje.

I. Postavljanje nulte hipoteze

145

• Provjera hipoteze o pretpostavljenoj vrijednosti parametra u

populaciji na temelju uzorka

– Aritmetička sredina

• T-test

• Usporedba parametara dvaju grupa ili dvaju uzoraka:

– Testiranje razlike između aritmetičkih sredina ili proporcija

• T-test s neovisnim uzorcima

– Usporedba varijanci dvaju skupova

• Korelacija

• HI – kvadrat metoda

II. Izbor prikladnog testa

146

• 2 vrste statističkih testova s obzirom na:

– TIP RASPODJELE FREKVENCIJA

• NORMALNA DISTRIBUCIJA

• OSTALE DISTRIBUCIJE

– VRSTU PODATAKA

• OMJERNE

• ORDINALNE

• NOMINALNE

II. Izbor prikladnog testa

147

PARAMETRIJSKI/NEPARAMETRIJSKI (ovisno o distribuciji)

NE-PARAMETRIJSKI TESTOVI

NE-PARAMETRIJSKI TESTOVI

PARAMETRIJSKI TESTOVI

• Testiranjem hipoteza testiramo vjerojatnost da je

dobiveni rezultat slučajan ili je statistički značajan.

• Ako zaključujemo na temelju podataka iz uzorka uvijek

pretpostavljamo da na rezultat koji smo dobili utječe

slučajna greška uzorka – odnosno pretpostavljamo

da u stvarnoj populaciji razlike koje vidimo ne

postoje (krećemo od H0 = razlike nema)

• Slučajna greška uzorka – razlika između parametara

uzorka i populacije koja je nastala, slučajno, procesom

uzorkovanja

– Veličina uzorka

– Varijacija uzorka

III. Odabir P - vrijednosti

148


• P-vrijednost omogućuje da odredimo da li imamo

dovoljno dokaza za odbacivanje nul-hipoteze

– ukoliko je P-vrijednost velika, postoji velika vjerojatnost

da su naši podaci jednostavno rezultat slučajnosti i da

rezultat koji smo dobili ne možemo pouzdano

interpretirati kao rezultat koji bi dobili da imamo

podatke o cijeloj populaciji.

– ukoliko je P-vrijednost mala tada je mala vjerojatnost da

je dobiveni rezultat posljedica slučajnosti. Razlika ili

rezultat koji vidimo u uzorku vjerojatno postoji i u

populaciji.

149

• Najčešće korištena razina značajnosti iznosi 0,05 (5%)

– Ukoliko P iznosi manje od 0,05 (P<0,05) nul hipotezu

odbacujemo, a razlike proglašavamo statistički

značajnim.

– Ukoliko P iznosi više od 0,05 (P>0.05) nemamo

dovoljno dokaza da je razlika koju vidimo u uzorku

stvarno takva i u populaciji. Rezultat testa nije statistički

značajan!

• Možemo u SPSS povećati razinu značajnosti, s čime se

povećava i mogućnost da nećemo pronaći statistički

značajne razlike, konzervativniji test (npr. 0.01)

• Može biti dvosmjeran (two-tail test) i jednosmjeran

(one-tail test). Mi ćemo koristiti samo dvosmjeran.


150

• Provjera hipoteze o pretpostavljenoj vrijednosti

parametra u populaciji

– 2 namjene:

• Ukoliko imamo očekivanja o prosječnoj vrijednosti neke

varijable u populaciji te imamo varijablu koja mjeri istu

pojavu u našoj bazi, možemo provjeriti da li su naša

očekivanja ispravna.

• Ukoliko smo sigurni za vrijednost prosjeka u populaciji i

hoćemo provjeriti da li je anketa provedena na

reprezentativnom uzorku.

T-test

151

• U SPSS-u:

– Statistics/Compare Means/One Sample T-test

T-test

Varijabla čiji prosjek u uzorku

uspoređujemo s populacijskim

prosjekom

Vrijednost koju testiramo,

očekivana aritmetička sredina

u populaciji

152

• Pitanje: da li postoji statistički značajna razlika između

prosječne godine starosti ispitanika u uzorku i očekivane

prosječne godine starosti stanovnika Hrvatske?

• Nulta hipoteza: ???

– Ne postoji statistički značajna razlika.

– Moramo je odbaciti ako je p manji od 0,05

T-test: interpretacija rezultata

153

T-test: interpretacija rezultata

One-Sample Statistics

1453 47,31 18,26 ,48Age of respondent,calculated

N MeanStd.

DeviationStd. Error

Mean

One-Sample Test

25,696 1452 ,000 12,31 11,37 13,25Age of respondent,calculated

t dfSig.

(2-tailed)Mean

Dif f erence Lower Upper

95% Conf idenceInterv al of the

Dif f erence

Test Value = 35

Aritmetička sredina uzorka

Očekivana aritmetička

sredina populacije

Što gledamo? Vrijednost statističke značajnosti iznosi 0,000. Ako je vrijednost Sig

manja od 0,05 uvijek zaključujemo da postoje statistički značajne razlike

između dvije grupe koje smo usporedili (uzorak i populacija s obzirom na

godine starosti). 154

T-test s neovisnim uzorcima

• Independent sample T-test

– Koristimo ga kada želimo provjeriti da li postoji

statistički značajna razlika između nekih grupa ispitanika

s obzirom na prosječnu vrijednost odgovora na omjernoj,

normalno distribuiranoj varijabli

– Primjer: da li se muškarci i žene razlikuju po prosječnim

mjesečnim primanjima?

• Grupe/uzorci koji se uspoređuju: muškarci i žene

• Omjerna varijabla (zavisna varijabla): ukupna mjesečna

primanja

155


• Pretpostavke testa:

– Zavisna varijabla je omjerna i normalno distribuirana

(možemo provjeriti korištenjem Q-Q plota)

– Dvije grupe imaju otprilike jednaku varijancu na

zavisnoj varijabli

• provjera kroz Levene test varijance:

– Ako dvije skupine imaju jednaku varijancu onda će p

vrijednost Levene testa biti veća od 0.05 (neće biti značajan)

– Dvije grupe su međusobno nezavisne.

156


• Nulta hipoteza testa:

– Aritmetičke sredine dviju skupina na zavisnoj varijabli

nisu značajno drugačije.

• Alternativna hipoteza testa:

– Aritmetičke sredine dviju skupina na zavisnoj varijabli

su značajno drugačije.

• Ukoliko je p vrijednost testa manja od 0.05 onda

odbacujemo nultu hipotezu da grupe nisu značajno

drugačije i prihvaćamo alternativnu.

• Zaključujemo: dvije skupine zaista imaju značajno

različite aritmetičke sredine.

157

• Uključuje bivarijatne podatke (2 varijable)

• Osnovno pitanje: DA LI SU DVIJE POJAVE

POVEZANE?

• Više vrsta testova korelacije koji ovise o vrsti mjerenja

varijabli

Korelacija

158

• Scatterplot – vrijednosti 2 varijable (x i y) prikazane u

koordinatnom sustavu

– Nije bitno koja je varijabla označena sa x a koja sa y

• U SPSS-u: Graphs/Scatter

Grafički pristup korelaciji

159

Grafički pristup korelaciji

160

• Svako testiranje uključuje (bez obzira na vrstu testa):

1. Smjer povezanosti

2. Snagu povezanosti

3. Oblik veze

4. Da li je veza statistički značajna ili ne (uvijek ovo prvo

provjeravamo!!!)

Što moramo zapamtiti kod korelacije?

161

• Pozitivna korelacija

– Vrijednosti 2 varijable se kreću u istom smjeru

• Negativna korelacija

– Vrijednosti 2 varijable se kreću u suprotnim smjerovima

Smjer povezanosti

162

• Dva osnovna oblika povezanosti su :

– LINEARNA KORELACIJA

• VEĆINA TESTOVA JE NAMJENJENA TESTIRANJU

LINEARNE KORELACIJE

– NELINEARNA KORELACIJA

• NEPARAMETRIJSKI TESTOVI

Oblik povezanosti

163

• Koeficijenti korelacije imaju vrijednosti od -1 do +1

• Savršena linearna korelacija:

– Svaka promjena u x praćena je jednakom promjenom u y

– Bez obzira u kojem smjeru

– Takva korelacija, ovisno o smjeru imala bi vrijednosti

koeficijenta korelacije -1 ili 1

– 0 znači da su dvije varijable potpuno neovisne, nema

nikakve povezanosti između njih

Stupanj povezanosti (intenzitet)

164

Stupanj povezanosti (intenzitet)

165

• Ovaj element testiranja bitan je za sve testove ne samo

korelaciju

– Provjeravamo da li se rezultati testova na uzorku mogu

koristiti pri interpretaciji odnosa među pojavama u

populaciji

– SPSS označava statistički značajne rezultate sa

zvjezdicom i vidimo ga u tablicama pod Sig.

• Ako je koeficijent korelacije označen sa * onda kažemo da

sa 95 postotnom razinom pouzdanosti možemo zaključiti

da je rezultat takav i u populaciji.

• Ako je koeficijent korelacije označen sa ** onda kažemo

da sa 99 postotnom razinom pouzdanosti možemo

zaključiti da je rezultat takav i u populaciji.

Da li je veza statistički značajna ili ne

166

• Pearsonov koeficijent korelacije (“r”)

• PARAMETRIJSKI

– za ispitivanje veza između numeričkih varijabli koje su

normalno distribuirane

– i za varijable koje imaju samo 2 kategorije – BINARNE

VARIJABLE (spol)

– Odnosno kada imamo kombinaciju NUMERIČKA i

NUMERIČKA ili BINARNA i NUMERIČKA

• Kendallov tau-b koeficijent i Spearman rho koeficijent

• NEPARAMETRIJSKI TESTOVI

– Za ispitivanje snage veze između ORDINALNIH

varijabli, i NUMERIČKIH varijabli koje nisu normalno

distribuirane

Korelacija: testovi u SPSS-u

167

• U SPSS-u (Statistics/Correlate/Bivariate)

– Tu su sva 3 tipa korelacija

• označimo koji želimo s obzirom na tip varijable

• Označimo Flag significant correlations da nam SPSS

označi statistički značajne rezultate

– Primjer Pearsonove korelacije:

• Pitanje: Da li postoji veza između godina života i

završenih godina obrazovanja u Hrvatskoj?

Primjer: numeričke varijable

168

Pearsonov koeficijent korelacije:

169

Pearsonov koeficijent korelacije:

Correlations

1,000 -,419**

, ,000

1453 1429

-,419** 1,000

,000 ,

1429 1456

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Age of respondent,calculated

Years of full-timeeducation completed

Age ofrespondent,calculated

Years off ull-time

educationcompleted

Correlation is signif icant at the 0.01 level (2-tailed).**.

170

• Prvo gledamo Sig. = tu je Sig. 0,000 i SPSS nam odmah

označava Pearsonov koeficijent sa dvije zvijezdice (**)

– Veza između godina života i godina obrazovanja je statistički

značajna (na razini od 0,01). Sa 99 postotnom razinom

pouzdanosti možemo reći da veza među ovim pojavama

postoji u populaciji, a ne samo u uzorku koji testiramo.

Kako interpretiramo rezultat?

171

• Ako je rezultat značajan, onda možemo krenuti u

interpretaciju koeficijenta

– Smjer veze:

• Pearsonov koeficijent je negativan (-,419), što znači da je veza

između godina života i godina obrazovanja negativna.

– Stupanj veze (rule of thumb)

• Slaba veza: 0.1 to 0.3 ili -0.1 to -0.3

• Srednja veza: 0.3 to 0.5 ili -0.3 to -0.5

• Jaka veza: 0.5 to 1.0 ili -0.5 to -1.0

• Između godina života i godina obrazovanja u Hrvatskoj postoji

srednje jaka veza.


172

• Ako testiranje nije statistički značajno onda samo

napišemo:

– Rezultati korelacije nisu statistički značajni, nemamo

dovoljno dokaza da donosimo bilo kakve zaključke o

pojavama u populaciji na temelju ovog uzorka.

• I ne interpretiramo dalje rezultate.


173

• Interpretacija je slična

• Samo su varijable koje testiramo drugačije

– Ili ordinalne ili nisu normalno distribuirane

– U ispitu uvijek zatražiti oba testa korelacije

• Razlika između Kendallov tau-b koeficijent i Spearman rho

koeficijenta je u interpretaciji

– Kendall:

• ista interpretacija kao Pearson koeficijent (stupanj

povezanosti), samo što se računa iz rangiranih vrijednosti

– Spearman:

• predstavlja razliku između vjerojatnosti da su dvije varijable

identične te vjerojatnosti da su dvije varijable sasvim nezavisne

jedna od druge.

Kendallov tau-b i Spearmanov rho

174

Kendallov tau-b i Spearmanov rho

Correlations

1,000 -,273**

, ,000

1453 1429

-,273** 1,000

,000 ,

1429 1456

1,000 -,373**

, ,000

1453 1429

-,373** 1,000

,000 ,

1429 1456

Correlation Coef f icient

Sig. (2-tailed)

N


Sig. (2-tailed)

N


Sig. (2-tailed)

N


Sig. (2-tailed)

N





Kendall's tau_b

Spearman's rho

Age ofrespondent,calculated

Years off ull-time

educationcompleted

Correlation is signif icant at the .01 level (2-tailed).**.

175

Što korelacija nije?

• U malom gradiću u Illinoisu je uočen čudna pojava.

Lokalni šerif je uočio da je stopa kriminala rasla

zajedno s većom potrošnjom sladoleda. Kada bi

potrošnja sladoleda padala, padala bi i stopa kriminala.

• Da smo ucrtali podatke u graf raspršenosti uočili bi

jasnu povezanost između te dvije pojave. One su

pozitivno povezane (korelirane).

176


• Da li netko zna rješenje tog problema? – Toplije vrijeme :

• ljudi su opušteniji

• Prozori su otvoreni

• Više vremena provode vani

• I jedu sladoled

177

• Korelacija ne dokazuje uzročno-posljedičnu vezu

– Ona nam samo govori da nekakva veza između dvije

pojave postoji

– Zato ne možemo govoriti o nezavisnim i zavisnim

varijablama u ovom kontekstu

– KORELACIJA NIJE KAUZACIJA!


178

Primjer interpretacije rezultata (4 elementa)

• Veza između stava prema EU unifikaciji i razine

obrazovanja je statistički značajna na razini testiranja

od 0,01. Sa 99 postotnom razinom pouzdanosti

možemo reći da veza među ovim pojavama postoji u

populaciji, a ne samo u uzorku koji testiramo.

• Kendallov koeficijent iznosti 0,062, a Spearmanov

0,085. Veza je izrazito slaba.

• Veza je pozitivna, rastom razine obrazovanja raste i

pozitivan stav prema EU unifikaciji, i padom razine

obrazovanja stav prema EU unifikaciji postaje

negativan (nisu za proširenje). Početna hipoteza je

potvrđena.

179

Hi-kvadrat test povezanosti

• Pretpostavke:

– 2 varijable koje su ordinalne ili nominalne

– 2 ili više grupa unutar svake varijable

180


181


182


183


184

Da li je veza između dvije varijable statistički

značajna?

Ukoliko je veza značajna,

koliko je snažna?

Čitamo Phi ako je tablica

2x2, a Cramerov V za

varijable s više grupa.


185

186

Documents

Uvod u SPSS_sve Prezentacije