STATISTIKA U DRU ŠTVENIM NAUKAMA - fpn.co.me · PDF fileproizvod ‘loše sreće’ u pogledu izbora ispitanika i mislim da kada bi ponovio istraživanje ja ne bih dobio istu vrednost

STATISTIKA U DRUŠTVENIM NAUKAMADRUŠTVENIM NAUKAMA

Nije dosadno, nije strašno. Može biti korisno

SVRHA STATISTIKE

• Statistika u društvenim naukama se koristi u kvantitativnim istraživanjima.

• Kvantitativna istraživanja spadaju u onaj tip istraživanja koja su pozitivističkog tipa i koji se društvenim i političkim fenomenima bave na način da kvantitativno (brojčano) operacionalizuju indikatore.

• Osnovni zadatak statistike u društvenim naukama jeste da ’meri’društvene fenomene, i sa ovog stanovišta pozitivizam kao društvene fenomene, i sa ovog stanovišta pozitivizam kao paradigma kojom je kvantitativan pristup inspirisan počiva na pretpostavci da društveni fenomeni jesu ’merljivi’.

• Da bi se obezbedila merljivost društvenih fenomena, važno je naći njihove kvantitativne dimenzije.

• Na taj način kvantitativni pristup u procesu operacionalizacije svaki fenomen ’vidi’ posredstvom većeg ili manjeg broja varijabli koje predstavljaju kvantitativne aspekte ispitivanog fenomena.

• Svaki od ovih aspekata jeste u osnovi jedna od kvantitativniih dimenzija fenomena o kome je reč.

Univarijantna statistika

• Pod univaraijantnom statistikom se podrazumeva primena onih statističkih procedura posredstvom kojih se opisuje jedna varijabla.

• Deskriptivna statistika koristi numeričke i grafičke metode u cilju opisa i otkrivanja obrazaca nekog seta podataka, sumarizacije podataka i njihovog podataka, sumarizacije podataka i njihovog predstavljanja u prikladnoj formi.

• Najosnovniji vid deskriptivne statistike jeste koričćenje tzv. tabela frekvencije.

• Tabele frekvencije u osnovi predstavljaju distribuciju vrednosti u numeričkom ili procentualnom obliku.

Poverenje u institucije:

Skupština

Grafički prikaz: Poverenje u Skupštinu - %

3,1imam veliko povjerenje

N - 1357

39,5

21,7

24,1

11,6

nemam nimalo povjerenja

imam veoma malo povjerenja

niti im vjerujem niti im ne vjerujem

uglavnom imam povjerenja

Normalna distribucija• Jedno od ključnih pitanja koje se tiče frekvencije jeste pitanje distribucije

vrednosti. • Sa ovog stanovišta, statistika polazi od jedne pretpostavke, a to je ideja o

normalnoj (simetričnoj) distribuciji. • Normalna distribucija znači da su vrednosti ravnomerno rasporeñene na

način da se poštuje tzv. gausova kriva (ova distribucija se naziva i zvono).• Ovakav vid distribucije znači da su srednje vrednosti najfrekventnije a kako

se krećemo ka ‘krajevima’ manja je frekventnost vrednosti na marginama.se krećemo ka ‘krajevima’ manja je frekventnost vrednosti na marginama.• Drugim rečima, normalna distribucija ima karakteristike da aritmetička

sredine nalazi na ‘vrhu’ i da podjednako deli ostale vrednosti. • Normalna distribucija igra veoma važnu ulogu u statistici. • Veliki broj fenomena (varijabli) imaju verovatnoću distribucije koja ima

karakteristike normalne distribucije (npr. krvni pritisak). • Takoñe, gotovo sve statističke metode polaze ili podrazumevaju normalnu

distribuciju.

Distribucija

rasprostranjenost

Centar

Grafikon 1

Primer normalne distribucije

5

6

Histogram

2,00 4,00 6,00 8,00

VAR00002

0

1

2

3

4

Fre

qu

en

cy

Mean = 5,00Std. Dev. = 1,7581N = 23

Skupština - poverenje

Asimetrična distribucija

• Nasuprot normalnoj distribuciji razlikujemo tzv. asimetričnu distribuciju

• Ovakav oblik distribucije podrazumeva raspodelu vrednosti na način da su krajnje raspodelu vrednosti na način da su krajnje vrednosti frekventnije od srednjih vrednosti (takozvana U - kriva suprotna Gausovoj krivi).

• U ovim slučajevima mere centralne tendencije imaju malu vrednost obzirom da je standardna devijacija velika.

Primer asimetrične distribucije –

NAPOMENA: Asimetrična distribucija je jedan od ključniih problema kada se koriste

statističke procedure kako univarijantne tako i multivarijantne.

Distribicije sa jednim i dva vrha (pika)Vrh 1 Vrh 2

Vrh 1

Mere centralne tendencije

• Mere centralne tendencije predstavljaju statističke vrednosti sumarnog tima koji imaju za cilj da veliki broj vrednosti na jednoj varijabli sumarno iskažu zajedničkom kvantitativnom odrednicom.

• Sve mere centralne tendencije imaju dve karakteristike:– prvo, centralnu tendenciju tj. centriranu vrednost koja numerički – prvo, centralnu tendenciju tj. centriranu vrednost koja numerički

i sumarno daje podatak o jednoj varijabli– drugo, varijabilnost tj. rasprostranenost vrednosti oko centralne

tendencije.

• Tipične mere centralne tendencije su aritmetička sredina, medijana i modus.

Aritmetička sredina

• Aritemetička sredina predstavlja jednu od najčešćih mera centralne tendencije koja se koristi za statistiku zaključivanja ili služi kao osnov za primenu sofisticiranijih statističkih metoda. metoda.

• Aritemtička sredina predstavlja sumu vrednosti konstinuiranog niza podeljenog sa ukupnim bojem vrednosti.

• Formula za izračunavanje aritmetičke sredine je:

Kalkulacija za Aritmetičku sredinu

n

n

iix

x

∑== 1

Za niz brojeva 5,3,8,5,6 aritmetička sredina je:

x 5

1

∑=

n

i

ix

5

65835 ++++5

27= = = = 5.4

Medijana

• Medijana predstavlja srednji broj kontinuiranog niza brojeva kada su vrednosti poreñane od najniže do najviše ili od najviše do najniže. ili od najviše do najniže.

• Ukoliko je niz brojeva neparan, onda je medijana broj u sredini.

• Ukoliko je broj paran, onda je medijana srednja vrednost srednja dva broja.

Medijana primer

• Npr. Ako se varijabla sastoji od 7 brojeva 5,7,4,5,20,6 i 2 onda se medijana izračunava:

• 2,4,5,5, 6,7,20 M = 5 (broj u sredini posmatrano s krajevas krajeva

•Ukoliko je pak varijabla sa parnim brojem brojeva (n=6) , npr. varijabla 4,5,5,6,7,20 onda se medijana izračunava:

• 4,5,5,6,7,20 M = (5+6)/2 = 5.5

Distribucija 1


Medijana

Grafikon 3

Distribucija 2


Medijana

Grafikon 4

Distribucija 3

MedijanaAritmetička sredina

Grafikon 5

Modus

• Modus najčešća vrednost koja se pojavljuje u jednom setu brojeva. Npr. ako je set brojeva: 3,4,6,1,8,8,9,3,4,6,8,2,3,8,8,0,9,8,4,5,6,8,33,4,6,1,8,8,9,3,4,6,8,2,3,8,8,0,9,8,4,5,6,8,3,3,4,7,8,9,8,0,8,5,8,

• Onda je modus = 8, dakle, broj koji se najviše puta pojavio u nizu.

Deskriptivna statiskitka – poverenje u Skupštinu

Skor na kolokvijumu distribucija

Descriptives

13.43 .594

12.25

14.60

Mean

Lower Bound

Upper Bound

95% ConfidenceInterval for Mean

SUMStatistic Std. Error

13.57

15.00

52.287

7.231

0

26

26

11

-.484 .199

-.781 .396

5% Trimmed Mean

Median

Variance

Std. Deviation

Minimum

Maximum

Range

Interquartile Range

Skewness

Kurtosis

Moguće distribucije sa istom aritmetičkom sredinom

Grafikon 2

Varijabilnost

• Obzirom da je varijabilnost veoma važna karakteristika svake distribucije, u statistici postoje numeričke mere varijabilnosti.

• Prema tome, mere centralne tendencije samo parcijalno opisuju podatke, te su prema tome parcijalno opisuju podatke, te su prema tome mere varijablinosti nužne za potpuni opis neke varijable.

• Drugim rečima, centralna tendencija uz mere varijabilnosti nam pomaže da vizualizujemo oblik jedne distribucije.

Opseg (Range)

• Opseg (Range) je najjednostavnija mera varijabilnosti i on odgovara razilici izmeñu najveće i najmanje vrednosti u nizu. Npr, ako je niz brojeva 2,3,5,8,20,40, onda je ako je niz brojeva 2,3,5,8,20,40, onda je Opseg = 40 – 2 = 38

Varijansa i Standardna devijacija

• Standardna devijacija je jedna od ključnih mera varijabilnosti koja ukazuje u kojoj su meri vrednosti udaljene od aritmetičke sredine.

• Da bi izračunali standardu devijaciju nužno je prvo izračunati varijansuprvo izračunati varijansu

• Varijansa pretpostavlja da je n brojeva u datom uzorku jednak sumi kvadrata distance od aritmetičke sredine podeljeno sa ukupnim brojem vrednosi minus 1 ( n-1). Varijansa se izračunava po sledećoj formuli:

Kalkulacija za varijansu i SD

1

)( 2

1

−

−∑=

n

xx i

n

i2s =

22222 −+−+−+−+−

Npr. ako je niz brojeva 1,2,3,4,5, aritmetička sredina je 3 i onda je varijansa:

2s15

)35()34()33()32()31( 22222

−

−+−+−+−+−

4

41014 ++++=

= 2.5=

Na osnovu varijanse se izračunava standardna devijacija, a ona predstavlja pozitivni kvadratni koren varijanse. Evo formule:

2ss =

5.2=sPrema tome u našem primeru SD je: = 1.58

Empirijsko pravilo za interpretaciju standardne devijacije

• Ukoliko je distribucija normalna:

– Oko 68% vrednosti će biti obuhvaćene +/- 1S

– Oko 95% vrednosti će biti obuhvaćene +/- 2S– Oko 95% vrednosti će biti obuhvaćene +/- 2S

– Oko 99,7% vrednosti će biti obuhvaćene +/- 3S

Upotrebljivost

• Ako su prosečna primanja u Srbiji 300 EUR sa standardnom devijacijom 130 EUR. To znači da oko 68%populacije ima primanja izmeñu 170 i 430 EUR i oko 95% populacije ima platu od 40 do 560 EUR (da li je ovo sluča i ako nije šta iz toga sledi?)

• Ako prosečan gradjanin provede 3 sata pored televizora • Ako prosečan gradjanin provede 3 sata pored televizora dnevno sa standardnom devijacijom od 1 sat, to znači da oko 68% populacije provodi pored TV-a izmeñu 2 i 4 sata i 95% populacije gleda TV izmeñu 1 i 5 sati

• Ako je prosečna ocena na skali od 1-5 za X političara 3.0 sa standardnom devijacijom 1.5, to znači da ovog političara 68% populacije ocenjuje ocenom od 1.5 do 4.5

34,15%34,15%

16%16%

-1σ +1σ

95,45%2,3%2,3%

σσ

Grafikon 1 Grafikon 2

-1σ +1σ +2σ-2σ

-3σ +3σ

99,73%

0,135% 0,135%

Grafikon 3


DVA KLJUČNA STANDARDA KOJA ĆE KASNIJE UNIVERZALNO VAŽITI ZA ODREðIVANJE STATISTIČKE ZNAČAJNOSTI (TZV. p vrednost (α) )

95%

2,5% 2,5%

-1,96σ +1,96σ +2,58σ-2,58

99%

0,5%0,5%


Kriterijum za intervale poverenja

• Grafikoni pokazuju koji procenat opservacija je obuhvaćen aritmetičkom sredinom i bilo koje druge vrednosti kada je kriterijum za merenje distance standardna devijacija

• Radi testiranja hipoteza, a ovo će biti predmet na sledećem predavanju, u statistici se koriste dva sledećem predavanju, u statistici se koriste dva standarda, 95% i 99% i ovo su prema tome dva uobičajena intervala poverenja u okviru kojih interpretiramo rezultate

• Na grafikonima uočiti i zapamtiti da je 95% interval poverenja +/- 1,96 standardne devijacije, a 99% interval poverenja +/- 2,58 standardne devijacije

Procena poverenja u dobijenu vrednost aritmetičke sredine

• Aritmetička sredina je ključna mera centralne tendencije zato što veliki broj statističkih metoda kojima se testiraju hipoteze operiše sa ovim parametrom

• No obzirom da je ovaj podatak proizvod procene koji se bazira na uzorku, postavlja se pitanje

• No obzirom da je ovaj podatak proizvod procene koji se bazira na uzorku, postavlja se pitanje njegove preciznosti, ili drugim rečima, uzorak po sebi sadrži grešku merenja, jer znamo da je:

µ približno jednako • S toga, ključna stvar jeste da na neki validan

način procenimo poverenje koje možemo imati u dobijeni podatak.

−

x

DIjalog

• Istraživač: Ja sam obavio istraživanje na bazi slučajnog uzorka i na osnovu rezultata sam dobio podatak da je aritmetička sredina ukupnog broja završenih godina školovanja u Srbiji 11,87. Budući da sam očekivao da je ta srednja vrednost manja, mora da je neki problem sa uzorkom

• Statističar: Zašto bi problem bio sa uzorkom, je li uzorak bio slučajan ili nije?• Istraživač: Da, bio je slučajan i ukupno je bilo 1000 ispitanika• Statističar: A kolika je standardna devijacija?• Istraživač: 3.083• Statističar: (nekoliko minuta provodi za računarom i zaključuje)...Ne, ne, sve • Statističar: (nekoliko minuta provodi za računarom i zaključuje)...Ne, ne, sve

je u redu, podatak koji si dobio je sasvim OK, u čemu je problem?• Istraživač: Pa problem je u tome što ja mislim da je rezultat mog istraživanja

proizvod ‘loše sreće’ u pogledu izbora ispitanika i mislim da kada bi ponovio istraživanje ja ne bih dobio istu vrednost.

• Statističar: Vidi, imaš sreće, ja slučajno imam podatke sa popisa o celokupnoj populaciji koji uključuju podatke o broju završenih godina školovanja. Ako želiš mogu da izvučem jedan uzorak od isto tako 1000 ispitanika da proverimo.

• Istraživač: Sjajno! Uradi to što pre...• Statističar: Evo odmah, to nije nikakav problem imamo bazu podataka u

računaru. Izvukao sam jedan uzorak i dobio sam podatak da je na bazi tog uzorka prosečan broj godina školovanja 11,79, dakle, sve je uredu sa tvojim istraživanjem.

• Istraživač: Pa, prosek koji si ti dobio jeste ipak malo manji od onog koji sam ja dobio, biće ipak da sam ja bio loše sreće... Iako je i taj podatak daleko iznad mog očekivanja

• Statističar: Ne, ne slažem se da si bio loše sreće evo, napravićemo dvadeset uzoraka pa da proverimo:

• Uzorak 2: 11,88 Uzorak 3: 12,01 Uzorak 4: 12,06• Uzorak 2: 11,88 Uzorak 3: 12,01 Uzorak 4: 12,06

• Uzorak 5: 11,92 Uzorak 6: 11,69 Uzorak 7: 11,71

• Uzorak 8: 12,04 Uzorak 9: 11,77 Uzorak 10: 11,99

• Uzorak 11:11,71 Uzorak 12:11,95 Uzorak 13: 12,05



• Uzorak 20:11,85

• Istraživač: Vidi, sve vrednosti koje si dobio su jako blizu, jesi li ti siguran da je sve u redu sa računarom?

• Statističar: Naravno da sam siguran, ja ne znam na osnovu kojih informacija si ti bazirao svoja očekivanja, ali koliko vidim od 20 uzoraka, samo jedna vrednost koju sam dobio u uzorku br 18, tačnije da je prosek 11,59, je izvan intervala poverenja koji sam mogao da izračunam na osnovu tvog proseka, dok je prosek svih ostalih uzoraka u okviru intervala poverenja od 95%.

• Istraživač: O kakvim to intervalima govoriš?• Statističar: Govorim o intervalu povrenja od 95%, naime to je klasičan

standard koji validira dobijene podatke, naročito kada je reč o aritmetičkoj sredini

• Istraživač: I kako si to izračunao moliću lepo?• Statističar. Jednostavno, rekao si da si dobio prosek 11,87, da ti je uzorak

bio slučajan sa ukupnim brojem od 1000 ispitanika i da je standardna bio slučajan sa ukupnim brojem od 1000 ispitanika i da je standardna devijacija 3,083

• Istraživač: Tačno tako, i šta s tim?• Statističar: Dakle, po tvojim podacima možemo reći da je verovatnoća da je

aritmetička sredina koju si dobio rezultat ‘loše sreće’ jednaka verovatnoći 1: 20

• Istraživač: Kako to?• Statističar: Jednostavno, svaka aritmetička sredina po prirodi stvari budući

da je rezultat uzorka a ne čitave populacije sadrži standardnu grešku merenja. Ova greška se izračunava tako što se standardna devijacija (3,083) podeli sa kvadratnim korenom ukupnog broja ispitanika:

• Statističar: Dakle, kad obavim ovu operaciju dobijam vrednost da je greška aritmetičke sredine 0,098. Na osnovu toga ja znam sa 95% sigurnosti da se prosek ukupnog broja školovanja u Crnoj Gori kreće: 11,87± 1.96*0.098

• Statističar: Ili tačnije, sa 95% poverenja znam da je tvoja aritmetička sredina izmeñu 11,68 i 12,06. Ukoliko pogledaš aritmetičke sredine koje smo dobili na osnovu 20 uzoraka, jasno je da samo jedan uzorak (br 18 gde je aritmetička sredina 11,59) ima aritmetičku sredinu koja nije u okviru ovog intervala, što je potpuno u skladu sa samim intervalom, jer je 1 uzorak od 20 tačno iznosi 5% verovatnoće.

• Istraživač: Sad sam zbunjen, šta tačno hoćeš da kažeš?• Statističar: Hoću da kažem da ukoliko biramo 100 uzoraka u 95 od njih naći

ćemo da se aritmetička sredina broja završenih godina školovanja kreće u rasponu od 11,68 do 12,06, a u 5 od tih uzoraka možemo naći da to nije tako. Ovo je razlog da govorimo u kategorijama 95% intervala poverenja, i da kažemo da možemo prilično (sa 95% sigurnosti) biti uvereni u podatak. da možemo prilično (sa 95% sigurnosti) biti uvereni u podatak.

• Istraživač: Dobro, ali nikako mi nije jasna matematika koju si izveo za taj interval, tačnije, jasno mi je kako si izračunao standardnu grešku aritmetičke sredine, ali nikako mi nije jasno zašto si tu grešku množio sa 1,96???

• Statističar: Jednostavno zato što tako preporučuje centralna granična teorema, naime, ako je distribucija normalna, onda polje koje pokriva 95% vrijanse sa obe strane distribucije ostavlja prostor od po 2,5% na krajevima distribucije a 2,5% polja odgovara vrednosti od 1,96 standardne devijacije. Dakle, 2,5% površine znači da standardnu grešku aritmetičke sredine moramo množiti sa 1.96, a onda dobijenoj vrednosti dodati i oduzeti tih 2,5% sa obe strane

• Istraživač: Dobro, dobro, predajem se.... Prihvatama da je podatak koji sam dobio sasvim dobar

• Statističar: On je onoliko dobar koliko smo to izrazili 95% intervalom poverenja, ni više ni manje od toga......

Aritmetičke sredine na većem broju uzoraka iste populacije

Primer iz dijaloga

N-1000

95% CI= od 11,68 do 12,06

(11,87- 1.96*0.098) < 95%CI < (11,87- 1.96*0.098)

99%CI

(11,87- 2.58*0.098) < 95%CI < (11,87- 2.58*0.098) (11,87- 2.58*0.098) < 95%CI < (11,87- 2.58*0.098)

99% CI= od 11,62 do 12,12

Mean 11,87

95% Confidence Interval for Mean

Lower Bound 11,68

Upper Bound12,06

99% Confidence Interval for Mean

Lower Bound 11,62

Upper Bound 12,12

Još nekoliko statistikaDescriptives

11,87 ,098

11,68

12,06

12,08

12,00

9,504

3,083

0

Mean

Lower Bound

Upper Bound

95% ConfidenceInterval for Mean

5% Trimmed Mean

Median

Variance

Std. Deviation

Minimum

Ukupan broj zavrsenihgodina skolovanja

Statistic Std. Error Extreme Values

727 22

83 21

398 20

616 20

857 20

1004 0

956 0

1

2

3

4

5

1

2

3

Highest

Lowest


Case Number Value

22

22

2

-1,198 ,078

3,743 ,156

Maximum

Range

Interquartile Range

Skewness

Kurtosis

M-Estimators

12,05Ukupan broj zavrsenihgodina skolovanja

Huber'sM-Estimator

a

The weighting constant is 1,339.a.

Percentiles

8,00 8,00 11,00 12,00 13,00 16,00 16,00

11,00 12,00 13,00



WeightedAverage(Definition 1)

Tukey's Hinges

5 10 25 50 75 90 95

Percentiles

836 0

813 0

776 0a

3

4

5

Only a partial list of cases with the value 0 are shown in the tableof lower extremes.

a.

A.S. i S.D. – Poverenje u Institucije

Descriptive Statistics

1357 1 5 2,17 1,163

1386 1 5 2,81 1,367

1393 1 5 2,38 1,233

Poverenje u institucije:Skup{tina

Poverenje u institucije:Predsednik

Poverenje u institucije:Vlada

N Minimum Maximum Mean Std. Deviation

1393 1 5 2,38 1,233

1405 1 5 2,58 1,296

1386 1 5 2,29 1,219

1368 1 5 3,11 1,384

1322 1 5 1,87 1,052

1392 1 5 3,88 1,311

1131

Vlada

Poverenje u institucije:Policija

Poverenje u institucije:Sudstvo

Poverenje u institucije:Vojska

Poverenje u institucije:Politi~ke partije

Poverenje u institucije:Srpsku pravoslavnu crkvu

Valid N (listwise)

T-test• Jedno od najčešćih pitanja koje se postavlja kada je

statistika u pitanju jeste, da li postoje statistički značajne razlike izmeñu vrednosti na dvema varijablama

• Npr. u slučaju našeg kolokvijuma, da li su statistički značajne razlike izmeñu srednje vrednosti sudenata i studentkinja

• Ovo konkretno pitanje bi ukazivako na to da ukoliko su • Ovo konkretno pitanje bi ukazivako na to da ukoliko su ove razlike statistički značajne, onda je test za jednu od ove dve grupe bio teži

• Tačnije za onu grupu kod koje merimo manju aritmetičku sredinu.

• Za ovu svrhu se koristi T-test. • On predstavlja jednostavan način da se izračuna

statistička značajnost razila izmeñu aritmetičkih sredina. • Obzirom da se različite aritmetičke sreine mogu koristiti

kao osnov za merenje mi razlikujemo nekoliko vrsti T-testova.

Čemu T-test

• Upareni T-test testira nultu hipotezu koja glasi:‘ne postoje statistički snačajne razlike izmeñu jednog para aritmetičkih sredina’.

• Ukoliko je statistička značajnost (p vrednost) veća od 0.05, onda je nulta hipoteza potvrñena.veća od 0.05, onda je nulta hipoteza potvrñena.

• Meñutim, ako je p vrednost manja od 0.05, onda je nulta hipoteza opovrgnuta, ili tačnije u tom slučaju tvrdimo: ‘ne može se reći da ne postoje statistički značajne razlike izmeñu jednog para varijabli’.

Studentova distribucija

t (df = 5)

t (df = 12)

normalna

Grafikon 1

t (df = 5)

Stepeni slobode• Na grafikonu 1 se može videti poreñenje izmeñu dve verzije t distribucije • Iz prikaza se može videti da što je veći broj stepeni slobode (degrees of freedom - df), to se

i t distribucija približava ‘normalnoj’ distribuciji• Broj stepena slobode (df) je prema tome je prema tome važna i konstitutivna karakteristika

same disribucije• Prema tome, distribucija zavisi od broja stepena slobode i u svakom pojedinom slučaju mi

moramo statističku značajnost da računamo u odnosu na distribuciju koja je rezultat odreñenog broja stepena slobode

• Broj stepena slobode direktno zavisi od broja opserviranih vrednosti od kojih zavisi • Broj stepena slobode direktno zavisi od broja opserviranih vrednosti od kojih zavisi standardna greška merenja.

• Kada je reč o standardnoj greški aritmetičke sredine onda:df = n-1

• Dakle, broj stepeni slobode kada je testirani statistik aritmetička sredina je broj opservacija minus 1 (napomena: za druge statistike ovaj princip ne važi)

• DF je prema tome deskriptivni alat, i on usnovi prikazuje koliko iznosi broj opservacija u setu podataka koji su slobodni da variraju kada kalkulišemo željeni statistik.

• Drugim relima, kada merimo standardnu devijaciju, mi oduzimamo aritmetičku sredinu od svake vrednosti n.

• U ovom postupku, kada oduzmemo pretposlednju vrednost, automatski znamo vrednost finalne devijacije budući da suma svih devijacija mora biti jednaka 0

• Prema tome, poslednja devijacija nema slobodu varijacije, samo n-1 može da varira.

Statistička značajnost t testaFORMULA ZA IZRAČUNAVANJE t TESTA

• Dakle, denominator u formuli izračunavanja t statistika je i sam statistik, što znači da je njegova vredsnost podložna fluktuacijama koje su rezultat uzorkovanja.

• Obzorom da t distribucija počiva na pretpostavci manjeg broja opservacija, sasvim je razumno očekivati spljošteniju distribuciju sa dužim ‘krajevima’.

xs

xxt

−=

• Dok je u slučaju normalne distribucije 95% površine unutar +/- 1,96 standardne devijacije, a 99% unutar +/- 2,58 standardne devijacije aritmetičke sredine, ovo nije slučaj kada je reč o t distribuciji.

• Budući da je t distribucija ‘spljoštenija’ sa dužim ‘krajevima’ više od 5% područja biće iza +/- 1,96 standardne devijacije i više od 1% će biti iza +/- 2,58 standardne devijacije

• Koliko više, zavisi od konkretne distribucije broja stepeni slobode (df)• Što je manji broj stepana slobode, distribucija će biti spljoštenija i ‘krajevi’ će biti duži• Proističe, da što je manji df mi ćemo morati da idemo dalje od +/- 1,96 standardne

devijacije aritmetičke sredine kako bi obuhvatili 95% distribucije i jednako moramo ići dalje od +/- 2,58 standardne devijacije aritmetičke sredine kako bi obuhvatili 99% distribucije

Odreñivanje statističke značajnosti testa

• Isto kao i u slučaju z statistika, i t test koristi tabelu u kojoj za odreñenu vrednost t testa za dati broj stepena slobode mi možemo odrediti statističku značajnost

• Šta se zapravo meri? Isto kao i u slučaju z statistika, mi merimo verovatnoću da je neka distribucija rezultat ‘greške’ uzorkovanja, dakle, logika je i oba slučaja identična, samo su kriterijumi u odnosu na različitu ‘greške’ uzorkovanja, dakle, logika je i oba slučaja identična, samo su kriterijumi u odnosu na različitu distribuciju drugačiji

• Konkretno, na osnovu tabele se može videti da je za pokrivanje 95% područja distribucije za df =11 potrebna vredsnost t = +/-2,04; dok je za 99% potrebno t= +/-3,11

• Meñutim, ako je df = 30, onda je za 95% potrebno t=2,04 a za 99% je potrebno t=2,75, što je vrlo blizu z statistik-u (1,96 za 05% i 2,58 za 99%)

Korišćenje t testa za testiranje hipoteza

• Matematički, kada testiramo hipoteze u koristi se isti postupak kao kada je reč o z statistiku, s tom razlikom što se kod t testa statistička značajnost izračunava u odnosu statistička značajnost izračunava u odnosu na dati broj stepena slobode. Prema tome formula je:

PRIMER 1

• Recimo da smo utvrdili da je prosek na skali religioznosti u meñu učenicima čestvrtog razreda srednje škole 20 indexnih poena

• Pretostavimo da nas interesuje da li je religioznost veća ili manja kod jednog odreñenog odeljenja u odnosu na čitavu školučitavu školu

• Budući da smo koristili uzorak iz datog odeljenja koje je predmet našeg naše analize, mi imamo samo deset opservacija iz ovog odeljenja. Dakle, t test je jedino rešenje obzirom da se radi o malom broju opservacija.

• Na uzorku ovog odeljenja od 10 studenata aritmetička sedina je 21,2 a standardna devijacija s=3,4

PREMA TOME...

• a znamo da je

Sledi: t= 11.108.1

0.202.21=

− df =9

• Za df=9, ako pogledamo tabelu, potrebno je da t bude jednako ili veće od 2,26 kako bi postigli p<0,05

• Drugim rečima, t=1.11 je razlika izmeñu aritmetičkih sredina koja je pre rezultat ‘greške’ merenja na osnovu uzorka nego što je je rezultat razlika koje posotoje izmeñu jednog i ostalih odeljenja, i prema tome mi odbacujemo nultu hipotezu

08.1

PRIMER 1 grafički

p2

1p

2

1

Ho

t (df=9)

p2

1

2.26-2.26 0

p=0.025p=0.025

p2

1 p2

1

1.11

20 21.2

T test za dve aritmetičke sredine kada znamo varijansu obe distribucije

• U situaciji kada na osnovu relativno malog broja slučajeva (recimo manje od 30 – standardni kritetijum za mali uzorak) želimo da uporedimo aritmetičke sredine kako bi testirali hipoteze, koristimo matematičku formulu koja uzima u obzir činjenicu da nam je poznata varijansa za obe distribucije koje su predmet našeg posmatranja. Formula je naizgled složena ali je u biti jednostavna:

)11

(2

)1()1(

)()(

2121

2

22

2

11

2121

nnnn

snsn

xxt

+−+

−+−

−−−=

µµ

Primetiti da , jeste broj stepeni slobode (df) 221 −+ nn

PRIMER 2

• Imamo dve grupe učenika pri čemu su istu materiju ovi studenti savladavali korišćenjem različitih metoda nastave i mi smo im dali isti test na kraju godine ne bi li proverili da li postoji razlika izmeñu metoda 1 i metoda 2 nastave.razlika izmeñu metoda 1 i metoda 2 nastave.

• Uzeli smo pet učenika kao reprezentativne za metod 1 i pet učenika za metod 2.

• Grupa 1 je imala 27 poena na testu a grupa 2 je imala 31 poen. Standardne devijacije:

dok 122 =s91 =s

PREMA TOME...

)11

(2

)1()1(

)()(

2121

2

22

2

11

2121

nnnn

snsn

xxt

+−+

−+−

−−−=

µµ

60.07.6

4

)5

1

5

1(

255

)12(4)9(4

)0()3127(

22−=

−=

+−+

+

−−=t

df=5+5-2=8

PRIMER 2 grafički

p2

1p

2

1

Ho

t (df=8)

p2

1

2.31-2.31 0

p=0.025p=0.025

p2

1p

2

1

t=-0.60

0-4

7.621=− xx ss

Upareni T-test – Poverenje: Sudstvo - Vlada

Paired Samples Statistics

2,37 1353 1,227 ,033

2,27 1353 1,215 ,033

Poverenje uinstitucije: Vlada

Poverenje uinstitucije: Sudstvo

Pair1

Mean N Std. DeviationStd. Error

Mean

Paired Samples Test

,106 1,254 ,034 ,039 ,173 3,110 1352 ,002Poverenje u institucije:Vlada - Poverenje uinstitucije: Sudstvo

Pair1

Mean Std. DeviationStd. Error

Mean Lower Upper

95% ConfidenceInterval of the

Difference

Paired Differences

t df Sig. (2-tailed)

2,27 1353 1,215 ,033institucije: Sudstvo

t = 3,1; df, 1352 p < 0.01

T test poredjenje pitanja 2 i 5Paired Samples Statistics

2.32 148 1.638 .135

2.25 148 1.745 .143

P2

P5

Pair1


Mean

Paired Samples Test

t = 0,63; df, 147 p > 0.05

.074 1.429 .117 -.158 .306 .633 147 .528P2 - P5Pair 1Mean Std. Deviation

Std. ErrorMean Lower Upper


Difference

Paired Differences


T test poredjenje pitanja 1 i 2Paired Samples Statistics

3.47 148 1.680 .138

2.32 148 1.638 .135

P1

P2

Pair1


Mean

Paired Samples Test

Paired Differences

t = 0,63; df, 147 p < 0.01

1.149 1.430 .118 .916 1.381 9.770 147 .000P1 - P2Pair 1Mean Std. Deviation

Std. ErrorMean Lower Upper


Difference

Paired Differences


Nezavisni T-test

• Nezavisni T-test, ima istu svrhu i logiku kao i upareni s tim što se on upotrebljava u situaciji kada želimo da izmerimo da li postoje statistički značajne razlike jedne postoje statistički značajne razlike jedne iste varijable (aritmetičke sredine) kod dve različite grupe (klase).

• Npr, uporeñujemo aritmetičke sredine ukupnog skora kod muškaraca i žena

Nezavisni T-test – Sudstvo: Žene i Muškarci

Group Statistics

673 2,26 1,197 ,046

709 2,32 1,239 ,047

Polmu{ki

`enski


N Mean Std. DeviationStd. Error

Mean

t= -0.92 df, 1380 p > 0.05,

Independent Samples Test

1,880 ,171 -,920 1380 ,358 -,060 ,066 -,189 ,068

-,921 1379,207 ,357 -,060 ,066 -,189 ,068

Equal variancesassumed

Equal variancesnot assumed


F Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper


Difference

t-test for Equality of Means

Nezavisni T-test – primer: Osnovno i srednje obrazovanje

Group Statistics

423 2,54 1,257 ,061

701 2,14 1,172 ,044

ObrazovanjeOsnovno obrazovanje

Srednje i višeobrazovanje


N Mean Std. DeviationStd. Error

Mean


8,963 ,003 5,406 1122 ,000 ,401 ,074 ,256 ,547

5,312 839,939 ,000 ,401 ,075 ,253 ,549




F Sig.





Difference


t= 5.41 df, 1122 p < 0.01

T test poredjenje izmedju studenata i studentkinja

Group Statistics

33 14.91 7.217 1.256

114 13.11 7.137 .668

RODmuski

zenski

SUMN Mean Std. Deviation

Std. ErrorMean


t= 1.27 df, 145 p > 0.05,


.000 .991 1.269 145 .206 1.795 1.414 -1.000 4.590

1.261 51.512 .213 1.795 1.423 -1.061 4.651



SUMF Sig.





Difference


Ispitivanja veza izmeñu varijabli

• Uobičajen zadatak u statistici jeste ispitivanje odnosa izmeñu sve varijable.

• Odnos izmeñu dve varijable može ići od potpune nepovezanosti, do slučajne povezanosti, preko odreñene veze koja može postojati do uzročno-posledične povezanosti.

• Ispitivanje ovih veza je veoma važno iz praktičnih razloga, npr. od kojih faktora zavisi glasanje za neku partiju, ili da li od mesta kojih faktora zavisi glasanje za neku partiju, ili da li od mesta boravka (selo-grad) zavisi apstinencija na izborima, ili od kojih faktora zavisi opredeljenje političku partiju itd.

• Postoji čitav niz statističkih metoda koji se bavi upravo ovim pitanjima povezanosti izmeñu varijabli. Najjednostavnija metoda je tzv. unakrsna tabela (krostabulacija).

• Evo jednog primera sa našeg kolokvijuma:

Unakrsna tabela

Pol * Da li bi po Vašem mišljenju Srbija treba u budu}nosti da bude ~lanica NATO

Crosstabulation

Nemamodredjeno

Da li bi po Vašem mišljenju Srbijatreba u budu}nosti da bude ~lanica

NATO

= 86,01; df = 2, p = 0,012x

261 339 112 712

36,7% 47,6% 15,7% 100,0%

185 307 283 775

23,9% 39,6% 36,5% 100,0%

446 646 395 1487

30,0% 43,4% 26,6% 100,0%

Count

% within Pol

Count

% within Pol

Count

% within Pol

mu{ki

`enski

Pol

Total

DA NEodredjenomi{ljenje Total

Obrazovanje – NATO

Obrazovanje * Da li bi po Vašem mišljenju Srbija treba u budu}nosti da bude ~lanica NATO Crosstabulation

20 33 46 99CountBez obrazovanjaObrazovanjeDA NE

Nemamodredjenomi{ljenje

Da li bi po Vašem mišljenju Srbijatreba u budu}nosti da bude ~lanica

NATO

Total

2x = 38,8; df = 6, p < 0,01

20,2% 33,3% 46,5% 100,0%

141 183 133 457

30,9% 40,0% 29,1% 100,0%

221 365 166 752

29,4% 48,5% 22,1% 100,0%

51 50 28 129

39,5% 38,8% 21,7% 100,0%

433 631 373 1437

30,1% 43,9% 26,0% 100,0%

% within Obrazovanje

Count


Count


Count


Count


Osnovno obrazovanje

Srednje i višeobrazovanje

Visoko obrazovanje

Total

Godine - HAG

godine * Da li, po Vašem mišljenju Srbija treba u potpunosti da saradjuju sa Haškim

Tribunalom i da izruce sva lica osumnjicena za ratne zlo~ine Crosstabulation

DA NE

Nemamodredjenomi{ljenje

Da li, po Vašem mišljenju Srbija trebau potpunosti da saradjuju sa Haškim

Tribunalom i da izruce sva licaosumnjicena za ratne zlo~ine

Total

2x = 17,26; df = 4, p < 0,01

112 213 94 419

26,7% 50,8% 22,4% 100,0%

177 277 95 549

32,2% 50,5% 17,3% 100,0%

117 279 129 525

22,3% 53,1% 24,6% 100,0%

406 769 318 1493

27,2% 51,5% 21,3% 100,0%

Count

% within godine

Count

% within godine

Count

% within godine

Count

% within godine

18-34

35-54

55+

godine

Total

DA NE mi{ljenje Total

Krostab - pojašnjenje

• Analize distribucije ukazuje da razlike koje primećujemo nisu statistički značajne i za ovu svrhu se koristi - test (Pearson Chi-Square).

• Ovaj test ispituje hipotezu da li je distribucija vrednosti po redovima i kolonama nezavisna. Ako je statistička značajnost mala (p<0.05), to nam ukazuje da je moguće da postoji izvesna veza izmeñu varijabli. značajnost mala (p<0.05), to nam ukazuje da je moguće da postoji izvesna veza izmeñu varijabli.

• Ako je pak p>0.05 onda možemo reći da ne postoji veza izmeñu varijabli, što je naš slučaj, ili drugim rečima, u našem slučaju ne postoje statistički značajne razlike izmeñu studenata istudentkinja kada su rezultati kolokvijuma u pitanju.

• Test ispituje utvrñenu distribuciju u odnosu na normalnu distribuciju a formula je:

Hi-kvadrat - formula

∑−

=ocekivanautvrdjena

x2

2 )(∑=

svecelije ocekivanax

Korelacije Korelacije izmeñu dve varijable je daleko značajniji parametar koji nam ukazuje na moguću povezanost izmeñu njih. Ovde je važno imati u vidu da se radi o statističkoj povezanosti, pri čemu nije nužno da se radi o realnoj povezanosti, naime slučajne korelacije su često dešavaju i u tome treba biti oprezan. Najjednostavniji način da se shvati korelacija jeste ideja ‘preklapanja varijanse’, pri čemu podrazumevamo da izmeñu dve klase pojava postoji interferentno polje (tzv. Venovi dijagrami). Ovo interferentno polje pokazuje korelaciju izmeñu varijabli ili onaj deo koijm jedna varijabla objašnjava drugu

x y

korelaciju izmeñu varijabli ili onaj deo koijm jedna varijabla objašnjava drugu varijablu. Ukoliko je interferentno polje veći je i stepen korelacije, ukoliko je ono manje manja je i korelacija. Takoñe, treba obratiti pažnju da na ovom dijagramu krugovi nisu iste veličine, što znači da nije jednaka varijansa za ove dve varijable.

Formula za korelacije i interpretacija

ijansomYukupna

ijansaYobjasnjena

var

var

xyr =

Ukoliko postoji reciprocitet u smislu da sve vrednosti na jednoj varijabli odgovaraju vrednostima na drugoj varijabli korelacija je jednaka jedan (r = 1). Kriterijumi za vrednosti pearsonove korelacije su:r < 0,30 – niska korelacijar > 0,30 a < 0,45 – srednja korelacijar > 0,45 – visoka korelacija

1−=∑n

zzr

yx

Koeficijenti korelacije – dijapazon grafički

Maksimalna pozitivna korelacija

Maksimalna negativna korelacija

Nema korelacije

0 +0.5-0.5

Povećava se stepen negativne korelacije

Povećava se stepen pozitivne korelacije

+ 1- 1

Korelaciona matrica - kolokvijum

Correlations

1 .629** .630** .506** .472**

.000 .000 .000 .000

148 148 148 148 148

.629** 1 .611** .682** .645**

.000 .000 .000 .000

148 148 148 148 148

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

P1

P2

P1 P2 P3 P4 P5

148 148 148 148 148

.630** .611** 1 .495** .614**

.000 .000 .000 .000

148 148 148 148 148

.506** .682** .495** 1 .627**

.000 .000 .000 .000

148 148 148 148 148

.472** .645** .614** .627** 1

.000 .000 .000 .000

148 148 148 148 148

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

P3

P4

P5

Correlation is significant at the 0.01 level (2-tailed).**.

POVERENJE U INSTITUCIJECorrelations

1 .641** .765** .555** .589** .410** .558** .244**

.000 .000 .000 .000 .000 .000 .000

1322 1313 1314 1312 1267 1277 1278 1250

.641** 1 .744** .586** .531** .478** .379** .182**

.000 .000 .000 .000 .000 .000 .000

1313 1402 1348 1378 1316 1331 1313 1313

.765** .744** 1 .595** .619** .433** .573** .192**

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Poverenje u institucije:Skup{tina

Poverenje u institucije:Predsednik

Poverenje u institucije:

Poverenje uinstitucije:Skup{tina

Poverenje uinstitucije:

Predsednik


Vlada


Policija

Poverenje uinstitucije:Sudstvo


Vojska

Poverenje uinstitucije:Politi~kepartije


Srpskupravoslavnu

crkvu

.765** .744** 1 .595** .619** .433** .573** .192**

.000 .000 .000 .000 .000 .000 .000

1314 1348 1359 1350 1307 1311 1311 1282

.555** .586** .595** 1 .592** .577** .389** .269**

.000 .000 .000 .000 .000 .000 .000

1312 1378 1350 1403 1324 1339 1319 1322

.589** .531** .619** .592** 1 .498** .493** .301**

.000 .000 .000 .000 .000 .000 .000

1267 1316 1307 1324 1334 1298 1285 1261

.410** .478** .433** .577** .498** 1 .286** .393**

.000 .000 .000 .000 .000 .000 .000

1277 1331 1311 1339 1298 1354 1289 1285

.558** .379** .573** .389** .493** .286** 1 .217**

.000 .000 .000 .000 .000 .000 .000

1278 1313 1311 1319 1285 1289 1328 1267

.244** .182** .192** .269** .301** .393** .217** 1

.000 .000 .000 .000 .000 .000 .000

1250 1313 1282 1322 1261 1285 1267 1353

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Vlada

Poverenje u institucije:Policija

Poverenje u institucije:Sudstvo

Poverenje u institucije:Vojska

Poverenje u institucije:Politi~ke partije

Poverenje u institucije:Srpsku pravoslavnu crkvu


Korelaciona matrica – primer 1Correlations

1 .070* .097** .149** -.049 .377**

.014 .001 .000 .105 .000

1382 1233 1234 1201 1106 1160

.070* 1 .879** .429** .380** -.020

.014 .000 .000 .000 .515

1233 1258 1234 1167 1089 1104

.097** .879** 1 .477** .389** .034

.001 .000 .000 .000 .263

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

Boris Tadic

Tomislav Nikolic

Aleksandar Vucic

Boris TadicTomislavNikolic

AleksandarVucic

VojislavKostunica

VojislavSeselj

CedomirJovanovic

.001 .000 .000 .000 .263

1234 1234 1257 1182 1098 1111

.149** .429** .477** 1 .404** -.007

.000 .000 .000 .000 .827

1201 1167 1182 1215 1101 1098

-.049 .380** .389** .404** 1 -.003

.105 .000 .000 .000 .919

1106 1089 1098 1101 1120 1036

.377** -.020 .034 -.007 -.003 1

.000 .515 .263 .827 .919

1160 1104 1111 1098 1036 1180

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Vojislav Kostunica

Vojislav Seselj

Cedomir Jovanovic

Correlation is significant at the 0.05 level (2-tailed).*.


Regresiona linija

30

40

R

0,0 5,0 10,0 15,0 20,0 25,0

ECTB

0

10

20

SKOR

Regresiona linija Primer

30

40

0 1 2 3 4 5

I pitanje

0

10

20

SKOR

Linearna regresija

B

Y= Bo+B1x1+.... BnXn+ ei

B

LINEARNA REGRERSIJA

ExBxBxBBY ++++= ......innExBxBxBBY ++++= ......

22110

Linearna regresija - predikcija rezultata na kolokvijuma

Coefficientsa

.406 .492 .825 .411

2.189 .143 .509 15.290 .000

2.407 .138 .581 17.462 .000

(Constant)

P1

P5

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: SUMa.

x1

x2

Y

SKOR = 0,41 + (2,19x 3) + (2,41x2) = 11.8 (student dobio 12)

Model Summary

.936a .875 .874 2.571Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), P5, P1a.

Logisticka regresija

xBxBxBBdogadjanjaaVerovatnoc

......)(

log( +++=nnxBxBxBB

janedogadjanaVerovatnoc

dogadjanjaaVerovatnoc......

)(

)(log(

22110+++=

Logistička Regresija – Prediktori

za referendumsko DAB S.E. df Sig. Exp(B) 95,0% C.I.for EXP(B)

Lower Upper

Srbin -2,366 ,412 1 ,000 ,094 ,042 ,211

Crnogorac 1,347 ,370 1 ,000 3,844 1,863 7,934

Bosnjak_Musliman 1,847 ,415 1 ,000 6,342 2,812 14,3021,847 ,415 1 ,000 6,342 2,812 14,302

Albanac 3,147 ,602 1 ,000 23,265 7,156 75,636

Obrazovanje ,055 ,025 1 ,030 1,056 1,005 1,110

sever -,327 ,224 1 ,144 ,721 ,465 1,119

centar ,037 ,197 1 ,852 1,037 ,705 1,528

Pol -,166 ,145 1 ,250 ,847 ,638 1,124

Starost ,009 ,005 1 ,056 1,009 1,000 1,018

Constant -1,354 ,609 1 ,026 ,258

Logistička regresija – standardizovani regresioni koeficijenti

GRAFIČKI – REGRESIONI KOEFICIJENTI

1,347

1,847

3,147

Srbin

-2,366

1,347

0,055 0,009

Srbin

Crnogorac

Bosnjak_Musliman

Albanac

Obrazovanje

Starost

Documents

STATISTIKA U DRU ŠTVENIM NAUKAMA - fpn.co.me · PDF fileproizvod ‘loše sreće’ u pogledu izbora ispitanika i mislim da kada bi ponovio istraživanje ja ne bih dobio istu vrednost