Kukić, Markić - Metodologija Drustvenih Znanosti

Embed Size (px)

DESCRIPTION

Metode, tehnike, postupci i instrumenti znanstvenoistraživačkog rada,

Citation preview

  • Poglavlje 9

    Rezultat izracunavanja svih ocekivanih vrijednosti u celijama kontingencijske tablice vidljiv je u tablici 9.10.3.b.

    Da Ne Neddlucni Ukupno

    Zene 16.10 95 45 250 116,1 92,2 41,7 250

    Muska rei 99 71 30 200 92,9 73,8 33,3 200

    Ukupno 209 166 75 450

    Tablica 9.10.3.b. Ocekivane vrijednosti u tablici kontingencije

    Slijedeci korak je izracunati hi-kvadrat statistiku x'. Nacin njena izracunavanja je prikazan u ranijem primjeru:

    x' = (Ou- e11) 2 + (012 - e12) 2 + ... + (023 - e,,)' = ell ell e23

    = (110- 116.1)2 + (95- 92.1)' + + (30 - 33.3)' - 151 116.1 92.1 "' 33.3 - .

    Kontingencijske tablice imaju i broj stupnjeva slobode. Broj stupnjeva slobode je uvijek odreden izrazom: (r- 1) x (c -1), gdje je r broj red aka i c broj stupaca.

    Na temelju tablice hi-kvadrat testa za dva stupnja slobode i a = 0.05 kriticna vrijednost za x' je 5.99. Izracunata test statistika je manja od kriticne vrijednosti te se ne moze prihvatiti alternativna hipoteza da muskarci i zene imaju razlicite stavove o kvaliteti proizvoda A s 95% sigurnosti.

    451

  • Metodotogija drustvenih znanosti

    9.10.4 Analiza varijance

    Koncept koji se nalazi u pozadini analize varijance (ANalysis Of VAriance =ANOVA) objasnit ce se na primjeru. Primjer 9.10.4.a.

    U ucenju i rjesavanju matematickih zadataka u upotrebi su tri knjige. Na kraju semestra ocjenjuju se znanja 18 ucenika kojima su podijeljene knjige tako da se knjigom istog autora sluzilo 6 ucenika. Rezultati testa (broj bodova postignut na testu) prikazani su u tablici 9.10.4.a.

    Udzbenik Udzbenik Udzbenik 1 2 3 7 6.10 7 4 8 5 7 6.10 6 4 14 5 3 8 7 7 6.10 5 2 8 6 7 8 7 4 14 6

    Zbroj 45 90 54 Sredina uzorka 5 6.10 6

    Zbroj ocjena za tri uzorka: 189; Sredina tri uzorka: 7.

    Tablica 9.10.4.a. Broj bodova ucenika na testu

    Sredine uzoraka su 5, 6.10 i 6. Jednostavno je uociti varijabilnost broja bodova unutar pojedinih skupina i izmeau skupina. Meautim, teorijski je moguce postojanje i ekstrema u varijabilnosti podataka unutar skupina i izmedu skupina. Prvi ekstrem bi bila situacija kada je u svakoj skupini pojedinacno jednak broj osvojenih bod ova. Nema nikakve varijabilnosti unutar skupine, ali je ona zadrzana izmedu skupina.

  • Poglavlje 9

    Udzbenik Ud:Zbenik Ud:Zbenik 1 2 3

    5 6.10 6 5 6.10 6 5 6.10 6 5 6.10 6 5 6.10 6 5 6.10 6 5 6.10 6 5 6.10 6 5 6.10 6

    Zbroj 45 90 54 Sredina uzorka 5 6.10 6

    Zbroj ocjena za tri uzorka: 189; sredina tri uzorka: 7.

    Tablica 9.10.4.b Nema varijabilnosti unutar skupine

    Slijedeca tablica prikazuje drugi ekstrem. Sredine svake skupine su jednake i iznose tri boda, ali je zadrzana varijabilnost unutar skupine. Nema varijabilnosti izmedu skupina ali postoji unutar skupine. Ta dva ekstrema su rijetka. Cesta i normalna situacija je ona koja zadrZava varijabilnosti izmedu i unutar skupina.

    Udzbenik Udzbenik Udzbenik 1 2 3

    3 6 7 4 2 3 5 4 4 5 7 5 5 6 2 4 5 5 7 4 7 5 3 6 7 8 6

    Zbroj 45 45 45 Sredina uzorka 5 5 5

    Zbroj ocjena za tri uzorka: 135; sredina tri uzorka: 7

    Tablica 9.10.4.c. Nema varijabilnosti izmedu skupina

    453

    , I

  • Metodologija drustvenih znanosti

    Zato je cesto potrebno procjenjivati varijabilnost unutar sku pine i izmedu skupina. To je upravo zadatak analize varijance. U danom primjeru sredina za sve tri sku pine je:

    -- (7 + 4 + 7 ... + 6 + 7 + 6) - 189 - 7 X- 27 - 27 -

    Ukupan zbroj kvadrata (Total Sum of Squares) odstupanja od sredine za sve tri sku pine je:

    SS(Total)= (7-7) 2 + (4-7)' + (7-7) 2 + (4 -7) 2 + (3-7) 2 + (7-7)' +(2 -7)' + (7-7)2 +(4-7)' + (6.10 -7) 2 + (8-7)2 + (6.10 -7)' + (14 - 7)' + (8- 7)' + (6.10- 7)' + (8 -7)' + (8 -7) 2 + (14 -7) 2 + (7- 6) 2

    +(5-7)'+ (6- 7)2 + (5 -7)2 + (7 -7)' + (5 -7) 2+ (6 -7) 2 + (7 -7)2

    + ( 6 -7) 2 = 50 + 66 + 60 = 176.

    Postoji i varijabilnost unutar skupina (zbroj kvadrata odstupanja od sredina pojedinih skupina -Sum of Squared Errors). Taj zbroj je jednak:

    SSE = (7- 5) 2 + (4- 5)2 + (7- 5) 2 + (4- 5)2 + (3 -5)' + (7 - 5) 2 +(2 - 5) 2 + (7 - 5) 2 +(4 - 5)' + (6.10-6.10)' +(8-6.10) 2 + ( 6.10-6.10)'+ ( 14-6.10)'+(8 -6.10)2+ ( 6.10-6.10) 2+ (8-6.10)'+ (8-6.10)'+(14- 6.10) 2 + (7- 6)2 +(5-6)'+ (6- 6) 2 +(5-6)'+ (7 - 6)' + (5- 6) 2 + (6- 6)' + (7- 6) 2 + (6- 6) 2 = 32 + 48 + 6 = 86.

    Mogu se promatrati i zbrojevi kvadrata odstupanja sredina skupina od sredine cijele populacije: (5- 7)2 + (6.10- 7)2 + (6-7) 2 = 4 + 9 + 1 = 14.

    Taj zbroj je potrebno pomnoziti sa devet, on je samo devetina varijance izmedu skupina. Varijanca izmedu skupina je 14*9=126.

    Sad a je potrebno usporediti tri velicine, tri zbroja: zbroj kvadrata odstupanja izmedu skupina, zbroj kvadrata odstupanja unutar skupina i ukupan zbroj kvadrata odstupanja:

    SS(Izmedu skupina) SS(Unutar skupina)

    SS(Ukupno)

    126 86

    212

    Tablica 9.10.4.d. Zbroj kvadrata

    Ukupna varijabilnostje 212 i ona se sastoji iz varijabilnosti unutar skupina (86) uvecana za varijabilnost izmedu skupina. U danom primjeru varijabilnost izmedu skupina je znatno veca od varijabilnosti unutar skupina. Te zbrojeve je ipak potrebno prilagoditi tako sto ce se razmotriti i informacija iz koliko skupina podataka su izracunati ti kvadrati odstupanja. Zbrojevi odstupanja od odgovarajuCih sredina

  • Poglavlje 9.

    ce posluziti za izracunavanje varijanci uzorka. Zbroj kvadrata izmedu skupina ima tri devijacije oko sredine slozenog (kombiniranog) uzorka. Zato je broj stupnjeva slobode 3- 1 = 2, a varijanca uzorka na temelju zbroja kvadrata odstupanja:

    SS(JS) _ 126 _ 63 3-1-2-

    Ta velicina se naziva Mean Square for Treatments (MST). Zbroj kvadrata unutar grupa se sastoji iz tri zbroja kvadrata

    uzorka. Svaki zbroj sadrzi 6 kvadrata odstupanja i zato 3 uzorka imaju ukupno 6*{6-1)= 18-3= 15 stupnjeva slobode. Varijanca uzorka se moze izracunati na temelju tog zbroja odstupanja:

    ~~(~S~ = ~~ = 3.5833 Ta varijacija se naziva Mean Square for Error (MSE). Te dvije varijacije MST, mjeri varijabilnost izmedu skupina, i

    MSE, mjeri varijabilnost unutar skupine, se sad a mogu usporedivati. Njihov odnos je:

    _ MST _ 63 _ F- MSE- 3.5833- 1758

    Taj rezultat pokazuje da je MST 17.58 puta veca od MSE. On je indikator mnogo vec':e varijabilnosti izmedu skupina od varijabilnosti unutar skupina. Naravno, izbor nekih drugih skupina bi dao drugacije rezultate jer bi se sredine skupina najvjerojatnije razlikovale od sredina skupina u danom primjeru dok bi sredina populacije bila nepromijenjena. Ta varijabilnost uzorka se moze analizirati pomoc':u tablice za F distribuciju take sto se odrede stupnjevi slobode za I MST i.kMSE i razina sign6ifikantnos~i. Vrijeddnost u F-tabblici za razi~u '. ' s1gnifi antnosti 0.01 je .36. Izracunati o nos varija ilnosti izmeuu skupina i unutar skupina je 17.58. Moze se zakljui':iti da postoji znacajna razlika u rezultatima ucenika na testu znanja ovisno o udzbeniku kojim se ucenik sluzi u pripremanju za test.

    Rezultati izracunavanja su prikazani u slijedec':oj tablici:

    Izvor varijacije

    Izmedu skupina

    U skupinama

    Zbroj kvadrata Broj stupnjeva odstupanja s!obode

    126 2

    Sredina kvadrata

    63

    86 24 3.583

    Tablica 9.10.4.e. Analiza varijance

    455

    F

    17.58 '.

  • Metodologija drustvenih znanosti

    Jednosmjerna ANOVA je test koji se koristi da bi se testiralo vise neovisnih uzoraka koji dolaze iz populacija sa istom srednjom vrijednosti. Navedeni jednostavni primjer F testa za tri uzorka se moze poopciti i obicno se prikazuje u obliku tablice:

    1 2 3 (2/3) F ~ MST/MSE c;--~--t~-~~-~- -~~--~-!-- -~ 1-~-~--~-j

    f.'l:Czm:.:.:e:.od:..u ::.:'kc~up

  • Poglavlje 9.

    Eile !;_dit '!jew insert FQrmat Iools Q.al

    D ~ lil1 j(, "' E ~~ 0 4l ~ Security... ~~~~~ .

    !:ivotTable

    F6

    U tom primjeru rjesenje je tzv. "one-way AN OVA" jer se analizira samo jedan faktor a on je mjesto izlaganja proizvoda P.

    Korak 1: Postaviti nultu hipotezu. l\lulta hipoteza u testu ANOVA je da su sredine skupina jednake:

    Ho : ll1 = ll2 = il3 = 1l4

    H, : ll, c;t !l, "' il3 "' 1l4 Ako je istinita nulta hipoteza to znaci da su sve cetiri skupine

    iz iste populacije. I te cetiri skupine s njihove cetiri razlicite sredine su samo cetiri tocke na iste distribucije uzorka. Ako je tocna ta hipoteza onda je varijanca izmedu skupina jednaka varijanci unutar skupina.

    457

  • I I

    Metodologija drustvenih znanosti

    Korak 2: Izabrati razinu signifikantnosti. Najcesce su to vrijednosti 0.05 i 0.6.10.

    Korak 3: Izracunati F statistiku upotrebom Excelove Data Analysis. Kliknuti na TOOLS i izabrati DATA ANALYSIS. Iz izbornika DATA ANALYSIS odabrati odgovarajuCi tip ANOVA.

    I Descriotie Statistics jExpon,entiial Smoothing

    Two-Sample for Variances Anal)sis

    I Hisl:oar ''m

    Postoje tri tipa ANOVA analize u Excelu. U danom pnm]eru upotrijebit ce se "Single factor" AN OVA jer se promatra same jed an faktor. Nakon izbora te opcije pojavljuje se izbornik:

    Input Range:

    Grouped By:

    ~abels in first rov,;

    !jlpha: lo,os

    Output options

    (+ Qutput Range:

    C" ~Je1N Worksheet Ely:

    Ne1N Y{orkbook

    i; ~olumns

    fi01NS

  • Poglavlje 9.

    Potrebnoje odrediti ulazne podatke (raspon celija "Input Range"), oznaku za prvi redak ("Labels in First Row") i razinu signifikantnosti ("Alpha"). Nakon klika na opciju OK pojavljuje se slijedeCi rezultat:

    Anov~mgle Factor

    SUMMARY Groups

    Mjest~,'\ Mjesto .B Mj~stoC M;esto D

    AN OVA Source of Variation .Between Groups VV.rthrn Groups

    Total

    ss

    14 14 14 14

    . 1172,339 _8720 ,7B[i

    9893,125

    538 38,42857 156 ,5714 ..... 551 39,35714 368 ... 8626 393 28 ,07143 33 ,76374 457 32 ,64286 111 ,6319

    L

    3 390,7798 52 67,70.74

    2,330128 0,085022 2.,78259~ ..

    55

    Posljednji korak je interpretiranje rezultata. Prosjecne prodaje su najvece na mjestu B, zatim slijede A, D i C. Jesu li te razlike u prodaji statisticki signifikantne? Rezultat test je vrijednost F=2.33. Za razinu signifikantnosti 0.05 kriticna vrijednost za F=2. 78. Zato sto je F statistika manja od kriticne vrijednosti, ne maze se odbaciti nulta hipoteza. Nulta hipoteza tvrdi da su prodaje na sva cetiri mjesta jednake. Razlike koje postoje u prosjecnim prodajama rezultat su I slucajnih pogresaka u izboru uzoraka. .

    9.:1.1. REGRESUSKA ANALIZA

    Inferencijalna statistika izvodi opce zakljucke, zakljucke o populaciji na temelju dijela populacije, uzorka. Zakljucivati o cjelini na temelju njezina dijela slozena je aktivnost. Zato se mora biti veoma oprezan u izvodenju zakljucaka, u tom pokusaju da se sagleda opce na temelju posebnoga. Temeljni problem je odrediti koliko smo sigurni da su svi rezultati istrazivanja reprezentativni za cijelu populaciju. Primjeri takvih istrazivanja su brojni, a poduzimaju se u razlicitim znanstvenim disciplinama. Slijedi primjer, upotrebljiv u poslovnim istrazivanjima, a on prikazuje mogucnosti utvrdivanja

    459

  • Metodologija drustvenih znanosti

    i analize relacija izmedu varijabli u ekonomskom procesu. Analizom ekonomskog procesa uocena je veza izmedu potrosnje i dohotka u svakoj trzisnoj ekonomiji. Smjer je veze jasan i razumljiv. Veca potrosnja moze dugorocno slijediti samo iz veceg dohotka i obrnuto. Istrazivanja nastoje egzaktno utvrditi jakost veze izmedu dohotka i potrosnje u obliku matematickih funkcija. Potrosnja je uvijek ovisna varijabla, a dohodak neovisna.

    C:esto nije moguce prikupiti sve podatke o potrosnji i dohotku pa se ponovno i u istrazivanju moramo sluziti uzorcima i zakljucivati na temelju uzoraka. Istrazivati i spoznavati o nacinu funkcioniranja ekonomije i odnosima izmedu npr. makroekonomskih agregata (potrosnje i dohotka) je novo znanje o ekonomskom sustavu, nova ekonomska spoznaja.

    U ranijim je analizama pokazano da uvijek postoji odreden stupanj vjerojatnosti da izabrani uzorak nije reprezentativan i ne odrazava svojstva cijele populacije iz koje se bira. Distribucija uzoraka pokazuje da se s dovoljno velikim brojem uzoraka i dovoljno velikim brojemjedinica u uzorku moze odabrati "prosjecan" uzorak koji ce biti nepristran, reprezentativan za cijelu populaciju. Medutim, ponovno se pojavljuje ogranicenje. U istrazivanju se rijetko prikupljaju podaci o vecem broju uzoraka nego se, gotovo uvijek, prikupljaju podaci o samo jed nom uzorku. Zato u pomoc dolazi centralni granicni teo rem. On tvrdi da za dovoljno velik uzorak, distribucija uzoraka ce slijediti normalnu Gaussovu distribuciju iii Studentovu t-distribuciju. Teorijske distribucije (normalna i t-distribucija) omogucuju izracunavanje vjerojatnosti da ce statistika uzorka (pokazatelji uzorka) biti unutar odredenog intervala parametara populacije. Drugim rijecima, potrebno je s odredenim stupnjem vjerojatnosti odrediti interval u kojem se nalaze parametri populacije. Taj interval se izracunava na temelju statistike uzorka. U istrazivanju i zakljucivanju na temelju uzorka istrazivac stalno traga za tocnim odgovorom ali ga ne moze dobiti u jednoj znamenci, nego moze samo procjenjivati interval unutar kojeg se nalazi parametar populacije.

    Zato sto "pravi odgovor" ostaje tajna istrazivacu, ostaje mujedina mogucnost postaviti hipoteze i teoretizirati. U danom primjeru veze potrosnje i dohotka vee je proved en odredeni stupanj teoretiziranja i postavljanja hipoteza. Nismo se posluzili ni jednim egzaktnim pokazateljem a postavili smo hipotezu o smjeru veze izmedu dohotka i potrosnje. Teorija tvrdi da je smjer te veze pozitivan (iii sto je isto nagib pravca nije nula niti negativan). Ako bi se izrekla tvrdnja da svako povecanje dohotka od jedne novcane jedinice stvara prostor za povecanje potrosnje od 0.6 novcanih jedinica na temelju podataka prikupljenih u uzorku, onda bi zakljucivali o vezi dohotka i potrosnje na egzaktan nacin, bez teoretiziranja i prethodnih

  • Poglavlje 9.

    uopcavanja odnosa izmedu tih makroekonomskih agregata. Drugi uzorak bi mogao pokazati, kvantitativno izrazenu, drugaCiju vezu potrosnje i dohotka. Npr., povecanje dohotka za jednu novcanu jedinicu uopce ne povecava potrosnju. Kako cemo onda biti sigurni da je prvi zakljucak tocan iii da prvi rezultat real no odrazava odnose potrosnje i dohotka? IIi je mozda tocan drugi rezultat?

    Zato se prvo mora definirati nacelo na temelju koga ce se izvoditi zakljucci. To nacelo je teorijska spoznaja o smjeru veze izmedu potrosnje i dohotka. Istrazivanje treba odrediti jakost te veze. Pretpostavka je da je teorija tocna sve dok podaci ne potvrde drugi tip veze. Takva bi bila pretpostavka: istrazivac zeli biti 95% siguran da su teorijske spoznaje tocne iii, sto je isto, zeli biti 95% siguran da je nulta hipoteza tocna (odnosno 5% siguran da se nulta hipoteza moze odbaciti).

    Nacin izracunavanja vjerojatnosti da se nulta hipoteza moze odbaciti je prikazan ranije. Potrebno je izracunati standardizirane z iii t vrijednosti iz uzorka i komparirati ih s izracunatim z iii t vrijednostima prikazanim u obliku tablice.

  • Metodologija drustvenih znanosti

    9.11.1. Regresija primjenom EXCEL-a

    Linea rna regresija omogucuje pronaCi vezu izmedu dviju varijabli ako su njihove veze linearne. OpCi oblik linearne funkcije je

    Y = bo + b1 *X + e gdje je: Y ovisna varijabla, X neovisna varijabla, bo odsjecak na Y osi kada je X=O, b

    1 koeficijent smjera linearne funkcije i mjeri za koliko ce se

    promijeniti Y kada se X promijeni za 1. 61

    51 Najva:Zniji je zadatak u !inearnoj regresiji izraC:unati parametre b1

    i b0

    na temelju podataka iz uzorka. Pretpostavka je postojanje n toC:aka uzorka (x

    1,

    Y1), (x2 , Y2), ... , (xn, Yn). Model !inearne regresijeje pravac y = b0 + b1x +e. Dan je skup podataka i neka toC:ka je (xi, y). IzraCunata vrijednost za toC:ku

    Y1 iz !inearne regresije y- 1 ::: b0 + b1X 1 Zadatak je minimizirati kvadratno odstupanje dane vrijednosti za y njene izraCunate vrijednosti tj. minimizirati funkciju:

    ' 2

    SSE= L[Y,- (a+ b:x;)j. i = 1

    Potrebno je izraCunati vrijednosti za a i b koje ta odstupanja minimiziraju tj. koji daju minimum za funkciju SSE. IzraC:unavanje parametara a i b. Nagib:

    b ~. ~( -)( -) 1 = SS, y-odsjecak: b 0 = y- b1x gdjeje: SS" = .::_. X1 - X y1 - y , _xy

    1 n x=-"x L.. i' n 1=-I

    i = 1

    1 n Y = - LYi , n = ve!lC:ina uzorka.

    n i=:l

  • Poglavlje 9.

    Primjer 9.11.1.a. Istrazuje se veza izmedu potrosnje dohotka. Prikupljeni su

    podaci i njih prikazuje slijedeca tab fica:

    QC)ltodak (X} 96 120 144 168 192 216 240 264 288

    61 72 87 88 112 121 132 149 151

    66 77 92 102 118 127 150 151 160

    72 81 99 105 121 132 154 154 171

    77 88 103 113 128 143 158 167 182

    Potrosnja 83 94 108 119 130 149 160 173 193 (Y) 97 124 138 154 176 208

    127 178

    Ukupno 361 510 491 778 748 827 756 1148 1066

    Tablica 9.11.1.a. Mjesecni dohodak (X) kucanstava i potrosnja (Y)

    312

    165

    167

    193

    196

    198

    204

    210

    1333

    Pretpostavka je da se cijela populacija sastoji same od 60 kucanstava iz kojih se bira deset skupina. Kucanstva u istoj skupini imaju priblizno jednak dohodak. Tablica se moze interpretirati na slijedeci nacin: na temelju mjesecnog dohotka od 96 novcanih jedinica postoji pet obitelji cija se mjesecna potrosnja nalazi u intervalu od 61 do 83 novcane jedinice. Za dohodak 312 novcanih jedinica sest je obitelji Cija je potrosnja u intervalu od 165 do 210 novcanih jedinica.

    Na temelju tih podataka se mogu izracunati i uvjetne vjerojatnosti I p(Y I X). To je vjerojatnost da ce potrosnja biti y ako je dohodak . X. Npr. ako je dohodak 96 onda postoji pet vrijednosti potrosnje (Y vrijednosti) 61, 66, 72, 77 i 83. Zato, ako je X=96, onda je vjerojatnost da ce se dobiti bile koja od tih pet vrijednosti potrosnje 1/5.

    Simbolicki p(Y = 62IX = 80) = ! Sad a se moze izracunati i tablica uvjetnih vjerojatnosti:

  • Iii! l'ii !:

    Metodologija drustvenih znanosti

    96 120 144 168 192 216 240 264 288 312

    1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

    1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

    1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

    1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

    1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7

    1/6 1/7 1/6 1/6 1/7 1/6 1/7

    1/7 1/7 1/7

    71,8 101,8 97,8 155,6 149,4 165,2 150,8 229,6 213,0 266,6

    Tablica 9.11.1.b. Uvjetne vjerojatnosti za p(Y I X,) iz tablice 9.11.1.a

    Ocekivana vrijednost potrosnje za dohodak X=96 novcanih jedinica je: 61* (1/5) + 66*(1/5) + 72 * (1/5) + 77* (1/5) + 83 * ( 1/5) = 71,8 novcanih jedinica. Ocekivane vrijednosti potrosnje za odgovarajuce dohotke su prikazane u donjem retku tablice 9.11.1.b. Primjena Excel a za analizu regresije ce se prikazati u koracima:

    1. Izabrati iz glavnog izbornika: Tools, Data Analysis, Regression:

    analysis Tools

    Exponential Smoothing F-Test Two-Sample for Variances Fourier Analysis Histogram Moving Average Random Number Generation Rank and Percentile

    Sampling t-Test: Paired Two Sample for Means

    Help

    2. Unijeti podatke za ovisnu varijablu Y (Y Range: raspon celija u kojima se nalaze podaci za potrosnju je: $A$37:$A$47), podatke za neovisnu varijablu X (X Range: raspon celija u kojima se nalaze podaci za dohodak $8$38:$8$47) je:

  • Poglavlje 9.

    8 '"' C. .D

  • Metodologija drustvenih znanosti

    3. Pravac regresije koji prikazuje vezu izmedu potrosnje dohotka se odmah generira:

    'E' 0

    300,00

    -E 150,00 "' ,:

    100,00

    0,00

    Pravac regresije

    Predicted Y 50 100 150 200 250 300

    i -Linear (PrediCted Yl

    X- dohodak

    Slika 9.11.1.a. Pravac regresije

    Taj dio regresijske analizeje najvazniji. On prikazuje vezu izmedu dohotka i potrosnje u obliku linearne funkcije. Mogu se analizirati i procjenjivati promjene u potrosnji u ovisnosti o promjenama dohotka. Iz opceg oblika jednadzbe regresije:Y = b0 + b,* X dobiva se oblik u kojem su poznati koeficijenti b0 i b,:

    Y(potrosnja) = 0,8061 *X (dohodak) - 4,2764 Naravno, to su samo procjene. Vidljive sui pogreske koje nastaju

    ako se primijeni takva linea rna funkcija:

    RESIDUAL OUTPUT

    Observation Predicted Y Residuals

    1 73,10545455 -1,305454545

    2 92,45090909 9,349090909

    3 111,7963636 -13,99636364

    4 131,1418182 24,45818182

  • Poglavlje 9

    5 150,4872727 -1,087272727

    6 169,8327273 -4,632727273

    7 189,1781818 -38,37818182 8 208,5236364 21,07636364

    9 227,8690909 -14,86909091 10 247,2145455 19,38545455

    Naravno, potrebno je provesti i testiranje iii spoznati utjece li varijabta X (dohodak) znacajno na varijablu Y (potrosnju). Takvo testiranje ce se temeljiti na t-testu jer je broj jedinica u uzorku manji od 30. Excel pretpostavlja da su svi koeficijenti jednaki nuli odnosno postavlja nultu hipotezu. Kriticna vrijednost za t-test ovisi o broju stupnjeva slobode. Za razinu signifikantnosti od 10% kriticna vrijednost za t je +/- 1.67, za razinu signifikantnosti 5% kriticna vrijednost za t je +/- 1.96. Izracunata kriticna vrijednost za odredenu razinu signifikantnosti od 95% je P-vrijednost u tablici 10.3 .. Obicno je zahtjev na razini 90% (p vrijednost 0.1 iii manja) vjerojatnosti da smo sigurni u postojanje utvraene veze izmeau varijabli Y i X.

    9.11.2. Interpretiranje rezultata dobivenih regresijom

    U regresiji je potrebno uraditi dva testa: jed an za koeficijent b0 a drugi za koeficijent b

    1 Nulte hipoteze su:

    H 0 : b0 = 0 H0 : b1 = 0

    Nul hipoteza tvrdi da su oba koeficijenta jednaka 0. Potrebno je izracunati t vrijednosti na temelju formule za t-test:

    t - b,- 0 - SE T vrijednosti su -0.209 i 8.499 pa ce se odbaciti obje nulte

    hipoteze jer za razinu signifikantnosti od 5% kriticne vrijednosti za

  • Metodologija drustvenih znanosti

    t su +/- 1.96. To znaci da ni jedan od dva koeficijenta nisu jednaki nuli na razini signifikantnosti od 95%. Drugim rijecima, sigurnost je 95% da je funkcija Y(potrosnja) = 0,8061 * X (dohodak) - 4,2764 tocna veza izmeau potrosnje i dohotka. Ako se dohodak poveca za jednu novcanu jedinicu potrosnja ce se povecati za 0.8061 novcanih jedinica. Moze se postaviti i nulta hipoteza da je koeficijent b,=l.

    H0 : b1 = 1 Odgovarajuca t-vrijednost je:

    - b,- 1 - 0.8061 -1- SE- 0.0948 -- 2045

    Ponovno se odbacuje nul hipoteza da je koeficijent b1

    = 1. Koeficijent dohotka je manji od 1. Analiza linearne regresije se temelji na metodi najmanjih kvadrata odstupanja izracunatih u odnosu na stvarne vrijednosti. Pravac se prilagoaava opazenim vrijednostima. Funkcija prognoziranja omogucuje izracunavanje buduCih vrijednosti jedne varijable (ovisne) na temelju vrijednosti druge varijable (neovisne). Predviaena vrijednost je vrijednost varijable Y (potrosnje) za zadanu vrijednost varijable X (dohodak). Takvo prognoziranjeje linea rna regresija. U Excelu se koristi slijedeca sintaksa za prognoziranje:

    FORECAST(x; poznata y ; poznata x), x je dohodak za koji se prognozira potrosnja, poznata y je raspon podataka potrosnje u tablici Excela, poznata x je raspon podataka dohotka u tablici Excela. 62

    Primjer 9.11.2.a.

    Prognozirati potroSnju ako je dohodak 400 novCanih jedinica:

    =FORECAST(400;A38:A47;B38:B47)

    jednako je 318,15 novcanih jedinica.

    Na temelju funkcije FORECAST(x; poznata y; poznata x) prognozirana je potrosnja za dohodak od 400 novcanih jedinica i iznosi 318,15 novcanih jedinica.

    62 _Jednadzba za FORECAST je Y = b0 + b1* X; gdje je: b0 =Y-b,*X

    b _ n:L;xy- (:L;x)(:L;y) ,- n:L;x'- (:L;x)'

  • Poglavlje 9

    9.11.3. Primjer visestruke regresije

    Analizira se prodaja ruza po kvartalima u posljednje tri godine (12 kvartala). U tablici su prikazani podaci o broju prodanih komada ruza, prosjecne veleprodajne cijene ruza i prosjecne veleprodajne cijene karanfila.

    Prodaja ru:Za (u komadima)

    11.484,00 9.348,00 8.429,00

    10.079,00 9.240,00 8.862,00 6.216,00 8.038,00 7.476,00 5.911,00 7.950,00 6.134,00

    Cijena ru:Za

    2,26 2,54 3,07 2,91 2,73 2,77 3,59 3,23 2,60 2,89 3,77 3,64

    Cijena karanfila

    3,48 2,85 4,06 3,64 3,21 3,66 3,76 3,49 3,13 3,20 3,65 3,60

    Primjenom analize regresije u Excelu prvo ce se analizirati statistika regresije:

    Regression Statistics Multiple R 0, 726 RSquare 0,527 Adjusted R Square 0,422 Standard Error 1.280,231 Observations 12

    R-Square je statistika koja pokazuje koliko varijance "Y" je objasnjeno u regresiji. U primjeru je to oko 52,7%.

    i! I

    I'

    ~ I

    '!' 'i'

  • Metodologija drustvenih znanosti

    Sada se maze na temelju provedene analize regresije napisati i jednadzba multiple regresije koja prikazuje vezu izmedu prodanih kolicina ruza (Y), cijena ruza X1 i cijena karanfila X,. Ta jednadzba multiple regresije je:

    Y=10.594,038- 3010* X1 + 1927,378 *X2

    Potrebno je i analizirati koliki je utjecaj cijena ruza i cijena karanfila na broj prodanih komada ruza u posljednje tri godine. Zato ce posluziti t-test. Nul hipoteza u test testu pretpostavlja da su svi koeficijenti u multiploj regresiji jednaki nuli.

    Stvarna kriticna vrijednost za t-test ovisi o broju stupnjeva slobode. Za prihvacanje pogreske od 10% t-vrijednost je +/- 1.67, dok za pogresku od 5% kriticna vrijednost za t je +/- 1.96.

    U navedenom primjeru t-test za cijenu ruza je -3,156 at-test za cijenu karanfila je 1,399. To znaci da se maze odbaciti hipoteza da cijena ruza ne utjece na prodanu kolicinu na razini signifikantnosti od 95% ali se ne maze odbaciti hipoteza da cijena karanfila ne utjece na prodanu koliC:inu ruza. Utjecaj cijena ruza na prodanu koliC:inu je negativan, a to znaC:i veca cijena smanjuje prodaju.

    9.12. ANALIZA KORElACIJE

    Korelacijska analiza je statisticko sredstvo koje sluzi za ispitivanje jakosti linearne veze izmedu dviju varijabli. Najcesce se promatra zajedno s regresijskom analizom kako bi izmjerila koliko linija regresije dobra opisuje stvarne podatke. Ipak, ona se maze upotrijebiti i samostalno kako bi odredila smjer i intenzitet veze izmedu dviju varijabli.

    U analizi korelacije promatraju se dvodimenzijski statisticki skupovi. To su skupovi Ciji elementi imaju dva obiljezja. Ta su obiljezja x, i y,, a mogu biti npr. visina i tezina studenata.

    Korelacija ispituje povezanost izmedu ta dva obiljezja. Potrebno je utvrditi postoji li veza izmedu obiljezja x, i y

    1 (npr. manji student,

    manja tezina). Neka su dani rezultati mjerenja visine i tezine studenata:

  • Poglavlje 9.

    Red. Visina TeZina br. (em) {kg) 1 182,00 75,00

    2 184,00 77,00

    3 196,00 85,00

    4 163,00 60,00

    5 188,00 85,00

    6 176,00 72,00

    7 181,00 74,00

    8 182,00 81,00

    9 169,00 55,00

    10 176,.0.0 77,00

    u 167,00 63,00 12 179,00 71,00

    13 185,00 78,00

    14 189,00 86,00

    Tablica 9.12.a. Rezultati mjerenja visina i tezina studenata

    Ako se zele graficki prikazati i interpretirati podaci iz tablice 1., vidljivo je da se citav skup sastoji od n uredenih parova (xn, yn ) kojima se u dvodimenzijskom koordinatnom sustavu mogu pridruziti tocke (x,, y). U tablici je n 14 tj. 14 uredenih parova rasporedenih u 14 tocaka. Skup tih tocaka naziva se dijagram rasipanja, a prikazuje ga slijedeca slika:

    teiina u kg

    I 00 95

    90 85 80 75 70 65 60 55 50

    160 180 200 vis ina u em

    Slika 9.12.a. Dijagram rasipanja

    471

  • Metodologija drustvenih znanosti

    .-----------------------------------------------------------~--

    Vizualno se iz dijagrama rasipanja moze zakljuciti o vezi izmedu obiljezja xi, yi tj. jesu li medusobno ovisna i kakav je smjer veze na temelju grupiranja tocaka.

    Ako se tocke xi, yi nalaze uzduz pravca iii neke druge krivulje, onda postoji jaka veza obiljezja xi, yi. To je funkcijska povezanost i moze se pronaCi funkcija koja opisuje vezu dva obiljezja u obliku y = f(x) i x = c:p (y). Slika 1 prikazuje jednu takvu cvrstu vezu. Ako je student visi, onda mu je i tezina veca.

    Ako su obiljezja nepovezana onda tocke dijagrama rasprsenosti nemaju tendenciju gomilanja, nego su one rasprsene. To prikazuje slika 9.12.b.:

    16

    14

    12

    10

    8

    6

    4

    2

    0

    0 2 4 6 8 10 12

    Slika 9.12.b. Dijagram rasprsenosti kada ne postoji korelacija izmedu obiljezja

    14

    Dio statistike koja svojim postupcima omogucava analizu jakosti veza izmedu dva obiljezja statistickog skupa, izmedu dviju varijabli naziva se korelacija. Ona daje matematicki okvir koji izrazava povezanost izmedu obiljezja.

    9.12.1. Koeficijent korelacije

    Korelacijom se mogu odrediti varijacije obiljezja dvaju raspona podataka, tj. jesu li velike vrijednosti jednog skupa pridruzene velikim vrijednostima drugoga (pozitivna korelacija), jesu li male

    472

  • Poglavlje 9

    vrijednosti jednog skupa pridruzene velikim vrijednostima drugoga (negativna korelacija), odnosno jesu li vrijednosti u oba skupa nepovezane (kore/acija blizu 0).

    Koeficijent korelacije r je mjera jakosti linearne veze izmeciu ss

    dviju varijabli xi y. Izracunava se po formuli:r == jss"'ss, , gdje je:

    n "

    SS,y == ~(.x; - x) (y1 - y), SSn = ~(.x; - x)', ; = 1 i ~-- 1

    n -2- 1" - 1 11 ss,y == ~(y- y), x = n ~x,, y == r ~y,, i I i"' l '= 1

    Bitna svojstva koeficijenta korelacije su:

    a)-1 "r" 1, b) koeficijent korelacije r i nagib pravca regresije b, imaju isti

    predznak, c) ako je vrijednost koeficijenta korelacije r blizu nu/e iii

    jednaka nuli, to znaCi da je veza izmedu varijabli x i y slaba iii ne postoji. Sto je vrijednost koeficijenta kore/acije bliza iii jednaka 1 iii -1, to je veza izmeciu varijab/i xi y jaca. Vrijednosti varijabli x i y mogu biti e/ementi uzorka iii cije/e

    populacije. Koeficijent korelacije populacije se oznacava s p (ro). Koeficijent korelacije populacije se procjenjuje na temelju istog pokazatelja uzorka. Umjesto procjene koeficijenta p mogu se testirati nul i alternativna hipoteza:

    H0 : p = 0 (testirati hipotezu da vrijednosti varijable x ne sadrze informacije koje mogu pos/uziti za prognozu varijable y upotrebom linearne funkcije, \j.pravca).

    H,: p"' 0, i.e., (dvije varijable su najmanje /inearno povezane). Moze se pokazati da je nul hipoteza H0 : p = 0 ekviva/entna

    hipotezi H0

    : 8 = 0._

    9.12.2. Koeficijent determinacije

    Drugi pristup u mjerenju doprinosa varijable x u procjeni y oslanja se na pogreske u procjeni varijable y. Nastoji odrediti koliko se pogreska moze smanjiti upotrebom informacija sadrzanih u varijabli x. Koeficijent determinacije uzorka derivira se iz odnosa izmeciu dva oblika odstupanja:

    473

    :, ':

    '

    I

  • Metodologija drustvenih znanosti

    a) odstupanje stvarnih vrijednosti y oko linije regresije tj. oko procijenjenih vrijednosti. To odstupanje je zbroj kvadrata odstupanja stvarnih vrijednosti varijable Y, od procijenjenih vrijednosti y, 63 u regresijskom modelu:

    " SSE = L::CY, - .YY

    b) drugo odstupanje je varijacija vrijednosti stvarnih vrijednosti varijable y oko njene aritmeticke sredine

    " SS,, = L (y,- )1)2

    " I Koeficijent determinacije se izracunava po formuli

    Moze se pokazati da je

    2 _ SS,, - SSE _ l SSE r - SS - - SS '

    yv VY

    SS, -- SSE SS,

    gdje je r koeficijent korelacije. Kvadrat koeficijenta korelacije se naziva koeficijent determinacije. Koeficijent determinacije se moze objasniti kao odstupanje stvarnih vrijednosti varijable y od procijenjenih vrijednosti na temelju pravca regresije. Znacenje i objasnjenje koeficijenta determinacije r'' jasno prikazuje slijedec':a slika:

    1 y, -

    1 Y. _ i'.

    Y, ....... .

    _ l. )\~y i--~---c----,rL-c----'"1~ I ........

    . .

    X

    Slika 9.12.2.a. Objasnjeno i neobjasnjeno odstupanje

    63 Ta se ve!iC:ina oznaCava sa SSE, a Sto je kratica engleskih rijeC:i sum of squares errors.

  • Poglavlje 9

    Odstupanje stvarnih vrijednosti varijable y. od sredine je y - y ' ' ' neobjasnjeno odstupanje pravcem regresije je y, - y i objasnjeno

    odstupanje je Y, - y. Ukupno odstupanje promatra zbroj svih kvadrata odstupanja pojedinacnih vrijednosti varijable y od njene aritmeticke sredine:

    n

    s y = ~)y, - y)' l=l

    Neobjasnjeni dio ukupnih odstupanja stvarnih vrijednosti varijable y od pravca regresije je:

    n

    SSE = ~)Y, - y,)' . I=]

    n

    Objasnjeni dio ukupnih odstupanja je L (y, - y) 2 Kratko se moze zapisati: ='

    ukupno odstupanje = objasnjeno odstupanje + neobjasnjeno odstupanje. Koeficijent determinacije je odnos izmeau objasnjenog odstupanja i ukupnog odstupanja:

    2 obj asnj eno odstupanj e r =

    ukupno odstupanj e

    Koeficijent determinacije u prakticnom smislu znaCi koliko od ukupnih odstupanja stvarnih vrijednosti varijable y od srednje vrijednosti se moze objasniti upotrebom varijable x u prognozi varijable y, ako se primijeni linearni model regresije.

    Primjer 9.12.2.a. U modelu linearne regresije prikazana je veza izmeau dohotka i

    potrosnje u obliku linearne funkcije. Mogu se analizirati i procjenjivati promjene u potrosnji u ovisnosti o promjenama dohotka. Iz opceg oblika jednadzbe regresije:Y = be + b1 * X dobiva se oblik u kojem su poznati koeficijenti be i b1 : Y (potrosnja) = 0,8061 *X (dohodak) - 4,2764

    Naravno, to su samo procjene. Vidljive sui pogreske koje nastaju ako se primijeni takva linearna funkcija:

    475

    I;

  • Metodologija drustvenih znanosti

    RESIDUAL OUTPUT

    Observation Predicted Y Residuals

    1 73,10545455 -1,305454545

    2 92,45090909 9,349090909

    3 111,7963636 -13,99636364

    4 131,1418182 24,45818182

    5 150,4872727 -1,087272727

    6 169,8327273 -4,632727273

    7 189,1781818 -38,37818182

    8 208,5236364 21,07636364

    9 227,8690909 -14,86909091

    10 247,2145455 19,38545455

    Koeficijent korelacije se u Excelu izracunava taka sto se izabere iz izbornika Data analysis

    Data Arral}'llis llfll analysis T oo!s

    OK I Cancel I tielp I

    i zatim odabere raspon celija za koje se izracunava korelacija. Rezultat prikazuje slijedeca tablica:

    Dohodak (X) Potrosnja (Y)

    Dohodak (X) Po~to5nja ('f) 1

    0,9488 1 Tablica 9.12.2.a Koeficijent korelacije r

    Koeficijent determinacije je r2= 0,90. Ta se vrijednost maze protumaciti: dohodak X ujednadzbi regresije Y(potrosnja) = 0,8061 *

  • Poglavlje 9.

    X ( dohodak) - 4,2764 u procjeni potrosnje Y, racuna priblizno 90% ukupnih kvadrata odstupanja od srednje vrijednosti. To znaci da se smanjuje za 90% pogreska u procjeni potrosnje ako se upotrijebi

    jednadzba regresije umjesto prosjecne potrosnje Y. Prvo ce se prikazati postupak izracunavanja kovarijance.

    9.12.3. Izracunavanje kovarijance

    Drugi pristup u definiranju i pojasnjenju korelacije je upotreba kovarijance. Kovarijanca izracunava prosjek umnoska ukupnih odstupanja dva skupa podataka od njihovih srednjih vrijednosti. Kovarijanca mjeri odnose izmedu dva niza podataka. U matematickom smislu ona je prosjek umnozaka odstupanja svakog para tocaka iii podataka od odgovarajuC:ih aritmetickih sredina. Kovarijanca populacije koristi formulu

    cov(X, Y) = * i:c:x;- x) * (y,- y). i=l ll ~ -

    Ak . - .. d t. 2)x, -x)*(y, -y) d

    o se 1zracuna vrl]e nos 1zraza ,_, on a ta vrijednost moze biti velika i pozitivna, ako se x i y mijenjaju u istom smjeru 1j. vece vrijednosti za x su zajedno s vrijednostima y i manje vrijednosti za x su s manjim vrijednostima za y. Moze biti i mala negativna ako malim vrijednostima za x (vrijednostima manjim od srednje vrijednosti za x) odgovaraju velike vrijednosti y (vrijednosti vece od srednje vrijednosti za y). Taj zbroj umnozaka je mjera koja ukazuje kako se mijenjaju x i y. Kovarijanca uzorka koristi formulu:

    1 n - -cov(X,Y)=--. ~)x, -x)*(y, -y)

    n -1 ,_1

    Korelacija populacije izracunava kovarijancu dvaju skupova podataka podijeljenu umnoskom njihovih standard nih devijacija:

    cov(X, Y) Px.y = a *a gdje je:

    X y

    2 1 ~ -), crY=- L..,Y; -y

    n io:.c]

    2 1 I:n -)2 a =- (x -x X ;

    n i=l

    Kovarijanca se povecava ako sejakostveza izmedu xi y povecava. Jaka veza izmedu x i y ce vrijednost koeficijenta korelacije pribliziti +1 iii -1.

    477

    sadrajSTATISTICKE TEHNIKE OBRADE PODATAKA STATISTICKE TEHNIKE OBRADE EMPIRIJSKIH PODATAKA