Ekonometrija Za 1 Kolokvij

1

SADRŽAJ DIO I. ...................................................................................................................................................... 4

OPĆENITO O EKONOMETRIJI...................................................................................................... 4

1.1. POVIJEST RAZVOJA I DEFINICIJA EKONOMETRIJE ...................................................... 4

1.2. POVEZANOST EKONOMETRIJE I SRODNIH ZNANSTVENIH GRANA .................... 5

1.3. CILJEVI I TIJEK EKONOMETRIJSKOG ISTRAŽIVANJA .................................................. 6

1.4. METODOLOGIJA EKONOMETRIJSKOG ISTRAŽIVANJA .............................................. 7

1. 5. EKONOMETRIJSKI MODELI .............................................................................................. 10

DIO II. ................................................................................................................................................... 16

REGRESIJSKI MODEL .................................................................................................................... 16

2. ZNAČENJE REGRESIJSKE ANALIZE ....................................................................................... 16

3. REGRESIJSKI MODEL S DVIJE VARIJABLE - TEMELJI POJMOVI ..................................... 21

3.1. ODNOS IZMEĐU VARIJABLI .............................................................................................. 21

3.2. JEDNOSTAVNI LINEARNI REGRESIJSKI MODEL ......................................................... 23

3.3. POSEBNOST ZNAČENJA TERMINA «LINEARNA» REGRESIJA ................................ 24

ZADACI ZA VJEŽBU .................................................................................................................... 26

RJEŠENJA ZADATAKA ................................................................................................................ 27

3.4. REGRESIJSKA FUNKCIJA POPULACIJE I REGRESIJSKA FUNKCIJA UZORKA ...... 28

3.4.1. REGRESIJSKA FUNKCIJA POPULACIJE – HIPOTETIČKI PRIMJER ..................... 29

3.4.2. REGRESIJSKA FUNKCIJA UZORKA – HIPOTETIČKI PRIMJER ............................ 32

4. OCJENJIVANJE PARAMETARA REGRESIJE .......................................................................... 35

ZADACI ZA VJEŽBU ........................................................................................................................ 38

RJEŠENJA ZADATAKA .................................................................................................................... 39

5. KLASIČNI LINEARNI REGRESIJSKI MODEL ........................................................................ 40

5.1. VARIJANCA I STANDARDNA GREŠKA OLS PROCJENITELJA .................................. 43

5.2. SVOJSTVA OLS PROCJENITELJA ...................................................................................... 45

5.3. DISTRIBUCIJA VJEROJATNOSTI OLS PROCJENITELJA ............................................... 46

6. TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE ............ 47

ZADACI ZA VJEŽBU ........................................................................................................................ 51


7. MJERENJE POUZDANOSTI ODNOSNO PRILAGOĐENOSTI REGRESIJSKOG MODELA

............................................................................................................................................................... 53

2

7.1. RASTAVLJANJE VARIJACIJA ZAVISNE VARIJABLE .................................................... 54

7.2. UTVRĐIVANJE VALJANOSTI REGRESIJE POMOĆU KOEFICIJENTA

DETERMINACIJE .......................................................................................................................... 55

7.3. STANDARDNA GREŠKA REGRESIJE ................................................................................ 57

7.4. TESTIRANJE STATISTIČKE ZNAČAJNOSTI REGRESIJSKOG MODELA ................. 57

ZADACI ZA VJEŽBU ........................................................................................................................ 60


8. PREDOČAVANJE REZULTATA REGRESIJSKE ANALIZE ................................................... 62

9. VIŠESTRUKI LINEARNI REGRESIJSKI MODEL ..................................................................... 63

9. 1. LINEARNI REGRESIJSKI MODEL S TRI VARIJABLE ..................................................... 63

9. 2. PRETPOSTAVKE VIŠESTRUKOG LINEARNOG REGRESIJSKOG MODELA ............ 64

9.3. OCJENA PARAMETARA VIŠESTRUKE REGRESIJE ....................................................... 65

9.3.1. OLS PROCJENITELJI ....................................................................................................... 65

9.3.2. VARIJANCA I STANDARDNA POGREŠKA OLS PROCJENITELJA ..................... 67

9.4. KOEFICIJENT VIŠESTRUKE DETERMINACIJE R2 .......................................................... 68

9.5. TESTIRANJE HIPOTEZA U MODELU VIŠESTRUKE LINEARNE REGRESIJE ........... 71

ZADACI ZA VJEŽBU ........................................................................................................................ 75


10. OCJENJIVANJE U UVJETIMA NEISPUNJENIH PRETPOSTAVKI KLASIČNOG

MODELA ............................................................................................................................................. 78

10.1. MULTIKOLINEARNOST..................................................................................................... 78

10.1.1. POSLJEDICE MULTIKOLINEARNOSTI .................................................................... 81

10.1.2. OTKRIVANJE MULTIKOLINEARNOSTI .................................................................. 81

10.1.3. RJEŠAVANJE PROBLEMA MULTIKOLINEARNOSTI ........................................... 83

10.2. AUTOKORELACIJA ............................................................................................................. 83

10.2.1. POSLJEDICE AUTOKORELACIJE .............................................................................. 84

10.2.2. OTKRIVANJE AUTOKORELACIJE ............................................................................ 84

10.2.3. OTKLANJANJE AUTOKORELACIJE ......................................................................... 89

10.3. HETEROSKEDASTIČNOST ................................................................................................ 90

10.3.1. POSLJEDICE HETEROSKEDASTIČNOSTI ............................................................... 91

10.3.2. OTKRIVANJE HETEROSKEDASTIČNOSTI ............................................................. 91

10.3.3. OTKLANJANJE HETEROSKEDASTIČNOSTI .......................................................... 92

10.4. NORMALNOST GREŠAKA RELACIJE ............................................................................. 97

ZADACI ZA VJEŽBU ........................................................................................................................ 98

3


11. SPECIFIKACIJA MODELA I PREDVIĐANJE EKONOMETRIJSKIM MODELOM......... 100

11.1. SPECIFIKACIJA EKONOMETRIJSKOG MODELA ....................................................... 100

11. 2. PREDVIĐANJE EKONOMETRIJSKIM MODELOM .................................................... 108

4

DIO I.

OPĆENITO O EKONOMETRIJI

konomisti primjenjuju saznanja ekonomske teorije za objašnjavanje i dobivanje kvalitativnih informacija i odgovora tipa:

Hoće li profit rasti ili padati ako proizvodnja raste?

Hoće li prihodi rasti ili padati ako se cijena smanji? No menadžerima su jednako važne i kvantitativne informacije:

Koliko će biti rast odnosno pad….?

Odgovore na ovakva i slična pitanja daje ekonometrija. Ekonometrijske tehnike obično se koriste i razvijaju za davanje odgovora na praktične probleme. Kao što je razvidno iz prvih pet slova riječi ekonometrija ti su problemi obično ekonomskog karaktera, iako se često ekonometrijske tehnike koriste i za ne ekonomska istraživanja.

1.1. POVIJEST RAZVOJA I DEFINICIJA EKONOMETRIJE

Ekonometrija je multidisciplinarna znanost koja izučava kvantitativne odnose definirane u ekonomskoj teoriji, kao i procese koji generiraju njihove varijable, a sve uz uporabu matematičkog i statističkog instrumentarija.

Ekonometrija kao znanstvena grana intenzivnije se počinje razvijati 30-ih godina prošlog stoljeća, a radi utvrđivanja kvantitativnih odnosa između ekonomskih procesa i njihovih varijabli pomoću matematičkih i statističkih metoda. Iako su ekonomisti 17. i 18. stoljeća pokušavali mjeriti ekonomske varijable i primijeniti matematičke metode u ekonomiji, nije bilo značajnijeg napretka sve do prve polovice prošlog stoljeća. Iako primjena statističkih metoda na ekonomske procese ima dužu povijest. Prva je empirijska studija objavljena već 1699. godine od Charla Devenanta, dok je prvu modernu statističku studiju potražnje proveo Rodolfo Enini, talijanski statističar 1907. godine. Glavni razvojni impuls ekonometriji došao je s osnivanjem Ekonometrijskog društva pod vodstvom Schumpetera u Clevelandu (SAD) 1930. godine i izdavanjem časopisa «Econometrica» u siječnju 1933. godine. Taj je časopis i danas relevantan izvor informacija o razvojnim dostignućima na području ekonometrije.

Etimološki izraz ekonometrija ili «mjerenje u ekonomiji» nastaje od dvije grčke riječi oikonomia (ekonomija) i metron (mjerenje). Sam naziv ekonometrija uveo je u ekonomsku literaturu Ragnar Frisch, norveški ekonomist i statističar, kasnije dobitnik prve Nobelove nagrade za ekonomske znanosti.

Ekonometrija je grana ekonomske znanosti koja povezuje ekonomsku teoriju, matematičku ekonomiju i metode statističke analize, a bavi se razvijanjem i usavršavanjem metoda i modela za kvantitativnu analizu gospodarske strukture, s ciljem da se ustanove zakonitosti gospodarskih procesa, te da se omogući predviđanje, planiranje i usmjeravanje gospodarskih tijekova. Općenito, da bi bilo koja teorijska tvrdnja u ekonomiji mogla biti dokazana, potrebno je koristiti ekonometrijske metode. Ekonometrija se zasniva na prilagođavanju matematičkih i statističkih metoda potrebama zaključivanja u ekonomiji, kroz proces modeliranja osnovnih ekonomskih međuzavisnosti. Ekonomska teorija može se prikazati kao skup odnosa između ekonomskih varijabli (Samuelson, 1947). Ekonometrija upravo te odnose matematički formulira i kvantificira na bazi empirijskih mjerenja ekonomskih pojava.

E

5

Prema Theilu (1971.) ekonometrija se bavi empirijskim utvrđivanjem ekonomskih zakonitosti. U ekonometriji se kvantificiraju odnosi između ekonomskih varijabli pomoću matematičkih i statističkih metoda.

U uvodnom članku prvog broja časopisa «Econometrica», poznati ekonomista Schumpeter daje slijedeću definiciju ekonometrije:

«Ekonometrija je primjena specifičnih metoda u području ekonomskih znanosti u nastojanju da se postignu numerički rezultati i verificiraju ekonomski teoremi.»

Ekonometrija analizira ekonomske procese, njihove strukture i kretanja, a ta se analiza temelji na statističkim podacima i instrumentariju, koji su racionalno koordinirani u ekonometrijskom modelu.

Ekonometrija dakle, predstavlja znanstvenu disciplinu koja ima za cilj matematički formulirati i utvrditi kvantitativne veze koje postoje između ekonomskih varijabli, a temeljem ekonomske teorije i informacija o tim varijablama sakupljenih pomoću statističkih metoda. Prema tome, ekonometrija je jedna od grana ekonomske znanosti koja, na specifičan način, sintetizira matematiku, ekonomsku teoriju, statističke metode i empirijsko opažanje. Ekonometrija zapravo verificira koliko je ekonomska teorija konzistentna s empirijskim opažanjima, omogućuje dublje pronicanje u suštinu stvarnih ekonomskih pojava i procesa, a ocijenjene ekonometrijske veze i modeli mogu poslužiti za utvrđivanje ekonomskih parametara potrebnih za vođenje ekonomske politike, donošenje odluka te predviđanje kretanja ekonomskih varijabli.

1.2. POVEZANOST EKONOMETRIJE I SRODNIH ZNANSTVENIH GRANA

Ekonometrija nastaje svojevrsnom integracijom ekonomske teorije, matematike i statistike i to na način da ekonomske postavke verificira kroz empirijska istraživanja. Ekonometrija tako povezuje tri znanstvene discipline:

matematičku ekonomiju

ekonomsku statistiku

matematičku statistiku

Slika 1: Povezanost ekonometrije i srodnih znanstvenih grana

Matematička ekonomija formulira zaključke ekonomske teorije matematičkim simbolima, jezikom i sustavom notiranja i koristi matematičke metode da izvede veze ekonomskih zakonitosti, ali u

determinističkom obliku i ne daje numeričke vrijednosti parametrima specificiranih veza. Ekonomska statistika se bavi prikupljanjem, obrađivanjem i predstavljanjem empirijskih ekonomskih podataka. Matematička statistika ocjenjuje, uz pomoć svojih metoda, a na osnovi empirijskih podataka, parametre ekonomskih veza. S obzirom da ekonomske veze karakterizira stohastičnost, a matematička statistika se bavi podacima koji su rezultat kontroliranih eksperimenata potrebne su prilagodbe. Takve prilagodbe statističkih metoda zovu se ekonometrijske metode.

6

1.3. CILJEVI I TIJEK EKONOMETRIJSKOG ISTRAŽIVANJA

Polazeći od definicije ekonometrije, moguće je definirati i cilj ekonometrijskog istraživanja, koji nije tek sakupljanje činjenica o određenim pojavama, već i njihovo objašnjenje te predviđanje njihova kretanja u budućnosti. A u suvremenim turbulentnim i promjenama podložnim ekonomskim procesima raste i potreba za kvantitativnim i preciznim izražavanjem ekonomskih pojava. Moguće je istaći 3 osnovna cilja ekonometrije:

1. Testiranje ekonomske teorije: svodi se na proučavanje ekonomske teorije radi boljeg razumijevanja i objašnjavanja ekonomskih pojava i aktivnosti. U modernoj ekonomiji niti jedna teorija, i pored svoje uvjerljivosti i konzistentnosti, ne može se prihvatiti bez empirijskog testiranja.

2. Pomoć ekonomskoj politici: dobivanje numeričkih ocjena koeficijenata ekonomskih odnosa koje se mogu koristiti prilikom donošenja odluka.

3. Predviđanje: korištenje numeričkih ocjena koeficijenata kako bi se predvidjele buduće vrijednosti ekonomskih veličina. Predviđanje pretpostavlja mogućnost definiranja stanja sustava (u smislu znanja vrijednosti određenih promjenjivih veličina) i postojanje dinamičke teorije pomoću koje se buduće stanje sustava izvodi logičkim implikacijama iz poznavanja sadašnjeg stanja.

Navedeni se ciljevi međusobno ne isključuju. Uspješno ekonometrijsko istraživanje trebalo bi uključiti optimalnu kombinaciju sva tri navedena cilja. U tom se smislu ciljevi ekonometrijskog istraživanja mogu shvatiti i kao zadaci ekonometrijskog istraživanja, a oni su:

formuliranje ekonometrijskog modela

procjenjivanje i testiranje modela

upotreba modela za prognoziranje i predviđanje Složenost ekonometrijskih zadataka i ciljeva uvjetovala je i njen razvoj u više pravaca, razlikuju se stoga, dvije osnovne grane ekonometrije:

teorijska ekonometrija koja se bavi razvojem i unapređenjem metoda za kvantificiranje ekonomskih odnosa, te

primijenjena ekonometrija koja koristi ekonometrijski instrumentarij i posebnim granama ekonomske teorije, a uključuje sredstva i rezultate teorijske ekonometrije.

Svako ekonometrijsko istraživanje odvija se u nekoliko koraka.

Slika 2: Tijek ekonometrijskog istraživanja

7

Ekonomska teorija razmatra ekonomske odnose i oformljuje postulate i tvrdnje. Polazeći od neke teorije koje je potrebno testirati, uz pomoć matematičkog izražavanja te teorije (matematička ekonomija) postavlja se model ili hipoteza koja se testira. Koristeći podatke ekonomske statistike, model se uspoređuje s tim podacima. Ocjenjivanje modela vrši se ekonometrijskim metodama, dobivenim prilagođavanjem metodama matematičke statistike ekonomskim fenomenima. Temeljem dobivenih rezultata, testira se polazna hipoteza. Teorija se prihvaća ako je kompatibilna sa podacima, u protivnom e se odbacuje. U tom je slučaju moguće i revidiranje teorije. Dobiveni numerički rezultati mogu se koristiti za predviđanja ili donošenje ekonomskih odluka.

1.4. METODOLOGIJA EKONOMETRIJSKOG ISTRAŽIVANJA

Što je to ekonometrijsko istraživanje i kako se konstruira ekonometrijski model? Odgovori na ta pitanja iznalaze se u metodologiji ekonometrijskog istraživanja.

U svakom ekonometrijskom istraživanju metodološki se razlikuje nekoliko koraka:

Postavljanje hipoteze

Prikupljanje podataka

Specifikacija matematičkog modela

Specifikacija statističkog ili ekonometrijskog modela

Procjena parametara ekonometrijskog modela (Ocjenjivanje modela)

Ispitivanje pouzdanosti ekonometrijskog modela (Vrednovanje ocjena parametara)

Testiranje hipoteze (ocjena modela)

Upotreba modela

POSTAVLJANJE HIPOTEZE

Svodi se na proučavanje teorijskih ekonomskih postavki u svrhu definiranja praktičnog problema na koji se traži odgovor, odnosno postavljanja hipoteze. Da bi ekonometrijski model, kao rezultat ekonometrijskog istraživanja, mogao dati odgovor na postavljeni problem, odnosno vjerodostojne rezultate, problem mora biti jasno postavljen. Uspješnost svih daljnjih koraka zavisi od jasnoće postavljenog problema, odnosno od valjanosti postavljene hipoteze. Hipoteza se formulira temeljem poznavanja analizirane pojave, rezultata ranijih istraživanja te svakako temeljem poznavanje ekonomske teorije. Postavljanje znanstvenih hipoteza s ciljem specifikacije ekonometrijskog modela podrazumijeva prethodno znanje o varijablama koje je potrebno uključiti u model, o matematičkom obliku njihovih međuzavisnosti i izvjesna znanja o predznaku i intervalima mogućih vrijednosti parametara modela.

PRIKUPLJANJE PODATAKA

Ekonometričari u svojim istraživanjima obično koriste podatke, sakupljene, sistematizirane i objavljene u statističkim publikacijama. Jasno je da kvaliteta i dostupnost podataka određuju kvalitetu i uspješnost samog ekonometrijskog istraživanja.

SPECIFIKACIJA MATEMATIČKOG MODELA

Nakon prikupljanja podataka i postavljanja hipoteze prelazi se na specifikaciju matematičkog modela. Radi se o matematičkoj formulaciji postavljene hipoteze, odnosno kvantitativnog izražavanja odnosa koji iz hipoteze proizlazi. Ova faza podrazumijeva

8

poznavanje matematičkog jezika, instrumentarija i načina notiranja, kao i ponašanja uključenih varijabli te predznaka i veličine parametara modela. Specifikacija modela podrazumijeva matematičku formulaciju postavljenih znanstvenih hipoteza, koje se određuju na osnovi poznavanja djelovanja i ponašanja ispitivane pojave u ekonomskoj stvarnosti, na temelju rezultata ranijih istraživanja dane pojave i, što je osobito važno, temeljem spoznaja ekonomske teorije o njoj. Prva slika o međuzavisnosti dohotka i osobne potrošnje dobiva se crtanjem dijagrama rasipanja.

SPECIFIKACIJA EKONOMETRIJSKOG MODELA

Specificiranje ekonometrijskog modela pretpostavlja dobro poznavanje ekonomske teorije. Na toj osnovi istraživač odlučuje koje varijable uključiti u model, zatim, ima a priori teorijska očekivanja o predznaku i veličini parametara, te odlučuje o matematičkom obliku modela. Pogreška u navedenom postupku naziva se specifikacijska pogreška. To je najteža pogreška koja se može desiti u ekonometrijskom istraživanju, jer ostavlja najteže posljedice na ocjeni modela. Najčešće greške specifikacije su izostavljanje nekih varijabli iz funkcije ili upotreba neodgovarajućeg matematičkog oblika modela. Ako nije postignuta zadovoljavajuća specifikacija modela, ocjene parametara dobivene bilo kojom ekonometrijskom tehnikom biti će netočne, nepotpune ili neupotrebljive.

PROCJENA PARAMETARA EKONOMETRIJSKOG MODELA

Nakon specifikacije ekonometrijskog modela prelazi se na njegovo ocjenjivanje. Ocjenjivanje modela predstavlja tehničku fazu u dobivanju rezultata a obuhvaća:

ispitivanje problema agregiranja i sličnih problema u svezi s varijablama uključenim u model,

ispitivanje uvjeta identifikacije funkcija korištenih u modelu,

ispitivanje jakosti međusobne korelacije varijabli korištenih u modelu, odnosno razine multikolinearnosti,

ispitivanje vezano uz zadovoljenje uvjeta stohastičnosti slučajnih varijabli te

odabir i primjenu ekonometrijskih metoda i tehnika za ocjenu modela. Agregiranjem se jednom vrijednošću predstavljaju ekonomske veličine kvalitativno različitih objekata. Pojednostavljenja u agregiranju mogu rezultirati agregacijskom pristranošću kod ocjene parametara modela. Identifikacija funkcija modela postupak je kojim se provjerava da li svaka funkcija ima svoje jasno značenje, u smislu veza i odnosa postavljenih teorijom. Identifikacija je problem vezan za ocjenjivanje modela simultanih jednadžbi. Ispitivanje jakosti međusobne korelacije varijabli korištenih u modelu, te uvjeta stohastičnosti slučajnih varijabli od presudne je važnosti, jer neispunjenost tih osnovnih pretpostavki rezultira pogrešnim ocjenama modela. Koja će se ekonometrijska metoda koristiti u svakom posebnom slučaju zavisi od više čimbenika. Na taj izbor utječe najprije priroda razmatrane pojave i uvjeti njene identifikacije. Naime, ako se ispituje jednostavna pojava koje se može zadovoljavajuće prikazati modelom jedne jednadžbe, najčešće se koristi klasična metoda najmanjih kvadrata. U protivnome se koriste metode koje se primjenjuju na modele simultanih jednadžbi. Uobičajeno je da se koristi ona metoda koja daje ocjene sa što više takozvanih poželjnih karakteristika. A koja je od poželjnih karakteristika ocjena i najvažnija, zavisi od cilja ekonometrijskog istraživanja. Postoji više dijagnostičkih mjera (testova). Dvije su osnovne skupine testova koji se koriste. Prva skupina testova daje opću sliku o tome da li je model dobro specificiran ili ne. To su tzv. test portmanteau ili testovi specifikacije modela. Zaključci koji proizlaze iz ovih testova jesu da je model adekvatan za opisivanje podataka ili, naprotiv tvrde sa određenim stupnjem signifikantnosti da model nije dobro specificiran. Druga skupina testova odnosi se na osobine slučajne pogreške koje možda govore u kojem smjeru mijenjati model. Primjeri ove vrste testova jesu testovi normalnosti procijenjenih

9

grešaka, testovi linearnosti veze između y i xi, nasuprot veze između y i xi2, testovi korelacije reziduala, itd.

ISPITIVANJE POUZDANOSTI EKONOMETRIJSKOG MODELA

Dobivene vrijednosti parametara potrebno je testirati. Procjena parametara ili vrednovanje ocjena parametara, sa ekonometrijskog stajališta i statističke pouzdanosti, vrši se temeljem tri skupine kriterija: ekonomski, statistički i ekonometrijski.

Ekonomski (a priori) kriteriji odnose se na veličinu i predznak parametara te zastupljenost objasnidbenih varijabli u modelu. Parametri u ekonomskim modelima predstavljaju elastičnosti, granične vrijednosti, multiplikatore i slično, a za koje ekonomska teorija definira predznak, a katkada i veličinu. Budući da ekonometrija pretpostavlja postojanje definiranih međuzavisnosti ekonomskih veličina danih ekonomskom teorijom, može se reći da ekonomska teorija prethodi ekonometrijskom zaključivanju. Stoga, ako se kao rezultat primjene modela na raspoloživa opažanja dobije pogrešan predznak ili veličina nekog parametra, takva se ocjena smatra nezadovoljavajućom.

Statistički kriteriji (testovi prvog reda) evaluacije statističke signifikantnosti ocjena parametara najčešće su koeficijent determinacije i standardne greške ocjene parametara.

Koeficijent determinacije predstavlja postotak varijacija zavisne varijable oko njezine srednje vrijednosti, koji je objašnjen varijacijama nezavisnih varijabli. Stoga, koeficijent determinacije predstavlja indikator relevantnosti uključenih faktora i valjanosti modela kao ocjene.

Standardne greške ocjena parametara predstavljaju mjeru disperzije ocjena pravih vrijednosti parametara, te služe za vrednovanje pouzdanosti ocjena pojedinih parametara.

Statistički kriteriji su uvijek u strogoj zavisnosti od ekonomskih kriterija, jer čak i kada su statistički zadovoljavajuće, ocjene parametara se odbacuju ako nemaju smisla sa aspekta apriornih ekonomsko-teorijskih postavki.

Ekonometrijski kriteriji (testovi drugog reda) određuju pouzdanost statističkih kriterija. Pomoću njih se utvrđuje da li ocjene parametara imaju svoje poželjne osobine (nepristranost, konzistentnost, efikasnost). Potpuno ekonometrijsko istraživanje uvijek obuhvaća i ove sekundarne ekonometrijske testove. Ako pretpostavke primijenjene ekonometrijske metode nisu zadovoljavajuće, onda ocjene parametara nemaju poželjne osobine ili statistički kriteriji gube svoju vrijednost te postaju nepouzdani u određivanju statističke signifikantnosti dobivenih ocjena.

TESTIRANJE HIPOTEZE EKONOMETRIJSKOG MODELA

Nakon specifikacije i vrednovanja modela prelazi se na testiranje hipoteze. Testiranje hipoteze predstavlja način provjeravanja o tome ima li postavljeni model ekonomskog smisla i da li će dobiveni rezultati biti sukladni s ekonomskom teorijom.

PREDVIĐANJE I PROGNOZIRANJE

Ocjena valjanosti modela sa aspekta njegove moći predviđanja podrazumijeva ispitivanje stabilnosti ocjene parametara u modelu, odnosno njihove osjetljivosti na promjenu veličine uzorka. To ispitivanje treba odgovoriti na pitanje da li ocjena veza adekvatno predstavlja odnose u stvarnosti i izvan uzorka čiju prosječnu varijaciju predstavlja. Čak i kada model zadovoljava ekonomske, statističke i ekonometrijske kriterije vrednovanja ocjena, moguće je da ima slabu moć predviđanja. Takvi modeli mogu se koristiti u svrhe analize postojeće ekonomske strukture, ali ne i za predviđanja, najčešće zato što su statični. Da bi model uspješno mogao predstaviti promjenu strukturnih parametara, mora odražavati i

10

dinamičnost promatrane pojave. Ekonometrijski model može koristiti za predviđanje budućih vrijednosti zavisne varijable na osnovi očekivanih budućih vrijednosti eksplanatornih varijabli. Model može također poslužiti u ekonomskoj analizi te za kontrolu i donošenje ekonomskih odluka i mjera.

1. 5. EKONOMETRIJSKI MODELI

DETERMINISTIČKI I STOHASTIČKI MODELI

U prirodnim znanostima ponašanje analiziranog sustava opisuje se determinističkim (matematičkim) modelima. Deterministički modeli pretpostavljaju da je istraživana pojava potpuno determinirana određenim uzročnim vezama. U društvenim znanostima mora se uvažiti stohastičko ponašanje, budući da se vrijednosti nekih varijabli ponašaju slučajno. Stoga, se istraživana pojava ne može egzaktno predvidjeti sustavom jednadžbi, već samo procijeniti. Uključivanjem članova slučajnih pogrešaka (disturbance terms) deterministički model pretvara se u stohastički model, odnosno ekonometrijski model. Ekonometrijskim modelom djelomično se nadoknađuje pomanjkanje preciznosti uslijed stohastičkog ponašanja varijabli i pojednostavljenja empirijskih veza. Matematička ekonomija izražava ekonomske odnose i strukture u egzaktnom (determinističkom) obliku, tzv. obliku funkcionalne zavisnosti. Ekonomska teorije kaže koje veze tvore model, koje je varijable potrebno uključiti u svaku pojedinu vezu i koji je predznak nekih parcijalnih derivacija. No, ekonomska teorija može vrlo malo reći o funkcionalnom obliku veza, uključenim pomacima i vrijednostima parametara. Pored toga, veze su determinističke pa ne dopuštaju prisutnost stohastičkog odstupanja. Da bi se ekonomski model doveo u oblik provjerljive hipoteze, nužno je specificirati funkcionalni oblik veza, odabir vremena varijabli i stohastičku karakterizaciju odstupanja. Dobije se tako ekonometrijski model spreman za ocjenjivanje i testiranje. Pri danom stanju ekonomske znanosti to se prethodno znanje djelomično izvodi iz ekonomske teorije i djelomično iz ad hoc rasuđivanja ili procjenjivanja.

EKONOMSKI MODEL

Ekonomisti se u svojim istraživanjima koriste eksperimentima ili pokusima. No budući je stvarni svijet iznimno kompleksan, ekonomisti ne eksperimentiraju sa realnim ekonomskim sustavima, već se okreću laboratorijima i kontroliranim eksperimentima da bi proučavali ekonomske pojave. Stoga, ekonomska teorija konstruira ekonomske modele kojima, na pojednostavljeni način, prikazuje ekonomske odnose u stvarnosti. Ti su modeli idealni i takvi da omogućavaju uočavanje zakonitosti koje vladaju ekonomskim odnosima. Model se može definirati kao pojednostavljeni prikaz realnog sustava ili procesa koji se proučava.

Sve definicije modela sadrže nekoliko zajedničkih elemenata (Jovičić, 1989.):

pretpostavka da je prisutno određeno znanje empirijske prirode,

pojednostavljenje kompleksne stvarnosti u razumljiv sustav fundamentalnih veza, koristeći aksiome,

mogućnost postavljanja pretpostavki o konstrukciji i ponašanju analiziranih pojava, te

matematičke metode predstavljanja veza i hipoteza.

Svrha modeliranja je objašnjavanje, predviđanje i kontrola proučavanih pojava (Lovrić, 2005.) te pojednostavljenje složenih realnih situacija i utvrđivanje uzročnih veza koje izgledaju najznačajnije za određeni problem. Temeljeći svoje zaključke o nekoj pojavi na modelu, istraživač može ispitivati logičke posljedice pretpostavki od kojih polazi, testirati postavljene

11

hipoteze, odnosno uspoređivati ih sa opažanjima iz stvarnosti, i tako bolje upoznati stvarnost i omogućiti uspješno djelovanje i reagiranje na pojave iz stvarnosti.

Neuređen skup tvrdnji o ekonomskoj stvarnosti ne može činiti ekonomsku znanost. Ekonomska znanja moraju imati određenu aksiomatsku strukturu, tako da je ograničen broj propozicija dovoljan da se ostale izvedu logičnim zaključivanjem. Takav ograničen skup propozicija, iz kojih se preostale deduciraju predstavlja ekonomski model. Ako kažemo da količina potražnje za jabukama zavisi od cijene jabuka, pojednostavljujemo stvarnost, stoga što postoji niz drugih varijabli od kojih potražnja za jabukama zavisi. Te varijable mogu biti dohodak potrošača, promjene u razmišljanju potrošača, povećanje svijesti o zdravoj prehrani, porast ili pad cijene ostalog voća itd. Propozicije koje se iz modela izvlače jesu teze. Model se smatra konzistentnim, ako dedukcijom ne rezultiraju teze koje su protivne aksiomima korištenim kod njegova sastavljanja (Jovičić, 1989.). Iz navedenoga proizlazi i definicija ekonomskog modela. Ekonomski model je (Jovičić, 1989.):

formalizirana prezentacija ideja, propozicija ili znanja o specifičnom fenomenu čiji je cilj da obuhvati suštinu i način djelovanja kompleksa realnosti u lakše razumljiv sustav.

Ekonomski model je stoga, skup pretpostavki koje pojednostavljeno prikazuju ponašanje određene ekonomske pojave ili procesa. Karakteristike ekonomske strukture model simbolično iskazuje (Jovičić, 1989.):

identitetima

uvjetima ravnoteže

jednadžbama Identiteti prikazuju određene definicijske jednakosti: dohodak se dijeli na potrošnju i investicije: D =P + I.

Uvjeti ravnoteže predstavljaju situaciju u kojoj se aspiracije donositelja odluka simultano susreću pa su snage uravnotežene: uvjet tržišne ravnoteže je jednakost ponude i potražnje: Kp=Kt.

Jednadžbe se koriste za ekonomske relacije koje obuhvaćaju propozicije o: (a) ekonomskom ponašanju: primjer jednadžbe ponašanja potrošača je veza koja iskazuje potrošnju P kao funkciju dohotka D:P=a+bD. (b) institucionalnim propisima: institucionalne funkcije simboliziraju postojeće uvjete i regulative na primjer način formiranja prihoda od poreza Z od duhana X: Z=0,65X. (c) tehničkim uvjetima: jednadžbe kojima se predstavljaju tehničke i tehnološke relacije tipične su za sferu proizvodnje, gdje se na primjer obim proizvodnje X može odrediti tehnološki uvjetovanim čimbenicima: Y=X1+X2+ X3.

Kada ekonomski model poprimi formu matematičkih odnosa, moguće je upotrijebiti podatke o analiziranoj pojavi, te temeljem tih podataka, procijeniti valjanost modela, odnosno provjeriti da li model adekvatno predstavlja stvarnost. Empirijska provjera valjanosti ekonomskih modela predstavlja jedan od osnovnih ciljeva ekonometrijske analize.

EKONOMETRIJSKI MODEL

Cilj analiziranja ekonomskih pojava, procesa, odnosa, veza i struktura te konstruiranja ekonomskih modela, je upoznavanje njihove suštine i utvrđivanja zakonitosti u njihovom ponašanju i kretanju. No, tek ekonometrijske metode omogućuju da se spomenute zakonitosti numerički izraze i statistički testiraju. Ekonometrija dakle, analizira ekonomske procese, njihove strukture i kretanja, a ta se analiza temelji na statističkim podacima i instrumentariju, koji su racionalno koordinirani u ekonometrijskom modelu.

12

Ekonometrijski model je krajnji rezultat svakog ekonometrijskog istraživanja, predstavlja skup hipoteza koje dozvoljavaju donošenje statističkog zaključka na osnovi uočenih vrijednosti ekonomskih varijabli (Vujković, 1976.). Ekonometrijski model može se definirati kao skup relacija upotrijebljenih za reprezentiranje ekonomskih procesa koji se mogu izraziti u matematičkoj formi (Vujković, 1976.). Maddala ekonometrijski model definira kao skup jednadžbi i različitih numeričkih vrijednosti strukturnih koeficijenta koji izražavaju ekonomsku strukturu procesa (Maddala, 1992.). Ekonometrijski model mora biti dovoljno eksplicitan da omogući:

istraživanje ekonomskih procesa,

kontrolu ekonomskih procesa, te

predviđanje ponašanja istraživanog procesa u različitim promjenjivim uvjetima budućnosti.

Ekonometrijski model mora biti tako konstruiran da omogući davanje odgovora na niz specifičnih slijedećih pitanja (Jovičić, 1989.):

modeliranje ekonomskog sustava i testiranje hipoteza o njegovim parametrima

prognoziranje i predviđanje

analiziranje ekonomskih kretanja i simulacija mjera ekonomske politike, simulacija teorije ekonomskih ciklusa, ekonomskog rasta, itd.

Ekonometrijski model sastoji se iz slijedećih elemenata (Maddala, 1992.):

skupa strukturnih jednadžbi koje objašnjavaju ponašanje ekonomske varijable, a koje proizlaze iz ekonomskog modela; takve jednadžbe uključuju i «odstupanja» (koja uključuju sve one, za specifični model nevažne varijable, kao i neke nepredvidive čimbenike);

iskaz o eventualnim pogreškama u opažanjima analiziranih varijabli;

specifikaciju distribucije vjerojatnosti «odstupanja». Navedeni elementi omogućuju testiranje empirijske valjanosti ekonomskog modela i njegovo korištenje za predviđanja i donošenje odluka.

Poželjne osobine ekonometrijskog modela su (Jovičić, 1989.):

relevantnost, odnosno zasnovanost cilja;

teorijska uvjerljivost: model treba biti usuglašen sa postulatima ekonomske teorije i adekvatno predstavljati ekonomske pojave;

sposobnost razjašnjavanja: model mora objašnjavati opažanja iz stvarnosti, biti konzistentan sa opaženim ekonomskim ponašanjem;

točnost ocjene parametara: ocjene trebaju na najbolji mogući način aproksimirati stvarne parametre modela, te posjedovati osobine nepristranosti, konzistentnosti i efikasnosti;

mogućnost predviđanja endogenih varijabli;

jednostavnost: model treba predstavljati određenu ekonomsku vezu sa najvećom mogućom jednostavnošću, da bi se lako moglo razumjeti njegovo značenje, uz uvjet da se druge željene osobine ne gube simplifikacijom modela.

KLASIFIKACIJA EKONOMETRIJSKIH MODELA

Postoji niz kriterija klasifikacije ekonometrijskih modela. S obzirom na složenosti pojave koja je predmetom izučavanja, ekonometrijski model može biti:

model jedne jednadžbe

13

model sustava jednadžbi ili model sustava simultanih jednadžbi: takav se model sastoji od više linearnih ili nelinearnih jednadžbi međusobno povezanih na određeni specifičan način.

S obzirom na dužinu vremenskog razdoblja koje obuhvaćaju, ekonometrijski modeli mogu biti:

kratkoročni ekonometrijski modeli

dugoročni ekonometrijski modeli. S obzirom na stupanj agregiranja ekonomskih varijabli te formuliranja osnovnih ekonomskih veza analizirane ekonomske pojave, ekonometrijski modeli mogu biti:

mikro ekonometrijski modeli

makro ekonometrijski modeli. S obzirom na svrhu primjene koju model ima, ekonometrijski model može biti:

deskriptivni ekonometrijski model: takav se model konstruira sa svrhom definiranja odnosa između uzroka i posljedica temeljem kojih se mogu donijeti sudovi o funkcioniranju ekonomske pojave

analitički ekonometrijski modeli: pokazuju kako se analizirana ekonomska pojava promijenila kada bi se promijenila bilo koja od njenih veza.

S obzirom na metode statističke analize ekonometrijski modeli mogu biti:

linearni ekonometrijski modeli

nelinearni ekonometrijski modeli koji se prikladnom transformacijom mogu linearizirati

nelinearni ekonometrijski modeli

NOTIRANJE I STRUKTURA EKONOMETRIJSKOG MODELA

Opći oblik ekonometrijskog modela je slijedeći:

( ) (1)

gdje:

Yi predstavlja vektor (n x 1) varijabli koje model želi objasniti (endogene, zavisne varijable), a koje se odnose na i-to opažanje

f je funkcija zbog koje Yi zavisi od vektora (k x 1) nezavisnih varijabli Xi

i je vektor (n x 1) slučajnih pogrešaka.

Svaki ekonometrijski model sastavljen je od dva karakteristična dijela:

deterministički dio modela: sustavni dio modela f(Xi) koji izražava postuliranu teorijsku vezu danu ekonomskom teorijom pri kojoj je Yi zavisna od Xi, ako su drugi čimbenici konstantni (ceteris pribus klauzula), predstavlja dakle, sistematske varijacije Y u zavisnosti od promjene u X;

stohastički dio modela i: nesustavni dio modela (slučajno odstupanje), koji predstavlja slučajne varijacije kojima se uzima u obzir djelovanje promjena ostalih varijabli koje su izostavljene iz modela; slučajna su odstupanja pojedinačno posve beznačajna, ali njihov zajednički utjecaj može biti zamjetljiv.

VARIJABLE EKONOMETRIJSKOG MODELA

Varijabla čije se varijacije objašnjavaju pomoću drugih naziva se zavisnom varijablom, a varijable kojima se objašnjava varijacija zavisne varijable nazivaju se nezavisnim varijablama.

14

Zavisne i nezavisne promjenjive veličine nazivaju se endogenim i egzogenim varijablama. Zavisne varijable su one koje su determinirane sustavom. Model je i tako konstruiran da ih objasni, pa je broj jednadžbi jednak broju endogenih varijabli. Nezavisne varijable formirane su van sustava. Pri svakoj konstrukciji ekonometrijskog modela javlja se problem odabira, odnosno klasifikacije varijabli na zavisne i nezavisne. Status varijabli u modelu, to jest proces određivanja koja je varijabla zavisna, a koje su varijable nezavisne, zavisi o danoj primjeni modela i izvire iz poznavanja područja primjene. Ima više različitih naziva za pojam zavisna i nezavisna varijabla. Kadšto su ti nazivi u svezi s područjem primjene modela. U sljedećoj tablici su dani izrazi koji se najčešće koriste za pojam zavisne i nezavisnih varijabli.

Tablica 1: Različiti izrazi za zavisnu i nezavisnu varijablu

Nazivi varijabli čije se varijacije objašnjavaju – varijabla Y

Nazivi varijabli pomoću kojih se objašnjavaju varijacije Y – varijabla X

zavisna varijabla nezavisne varijable regresand varijabla regresorske varijable endogena varijabla egzogene varijable

output varijabla input varijable prediktand varijabla prediktorske varijable

varijabla cilja kontrolne varijable varijabla efekata kauzalne varijable varijabla odziva stimulus varijable

objašnjena varijabla eksplanatorne varijable

PARAMETRI EKONOMETRIJSKOG MODELA

U svakom ekonometrijskom modelu pojavljuju se određeni parametri ili koeficijenti regresije modela. Jednadžba pravca, odnosno funkcionalni dio modela određen je ako su poznati

parametri. Parametar mjeri vrijednost varijable Y koja odgovara vrijednosti 0 varijable X.

Parametar , nagib funkcije, mjeri promjenu vrijednosti varijable Y koja odgovara jedinici promjene vrijednosti varijable X.

SLUČAJNA VARIJABLA

Ekonomska teorija izražava ekonomske odnose u «točnom, egzaktnom obliku», odnosno formi funkcionalne zavisnosti. U praksi se često javljaju «statističke diskrepancije». Takve je diskrepancije, koje su stohastičke prirode teško eliminirati, ali je relativno lako njima operirati, ukoliko nisu proizvod grubih sustavnih grešaka u formuliranju modela ili mjerenju. Statistički odnosi među pojavama razlikuju se od determinističkih (funkcionalnih) odnosa. Statistički odnosi pojava pod utjecajem su nesistematskih, stohastičkih varijacija, čija prisutnost izvire iz prirode tih odnosa.

Stohastički element u jednadžbama ekonomskog ponašanja konvencionalno se tretira dodajući jednadžbi «slučajnu varijablu u » nazvanu slučajno odstupanje ili slučajna pogreška ili rezidualno odstupanje. Promjenjiva veličina ut uključuje se u model da bi obuhvatila utjecaj raznih pogrešaka, koje se mogu svrstati u tri grupe:

slučajne, odnosno nesustavne pogreške mjerenja relevantnih varijabli

pogreške specifikacije modela, odnosno: pogreške izostavljanja varijabli, koje su brojne i nezavisne i koje se mijenjaju

raznim pravcima, tako da je ukupni efekt na zavisno promjenjivu veličinu slučajan, odnosno nepredvidiv u svakom posebnom razdoblju,

15

pogreške specifikacije uslijed pojednostavljenja matematičkog oblika zavisnosti koje je u stvarnosti kompleksniji.

pogreške zbog rada s uzorkom, jer bez obzira na veličinu uzorka on daje tek parcijalne informacije o populaciji.

Suma tako međusobno odvojenih i nepredvidivih utjecaja ponaša se kao slučajna promjenjiva veličina.

16

DIO II. REGRESIJSKI MODEL

konomska se teorija uglavnom bavi odnosima među varijablama. Općenito se može tvrditi da se cjelokupni sadržaj ekonomske teorije može promatrati kao zbirka odnosa među varijablama. Ekonometrija se bavi testiranjem teorijskih tvrdnji i postavki u

navedenim odnosima te procjenjivanjem parametara koje oni sadrže.

2. ZNAČENJE REGRESIJSKE ANALIZE

Ekonometričari koriste različite statističke tehnike, no osnovna je regresijska analiza. Cilj ekonometrijskog istraživanja je verifikacija ekonomskih zakonitosti, a statistička tehnika koja služi za kvantificiranje i testiranje navedenih zakonitosti je regresijska analiza. Regresijska se analiza sastoji u primjeni različitih metoda ispitivanja zavisnosti jedne varijable o drugoj varijabli ili o više drugih varijabli. Varijable predočuju pojave koje su u nekom odnosu.

Korelacijska i regresijska analiza statistička su sredstava za proučavanje povezanosti (odnosa) među pojavama. Korelacijska analiza proučava jakost, intenzitet ili stupanj povezanosti među pojavama. Regresijska analiza precizno opisuje povezanost uz pomoć regresijskog modela.

PRIMJER 1

dohodakstupanj obrazovanja

Korelacija dviju varijabli: ne spominje se koja varijabla utječe na koju. Korelacija određuje jakost veze;koeficijent

korelacije: mjera jačine veze samo za linearne veze: -1 r 1.

Dohodak= f (stupanj obrazovanja)

Regresija ukazuje na smjer uzročnosti, za razliku od korelacije koja je simetrična. Regresijska analiza proučava zavisnost varijable o nezavisnim varijablama te ukazuje na postojanje tendencije kretanja prema prosječnoj vrijednosti.

Regresijska analiza predstavlja statističku tehniku objašnjavanja promjena u jednoj varijabli (zavisnoj varijabli), kao funkciji promjene u skupu drugih varijabli (nezavisne ili objasnidbene varijable).

PRIMJER 2

Q = f(P, PS, Ya)

Q – količina potražnje P – cijena PS – cijena supstituta Ya – visina dohotka

Regresijska analiza testira smjer i jačinu kvantitativne veze, ali ne dokazuje uzročnost. Uzročnost dokazuje ekonomska teorija.

Regresijska analiza bavi se izučavanjem odnosa između jedne zavisne i jedne ili više nezavisnih varijabli. Možemo biti zainteresirani za istraživanje odnosa između količine

E

17

potražnje nekog proizvoda i njegove cijene, dohotka potrošača i cijene supstituta. Spomenuti odnos temelji se na određenoj ekonomskoj teoriji koja specificira postojanje jedne zavisne (Y) i jedne ili više nezavisnih varijabli (X). No, iako se regresijska analiza bavi proučavanjem odnosa među varijablama, ona ne implicira kauzalnost: ne dokazuje da je nezavisna varijabla uzrok, a zavisna posljedica. Kauzalnost dviju varijabli mora biti dokazana ekonomskom teorijom koja dokazuje pojavu, koju se empirijskim putem testira.

Regresijska analiza ima slijedeće ciljeve:

Procijeniti srednju vrijednost zavisne varijable za danu vrijednost nezavisne varijable.

Testirati hipoteze o prirodi povezanosti: hipoteze sugerira ekonomska teorija. Primjerice, u funkciji potražnje, želi se testirati da cjenovna elastičnost potražnje iznosi -1: krivulja potražnje ima jediničnu cjenovnu elastičnost. Ako cijena proizvoda poraste za 1%, količina potraživanog proizvoda smanjuje se za 1%, pod pretpostavkom konstantnosti ostalih čimbenika.

Predvidjeti ili prognozirati srednju vrijednost zavisne varijable, za dane vrijednosti nezavisne varijable izvan dometa uzorka.

Prema (Jurun, Pivac, Arnerić, 2006) osnovne zadaće regresijske analize su:

Pronaći analitički oblik veze između jedne zavisne i jedne ili više nezavisnih varijabli.

Temeljem analitičkog oblika izvršiti predviđanje vrijednosti zavisne varijable pri određenim vrijednostima nezavisne-nih varijabli.

Cjeloviti postupak regresijske analize obuhvaća sljedeće korake: DEFINIRANJE PREDMETA I CILJEVA ISTRAŽIVANJA

Nakon sagledavanja teorijskih spoznaja kao i rezultata prethodnih istraživanja promatrane pojave postavljaju se osnovne pretpostavke. Tek je tada moguće potpuno, precizno i koncizno definirati predmet i cilj istraživanja.

ODABIR MODELA I DEFINIRANJE VARIJABLI

Radi se o odabiru čimbenika (nezavisnih varijabli X) koji imaju najznačajniji utjecaj na zavisnu varijablu Y. Ovo je vrlo složen korak, jer bi uključivanje irelevantnih varijabli dovelo do ne manjih grešaka specifikacije od isključivanja relevantnih varijabli iz regresijskog modela. Potrebno je i provjeriti ispunjenje svih pretpostavki stohastičnosti slučajne varijable (Gauss-Markovljevi uvjeti). U samom pristupu analizi važno je odrediti je li prikladniji model u kojem je slučajni član aditivan ili je ispravnije analizu započeti s multiplikativnim modelom. Uz to se mora odabrati između jednodimenzionalnog ili multiplog regresijskog modela.

FORMIRANJE STATISTIČKO-DOKUMENTACIJSKE OSNOVE

Formiranje baze podataka mora udovoljavati svim zahtjevima prikupljanja valjanih podataka.

ODABIR KONKRETNOG REGRESIJSKOG MODELA

Pri odabiru konkretnog regresijskog modela njegova specifikacija obuhvaća odabir optimalnog funkcionalnog oblika modela te broja i karaktera relevantnih variajbli.

STATISTIČKA ANALIZA MODELA

Ovaj korak obuhvaća ocjenu parametara i provjeru pokazatelja reprezentativnosti regresijskog modela.

TESTIRANJE HIPOTEZA O MODELU I STATISTIČKO TEORIJSKIH PRETPOSTAVKI

Ovaj korak obuhvaća testiranje hipoteza o statističkoj značajnosti svakog pojedinog parametra u modelu, kao i pretpostavki o slučajnoj pogrešci modela.

18

VREDNOVANJE MOĆI PREDVIĐANJA MODELA

Ukoliko model nema zadovoljavajuću moć predviđanja, a zadovoljava kriterije prethodnih koraka, može se koristiti u analitičke svrhe.

INTERPRETIRANJE REZULTATA

Temeljem valjanosti svih navedenih koraka moguće je izvršiti sintezu rezultata i donijeti zaključke o pojavi koja se istražuje.

Osnova je svake analize regresijski model. Regresijski model definira se kao:

algebarski model kojim se analitički izražava statistički odnos među pojavama, odnosno jednadžba ili skup jednadžbi s konačnim brojem parametara i varijabli

Svaki regresijski model sadrži slučajnu varijablu kojom se predočuju nesistematski utjecaji i po kojoj se statistički model razlikuje od determinističkog modela. Regresijski modeli služe u analitičke, često prediktivne svrhe. Oblici modela su različiti i zavise o danom slučaju primjene. Postupak kojim se odabire oblik modela, odabiru i definiraju varijable, određuje njihov status te postavljaju hipoteze naziva se građenjem modela.

Opći oblik regresijskog modela može biti

( ) (2)

ili

( ) (3)

gdje je:

Y zavisna varijabla f(X) funkcionalni dio modela različit je i zavisi o danom slučaju primjene X1, X2,… Xk, nezavisne su varijable

() e je stohastička varijabla koja predočuje nesistematske utjecaje na zavisnu varijablu

PODACI

Regresijski model analizira se polazeći od stvarnih vrijednosti pojava, odnosno od stvarnih (empirijskih) vrijednosti varijabli. Podaci za regresijsku analizu potječu iz primarnih ili sekundarnih izvora, a nastaju mjerenjem ili opažanjem u statističkim pokusima. U primjenama regresijskog modela podaci se pojavljuju kao:

vremenske serije

podaci vremenskog presjeka

mješoviti podaci

Podaci vremenske serije (time series data) sadrže informacije o kretanju vrijednosti varijable tijekom određenog vremenskog razdoblja. Podaci se sakupljaju u jednakim vremenskim intervalima: godišnje, polugodišnje, mjesečne, kvartalne intervale. Tako sakupljeni podaci mogu biti kvantitativne prirode (cijene, osobna potrošnja, investicije, stopa nezaposlenosti) ili kvalitativne prirode ili dummy varijable (muškarci, žene, zaposleni, nezaposleni, udati ili ne udati). Dummy podaci poprimaju vrijednosti od 0 do 1 čime se izražava prisutnost odnosno odsutnost nekog kvalitativnog svojstva.

Podaci vremenskog presjeka ili brojčane vrijednosti pojava (cross-sectional data) su vrijednosti varijabli u jednom vremenskom intervalu ili vremenskoj točki za specifične jedinice (poduzeće, gospodarski sektor, zemlja).

19

Mješoviti podaci (pooled data) su kombinacija podataka vremenske serije i podataka vremenskog presjeka. Primjer mješovitih podataka su podaci o stopi nezaposlenosti tijekom 10 godina za 20 različitih zemalja. Podaci za stopu nezaposlenosti za razdoblje od 10 godina predstavljaju podatke vremenske serije, dok podaci o stopi nezaposlenosti za svaku pojedinu zemlju predstavljaju podatke vremenskog presjeka. Raspolagat će se tako podacima sastavljenim od 200 zapažanja: 10 godišnjih opažanja za 20 različitih zemalja. Posebna vrsta mješovitih podataka su tzv. panel podaci (panel data, longitudinal data ili micropanel data) koji se sastoje od opažanja uzetih za jednu gospodarsku jedinicu (poduzeće ili porodicu) kroz određeni vremenski period. Panel podaci koji se dobiju anketiranjem istih gospodarskih jedinica u jednakim vremenskim intervalima vrlo su korisni za analizu kretanja ponašanja tih gospodarskih jedinica.

Kako je neke utjecaje nemoguće kvantificirati u nekim se modelima pojavljuju i binarne ili dummy varijable (dummy variables, indicator variables). One poprimaju naprijed poznate vrijednosti 0 ili 1. Vrijednost 0 govori o odsutnosti nekog svojstva, a 1 o prisutnosti svojstva, pa su one sredstvo kojim se u model uključuje određena kvalitativna varijabla.

Podaci na temelju kojih se provode postupci katkada se transformiraju radi pojednostavljenja računanja ili radi poboljšanja njihove kvalitete. Tako se umjesto originalnih varijabli rabe njihove logaritamske vrijednosti, recipročne vrijednosti. Originalne vrijednosti mogu se prikladno transformirati u niz proporcionalnih veličina (indeksi) ili im se varijabilnost smanjuje pomoću pomičnih presjeka. Već je spomenuto da uspješnost ekonometrijskog istraživanja uvelike zavisi od kvalitete i količine podataka. Neiscrpan izvor podataka, osim raznih statističkih podataka, svakako je i Internet sa svojim mrežnim stranicama koje obiluju različitim makro i mikropodacima. Vrlo često u fazi prikupljanja ekonomskih podataka dolazi do različitih poteškoća i pogrešaka. Najčešće se u analizama koriste javni podaci, koji mogu u sebi sadržavati određenu pogrešku u definiciji, statističkom izračunavanju ili nepotpunom obuhvatu i slično. Stoga, je u ovoj fazi ekonometrijskog istraživanja potrebno voditi računa o tome jesu li varijable odabranog modela izmjerene na odgovarajući način, tj. je li statistički podaci odgovaraju svojoj ekonomskoj definiciji i sadržavaju pogrešku mjerenja.

VREMENSKA DIMENZIJA

Vremenska dimenzija u regresijskom modelu dolazi do izražaja na različite načine. Tako se u regresijski model može uključiti varijabla vrijeme kao nezavisna varijabla. Vremenske serije (vremenski nizovi) često su brojčana podloga za konkretizaciju modela. Vremenska serija je kronološki uređen niz neke pojave. Ako vremenske serije čine vrijednosti varijabli u modelu tada njihova kovarijacija u vremenu može biti sinkrona ili asinkrona.

Sinkrona kovarijacija

Ako se s { } označi vremenska serija vrijednosti zavisne varijable Y; a s

{ } vremenske serije nezavisnih varijabli X1, X2, Xj, Xk u

modelu

Yt= f (Xt1, Xt2, Xtj,…, Xk)+et, t=1, 2,…,n (4)

vrijednost zavisne varijable u vremenu t funkcija je vrijednosti nezavisnih varijabli u istom vremenu t i vrijednosti slučajne varijable e u istom vremenu. Pojave (varijable) predočene u tom modelu sinkrono kovariraju (Promatra li se odnos raspoloživog dohotka i osobne potrošnje stanovništva, sinkrona kovarijacija upućuje na odnos tekućeg raspoloživog dohotka i tekuće osobne potrošnje za svako od n razdoblja.).

20

Asinkrona kovarijacija

Asinkrona kovarijacija prisutna je ako na tekuću vrijednost zavisne varijable djeluju vrijednosti nezavisnih varijabli prethodnog razdoblja ili više razdoblja prije tekućeg (pomak u vremenu). U nekim modelima u statusu nezavisne varijable može se naći i zavisna varijabla s pomakom u vremenu. U modelu

Yt = f(Yt-1, X1t, X2t-1, X3t-2+…)+et (5)

tekuća vrijednost zavisne varijable Y zavisi o njenoj prethodnoj vrijednosti, o tekućoj vrijednosti nezavisne varijable X1, o vrijednosti prethodnog razdoblja varijable X2, o vrijednosti dvaju razdoblja ispred tekuće varijable X3… i o vrijednosti slučajne varijable iz tekućeg razdoblja. Model

Yt = f(Xt, Xt-1, Xt-2+…)+et (6)

izražava zavisnost tekuće vrijednost zavisne varijable Y o tekućoj vrijednosti i proteklim vrijednostima nezavisne varijable X i tekućoj vrijednosti varijable e. Tekuća vrijednost zavisne varijable Y može se predočiti pomoću njezinih proteklih vrijednosti i tekuće vrijednosti varijable e, to jest modelom:

Yt = f(Yt, Yt-1, Yt-2+… )+et (7)

VRSTE MODELA

Regresijski modeli se dijele na:

simultane: sastoji se iz dvije ili više povezanih jednadžbi

nesimultane: sastoji se od jedne jednadžbe

Regresijski model može biti:

model jednostavne regresije: ako se sastoji od jedne zavisne i jedne nezavisne varijable

model višestruke (multiple) regresije: ako model sadrži jednu zavisnu i dvije ili više nezavisnih varijabli.

LINEARNOST MODELA

Važna pretpostavka primjene linearne regresije je linearnost modela. Među regresijskim modelima važnu skupinu čine linearni regresijski modeli. Linearnost regresijskog modela po pravilu se povezuje s dimenzijom (potencijom) varijabli i nepoznatih parametara.

Model je linearan u varijablama ako svaka varijabla u modelu ima potenciju jednaku 1 te nije podijeljena ili pomnožena s drugom varijablom. Model je linearan u parametrima ako svaki parametar u njemu ima potenciju jednaku 1. te ako on nije pomnožen ili podijeljen s drugim parametrima. Model u kojem su parametri u umnošku ili kvocijentu nelinearan je u parametrima. Regresijski model može biti:

linearan u varijablama i linearan u parametrima

nelinearan u varijablama i linearan u parametrima

linearan u varijablama i nelinearan u parametrima

nelinearan u varijablama i nelinearan u parametrima

Sa stajališta metoda statističke analize model je linearan ako je linearan u parametrima.

U sklopu metoda statističke analize model se dijeli na:

21

linearne,

nelinearne koji se prikladnom transformacijom mogu transformirati u linearne te

nelinearne («pravi» nelinearni modeli) Mogućnost transformacije nelinearnih modela u linearne modele zavisi o položaju slučajne varijable.

ANALIZA REGRESIJSKOG MODELA

Regresijski model analizira se primjenom različitih metoda deskriptivne i inferencijalne statistike.

Osnovna zadaća deskriptivne statistike je procijeniti nepoznate parametre i druge statističko-analitičke veličine. Pri tome se ne specificira model koji generira pojavu. Dobiveni rezultati ne generaliziraju se, nego služe isključivo za statistički opis podataka.

U sklopu inferencijalne statistike procjenjuju se parametri i testiraju hipoteze o paramterima, odnosno varijablama u modelu, te provode drugi analitički postupci. Primjena metoda inferencijalne statistike u svezi je s regresijskim modelom kao generatorom pojave. Po definiciji, takav model sadrži slučajnu varijablu određenih svojstava. Slučajna varijabla e u kombinaciji je s funkcionalnim dijelom modela, pa je zavisna varijabla također slučajna varijabla. Empirijske vrijednosti zavisne varijable smatraju se uzorkom iz zamišljenog beskonačnog osnovnog skupa, a sam polazni model, modelom osnovnog skupa. Parametri se procjenjuju brojem i intervalima, pri čemu se polazi od sampling-distribucija procjenitelja parametara. Testiranje hipoteza o parametrima oslanja se na sadržaje hipoteza odnosno sampling-distribucije test-veličina. Sampling-distribucija je teorijska distribucija vjerojatnosti procjenitelja parametra. Svaka sampling-distribucija izvire iz koncepta ponovljenih izbora slučajnih uzoraka iz danog osnovnog skupa.

3. REGRESIJSKI MODEL S DVIJE VARIJABLE - TEMELJI POJMOVI

Najjednostavniji slučaj linearnog odnosa sadrži samo dvije mjerljive varijable.

3.1. ODNOS IZMEĐU VARIJABLI

Odnos između varijabli X i Y definiramo kao skup svih vrijednosti koje označava zadana jednadžba. Ako je zadana jednadžba

(8)

gdje su 0 i 1 konstante tada je, odnos između X i Y skup { }koji se sastoji od svih mogućih vrijednosti X i Y koje zadovoljavaju jednadžbu.

Pojam odnosa povezan je s pojmovima:

domene: skup svih mogućih vrijednosti varijable X

područja vrijednosti: skup svih mogućih odgovarajućih vrijednosti varijable Y

Svi se odnosi među varijablama mogu klasificirati kao:

deterministički: ako se svaki element domene združuje sa samo jednim elementom područja vrijednosti; odnos između X i Y okarakteriziran je kao Y=f(X) deterministički

22

ako za svaku vrijednost varijable X postoji samo jedna odgovarajuća vrijednost varijable Y;

stohastički: ako za svaku vrijednost varijable X postoji cjelokupna distribucija vjerojatnosti vrijednosti varijable Y; u tom slučaju, za bilo koju zadanu vrijednost varijable X, varijabla Y može poprimiti neku specifičnu vrijednost ili pasti unutar nekog određenog intervala, s vjerojatnošću manjom od 1 i većom od 0, to znači da se vrijednost varijable Y nikada ne može točno predvidjeti.

PRIMJER 3

Ilustriranje razlike između determinističkog i stohastičkog odnosa (Primjer preuzet iz Kmenta, 1997)

Pretpostavimo da izvodimo niz eksperimenata u grupi da bismo odredili potražnju za jabukama pri različitim cijenama. Neka je:

qt količina jabuka prodanih u vremenu t

pt cijena jabuka

Grupa potrošača svaki put tijekom razdoblja plaća jabuke koje se nude po danoj cijeni. Na kraju imamo slijedeće rezultate:

pt qt

25 1 20 3 15 5 10 7 5 9 0 11

Ti se rezultati mogu prikazati kao:

Odnos je između cijene i količine takav da u svakom trenutku, u kojem bi jabuke bile ponuđene po 25 novčanih jedinica po komadu bila bi prodana samo jedna jabuka. To je deterministički odnos, jer za svaku cijenu postoji samo jedna količina prodanih jabuka.

Ako razmotrimo različiti skup rezultata:

cijena količina

25 0 jabuka 25% vremena 1 jabuka 50% vremena 2 jabuka 25% vremena

20 2 jabuka 25% vremena 3 jabuka 50% vremena 4 jabuka 25% vremena . . . . . . 0 10 jabuka 25% vremena 11 jabuka 50% vremena 12 jabuka 25% vremena

gdje je t slučajna varijabla koja bez obzira na specifičnu cijenu, ima slijedeću distribuciju vjerojatnosti:

t f(t)

-1 0,25 0 0,5

+1 0,25

1,00

Ta se varijable zove slučajno odstupanje (slučajna pogreška), jer remeti inače deterministički odnos. Zadnji je odnos stohastički jer se, zbog prisutnosti odstupanja za svaku cijenu traži nekoliko količina, pri čemu se svaka količina ostvaruje s danom vjerojatnošću. Grafički prikaz dvaju odnosa dan je na slijedećoj slici.

23

Slika 3: Deterministički i stohastički odnos

12

10

8

6

4

2

0 5 10 15 20 25

12

10

8

6

4

2

0 5 10 15 20 25

XX

XX

XX

X X

X

X

X

X

Cijena Cijena

Ko

ličin

a

Ko

ličin

a

deterministički odnos stohastički odnos

3.2. JEDNOSTAVNI LINEARNI REGRESIJSKI MODEL

Ekonometrija se bavi isključivo stohastičkim odnosima. Najjednostavniji oblik stohastičkog odnosa između dvije varijable X i Y zove se jednostavni linearni regresijski model. Taj se model formalno izražava u obliku:

(9)

u kojem je:

Y = zavisna varijable X = nezavisna varijabla

= slučajno odstupanje i = i-to opažanje

0 i 1 = nepoznati koeficijenti ili parametri:

0: konstanti član, predstavlja odsječak na osi ordinate 1: koeficijent nagiba (smjera), regresijski koeficijent, označava vrijednost za koju

će se promijeniti y kada se x promijeni za 1.

Stohastička narav regresijskog modela podrazumijeva da za svaku vrijednost varijable X postoji cijela distribucija vjerojatnosti za vrijednosti varijable Y. To znači da se vrijednost varijable Y nikada ne može točno predvidjeti. Neizvjesnost se glede varijable Y, pojavljuje zbog prisutnosti

slučajnog odstupanja koje, budući da je slučajno, pridaje slučajnost i varijabli Y.

PRIMJER 4

Razmotrimo proizvodnu funkciju poduzeća. Pretpostavimo da proizvodnja na neki specifičan način zavisi o količini uloženog rada. Takva se proizvodna funkcija može odnositi na kratak rok u kojem su količine ostalih čimbenika fiksne. Međutim, općenito, ista će količina rada dovesti do različitih količina proizvodnje zbog varijacija u vremenu, mogućnosti ljudi, učestalosti zastoja strojeva i drugih čimbenika. Proizvodnja će, koja je u tom slučaju zavisna varijabla, zavisiti ne samo o količini uloženog rada koji je nezavisna varijabla, već i o velikom broju slučajnih uzroka koji se sažeto izražavaju u obliku slučajnog odstupanja. Ti su slučajevi pojedinačno posve beznačajni da bi ih se zapazilo. Međutim, njihov zajednički utjecaj može biti posve zamjetljiv. Vrijednost varijable

X i distribucija vjerojatnosti slučajne varijable određuju tada distribuciju vjerojatnosti varijable Y i njezine karakteristike.

24

3.3. POSEBNOST ZNAČENJA TERMINA «LINEARNA» REGRESIJA

Izraz (9) predstavlja model linearne regresije. Potrebno je razjasniti što zapravo termin «linearan» znači. Linearnost regresijskog modela može se interpretirati na dva načina:

linearnost u varijablama te, linearnost u parametrima.

Linearnost u varijablama

Prvo i možda «prirodnije» značenje linearnosti je to da je očekivana vrijednost zavisne varijable Y linearna funkcija nezavisne varijable(i) X kao u izrazu (9).

Za funkciju Y= f (X) kaže se da je linearna u X ako:

X ima potenciju 1 (izrazi X2 i X nisu linearni) te,

X nije pomnožen ili podijeljen sa nekom drugom varijablom, kao na primjer: XZ i X/Z, gdje je Z druga varijabla.

U takvoj interpretaciji sljedeći izrazi nisu linearni

2

i21 X)Y(E (10)

i

21X

1)Y(E (11)

jer u izrazu (10) X ima potenciju 2, a u izrazu (11) se X pojavljuje u inverznom obliku.

Za regresijski model koji je linearan u nezavisnoj varijabli(ama) stopa promjene u zavisnoj varijabli ostaje konstantna za jedinicu promjene u nezavisnoj varijabli; nagib ostaje konstantan. Za regresijski model koji je nelinearan u nezavisnoj varijabli nagib nije konstantan, što je vidljivo na sljedećoj slici.

Slika 4: Linearna (a) i nelinearna (b) krivulja potražnje

Na slici (a) za regresiju iz izraza (9), nagib – stopa promjene u (E)Y – srednja vrijednost od Yi,

ostaje ista, to jest 2, bez obzira na kojoj vrijednost od X se promjena mjeri. S druge strane, za regresiju iz izraza (9), stopa promjene u srednjoj vrijednosti Y, varira iz točke u točku na regresijskoj krivulji,1.

Linearnost u parametrima

1 U linearnom modelu nagib, iznos Y u odnosu na X, je konstantan i jednak 2, dok u nelinearnom modelu iznosi

( ⁄ ), zavisi od vrijednosti X na kojoj se nagib mjeri te nije konstantan.

25

Drugi način interpretiranja linearnosti jest, da je očekivanje zavisne varijable linearna funkcija parametara. Analogno linearnosti u varijablama, funkcija je linearna u parametrima, ako parametri imaju potenciju 1. Izrazi (10) i (11) predstavljaju linearne model, je parametri poštuju uvjete linearnosti, nelinearnost varijable X se ne uzima u obzir. Međutim model tipa

i

2

21 X)Y(E

(12)

nelinearan je u parametrima jer se 2 pojavljuje s potencijom 2.

Sa stajalište regresijske analize model je linearan ako je linearan u parametrima.

26

ZADACI ZA VJEŽBU2

1. Analiziraju se slijedeće varijable te odredite moguću status pojava, odnosno varijabli u regresijskom modelu:

raspoloživi dohodak, osobna potrošnja;

uloženi kapital, broj zaposlenih, opseg proizvodnje;

ukupni troškovi, opseg proizvodnje;

per capita bruto društveni proizvod, veličina fiksnog kapitala, broj zaposlenih, medijalni -broj završenih godina školovanja;

prihod, broj turističkih ležajeva, prosječan broj noćenja, prosječni godišnji dohodak kojime raspolaže turist.

2. Kako glase regresijski modeli ako je funkcionalni dio modela:

a) f(x) = 1+2X;

b) f(X1, X2) = 0X11X2

2

3. Klasificirajte slijedeće modela s obzirom na (1) dimenziju (potenciju) varijabli i parametara te (2) s obzirom na uporabu metoda statističke analize:

a) b)

c) √

d)

e)

4. Linearizirajte sljedeće modele:

a)

b)

5. Analizira se per capita raspoloživi dohodak po stanovniku i osobna potrošnja po stanovniku u SADu. Podaci su dani po godinama razdoblja 2000-2014. Vrijednost dohotka i potrošnje izražene su u stalnim cijenama (u dolarima 2000. godine). Podaci su dani u sljedećoj tablici.

Godina Per capita osobna potrošnja Per capita raspoloživi dohodak

2000. 3 277 3 665 2001. 3 355 3 752 2002. 3 511 3 860 2003. 3 623 4 808 2004. 3 566 4 009 2005. 3 609 4 051 2006. 3 774 4 158 2007. 3 924 4 280 2008. 4 057 4 441 2009. 4 121 4 512 2010. 4 093 4 487 2011. 4 131 4 561 2012. 4 146 4 555 2013. 4 303 4 670 2014. 4 490 4 941

Temeljem podataka iz tablice: a) Odredite status varijabli u modelu regresije. b) Nacrtajte dijagram rasipanja. Što se zaključuje na temelju dijagrama?

2 Zadaci preuzeti i prilagođeni prema Šošić, I. (2004), Primijenjena statistika, Školska knjiga, Zagreb i Lovrić, LJ. (2005),

Uvod u ekonometriju, Ekonomski fakultet Rijeka, Rijeka.

27

RJEŠENJA ZADATAKA

1. Određivanje statusa varijable u regresijskom modelu izvire iz ekonomske teorije. (1) Osobna potrošnja zavisi o raspoloživom dohotku, pa je zavisna varijabla osobna potrošnja, a nezavisna varijabla raspoloživi dohodak. (2) Opseg proizvodnje zavisi o veličini kapitala i broju zaposlenih. Opseg proizvodnje je zavisna varijabla, a veličina uloženog kapitala i broj zaposlenih su nezavisne varijable. (3) Varijabla ukupni troškovi je zavisna, a nezavisna varijable je opseg proizvodnje. (4) per capita bruto društveni proizvod zavisi o veličini fiksnog kapitala, broju zaposlenih, medijalnom zbroju završenih godina školovanja. Varijabla per capita bruto društveni proizvod zavisna je, a ostale varijable su nezavisne. (5) Varijabla prihod je zavisna, a varijable broj turističkih ležajeva, prosječan broj noćenja turista, prosječni godišnji dohodak turista nezavisne su varijable.

2. a) Regresijski je (aditivni) model f(x) = 1+2X+e b) Model u kojem je stohastička varijabla u umnošku s funkcionalnim dijelom oblika je f(X1, X2) =

0X11X2

2e

3. a) Model je linearan u varijablama i parametrima jer su potencije varijabli i parametara jednake jedan. Sadrži jednu zavisnu i jednu nezavisnu varijablu i sa stajališta metoda statističke analize predočuje model jednostavne linearne regresije.

b) Model je nelinearan u varijabli X2 (jer ta varijabla ima potenciju 2), a linearan u parametrima. Sa stajališta metoda statističke analize model je linearan.

c) Model je nelinearan u varijabli X3 (ta varijabla ima potenciju 0,5), a linearan u parametrima i ubraja se među linearne statističke modele.

d) Logaritamskom transformacijom model nelinearan u varijablama postaje Parametri uz nezavisne varijable su s potencijom jedan, pa je riječ o linearnom (lineariziranom) modelu višestruke regresije.

e) Model je nelinearan, i ne može se linearizirati, jer je varijabla e u zbroju s funkcionalnim dijelom modela. Stoga je riječ o «pravom» nelinearnom modelu.

4. a)

b)

5. a) Gospodarska teorija upućuje da osobna potrošnja ovisi o raspoloživom dohotku. Najjednostavniji statistički model potrošne funkcije jest model jednostavne linearne regresije u kojem je raspoloživi dohodak po stanovniku nezavisna varijabla, osobna potrošnja po stanovniku zavisna varijabla.

b) Dijagram rasipanja:

Točke na dijagramu rasipanja raspoređuju se od donjeg lijevog kuta kvadrata koordinatnog sustava prema

gornjem desnom kutu. Prema rasporedu točaka uočava se da je povezanost raspoloživog dohotka i potrošnje po obliku linearna.

3000

3200

3400

3600

3800

4000

4200

4400

4600

3600 3800 4000 4200 4400 4600 4800 5000

per capita dohodak

per

capita p

otr

ošnja

28

3.4. REGRESIJSKA FUNKCIJA POPULACIJE I REGRESIJSKA FUNKCIJA UZORKA

Jednadžba Y=0 + 1X matematička je funkcija čije je obilježje determinističnost. Za razliku od matematičke funkcije, regresijska je funkcija stohastička. Regresijskom funkcijom izražavamo vezu među pojavama (varijablama) iz realnog svijeta. Ta veza nije nikad tako precizna da bi se mogla točno predstaviti nekom teorijskom funkcijom.

PRIMJER 5

Funkcija potrošnje.

Prema makroekonomskoj teoriji, potrošnja domaćinstva (Y) zavisi o dohotku domaćinstva (X). Ako dohodak raste, raste i potrošnja. Takvu vezu moguće je opisati jednostavnim regresijskim modelom. Radi se o stohastičkoj veličini čiju vjerojatnost označavamo kao vjerojatnost od Y pri danoj vrijednosti od Xi (uvjetna vjerojatnost od Y za dano Xi): P(Y/Xi). Za takvu stohastičku varijablu možemo izračunati srednju vrijednost, koju nazivamo očekivana vrijednost E (Y/Xi). To znači da tvrdnja-sva domaćinstva koja imaju veći dohodak troše više, vrijedi u prosjeku. Vidimo da se ovdje radi o stohastičkoj pojavi.

Za takve pojave vrijedi očekivana vrijednost zavisne varijable, funkcija nezavisne varijable:

( | ) ( ) (13)

odnosno ako se radi o linearnoj funkciji:

( | ) (14)

Izraz (14) zove se regresijska funkciju populacije (RFP).

Pomoću regresijskog modela ( | ) ( ) moguće je izračunati očekivanu potrošnju svih domaćinstava s jednakim dohotkom. Ovako izračunata očekivana vrijednost deterministička je veličina. Ukoliko uzmemo podatke za pojedino i-to domaćinstvo, vidjet ćemo da će se, za određenu visinu dohotka, potrošnja razlikovati od ove koje smo izračunali regresijskom jednadžbom. Ta odstupanja stvarnih vrijednosti potrošnje za svako domaćinstvo, od one

izračunate regresijskom jednadžbom, označit ćemo sa u (). Ta odstupanja nazivaju se slučajna greška ili slučajna odstupanja, a predstavljaju razliku između empirijskih i očekivanih vrijednosti zavisne varijable:

( | ) (15)

iz relacije izvodimo

( | ) (16)

odnosno

(17)

Tako od determinističkog modela, koji definira ekonomska teorija, dolazimo do stohastičkog, populacijskog regresijskog modela. Naime, potrošnja se, za svako domaćinstvo, sastoji od:

očekivane vrijednosti potrošnje svih domaćinstava pri određenoj visini dohotka (deterministički dio) te

slučajne pogreške (stohastički dio) koja se ponaša slučajno i koja predstavlja utjecaj drugih faktora na potrošnju, a koji nisu predstavljeni uključenom regresorskom varijablom, pa je zbog nje i zavisna varijable također slučajna

Glavni razlozi zbog kojih ta odstupanja nastaju su:

manji utjecaji koji nisu uključeni kao zasebne varijable,

greške mjerenja varijabli,

greške u izboru tipa funkcijske veze, te

29

nepredvidive ili potpuno slučajne varijable

Relacija (17) ocjenjuje se na cijelom skupu podataka populacije. Obično za tako velik skup ne raspolažemo podacima, pa se koristimo uzorcima na osnovi kojih ocjenjujemo parametre RFP koji nam u stvari nisu poznati. Dakle, kod ekonometrijskog modeliranja primjenjujemo saznanja statističke teorije, pa parametre RFP ocjenjujemo pomoću slučajnog uzorka. Ako bismo parametre RFP ocjenjivali na bazi različitih uzoraka, svaki put bismo dobili ocjene koje bi se međusobno ipak razlikovale, ali pretpostavljamo da se razlikuju samo zbog nekih slučajnih utjecaja.

Regresijska funkcija populacije, koja je ocijenjena na bazi uzorka zove se regresijska funkcija uzorka (RFU) i notira se :

(18)

gdje su:

= ocjene od ( | )

= ocjena od

= ocjena od

Osnovni zadatak jednostavne linearne regresijske analize jest naći pravac koji je najbolje

prilagođen empirijskim podacima. Točke na tom pravcu označavaju se sa , i izračunavaju se pomoću jednadžbe (18). Razlika (19) zove se rezidual:

(19)

Rezidual predstavlja razliku između empirijskih točaka i točaka na regresijskom pravcu (ei je procjena slučajnog odstupanja na osnovi uzorka). Iz relacija (18 i 19) izvodi se jednadžba:

(20)

odnosno

(21)

3.4.1. REGRESIJSKA FUNKCIJA POPULACIJE – HIPOTETIČKI PRIMJER

Za ilustriranje pojma regresijske funkcije populacije posegnimo za primjerom 3 . Pretpostavimo da želimo ocijeniti visinu izdataka 100 porodica, na određenoj razini dohotka. Označimo sa X raspoloživi tjedni dohodak, a sa Y tjedni izdatak pojedine porodice. Populacija od 100 porodica podijeljena je u 10 dohodovnih razreda (od 150$ do 375$). Podaci o tjednom dohotku i izdacima prikazani su u tablici

Tablica 2: Tjedni izdaci u odnosu na tjedni dohodak

DOHODOVNI RAZRED X TJEDNI IZDACI Y

150 175 200 225 250 275 300 325 350 375

1. 28 33 35 36 38 40 42 43 45 46

2. 27 31 31 34 36 37 39 35 39 40

3. 25 29 30 31 33 32 34 31 33 34

4. 33 27 28 29 30 30 31 30 30 31

5. 23 24 26 27 28 29 30 29 27 28

6. 15 20 22 26 25 27 29 33 30 32

7. 18 18 20 23 23 25 26 32 28 30

8. 12 15 17 21 22 22 24 30 32 31

9. 13 14 16 18 20 18 25 31 32 33

10. 15 10 19 16 18 32 23 25 34 31

SREDINA 20,90 22,10 24,40 26,10 27,30 29,20 30,30 31,90 33,0 33,60

3 Primjer preuzet i prilagođen prema Gujarati, D. N. i Porter, D. C. (2009), Basic Econometrics, Fifth Edition, McGraw-Hill

International Edition, New York.

30

Na tjednoj razini dohotka od 150 $, postoji 10 porodica koje tjedno troše između 12 i 28 $. Prosječno tih 10 porodica troši 20,90 $ tjedno. Podaci iz tablice 2 unose se u dijagram rasipanja.

Slika 5: Dijagram rasipanja

Tjedni izdaci prikazani su na ordinati, dok je tjedni dohodak prikazan na apscisi. Kako dijagram rasipanja pokazuje za svaku danu razinu tjednog dohotka postoji više vrijednosti za Y.

Što prikazuje dijagram rasipanja?

Dijagram rasipanja pokazuje opću tendenciju prema kojoj Y raste sa svakim porastom X: porodice sa višim dohotkom više i troše. Trend rasta uočljiviji je ukoliko se promatraju sredine vrijednosti za Y u odnosu na vrijednosti X. Te su srednje vrijednosti nazvane očekivanjima ili očekivanim vrijednostima. Ukoliko se očekivane vrijednosti Y povežu pravcem dobije se regresijska krivulja populacije. Regresijska funkcija populacije daje srednju (očekivanu) vrijednost zavisne varijable (izdaci) koja odgovara svakoj pojedinoj vrijednosti nezavisne varijable (tjedni dohodak). Stoga, na razini tjednog dohotka od 200 $, prosječni tjedni izdaci iznose 24.40 $. Ukratko RFP je krivulja koja ukazuje na povezanost srednje vrijednosti varijable Y sa svakom pojedinom vrijednošću nezavisne varijable X populacije. Kako je RFP aproksimativno linearna, može se matematički izraziti slijedećom funkcijom:

( | ) (22)

koja predstavlja matematičku funkciju pravca.

Izraz ( | ) predstavlja očekivanje ili očekivanu vrijednost Y. Očekivane vrijednosti varijable Y za danu vrijednost varijable X prikazane su u posljednjem retku tablice 2. Potrebno je napomenuti da je ( | ) funkcija od Xi, što znači da zavisnost Y od X, tehnički nazvana regresija Y na X, može biti jednostavno definirana kao srednja vrijednost distribucije vrijednosti varijable Y za danu vrijednost varijable X. Drugim riječima, regresijska krivulja populacije je pravac koji prolazi kroz očekivanu vrijednost varijable Y, matematički se izražava izrazom (22) a naziva se RFP jer predstavlja regresijsku krivulju

populacije kao cjeline. Parametri 0 i 1 predstavljaju regresijske koeficijente. 0 predstavlja

odsječak na osi ordinate (intercept), a 1 koeficijent nagiba koji mjeri razinu promjene u očekivanoj vrijednosti Y za jedinicu promjene varijable X.

Pretpostavimo da 1=0,6. Taj se podatak interpretira kako slijedi: ako tjedni dohodak poraste za 1 $,

prosječno će tjedni izdaci porasti za 60 centi. Što je s 0? 0 predstavlja srednju vrijednost Y ako X=0. Pokazuje srednju vrijednost izdataka u slučaju da tjedni dohodak iznosi nula.

31

Statistička ili stohastička specifikacija regresijske funkcije populacije

RFP prikazuje očekivanu vrijednost zavisne varijable koja odgovara pojedinim vrijednostima nezavisne varijable. Iz tablice 2 vidljivo je, na primjer da za X=300 $ prosječna vrijednost varijable Y iznosi 30,30 $. Ali, ako nasumice odaberemo jednu porodicu između 10 njih na određenoj razini dohotka, izdaci neće nužno odgovarati prosječnom iznosu. Ako odaberemo desetu porodicu na razini dohotka X=300 $, vidimo da njeni izdaci iznose 23 $, što je ispod prosjeka dohodovnoga razreda. Prva porodica istoga dohodovnoga razreda troši 42 $, što je pak iznad prosjeka. Kako dakle, objasniti pojedinačne izdatke u odnosu razinu dohotka?

Pojedinačni izdaci jednaki su prosjeku dohodovnoga razreda određena količina. Matematički se navedeno može izraziti na slijedeći način:

(23)

gdje je, ui stohastička ili slučajna greška ili odstupanje.

Slučajno odstupanje je slučajna varijabla, stoga se njene vrijednosti ne mogu a priori poznavati ili kontrolirati, a karakterizirana je distribucijom vjerojatnosti (primjerice normalnom ili t-distribucijom).

Pojedinačni izdaci, i-te porodice, koji odgovaraju određenom raspoloživom dohotku predstavljaju zbroj dviju komponenti:

Deterministička komponenta: ( ) , a predstavlja prosječni izdatak u i-toj

podpopulaciji . Točka na regresijskoj krivulji populacije koja odgovara danoj razini dohotka.

Stohastička komponenta ui: nesistematična ili slučajna komponenta, slučajno odstupanje ili slučajna greška (primjerice, determinirana drugim čimbenicima nego što je to dohodak).

Objašnjenje navedenoga vidljivo je iz sljedeće slike.

Slika 6: Tjedni izdaci i regresijska linija populacije

Na razini dohotka X=150 $, jedna porodica troši 25 $ tjedno, dok prosječni izdaci na istoj razini dohotka iznose 20,90 $. Stoga, izdaci navedene porodice prelaze sustavnu komponentu modela za 4,10 $, a njena u komponenta iznosi +4,10 jedinica. S druge strane, na razini dohotka X=300 $, druga slučajno odabrana porodica troši 24 $, dok prosječni izdaci za danu razinu dohotka iznose 30,30 $. Izdaci navedene porodice manji su od sustavne komponente modela za 6,30 $, a njena u komponenta iznosi -6,30.

32

Izraz (23) naziva se stohastička (statistička) regresijska funkcija populacije, dok se izraz (22) naziva deterministička ili nestohastička regresijska funkcija populacije. Deterministička regresijska funkcija populacije prikazuje odnos očekivanih vrijednosti varijable Y u odnosu na određene razine dohotka (nezavisnu varijablu X). Stohastička regresijska krivulja populacije pokazuje kako variraju pojedinačni izdaci u odnosu na prosječnu vrijednost zbog prisutnosti slučajnog odstupanja u.

U svezi s osnovnim osobinama slučajnog odstupanja potrebno je napomenuti sljedeće:

1. Slučajno odstupanje može prikazivati utjecaj onih varijabli koje nisu eksplicite uključene u model. Primjer, u odnosu izdataka i raspoloživog dohotka, slučajno odstupanje može prikazivati utjecaj čimbenika kao što su: stupanj obrazovanja, zaposlenost članova porodice, broj članova porodice, područje stanovanja, prijašnji dohoci, sklonost investiranju, sklonost štednji…

2. Slučajna komponenta može biti posljedica pogrešaka u mjerenju. Primjerice podaci za raspoloživi dohodak mogu biti zaokruženi, a podaci za izdatke nepravilno prikazani zbog grešaka u prikupljaju samih podatka….

3. Iako je poznato da druge varijable utječu na Y, moguće ih je inkorporirati u slučajnu komponentu, jer je njihov zajednički utjecaj malen i nesistematičan.

3.4.2. REGRESIJSKA FUNKCIJA UZORKA – HIPOTETIČKI PRIMJER

Postavlja se pitanje kako procijeniti regresijsku funkciju populacije iz izraza (22), odnosno dobiti vrijednosti parametara. Ako imamo podatke iz tablice 2, podatke za cijelu populaciju, problem je jednostavno rješiv: potrebno je pronaći očekivanu vrijednost varijable Y (prosječnih populacijskih izdataka) za danu razinu dohotka te spojiti dobivene sredine. No, u praksi rijedak je slučaj da se raspolaže s podacima cijele populacije, najčešće se raspolaže s podacima uzorka odabranog iz neke populacije. Potrebno je stoga, ocijeniti regresijsku funkciju populacije na temelju podataka iz uzorka. Pretpostavimo da umjesto podataka za cijelu populaciju iz tablice 2 posjedujemo podatke iz tablica 3 i 4, koje predstavljaju dva nasumice odabrana uzorka iz populacije prikazane u tablici 2.

33

Tablica 3: Prvi slučajni uzorak iz tablice 2

Y X

18 150 24 175 26 200 23 225 30 250 27 275 34 300 35 325 33 350 40 375

Tablica 4: Drugi slučajni uzorak iz tablice 2

Y X

23 150 18 175 24 200 25 225 28 250 27 275 31 300 29 325 33 350 34 375

Za razliku od tablice 2, u tablicama 3 i 4 za svaki je nivo dohotka prikazana samo jedna određena vrijednost izdataka. Postavlja se pitanje da li je moguće procijeniti prosječne izdatke koji odgovaraju pojedinim razinama dohotka u populaciji na temelju dva slučajno odabrana uzorka? Drugim riječima, može li se ocijeniti regresijska funkcija populacije temeljem podataka iz uzorka? Kako se može pretpostaviti, RFP ne može se precizno odrediti zbog postojanja sampling pogrešaka. Temeljem podataka iz tablica 3 i 4 crta se dijagram rasipanja. Kroz točke koje predstavljaju parove vrijednosti na dijagramu rasipanja, povlači se pravac koji dovoljno dobro odgovara pojedinim točkama (slika 3). Takav pravac naziva se regresijski pravac uzorka (RPU).

Slika 7: Regresijski pravci uzorka 1 i uzorka 2

No, koji od dva regresijska pravca uzorka najbolje odgovara regresijskom pravcu populacije? Svaki pojedini regresijski pravac uzorka tek je aproksimacija regresijskog pravca populacije, i to zbog postojanja sampling varijacija. Općenito postoji k različitih regresijskih pravaca uzorka za k različitih uzoraka. Naposljetku, analogno regresijskoj funkciji populacije koja određuje regresijski pravac populacije, moguće je odrediti i regresijsku funkciju uzorka (RFU) koja predstavlja regresijski pravac uzorka, a može se pisati kao:

(24)

gdje je,

= ocjenjivač4 od (( | )), ocjenjivač očekivane vrijednosti populacije

= ocjenjivač od

= ocjenjivač od

Pogledom na dijagram rasipanja jasno je vidljivo da svi podaci iz uzorka ne leže na regresijskom pravcu uzorka. Stoga, kako za slučaj stohastičke regresijske funkcije populacije, moguće je razviti i stohastičku alternativu izraza (23):

4 Ocjenjivač ili statistika je formula koja sugerira način procjenjivanja populacijskih parametara. Određena numerička

vrijednost dobivena ocjenjivačem predstavlja ocjenu.

34

(25)

gdje je ei ocjenjivač od ui.

ei predstavlja rezidual. Konceptualno, rezidual ei je analogan slučajnom odstupanju ui, te predstavlja razlike između stvarnih vrijednosti varijable Y i procijenjenih vrijednosti iz regresijskog uzorka. Stoga, vrijedi:

(26)

Rezimirajući do sada navedeno, osnovni cilj regresijske analize je procijeniti regresijsku funkciju populacije

temeljem regresijske funkcije uzorka

jer je najčešće analiza temeljena na uzorcima, a ne na podacima iz cijele populacije. No, zbog postojanja sampling varijacija, procjena regresijske funkcije populacije, temeljena na regresijskoj funkciji uzorka, tek je aproksimacija. Takva je aproksimacija prikazana na sljedećoj slici.

Slika 8: Regresijski pravac populacije i regresijski pravac uzorka

Potrebno je napomenuti da se ne analiziraju 0, 1 i ui, već njihovi ocjenjivači , i ei dobiveni iz uzorka. Za dani Xi, prikazan na slici 8 postoji jedno Yi opažanje iz uzorka. U terminima regresijske funkcije uzorka, opaženi Yi može biti izražen kao:

(27)

ili u terminima regresijske funkcije populacije kao:

( | ) (28)

Na slici 8 podcjenjuje stvarnu očekivanu vrijednost ( | ) za prikazani X1. Općenito za svaki Y koji se nalazi desno od točke A na slici 8, regresijska funkcija uzorka će precijeniti stvarnu regresijsku funkciju populacije.

( | )

35

4. OCJENJIVANJE PARAMETARA REGRESIJE

Pod pretpostavkom da je regresijska krivulja uzorka tek aproksimacija regresijske funkcije populacije, može li se iznaći metoda ili tehnika koja bi navedenu aproksimacija približila, što je više moguće stvarnim podacima. Drugim riječima, kako konstruirati regresijsku funkciju

uzorka na način da budu što bliži vrijednostima ? Kako će se kasnije pokazati, može se pronaći regresijska funkcija uzorka koja najbolje preslikava regresijsku funkciju populacije.

Zadatak regresijske analize je ocijeniti regresijsku funkciju populacije (RFP) temeljem regresijske funkcije uzorka (RFU) Kako se procjenjuje RFP te kako se određuje je procijenjena RFP (primjerice RKP) dobra ocjena stvarnih vrijednosti?

Problem ocjenjivanja parametara regresijskog modela može se promatrati kao problem ocjenjivanja parametara distribucije vjerojatnosti zavisne varijable Y. Taj se problem može riješiti pomoću određenog broja različitih metoda ocjenjivanja. Neke od tih metoda su:

metoda najmanjih kvadrata (Method of Ordinary Least Squares Estimators, OLS)

najbolje linearno nepristrano ocjenjivanje (Best Linear Unbiased Estimator, BLUE )

metoda maksimalne vjerodostojnosti (Method of Maximum Likelihood Estimator, MLE)

Iako postoji više metoda dobivanja regresijske funkcije uzorka, kao ocjenjivača stvarne regresijske funkcije populacije, u regresijskoj analizi najčešće se koristi metoda najmanjih kvadrata (Method of Ordinary Least Square, OLS metoda).

METODA NAJMANJIH KVADRATA

Zadatak ocjene parametara sastoji se u ocjenjivanju regresijske funkcije populacije pomoću regresijske funkcije uzorka. Najčešće se za to koristi metoda najmanjih kvadrata (Method of Ordinary Least Squares, OLS)

Ovu metodu otkrio je Carl Friedrich Gauss, početkom 19. stoljeća. Cilj joj je odrediti

jednadžbu pravca koja će se najbolje prilagoditi empirijskim podacima.

Razmotrimo regresijski model s dvije varijable:

(29)

Kako se regresijska funkcija populacije ne može izravno odrediti, poseže se za njenom ocjenom temeljem regresijske funkcije uzorka:

(30)

koja se može pisati i kao:

∑ ∑( )

∑( )

(31)

Za dane vrijednosti Y i X iz uzorka, suma kvadrata reziduala, funkcija je parametara . Za različite vrijednosti navedenih parametara, dobiju se i različite vrijednosti reziduala, te stoga, i različite vrijednosti sume njihovih kvadrata. No, potrebno je odabrati one vrijednosti ocjenjivača koje će dati najmanju moguću vrijednost sume kvadrata reziduala. Vrijednosti od

koje minimiziraju vrijednost sume kvadrata reziduala dobiju se rješavanjem dviju simultanih jednadžbi:

36

∑ ∑ (32)

∑ ∑ ∑ (33)

gdje je n veličina uzorka. Jednadžbe (33) i (34) nazivaju sustav normalnih jednadžbi najmanjih

kvadrata. U navedenim jednadžbama nepoznanice su , dok su vrijednosti suma, kvadrata suma varijabli Y i X poznate. Rješavanjem ovoga sustava od dvije simultane

jednadžbe dolazi se od izraza prema kojima se određuju vrijednosti :

∑ ∑ ∑ ∑

(∑ ) ∑( )( )

∑( )

∑ ∑

(34)

(35)

gdje je

i = jednostavne aritmetičke sredine od X i Y = ( ) = ( )

NAPOMENA: prema konvenciji mala slova označavaju odstupanja podatak od aritmetičke sredine

Ocjenjivači iz izraza (35) i (36) nazivaju se OLS ocjenjivači, budući su dobiveni metodom najmanjih kvadrata. Neke od karakteristika OLS ocjenjivača su:

1. Regresijska funkcija uzorka dobivena OLS metodom prolazi kroz srednje vrijednosti varijable X i Y, te se može pisati:

(36)

1. Srednja vrijednost reziduala (∑ ⁄ ) uvijek iznosi nula. 2. Suma umnoška reziduala e i vrijednosti nezavisne varijable X uvijek iznosi nula:

navedene dvije varijable nisu korelirane. Simbolima: ∑ . 3. Suma umnoška reziduala ei i ocijenjene vrijednosti jednaka je nuli. Simbolima:

∑

PRIMJER 6

Za određivanje vrijednosti ocjenjivača promotrimo podatke iz tablice 3. Izračuni zahtijevaju upotrebu izraza (35) i (36). U nastavku je prikazana pomoćna tablica izračuna.

Tablica 5: Pomoćna tablica za ocjenu parametara iz podataka prikazanih u tablici 3.

Y X

18 150 -11 -112,5 1237,5 12656,25 19,83636 -1,8364 3,37223 -275,455 -36,4268 22500

24 175 -5 -87,5 437,5 7656,25 21,8727 2,1273 4,52528 372,2727 46,52926 30625

26 200 -3 -62,5 187,5 3906,25 23,9090 2,0909 4,37190 418,1818 49,99174 40000

23 225 -6 -37,5 225 1406,25 25,9454 -2,9455 8,67570 -662,727 -76,4212 50625

30 250 1 -12,5 -12,5 156,25 27,9818 2,0182 4,07305 504,5455 56,4724 62500

27 275 -2 12,5 -25 156,25 30,0181 -3,0182 9,10942 -830 -90,6003 75625

34 300 5 37,5 187,5 1406,25 32,0545 1,9455 3,78479 583,6364 62,36066 90000

35 325 6 62,5 375 3906,25 34,0909 0,9091 0,82644 295,4545 30,99174 105625

33 350 4 87,5 350 7656,25 36,1272 -3,1273 9,77983 -1094,55 -112,98 122500

40 375 11 112,5 1237,5 12656,25 38,1636 1,8364 3,37223 688,6364 70,08231 140625

290 2625 0 0 4200 51562,5 290 0,00000 51,8909 0 0 740625

NAPOMENA

=262,5

37

=29

( ) ( )

Iz podataka tablice 5 i izraza (35) i (36) računaju se regresijski parametri

∑ ∑

Uvrštavanjem u izraz (30)dobije se sljedeća regresija uzorka dohotka i izdataka:

(37)

gdje Y predstavlja tjedne izdatke, a X tjedni raspoloživi dohodak. Regresijska krivulja dobivena temeljem uzorka prikazana je na sljedećoj slici.

Slika 9: Regresijski pravac temeljen na podacima iz tablice 4

Interpretacija procijenjene funkcije izdataka: Koeficijent nagiba iznosi 0,0814, što znači da, ako raspoloživi tjedni dohodak poraste za 1 $, prosječni izdaci porasti će za oko 8 centi tjedno. Vrijednost konstantnog člana od 7,6182, govori da, kada bi raspoloživi tjedni dohodak iznosio 0 , prosječni tjedni izdaci iznosili bi oko 7,62 $. Često konstanti član nema velikog ekonomskog značenja.

y = 7,6182+0,0815x

0

5

10

15

20

25

30

35

40

0 50 100 150 200 250 300 350 400

X

Y

38

ZADACI ZA VJEŽBU

1. Analizira se per capita raspoloživi dohodak po stanovniku i osobna potrošnja po stanovniku u SADu. Podaci su dani po godinama razdoblja 2000-2014. Vrijednost dohotka i potrošnje izražene su u stalnim cijenama (u dolarima 2000. godine). Podaci su dani u sljedećoj tablici.

Godina Per capita osobna potrošnja Per capita raspoloživi dohodak

2000. 3 277 3 665 2001. 3 355 3 752 2002. 3 511 3 860 2003. 3 623 4 808 2004. 3 566 4 009 2005. 3 609 4 051 2006. 3 774 4 158 2007. 3 924 4 280 2008. 4 057 4 441 2009. 4 121 4 512 2010. 4 093 4 487 2011. 4 131 4 561 2012. 4 146 4 555 2013. 4 303 4 670 2014. 4 490 4 941

Procijenite parametre u modelu metodom najmanjih kvadrata.

2. Dani su podaci: Xi 1 4 3 5 5 4

Yi 3 5 2 7 8 4

a) Ocijenite linearni model pomoću metode najmanjih kvadrata.

b) Pretpostavimo da su poznate stvarne vrijednosti parametara: 0= 0 i 1= 1,4. Izračunajte vrijednosti reziduala i vrijednosti slučajnih odstupanja za svako od šest opažanja.

3. Zadani su podaci bruto društvenog proizvoda per capita (GDPpc) u 000 US $ i % zaposlene radne snage u poljoprivredi za 10 zemalja:

ZEMLJA A B C D E F G H I J GDPPC 5 7 7 8 8 12 10 9 8 9

% ZAPOSLENIH U POLJOPRIVREDI 8 9 9 8 10 3 5 5 6 6

a) Metodom najmanjih kvadrata izračunajte parametre linearne funkcije u kojoj ćete ocijeniti vezu između % zaposlenih u poljoprivredi (zavisna varijabla Z) i razine GDPpc (nezavisna varijabla G).

b) Ako je GDPpc neke zemlje točno 6 000 $, koliki se očekuje postotak zaposlenih u poljoprivredi?

39

RJEŠENJA ZADATAKA

1. Model s procijenjenim parametrima glasi:

2. a) b)

ei 1,382 -0,235 -2,029 0,559 1,559 -1,235

ui 1,6 -0,6 -2,2 0 1 -1,6

3. a)

b) 9,028%

40

5. KLASIČNI LINEARNI REGRESIJSKI MODEL

Kako dobivene ocjene predstavljaju ocjene iz uzorka za stvarne vrijednosti parametara potrebno je testirati njihovu statističku pouzdanost. Činjenica da se za dobivanje ocjena parametara koristi samo jedan uzorak iz populacije, znači da je svaki ocijenjeni parametar upravo ocjena. U suštini, ocjene svakog parametra u regresijskoj funkciji dobivene su pomoću metode najmanjih kvadrata slučajne varijable. Ocjena parametara poprima različitu vrijednost ako je izračunata iz različitog uzorka te varira od uzorka do uzorka. Cilj je stoga, dobiti nabolje (s minimalnom varijancom) linearne nepristrane ocjene parametara. Prema RFP, varijabla Y zavisi od objasnidbenih varijabli X1, X2,…, Xk i slučajnih odstupanja u. Sve dok se ne odredi način kako trebaju biti generirane varijable Xk i u, ne može se ispitati statistička značajnost ocijenjenih parametara. Potrebno je napomenuti da pretpostavka o distribuciji vjerojatnosti slučajnog odstupanja (pri kojoj se ustanovljuju distribucije ocjena parametara) nije nužna da bi se parametri računski odredili. Također, ocjene parametara dobivene metodom najmanjih kvadrata imaju optimalna svojstva bez obzira na pretpostavku normalnosti grešaka, ukoliko su ispunjene ostale pretpostavke o grešci modela. No, za dobivanje intervalnih ocjena parametara i testiranje statističkih hipoteza o njima, potrebno je pretpostaviti da u ima normalnu distribuciju.

Nakon procjene parametara regresijskog modela pristupa se testiranju hipoteza te iznalaženju odgovora na pitanje koliko je dobra procijenjena regresijska funkcija. Potrebno je naime, prosuditi da li je procijenjena regresijska krivulja doista dobra procjena stvarne regresijske funkcije populacije. Kako možemo biti sigurni na temelju tek jednog uzorka da je procijenjena regresijska funkcija doista dobra aproksimacija stvarne regresijske funkcije populacije?

Poznato je da vrijednosti od Yi zavise od vrijednosti Xi i vrijednosti ui. Pretpostavili smo da su vrijednosti nezavisne varijable poznate te ih smatramo nestohastičnim. Slučajno odstupanje slučajna je varijabla. Zbog dodavanja stohastičke komponente nezavisnoj varijabli koja nije stohastička, za dobivanje vrijednosti varijable Y, i ona postaje stohastička. To znači da, osim ako nismo voljni pretpostaviti način nastajanja slučajne varijable, nećemo biti u stanju odrediti koliko je dobra regresijska funkcija uzorka kao ocjena regresijske funkcije populacije. Testiranje hipoteza nemoguće je ukoliko se ne postave određene pretpostavke o slučajnoj varijabli. Radi se o definiranju postavki klasičnog linearnog regresijskog modela (CLRM – Classical Linear Regression Model). Model je 1821. godine definirao K. F. Gauss, a predstavlja standard prema kojemu se utvrđuju rezultati primijenjene regresijske analize. Ako pretpostavke nisu ispunjene, rezultati su netočni i obmanjujući. Pretpostavke Gaussovog klasičnog standardnog linearnog regresijskog modela su slijedeće:

Korektna specifikacija i linearnost regresijskog modela Sredina jednaka nuli Odsutnost autokorelacije Homoskedastičnost Odsutnost multikolinearnosti Nestohastičnost varijable X Normalnost slučajnog odstupanja

1. REGRESIJSKI MODEL KOREKTNO JE SPECIFICIRAN TE JE LINEARAN U PARAMETRIMA I ODSTUPANJIMA; MOŽE, ALI NE MORA BITI LINEARAN U VARIJABLAMA

Ova pretpostavka znači uključivanje u model svih relevantnih objasnidbenih varijabli, te odabir odgovarajućeg funkcijskog oblika. Linearnost modela u parametrima omogućava

41

dobivanje linearnih ocjena. Nelinearnost u varijablama rješava se transformacijom (primjenom logaritama ili inverznih funkcija).

2. SREDINA JEDNAKA NULI: ZA DANE VRIJEDNOSTI VARIJABLE X, OČEKIVANA VRIJEDNOST SLUČAJNOG ODSTUPANJA JEDNAKA JE NULA

( ) (38) Slučajno odstupanje predstavlja sve one faktore koji nisu eksplicite uvršteni u model te se pretpostavlja da nemaju sistemski utjecaj na zavisnu varijablu, pa se pozitivni i negativni utjecaji poništavaju. Što znači da je njihov ukupni utjecaj na zavisnu varijablu u prosjeku jednak nuli. Za dane vrijednosti od X, očekivanje slučajnog odstupanja iznosi 0 (slika 10).

Slika 10: Distribucija slučajnog odstupanja

3. ODSUTNOST AUTOKORELACIJE: VRIJEDNOSTI SLUČAJNE VARIJABLE U MEĐUSOBNO SU

NEKORELIRANE SLUČAJNE VELIČINE, TJ. NJIHOVA JE KOVARIJANCA JEDNAKA NULI. SIMBOLIMA:

ji 0)u,ucov( ji (39)

To znači da među komponentama varijable u ne postoji autokorelacija (serijska korelacija). Problem autokorelacije karakterističan je za regresijske modele koji se ocjenjuju na bazi vremenskih nizova jer ekonomske varijable najčešće pokazuju kroz vrijeme pozitivnu ili negativnu tendenciju kretanja vrijednosti. Posljedica kršenja ove pretpostavke je da vrijednosti varijable u nisu slučajne već korelirane i to ostavlja posljedice na ocijenjene parametre modela. Pri navedenoj pretpostavci, činjenica da je, recimo, danas proizvodnja veća od očekivane ne bi trebala uzrokovati veću (ili manju) od očekivane proizvodnje sutra.

Slika 11: Autokorelacija

Slika (a) prikazuje neautokorelirana odstupanja, slika (b) pozitivnu autokorelaciju, a slika (c) negativnu autokorelaciju.

4. HOMOSKEDASTIČNOST: VARIJANCA SLUČAJNE VARIJABLE u KONSTANTNA JE I JEDNAKA 2

42

2

i )uvar( (40)

To znači da odstupanja imaju svojstvo jednake raspršenosti, odnosno homoskedastičnosti (homoskedastičnost: homo: jednak, scedastic: varijanca). Geometrijski je ova pretpostavka prikazana na sljedećoj slici. Slika 12: Homoskedastičnost (jednaka varijanca) i heteroskedastičnost (različita varijanca)

Svako odstupanje ima istu varijancu σ2 koja je konstantna i čija je vrijednost nepoznata. Ova pretpostavka isključuje mogućnost da bi raspršena odstupanja bila veća za veće nego za manje vrijednosti varijable X.Ako ova pretpostavka nije ispunjena, odstupanja su različito raspršena i kažemo da je prisutna heteroskedastičnost (slika 12 (b)). To znači da varijanca pogreške zavisi o opažanju o kojem je riječ. Reprezentativnost modela ovisi o tome kako su blizu distribuirane empirijske vrijednosti varijable Y oko njihovih sredina, i to je suština regresije. Heteroskedastičnost je česta kod regresijskih modela koji se ocjenjuju na osnovi podataka vremenskog presjeka, gdje su velike razlike između najvećih i najmanjih vrijednosti opažanja. CLRM pretpostavlja varijancu slučajnog odstupanja kao na slici 12(a). 5. ODSUTNOST MULTIKOLINEARNOSTI: NE POSTOJI EGZAKTNA LINEARNA KOMBINACIJA

NEZAVISNIH VARIJABLI.

Prema ovoj pretpostavci, zahtijeva se da ni jedna objasnidbena varijabla ne bude savršeno korelirana s bilo kojom drugom objasnidbenom varijablom ili s bilo kojom linearnom kombinacijom objasnidbenih varijabli. Kada se naruši ovaj zahtjev, govori se o savršenoj multikolinearnosti. S druge strane, kada su sve objsnidbene varijable međusobno nekorelirane, govori se o odsutnosti mulitikolinearnosti.

6. NESTOHASTIČNOST VARIJABLE X

Važna je implikacija ove pretpostavke da nezavisna varijabla X i slučajno odstupanje u nisu korelirani, tj. kovarijanca između svake objasnidbene varijable i slučajne varijable u jednaka je nuli.

0)X,ucov( kii (41)

Ukoliko ova pretpostavka nije ispunjena, te postoji na primjer pozitivna korelacija između varijable X1 i odstupanja u1, svaki rast varijable X1, bio bi praćen rastom odstupanja u1, obrnuto, te bi bilo nemoguće utvrditi stvarni zasebni utjecaj na zavisnu varijablu Y. Ocijenjeni parametri će biti vjerojatno veći, zbog toga što će metoda najmanjih kvadrata greškom pripisati varijaciju varijable Y stvarno uzrokovanu od u, varijabli X. Ova je pretpostavka često narušena kod simultanih modela.

43

7. NORMALNOST: SLUČAJNA ODSTUPANJA SU NORMALNO DISTRIBUIRANA S MATEMATIČKIM OČEKIVANJEM KAKO JE NAVEDENO U 2. PRETPOSTAVCI I VARIJANCOM KAKO JE NAVEDENO U 4. PRETPOSTAVCI.

iu ),0(N 2 (42)

Stoga je, ui neprekidna varijabla koja poprima vrijednosti od – do +. Simetrično je distribuirana oko njezine sredine i njezina je distribucija potpuno određena dvama parametrima, sredinom i varijancom.Ova pretpostavka omogućuje primjenu statističkih testova o značajnosti regresijskih parametara ocijenjenih temeljem statističkih uzoraka, te implicira normalnu distribuiranost zavisne varijable Y.

Pretpostavke o normalnosti, sredini jednakoj nuli, homoskedastičnosti te odsustvu autokorelacije impliciraju da se odstupanje tumači kao obračun velikog broja pojedinačno nesignifikantnih i nezavisnih čimbenika koje se obično zovu slučaj. To tumačenje isključuje čestu tvrdnju da odstupanje uključuje sve objasnidbene varijable sustava koje su izostavljene iz determinističkog dijela regresijske jednadžbe zbog nemjerljivosti, neznanja ili praktičnosti.

Potpuna specifikacija regresijskog modela uključuje:

regresijsku jednadžbu

osnovne pretpostavke: specifikacija vjerojatnosti odstupanja i određivanje vrijednosti nezavisne varijable.

Pretpostavke o normalnosti, sredini jednakoj nula, homoskedastičnosti te odsustvu autokorelaijce impliciraju, da se odstupanje tumači kao obračun velikog broja pojedinačno nesignifikantnih i nezavisnih čimbenika koje se obično zovu slučaj. To tumačenje isključuje čestu tvrdnju da odstupanje uključuje sve objasnidbene varijable sustava koje su izostavljene iz determinističkog dijela regresijske jednadžbe zbog nemjerljivosti, neznanja ili praktičnosti.

Pretpostavke na kojima se temelji klasični normalni linearni regresijski model koriste se pri izvođenju ocjenjivača parametara regresije. Budući da se pretpostavlja da je odstupanja

normalno distribuirano i da ima sredinu jednaku nuli, varijanca jedini je pokazatelj koji je nepoznat glede te distribucije. Stoga regresijski model s dvije varijable ima svega tri

nepoznata pokazatelja, a to su parametri regresije 0 i 1te varijanca odstupanja σ2.

5.1. VARIJANCA I STANDARDNA GREŠKA OLS PROCJENITELJA

Iz izraza (35) i (36) vidljivo je da su OLS procjenitelji funkcija podatka iz uzorka. Stoga, budući da je vjerojatno, da se podaci mijenjaju zavisno od uzorka iz kojega dolaze, izvjesno je da će i ocjenjivači varirati. Potrebno je stoga, odrediti pouzdanost ili preciznost procjenitelja

Pretpostavke klasičnog linearnog regresijskog modela omogućavaju procjenjivanje varijance i standardnih grešaka OLS procjenitelja. Procjenitelji su slučajne varijable, a njihova vrijednost mijenja se iz uzorka u uzorak. Poželjno bi bilo poznavati sampling varijacije procjenitelja, odnosno kako oni variraju s obzirom na uzorak. Sampling varijacije mjere se varijancom procjenitelja ili njihovom standardnom pogreškom, koja predstavlja kvadratni korijen njihove varijance. Standardnom pogreškom, koja predstavlja standardnu devijaciju sampling-distribucije (teorijska distribucija vjerojatnosti procjenitelja parametra) procjenitelja, mjeri se preciznost procjene. Polazeći od pretpostavki klasičnog linearnog regresijskog modela varijance i standardne pogreške OLS dobiju se izrazima:

( )

∑

(43)

44

( )

√∑ (44)

( ) ∑

∑

(45)

( ) √∑

∑

(46)

gdje je,

= varijance = standardna greška = konstantna ili homoskedastična varijanca od kao u 4. pretpostavci klasičnog linearnog

regresijskog modela

Jednom kada je varijanca slučajnog odstupanja ui, 2 poznata, sve vrijednosti s desne strane izraza, koje daju numeričke vrijednosti varijance i standardne greške OLS procjenitelja, mogu se jednostavno izračunati iz raspoloživih podataka. Homoskedastična varijanca

slučajnog odstupanja ui, 2 dobije se iz izraza:

∑

(47)

gdje je,

= OLS procjenitelj nepoznate stvarne varijance = broj stupnjeva slobode

∑ = suma kvadrata reziduala ili rezidualna suma kvadrata

Analogno, drugi korijen od , odnosno:

√∑

(48)

Poznat je kao standardna greška procjene ili standardna greška regresije, a jednostavno predstavlja standardnu devijaciju vrijednosti od Y oko procijenjenog regresijskog pravca, te se često koristi kao sumarni pokazatelj prilagođenosti regresijske linije.

PRIMJER 7

Izračun varijance i standardne greške funkcije izdataka i dohotka iz primjera 6.

PROCJENITELJ FORMULA REZULTAT ILI PROCJENA

∑

∑

√∑

√

∑

√

( )

∑

∑

( )

√∑

√∑

√

( ) ∑

∑

∑

∑

45

( ) √∑

∑ ( ) √

∑

∑

Procijenjena funkcija izdataka iz primjera 6 glasi:

( )( ) (49)

Vrijednosti u zagradama predstavljaju procijenjene standardne greške. Ovakvo zapisivanje rezultata regresije ukazuje na vrijednosti procijenjenih parametara i njihove standardne pogreške. U ovom slučaju, procijenjeni koeficijent nagiba funkcije izdataka iznosi 0,0814, a njegova standardna pogreška

iznosi 0,0112 te predstavlja mjeru varijabilnosti procjenitelja od uzorka do uzorka.

Kako se mogu upotrijebiti navedeni podaci? Može li se, na primjer, reći da izračunati leži

unutar određenog broja jedinica standardne devijacije od stvarnog 1? U slučaju potvrdnog odgovora, može se s određenim povjerenjem, tvrditi koliko je regresijska funkcija uzorka dobra procjena regresijske funkcije populacije, što je svrha testiranja hipoteza. No, prije testiranja hipoteza, budući da su procjenitelji slučajne varijable, potrebno je spomenuti njihove distribucije vjerojatnosti te odgovoriti na pitanje zašto se upotrebljava baš OLS metoda za procjenu parametara regresije.

5.2. SVOJSTVA OLS PROCJENITELJA

Metoda najmanjih kvadrata koristi se ne samo zbog jednostavnosti primjene, već i zbog toga što ju odlikuju određene teorijske osobine koje su sažete u Gauss-Markovom teoremu. Držeći se postavki klasičnog linearnog regresijskog modela ocjene parametara dobivene metodom najmanjih kvadrata imaju optimalna svojstva. Ta su svojstva sadržana, kako je već spomenuto, u Gauss-Markovom teoremu, koji glasi:

Uz poštivanje pretpostavki 1-6 (poglavlje 3.1.1.) klasičnog linearnog regresijskog modela i primjenom metode najmanjih kvadrata, dobiveni ocjenjivači parametara regresijskog modela najbolji su linearni nepristrani ocjenjivači (engl. Best LinearUnbiasedEstimator - BLUE).

Napomena: Za Gauss-Markov važno je da bude ispunjeno prvih šest pretpostavki. Normalnost odstupanja (sedma pretpostavka) omogućuje primjenu statističkih testova za ocjenu pouzdanosti parametara i funkcije (t i F test).

Ako su ocijenjeni parametri za model koji zadovoljava 7 klasičnih pretpostavki klasičnog linearnog regresijskog modela, tada oni imaju sljedeća svojstva:

a) NEPRISTRANI SU.

kk )ˆ(E (50)

OLS ocjene centrirane su oko stvarnih vrijednosti koeficijenata populacije.

b) IMAJU MINIMALNU VARIJANCU.

OLS ocjenjivači parametara imaju manju varijancu od bilo kojeg drugog linearnog nepristranog procjenitelja.

c) KONZISTENTNI SU.

Ako raste uzorak podataka na osnovi kojega se parametar ocjenjuje, tada ocjene konvergiraju stvarnim vrijednostima parametra.

d) NORMALNO SU DISTRIBUIRANI.

k ),(N 2ˆk

k (51)

46

Stoga se, za ispitivanje normalnosti mogu primijeniti statistički testovi temeljeni na normalnoj distribuciji.

e) LINEARNOST

Ocjenjivač je linearan ako predstavlja linearnu funkciju opažanja u uzorku, odnosno ako je dan kao linearna kombinacija podataka.

Ako je poštivano sedam klasičnih pretpostavki i koristi se metoda najmanjih kvadrata za ocjenu regresijskih parametara, tada regresijski parametar predstavlja veličinu za koliko se mijenja regresijska vrijednost zavisne varijable ako se nezavisna varijabla uz taj parametar mijenja za jedinicu, a ostale nezavisne varijable ostaju konstantne.

Ocjenjivači su efikasni ako su nepristrani i imaju najmanju varijancu od bilo kojeg drugog ocjenjivača. Linearnost je poželjno svojstvo zbog jednostavnosti izračuna, mada nema toliku značajnost kao nepristranost, odnosno efikasnost. Nepristranost jamči točnost ocjene «u prosjeku», ali tek kada je u kombinaciji sa najmanjom varijancom daje poželjnu preciznost ocjene. Osobina najmanje varijance dobiva na važnosti tek kada je ocjena i nepristrana. Stoga je, kombinacija svih ovih svojstava važna odlika karakteristika procjenitelja koji se dobivaju metodom najmanjih kvadrata. Procjenitelji ili ocjenjivači su efikasni ako su nepristrani i imaju najmanju varijancu od bilo kojeg drugog ocjenjivača. Linearnost je poželjno svojstvo zbog jednostavnosti izračuna, mada nema toliku značajnost kao nepristranost, odnosno efikasnost. Nepristranost jamči točnost ocjene «u prosjeku», ali tek kada je u kombinaciji sa najmanjom varijancom daje poželjnu preciznost ocjene. Osobina najmanje varijance dobiva na važnosti tek kada je ocjena i nepristrana. Stoga je, kombinacija svih ovih svojstava važna odlika karakteristika procjenitelja koji se dobivaju metodom najmanjih kvadrata.

5.3. DISTRIBUCIJA VJEROJATNOSTI OLS PROCJENITELJA

Kod ocjenjivanja parametara regresijskog modela koristi se metoda uzoraka. Ocjene parametara dobivene su temeljem jednog uzorka podataka iz populacije, za zavisnu i nezavisne varijable. Uzme li se drugi uzorak, dobit će se drugi skup ocjena parametara regresijskog modela. Kada bi se parametri ocijenili za veći broj uzoraka, ocjene pojedinog parametra bile bi normalno distribuirane, kao implikacija normalne distribuiranosti slučajnih odstupanja u regresijskom modelu. Rasprava o svojstvima procjenitelja, svodi se zapravo na razmatranje svojstava ocjena dobivenih iz niza uzoraka, tj. svojstava distribucije uzoraka procjenitelja. Definiranje distribucije procjenitelja preduvjet je testiranja hipoteza. Definiranje distribucije procjenitelja počiva ne sedmoj pretpostavci klasičnog standardnog linearnog regresijskog modela o normalnoj distribuiranosti slučajnih odstupanja s matematičkim

očekivanjem jednakim nula i homoskedastičnom varijancom 2. Značajnost ove pretpostavke leži u centralnom graničnom teoremu.

CENTRALNI GRANIČNI TEOREM. Ako X ima bilo kakvu distribuciju sa sredinom i varijancom 2, tada distribucija od ( ) ⁄ teži standardnoj normalnoj distribuciji kada veličina uzorka n raste.

Stoga je distribucija u velikim uzorcima približno normalna i ima sredinu i varijancu ⁄ .

Slučajno odstupanje ui predstavlja utjecaj na zavisnu varijablu Y svih onih čimbenika koji nisu eksplicite uključeni u regresijski model, jer ih ima mnogo, a njihov je pojedinačni utjecaj nezamjetljiv. Ukoliko je skup takvih utjecaj slučajan, te ako slučajno odstupanje predstavlja zbroj takvih utjecaja, prema centralnom graničnom teoremu, može se pretpostaviti da slučajno odstupanje ima normalnu distribuciju sa srednjom vrijednosti nula i

homoskedastičnom varijancom 2. Kako je poznato svaka linearna funkcija normalno distribuirane varijable, i sama je normalno distribuirana. Što znači da, ukoliko su procjenitelji

47

linearne funkcije normalno distribuiranog slučajnog odstupanja, i oni su sami normalno distribuirani. Normalno distribuirana varijabla karakterizirana je s dva parametra: srednjom vrijednošću i varijancom. Parametri normalno distribuiranih procjenitelja su:

( ) (52)

( ) (53)

Željeno svojstvo distribucije procjenitelja jest da je prosječna vrijednost ocjene regresijskog

parametra (dobivena metodom najmanjih kvadrata na velikom broju ponovljenih uzoraka) jednaka stvarnoj vrijednosti parametra (svojstvo sredine). U tom slučaju govori se o

nepristranom ocjenjivaču. Ocjena parametra dobivena za određeni uzorak iz takve nepristrane distribucije, bit će bliže stvarnoj vrijednosti (uz pretpostavku jednake varijance) od ocjene dobivene iz distribucije pristranog ocjenjivača koja nije centrirana oko stvarne vrijednosti (slika 13).

Slika 13: Distribucija OLS ocjena parametara dobivenih iz velikog broja uzoraka

Svojstvo varijance

Iz teorije vjerojatnosti poznato je da je varijanca slučajne varijable mjera raspršenosti oko sredine. Što je manja varijanca, to su u prosjeku pojedine vrijednosti bliže sredini. Varijanca

ocjene parametara je stoga, pokazatelj preciznosti ocjene parametara. Varijanca distribucije

zavisi o varijanci slučajnih odstupanja 2 i ako varijanca slučajnih odstupanja raste, raste i

varijanca distribucije . Na slici 14 prikazane su ocjene parametara , dobivene na osnovi velikog broja uzoraka i pomoću dvije metode ocjenjivanja.

Slika 14: Distribucija ocjena parametara dobivenih pomoću dviju metoda ocjenjivanja

Metoda kojom je dobivena ocjena ima manju raspršenost oko srednje, stvarne vrijednosti parametara ima dakle, manju varijancu.

6. TESTIRANJE HIPOTEZA U MODELU JEDNOSTAVNE LINEARNE REGRESIJE

Procjena parametara i testiranje hipoteza dva su osnovna područja statističkog zaključivanja. Metoda najmanjih kvadrata jedna je od metoda procjene parametara linearnog regresijskog modela. Imajući na umu pretpostavke klasičnog standardnog linearnog regresijskog modela analiziraju se svojstva regresijskih parametara, te je pod pretpostavkom normalnosti

48

slučajnog odstupanja, moguće odrediti distribuciju procjenitelja. Preduvjeti su to za testiranje hipoteza u sklopu regresijske analize.

U praksi se testira hipoteza o značajnosti parametara u uz nezavisnu varijablu, ili, što je isto hipoteza o značajnosti prisutnosti varijable X u modelu. Osnova je testiranja sampling-distribucija procjenitelja parametara, odnosno procjenitelja komponenti varijance. Odluka se donosi usporedbom test-veličine s odgovarajućim kritičnim vrijednostima sampling-distribucije.

TEST HIPOTEZE O ZNAČAJNOSTI REGRESIJSKIH PARAMETRA: T-TEST

Statistički značajan ili signifikantan parametar znači zapravo da su podaci konzistentni s pretpostavkom o uzročnosti veze između zavisne i nezavisne varijable. U modelu jednostavne linearne regresije test hipoteze o značajnosti parametra, može biti jednosmjeran ili jednostran (na donju ili gornju granicu) ili dvosmjeran, odnosno dvostran. Hipotezama:

0:

0:

21

20

utvrđuje se značajnost nezavisne varijable koja postoji uz parametar u regresijskom modelu.Uz pretpostavku da su ocjene parametara normalno distribuirane, za testiranje pouzdanosti ocijenjenog parametra koristi se Studentov t-pokazatelj. Test-veličina je empirijski t-omjer:

(54)

gdje je * hipotetička vrijednost od (na primjer * =0 ).

Uz spomenute uvjete test-veličina je distribuirana po Studentovoj distribuciji sa (n-2) stupnja slobode. U postupku provođenja t-testa potrebno je odrediti:

Broj stupnjeva slobode, koji iznosi (n-2) za model s dvije varijable.

Razinu signifikantnosti ; u empirijskim istraživanjima obično se koriste razine signifikantnosti od 1, 5 ili 10%. Umjesto arbitrarnog odabira razine signifikantnosti, može se izračunati p vrijednost, te odbaciti nultu hipotezu ukoliko je izračunata vrijednost dovoljno mala.

Vrstu testa koji će se koristiti: da li jednosmjerni ili dvosmjerni test. Odluka se donosi usporedbom empirijske vrijednosti s teorijskom vrijednosti t za danu razinu

signifikantnosti i određeni broj stupnjeva slobode. Ako je varijanca osnovnog skupa poznata ili je uzorak velik, test-veličina je empirijski z-omjer. Hipoteze i način donošenja odluka za t-test prikazani su u tablici 6.

Tablica 6: Način donošenja odluke za t-test

vrsta testa nulta hipoteza

0

alternativna hipoteza

1

područje

prihvaćanja 0

područje

odbacivanja 0

dvosmjeran H0… =* H1… * t < t/2, df t > t/2, df desnostran:

jednosmjeran, na gornju granicu

H0… * H1… * t<t, df t>t, df

lijevostran: jednosmjeran, na

donju granicu H0… * H1… * t>-t, df t<-t, df

NAPOMENA: t/2, df ili t, df teorijska je ili kritična t vrijednost (tc) uz razinu signifikantnosti i sa

stupnjevima slobode df=n-k-1, n je broj opažanja, a k broj nezavisnih variajbli

49

Dvostranim testom testira se hipoteza o pretpostavljenoj vrijednosti, a jednostranim predznak parametra uz regresorsku varijablu.

DVOSTRANI TEST

Korištenjem dvostranog t-testa s hipotezama:

utvrđuje se značajnost nezavisne varijable koja postoji uz parametar u regresijskom modelu.

JEDNOSTRANI TEST

U ekonometrijskoj analizi jednostrani test se koristi za testiranje ima li parametar pretpostavljeni predznak. Predznak regresijskog koeficijenta najčešće je a priori pretpostavljen. Hipoteze za ljevostrani t-test su:

H0 se odbacuje ako je t < - t, df i tada se kaže da parametar uz varijablu ima očekivani negativni predznak.

Hipoteze za desnostrani t-test su:

H0 se odbacuje ako je t > t, df i kaže se da parametar uz varijablu ima očekivani pozitivni predznak. Odluka se također može donijeti pomoću empirijske razine signifikantnosti p, koja predstavlja najnižu razinu povjerenja na kojoj se može odbaciti nul hipoteza.

PRIMJER 8

Postupak testiranja hipoteza na primjeru izdataka iz primjera 6.

Procijenjena funkcija izdataka iznosi:

Pretpostavimo slijedeću tvrdnju: Dohodak nema nikakvog utjecaja na količinu potrošenog novca, dakle:

Nulta hipoteza istražuje da li je Y uopće u vezi sa X. Ako se nulta hipoteza prihvati, nema nikakvog smisla uključivati varijablu X u model. S druge, strane ukoliko varijabla X ima utjecaja na varijablu Y nulta se hipoteza odbacuje u korist alternativne hipoteze, koja tvrdi:

U razmatranom primjeru je koeficijent nagiba različit od nule, a može biti pozitivan ili negativan. Za očekivati je, stoga odbacivanje nulte hipoteze. U nastavku je prikazan postupak testiranja.

Dvostrani t-test

Hipoteze dvostranog testa su:

50

Uvrštavanjem potrebnih numeričkih vrijednosti u izraz (55) dobije se:

Iz tablice Studentove t-distribucije očitamo kritične t vrijednosti za dvostrani test za 8 stupnjeva slobode za različite razine signifikantnosti:

razina signifikantnosti kritična t vrijednost

0,01 3,355 0,05 2,306 0,10 1,860

U tablici 6 o načinu donošenja odluka, u slučaju dvostranog t-testa, vidimo da ukoliko je izračunata

tvrijednost veća od kritičnih t vrijednosti, na odabranoj razini signifikantnosti, odbacujemo nultu hipotezu kao netočnu. U primjeru se stoga, nulta hipoteza odbacuje kao netočna, jer je izračunata vrijednost t od 7,262 daleko veća od kritičnih vrijednost. U istom primjeru, p vrijednost statistike od 7,2624 iznosi oko 0,0001. Što znači da bismo, u slučaju odbacivanja hipoteze o tome da je vrijednost koeficijenta regresije jednaka nuli, pogriješili jednom u 1000 slučajeva.

Jednostrani t-test

Kako se pretpostavlja pozitivna vrijednost koeficijenta dohotka u funkciji izdataka (desnostrani test), realistični sustav hipoteza mogao bi biti:

Postupak testiranja ostaje isti, osim što vjerojatnost pogreške tipa I nije ravnomjerno podijeljena na dva kraka t-distribucije, već je koncentrirana ili na lijevom ili na desnom kraku krivulje.

Slika 15: Jednostrani test: (a) Desnostrani i (b) Ljevostrani

U razmatranom primjeru razmatra se desni krak. Za 8 stupnjeva slobode očitavaju se vrijednosti iz t-tablice za kritične t-vrijednosti:

razina signifikantnosti kritična t vrijednost

0,01 2,896 0,05 1,860 0,10 1,397

Najprije se izračunava t vrijednost za hipotezu da je hipotetična vrijednost regresijskog koeficijenta 0:

Kako je izračunata t vrijednost veća od kritičnih vrijednosti, odbacujemo nultu hipotezu o tome da dohodak nema utjecaja na veličinu izdataka, naprotiv ima pozitivan utjecaj (slika 15).

51

ZADACI ZA VJEŽBU

1. Koja od sljedećih nezavisnih varijabli ne bi zadovoljila klasičnu pretpostavku savršene

multikolinearnosti među eksplanatornim varijablama: a) potrošnja i dohodak u državi kroz razdoblje od 10 godina; b) i , te

c) i .

2. Koje su od sljedećih tvrdnji točne ili djelomično točne: a) Ocjene ne mogu biti BLUE ako slučajna odstupanja u nisu normalno distribuirana. b) Ako odstupanja nisu normalno distribuirana, F i t-test ne mogu se primijeniti. c) Visoka p-vrijednost znači da je parametar signifikantno različit od nule. d) Ako su odstupanja autokorelirana ili heteroskedastična, ocijenjeni parametri neće biti

nepristrani ili BLUE. e) P-vrijednost je vjerojatnost da je nulta hipoteza točna.

3. Kada biste trebali odabrati procjenitelja parametra čija svojstva nisu u skladu s Gauss Markovim teoremom,

a) Što biste od sljedećeg odabrali: 1. nepristrani procjenitelj koji nema minimalnu varijancu 2. pristrani procjenitelj s minimalnom varijancom?

b) bi li odgovor bio isti ako bi se radilo: za 1. o vrlo velikoj varijanci te za 2. o vrlo maloj, ali ne i minimalnoj varijanci?

4. Ocijenjen je model prodaje jedne vrste kave u 12 trgovina na temelju podataka za mjesec ožujak, , gdje je Y: količina prodanog proizvoda, X1: cijena proizvoda u kunama:

( )( )

Izračunajte t vrijednosti i testirajte signifikantnost ocijenjenih parametara uz nezavisnu varijablu. Razina signifikantnosti 5%.

5. Analizira se regresijski model potražnje stanovništva za kreditima u RH na osnovi godišnjih podataka za razdoblje 1996. – 2003., a varijable su Y: potražnja stanovništva za kreditima u milijunima kuna, te X1: te kamatne stope na kunske kredite (% godišnje). Varijable Y i X1 iskazane su u stalnim cijenama 1996. Ocijenjeni regresijski model glasi:

( )( ) Primijenite jednostrani t-test za testiranje parametra uz nezavisnu varijablu. Razina signifikantnosti 5%.

6. Dane su nezavisna varijabla i zavisna varijabla Y te model . Uz pomoć modela i podataka u tablici:

Y -11 -7 4 4 11 17 21 25

X1 -10 -7 -3 -1 2 5 6 8

a) Izračunajte standardnu grešku ocjene regresijskog koeficijenta. b) Testirajte statističku značajnost nagiba, odnosno nultu hipotezu da je vrijednost parametra

jednaka nuli (razina signifikantnosti 5%).

52

RJEŠENJA ZADATAKA

1. b) Xi i 2+Xi

2. Točne su tvrdnje pod b) i d).

3. a) Bolje je odabrati nepristrani ocjenjivač koji nema minimalnu varijancu. b) Nepristrani procjenitelj s jako velikom varijancom ima veliku vjerojatnost da bude daleko od stvarne vrijednosti. Zato bi bolji izbor bio pristrani ocjenjivač s vrlo malom pristranosti i minimalnom varijancom.

4. Hipoteze dvostranog testa: , odnosno, . | | ( ) . Nulta

se hipoteza odbacuje.

5. Hipoteze ljevostranog testa: , odnosno, . . | | ( ) .

Nulta se hipoteza odbacuje.

6. a) ; ( )

b) | | ; ( ) . Nagib funkcije je statistički značajan, te se nulta hipoteza odbacuje.

53

7. MJERENJE POUZDANOSTI ODNOSNO PRILAGOĐENOSTI REGRESIJSKOG MODELA

Nakon ocjenjivanja ekonometrijskog modela pristupa se vrednovanju dobivenih ocjena parametara sa stajališta ekonomskih, statističkih i ekonometrijskih kriterija. Ekonomski kriteriji predmet su istraživanja ekonomske teorije. Ekonometrijski kriteriji ili testovi drugog reda predmet su razmatranja u kasnijim poglavljima. U ovom poglavlju biti će riječi o statističkim kriterijima.

Usporedba ocijenjenih vrijednosti zavisne varijable Y, s empirijskim podacima daje sliku prilagođenosti regresijskog modela. No, postoje preciznije statističke mjere prilagođenosti, a koje se temelje na usporedbi koliko bolje regresijski model, koji je ocijenjen pomoću metode najmanjih kvadrata, objašnjava vrijednosti zavisne varijable Y, od jednostavnog pokazatelja –

prosječne vrijednosti .

Dva najčešća statistička testa u ekonometriji su koeficijent determinacije, koji mjeri moć linearne regresije u objašnjavanju varijacija zavisno promjenjive varijable, te test statističke značajnosti ocjenjenih vrijednosti parametara, zasnovan na statističkim pogreškama dobivenih ocjena parametara koji mjeri pouzdanost ocjena.

Za mjerenje prilagođenosti ocijenjenih vrijednosti stvarnim, empirijskim podacima , ekonometričari koriste odstupanja empirijskih podataka od njihove sredine . Rastavljanje tih odstupanja služi kao osnova za definiranje statističkih mjera prilagođenosti.

Dokazano je da je, na temelju t-testa, regresijski koeficijent u primjeru funkcije izdataka iz primjera 6 statistički značajan, što ukazuje da je izračunata regresijska funkcija uzorka «razumno» dobra kako to prikazuje sljedeća slika.

Slika 16: prilagođenost regresijskog pravca funkcije izdataka empirijskim podacima

No, vidljivo je kako na regresijskoj funkciji uzorka ne leže sve vrijednosti varijable Y. To je stoga, što

reziduali ( ) nisu svi jednaki nuli; neki su pozitivni, a neki negativni. Postavlja se, stoga

pitanje, može li se odrediti neka opća mjera «dobre prilagođenosti», koja nam govori kako dobro procijenjeni regresijski pravac pristaje stvarnim vrijednostima od Y? Takva mjera postoji, a zove se

koeficijent determinacije, R2.

y = 7,6182+0,0815x

0

5

10

15

20

25

30

35

40

0 50 100 150 200 250 300 350 400

X

Y

54

7.1. RASTAVLJANJE VARIJACIJA ZAVISNE VARIJABLE

Poznato je da je

(55) odnosno

(56)

Ako se od jednadžbe (57) oduzme s obje strane dobije se

(57) ili

( ) ( ) ( ) (58)

Odstupanja empirijskih podataka Yi od njihove sredine zovu se ukupna odstupanja.

Ova dekompozicija ukupnog odstupanja prikazana je za samo jedno odstupanje. Ako se za sva opažanja u uzroku kvadriraju i zbroje obje strane jednakosti (59), dobije se sažeta mjera za sva opažanja. Suma kvadrata odstupanja zove se varijacija:

i

n

1i

1

n

1i

2

i

n

1i

2

i

n

1i

2

i eYY2eYYYY

(59)

Kako je zadnji pribrojnik na desnoj strani relacije (60) jednak nuli, imamo:

n

1i

2

i

n

1i

2

i

n

1i

2

i eYYYY (60)

ili riječima:

ukupna suma kvadrata =

TSS

+ neobjašnjena (rezidualna) suma kvadrata

objašnjena suma kvadrata

RSSESS

gdje je:

TSS = ukupna suma kvadrata ili ukupna varijacija (Total Sum of Squares) koja predstavlja mjeru ukupne varijacije varijable Y oko njezine srednje vrijednosti;

ESS = objašnjena suma kvadrata ili objašnjena varijacija (Estimated Sum of Squares), odnosno dio ukupne varijacije varijable Y oko njezine sredine koji je objašnjen varijacijama varijable X;

RSS = rezidualna suma kvadrata ili rezidualna ili neobjašnjena varijacija (Residual Sum of Squares), odnosno dio ukupne varijacije varijable Y koji se može pripisati slučajnim utjecajima.

NAPOMENA: Termini varijacija i varijanca nisu sinonimi. Varijacija je suma kvadrata odstupanja varijable od njene srednje vrijednosti. Varijanca je suma podijeljena s odgovarajućim stupnjevima slobode, dakle varijanca =varijacija/s.s.

Varijacije varijable Y djelomice se mogu predstaviti pomoću varijacija varijable X, a djelomice su posljedica slučajnih odstupanja. Čim je relativno manji udio neobjašnjenih rezidualnih varijacija (RSS) u ukupnim (TSS), to je ocijenjena regresijska funkcija bolje prilagođena empirijskim podacima. Ako sve stvarne vrijednosti leže na regresijskoj funkciji uzorka, objašnjena varijacija izjednačava se s ukupnim varijacijama, a rezidualna varijacija iznosi nula. Obrnuto, ukoliko regresijska funkcija uzorka loše prikazuje podatke, rezidualna varijacija biti će velika, veća od objašnjene varijacije. U ekstremnom slučaju, ako varijacije

55

varijable X uopće ne objašnjavaju varijacije varijable Y oko njezine sredine, objašnjena varijacije biti će nula, a rezidualna jednaka ukupnoj varijaciji varijable Y. Metoda koja minimizira u danim ukupnim varijacijama rezidualne varijacije, donosno maksimizira objašnjene varijacije, je metoda najmanjih kvadrata (slika 2).

Slika 17: Objašnjena i neobjašnjena komponenta opažanja Yi

U praksi je uobičajeno da ni ESS niti RSS nisu jednake nuli.

7.2. UTVRĐIVANJE VALJANOSTI REGRESIJE POMOĆU KOEFICIJENTA DETERMINACIJE

Već je spomenuto da, ukoliko je ESS veća od RSS, regresijska funkcija uzorka objašnjavat će veći dio varijacija u Yi. Ako je RSS veći, RFU će objašnjavati tek dio spomenutih varijacija. Sve ove kvalitativne tvrdnje jednostavnu su razumljive i lako se mogu kvantificirati. Dobije

se tako koeficijent determinacije, , kao kvantitativna mjera uspješnosti prilagodbe ocijenjene funkcije empirijskim podacima.

Budući da je

TSS=ESS+RSS (61)

dijeljenjem izraza (62) s TSS dobije se

(62)

Koeficijent determinacije iznosi:

∑

∑( ) (63)

Ovako definirani R2 poznat je kao koeficijent determinacije (uzorka) i najčešće je korištena mjera prilagođenosti ocijenjene funkcije empirijskim podacima, koja mjeri proporciju modelom protumačenog dijela zbroja kvadrata u ukupnom zbroju kvadrata. Protumačeni dio kvadrata jednak je zbroju kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne varijable, a ukupan zbroj kvadrata odnosi se na zbroj kvadrata odstupanja vrijednosti zavisne varijable od njezine aritmetičke sredine. Koeficijent determinacije kreće se

56

u granicama od jedan do nule. Po pravilu, model je reprezentativniji, što je koeficijent determinacije bliži jedinici. Što je RSS manja, veće je ESS , a R2 je po vrijednosti bliži jedinici. Ako je

što znači da empirijske vrijednosti leže na ocijenjenoj linearnoj funkciji (slika 18). Koeficijent determinacije, operativno je mjerilo koje nema podlogu u statističkom zaključivanju. Uspješnost prilagodbe relativan je pojam, zavisno o onom što se istražuje. Nema jednostavne metode koja određuje granicu uspješnosti. To je uglavnom stvar iskustva istraživača. Kada je R2=0.50, znači da je 50% varijacija zavisne varijable objašnjeno pomoću ocijenjenog regresijskog modela. Za podatke vremenskog niza to je obično loš pokazatelj, no za podatke vremenskog presjeka može se smatrati dobrim.

Slika 18: Koeficijent determinacije kao mjera uspješnosti prilagodbe linearne funkcije empirijskim podacima

12 R 90,02 R 02 R

(a)

(a)

(c)(b)

Potrebno je spomenuti dva osnovna svojstva koeficijenta determinacije:

Radi se o ne negativnoj vrijednosti.

Kreće se u intervalu 0 R2 1, jer ESS dio ne može biti veći od TSS dijela. R2 = 1 označava savršenu prilagodbu (cjelokupna varijacija Y objašnjena je ocijenjenim regresijskim modelom). R2=0 označava nepostojanje veze između varijabli Y i X.

PRIMJER 9

Izračun koeficijenta determinacije za primjer funkcije izdataka iz primjera 6.

∑

∑( )

Dobiveni koeficijent determinacije dovoljno je visok, što znači da u primjeru varijabla X (dohodak) objašnjava oko 86% varijacija u izdacima.

KOEFICIJENT KORELACIJE

Korelacijska analiza sastoji se u primjeni postupaka kojima se utvrđuju pokazatelji jakosti statističke veze među pojavama. Ako je povezanost po obliku linearna govori se o linearnoj korelaciji. Standardizirana mjera jakosti statističke veze između pojava predočenih dvjema kvantitativnim varijablama je koeficijent korelacije:

∑( )( )

√( ) ( )

(64)

Koeficijent korelacije može poprimiti vrijednosti od 1. Vrijednost koeficijenta korelacije jednaka nuli označava nepostojanje linearne korelacije među pojavama, vrijednost od +1

57

označava potpunu korelaciju pozitivna smjera, a vrijednost od -1 označava postojanje potpune korelacije negativnoga smjera. Što je koeficijent korelacije po apsolutnoj vrijednosti bliži jedinici to je veza među varijablama uža. Mala vrijednost koeficijenta korelacije ne mora nužno značiti da je slaba veza među pojavama, jer povezanost pojava može biti krivolinijska, pa je upotreba koeficijenta linearne korelacije neprimjerena. Koeficijent linearne korelacije jednak je drugom korijenu koeficijenta determinacije, a predznak linearne korelacije uvijek je jednak predznaku koeficijenta regresije. Koeficijent korelacije može se, stoga izračunati i putem koeficijenta determinacije i to:

√ (65)

PRIMJER 10

Izračun koeficijenta korelacije za primjer funkcije izdataka iz primjera 6.

U primjeru funkcije izdataka gdje su u odnos stavljene varijable izdaci (Y) i raspoloživi dohodak (X) koeficijent linearne korelacije izračunat je kao drugi korijen koeficijenta determinacije i to:

√ =0,9318

Koeficijent korelacije iznosi +0,9318. Za uočiti je da je predznak koeficijenta linearne korelacije jednak predznaku koeficijenta regresije. Varijable su usko povezane, a korelacija ima pozitivan smjer.

7.3. STANDARDNA GREŠKA REGRESIJE

Sposobnost modela da objašnjava «ponašanje» zavisne varijable ocjenjuje se na osnovi greške (reziduala) tog modela. Pojam standardne pogreške uveden je u poglavlju 5.1. Već je ranije spomenuto, da čim je manji udio rezidualnih odstupanja u ukupnim varijacijama (TSS), bolja je prilagođenost modela empirijskim podacima. Mjera te prilagođenosti izvodi se iz procijenjene varijance regresije ( ), koja je omjer rezidualne varijacije i stupnjeva slobode koji su joj pridruženi, a zove se standardna greška regresije (Standard Error of the Regression):

∑

(66)

gdje je n broj opažanja, k broj regresorskih varijabli u modelu. Iz varijance s2 računa se standardna greška regresije s:

√ √

√

∑

(67)

Ova je mjera izražena u jedinicama zavisne varijable, no iz praktičnih razloga računa se kao relativni pokazatelj, tj. koeficijent varijacije:

(68)

Koeficijent varijacije od 20% ili više iskustvena je vrijednost prihvatljivosti ocijenjenog regresijskog modela.

7.4. TESTIRANJE STATISTIČKE ZNAČAJNOSTI REGRESIJSKOG MODELA

Dok mjeri stupanj prilagođenosti regresijskog modela empirijskim podacima, on ne daje odgovor o razini statističke značajnosti te prilagodbe. Drugim riječima, postavlja se pitanje

58

odražava li koeficijent determinacije stvarnu povezanost među varijablama modela ili je slučajan rezultat korištenih podataka iz odabranog uzorka. Statistička značajnost prilagođenosti modela testira se F-testom, pri čemu se koristi analiza varijance.

Analiza varijance za model jednostavne regresije oslanja se na raščlambu zbroja kvadrata odstupanja vrijednost zavisne varijable od njezine aritmetičke sredine. Navedena se raščlamba temelji na sljedećim postavkama:

ukupni zbroj kvadrata =

rezidualni zbroj kvadrata: zbroj kvadrata odstupanja empirijskih vrijednosti zavisne varijable od

regresijskih vrijednosti

neprotumačeni dio zbroja kvadrata

zbroj kvadrata odstupanja regresijskih vrijednosti od aritmetičke sredine zavisne

varijable

protumačeni dio zbroja kvadrata

zbroj kvadrata odstupanja vrijednosti zavisne varijable od

njezine aritmetičke sredine

+

TSS=ESS+RSS

Procjena varijance i komponenti (sredine kvadrata, mean squares) određuje se tako da se pojedini zbrojevi kvadrata podijele s pripadajućim stupnjevima slobode:

ukupnom zbroju kvadrata pridružuje se (n-1) stupanj slobode,

protumačenom zbroju 1 stupanj slobode,

rezidualnom zbroju kvadrata (n-k-1) stupnja slobode

gdje je n broj opažanja, a k je broj nezavisnih varijabli. Varijacije iz izraza (62) dijele se s pripadnim stupnjevima slobode (d.f.), tj. brojem nezavisnih opažanja na kojima su temeljene. Tako je ukupnoj varijaciji pridružen broj (n-1), objašnjenoj k, a neobjašnjenoj (n-k-1). Prema relaciji (62), dakle vrijedi:

( ) ( ) ( ) (69)

Varijacija, podijeljena s pripadnim stupnjevima slobode, procjena je varijance na bazi uzorka. Postupak dekomponiranja varijacija zove se analiza varijance u regresiji ili ANOVA (Analysis of Variance), a prikazuje se u karakterističnoj tablici.

Tablica 7: ANOVA

izvor varijacije

suma kvadrata stupnjevi slobode

sredina kvadrata F-vrijednost

objašnjena regresijom

∑

∑( )

ili

∑

k

∑( )

ili

∑

⁄

( )⁄ neobjašnjena

regresijom (rezidualna odstupanja)

∑

∑

n-k-1

∑

ukupna

∑

∑( )

n-1

Kvaliteta ocijenjenog regresijskog modela prosuđuje se testiranjem značajnosti prisutnosti svih regresorskih varijabli u modelu.

59

TEST HIPOTEZE O SIGNIFIKANTNOSTI REGRESIJSKE FUNKCIJE

Kvaliteta ocijenjenog regresijskog modela prosuđuje se testiranjem značajnosti prisutnosti svih regresorskih varijabli u modelu. Testiranje hipoteze o značajnosti regresorske varijable X provodi se F-testom. U modelu jednostavne linearne regresije F-test ekvivalentan je t-testu. Hipoteze za taj test jesu:

gdje,

H0: sadrži tvrdnju da je regresorska varijabla X suvišna u modelu (nije signifikantna), odnosno da su svi parametri uz regresorsku varijablu u modelu jednaki nuli.

H1: sadrži tvrdnju da prisutnost regresorske varijable (signifikantna je) objašnjava varijacije zavisne varijable Y.

Tvrdnja alternativne hipoteze ekvivalentna je tvrdnji da je barem jedan parametar osnovnog

skupa različit od 0. Test veličina je empirijska F vrijednost koja je omjer procjena objašnjene i neobjašnjene varijance:

⁄

( )⁄

∑

(70)

pripada F-distribuciji s k stupnjeva slobode u brojniku i (n-(k+1)) stupnjeva slobode u nazivniku. Odluka se donosi usporedbom empirijskog F-omjera s teorijskom vrijednosti F-

distribucije za razinu signifikantnosti i broj stupnjeva slobode. Nulta se hipoteza prihvaća ako je empirijski F-omjer manji od teorijske vrijednosti F-distribucije, a u protivnome se ona ne prihvaća. Odluka se ekvivalentno donosi na temelju p-vrijednosti (ako je p-vrijednost

manja od razine signifikantnosti , nulta se hipoteza ne prihvaća; nulta se hipoteza prihvaća

ako je p-vrijednost veća od ).

60

ZADACI ZA VJEŽBU

1. Na osnovi godišnjih podataka za razdoblje 1969. – 1978. ocijenjen je jednostavni regresijski

model: . Raspolažemo sa sljedećim podacima:

∑

. Temeljem navedenih podataka:

a) Izračunajte standardnu grešku regresije. b) Ispunite ANOVA tablicu. c) Provedite test o značajnosti regresije. Razina signifikantnosti je 0,05.

2. Ocijenjen je modeli prodaje jedne vrste kave u 12 prodavaonica na temelju podataka u mjesecu

ožujku, i to . Varijable modela su Y: količina prodane kave u kg te X: cijena kave u kunama. Rezultati provedene regresijske analize su dani u sljedećoj tablici.

MODEL

^const 18846,4

X1 -247,92

(t-vrij.) (-5,06)

R2 0,6910

F 25,60

a) Testirajte značajnost nezavisne varijable u modelu. Razina signifikantnosti je 5%. b) Provedite test o značajnosti regresije za model. Razina signifikantnosti je 5%. c) Na osnovi raspoloživih pokazatelja napišite da li je model prihvatljiv i zašto.

3. Izračunajte koeficijent determinacije i ocijenite reprezentativnost funkcije ako raspolažete s

ocijenjenim modelom: te podacima iz tablice:

Y 78 88 91 94 98 111

X 0 1 2 3 4 5

4. Ocijenjen je sljedeći model . Za dani model:

a) Odredite koeficijent determinacije, te

b) Ispitajte signifikantnost funkcije uz =5%,

ukoliko raspolažemo sljedećim pokazateljima

TSS=4,5067

ESS=4,4952

RSS=0,0115

n=3

61

RJEŠENJA ZADATAKA

1. a) s = 104,71 b)

izvor varijacije

suma kvadrata

stupnjevi slobode

sredina kvadrata

F-vrijednost

objašnjena 2480714,42 1 2480714,42 227,294

neobjašnjena 87312,93 8 10914,12

ukupna 2568027,35 9 285336,37

c) H0:1= 0, HA:1 ≠ 0, F =227,294; F0,05(1, 8)=5.32. Nulta hipoteza se ne prihvaća.

2. a) H0: a1= 0; HA :a1≠ 0; t0,05 (10)=2,228. Nulta hipoteza se ne prihvaća. Nezavisna varijabla X1

značajna je za model. b) H0: a1= 0; HA :a1≠ 0; F=25,60, F0,05(1, 10)=4,96. Nulta hipoteza se ne prihvaća. c) Model je prihvatljiv, jer je nezavisna varijabla X1 značajna za model. Model objašnjava preko

69% varijacija zavisne varijable, što je dobar pokazatelj za podatke vremenskog presjeka. Model je također i statistički signifikantan.

3. Y X iy YYi YYi ii YY

TSS ESS RSS

78 0 79,191 -15,333 -14,142 -1,191 235,1 199,996 1,418

88 1 84,848 -5,333 -8,485 3,159 28,44 71,995 9,935

91 2 90,505 -2,333 -2,825 0,495 5,442 7,997 0,245

94 3 96,162 0,667 2,829 -2,162 0,445 8,003 4,674

98 4 101,819 4,667 8,486 -3,819 21,78 72,012 14,584

111 5 107,476 17,667 14,143 3,524 312,123 200,024 12,418

603,33 560,03 43,274

333,936

560

n

YY

92821,033,603

01,560

YY

Yy

TSS

ESSR

2

i

2

i2

92,82% varijacija zavisne varijable objašnjeno je pomoću nezavisne varijable.

4. a) 997448,05067,4

4952,4

TSS

ESSR2

b) 88,390)113/(0115,0

1/4952,4

)1kn/(RSS

)k/(ESSF

H0:1=2=0

H1:1=2≠0 F0,05(1,1)=161

F FC. Funkcijska veza je signifikantna.

62

8. PREDOČAVANJE REZULTATA REGRESIJSKE ANALIZE

Postoji više načina ispisa i predočavanja rezultata regresijske analize. Odabir pokazatelja koji će se prikazati zavisi od potreba konkretnog istraživanja. Prije pojave računala i programskih potpora postojao je standardizirani način prikazivanja rezultata regresijske analize. Taj će način biti prikazan na primjeru 6.

PRIMJER 11

Rezultati regresijske analize za primjer izdataka

( )( )

( )( ) ( )( )

(71)

U izrazu (72) brojevi u prvom skupu zagrada predstavljaju ocijenjene standardne pogreške (se) ocijenjenih regresijskih koeficijenata. Brojevi u drugom skupu zagrada predstavljaju ocijenjene t vrijednosti pod pretpostavkom nulte hipoteze da je stvarna populacijska vrijednost svakog regresijskog koeficijenta pojedinačno jednaka nuli (dane t vrijednosti jednostavno su odnos ocijenjenih regresijskih koeficijenata i njihovih standardnih grešaka). Vrijednosti u trećem skupu zagrada predstavljaju p-vrijednosti izračunatih t vrijednosti.

Prema konvenciji, ukoliko se ne specificira određena nulta hipoteza, pretpostavlja se nulta hipoteza da vrijednosti populacijskih parametara iznose nula. Te ako se nulta hipoteza odbaci (u slučaju signifikantnosti statističkog testa), to znači da su stvarne populacijskih parametara različite od nule. Prednost ovakvog predočavanja regresijskih rezultata je što se na prvi pogled može odrediti da li su ocijenjeni regresijski parametri pojedinačno statistički signifikantni, odnosno signifikantno različiti od nule. Određivanjem p vrijednosti može se odrediti točna razina signifikantnosti ocijenjene t vrijednosti. U primjeru o izdacima t vrijednosti regresijskog koeficijenta iznosi 7,2624, a njegova je p vrijednost praktički nula. Što je manja p vrijednost, jači su dokazi odbacivanja nulte hipoteze.

Napominje se da je, prilikom odlučivanja o prihvaćanju ili odbacivanju nulte hipoteze, potrebno unaprijed odrediti p vrijednost koju se je spremni prihvatiti (kritična p vrijednost), te usporediti izračunatu p vrijednost s kritičnom p vrijednošću. Ukoliko je izračunata p vrijednost manja od kritične p vrijednosti, nulta hipoteza se odbacuje. Ukoliko je izračunata p vrijednost veća od kritične p vrijednosti nulta hipoteza se ne smije odbaciti. Tradicionalno se kritična p vrijednost fiksira na razini od 1, 5 ili 10 %. U izrazu (72) stvarna p vrijednost t koeficijenta od 7,2624 iznosi 0,0001. Ukoliko bi odabrana kritična razina p vrijednosti iznosila 5%, nulta hipoteza bi se odbacila, jer je izračunata p vrijednost od 0,0001 mnogo manja od 5% (0,05).

Ocjenjivanje modela i regresijska analiza radi se danas skoro isključivo uz pomoć računala i programske potpore. Potrebno je naučiti čitati računalno izvješće i znati korektno interpretirati najbitnije rezultate regresijske analize. Postoji dosta statističkih ili ekonometrijskih programskih paketa s kojima se može obavljati ekonometrijska ocjena i analiza. Najčešće upotrebljavani statistički paketi su: SAS, SPSS, STATISTICA, a od ekonometrijskih RATS; TSP; EVIEWS, SHAZAM, SORITEC.

63

9. VIŠESTRUKI LINEARNI REGRESIJSKI MODEL

U prethodnim poglavljima razmatran je linearni regresijski model s dvije varijable, sastavljen od jedne nezavisne i jedne zavisne varijable. Takav se model sada proširuje pa se razmatra mogućnost da više nezavisnih varijabli utječu na zavisnu varijablu. Regresijski model s više od jedne nezavisne varijable poznat je kao višestruki regresijski model; Višestruki upravo zbog višestrukih utjecaja (eksplanatornih varijabli) koje djeluju na zavisnu varijablu. Diskusija o višestrukom regresijskom modelu sastojat će se u pronalaženju odgovora na sljedećih nekoliko pitanja:

1. Kako se procjenjuje višestruki regresijski mode? Da li je postupak procjene drugačiji od postupka procjene regresijskog modela s dvije varijable?

2. Da li se postupak testiranja hipoteza razlikuje od onog u modelu s dvije varijable? 3. Postoji li neka specifična obilježja višestruke regresije koja se ne susreću u modelu s dvije

varijable? Za dobiti odgovore na ova i dodatna pitanja razmotrit će se najjednostavniji višestruki regresijski model: model s tri varijable u kojem se ponašanje zavisne varijable Y analizira u odnosu na dvije nezavisne varijable X1 i X2.

9. 1. LINEARNI REGRESIJSKI MODEL S TRI VARIJABLE

Regresijska funkcija populacije za model s tri varijable u nestohastičkom obliku piše se

( ) (72)

te u stohastičkom obliku

(73)

gdje je

Y = zavisna varijabla X2 i X3 = nezavisne varijable u = slučajno odstupanje t = t-to opažanje (u slučaju podataka vremenskog presjeka upotrebljava se indeks i)

1 = konstantni član, odnosno odsječak na ordinati, a predstavlja prosječnu vrijednost Y kada su X2 i X3 jednaki nuli

2 i 3 = parcijalni regresijski koeficijenti

Izraz (74) daje uvjetnu prosječnu vrijednost Y, uvjetnu za dane ili fiksirane vrijednosti varijabli X2 i X3. Stoga je, kao i u modelu s dvije varijable, višestruka regresijska analiza uvjetna regresijska analiza, uvjetna za dane vrijednosti nezavisnih varijable. Dobije se tako prosječna ili srednja vrijednost Y za fiksirane vrijednosti varijabli X. Stohastički oblik, izraz (74) tvrdi da se svaka pojedinačna vrijednost Y može prikazati kao zbroj dviju komponenti:

sustavne ili determinističke komponente ( ), koja predstavlja srednju vrijednost E(Yt), te

ut, koja predstavlja nesustavnu ili stohastičnu komponentu, određenu čimbenicima drugačijima od X2 i X3.

ZNAČENJE PARCIJALNIH REGRESIJSKIH KOEFICIJENATA

64

Regresijski koeficijenti 2 i 3 poznati su kao parcijalni regresijski koeficijenti ili parcijalni

koeficijenti smjera. 2 mjeri promjenu u srednjoj vrijednosti Y, E(Y), za jedinicu promjene u

varijabli X2, kada je vrijednost varijable X3 konstantna. Analogno, 3 mjeri promjenu u srednjoj vrijednosti Y za jedinicu promjene u X3, kada je vrijednost X2 konstantna. Ovo je specifična značajka višestruke regresije. U regresijskom modelu s tri varijable mora se utvrditi koji dio promjene u srednjoj vrijednosti Y, može biti pripisan varijabli X2, a koji varijabli X3.

PRIMJER 12

Pretpostavimo da imamo sljedeću regresijsku funkciju populacije:

(74)

Pretpostavimo nadalje, da je vrijednost varijable X3 fiksirana na konstantnoj vrijednosti od 10. Uvrštavanjem dane vrijednosti u izraz (75) dobije se

( ) ( )

(75)

Koeficijent nagiba označava da srednja vrijednost Y opada za 1,2, za svaku jediničnu promjenu varijable X2, kada je X3 konstantna. Ovakav koeficijent nagiba naziva se parcijalni regresijski koeficijent. Analogno, ako je vrijednost X2 konstantna na vrijednosti od 5 dobije se

( )

(76)

Koeficijent nagiba 3= 0,8 označava da srednja vrijednost Y raste za 0,8 za svaku jediničnu promjenu varijable X3, kada je X2 konstanta. I ovaj je regresijski koeficijent parcijalni regresijski koeficijent.

Parcijalni regresijski koeficijent odražava (parcijalni) utjecaj jedne od nezavisnih varijabli na srednju vrijednost zavisne varijable, kada su vrijednosti ostalih nezavisnih varijabli, uključenih u model održavane konstantnima. Ovakvo specifično obilježje višestruke regresije, omogućava, ne samo uključivanje većeg broja nezavisnih varijabli u model, već i «izoliranje» utjecaja svake pojedine varijable X na varijablu Y od ostalih X varijabli uključenih u model.

9. 2. PRETPOSTAVKE VIŠESTRUKOG LINEARNOG REGRESIJSKOG MODELA

Kao i u slučaju jednostavnog linearnog regresijskog modela, regresijska analiza višestrukog modela započinje procjenom parametara. U svrhu dobivanja ocjena parametara djeluje se u okvirima klasičnog linearnog regresijskog modela (CLRM) uvedenog u prijašnjim predavanjima te se, za ocjenu regresijskih parametara, upotrebljava metoda najmanjih kvadrata (OLS metoda).

Za model iz izraza (74) pretpostavlja se: P1 Regresijski model je linearan u parametrima te je korektno specificiran.

P2 Objasnidbene varijable X2 i X3 nisu korelirane sa slučajnim odstupanjima u, tj. kovarijanca između svake objasnidbene varijable i slučajne varijable u jednaka je nuli. Ukoliko su X2 i X3

65

nestohastične ova je pretpostavka automatski ispunjena.

P3 Očekivana vrijednost odstupanja jednaka je nuli: E(ui)=0.

P4

Homoskedastičnost: varijanca slučajne varijable u konstanta je i jednaka 2.

P5 Odsutnost autokorelacije: vrijednosti slučajne varijable u međusobno su nekorelirane slučajne veličine, tj. njihova je kovarijanca jednaka nuli: cov(ui,uj)=0, i≠j.

P6 Odsutnost multikolinearnosti: ne postoji egzaktna linearna kombinacija nezavisnih varijabli, tj. ne postoji ovisnost oblika.

P7 Slučajna odstupanja su normalno distribuirana s matematičkim očekivanjem jednakim nula i

homoskedastičnom varijancom 2: uiN(0, 2)

Navedene pretpostavke, osim pretpostavke P6, iste su kao za model s dvije varijable.

9.3. OCJENA PARAMETARA VIŠESTRUKE REGRESIJE

Za procjenu parametara iz izraza (74) koristi se metoda najmanjih kvadrata.

9.3.1. OLS PROCJENITELJI

Za definiranje OLS ocjenjivača potrebno je napisati regresijsku funkciju uzorka koja odgovara regresijskoj funkciji populacije iz izraza (74), kako slijedi:

tt3t221t eˆXˆˆY

(77)

gdje predstavlja rezidual, a procjenitelje populacijskih koeficijenata. Prema načelu metode najmanjih kvadrata vrijednosti nepoznatih parametara odabrane su na način da je

suma kvadrata reziduala što je moguće manja: ∑ Algebarskim izračunima dobiju se izrazi

za OLS ocjenjivače parametara:

33221

232

3322

232y223y

3

232

3322

233y332y

2

XXYˆ

mmm

mmmm

mmm

mmmm

(78)

gdje je

66

i

kikjijjk

kik

i

iyk

)XX)(XX(m

)XX()YY(m

(79)

PRIMJER 13

Izračun parcijalnih regresijskih koeficijenata

Pretpostavimo da moramo ocijeniti vezu između cijene određenog turističkog aranžmana (X3), troškova oglašavanja za dati turistički aranžman (X2) te broj prodanih turističkih aranžmana (Y) u 12 uzastopnih dana. Dan je model višestruke linearne regresije:

Podaci o varijablama dani su u tablici 8.

Tablica 8: Broj prodanih aranžmana, cijena aranžmana i troškovi oglašavanja

broj prodanih aranžmana cijena aranžmana troškovi oglašavanja

55 100 5,50 70 90 6,30 90 80 7,20

100 70 7,0 90 70 6,30

105 70 7,35 80 70 5,60

110 65 7,15 125 60 7,50 115 60 6,90 130 55 7,15 130 50 6,50

Tablica međurezultata za izračun ocijenjenih parametara.

Tablica 9: Tablica međurezultata

Y X2 X3 )YY( i )XX( 2i2 2ym )XX( 3i3 33m 3ym

23m 22m

yym

55 100 5,50 -45 30 -1350 -1,2 1,4 54 -36 900 2025

70 90 6,30 -30 20 -600 -0,4 0,16 12 -8 400 900

90 80 7,20 -10 10 -100 0,5 0,25 -5 5 100 100

100 70 7,0 0 0 0 0,3 0,09 0 0 0 0

90 70 6,30 -10 0 0 -0,4 0,16 4 0 0 100

105 70 7,35 5 0 0 0,65 0,42 3,25 0 0 25

80 70 5,60 -20 0 0 -1,1 1,21 22 0 0 400

110 65 7,15 10 -5 -50 0,45 0,20 4,5 -2,25 25 100

125 60 7,50 25 -10 -250 0,8 0,64 20 -8 100 625

115 60 6,90 15 -10 -150 0,2 0,04 3 -2 100 225

130 55 7,15 30 -15 -450 0,45 0,20 13,5 -6,75 225 900

130 50 6,50 30 -20 -600 -0,2 0,04 -6 4 400 900

Σ -3550 0,45 4,81 125,25 -54 2250 6300

Rezultati osnovnih izračuna su sljedeći:

100Y m22=2250 my2=-3550

70X 2 m33=4,81 my3=125,25

7,6X 3 m23=-54 myy=6300

k=3 (dvije objasnidbene i jedna zavisna varijabla)

67

Iz izraza (79) računaju se vrijednosti parametara:

3,1

5481,42250

5425,12581,43550

mmm

mmmm

2

232

3322

233y332y

2

3,11

5481,42250

543350225025,125

mmm

mmmm

2

232

3322

232y223y

3

29,115

7,63,11703,1100

XXYˆ33221

Prema tome, ocijenjena jednadžba regresije glasi:

i132ii X3,11X3,129,115Y

To znači da ocjenjujemo da bi se smanjenje cijene turističkog aranžmana od jedne novčane jedinice, uz nepromijenjene troškove oglašavanja, odrazilo na povećanje broja prodanih aranžmana za 1,3, dok bi porast troškova oglašavanja za jednu novčanu jedinicu, uz nepromijenjene cijene, prouzrokovao povećanje prodaje za 11,3 turističkih aranžmana.

9.3.2. VARIJANCA I STANDARDNA POGREŠKA OLS PROCJENITELJA

Nakon određivanja OLS procjenitelja konstantnog člana i parcijalnih regresijskih koeficijenata, mogu se izračunati njihove varijance i standardne pogreške. Varijance i standardne pogreške daju uvid o varijabilnosti procjenitelja od uzorka do uzorka. Kao i u slučaju linearnog regresijskog modela s dvije varijable standardne pogreške potrebne su za: (1) određivanje intervala povjerenja za stvarne vrijednosti parametara te za (2) testiranje hipoteza. Izrazi za određivanje varijance i standardne pogreške konstantnog člana i parcijalnih regresijskih koeficijenata su:

2

2

t3t2

2

t3

2

t2

t3t2322

t2

2

32

t3

2

2

1

xxxx

xxXX2XXXX

n

1)ˆvar(

(80)

)ˆvar()ˆ(se 11 (81)

2

2

t3t2

2

t3

2

t2

2

t3

2

xxxx

x)ˆvar(

(82)

22ˆvar)ˆ(se (83)

2

2

t3t2

2

t3

2

t2

2

t2

3

xxxx

x)ˆvar(

(84)

)ˆvar()ˆ(se 33 (85)

NAPOMENA: u izrazima (81) do (86) mala slova označavaju devijaciju srednjih vrijednosti uzorka pa

je ( ).

U izrazima (81) i (86) 2 je homoskedastična varijanca slučajnog odstupanja ut. OLS-ove nepoznate varijance je

68

3n

eˆ

2

t2

(86)

Drugi korijen ocijenjene varijance iz izraza (87) daje standardnu grešku ocjene:

2ˆˆ (87)

Izraz (88) daje vrijednost standardne pogreške regresije, koja predstavlja standardnu devijaciju vrijednosti Y oko procijenjenog regresijskog pravca.

9.4. KOEFICIJENT VIŠESTRUKE DETERMINACIJE R2

U jednostavnom linearnom regresijskom modelu s dvije varijable koeficijent determinacije predstavlja mjeru prilagođenosti regresijskog pravca uzorka, odnosno predočuje proporciju ukupnih varijacija u zavisnoj varijabli Y koje su objašnjene nezavisnom varijablom. U slučaju linearne regresije s tri varijable, želimo znati koliki je udio varijacija u zavisnoj varijabli posljedica objašnjenih varijacija zbog nezavisnih varijabli X2 i X3. Taj je pokazatelj dan koeficijentom višestruke determinacije, R2 (ili r2). Kao u slučaju modela s dvije varijable, vrijedi jednakost:

TSS=ESS+RSS (88)

gdje je

TSS = ukupan zbroj kvadrata zavisne varijable ESS = objašnjeni zbroj kvadrata (objašnjen od svij nezavisnih varijabli) RSS = rezidualni zbroj kvadrata

Koeficijent višestruke determinacije dan je izrazom:

∑

∑( ) (89)

Tako definirani koeficijent determinacije je omjer zbroja kvadrata protumačenoga modelom i ukupnog zbroja kvadrata, te predstavlja opći pokazatelj kvalitete modela. Napominje se da je drugi korijen koeficijenta višestruke determinacije, koeficijent višestruke korelacije, r.

KORIGIRANI KOEFICIJENT DETERMINACIJE

Osnovni problem koeficijenta determinacije jest da dodavanjem novih objasnidbenih varijabli u funkciju, R2 raste, čak i onda kada nova objasnidbena varijabla ništa ne znači za model. Taj se nedostatak rješava korigiranim koeficijentom determinacije. Korigirani koeficijent determinacije dan je izrazom:

( )( ) (90)

Korigirani koeficijent determinacije jednak je koeficijentu multiple determinacije ili je manji od njega. Pri računanju korigiranog koeficijenta determinacije uzima se u obzir broj stupnjeva slobode, koji za fiksno n zavisi o broju nezavisnih varijabli u modelu. Uvođenjem varijable koja je nerelevantna za model, smanjuje se vrijednost korigiranog koeficijenta determinacije, pa ona može postati čak i negativna, naročito ako se u funkciju uvodi više nerelevantnih varijabli, a R2 ima malu vrijednost.

PRIMJER 14

Aukcijske cijene antiknih satova

69

Poznata njemačka tvrtka održava godišnju aukciju antiknih satova. Podaci za 32 antikna sata (starost sata, broj ponuđača te cijena sata) dani su u tablici .

Tablica 10: Aukcijski podaci o cijenama, starosti satova i broju ponuđača

broj opažanja

cijena starost u

godinama broj

ponuđača broj

opažanja cijena

starost u godinama

broj ponuđača

1 1235 127 13 20 1545 175 8

2 1080 115 12 21 729 108 6

3 845 127 7 22 1792 179 9

4 1552 150 9 23 1175 111 15

5 1047 156 6 24 1593 187 8

6 1979 182 11 25 1147 137 8

7 1822 156 12 26 1092 153 6

8 1253 132 10 27 1152 117 13

9 1297 137 9 28 1336 126 10

10 946 113 9 29 785 111 7

11 1713 137 15 30 744 115 7

12 1024 117 11 31 1356 194 5

13 2131 170 14 32 1262 168 7

14 1550 182 8

15 1884 162 11

16 2041 184 10

17 854 143 6

18 1483 159 9

19 1055 108 14

Neka je zavisna varijabla Y aukcijska cijena, X2 = starost sata, X3= broj ponuđača. A priori se očekuje pozitivna veza između Y i dvije nezavisne varijable. U primjeru je pretpostavljeno da cijena pobjedničke ponude zavisi o starosti sata – što je sat stariji to je viša aukcijska cijena, ceteris paribus – tako da se očekuje pozitivan odnos dvije varijable. Analogno, što je veći broj ponuđača to je cijena sata viša, jer veći broja ponuđača za određeni sat, sugerira da je dani sat vrjedniji, što rezultira pozitivnim odnosom između dviju varijabli. Iz podataka iz tablice 10 dobiveni su sljedeći rezultati regresijske analize upotrebom MSExcel i Gretl programske potpore.

Slika 19: Rezultati regresijske analize primjenom MsExcel programske potpore

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,94 R Square 0,89 Adjusted R

Square 0,88 Standard Error 134,61

Observations 32

ANOVA

df SS MS F Significance

F Regression 2 4278295 2139147 118,06 0,00 Residual 29 525462,2 18119,38

Total 31 4803757

70

Coefficients Standard

Error t Stat P-value Lower 95% Upper 95%

Lower 95,0%

Upper 95,0%

Intercept -1336,05 175,27 -7,62 0,00 -1694,52 -977,58 -1694,52 -977,58

starost 12,74 0,91 13,97 0,00 10,88 14,61 10,88 14,61

ponude 85,76 8,80 9,74 0,00 67,76 103,77 67,76 103,77

RESIDUAL OUTPUT

Observation Predicted

cijena Residuals 1 1397,04 -162,04 2 1158,38 -78,38 3 882,45 -37,45 4 1347,03 204,97 5 1166,19 -119,19 6 1926,29 52,71 7 1680,78 141,22 8 1203,45 49,55 9 1181,40 115,60 10 875,60 70,40 11 1695,98 17,02

12 1098,10 -74,10 13 2030,68 100,32 14 1669,00 -119,00 15 1671,46 212,54 16 1866,01 174,99 17 1000,55 -146,55 18 1461,71 21,29 19 1240,72 -185,72 20 1579,81 -34,81 21 554,60 174,40 22 1716,53 75,47 23 1364,71 -189,71 24 1732,70 -139,70 25 1095,63 51,37 26 1127,97 -35,97 27 1269,63 -117,63 28 1127,01 208,99 29 678,59 106,41 30 729,56 14,44 31 1564,60 -208,60

32 1404,85 -142,85

Slika 20: Rezultati regresijske analize primjenom MsExcel programske potpore

Model 1: OLS, using observations 1-32; Dependent variable: cijena

Coefficient Std. Error t-ratio p-value

71

const -1336,05 175,272 -7,6227 <0,00001

starost_ 12,7414 0,912356 13,9654 <0,00001

ponude 85,7641 8,80199 9,7437 <0,00001

Mean dependent var 1328,094 S.D. dependent var 393,6495

Sum squared resid 525462,2 S.E. of regression 134,6083

R-squared 0,890614 Adjusted R-squared 0,883070

F(2, 29) 118,0585 P-value(F) 1,16e-14

Log-likelihood -200,7068 Akaike criterion 407,4136

Schwarz criterion 411,8108 Hannan-Quinn 408,8711

Sažeti rezultati regresijske analize dani su sljedećim izrazom:

( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( )

( )

(91)

Aukcijska cijena pozitivno je korelirana s obje nezavisne varijable, cijenom sata i brojem ponuđača. Interpretacija koeficijenta smjera od 12,741 znači da, održavajući ostale varijable konstantnima, ako se starost sata povećava za jednu godinu, prosječna aukcijska cijena raste za 12,741 boda. Analogno, održavajući ostale varijable konstantnima, ako se broj ponuđača poveća za jedan, aukcijska cijena sata raste za 85,764 boda. Negativna vrijednost konstantnog člana nema ekonomskog značenja. Vrijednost R2 od 0,891 znači da dvije nezavisne varijable procjenjuju oko 89% varijacija u aukcijskoj cijeni. Značenje F vrijednosti biti će objašnjeno dalje u tekstu.

9.5. TESTIRANJE HIPOTEZA U MODELU VIŠESTRUKE LINEARNE REGRESIJE

Iako koeficijent višestruke determinacije mjeri prilagođenost ocijenjenog regresijskog modela, ne pokazuje da li su ocijenjeni parcijalni regresijski koeficijenti statistički značajni, odnosno statistički različiti od nule. Prvi korak u statističkoj analizi modela višestruke linearne regresije sastoji se u procjeni parametara. Na postupak procjene parametara nadovezuje se postupak testiranja hipoteza. Postoji više testova, a najčešće se koriste sljedeći testovi:

(1) Test značajnosti regresije, odnosno svih parametara u modelu, ili što je isto test značajnosti prisutnosti svih regresorskih varijabli u modelu – skupni test.

(2) Test o značajnosti jednog parametra (jedne regresorske varijable u modelu) – pojedinačni test.

(3) Test značajnosti podskupa parametara (test značajnosti prisutnosti podskupa regresorskih varijabli u modelu) – parcijalni test.

TEST O ZNAČAJNOSTI JEDNOG PARAMETRA – POJEDINAČNI TEST

Za postupak testiranja potrebno je odrediti sampling distribuciju za kao procjenitelja od

2. U slučaju modela s dvije varijable dokazano je kako su OLS procjenitelji i normalno distribuirani pod pretpostavkom da slučajno odstupanje u slijedi normalnu distribuciju. U poglavlju o pretpostavkama višestrukog linearnog regresijskog modela u pretpostavci P7, također se pretpostavlja da slučajno odstupanje u slijedi normalnu distribuciju sa

očekivanjem nula i konstantnom varijancom 2. Zbog te i ostalih pretpostavki, može se

72

dokazati da i slijede normalnu distribuciju. No, kao i u slučaju modela s dvije varijable,

ako se, stvarna, ali nepoznata 2 varijanca zamijeni njenim nepristranim ocjenjivačem 2 danim izrazom (87), OLS procjenitelj slijedi t distribuciju sa (n-3) stupnja slobode:

3-n

3

33

3-n

2

22

3-n

1

11

t~)ˆ(se

ˆt

t~)ˆ(se

ˆt

t~)ˆ(se

ˆt

(92)

PRIMJER 15

Pretpostavimo da želimo istražiti hipotezu da starost sata ne utječe na njegovu cijenu. Drugim riječima, želimo testirati nultu hipotezu:

U režimu nulte hipoteze, starost antiknih satova nema utjecaja na njihovu cijenu, dok alternativna hipoteza tvrdi suprotno: starost satova ima utjecaja, pozitivnog ili negativnog, na njihovu cijenu. Testiranje sustava hipoteza počinje izračunom t vrijednosti:

3-n

2

22 t~)ˆ(se

ˆt

(93)

Napomena: 2=0

Izračunata t-vrijednost slijedi t distribuciju s (n-3)=29 stupnjeva slobode, budući je n=32 u razmatranom primjeru. Iz rezultata regresijske analize iz izraza (92) imamo:

(94)

Temeljem izračunate t vrijednosti donosi se zaključak o odbacivanju ili prihvaćanju nulte hipoteze da starost sata ne utječe na njegovu aukcijsku cijenu. Iz tablice Studentove t-distribucije očitamo kritične t vrijednosti za dvostrani test za 29 stupnjeva slobode za 0,05 razinu signifikantnosti, a ta vrijednost iznosi: 2,045. U tablici 6 o načinu donošenja odluka, u slučaju dvostranog t-testa, vidimo da ukoliko je

izračunata tvrijednost veća od kritičnih t vrijednosti, na odabranoj razini signifikantnosti, odbacujemo nultu hipotezu kao netočnu. U primjeru se stoga, nulta hipoteza odbacuje kao netočna, jer je izračunata vrijednost t od 13,97 veća od kritičnih vrijednost. U istom primjeru, p vrijednost statistike od 7,2624 iznosi oko 0,00001. Što znači da bismo, u slučaju odbacivanja hipoteze o tome da je vrijednost koeficijenta regresije jednaka nuli, pogriješili jednom u 10 000 slučajeva.

TEST O ZNAČAJNOSTI SVIH PARAMETARA U MODELU – SKUPNI TEST

Test o značajnosti regresije oslanja se na sljedeće hipoteze

0: 320 (95)

U nultoj hipotezi sadržana je tvrdnja da niti jedna regresorska varijabla nije signifikantna u modelu, ili, što je isto, da su svi parametri uz regresorske varijable u modelu jednaki nuli. Alternativna hipoteza sadrži suprotnu tvrdnju, odnosno da postoji barem jedna regresorska varijabla koja je signifikantna za objašnjenje varijabilnosti zavisne varijable, tj. da postoji

73

barem jedan parametar i različit od nule. Sadržaj nulte hipoteze da niti jedna regresorska varijabla nije signifikantna u modelu isto je kao i tvrditi da:

0R: 2

0 (96)

odnosno da dvije nezavisne varijable objašnjavaju 0% varijacija u zavisnoj varijabli.

Hipoteza dana izrazom (97) testira se tehnikom poznatom pod imenom analiza varijance (ANOVA).

Tablica 11: ANOVA tablica za regresijski model s 3 varijable

izvor varijacije

suma kvadrata stupnjevi slobode

sredina kvadrata F-vrijednost

objašnjena regresijom

∑( )

k

∑( )

⁄

( )⁄ neobjašnjena

regresijom (rezidualna odstupanja)

∑

n-k-1

∑

ukupna ∑( )

n-1

Test veličina je empirijski F omjer:

⁄

( )⁄

⁄

( ) ( )⁄ (97)

Brojčane vrijednosti za izračunavanje test veličine dane su u tablici ANOVA. Ako je nulta hipoteza istinita i ako varijable u modelu imaju opisana svojstva, tada se može pokazati da se test veličina ravna po F distribuciji s k i n-(k+1) stupnjeva slobode. Testira li se na razini

signifikantnosti , odluka se donosi usporedbom empirijske test veličine i teorijske vrijednosti F-distribucije. Područje prihvaćanja nulte hipoteze jest [ ]. Područje

odbacivanja nulte hipoteze jest [ ] . Prihvaćanjem nulte hipoteze prihvaća se

pretpostavka da regresorske varijable nisu signifikantne u modelu. Ne prihvati li se nulta hipoteza, to znači da barem jedna od k regresorskih varijabli značajno pridonosi objašnjavanju varijacije zavisne varijable.

PRIMJER 16

U primjeru o aukcijskim cijenama antiknih satova Gretl programskom potporom dobivena je sljedeća ANOVA tablica.

Tablica 12: ANOVA tablica za regresijski model aukcijskih cijena antiknih satova

Analysis of Variance:

Sum of squares df Mean square

Regression 4,27829e+006 2 2,13915e+006

Residual 525462 29 18119,4

Total 4,80376e+006 31 154960

R^2 = 4,27829e+006 / 4,80376e+006 = 0,890614

F(2, 29) = 2,13915e+006 / 18119,4 = 118,058 [p-value 1,16e-014]

Iz tablice je vidljivo da izračunata F vrijednosti iznosi 118,058 119. Pod nultom hipotezom

da su 2=3=0, te pod danim pretpostavkama klasičnog standardnog linearnog regresijskog modela, znamo da izračunata F vrijednost slijedi F distribuciju s 2 stupnja slobode u brojniku

74

i 29 stupnjeva slobode u nazivniku. Kritična F vrijednost iznosi 3,33. Izračunata F vrijednost veća je od kritične F vrijednosti te se nulta hipoteza odbacuje.

75

ZADACI ZA VJEŽBU

1. Služba za marketing kompanije Ratex ispituje opseg prodaje proizvoda FIT u 2002. godini po segmentima tržišta. Pretpostavlja se da su glavni čimbenici (varijable) koje utječu na prodaju izdaci za reklamu (u 000 eura)-X2 i prodajna cijena (u eurima)-X3. Podaci o prodaju, izdaci za reklamu i prodajne cijene dani su u tablici.

područje prodaja u 000 komada, Y izdaci za reklamu u 000 eura, X2

prodajna cijena u eurima, X3

I 331 220 129

II 299 285 138

III 301 256 121

IV 398 395 139

V 402 317 127

VI 487 500 111

VII 601 432 103

VIII 614 599 122

IX 703 701 101

X 711 794 110

XI 799 802 100

XII 927 980 99

XIII 990 1021 97

XIV 1015 1128 95

Ispitivanje vrši pomoću modela višestruke linearne regresije programskom potporom te su dobiveni sljedeći rezultati regresijske analize:

Model 1: OLS, using observations 1-14 Dependent variable: prodaja_u_000_komada__Y

Coefficient Std. Error t-ratio p-value

const 611,17 180,713 3,3820 0,00612

izdaci_za_reklamu_u_000_eura__X

0,669347 0,0652303 10,2613 <0,00001

prodajna_cijena_u_eurima__X

-3,53077 1,29091 -2,7351 0,01940

Mean dependent var 612,7143 S.D. dependent var 253,7198

Sum squared resid 18665,68 S.E. of regression 41,19320

R-squared 0,977696 Adjusted R-squared 0,973640

F(2, 11) 241,0875 P-value(F) 8,24e-10

Log-likelihood -70,23283 Akaike criterion 146,4657

Schwarz criterion 148,3828 Hannan-Quinn 146,2882

Temeljem dobivenih rezultata: a) Odredite status varijabli u modelu. b) Kako glasi model višestruke regresije za ovaj primjer? c) Napišite jednadžbu s procijenjenim parametrima i protumačite je. d) Ispod procjena parametara naznačite vrijednosti njihovih standardnih pogrešaka. e) Koliko je koeficijent determinacije i korigirani koeficijent determinacije za analizirani

primjer modela? Interpretirajte rezultate.

2. Ocijenjen je model prodaje jedne vrste kave u 12 prodavaonica na temelju podataka u mjesecu ožujku:

ii22i110i uXbXbbY . Varijable modela su:

Y – količina prodane kave u kg X1 – cijena kave u kunama X2 – broj reklamnih oglašavanja Rezultati regresijske analize dani su tablicom:

MODEL

^const 18006,0

76

X1 -237,07 (t-vrijednost) (-2,88) X2 3,7022 (t-vrijednost) (0,17)

2R 0,6578

F 11,57

a) Testirajte značajnost nezavisnih varijabli. Razina signifikantnosti je 5%. b) Provedite test o značajnosti regresije za model. Razina signifikantnosti je 5%. c) Uz poznatu F vrijednost i standardnu pogrešku regresije s=991,734 ispunite tablicu

ANOVA. 3.

4.

77

RJEŠENJA ZADATAKA

1. a) Iskustvo i teorija poslovanja pokazuju da na opseg prodaje utječe velik broj faktora od kojih su izdvojeni izdaci za reklamu i prosječne cijene. Opseg prodaje je zavisna varijabla. To je numerička varijabla čije se vrijednosti (njih 14) odnose na prodaju po područjima. Budući da se varijacije prodaje po tržišnim segmentima (područjima) objašnjavaju pomoću izdataka za reklamu i prosječnih cijena, to su ovdje nezavisne varijable, izdaci za reklamu i prosječne cijene. Varijable su numeričke, a njihove se vrijednosti (14 po svakoj varijabli) odnose na segmente tržišta. Vrijednosti su povezane s područjima, a vremenski su vezane za isto razdoblje, 2002. godinu (cross-sectional dana, mješoviti podaci).

b) Model je osnovnog skupa: ii33i2211 uXXY , a model uzorka:

ii33i221i eXˆXˆˆY .

c) i3i2i X531,3X669,0170,611Y

d) (1,291) (0,065) (180,713) se

X531,3X669,0170,611Y i3i2i

e) Koeficijent determinacije iznosi 0,978, a korigirani koeficijent determinacije 0,974. Koeficijent determinacije pokazuje da je primjenom modela protumačeno oko 97,8% varijacija zavisne varijable, pa je po tome pokazatelju model reprezentativan. Korigirani koeficijent determinacije blizu je njegove maksimalne vrijednosti. Primjena ovog koeficijenta važna je u postupku odabira modela s različitim brojem nezavisnih varijabli.

2. a) H0:b1=0, HA:b1≠, t=2,88, t0.05(9)=2,62. Nulta hipoteza se ne prihvaća, nezavisna varijabla X1 značajna je za model. H0:b2=0, HA:b2≠, t=0,17, t0.05(9)=2,62. Nulta hipoteza se ne prihvaća, nezavisna varijabla X1 značajna je za model.

b) H0:b1=b2=0, HA: bj≠0, j=1,2, F=11,57, F0,05(2,9)=4,26. Nulta hipoteza se ne prihvaća. Ne može se prihvatiti pretpostavka da varijable cijena kave i broj reklamnih oglašavanja nisu signifikantne u objašnjavanju varijacija količine prodane kave.

izvori varijacija

suma kvadrata

stupnjevi slobode

sredina kvadrata

F vrijednost

objašnjena 22759030,66

2 11379515,33 11,57

neobjašnjena 8851826,97 9 983536,33

ukupna 31610857,63 11 2873714,33

78

10. OCJENJIVANJE U UVJETIMA NEISPUNJENIH PRETPOSTAVKI KLASIČNOG MODELA

10.1. MULTIKOLINEARNOST

Jedna od pretpostavki klasičnog linearnog regresijskog modela je odsustvo mulitkolinearnosti između dviju ili više eksplanatornih varijabli. Razlikuju se savršena i nesavršena multikolinearnost. U praksi se rijetko susreće savršena multikolinearnost, dok je češća nesavršena multikolinearnost, odnosno približna linearna zavisnost.

Savršena multikolinearnost pojavljuje se kada se varijacije jedne zavisne varijable mogu potpuno objasniti varijacijama druge zavisne varijable, tj. ako se, na primjer, u modelu:

(98)

nezavisna varijabla može prikazati kao linearna funkcija druge nezavisne varijable, tj.

(99)

U praksi je češća nesavršena multikolinearnost, odnosno približna linearna zavisnost, koja označava vezu među varijablama koja nije egzaktna, već uključuje i odstupanje :

(100)

Izraz (100) znači da se varijacije varijable mogu predstaviti varijacijama varijable , ali ne u

potpunosti, već neke neobjašnjene varijacije još postoje.

Vrlo često makroekonomski podaci vremenskih serija uključuju multikolinearnost, jer pokazuju slične tendencije rata u određenome vremenskome razdoblju. Posljedice savršene i nesavršene multikolinearnosti pokazat će se na primjerima.

PRIMJER 17

Primjer savršene multikolinearnosti

Potrebno je ocijeniti linearni model potražnje za računalima uz pomoć podataka iz tablice

Tablica 13: Potražnja za osobnim računalima

Y X2 X3 X4 količina cijena tjedni dohodak (procjena) tjedna zarada (stvarne vrijednosti)

49 1 298 297,5 45 2 296 294,9 44 3 294 293,5 39 4 292 292,8 38 5 290 290,2 37 6 288 289,7 34 7 286 285,8 33 8 284 284,6 30 9 282 281,1 29 10 280 278,8

Tablica 13 prikazuje podatke za količinu potražnje za osobnim računalima u odnosu na cijenu (X2) i na dvije mjere tjedne raspoložive količine novca, (X3) kao procjena tjednog dohotka i (X4) kao podaci za stvarno raspoloživu količinu novca. Za razlikovanje varijabli X3 i X4 nazvane su tjedni dohodak i tjedna zarada. Kako je, pored cijene, dohodak važna determinanta potražnje proširena funkcija potražnje može se pisati

79

iiii

iiii

uXBXBBY

uXAXAAY

33221

33221

(101) (102)

Prikazane funkcije potražnje razlikuju se u korištenim mjerama dohotka. A priori se očekuje da A2 i B2 imaju negativan predznak, dok se za koeficijente A3 i B3 očekuje da su pozitivni. Kada se temeljem podataka tablice 13 i pomoću programske potpore želi ocijeniti model (101), računalo «odbija» procijeniti regresiju. Zašto? Uvrštavanjem podataka za cijenu (X2) i tjedni dohodak (X3) u dijagram dobije se slika 1.

Slika 21: Dijagram rasipanja varijabli dohodak (X3)i cijene (X2)

Izračunom regresije varijable (X2 ) cijene i dohotka (X3) dobiju se sljedeći rezultati:

00,1R

X2300X

2

i23

(103)

Varijabla (X3) se može prikazati kao linearna funkcija varijable (X2). Drugim riječima, tjedni dohodak (X3) i cijena (X2) savršeno su linearno korelirane, postoji dakle savršena multikolinearnost. Zbog odnosa u izrazu (103), izraz (101) se ne može procijeniti. Supstituiranjem izraza (103) u izraz (101) dobije se:

32

31

i2i21

i2i3231

ii23i221i

2A-AC

300AAC

uXCC

u)X2A(A)300A(A

u)X2300(AXAAY

(104)

Izraz (104) pokazuje zašto se izraz (1) nije mogao procijeniti: ne radi se o slučaju višestruke regresije, već o jednostavnoj regresiji s dvije varijable Y i X2. No, iako se izraz (104) može procijeniti te dobiti procjene za C1 i C2, iz njega nije moguće dobiti procjene za originalne parametre A1, A2 i A3, jer u izrazu (104) imamo samo dvije jednadžbe i tri nepoznanice. Rezultati procjene regresije (4) su

9757,0R (-17,935) (66,583) t

(0,1203) (0,746) se

X1576,2667,49Y

2

i2i

(105)

Kao što je vidljivo 1C iznosi 49,667 a 2C -2,1756. Iz ovih vrijednosti nije moguće dobiti vrijednosti za

tri nepoznanice A1, A2 i A3.

80

U slučaju savršene multikolinearnosti, savršene linearne veze, među nezavisnim varijablama nije moguće dobiti jedinstvene procjene parametara. A budući da se parametri ne mogu procijeniti, nije moguće pristupiti testiranju hipoteza i bilom kakvom drugom postupku statističkog zaključivanja o njima temeljem određenog uzorka.

PRIMJER 18

Primjer nesavršene multikolinearnosti

Za objašnjenje nesavršene multikolinearnosti razmotrimo podatke iz tablice 13 te ocijenimo izraz (102) sa tjednom zaradom u stvarnim vrijednostima (X4). Rezultati regresije su:

9778,0R (-0,7971) (-3,4444) (1,2107) t

(0,4003) (0,8122) (120,06) se

X3191,0X7975,237,145Y

2

i4i2i

(106)

Rezultati su zanimljivi iz nekoliko razloga: 1. Iako regresiju (101) nije moguće procijeniti, moguće je procijeniti regresiju (102), iako su razlike

između dviju dohodovnih varijabli neznatne. 2. Prema očekivanjima, cjenovni koeficijenti su negativni. Svaki je cjenovni koeficijent statistički

značajno različit od nule. No t vrijednost cjenovnog koeficijenta u izrazu (104) puno je veći od t vrijednosti u izrazu (106), odnosno standardna pogreška cjenovnog koeficijenta manja je u izrazu (104) od one u izrazu (106).

3. Vrijednost R2 u izrazu (104) s jednom nezavisnom varijablom iznosi 0,9757, dok u izrazu (106) s dvije nezavisne varijable iznosi 0,9778, te raste za tek 0,0021.

4. Koeficijent dohotka (tjedne zarade) statistički je nesignifikantan, no što je zanimljivije ima negativan predznak. Za većinu dobara, dohodak pozitivno utječe na količinu potražnje.

5. Unatoč neznačajnosti dohodovne varijable testiranjem hipoteze 2=3=0 (hipoteza da je R2=0), ona se lako može odbaciti primjenom F testa. Drugim riječima, cijena i zarada imaju značajnog utjecaja na količinu potražnje.

Kako se objašnjavaju tako neobični rezultati? Uvrštavanjem u dijagram rasipanja podataka za varijablu X2 i X4, cijena nasuprot tjednoj zaradi dobije se slika 2. Slika 22: Odnos tjedne zarade (X4)i cijene (X2)

Iz slike je vidljivo da, iako cijena i tjedna zarada nisu egzaktno linearno povezane, među njima postoji visok stupanj zavisnosti. Navedeno se može potvrditi i iz rezultata regresije

9770,0R (-18,44) (444,44) t

(0,1088) (0,6748) se

eX0055,292,2999X

2

ii2i4

(107)

Kako rezultati regresije pokazuju, cijena i tjedna zarada usko su povezane: koeficijent korelacije iznosi -0,9884, što je slučaj skoro savršene multikolinearnosti.

X4 =299,92 -2,0055X2

275

280

285

290

295

300

0 1 2 3 4 5 6 7 8 9 10

cijena

tjed

na z

ara

da

81

10.1.1. POSLJEDICE MULTIKOLINEARNOSTI

Govorit će se o nesavršenoj multikolinearnosti s kojom se uglavnom u praksi često i susrećemo. Ocjene parametara su efikasne i nepristrane, dakle još uvijek imaju svojstva da su najbolje linearne nepristrane, tj. BLUE, no postoji niz drugih posljedica:

1. Velike varijance i standardne pogreške parametara. Velika standardna greška znači i širi interval pouzdanosti te je stoga, teže procijeniti pravu vrijednost parametara, tj. pada preciznost ocjene parametara.

2. Nesignifikantne t-vrijednosti koje su posljedica velikih standardnih pogrešaka, zbog kojih će se kod testiranja hipoteze o značajnosti pojedine regresorske varijable prihvatiti H0 hipoteza (da je važna varijabla nesignifikantna).

3. Visok R2 i niske t-vrijednosti jasan su pokazatelj multikolinearnosti. 4. Ocjene parametara i njihove standardne greške postaju vrlo nestabilne i vrlo osjetljive na

male promjene u podacima. 5. Pogrešan predznak parametara jest čest slučaj upravo zbog neefikasne i neprecizne

ocjene parametra. 6. Nije moguće utvrditi zasebne utjecaje svake nezavisne varijable u objašnjenoj varijaciji,

odnosno u R2. Ako postoji multikolinearnost prilagođenost se ne mijenja značajno, ali se ne može utvrditi uloga pojedine nezavisne varijable.

10.1.2. OTKRIVANJE MULTIKOLINEARNOSTI

Ne postoji test ili točno definiran način za otkrivanje multikolinearnosti. Nije bitno praviti razliku između prisutnosti i odsutnosti multikolinearnosti, već između različitih stupnjeva multikolinearnosti. Za to postoje različiti indikatori:

1. VISOK R2, A NISKE T-VRIJEDNOSTI

Ako je R2 visok, npr. viši od 0.8, F testom će se odbaciti hipoteza da su svi parametri u funkciji jednaki nuli. Tako je i kod multikolinearnosti, međutim ono što je kontradiktorno, pojedini t-testovi pokazuju da niti jedan parametar (ili samo neki od njih) nije statistički različit od nule.

2. VISOKI KOEFICIJENT KORELACIJE IZMEĐU EKSPLANATORNIH VARIJABLI

Ako su koeficijenti korelacije među nezavisnim varijablama visoki (recimo iznad 0.8), to može biti znak visoke koreliranosti među tim varijablama. Međutim, taj pokazatelj nije uvijek pouzdan, jer može biti nizak, a da multikolinearnost u modelu ipak postoji. Naime, moguće je da nezavisne varijable u grupi djeluju multikolinearno. Zato je, kada se radi o modelu s više od dvije nezavisne varijable, potrebno računati koeficijent parcijalne korelacije. Na primjer u modelu

ii33i22i110i uXXXY (108)

koeficijent parcijalne korelacije r12,3 jest koeficijent korelacije između X1 i X2, držeći utjecaj varijable X3 konstantnim. Iako koeficijent jednostavne linearne korelacije r12 može biti nizak, koeficijent parcijalne korelacije r12,3 može biti visok, a to znači da je, ne uzimajući u obzir utjecaj varijable X3, korelacija između varijabli X1 i X2 visoka. Ukratko, visoki koeficijent jednostavne linearne korelacije među eksplanatornim varijablama pokazatelj je postojanja multikolinearnosti, ali samo ako se radi o modelu s dvije nezavisne varijable.

3. POMOĆNE REGRESIJE

82

Kako se kod multikolinearnosti jedna ili više eksplanatornih varijabli može prikazati kao linearna kombinacija ostalih eksplanatornih varijabli u modelu, da bi se utvrdilo postoji li ta linearna funkcijska veza među nezavisnim varijablama ocjenjuju se tzv. pomoćne regresije: ocjenjuje se regresija za svaku od nezavisnih varijabli Xi i računa pripadni Ri2. Testirajući hipotezu Ri2=0, ispitujemo tvrdnju da nema kolinearnosti među Xi i preostalih nezavisnih varijabli u modelu. Pri tome se koristi F test:

1kn)R1(

kRF

2

2

(109)

gdje je n broj opažanja, a (n-k-1) broj parametara u modelu. Iako R2 nije jako visok, prema F testu može biti signifikantno različit od nule.

4. INFLACIJSKI FAKTOR VARIJANCE (VIF)

Ri2 dobiven iz pomoćnih regresija nije potpuno pouzdan pokazatelj kolinearnosti. Varijanca parametar uz nezavisnu varijablu računa se prema izrazima

2

1

2

1i1

2

1

R1XX)var(

(110)

2

2

2

2i2

2

2

R1XX)var(

(111)

Među standardnim pokazateljima multikolinearnosti u programskim paketima, među ostalim pokazateljima postoji i faktor inflacije varijance VIF (eng. Variance Iflation Factor) definiran izrazom:

, (112)

gdje je koeficijent determinacije u modelu višestruke linearne regresije u kojemu je j-

taregresorska varijabla zavisna, a preostali regresori nezavisne varijable.

Kako se omjer

naziva inflacijski faktor varijance (VIF), varijance iz izraza (110) i (111)

mogu se pisati kao

VIF

XX)var(

2

1i1

2

1

(113)

VIF

XX i

2

22

2

2)var(

(114)

Ako je Ri2=0 znači da nema multikolinearnosti, VIF=1. Kako Ri2 raste, povećava se varijanca i

standardna pogreška parametra, a i VIF. Varijanca parametra ne ovisi samo o nego i o

varijanci odstupanja 2 i o varijaciji podataka nezavisne varijable Xi oko njezine sredine , zato visok Ri2 dobiven iz pomoćnih regresija može biti samo grubi pokazatelj prisustva

multikolinearnosti. Ozbiljan problem mulikolinearnosti je prisutan ako je , odnosno

. dobiven iz pomoćnih regresija nije potpuno pouzdan pokazatelj kolinearnosti.

Ako je =0 znači da nema multikolinearnosti, VIF=1. Kako

raste, povećava se varijanca i

standardna pogreška parametra, a i VIF. U slučaju visoke korelacije regresorske varijable s

ostalim regresorskim varijablama koeficijent determinacije .

83

10.1.3. RJEŠAVANJE PROBLEMA MULTIKOLINEARNOSTI

Jedan od načina rješavanja problema multikolinearnosti jest izbaciti varijablu ili varijable koje su korelirane. To nije jednostavno rješenje jer može prouzrokovati specifikacijsku pogrešku i sve posljedice koje ona nosi.

Drugi način je povećavanje broja podataka u uzorku, s obzirom da je multikolinearnosti problem uzorka, a ne populacije. Time će se obuhvatiti više varijacija promatranih varijabli. Ipak, nije moguće uvijek dobiti veći uzorak podataka.

Postoji i mogućnost transformacije podataka. Kako je multikolinearnost svojstvena podacima vremenskog niza, korištenjem diferenciranja podataka za varijable

zapravo dobivamo nizove koji predstavljaju promjene podataka od razdoblja do razdoblja. Na taj se način rješavamo trenda u opažanjima za pojedinu varijablu, a koji je često uzrok prisutnosti multikolinearnosti. Potrebno je imati na umu da transformiranjem podataka transformiramo i model, a time i ocijenjeni parametri imaju drugačiju ekonomsku interpretaciju.

10.2. AUTOKORELACIJA

Riječ je o posljedicama kršenja treće (odsutnost autokorelacije) pretpostavke klasičnog linearnog regresijskog modela, tj. o pojavi autokorelacije ili serijske korelacije odstupanja ui. Autokorelacija ostavlja takve posljedice na model da on postaje nepogodan za prognoziranje. Važno je stoga, razumjeti o kakvom se problemu radi, kakve on posljedice ostavlja na ocijenjeni model te kako ga riješiti. Autokorelacija postoji kada su vrijednosti slučajne varijable u međusobno korelirane veličine

j)(i ,0)u,u( ji (115)

Izraz (115) znači da je očekivana vrijednost produkta između dviju različitih komponenata varijable u različita od nule. Autokorelacija je češće prisutna kod ocjenjivanja modela na osnovi podataka vremenski nizova nego u slučaju ocijenjenog modela na osnovi podataka vremenskog presjeka. Stoga, kada se raspravlja o autokorelaciji, u literaturi je uobičajeno uz varijable stavljati oznaku t (za vrijeme) umjesto oznake i. Prema tome, kada su odstupanja autokorelirana piše se

s)(t ,0)u,u( stt (116)

Taj izraz znači da je odstupanje koje se zbilo u vremenu t povezano s odstupanjem u vremenu (t-s). Npr. pri proučavanju potražnje za nekim proizvodom na temelju mjesečnih podataka, neautokoreliranost odstupanja znači da je posljedica zastoja u isporuci proizvoda privremena, tj. utječe samo na potražnju tekućeg vremena. Najjednostavnija je i najčešća autokorelacija prvog reda koja se može izraziti autoregresijskom funkcijom AR(1):

t1-tt u u (117)

gdje je:

ut - odstupanje u razdoblju t ut-1 - odstupanje u prethodnom razdoblju

- jednostavni korelacijski koeficijent između ut i ut-1, <1 vt - normalno distribuirana nezavisna odstupanja koja su u skladu s klasičnim

pretpostavkama, tj. tN(0, 2)

84

Tada kažemo da se odstupanja ponašaju prema autoregresijskom procesu 1. reda, tj.

utAR(1).Postoje dvije vrste autokorelacije: pozitivna i negativna. Kod pozitivne odstupanja ui obično imaju isti predznak. Kod negativne autokorelacije pozitivna odstupanja slijede negativna, pa opet pozitivna, itd. Kada je autokorelaija prisutna, vizualno odstupanja kroz vrijeme pokazuju određeno pravilo ponašanja, odnosno sistematičnost kao na slici 11. Postoji više razloga zbog kojih se autokorelacija pojavljuje. Često je uzrok sadržan u samim podacima uzorka na osnovi kojeg se model ocjenjuje. To je tzv. prava autokorelacija. Ekonomski podaci pokazuju kroz vrijeme ciklično kretanje. Iz recesije preko razdoblja oporavka, podaci vremenske serije idu po uzlaznoj putanji i u svakoj točki im je vrijednost veća nego u prethodnoj, sve dok se nešto ne dogodi slijedom ekonomskih ciklusa. Tako sukcesivne vrijednosti opažanja izgledaju međusobno korelirane, bilo da pratimo bruto društveni proizvod, proizvodnju, zaposlenost, kretanje cijena itd. Razlog može biti i «friziranje» statističkih podataka, npr. umjesto prikupljanja podataka za razna vremenska razdoblja, oni se izračunavaju kao prosjeci iz kraćih vremenskih razdoblja. Zato podaci izgledaju «izglađeno», pa odstupanja pokazuju pravilnost pojavljivanja, tj. autokorelaciju. Čest razlog je specifikacijska pogreška, a to je izostavljena signifikantna varijabla ili odabir pogrešne funkcijske veze. To je tzv. neprava autokorelacija. Odstupanja na sebe preuzimaju tu pogrešku, nisu više slučajna, nego se ponašaju po određenom pravilu, što je moguće vidjeti iz dijagrama rasipanja.

10.2.1. POSLJEDICE AUTOKORELACIJE

Pod pretpostavkama klasičnog regresijskog modela, ocjene parametara su najbolje linearne nepristrane ocjene (BLUE). Znači da imaju minimalnu varijancu (efikasne su) i nepristrane su. Dogodi li se da pretpostavka o autokorelaciji nije zadovoljena, to ostavlja ozbiljne posljedice na ocijenjeni model. Ocjene parametara su nepristrane, ali su nepouzdane jer:

Nisu više efikasne (tj. nemaju minimalnu varijancu, nisu više BLUE). Podcijenjena je varijanca i standardna pogreška parametra, zbog toga t i F test nisu

pouzdani pokazatelji.

Podcijenjena je ocijenjena rezidualna varijanca 2 , pa R2 nije pouzdan pokazatelj. Model nije pogodan za predviđanje jer su i varijanca i standardna pogreška

predviđanja neefikasne.

10.2.2. OTKRIVANJE AUTOKORELACIJE

Kako je pojava autokorelacije povezana s pogreškama relacije koja nam je nepoznata, otkrivanje i analiza autokorelacije oslanja se na procijenjene pogreške, tj. rezidualna odstupanja. Postoji više načina za otkrivanje autokorelacije, među kojima se spominju grafička metoda i formalni testovi, koji se najčešće i koriste. Ozbiljna autokorelacija često je očita iz dijagrama rasipanja rezidualnih odstupanja (slika 3), no pouzdaniji je i češće korišten Durbin-Watsonov (DW) test.

GRAFIČKA METODA

Grafička metoda sastoji se u prikazivanju raspršenosti reziduala kroz vrijeme iz kojeg je moguće vidjeti postoji li neka pravilnost ili su odstupanja stvarno slučajno distribuirana.

Radi lakšeg razumijevanja ocijenit ćemo model stvarnih plaća i produktivnosti rada u poslovnom sektoru u SAD-u od 1959. do 2002. Iz makroekonomske teorije očekuje se pozitivan odnos između plaća i produktivnosti rada-što je viša produktivnost rada veća je i

85

plaća. U tablici 14 prikazani su podaci o plaćama i produktivnosti rada za navedeno razdoblje.

Tablica 14: Plaće i produktivnost rada u SAD-u za razdoblje od 1959. do 2002. godine

godina plaća (W) produktivnost (P) godina plaća (W) produktivnost (P)

1959 59,2 48,6 1981 89 81,9 1960 60,7 49,5 1982 90,5 81,6 1961 62,5 51,3 1983 90,4 84,5 1962 64,6 53,6 1984 90,7 86,8 1963 66,1 55,7 1985 92,1 88,5 1964 67,7 57,6 1986 95,2 91,2 1965 69,1 59,7 1987 95,6 91,6 1966 71,7 62,1 1988 97 93 1967 73,6 63,5 1989 95,5 93,9 1968 76 65,5 1990 96,3 95,3 1969 77,2 65,8 1991 97,4 96,4 1970 78,6 67,1 1992 100 100 1971 80,1 70 1993 99,9 100,5 1972 82,3 72,2 1994 99,7 101,7 1973 84,1 74,5 1995 99,4 102,3 1974 83,1 73,2 1996 99,8 105,1 1975 83,9 75,8 1997 100,7 107,4 1976 86,2 78,4 1998 104,8 110,2 1977 87,4 79,7 1999 107,2 113 1978 88,9 80,6 2000 111 116,5 1979 89,1 80,5 2001 112,1 118,8 1980 88,9 80,3 2002 113,5 125,1

Iz podataka iz tablice 14 dobiju se sljedeći regresijski rezultati:

0,2136 d

9755,0R

(40,9181) (20,2496) t

(0,0171) )4605,1(se

P7005,05749,29W

2

(118)

Prema očekivanjima postoji pozitivna veza između plaća i produktivnosti rada. t vrijednosti i R2 su visoki. No, prije prihvaćanja ovih rezultata kao zadovoljavajućih potrebno je testirati mogućnost postojanja autokorelacije. Kao i u slučaju heteroskedastičnosti, grafički prikaz OLS reziduala može dati vrijednu sliku o postojanju autokorelacije među slučajnim varijablama. Postoji više načina grafičkog prikazivanja reziduala. Reziduali se mogu prikazati u dijagramu rasipanja u odnosu na vrijeme kao na slici 4.

Slika 23: Reziduali regresije iz izraza (118)

Reziduali na slici (23) čini se da su slučajno distribuirani. U početku su negativni, pa pozitivni, pa opet negativni.

vrijeme

rezid

ua

li

86

Tablica 15: Reziduali i pripadajući podaci iz regresije plaće i produktivnost rada

et et-1 D=et-et-1 D2 et2 predznak

od e

-4,42361 - - - 19,56833 -

-3,55414 -4,42361 0,86947 0,755977 12,63192 -

-3,0152 -3,55414 0,538939 0,290455 9,091443 -

-2,52656 -3,0152 0,488645 0,238773 6,383492 -

-2,49779 -2,52656 0,028762 0,000827 6,23898 -

-2,22891 -2,49779 0,26888 0,072297 4,968061 -

-2,30015 -2,22891 -0,07124 0,005075 5,290701 -

-1,38157 -2,30015 0,918586 0,8438 1,908727 -

-0,46239 -1,38157 0,919175 0,844883 0,213806 -

0,53643 -0,46239 0,998821 0,997644 0,287757 +

1,526253 0,53643 0,989823 0,97975 2,329448 +

2,015487 1,526253 0,489234 0,23935 4,062186 +

1,483778 2,015487 -0,53171 0,282715 2,201596 +

2,142481 1,483778 0,658703 0,43389 4,590225 +

2,331126 2,142481 0,188645 0,035587 5,434146 +

2,241892 2,331126 -0,08923 0,007963 5,026078 +

1,220359 2,241892 -1,02153 1,043528 1,489277 +

1,698827 1,220359 0,478468 0,228931 2,886014 +

1,988061 1,698827 0,289234 0,083656 3,952387 +

2,857531 1,988061 0,86947 0,755977 8,165482 +

3,12759 2,857531 0,270059 0,072932 9,781817 +

3,067707 3,12759 -0,05988 0,003586 9,410829 +

2,046765 3,067707 -1,02094 1,042324 4,189245 +

3,756941 2,046765 1,710177 2,924705 14,11461 +

1,625232 3,756941 -2,13171 4,544184 2,64138 +

0,313877 1,625232 -1,31136 1,719653 0,098519 +

0,522875 0,313877 0,208998 0,04368 0,273398 +

1,731284 0,522875 1,208409 1,460252 2,997343 +

1,851048 1,731284 0,119764 0,014343 3,426379 +

2,270223 1,851048 0,419175 0,175708 5,153912 +

0,139693 2,270223 -2,13053 4,53916 0,019514 +

-0,04113 0,139693 -0,18083 0,032698 0,001692 -

0,288219 -0,04113 0,329352 0,108473 0,08307 +

0,366098 0,288219 0,077878 0,006065 0,134027 +

-0,0842 0,366098 -0,45029 0,202765 0,007089 -

-1,1249 -0,0842 -1,04071 1,083071 1,265409 -

-1,84526 -1,1249 -0,72035 0,518909 3,404976 -

-3,40691 -1,84526 -1,56165 2,438751 11,60702 -

-4,11826 -3,40691 -0,71136 0,506027 16,96009 -

-1,97991 -4,11826 2,13835 4,57254 3,920058 -

-1,54156 -1,97991 0,43835 0,192151 2,376418 -

-0,19363 -1,54156 1,347937 1,816935 0,037491 -

-0,70498 -0,19363 -0,51136 0,261484 0,496999 -

-3,71869 -0,70498 -3,01371 9,082465 13,82869 -

Isto se može uočiti ukoliko se reziduali et iz prve kolone tablice (15) usporede s rezidualima et-1 iz druge kolone (slika 24).

Slika 24: Reziduali et u odnosu na et-1 regresije iz izraza (118)

87

Opći trend slike je da su sukcesivni reziduali pozitivno korelirani, što ukazuje na pozitivnu autokorelaciju.

DURBIN-WATSONOV TEST

Durbin-Watsonov d test najpoznatiji je test za otkrivanje autokorelacije. Njegova prednost je što je jednostavan za primjenu i uključen u sve ekonometrijske pakete. Test veličina je

n

1t

2

t

n

2t

2

1tt

e

)ee(

d

(119)

koja predstavlja omjer zbroja kvadrata prvih diferencije rezidualnih odstupanja i zbroja kvadrata rezidualnih odstupanja. Zbog diferenciranja u brojniku se gubi jedno opažanje, pa sumiranje kreće od drugog opažanja (t=2). DW test se može upotrijebiti ako su zadovoljene sljedeće pretpostavke:

1. Koristi se za otkrivanje autokorelacije 1. reda. 2. Regresijski model uključuje konstantu (odsječak na ordinati). Ne može se primijeniti

na regresiju kroz ishodiše. 3. Nezavisne varijable su nestohastične, znači imaju fiksne vrijednosti kod ponovljenih

uzoraka. 4. Regresijski model ne uključuje vrijednosti zavisne varijable s pomakom u vremenu

kao eksplanatorne varijable, tj. test nije primjenjiv na modele kao

t1t2t10t uYXY

poznate pod nazivom autoregresijski modeli.

Izraz (119) može se približno pisati kao

)ˆ1(2d (120)

gdje je

n

1t

2

t

n

2t

1tt

e

ee

(121)

koji je procjenjivač koeficijenta autokorelacije autoregresijske funkcije dane izrazom (117).

et

et-1

88

Kada ispitujemo je li autokorelacija prisutna u ocijenjenom modelu, tada zapravo testirano

hipotezu je li autokorelacijski parametar iz relacije (117) jednak ili različit od nule. Ako je

=0 u relaciji (19), tada je ut=t, pa odstupanja u regresijskoj jednadžbi neće biti

autokorelirana. Zato za nul hipotezu da nema autokorelacije, možemo upotrijebiti 0:=0. Za

alternativnu hipotezu možemo upotrijebiti A:>0 ili A:<0 ili A:≠0. U većini ekonomskih

empirijskih istraživanja koristi se A:>0 jer je pozitivna autokorelacija u praksi najčešća.

Kako je -10 vrijedi:

0ˆ , d2, nema autokorelacije

1ˆ , d0 postoji savršena pozitivna autokorelacija

1ˆ , d4 postoji savršena negativna autokorelacija

Izračunati d kreće se u intervalu [0,4]. Što je bliže vrijednosti 0, pokazatelj je pozitivne autokorelacije, a čim je bliže vrijednosti 4, pokazatelj je negativne autokorelacije. Kada se vrijednost od d kreće oko 2, znači da autokorelacije nema. No postoje i vrijednosti kada nismo sigurni za postojanje autokorelacije (tablica 16)

Tablica 16: Durbin-Watsonov pokazatelj (test veličine)

POZITIVNA AUTOKORELACIJA

(odbaciti H0) ?

NEMA AUTOKORELACIJE

PRVOG REDA (prihvatiti H0)

? NEGATIVNA

AUTOKORELACIJA (odbaciti H0)

0 dL dU 2 4- dU 4-dL 4

dU – gornja vrijednost u DW tablici H0: nema autokorelacije dL – donja vrijednost u DW tablici

U DW tablicama nalazimo dvije kritične vrijednosti: dL donju i dU gornju. Te vrijednosti ovise o broju opažanja n i o broju eksplanatornih varijabli k.

Durbin-Watsonov test provodi se u nekoliko koraka:

1. Ocijeniti model pomoću metode najmanjih kvadrata i izračunati reziduale et. 2. Izračunati Durbin-Watsonovu d vrijednost iz formule (21). Obično je to rutina

uključena u ekonometrijski programski paket, koja se iskazuje u rezultatima regresijske analize.

3. Naći kritične vrijednosti dL i dU u tablicama za danu veličinu uzorka i broj eksplanatornih varijabli.

4. Zaključak o prisutnosti autokorelacije donosi se prema pravilima u tablici (16) odnosno (17).

Tablica 17: Način donošenja odluke kod Durbin-Watsonovog testa

VRIJEDNOST DW ODLUKA

0<d<dL odbaciti H0: prisutna pozitivna autokorelacija

dLddU bez odluke

dU<d4 prihvatiti H0: nema autokorelacije

4d4- dU prihvatiti H0: nema autokorelacije

4- dUd4-dL bez odluke

4-dL<d<4 odbaciti H0: prisutna negativna autokorelacija

Iz primjera o plaćama i produktivnosti rada regresijski rezultati dali su d vrijednost od 0,2136 (izraz 21). Iz Durbin-Watsonove tablice vidimo da je za n=45 i jednu eksplanatornu varijablu, dL=1,475 a dU=1,566 na razini signifikantnosti od 5%. Kako je izračunati d=0,2136

89

ispod donje kritične vrijednosti od 1,475 zaključujemo da postoji pozitivna autokorelacija u rezidualima regresije o plaćama i produktivnosti rada.

BREUSCH-GODFREYJEV TEST

Ako u modelu postoji autokorelacije greške višega reda, po autoregresijskom procesu reda ρ: , gdje je slučajna

greška koja ispunjava sve pretpostavke klasičnog linearnog regresijskog modela o stohastičnosti (sredina nula i konstantna varijanca), u testu autokorelacije greške polazi se od hipoteze da nema autokorelacije.

Stoga je, nulta hipoteza o nepostojanju autokorelacije:

Koraci provođenja Breusch-Godfreyeva testa su:

Ocijeniti polazni model metodom najmanjih kvadrata tako da se dobiju reziduali .

Regresirati na sve regresore (nezavisne varijable) polaznog modela, ali i na (reziduale s pomakom u vremenu).

Poznat još i kao LM (LagrangeMultiplier) test, nije ograničen na testiranje postojanja autokorelacije prvog reda, a može se upotrijebiti i kada su u model uključene i varijable s pomakom u vremenu. Primjenjiv je i u slučaju autokorelacije prema procesu pomičnih

prosjeka. Problem testa je što se ne zna unaprijed red autokorelacije te je potrebno isprobati razine. LM test veličina pripada ( ) distribuciji. Ukoliko je empirijska vrijednost veća od kritičke vrijednosti ( ) za danu razinu signifikantnosti nulta se hipoteza odbacuje.

10.2.3. OTKLANJANJE AUTOKORELACIJE

Autokorelacija se otklanja generaliziranom metodom najmanjih kvadrata (GLS- Generalized Least Squares). Generalizirana metoda najmanjih kvadrata koristi tehniku kvazidiferenciranja kako bi se autokorelirana odstupanja ut zamijenila odstupanjima vt koja su neautokorelirana.

GENERALIZIRANA METODA NAJMANJIH KVADRATA

Uz pretpostavku da odstupanja slijede autoregresijski proces 1. reda, tj. da vrijedi izraz (117)

i kada je poznat , autokorelacija se može riješiti ako da se izračunaju generalizirane diferencije vrijednosti zavisne varijable po formuli

Yt-Yt-1, (122)

pri čemu je

tt10t uXY (123)

Generalizirana diferencijska jednadžba piše se kao

tt1*

10

*

t X)1(Y (124)

gdje je

vt =ut-ut-1

Yt*=Yt-Yt-1

90

Xt*=X1t-Xt-1

Ocijeni li se jednadžba (124) pomoću OLS, parametri i najbolje su nepristrane linearne ocjene, a DW vrijednost je blizu 2. GLS metoda pomaže u ispravljanju autokorelacije, no postoje slučajevi kada ju nije uputno upotrebljavati:

1. Kada se radi o nepravoj autokorelaciji, tj. kada je uzrok autokorelacije specifikacijska pogreška. Tada je rješenje ispravljanje specifikacijske pogreške.

2. Kada se radi o malim uzorcima teško je naći dobru ocjenu i, ako se koristi loša

ocjena , pomoću GLS može se dobiti lošije ocjene parametara modela nego što su

bile, a kako znamo, kod prisutnosti autokorelacije ocjene parametara dobivene metodom najmanjih kvadrata, neefikasne su, ali nisu pristrane.

METODE PROCJENJIVANJA

Procjenjivanje autoregresijskog parametra nije problem, budući da ekonometrijski programski paketi to rade automatski. Ukoliko se radi o malom uzorku podataka, moguće je da će izračunavanje pomoću poznatog d i relacije (120) dati bolju ocjenu nego generiranjem

pomoću računalne procedure. Postoji nekoliko pristupa procjenjivanju vrijednosti među kojima se mogu spomenuti:

Cochran-Orcutt procedura Hildret-Lu procedura

Cochran-Orcutt procedura:Radi se o iterativnoj proceduri kojom računalo izračunava niz vrijednosti sve dok razlike među njima nisu zadovoljavajuće male.

Hildret-Lu procedura: Zasniva se na definiranju mogućih vrijednosti za i ocjenjivanju

nekoliko regresija pomoću GLS kak bi se našlo transformaciju koja minimizira RSS.

10.3. HETEROSKEDASTIČNOST

Heteroskedastičnost je problem koji je uglavnom povezan s podacima vremenskog presjeka. Proučavamo li vezu između dohotka zaposlenih i potrošnje, interpretacija ocijenjenih parametara zavisit će o tome odnose li se podaci na godine ili zaposlenike, tj. pratimo li vezu kroz vrijeme ili u određenom vremenskom trenutku. Ako se podaci odnose na zaposlenike, ocijenjeni regresijski parametar uz varijablu dohodak zavisit će o distribuciji dohotka. Naime, potrošač s većim dohotkom troši više neko onaj s manjim dohotkom. Zbog toga ćemo imati različitu raspršenost (heteroskedastičnost) odstupanja oko regresijske funkcije, koja ostavlja teške posljedice na ocijenjeni model, koje trebamo znati otkriti i pokušati riješiti.

Kada četvrta pretpostavka klasičnog linearnog regresijskog modela nije poštivana, varijanca odstupanja je promjenjiva, tj. zavisi o opažanju i, tj.

2

ii )uvar( (125)

tada kažemo da su odstupanja heteroskedastična. Ukoliko je ova varijanca stalna, ona ne zavisi o opažanju i, tj.

2

i )uvar( (126)

tada kažemo da su odstupanja homoskedstična.

91

Heteroskedastičnost je povezana s nezavisnim varijablama. U primjeru potrošnje, veličina varijable dohodak (X) uzrok je različitoj potrošnji (Y). Veličina raspršenosti odstupanja zavisi o veličini varijable X, tj. o veličini dohotka jer ona omogućuje veličinu potrošnje. Heteroskedastičnost je prikazana u (X, Y) prostoru i u (X, u) prostoru. To je slučaj prave heteroskedastičnosti. U slučaju da je kod specifikacije modela ispuštena važna eksplanatorna varijable koja je uzrok heteroskedastičnosti, njezini utjecaji će se prikloniti odstupanjima pa ćemo imati nepravu heteroskedastičnost koja je nastala zbog specifikacijske pogreške.

10.3.1. POSLJEDICE HETEROSKEDASTIČNOSTI

Heteroskedastičnost ostavlja ozbiljne u slične posljedice na ocijenjeni model kao i autokorelacija, tako su ocjene parametara su nepristrane, ali:

Nisu više efikasne, tj. nemaju minimalnu varijancu (nisu više BLUE). Ocjena varijance parametara je pristrana, što proizlazi iz pristranosti varijance

odstupanja; no ne znamo je li podcijenjena ili precijenjena; zbog toga t i F test nisu valjani.

10.3.2. OTKRIVANJE HETEROSKEDASTIČNOSTI

Otkrivanje heteroskedastičnosti nije lak zadatak. To je zbog toga što nam je stvarna varijanca

i2 nepoznata jer ne raspolažemo podacima za cijelu populaciju. Ne postoji opći efikasan i siguran test za otkrivanje heteroskedastičnosti.

GRAFIČKA METODA

Ova je metoda jednostavan početni način za utvrđivanje heteroskedastičnosti. Mogu se prikazati reziduali prema pojedinoj nezavisnoj varijabli ili u slučaju kada više nezavisnih varijabli zajedno uzrokuje heteroskedastičnost, koristi se prikaz reziduala prema ocijenjenoj vrijednosti zavisne varijable. Reziduale je korisno prikazati u (X, Y) prostoru i u (X, u) prostoru. Takvi prikazi daju istu informaciju, ali iz različite perspektive i korisni su i onda kada nismo sigurni koja je od nezavisnih varijabli u višestrukoj regresiji uzrokovala heteroskedastičnost. Katkad je korisno umjesto reziduala ei, prikazati njegove kvadrirane vrijednosti ei2. Iako to nisu stvarne vrijednosti ui2, ei2 su njihova dobra zamjena, pogotovo ako se radi o velikom uzorku. Kraći način u višestrukoj regresiji ispitivanje je grafičkog odnosa

između ei2 i zato što je linearna kombinacija nezavisnih varijabli, Xk. Grafička metoda ne omogućuje precizno ispitivanje heteroskedastičnosti već je potrebno koristiti rigoroznije metode. U nastavku se obrazlažu neke od najčešće korištenih metoda, no općenito ne postoji najbolja metoda jer uspješnost otkrivanja zavisi o izvoru heteroskedastičnosti. Testovi koji se uobičajeno koriste za otkrivanje heteroskedastičnosti su:

White test Park test Goldfeld-Quandt test Glejser test Breusch-Pagan test CUSUMSQ test Peak test

92

GOLDFELD-QUANDT TEST

Ovaj se test vrlo često koristi za otkrivanje heteroskedastičnosti. Jednostavan je i ne zahtijeva poznavanje oblika funkcijske veze između reziduala i nezavisne varijable koja je uzrok heteroskedastičnosti. Osnovna ideja jest da je varijanca pridružena velikim vrijednostima varijable X, značajno različita od varijance pridružene malim vrijednostima varijable X (za koju se pretpostavlja da je razlog heteroskedastičnosti). Ta pretpostavka se testira F testom, gdje je nul hipoteza da je varijanca konstantna (postojanje homoskedastičnosti). Koraci kod Goldfeld-Quandt testa su:

1. Složiti empirijske podatke varijable X (za koju se pretpostavlja da je razlog heteroskedastičnosti) prema veličini.

2. Izbaciti srednji dio d opažanja, obično petinu opažanja. 3. Ocijeniti dvije zasebne regresije, posebno za niske vrijednosti Xi i posebno za visoke

vrijednosti varijable X. Svaka regresija imat će (n-d)/2 podataka i [(n-d)/2]-2 stupnjeva slobode. Izračunati RSS1 i RSS2 iz dviju regresija.

4. Izračunati omjer RSS2/RSS1 tako da budu u brojniku RSS za niz većih vrijednosti Xi. Taj omjer je F vrijednosti sa (n-d-4)/2 stupnjeva slobode za brojnik i nazivnik. Ako je veći od kritične tablične F vrijednosti, nul hipoteza da postoji homoskedastičnost se odbacuje.

WHITE TEST

Pretpostavimo model sa konstantnim članom i dva regresora. Koraci provođenja White testa su:

Izračun reziduala polaznog modela metodom najmanjih kvadrata

Procjena pomoćne regresijske jednadžbe u kojoj su kvadrirani reziduali iz polaznog

modela vrijednosti zavisne varijable, a regresorske varijable su: regresorske varijable

polaznog modela, njihovi kvadrati te njihovi međusobni umnošci:

.

Nultom se hipotezom pretpostavlja homoskedastičnost, tj. nepromjenjivost varijance: . Test veličina Whiteovog testa je

(127)

pri čemu je n veličina uzorka, a je koeficijent determinacije pomoćne regresijske jednadžbe. W test veličina pripada distribuciji s r stupnjeva slobode, gdje je r broj regresorskih varijabli u pomoćnoj regresijskoj jednadžbi, odnosno broj parametara ne računajući konstantni član. Ako je izračunata W veličina uz zadanu razinu signifikantnosti α viša od tablične vrijednosti odbacuje se nulta hipoteza o homoskedastičnosti.

10.3.3. OTKLANJANJE HETEROSKEDASTIČNOSTI

Kod otkrivanja heteroskedastičnosti dobro je u praksi primijeniti više metoda s obzirom da niti jedna od njih nije sasvim pouzdana. Znamo da su ocjene parametara kod prisutnosti heteroskedastičnosti neefikasne i zato da je heteroskedastičnost utvrđena potrebno je model transformirati kako bismo dobili odstupanja koja se ponašaju homoskedastično. Način

transformacije modela zavisi o tome je li stvarna varijanca pogreške i2 poznata ili nije.

Uklanjanje heteroskedastičnosti kada je varijanca poznata. Vagana metoda najmanjih kvadrata

93

Kada je varijanca odstupanja i2 poznata, heteroskedastičnost je lako riješiti. Objasnit ćemo to na modelu jednostavne regresije:

i110i uXY (128)

kojeg transformiramo tako da cijelu jednadžbu podijelimo sa i kojeg dobivamo iz poznate

varijance i2:

i

i

i

11

i

0

i

i uX1Y

(129)

Odstupanja su sada transformirana i označavaju se sa vt:

i

it

uv

(130)

Kada se upotrijebi metoda najmanjih kvadrata za ocjenu modela (129), kaže se da se koristi vagana metoda najmanjih kvadrata (WLS-Weighted Least Squares).

Uklanjanje heteroskedastičnosti kada varijanca nije poznata

Na žalost, u praksi je stvarna vrijednost varijance pogreške i2 rijetko poznata. Zbog toga smo prisiljeni pretpostavljati oblik heteroskedastičnosti i transformirati model kako bi imao odstupanja sa svojstvom homoskedastičnosti. Te transformacije su u literaturi poznate pod nazivom transformacije stabiliziranja varijance. Neke od tih transformacija su: varijanca pogreške je proporcionalna varijabli X te varijanca pogreške je proporcionalna X2.

Varijanca pogreške je proporcionalna varijabli X2

Ako je graf raspršenosti reziduala ocijenjenog model sličan slici (12), onda to može biti pokazatelj da je varijanca pogreške proporcionalna varijabli X2. Tada transformiramo originalni mode tako da obje strane jednadžbe podijelimo s X.

PRIMJER 19

Ocijenit ćemo jednostavni regresijski model izdataka za obrazovanje O (u % GDP) kao funkcije visine GDp (u mlrd $) G za grupu od 31 zemlje za 1980. godinu (tablica 18).

Tablica 18: Izdaci za obrazovanje (% GDP), GDP (mlrd $) i broj stanovnika (mil) za grupu zemalja 1980. godine.

zemlja izdaci za obrazovanje GDP broj stanovnika

Urugvaj 0,22 10,13 2,90 Singapur 0,32 11,34 2,39 Irska 1,23 18,88 3,44 Izrael 1,81 20,94 3,87 Mađarska 1,02 22,16 10,71 Novi Zeland 1,27 23,83 3,10 Portugal 1,07 24,67 9,93 Hong Kong 0,67 27,56 5,07 Čile 1,25 27,57 11,10 Grčka 0,75 40,15 9,60 Finska 2,80 51,62 4,78 Norveška 4,90 57,71 4,09 Danska 4,45 66,32 5,12 Turska 1,60 66,97 44,92 Austrija 4,26 76,88 7,51 Švicarska 5,31 101,65 6,37 Saud. Arabija 6,40 115,97 8,37

94

Belgija 7,17 119,49 9,86 Švedska 11,22 124,15 8,31 Australija 8,66 140,98 14,62 Argentina 5,56 153,85 27,06 Nizozemska 13,41 169,38 14,14 Meksiko 5,46 186,33 67,40 Španjolska 4,79 211,78 37,43 Brazil 8,92 249,72 123,03 Kanada 18,90 261,4 23,94 Italija 15,95 395,52 57,04 Vel. Britanija 29,90 534,97 55,95 Francuska 33,59 655,29 53,71 Njemačka 38,62 815,00 61,56 Japan 61,61 1040,45 116,78

U grupi zemalja su i male i velike zemlje, koje imaju različite mogućnosti izdvajanja za obrazovanje i ta izdvajanja se kreću od 1,9% do 9% GDP. Ocijenjeni model glasi

617,23F 9551,0R

(24,844) (-0,471) t

G05373,03159,0O

2

ii

(131)

Model izgleda dobro prilagođen podacima. R2 i F vrijednosti su visoke, predznak parametra uz nezavisnu varijablu slaže s a priori očekivanjima. Ipak, budući da se radi o podacima vremenskog presjeka, realno je očekivati prisutnost heteroskedastičnosti. Jasno je da će veće zemlje imati veću varijaciju u izdvajanju za obrazovanje nego one manje. U prvom koraku pogledat ćemo grafove reziduala. Na slici 25 prikazan je dijagram raspršenosti podataka izdvajanja za obrazovanja.

Slika 25: Reziduali ocijenjene funkcije izdataka za obrazovanje

Vidimo da raspršenost raste kako raste GDP.

Slika 26:Reziduali i ocijenjene vrijednosti funkcije izdataka za obrazovanje

-6,3

-4,3

-2,3

-0,3

1,7

3,7

5,7

0 200 400 600 800 1000 1200

GDP

Re

zid

ua

li

-10

0

10

20

30

40

50

60

70

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

izd

aci

za o

bra

zo

van

je

reziduali ocijenjene vrijednosti stvardi podaci izdvajanja za obrazovanje

95

To je još očitije na gornjoj slici gdje je na dnu prikazana krivulja reziduala, a gornje dvije krivulje predstavljaju ocijenjene vrijednosti i stvarne podatke izdvajanja za obrazovanje. Zemlje su poredane po veličini GDP. Očito je da rezidualna varijanca raste od 18. podatka. Iako slike ukazuju na postojanje heteroskedastičnosti, pouzdaniji su pokazatelji testovi.

Pokazat ćemo primjenu Goldfeld-Quandt testa. U tablici 6 zemlje su već poredane po veličini GDP. Izbacit ćemo 7 zemalja u sredini niza i ocijeniti dvije regresije, za prvu grupu s manjim GDP i za drugu grupu s većim GDP. Rezultati za obje regresije dani su u tablici 19.

Tablica 19: Rezultati dviju regresija

SUMMARY OUTPUT

ZEMLJE S NIŽIM DOHOTKOM: 1-12 Regression Statistics

Multiple R 0,822157

R Square 0,675942

Adjusted R Square

0,643536

Standard Error

0,767811

Observations 12

ANOVA

df SS MS F Significance F

Regression 1 12,29689 12,29689 20,85866 0,001031

Residual 10 5,895339 0,589534

Total 11 18,19223

Coefficients Standard Error

t Stat P-value Lower 95% Upper 95%

Lower 95,0%

Upper 95,0%

Intercept -0,57305 0,493851 -1,16037 0,272849 -1,67342 0,527317 -1,67342 0,527317

X Variable 1 0,071864 0,015735 4,567128 0,001031 0,036804 0,106924 0,036804 0,106924

SUMMARY OUTPUT

ZEMLJE S NIŽIM DOHOTKOM: 20-31


Multiple R 0,968981

R Square 0,938925 Adjusted R Square 0,932817 Standard Error 4,504387

Observations 12

ANOVA

df SS MS F Significance F

Regression 1 3119,168 3119,168 153,7331 2,15E-07

Residual 10 202,895 20,2895

Total 11 3322,063



Lower 95,0%

Upper 95,0%

Intercept -2,30991 2,249359 -1,02692 0,328658 -7,32179 2,701977 -7,32179 2,701977

X Variable 1 0,05672 0,004575 12,39892 2,15E-07 0,046527 0,066913 0,046527 0,066913

96

Omjer RSS za drugu skupinu zemalja i RSS za prvu skupinu zemalja iznosi 34,41, a kritična F-vrijednost uz 5% signifikantnosti za (n-7-4)/2=10 stupnjeva slobode iznosi 2,97. Kako je kritična vrijednost manja od izračunate, odbacuje se nul hipoteza da postoji homoskedastičnost.

Sada, kada je jasno da heteroskedastičnost postoji, treba vidjeti bismo li mogli problem riješiti. Radi se o izdvajanju koje ovisi o visini GDP, a znamo da zemlje s brojnijom populacijom uglavnom imaju i veći GDP, a i veća ulaganja u obrazovanje. Zbog toga očekujemo da je varijanca proporcionalna varijabli broj stanovnika (P). Primijenit ćemo vaganu metodu najmanjih kvadrata tako da ćemo cijelu funkciju podijeliti s varijablom P, tj.

i

i

i

i1

i

0i

P

u

P

G

P

1

p

O (132)

odnosno ako uvedemo nove oznake O/P=OP, i/P=RP, G/P=GP i u/P=v, imat ćemo nove varijable: OP: izdvajanje za obrazovanje po stanovniku, GP bruto društveni proizvod po stanovniku, tj. GDPPC, a RP je recipročna vrijednost varijable broj stanovnika,

ii1i0i vGPRPOP (133)

Sada imamo regresiju kroz ishodište. Rezultati su u tablici 8.

Tablica 20: Rezultati vagane metode najmanjih kvadrata

SUMMARY OUTPUT


Multiple R 0,905689

R Square 0,820273 Adjusted R Square 0,779593

Standard Error 0,15437

Observations 31

ANOVA

df SS MS F Significance

F

Regression 2 3,15405 1,577025 66,17795 2,45E-11

Residual 29 0,691072 0,02383

Total 31 3,845122



Lower 95,0%

Upper 95,0%

GP 0,062988 0,003988 15,7927 8,83E-16 0,05483 0,071145 0,05483 0,071145

RP -0,1457 0,21865 -0,66638 0,510433 -0,59289 0,301485 -0,59289 0,301485

Ako usporedimo slike reziduala, vidimo da su onu ravnomjernije raspršeni oko nule.

Slika 27: Reziduali ocijenjene funkcije izdataka za obrazovanje

-0,3

-0,1

0,1

0,3

0,5

0 5 10 15 20

GDPpc

Re

zid

ua

li

97

Ocijenjeni parametri originalnog modela i transformiranog modela vrlo su slični po veličini, nešto su veći kod transformiranog modela, dok su t vrijednosti manje.

Zaključujemo da jeheteroskedastičnost u originalnom modelu podcijenila standardne pogreške. R2 je visok, ali nije usporediv jer su u transformiranom modelu radi o drugoj zavisnoj varijabli.

Primijenjen je ponovo Goldfeld-Quandt test na transformirani mode. Prije toga je bilo potrebno ponovno sortirati podatke jer se radi o novoj varijabli, a to je GDPPC. Opet su ocijenjene dvije regresije i kroz ishodište, za prvih 12 i posljednjih 12 zemalja rangiranih prema GDPPC. Dobili smo da je RSSS omjer 0,0,3875. To je nešto veći iznos od tablične kritične vrijednosti FC=2,987 za 10 d.f. i 5% signifikantnosti, no, ako uzmemo signifikantnost od 1%, FC= 4,85, prihvaćamo nul hipotezu da je prisutna homoskedastičnost.

10.4. NORMALNOST GREŠAKA RELACIJE

Normalna distribuiranost grešaka relacije nije nužna u postupku procjene parametara, no pretpostavka o normalnosti neophodna je pri testiranju hipoteza i izračunavanju intervalnih procjena parametara. F-tes, t-test i -test polaze od pretpostavke normalne razdiobe grešaka relacije. Intervalne procjene parametara zavise o normalnoj distribuiranosti parametara preko t-distribucije. Ako nije ispunjena pretpostavka o normalnosti, procjene parametara

metodom najmanjih kvadrata i dalje su najbolje nepristrane procjene, no t-test, F-test i -test više nisu pouzdani, a nenormalnost može naročito utjecati na intervalne procjene, posebno ako je distribucija grešaka relacije asimetrična. OTKRIVANJE NENORMALNOSTI GREŠAKA RELACIJE Nenormalnost grešaka relacije može se ispitati, između ostaloga i provođenjem Jarque-Bera testa. JARQUE-BERA TEST

Pretpostavka o normalnosti grešaka relacije može se ispitati i pomoću Jarque-Beraovog testa. Ovim se testom, koji koristi koeficijent asimetrije i koeficijent zaobljenosti reziduala procijenjenih metodom najmanjih kvadrata, ispituje odstupaju li procijenjene veličine značajno od vrijednosti tih mjera za normalnu distribuciju. Pri tome je poznato da je za normalnu distribuciju koeficijent asimetrije , a koeficijent zaobljenosti . Test veličina je:

[

( )

]

(134)

JB test veličina, pod pretpostavkom normalnosti, pripada distribuciji s 2 stupnja slobode. Nulta hipoteza: „greške relacije su normalno distribuirane “ odbacuje se kao lažna ako je

( ) ili alternativno ako je empirijska razina signifikantnosti p manja od teorijske

razine signifikantnosti.

98

ZADACI ZA VJEŽBU

1. Ocijenjeni su modeli kumulativnih troškova održavanja strojeva (O) u tvornici za vrijeme od 27 tjedana. a kao nezavisne varijable uzete su starost strojeva (G) i sati rada strojeva (S). Ocijenjeni su modeli:

Model A:

897,0R

(22,2) t

G48,815,630O

2

tt

Model B:

Model C:

a) Kakve predznake parametara očekujete? b) Koji biste model prihvatili i zašto? c) Koeficijent jednostavne linearne korelacije između varijabli G i S iznosi 0.996 vodeći

računa o ostalim pokazateljima u modelu C. obrazložite postojanje multikolinearnosti.

2. U tablici su dati podaci o količini prodanih proizvoda (X) i ukupnog prihoda poduzeća (Y): Y 175 370 520 640 795 859 854 840 782 640 525 160

X 5 10 15 20 25 30 35 40 45 50 55 60

a) Ocijenite linearnu regresijsku funkciju. b) Testirajte ocijenjenu funkciju na prisutnost autokorelacije prvog reda uz signifikantnost

5%. c) Prikažite graf raspršenosti reziduala. d) Na osnovi grafičkog prikaza zaključite što je uzrok autokorelacije. e) Kako se takva autokorelacije zove.? f) Može li se primijeniti GLS za otklanjanje ove vrste autokorelacije?

3. Na osnovi podataka popisa stanovništva ocijenjen je model ii10i uYO za 59 popisnih

područja, gdje je O omjer broja domaćinstava s vlastitim stambenim prostorom i broja domaćinstava s iznajmljenim stambenim prostorom, a Y dohodak domaćinstava. Ocijenjeni model glasi:

59n 597,0R

(3,50) (-3,64) t

Y000297,022,2O

2

ii

a) Obrazložite očekujete li prisutnost heteroskedastičnosti u modelu. b) Kako biste primijenili WLS metodu na ovaj model.

843,0R

(16,25) t

S25,5005,875O

2

tt

942,0R

(-0,49) (1,75) t

S15,149G63,2556,7O

2

ttt

99

RJEŠENJA ZADATAKA

1. a) Parametri uz obje nezavisne varijable bi trebali imati pozitivan predznak. jer porast godina starosti. a isto tako i sati rada strojeva utječu na trošenje pa tako i na izdatke za održavanje strojeva.

b) Prihvatljiv su modeli A i B. dok model C nije. Nezavisna varijabla u modelu A ima očekivani predznak i značajna je za objašnjenje kumulativnih troškova održavanja. 90% varijacija tih troškova objašnjeno je modelom. Isto tako je i s modelom B samo što ima nešto manji koeficijent determinacije. U modelu C varijabla S ima neočekivani predznak. a nije značajna za model. kao ni varijabla G.

c) Jednostavni koeficijent korelacije pokazuje da se radi o visoko koreliranim varijablama. koje zapravo mjere istu pojavu. tj. istrošenost strojeva. Visoka vrijednost R2 i niske t-vrijednosti nezavisnih varijabli. sve su to pokazatelji jake multikolinearnosti. Posljedica je promijenjen predznak uz varijablu S i neefikasne ocjene parametara.

2.

a)

0,215F 0,3994DW 0211,0R 12n

(0,464) t

X03497,2530,530Y

2

ii

b) H0:=0. HA:≠0. dL=0.971. dU=1.331. d<dL. prihvaćamo HA. tj. prihvaćamo pretpostavku da su pogreške autokorelirane.

c) Dijagram raspršenosti reziduala

d) Ocijenjena je linearna funkcija umjesto polinoma. e) Neprava autokorelacija. f) Ne. Potrebno je ispraviti grešku specifikacije koja je uzrok autokorelacije.

3. a) Radi se o podacima vremenskog presjeka i očekujemo različitu raspršenost podataka po popisnim područjima.

b) Viša razina dohotka utječe na veću raspršenost zavisne varijable. Vaganu metodu najmanjih kvadrata primijenit ćemo tako da cijeli model podijelimo varijablom dohodak, koja je uzrok heteroskedastičnosti.

X

Re

sid

ua

ls

100

11. SPECIFIKACIJA MODELA I PREDVIĐANJE EKONOMETRIJSKIM MODELOM

Pod specifikacijom ekonometrijskog modela podrazumijeva se odabir prave funkcijske veze te odabir važnih objasnidbenih varijabli u modelu. Ukoliko se ta dva koraka ne obave kako treba dolazi do specifikacijske pogreške, koja ostavlja najteže posljedice na ocijenjeni model.

11.1. SPECIFIKACIJA EKONOMETRIJSKOG MODELA

Koristeći nepravilno specificiran ekonometrijski model dolazi se do pogrešnih zaključaka u njegovoj interpretaciji i ekonomskoj primjeni. Stoga, specifikacija predstavlja najteži i najvažniji korak u ekonometrijskom istraživanju.

FUNKCIJSKI OBLIK REGRESIJSKOG MODELA

Pri odabiru funkcijskog oblika potrebno je rukovoditi se ekonomskom teorijom. Veza između zavisne i nezavisnih varijabli razmatranog problema trebala bi se usporediti s različitim funkcijskim oblicima i izabrati onaj koji je po svojstvima najbliži ekonomskim teorijskim postavkama o kojima je riječ. Tablica 1 daje pregled najčešće upotrebljavanih funkcijskih oblika.

Tablica 21: Pregled najčešće upotrebljavanih funkcijskih oblika

VRSTA MODEL

LINEARNI ii10i uXY

RECIPROČNI i

i

10i uX

1Y

EKSPONENCIJALNI ii10i uXlnYln

POLU-LOG ii10i

ii10i

uXlnY

uXYln

Pogrešna funkcijska veza može imati za posljedicu da se, inače važna objasnidbena varijabla, može pokazati nesignifikantnom ili imati neočekivani predznak. Kako je već ranije spomenuto, ekonometričarima je važno da je model linearan u parametrima, ali ne mora biti linearan u varijablama.

LINEARNI MODEL

Linearni model se uzima kao osnova za proučavanje regresije

ii22i110i uXXY (135)

Nagib u modelu je konstantan, jer je

1,2k dY

dYk

k

(136)

Elastičnost nije konstantna

101

Y

X

dX

dY

Y

XE k

k

k

kX,Y k

(137)

Koeficijent elastičnosti predstavlja % promjene zavisne varijable Y kao posljedica promjene nezavisne varijable X za 1%, držeći ostale nezavisne varijable u modelu na konstantnoj razini.

Treba napomenuti problem regresije kroz ishodiše, tj. regresijski model iz izraza (135) bez

parametra 0. Takav model ne zadovoljava 2. klasičnu pretpostavku da je suma odstupanja jednaka nuli. Zbog navedenih problema, a i zbog mogućnosti specifikacijske pogreške ako se koristi regresija kroz ishodište a da to ne odgovara stvarnom modelu, potrebno je takav model izbjegavati. Ukoliko je ipak teorijski i praktično regresija kroz ishodište adekvatna, tada model treba biti ocijenjen s većom preciznošću.

EKSPONENCIJALNI MODEL

Eksponencijalna funkcija je vrlo često upotrebljavana u ekonomskim istraživanjima. To je funkcija koja se može linearizirati logaritamskom transformacijom:

i21 u

i2i10i eXXY (138)

ii22i110i uXlnXlnlnYln (139)

Supstitucijom ln0=0, dobije se

ii22i110i uXlnXlnYln (140)

Ovako log-linearizirani model može se ocijeniti metodom najmanjih kvadrata, pod uvjetom da u podacima nema negativnih opažanja.

Karakteristika eksponencijalnog modela konstantna je elastičnost:

(141)

Ekonomistima je najpoznatiji eksponencijalni model Cobb-Douglasova funkcija proizvodnje:

ttt0t uKLQ 21 (142)

gdje je:

Q – količina proizvodnje L – uloženi rad K – uloženi kapital

012 – parametri regresije u – slučajna varijabla

Zbog svojstva konstantne elastičnosti eksponencijalni model često se koristi za specificiranje funkcije ponude te potražne odnosno potrošnje.

POLU-LOG MODELI

Modeli (143) i (144) zovu se polu-log modeli jer je samo zavisna ili nezavisna varijabla u logaritamskom obliku.

1,2k dX

dY

Y

XE k

k

kX,Y k

102

ii10i uXYln (143)

ii10i uXlnY (144)

U modelu (143) parametar 1 mjeri udio relativne vrijednosti promjene Y u datoj apsolutnoj vrijednosti promjene od X:

dX

Y

dY

dX

dYY

1

dX

)Y(lnd1

(145)

Ako varijabla X predstavlja vrijeme, tada parametar 1 predstavlja stopu rasta varijable Y.

PRIMJER 20

Tablica 22: Kretanja realne neto plaće (D) u kunama (stalne cijene 1996. godine) za razdoblje od 1996.-2003. godine

GODINE D Dnl Dnle

1 2032 7,616776 2164,89

2 2282 7,732808 2274,99

3 2419 7,79111 2390,68

4 2663 7,887209 2515,26

5 2754 7,92081 2640,03

6 2798 7,93666 2774,29

7 2884 7,966933 2915,38

8 2915 7,977625 3063,64

Ocijenjen je model (143) kretanja realne neto plaće (D) u kunama (stalne cijene 1996. godine) za razdoblje od 1996.-2003. godine:

8959,0R

(7,18671)t

t4905,063052,7Dln

2

(146)

Iz modela se čita da je u razdoblju 1996. – 2003. godine prosječna realna neto plaća u RH rasla po prosječnoj stopi od 4,9%.

Slika 28: Kretanje realne prosječne neto plaće u RH u razdoblju 1996.-2003.

103

Ocjenjivanjem linearnog trenda za iste podatke, dobije se:

9192,0R

(8,2644)t

04,1242,2035

2

tDt

(147)

Iz ocijenjenog linearnog modela očitava se da je u razdoblju 1996.-2003. godine realna plaća po zaposlenome u RH rasla u apsolutnom iznosu prosječno 124 kune godišnje (Slika 29).

Slika 29: Kretanje realne prosječne neto plaće u RH u razdoblju 1996.-2003.

Izbor modela zavisi o tome želimo li dobiti apsolutnu ili relativnu promjenu prosječne plaće. S obzirom da su za oba modela zavisne varijable izražene u različitim jedinicama, ne može se jednostavno uspoređivati izračunate koeficijente determinacije. U tom slučaju koristimo kvazi R2 pokazatelj kako bismo mogli usporediti ocijenjene vrijednosti nelinearne zavisne varijable s originalnim vrijednostima zavisne varijable:

2i

2Ynl

i2

YY

eY1kvaziR

i

(148)

To znači da iz (12) izračunamo ocijenjene vrijednosti tDnl , zatim izračunamo antilogaritam tih

vrijednosti i onda koeficijent determinacije prema izrazu (148). Vrijednosti izračunatih ocijenjenih

vrijednosti tDnl i njihovih antilogaritama dani su u tablici 22. Izračunati kvazi R2 za model (148)

iznosi 0,88923 i ova vrijednost se sada može usporediti sa R2 linearnog modela. Linearni model

pokazuje nešto bolju prilagođenost. U modelu (144), parametar 1 mjeri odnos apsolutne vrijednosti promjene Y i date relativne vrijednosti promjene od X:

X

dX

dY

dXX

1

dY

)X(lnd

dY1

(149)

y = 7,6305+0,0496x

7,55

7,6

7,65

7,7

7,75

7,8

7,85

7,9

7,95

8

8,05

0 2 4 6 8 10

godine

lnD

y = 2035,2+124,04t+e

0

500

1000

1500

2000

2500

3000

3500

0 2 4 6 8 10

vrijeme

D

104

RECIPROČNI MODELI

Recipročni (inverzni) model prikazuje Y kao funkciju inverzne vrijednosti jedne ili više nezavisnih varijabli:

ii22

i

10i uXX

1Y (150)

Recipročni model se koristi kada utjecaj neke zavisne varijable na zavisnu varijablu teži nuli kada ta nezavisna varijabla teži u beskonačnost.

PRIMJER 21

Ocjenjuje se Phillipsova krivulja za SAD za razdoblje 1958.-.1969. Podaci su dani u tablici 23.

Tablica 23: Kretanje stope rasta plaće radnika (Y) i stope nezaposlenosti (X)u SAD-u u razdoblju 1958.-1969.

GODINA Y X

1958 4,2 6,8

1959 3,5 5,5

1960 3,4 5,5

1961 3,0 6,7

1962 3,4 5,5

1963 2,8 5,7

1964 2,8 5,2

1965 3,6 4,5

1966 4,3 3,8

1967 5,0 3,8

1968 6,1 3,6

1969 6,7 3,5

Ocijenjeni model glasi:

19,36F 6253,0R 6594,0R

(4,3996) (-0,2572) t

X

15879,202594,0Y

22

t

t

(151)

Model je dobro prilagođen podacima, iako parametar 0 od -0,2594 nije statistički signifikantno različit od nule.

Slika 30: Kretanje stope rasta plaće radnika (Y) i stope nezaposlenosti (X)u SAD-u u razdoblju 1958.-1969.

0

1

2

3

4

5

6

7

8

0 0,05 0,1 0,15 0,2 0,25 0,3

stopa nezaposlenosti

sto

pa r

asta

pla

ća r

ad

nik

a

105

SPECIFIKACIJSKE POGREŠKE

Jedna od pretpostavki klasičnog modela je da je model korektno specificiran. Zbog toga se mora znati što su karakteristike takvog modela, koje se specifikacijske pogreške javljaju i kako ih se otkriva.

KARAKTERISTIKE KOREKTNO SPECIFICIRANOG MODELA

U empirijskoj analizi model mora biti odabran slijedom nekoliko kriterija odnosno smjernica:

SAŽETOST. Model je pojednostavljena slika stvarnosti. Model nikada ne može u potpunosti prikazati stvarnost. Određena razina apstrakcije ili pojednostavljenja neizbježna je u svakom modelu. Model mora biti što je moguće jednostavniji. Presloženi modeli nemaju praktičnu vrijednost. Načelo sažetosti kaže da model treba biti toliko jednostavan koliko može biti, tj. u model treba uključiti nekoliko ključnih varijabli kojima će se obuhvatiti bit proučavane pojave i prepustiti sve manje i slučajne utjecaje odstupanjima.

IDENTIFICIRANOST. Postoji samo jedna ocjena za određeni parametar, tj. za dati skup podataka parametri trebaju imati jedinstvenu vrijednost.

PRILAGOĐENOST. Kvaliteta modela utvrđuje se i njegovom prilagođenošću empirijskim podacima, tj. što su bolje varijacije zavisne varijable objašnjene varijacijama nezavisnih varijabli u modelu, to je model reprezentativniji. Prilagođenost se mjeri pomoću koeficijenta determinacije i korigiranog koeficijenta determinacije, ali i ostali kriteriji reprezentativnosti moraju biti zadovoljeni.

TEORIJSKA DOSLJEDNOST. Bez obzira na zadovoljavajuće mjere prilagođenosti, model se može smatrati ne dobrim ukoliko jedan ili više koeficijenata ima krivi predznak. Stoga, je potrebno prije konstrukcije modela, posjedovati određena teorijska znanja. Model stoga, treba zadovoljiti ekonomske kriterije, tj. predznaci i veličina ocijenjenih parametara trebaju biti u skladu s ekonomskom teorijom.

PREDIKTORNA SPOSOBNOST. Kako je Milton Friedman , dobitnik Nobelove nagrade, izjavio: «Jedini relevantni test valjanosti određene hipoteze [modela] je uspoređivanje njene moći predviđanja s iskustvom». Visoki koeficijent determinacije znači visoku prediktornu moć modela, ali unutar uzorka podataka za koji je ocijenjen. Ovdje je važna objasnidbena moć modela koja se utvrđuje post predviđanjem, tj. koristeći empirijske podatke za nezavisne varijable izvan uzorka na osnovi kojih je model ocijenjen.

POGREŠKE KOD ODABIRA VARIJABLI

Osnova za odabir nezavisnih varijabli u model ekonomska je teorija. Međutim, to su samo opće upute, tj. riječ je o samo primarnom skupu varijabli koje treba uključiti, no postoje i druge varijable koje mogu imati ili ne moraju imati utjecaj na zavisnu varijablu koja se modelom želi objasniti. Zbog toga se može dogoditi pogreška da je iz modela ispuštena važna varijabla ili da je uključena nevažna varijabla. Takve pogreške ostavljaju specifične posljedice na ocijenjeni model i zato ih je potrebno znati otkriti i izbjeći. Razmotrit ćemo kakve posljedice ostavlja pogreška kod odabira nezavisne varijable u model. Pretpostavimo da želimo regresijom objasniti ponašanje varijable Y pomoću sljedeća dva modela:

ii33i22i110i uXXXY (152)

106

i

ii110i vXY (153)

U modelu (153) ispustili smo varijablu X2 i X3, što znači da smo pretpostavili da one nemaju sistemske utjecaje na varijablu Y i zato su kao manje važne varijable prepuštene odstupanjima v:

ii33i22i uXXv (154)

Ukoliko se primjeni metoda najmanjih kvadrata na model (152) i model (153), svojstva ocijenjenih parametara ovisit će o tome koji je model dobro a koji nije dobro specificiran. Najprije će se razmotriti posljedice ispuštene važne eksplanatorne varijable, a zatim posljedice uključene nevažne varijable.

Posljedice ispuštene varijable

Pretpostavimo da je model (152) točan, a ocijenili smo model (153). To znači da smo

pogrešno pretpostavili da je 2=0. Kakve to posljedice ostavlja na odstupanja i ocjene parametara? Znamo da za točan model (152) vrijede klasične pretpostavke, no kod modela (153) utjecaji ispuštene varijable priklonit će se odstupanjima, tj. vrijedi relacija

uXv 22 (155)

Zbog toga neće biti zadovoljena druga pretpostavka klasičnog model, to znači da očekivana vrijednost odstupanja više neće biti jednaka nuli.

Drugim riječima, ako je ispuštena važna varijabla iz modela i postoji korelacija između varijabli uključenih u modeli spuštenih iz modela, ocjena parametra biti će pristrana. Ona će biti i nekonzistentna i pristranost ne nestaje bez obzira koliko je velik uzorak. Varijanca parametra biti će manja nego kod točno specificiranog modela (152), no valja imati na umu da je varijanca pristrana.

Posljedice suvišne varijable

Pretpostavimo da je model (153) točan, tj. 2=0, a ocijenili smo model (152). Posljedice na ocijenjeni model nisu tako teške kao u prethodnom slučaju. Uključivanje nevažne varijable ne mijenja potrebna svojstva odstupanja, tj. ona i dalje zadovoljavaju klasične pretpostavke. Ako je u model uključena nevažna varijable, ocjene parametara su nepristrane i konzistentne, ali i neefikasne jer su varijance parametara veće nego što bi bile da je model korektno specificiran. Zbog toga su t-vrijednosti i korigirani koeficijent determinacije manji nego što bi trebali biti, ali ne i koeficijent determinacije. U tablici 24 sažete su posljedice specifikacijske pogreške kod odabira varijabli.

Tablica 24: Posljedice specifikacijske pogreške kod odabira varijabli

POSLJEDICE NA OCIJENJENE PARAMETRE MODELA

ISPUŠTENA VARIJABLA UKLJUČENA NEVAŽNA

VARIJABLA

PRISTRANOST DA* NE VARIJANCA SMANJENA* POVEĆANA*

*uz uvjet da je korelacija među varijablama ≠ 0

107

TESTOVI SPECIFIKACIJSKIH POGREŠAKA

Specifikacijske pogreške ostavljaju značajne posljedice na ocijenjeni model. Važan je problem njihovo utvrđivanje. Za utvrđivanje specifikacijskih pogrešaka postoje različiti testovi.

OTKRIVANJE NEVAŽNE VARIJABLE

Ukoliko nismo sigurni da je neka varijabla trebala biti uključena u mode, možemo to utvrditi ispitujući signifikantnost parametra uz varijablu, odnosno primijeniti t-test. Postoje specifikacijski kriteriji za utvrđivanje treba li varijablu uključiti u model, ti kriteriji su:

1. Teorija – treba li teorijski varijabla biti u modelu? 2. t-test – je li ocijenjeni parametar signifikantno različit od nule? 3. Korigirani koeficijent determinacije – povećava li se kada se varijabla uključi u model? 4. Pristranost – mijenjaju li se koeficijenti ostalih varijabli značajno kada se varijabla doda u

jednadžbu? Ako su odgovori na ova pitanja pozitivni, varijabla pripada modelu, ako su odgovori negativni varijabla se može isključiti iz modela.

Ukoliko nismo sigurni da dvije varijable trebaju biti u modelu, npr. X2 i X3 u modelu (153), tada treba primijeniti parcijalni F-test uz hipotezu

0:2=3=0 (156)

Najprije je potrebno ocijeniti model (18), tj. kako se kaže regresiju bez ograničenja te izračunati njegov koeficijent determinacije, RUR2, a zatim ocijeniti model (19), regresiju s ograničenjem, te izračunati njegov koeficijent determinacije, RR2. Nakon toga se izračunava F vrijednost i testira se hipoteza (156):

1knR1

mRRF

2

UR

2

R

2

UR

(157)

gdje je m broj ograničenja (restrikcija) u ovom slučaju je 2 jer se odnosi na vrijednosti dva parametra, n je broj opažanja, k je broj regresora u modelu bez restrikcija. Ovdje je k=4. Ako izračunata F vrijednost nije statistički signifikantna, prihvaćamo nul hipotezu, a drugim riječima znači da prihvaćamo model (153).

Otkrivanje nevažne varijable naizgled je jednostavan zadatak, međutim važno je znati da se kod testiranja model od kojeg krećemo uzima kao stvarni model i ne možemo t i F testom iterativno graditi model dodavajući i oduzimajući varijable. Ako krenemo s lošim modelom koji iterativno pospješujemo imat ćemo od početka lošu osnovu i pristranost ako su važne varijable ispuštene. Teorija mora niti osnova s kojom specificiramo model.

OTKRIVANJE ISPUŠTENE VARIJABLE I NETOČNE FUNKCIJSKE VEZE

Postoji više razloga za otkrivanje ispuštene varijable i netočne funkcijske veze, neki od tih testova su:

Durbin-Watsonov test RESET test Wald test Hausman test

Durbin-Watsonov test

108

Specifikacijska pogreška uzrok je neprave autokorelacije. Kako se utjecaji ispuštene varijable ili netočne funkcijske veze priklanjaju odstupanjima, ona više isu nezavisno distribuirana. Graf reziduala kod modela koji ima specifikacijsku pogrešku ima određeni oblik, pa se pomoću DW testa potvrđuje prisutnost autokorelacije.

Ramseyev RESET test

To je regresijski test specifikacijske pogreške, opći test kojim se utvrđuje hoće li se prilagođenost funkcije

ii110i uXY (158)

značajno poboljšati ako se u analitički oblik funkcije uvode varijable 432 Y i Y,Y . To je

polinom varijable Y koju dobivamo ocjenjivanjem modela (158). Kako polinom ima dobru moć prilagodbe, pomoći će nam da utvrdimo postoji li specifikacijska pogreška zbog pogrešno odabranog funkcijskog oblika. Ako nema takve pogreške, onda bi parametri uz

potencije Y , trebali biti jednaki nuli, što ćemo utvrditi pomoću F testa.

RESET test provodi se u 3 koraka:

1. Pomoću metode najmanjih kvadrata ocijeni se funkcija (158).

2. Iz izračunate funkcije izračunaju se Y vrijednosti, zatim se računaju vrijednosti 432 Y i Y,Y i dodaju modelu (158) kao dodatne eksplanatorne varijable.

i

4

4

3

3

2

2i110i vYYYXY (159)

3. Uspoređuje se prilagodba modela (158) i (159) pomoću F testa

1UPnR1

NPRRF

2

N

2

S

2

N¸

(160)

gdje su RN2 i RS2 koeficijenti determinacije novog i starog modela, NP je broj novih nezavisnih varijabli, a UP ukupan broj nezavisnih varijabli u novom modelu. Ako je izračunata F vrijednost signifikantna, onda je model (158) loše specificiran.

11. 2. PREDVIĐANJE EKONOMETRIJSKIM MODELOM

Jedan od osnovnih ciljeva regresijske analize jest predviđanje. Pod „prognostičkom“ vrijednosti varijable y na osnovi regresijskog modela podrazumijeva se njena procijenjena vrijednost za novu (stvarnu ili pretpostavljenu) vrijednost regresorske varijable na osnovi prošlih i sadašnjih informacija ugrađenih u model. S obzirom na porijeklo empirijskih vrijednosti varijabli uključenih u model, razlikuju se vremenski i prostorni regresijski modeli, zavisno o tome jesu li varijable uključene u model vremenske serije ili se vrijednosti pojedinih varijabli odnose na pojave mjerene na različitim mjestima u fiksnom trenutku.

Ako se radi o vremenskom regresijskom modelu, prognostička će vrijednost biti procijenjena vrijednost zavisne varijable za buduću (opaženu ili pretpostavljenu) vrijednost nezavisne varijable. U slučaju prostornog modela „prognostička vrijednost“ znači procjenu zavisne varijable za pretpostavljenu ili stvarnu vrijednost nezavisne varijable u istom trenutku, ali u novoj točki prostora.

109

Zadatak predviđanja je da se dođe do što bolje odnosno efikasne prognoze, te da se uoči priroda prognostičke pogreške, kako bi se mogle računati intervalne procjene buduće vrijednosti, te provesti odgovarajući statistički testovi.

Pretpostavimo da je dana vrijednost objasnidbene varijable X0 i da je naš zadatak predvidjeti vrijednost od Y0. Budući da je Y0 slučajna varijabla čije su vrijednosti raspršene oko točke na regresijskoj liniji populacije koja odgovara vrijednosti X0, nikada nećemo znati njezinu vrijednost prije eksperimentiranja, čak ni onda kada znamo sve parametre populacije. Kada bi parametri populacije bili poznati, predviđač vrijednosti Y0 bila bi njezina sredina

00 XYE (161)

koja određuje točku na regresijskoj liniji populacije.

U stvarnosti je E(Y0) nepoznata i mora se ocijeniti. Ocjenjivač je odgovarajuća točka na regresijskoj liniji uzorka:

00 XˆˆY (162)

Sada će se stvarna vrijednost 0Y razlikovati od predviđene vrijednosti Y0 zbog slijedećih

razloga:

I. Vrijednost od Y0 neće biti jednaka E(Y0), tj. neće ležati na regresijskoj liniji populacije zbog

slučajnog odstupanja 0. Ova je greška svojstvena mehanizmu prema kojem se generiraju vrijednosti zavisne varijable i ne može se smanjiti.

II. Regresija uzorka neće biti jednaka regresijskoj liniji populacije zbog pogreške uzorkovanja. Ovu grešku možemo smanjiti povećanjem preciznosti ocjenjivanja regresijske linije populacije povećanjem veličine uzorka.

Razlika između stvarne vrijednosti slučajne varijable i predviđene vrijednosti slučajne varijable poznata je kao greška predviđanja. Ona je normalno distribuirana slučajna varijabla, a njezina je distribucija potpuno određena njezinom sredinom (koja je jednaka 0) i varijancom. Varijanca pogreške predviđanja sastoji se iz dva dijela:

Jednog koji je jednak varijanci odstupanja

Drugog koji je jednak varijanci predviđača 0Y oko njegove sredine

Na varijancu odstupanja se ne može utjecati, ali varijanca predviđanja se može smanjiti povećanjem veličine uzorka koji se koristi za ocjenjivanje regresijske linije populacije.

200 YYE = 200 YEYE + 200 YYEE

ukupna varijanca pogreške predviđanja

2F

varijanca zbog slučajnog odstupanja

2

varijanca zbog pogreške

uzorkovanja

2

Y

Budući da nam je varijanca nepoznata, moramo ju ocijeniti pomoću ocjenjivača. To znači da će varijanca pogreške biti manja:

Što je veća veličina uzorka n

Što je veća disperzija objasnidbene varijable u uzorku (što je veća2'ix )

Što je manja udaljenost između X0 i sredine uzorka X

110

Prva dva zaključka odražavaju činjenicu da je varijanca pogreške predviđanja manja što je ocjena regresijske linije populacije bolja. Treći zaključak znači da će predviđanje biti bolje za

vrijednosti od X koje su bliže vrijednosti X .

TESTIRANJE MOĆI PREDVIĐANJA REGRESIJSKOG MODELA

Neka statistika

2

2

0

00

XX

XX

n

11ˆ

YYt

(163)

Ima Studentovu t distribuciju sa n-2 stupnjeva slobode. Ako se umjesto Y0 koristi stvarno opažanje Y, koje nije iz uzorka čijim su korištenjem dobivene regresijske ocjene za

izračunavanje vrijednosti 0Y u istom razdoblju, može se temeljem statistike iz izraza (164)

testirati moć predviđanja modela. Kada je izračunata vrijednost statistike veća od tablične vrijednosti, može se zaključiti da je statistički značajna razlika između stvarne vrijednosti Y i

predviđene vrijednosti zavisne varijable 0Y na osnovi dane egzogene varijable X0 u periodu

predviđanja. Dakle, ostvarena vrijednost nije kompatibilna sa ocjenjenom relacijom. Ukoliko se raspolaže s parovima prognoza i ostvarenih vrijednosti za više vremenskih momenata, moć predviđanja modela može se ocijeniti i pomoću dijagrama u koji se unose dobivene promjene vrijednosti (Slika 31)

Slika 31: Dijagram testiranja moći predviđanja ekonometrijskog modela

Najpogodnija situacija – linija savršene prognoze – je skup točaka na pravcu pod kutom od

45: ii YY . Točke u II i IV kvadrantu označavaju vrlo slabu moć predviđanja

ekonometrijskog modela.

PRIMJER 22

Testiranje moći predviđanja modela izdataka iz primjera 6.

Predočeni su regresijski rezultati ekonometrijskog modela izdataka:

111

8 s.s.(0,0001) (0,0372) vrijednost p

8682,0r (7,2624) (2,4958) t

(0,0112) )0523,3(se

X814,06182,7Y

2

ii

(164)

Pretpostavimo da želimo odrediti prosječne izdatke određene osobe sa danom razinom dohotka. Koji su očekivani izdaci na toj razini dohotka? Pretpostavimo da X (raspoloživi dohodak) poprima vrijednost X0, gdje je X0 neka određena numerička vrijednost od X, recimo X0= 340. Pretpostavimo

nadalje da želimo ocijeniti )340XY(E 0 , odnosno prosječnu vrijednost izdataka na razini dohotka

od 340. Neka je

0Y ocjenjivač od )XY(E 0 (165)

Kako je dobiven ocjenjivač iz gornjeg izraza?

Pod pretpostavkom klasičnog linearnog regresijskog modela ocjenjivač se dobije jednostavnim uvrštavanjem dane vrijednosti X0 u regresijsku funkciju iz izraza (162):

35,2942

340814,06182,7Y 340X

(166)

Dakle, predviđena prosječna vrijednost izdataka za igre na sreću za osobu sa tjednim raspoloživim dohotkom od 340 novčanih jedinica iznosi 35 novčanih jedinica tjedno.

Iako, ekonometrijska teorija pokazuje, da je pod pretpostavkom klasičnog modela, 0Y

ocjenjivač stvarne prosječne vrijednosti, nije vjerojatno da će vrijednost dobivena izrazom (166) biti jednaka ako se uzme u obzir bilo koji drugi uzorak. (Zašto?) Razlika između dobivenih vrijednosti zove se greška predviđanja. Potrebno je izračunati stoga, sredinu i

varijancu ocjenjivača. Pod pretpostavkom klasičnog linearnog modela dokazano je da je 0Y

normalno distribuiran sa sredinom i varijancom kako slijedi:

2

2

02

02I0

XX

XX

n

1 Var

X)XE(Y Sredina

(167)

gdje je

X = sredina od X u uzorku u povijesnoj regresiji

2

XX = suma kvadrata odstupanja opažanja od njihove sredine

2 = varijanca od ui n = veličina uzorka

Kako u praksi vrijednost od 2 nije poznata, zamjenjuje se ocjenjivačem

2n

eˆ

2

i2 , te

0Y slijedi t distribuciju s (n-2) s.s.

112

Za primjer izdataka najprije se računa varijanca od 340XY iz izraza (166).

3728,1

51562

5,262340

10

14864,6Yvar

2

340X

(168)

Stoga standardna greška iznosi:

1716,13728,1)Y(se 340X (169)

NAPOMENA: Iz izračuna iz prijašnjih tematskih jedinica poznato je: 5,262X , 51562XX2 i

4864,6ˆ 2

Rezultati sugeriraju da, za razinu dohotka od 340 novčanih jedinica, predviđena srednja vrijednost izdataka za igre na sreću, iznosi 35,2942 novčane jedinice, sa standardnom greškom od 1,1717 novčanih jedinica.

Documents

Ekonometrija Za 1 Kolokvij