100

Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Embed Size (px)

Citation preview

Page 1: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Univerzitet u Ni²u

Prirodno matemati£ki fakultet

Departman za matematiku

Linearni regresioni modeli i problemi njihove primene

Master rad

Student: Mentor:

Mila Nikoli¢ dr Aleksandar Nasti¢

Ni², oktobar 2014.

Page 2: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

2

Page 3: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Sadrºaj

Predgovor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1 Jednostruka linearna regresija 71.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2 Ocena najmanjih kvadrata i osnovne

pretpostavke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3 Statisti£ke osobine ocena najmanjih kvadrata . . . . . . . . . . . . . . 141.4 Ocena za σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.5 Ocena maksimalne verodostojnosti . . . . . . . . . . . . . . . . . . . 221.6 Mera "�tovanja" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261.7 Predvi�anje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291.8 Analiza reziduala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.9 Primer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2 Vi²estruka linearna regresija 372.1 Uvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.2 Ocena najmanjih kvadrata . . . . . . . . . . . . . . . . . . . . . . . . 382.3 Ocena maksimalne verodostojnosti . . . . . . . . . . . . . . . . . . . 432.4 Interpretacija ocena vi²estruke regresije pomo¢u reziduala . . . . . . . 462.5 Problemi odre�ivanja regresionog modela . . . . . . . . . . . . . . . . 472.6 Koe�cijent parcijalne korelacije . . . . . . . . . . . . . . . . . . . . . 492.7 R2 nasuprot R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502.8 Intervali poverenja i testiranje hipoteza . . . . . . . . . . . . . . . . . 512.9 Zdruºeni intervali poverenja i testiranje

linearnih ograni£enja . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3 Odstupanja od klasi£nih pretpostavki 573.1 Pretpostavka o nultom o£ekivanju . . . . . . . . . . . . . . . . . . . . 573.2 Stohasti£ke obja²njavaju¢e promenljive . . . . . . . . . . . . . . . . . 583.3 Multikolinearnost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.4 Normalnost smetnji . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.5 Heteroskedasti£nost . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.5.1 Testiranje homoskedasti£nosti . . . . . . . . . . . . . . . . . . 703.6 Autokorelacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.6.1 Testiranje autokorelacije . . . . . . . . . . . . . . . . . . . . . 773.7 Gre²ke u promenljivama . . . . . . . . . . . . . . . . . . . . . . . . . 79

3

Page 4: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

4 Dodatne tehnike i primene u analizi regresije 834.1 Funkcionalna forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.2 Ve²ta£ke promenljive . . . . . . . . . . . . . . . . . . . . . . . . . . . 854.3 Lag modeli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.4 Modeli sa binarnim izborom . . . . . . . . . . . . . . . . . . . . . . . 92Zaklju£ak . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4

Page 5: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Predgovor

Regresioni modeli predstavljaju jedan od najzna£ajnijih oblika modeliranja i "�-tovanja" podataka iz prirode kao i samih prirodnih pojava. Pomo¢u linearnih regre-sionih modela se moºe vr²iti predvi�anje, mogu se objasniti neki rezultati i izvestiodgovaraju¢i zaklju£ci za posmatrani problem, koji se dalje mogu koristiti u �nan-sijama, ekonomiji, privredi kao i u mnogim drugim naukama.

U radu ¢e biti uvedeni i razmatrani jednostruki i vi²estruki modeli linearne regre-sije, metode za ocenjivanje nepoznatih parametara modela, problemi koji se javljajuprilikom izrade regresionih modela, kao i dodatne tehnike koje se koriste u regre-sionoj analizi.

Rad se sastoji iz £etiri glave. U prvoj glavi se razmatra jednostruka linearna re-gresija, u drugoj vi²estruka linearna regresija, metodi koji se koriste za ocenjivanjenepoznatih parametara i jednostruke i vi²estruke regresije kao i statisti£ke osobineocena parametara regresije. U tre¢oj glavi se razmatraju problemi koji nastaju kaoposledica odstupanja od klasi£nih pretpostavki na osnovu kojih smo konstruisali re-gresione modele. U £etvrtoj glavi se razmatraju dodatne tehnike i primene koje sekoriste u analizi regresije.

5

Page 6: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

6

Page 7: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Glava 1

Jednostruka linearna regresija

1.1 Uvod

U velikom broju istraºivanja ili eksperimenata uo£ava se veza izme�u dve ili vi²epromenljivih veli£ina. Od istraºiva£a se u tom slu£aju o£ekuje da utvrdi da li postojii kakva je direktna funkcionalna zavisnost me�u tim veli£inama.

Termin "regresija" i metode za nalaºenje veze izme�u dve promenljive pojavilisu se pre oko 100 godina. Prvi ih je predstavio Francis Galton 1908. godine, £u-veni britanski biolog, kada se bavio prou£avanjem nasle�ivanja. Jedan od njegovihzaklju£aka je bio da su deca visokih roditelja vi²a od proseka ali nisu visoka kao nji-hovi roditelji. Tako je "regresija ka prose£nosti" dala ovoj statisti£koj metodi ime.Termin regresija i njegova evolucija prvenstveno opisuju statisti£ku relaciju izme�upromenljivih veli£ina. Specijalno, prosta regresija je regresioni metod koji razmatravezu uzme�u jedne zavisno promenljive, Y i jedne nezavisno promenljive, X.

Prost linearni regresioni model obi£no je zadat formom

Y = α+ βX + ε,

gde je Y zavisno promenljiva, α je odse£ak na y-osi, β je nagib prave proste linearneregresije, X je nezavisno promenljiva, a ε je slu£ajna smetnja. Zavisno promenljivutako�e nazivamo promenljiva odgovora, a nezavisno promenljivu obja²njavaju¢apromenljiva ili prediktor. Obja²njavaju¢a promenljiva obja²njava uzro£ne promeneu promenljivoj odgovora. Uop²tenije predstavljanje regresionog modela moºe bitizapisano kao

Y = EY + ε,

gde je EY matemati£ko o£ekivanje promenljive odgovora. Kada je EY linearnakombinacija prediktora X1, X2, . . . , Xk, tada je regresija linearna. Ako je k = 1regresija je prosta linearna. Ako je EY nelinerna funkcija prediktora X1, X2, . . . , Xk,regresija je nelinearna.

U ovom poglavlju, detaljno ¢emo prou£iti ocenu linearne veze izme�u dve pro-menljive, Yi i Xi, koja ima formu

Yi = α+ βXi + εi, i = 1, 2, . . . , n, (1.1)

7

Page 8: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde smo sa Yi ozna£ili i -to posmatranje zavisno promenljive Y, koja moºe bitipotro²nja, proizvodnja, . . . , a saXi smo ozna£ili i -to posmatranje nezavisno promen-ljive X, koja moºe biti raspoloºivi prihod, kamatna stopa, . . . Takvi podaci mogu bitiprikupljeni iz �rmi ili iz doma¢instava u datom trenutku, i u tom slu£aju te podatkenazivamo presekom. Sli£no, takvi podaci mogu biti prikupljeni tokom vremena zaspeci�£nu industriju ili drºavu i tada te podatke nazivamo vremenskim nizovima.n je broj podataka, gde on moºe biti broj �rmi ili broj doma¢instva kada se vr²ipresek ili broj godina ako se podaci sakupljaju tokom vremena. α i β su, kao ²tosmo rekli ranije, odse£ak i nagib regresione prave koja opisuje prostu linearnu vezuizme�u Y i X. To su nepoznati parametri koje treba oceniti na osnovu podataka.Gra�£ki podaci, (Xi, Yi), i = 1, . . . , n, mogu veoma ilustrativno pokazati vrstu vezekoja empirijski postoji izme�u te dve promenljive. Na primer, ukoliko Y predstavljapotro²nju, a X raspoloºivi prihod, tada moºemo o£ekivati pozitivnu vezu izme�u tedve promenljive i gra�£ki podaci mogu izgledati kao na slici 1.1. dobijeni na osnovuslu£ajnog uzorka uzetog iz doma¢instava. Ako bi α i β bili poznati, mogli bismo danacrtamo jednu pravu liniju, α + βXi, kao ²to je prikazano na slici 1.1. Jasno jeda ne pripadaju svi podaci (Xi, Yi) pravoj liniji, α + βXi. U stvari, jedna£ina (1.1)pokazuje razliku izme�u svake vrednosti Yi i odgovaraju¢e vrednosti α + βXi kojanastaje usled smetnje εi. Na primer, ako je nezavisno promenljiva prihod, a zavisnopromenljva potro²nja, ta smetnja moºe nastati usled:(i) izostavljanja relevantnih faktora koji mogu uticati na potro²nju, koji se razlikujuod raspoloºivog prihoda, kao ²to su bogatstvo, razli£iti ukusi ili nepredvi�eni do-ga�aji koji iziskuju manju ili ve¢u potro²nju u doma¢instvu(ii) gre²ke pri merenju, koje mogu biti rezultat neta£nih podataka koje daje do-ma¢instvo o svojim tro²kovima ili ulaganjima(iii) pogre²nog izbora linearne veze izme�u potro²nje i prihoda, kada prava vezamoºe biti nelinearna.Ti razli£iti uzroci koji dovode do nastanka smetnje mogu imati razli£ite uticaje naraspodelu te smetnje. Nadalje, podrazumeva¢emo samo smetnje koje zadovoljavajuodre�ene pretpostavke.

U stvarnosti, α i β nisu poznati i moraju biti ocenjeni na osnovu dobijenihpodataka {(Xi, Yi) za i = 1, 2, . . . , n}. To tako�e zna£i da je prava α + βX dobraukoliko su smetnje neprimetne. U tom slu£aju α i β mogu biti ocenjeni na osnovunajpogodnije linije dobijene na osnovu podataka. Razli£iti istraºiva£i mogu nacr-tati razli£ite linije koriste¢i iste podatke. Postavlja se pitanje ²ta £ini jednu linjuboljom od druge. Op²ti problem nalaºenja linije koja dobro aproskimira dati skuppodataka, u statisti£kom ºargonu naziva se "�tovanje krive". Sa Yi ozna£imo vred-nost koja odgovara Xi i koja je dobijena na osnovu �tovane krive α + βXi. Svakoposmatranje (Xi, Yi) ima¢e odgovaraju¢u gre²ku vezanu za njega, koju ¢emo ozna£itisa ei = Yi − Yi, (vidi sliku 1.2). Drugim re£ima, dobili smo merljivu gre²ku tako ²tosmo od prave vrednosti Yi oduzeli �tovanu vrednost Yi. Jedina razlika izme�u slika1.1 i 1.2 je ta ²to slika 1.1 sadrºi pravu (istinitu) liniju potro²nje, dok slika 1.2 sadrºi�tovanu liniju potro²nje. Stoga, dok su εi nepoznati, ei su poznati. Primetimo da¢e svaka �tovana linija imati n gre²aka, gde svaka gre²ka odgovara jednom paru

8

Page 9: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Slika 1.1: "Prava" funkcija potro²nje

Slika 1.2: Ocenjena funkcija potro²nje

9

Page 10: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

podataka (Xi, Yi).Za �tovanu liniju moºemo sumirati njene odgovaraju¢e gre²ke, tj. sumirati kva-

drate tih gre²aka ²to ¢e biti prirodan kriterijum za izbor linije koja najbolje apro-ksimira dati skup podataka. Primetimo da obi£na suma nije dobar izbor za merenjenepravilnosti, zato ²to ¢e pozitivne vrednosti neutralisati odgovaraju¢e negativnevrednosti koje se nalaze u na²em merenju. Druga£ija merenja uklju£uju sumu apso-lutnih gre²aka, ali su ta merenja kasnije teºa za matemati£ko izra£unavanje. Kadaizaberemo jedan na£in merenja, moºemo oceniti α i β tako ²to ¢emo minimizirativrednosti gre²aka koje nastaju pri merenju, u ovom slu£aju minimizira¢emo sumukvardata gre²aka. U stvari, to je ideja na kojoj se zasniva ocenjivanje nepoznatihparametara metodom najmanjih kvadrata.

1.2 Ocena najmanjih kvadrata i osnovne

pretpostavke

Najmanji kvadrati minimiziraju rezidualnu sumu kvadrata, gde su reziduali datisa

ei = Yi − Yi = Yi − α− βXi, i = 1, 2, . . . , n,

gde smo sa α i β ozna£ili ocenjene vrednosti regresionih parametara α i β, respek-tivno. Rezidualnu sumu kvadrata, koju smo ozna£ili sa

RSS =n∑

i=1

e2i =n∑

i=1

(Yi − α− βXi)2,

minimiziramo pomo¢u dva parcijalna izvoda prvog reda:

∂α

(n∑

i=1

e2i

)= −2

n∑i=1

(Yi − α− βXi) = −2n∑

i=1

ei = 0,

tj.n∑

i=1

Yi − nα− βn∑

i=1

Xi = 0 (1.2)

i∂

∂β

(n∑

i=1

e2i

)= −2

n∑i=1

(Yi − α− βXi)Xi = −2n∑

i=1

eiXi = 0,

tj.n∑

i=1

YiXi − αn∑

i=1

Xi − βn∑

i=1

X2i = 0. (1.3)

Re²avaju¢i normalne jedna£ine najmanjih kvadrata (1.2) i (1.3) po nepoznatim α iβ dobijamo:

αOLS = Y − βOLSX i βOLS =

∑ni=1 X

∗i Y

∗i∑n

i=1 X∗2i

=Sxy

Sxx

(1.4)

10

Page 11: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde je Y = 1n

∑ni=1 Yi, X = 1

n

∑ni=1 Xi, Y ∗

i = Yi − Y , X∗i = Xi − X,

∑ni=1 X

∗2i =∑n

i=1 X2i −nX2,

∑ni=1 Y

∗2i =

∑ni=1 Y

2i −nY 2, i

∑ni=1 X

∗i Y

∗i =

∑ni=1 XiYi−nXY . Sa Sxy

smo ozna£ili izraz Sxy =∑n

i=1(Xi− X)(Yi− Y ), a sa Sxx izraz Sxx =∑n

i=1(Xi− X)2.Ove ocene imaju OLS oznaku u indeksu koja ozna£ava da su dobijene metodomobi£nih namjanjih kvadrata (Ordinary Least Squares). Reziduali dobijeni metodomobi£nih najmanjih kvadrata ei = Yi− α− βXi automatski zadovoljavaju dve numer-i£ke veze date sa (1.2) i (1.3).Prva veza nam kazuje da je(i)

∑ni=1 ei = 0, tj. suma reziduala je jednaka nuli. To je ta£no sve dok postoji

konstanta u regresiji. Ova numeri£ka osobina reziduala najmanjih kvardrata namtako�e ukazuje na to da ocenjena regresiona prava sadrºi ta£ku (X, Y ). To vidimodirektno iz jedna£ine Y = αOLS + βOLSX.Druga veza nam kazuje da(ii)

∑ni=1 eiXi = 0, tj. da reziduali i prediktor nisu u korelaciji.

Druge numeri£ke osobine koje zadovoljavaju ocene dobijene metodom obi£nih naj-manjih kvadrata su slede¢e:(iii)

∑ni=1 Yi =

∑ni=1 Yi, tj. suma ocenjenih Yi na osnovu uzorka jednaka je sumi

pravih vrednosti Yi. Da bismo pokazali da ovo vaºi po�imo od £injenice da jeei = Yi − Yi i iskoristimo rezultat iz (i)

n∑i=1

ei =n∑

i=1

Yi −n∑

i=1

Yi = 0.

Odatle sledin∑

i=1

Yi =n∑

i=1

Yi.

Ako obe strane prethodnog izraza podelimo sa n, dobi¢emo

1

n

n∑i=1

Yi =1

n

n∑i=1

Yi

odnosno,

Y =¯Y .

(iv)∑n

i=1 eiYi = 0, tj. OLS reziduali i predvi�ene vrednosti za Yi su nekorelisani.Ako iskoristimo £injenicu da je Yi = α + βXi i rezultate iz (i) i (ii) vidimo da ovovaºi.

Naravno, osnova ocena dobijenih za (1.1) je da je to pravi model, koji generi²epodatke. U tom slu£aju, (1.1) je linearna veza parametara α i β i sadrºi samojednu obja²njavaju¢u promenljivuXi. U cilju prou£avanja statisti£kih osobina ocenaobi£nih najmanjih kvadrata za α i β, moramo da uvedemo neke pretpostavke vezaneza model koji generi²e podatke.Pretpostavka 1: Smetnje imaju o£ekivanje 0, tj. E(εi) = 0, i = 1, 2, . . . , n. Ovapretpostavka nam osigurava da ¢emo u proseku biti na regresionoj pravoj.

Da bi videli ²ta se de²ava ako E(εi) = 0, razmotrimo slu£aj kada doma¢instva

11

Page 12: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Slika 1.3: Funkcija potro²nje za koju je Cov(X, ε) > 0

Slika 1.4: Slu£ajne smetnje oko regresione prave

12

Page 13: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

stalno prijavljuju umanjene tro²kove za po δ din, dok su njihovi prihodi mereniprecizno na osnovu poreskih obrazaca. U tom slu£aju,

(posmatrani tro²ak) = (stvarni tro²ak)− δ

i na²a regresiona jedna£ina je

(stvarni tro²ak)i = α+ β(prihod)i + εi.

Kada ovu jednakost uvrstimo u prethodni izraz, dobijamo

(posmatrani tro²ak)i = α+ β(prihod)i + εi − δ.

Ovo moºe biti posmatrano kao stara regresija sa novim smetnjama ε∗i = εi − δ.Koriste¢i se £injenicom da je δ > 0 i E(εi) = 0 dobijamo E(ε∗i ) = −δ < 0. Ovonam kazuje da su za sva doma¢instva sa istim prihodom, na pr. 20000 din, njihoviopservirani tro²kovi u proseku ispod linije α+ β(20000 din) za iznos δ. Problem sanenultim o£ekivanjem smetnje moºemo da re²imo ako reparametrizujemo model naslede¢i na£in

(posmatrani tro²ak)i = α∗ + β(prihod)i + εi,

gde je α∗ = α−δ. U tom slu£aju je E(εi) = 0 i α∗ i β mogu biti ocenjeni. Primetimoda ¢e tada biti ocenjeno α∗, ali ne α i δ. Tako�e, za sva doma¢instva £iji je prihod20000 din, njihov prose£ni tro²ak bi¢e (α− δ) + β(20000 din).Pretpostavka 2: Smetnje imaju konstantnu varijansu, tj. V ar(εi) = σ2, i =1, 2, . . . , n. To nam omogu¢ava da sve opservacije budu podjednako pouzdane.

Da bi videli ²ta ova pretpostavka zna£i, razmatrajmo slu£aj kada je V ar(εi) =σ2i , i = 1, 2, . . . , n. U ovom slu£aju, svaka opservacija ima razli£itu varijansu.

Opservacija sa velikom varijansom je manje pouzdana od opservacije sa malom var-ijansom. U slu£aju sa potro²njom, doma¢instva sa velikim raspoloºivim prihodom(veliko Xi, npr 100000 din) mo¢i ¢e da u²tede vi²e nego doma¢instva sa malim pri-hodom (malo Xi, npr 10000 din). U tom slu£aju ¢e varijansa potro²nje doma¢instvasa 100000 din prihoda biti ve¢a nego kod doma¢instva sa 10000 din prihoda.Pretpostavka 3: Smetnje nisu korelisane, tj. E(εiεj) = 0, i, j = 1, 2, . . . , n, i = j.Poznavanje i -te smetnje ne¢e nam ni²ta re¢i o j -oj smetnji.

Na primer, nepredvi�eno odstupanje koje je na£inilo i -to doma¢instvo (kao ²toje poseta ro�acima ili sl) nije ni u kakvoj vezi sa nepredvi�enim odstupanjem kojeje na£inilo neko drugo doma¢instvo. Na taj na£in se pridrºavamo toga da smo uzelislu£ajan uzorak od n doma¢instava.Pretpostavka 4: Prediktor X je neslu£ajna promenljiva, tj. ima istu vrednost zarazli£ite ponovljene uzorke. Tako�e,

∑ni=1

X∗2i

n= 0 i to je kona£an broj kada n teºi

beskona£nosti.Ova pretpostavka de�ni²e jednostruku linearnu regresiju kao regresiju druge

vrste, kojom ¢emo se na dalje baviti. �injenica da je∑n

i=1X∗2

i

n= 0 nam govori da

imamo bar dve razli£ite vrednosti promenljive X. To ima smisla jer su nam potrebnenajmanje dve ta£ke da bi nacrtali pravu liniju. Ako je X = X i X∗ = X − X = 0,

13

Page 14: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

tada se naru²ava uslov∑n

i=1 X∗2i = 0. U praksi, imamo uvek vi²e razli£itih vrednosti

za X. Vaºnije, ova pretpostavka ukazuje na to da X nije slu£ajna promenljiva i otudanije u korelaciji sa smetnjama.

Da bi videli kako izgleda kada se naru²i pretpostavka 4, pretpostavimo da je Xslu£ajna promenljiva i da su X i ε pozitivno korelisani. Tada, u primeru sa po-tro²njom, kod doma¢instava sa prihodom iznad prose£nog ima¢emo smetnje £ijasu o£ekivanja ve¢a od 0, dakle, pozitivne smetnje. Sli£no, kod doma¢instava saprihodom ispod prose£nog ima¢emo smetnje £ija su o£ekivanja ispod 0, dakle nega-tivne smetnje. To zna£i da ¢e smetnje sistematski uticati na vrednost obja²njava-ju¢e promenljive i rasipanje podataka ¢e biti kao na slici 1.3. Primetimo da akosada obri²emo pravu liniju α + βX i ocenimo tu liniju na osnovu podataka, linijanajmanjih kvadrata ¢e imati sli£an odse£ak i ve¢i nagib od ove linije. Dijagramrasipanja izgleda¢e kao na slici 1.4, gde su smetnje slu£ajne promenljive, koje nisuu korelaciji sa Xi i prikazane su tako da im je o£ekivanje 0 i varijansa konstantna.

1.3 Statisti£ke osobine ocena najmanjih kvadrata

(i) Nepristrasnost

Na osnovu pretpostavki 1-4, lako je pokazati da su αOLS i βOLS nepristrasneocene parametara α i β. Koriste¢i jedna£inu (1.4), £injenice da je Y ∗

i = Yi − Y i∑ni=1 X

∗i = 0 i zamenjuju¢i Yi iz (1.1) imamo

βOLS =

∑ni=1 X

∗i Y

∗i∑n

i=1 X∗2i

=

∑ni=1 X

∗i (Yi − Y )∑n

i=1 X∗2i

=

=

∑ni=1 X

∗i Yi − Y

∑ni=1 X

∗i∑n

i=1 X∗2i

=

∑ni=1 X

∗i Yi∑n

i=1 X∗2i

=

=

∑ni=1 X

∗i (α+ βXi + εi)∑n

i=1 X∗2i

=α∑n

i=1 X∗i + β

∑ni=1 X

∗i Xi +

∑ni=1 X

∗i εi∑n

i=1 X∗2i

.

Na osnovu £injenice da je∑n

i=1 X∗i Xi =

∑ni=1 X

∗2i sledi da je

βOLS = β +

∑ni=1 X

∗i εi∑n

i=1 X∗2i

. (1.5)

Ako potraºimo o£ekivanje i leve i desne strane i iskoristimo pretpostavke 1 i 4,dobijamo

E(βOLS) = E(β) +E (

∑ni=1 X

∗i εi)∑n

i=1 X∗2i

= β +

∑ni=1 E(X∗

i εi)∑ni=1 X

∗2i

= β.

Dakle, βOLS je nepristrasna ocena parametra β. Dalje, koriste¢i (1.5) moºemo izra£u-nati varijansu za βOLS. Najpre, koriste¢i pretpostavke 2 i 3 imamo da je

E

(n∑

i=1

X∗i εi

)2

=n∑

i=1

X∗2i V ar(εi) + 2

∑i

∑i=j

X∗i X

∗jCov(εi, εj) = σ2

n∑i=1

X∗2i .

14

Page 15: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Varijansa za βOLS je

V ar(βOLS) = E(βOLS − β)2 = E

(∑ni=1 X

∗i εi∑n

i=1 X∗2i

)2

=E (

∑ni=1 X

∗i εi)

2

(∑n

i=1 X∗2i )

2 =

=σ2∑n

i=1 X∗2i

(∑n

i=1 X∗2i )

2 =σ2∑n

i=1 X∗2i

=σ2

Sxx

. (1.6)

Primetimo da varijansa ocene obi£nih najmanjih kvadrata za β zavisi od σ2, tj. odvarijanse smetnji u pravom modelu, ali i od varijacija u X. �to je ve¢e odstupanje uX to je ve¢a suma

∑2i=1 X

∗2i , ali je tada manja varijansa za βOLS.

Da bi dokazali nepristrasnost ocene αOLS parametra α, po�imo od jedna£ine(1.4) i zamenimo Y sa Y = α+ βX + ε. Tada je

αOLS = Y − βOLSX = α+ βX + ε− βOLSX = α+ (β − βOLS)X + ε.

Ako potraºimo o£ekivanje prethodnog izraza i iskoristimo da je E(βOLS) = β iE(ε) = 0, dobijamo da je E(αOLS) = α, tj. da je αOLS nepristrasna ocena parametraα. Koriste¢i prethodne rezultate, moºemo izra£unati varijansu ocene αOLS

V ar(αOLS) = E(αOLS − α)2 = E[(β − βOLS)X + ε

]2=

= X2V ar(βOLS) + V ar(ε) + 2Cov(βOLS, ε)X =

= σ2 X2∑ni=1 X

∗2i

+σ2

n= σ2

[1

n+

X2∑ni=1 X

∗2i

]=

= σ2

∑ni=1 X

∗2i + nX2

n∑n

i=1 X∗2i

= σ2

∑ni=1 X

2i − nX2 + nX2

n∑n

i=1 X∗2i

=

=σ2∑n

i=1 X2i

n∑n

i=1 X∗2i

.

(ii) Postojanost

Pokaza¢emo sada da je βOLS postojana ocena za β. Dovoljan uslov da βOLS

bude postojana ocena je da bude nepristrasna i da njena varijansa teºi nuli kada nteºi beskona£nosti. Ve¢ smo pokazali da je βOLS nepristrasna ocena, pa nam ostajesamo da pokaºemo da njena varijansa teºi nuli kada n teºi beskona£nosti. U tomsmislu, imamo da vaºi

limn→∞

V ar(βOLS) = limn→∞

σ2∑ni=1 X

∗2i

= limn→∞

σ2

n∑n

i=1X∗2

i

n

= 0.

Tre¢a jednakost sledi na osnovu £injenice da je σ2

n→ 0, n → ∞ i da je

∑n

i=1X∗2

i

n= 0

i da ima kona£an limes (pretpostavka 4). Otuda sledi da je βOLS postojana ocenaparametra β.

Sli£no, moºemo pokazati da je αOLS postojana ocena parametra α. Pokazali

15

Page 16: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

smo da je nepristrasna, ostaje, sada, da pokaºemo da varijansa teºi nuli kada n teºibeskona£nosti.

V ar(αOLS) =σ2∑n

i=1 X2i

n∑n

i=1 X∗2i

=σ2

n

∑n

i=1X2

i

n∑n

i=1X∗2

i

n

→ 0, n → ∞.

Prethodni rezultat vaºi na osnovu pretpostavke 4 i £injenice da σ2

n→ 0, n → ∞.

Moºe se pokazati da je Cov(αOLS, βOLS) = −XV ar(βOLS). Da pokaºemo davaºi prethodni izraz koristimo αOLS = α+ (β − βOLS)X + ε. Sada je

Cov(αOLS, βOLS

)= E

[(αOLS − α

)(βOLS − β

)]=

= E[(

− X(βOLS − β

)+ ε

)(βOLS − β

)]=

= E[− X

(βOLS − β

)2 ]+ E

[(βOLS − β

)ε]=

= −XV ar(βOLS

).

To zna£i da je znak kovarijanse odre�en znakom za X. Ukoliko je X pozitivno,kovarijansa ¢e biti negativna. To tako�e zna£i da ¢e αOLS biti precenjeno, a βOLS

potcenjeno.

(iii) Najbolja linearna ocena

Koriste¢i (1.4) moºemo zapisati βOLS kao βOLS =∑n

i=1X∗

i Yi∑n

i=1X∗2

i

=∑n

i=1 ωiYi, gde je

ωi =X∗

i∑n

i=1X∗2

i

. Na ovaj na£in βOLS moºemo zapisati kao linearnu kombinaciju Yi-ovasa teºinskim koe�cijentima ωi koji zadovoljavaju slede¢e osobine:

n∑i=1

ωi = 0,n∑

i=1

ωiXi = 1,n∑

i=1

ω2i =

1∑ni=1 X

∗2i

. (1.7)

Lako se pokazuju prethodno navedene osobine teºinskih koe�cijenata. Koriste¢i£injenicu da je

∑ni=1 X

∗i = 0, imamo da jen∑

i=1

ωi =n∑

i=1

X∗i∑n

i=1 X∗2i

=1

Sxx

n∑i=1

X∗i = 0.

Da bismo pokazali da vaºi druga osobina koristimo £injenicu da je∑n

i=1 X∗i Xi =∑n

i=1 X2i − nX2 i da je

∑ni=1 X

∗2i =

∑ni=1 X

2i − nX2. Sada imamo

n∑i=1

ωiXi =n∑

i=1

X∗i∑n

i=1 X∗2i

Xi =1∑n

i=1 X∗2i

n∑i=1

X∗i Xi =

∑ni=1 X

2i − nX2∑n

i=1 X2i − nX2

= 1.

Lako se pokazuje da vaºi i tre¢a osobina

n∑i=1

ω2i =

n∑i=1

(X∗

i∑ni=1 X

∗2i

)2

=1

(∑n

i=1 X∗2i )

2

n∑i=1

X∗2i =

1∑ni=1 X

∗2i

.

16

Page 17: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Slede¢a teorema nam pokazuje da me�u svim linearnim nepristrasnim ocenamaza β, βOLS ima najmanju varijansu. Ta teorema je poznata kao Gaus-Markovateorema.

Teorema 1.3.1 Posmatrajmo proizvoljnu linearnu ocenu β =∑n

i=1 aiYi parame-tra β, gde su sa ai ozna£ene proizvoljne konstante. Ako je β nepristrasna ocenaparametra β koja zadovoljava pretpostavke 1-4, tada je

V ar(β) ≥ V ar(βOLS).

Dokaz: Ako zamenimo Yi iz (1.1) u β, dobijamo

β =n∑

i=1

aiYi =n∑

i=1

ai(α+ βXi + εi) = αn∑

i=1

ai + βn∑

i=1

aiXi +n∑

i=1

aiεi.

Kako je β nepristrasna ocena parametra β, vaºi

E(β) = αn∑

i=1

ai + βn∑

i=1

aiXi = β, i = 1, 2, . . . , n.

Odatle sledi da vaºi:∑n

i=1 ai = 0 i∑n

i=1 aiXi = 1. Otuda je

β = β +n∑

i=1

aiεi

sa varijansom

V ar(β) = V ar

(n∑

i=1

aiεi

)= σ2

n∑i=1

a2i ,

gde poslednja jednakost sledi na osnovu pretpostavke 2 i 3.Konstante ai su proizvoljne i razlikuju se od ωi, teºinskih koe�cijenata OLS

ocene, opet za neku drugu konstantu, na pr. ai = ωi + di, za i = 1, 2, . . . , n. Naosnovu osobina konstanti ai i ωi moºemo izvesti zaklju£ak koji vaºi za konstante di:∑n

i=1 di = 0 i∑n

i=1 diXi = 0. U stvari je

n∑i=1

a2i =n∑

i=1

d2i +n∑

i=1

ω2i + 2

n∑i=1

ωidi,

gde je

n∑i=1

ωidi =

∑ni=1 X

∗i di∑n

i=1 X∗2i

=

∑ni=1 di(Xi − X)∑n

i=1 X∗2i

=

∑ni=1 diXi − X

∑ni=1 di∑n

i=1 X∗2i

= 0.

Otuda je

V ar(β) = σ2n∑

i=1

a2i = σ2n∑

i=1

d2i + σ2n∑

i=1

ω2i = V ar(βOLS) + σ2

n∑i=1

d2i .

17

Page 18: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

S obzirom na to da je σ2∑ni=1 d

2i nenegativno, dobijamo da je V ar(β) ≥ V ar(βOLS),

gde jednakost vaºi samo za di = 0, i = 1, 2, . . . , n, tj. ako je ai = ωi. U tomslu£aju, β postaje βOLS. Dakle, bilo koja linearna ocena za β, kao ²to je β, koja jenepristasna, ima varijansu ve¢u ili jednaku sa V ar(βOLS). Ovim smo pokazali da jeβOLS najbolja linearna nepristrasna ocena za β (Best Linear Unbiased Estimator-BLUE).

Sli£no, moºemo pokazati da je αOLS linearna kombinacija Yi-ova, i da ima naj-manju varijansu me�u svim linearnim nepristrasnim ocenama za α ako su zadovo-ljene pretpostavke 1-4.

Najpre ¢emo pokazati da αOLS moºe da se zapi²e kao linearna kombinacija Yi-ovaαOLS =

∑ni=1 λiYi, gde je λi =

1n− Xωi

αOLS = Y − βOLSX =1

n

n∑i=1

Yi − Xn∑

i=1

ωiYi =

=n∑

i=1

1

nYi −

n∑i=1

ωiXYi =

=n∑

i=1

Yi

[1

n− Xωi

]=

=n∑

i=1

λiYi.

Teºinski koe�cijenti λi zadovoljavaju slede¢e osobine:

n∑i=1

λi = 1,n∑

i=1

λiXi = 0,

koje se lako dokazuju:

n∑i=1

λi =n∑

i=1

1

n− X

n∑i=1

ωi =1

nn− X

n∑i=1

ωi = 1

in∑

i=1

λiXi =n∑

i=1

Xi

[1

n− Xωi

]=

1

n

n∑i=1

Xi − Xn∑

i=1

ωiXi = X − X = 0.

Ozna£imo sa α =∑n

i=1 biYi proizvoljnu linearnu ocenu parametra α, gde su biproizvoljne konstante za koje ¢emo pokazati da vaºe slede¢e osobine:

∑ni=1 bi = 1

i∑n

i=1 biXi = 0. Po pretpostavci, α je nepristrasna ocena parametra α. U tomslu£aju, α moºemo zapisati kao

α =n∑

i=1

biYi =n∑

i=1

bi(α+ βXi + εi) =

= αn∑

i=1

bi + βn∑

i=1

biXi +n∑

i=1

biεi.

18

Page 19: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Potraºimo, sada, o£ekivanje leve i desne strane, i dobijamo

Eα = Eαn∑

i=1

bi + Eβn∑

i=1

biXi +n∑

i=1

biEεi = αn∑

i=1

bi + βn∑

i=1

biXi.

Kako je α nepristrasna ocena parametra α, tj. vaºi Eα = α, mora biti:∑n

i=1 bi = 1i∑n

i=1 biXi = 0. Otuda, imamo da je

α = α+n∑

i=1

biεi.

Konstante bi su proizvoljne koje se razlikuju od konstanti λi opet za neku konstantufi, tj. bi = λi + fi. Na osnovu osobina konstanti bi i λi imamo da za konstante fivaºe slede¢e osobine:

∑ni=1 fi = 0 i

∑ni=1 fiXi = 0.

Nepristrasna ocena α ima varijansu

V ar(α) = σ2n∑

i=1

b2i = σ2n∑

i=1

(λi + fi)2 = σ2

n∑i=1

(λ2i + 2λifi + f 2

i

)=

= σ2

[n∑

i=1

λ2i + 2

n∑i=1

λifi +n∑

i=1

f 2i

].

Lako se pokazuje da je∑n

i=1 λifi = 0, pa imamo da je

V ar(α) = σ2n∑

i=1

λ2i + σ2

n∑i=1

f 2i = V ar(αOLS) + σ2

n∑i=1

f 2i .

Kako je σ2∑ni=1 f

2i nenegativno, imamo da vaºi V ar(α) ≥ V ar(αOLS). Bilo koja

linearna nepristrasna ocena α parametra α ima ve¢u varijansu od varijanse oceneαOLS ukoliko je

∑ni=1 f

2i = 0. Ukoliko je fi = 0, i = 1, 2, . . . , n, tada je bi = λi, i =

1, 2, . . . , n, ²to zna£i da je α =∑n

i=1 biYi =∑n

i=1 λiYi = αOLS. Na ovaj na£in smopokazali da je αOLS najbolja linearna nepristrasna ocena parametra α, tj. ocenaαOLS je BLUE.

1.4 Ocena za σ2

Varijansa regresionih smetnji, σ2, je nepoznata i treba da se oceni. U stvari,videli smo da varijanse ocena αOLS i βOLS zavise od σ2. Nepristrasna ocena za σ2

je s2 = 1n−2

∑ni=1 e

2i . Da bismo ovo pokazali, po�imo od £injenice

ei = Yi − Yi = Yi − αOLS − βOLSXi = Yi − Y + βOLSX − βOLSXi =

= Yi − Y − βOLS(Xi − X) = Y ∗i − βOLSX

∗i = βX∗

i + (εi − ε)− βOLSX∗i =

= (β − βOLS)X∗i + (εi − ε),

19

Page 20: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde je ε = 1n

∑ni=1 εi. Otuda je

n∑i=1

e2i =n∑

i=1

[(β − βOLS)X

∗i + (εi − ε)

]2=

=n∑

i=1

[(β − βOLS)

2X∗2i + 2(β − βOLS)X

∗i (εi − ε) + (εi − ε)2

]=

=n∑

i=1

(β − βOLS)2X∗2

i +n∑

i=1

2(β − βOLS)X∗i (εi − ε) +

n∑i=1

(εi − ε)2 =

= (βOLS − β)2n∑

i=1

X∗2i +

n∑i=1

(εi − ε)2 − 2(βOLS − β)n∑

i=1

X∗i (εi − ε).

Kada potraºimo o£ekivanje leve i desne strane, dobijamo

E

(n∑

i=1

e2i

)= E(βOLS−β)2

n∑i=1

X∗2i +E

(n∑

i=1

(εi − ε)2)−2

E (∑n

i=1 X∗i εi)∑n

i=1 X∗2i

E

(n∑

i=1

X∗i (εi − ε)

).

Prethodno smo pokazali da je E(βOLS−β)2 = V ar(βOLS). Tre¢i sabirak prethodnogizraza moºemo da napi²emo na druga£iji na£in koriste¢i slede¢e rezultate:

E

(n∑

i=1

X∗i (εi − ε)

)= E

(n∑

i=1

(X∗i εi −X∗

i ε)

)= E

(n∑

i=1

X∗i εi −

n∑i=1

X∗i ε

)=

= E

(n∑

i=1

X∗i εi

)− 1

nE

n∑i=1

X∗i

n∑j=1

εj =

= E

(n∑

i=1

X∗i εi

)− 1

n

n∑i=1

X∗i

n∑j=1

Eεj =

= E

(n∑

i=1

X∗i εi

)

i

E

(n∑

i=1

X∗i εi

)2

= E

n∑i=1

X∗2i ε2i + 2

n∑i=1

∑i =j

X∗i X

∗j εiεj

=

= E

(n∑

i=1

X∗2i ε2i

)+ 2

n∑i=1

∑i=j

X∗i X

∗jE(εiεj) =

=n∑

i=1

X∗2i E(ε2i ) = σ2

n∑i=1

X∗2i .

Drugi sabirak moºemo da napi²emo kao

E

(n∑

i=1

(εi − ε)2)

= E

(n∑

i=1

ε2i − nε2)= E

(n∑

i=1

ε2i

)− nE

1

n2

(n∑

i=1

εi

)2 =

= E

(n∑

i=1

ε2i

)− 1

nE

(n∑

i=1

εi

)2

=

20

Page 21: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

= E

(n∑

i=1

ε2i

)− 1

nE

n∑i=1

ε2i + 2n∑

i=1

∑i=j

εiεj

=

= E

(n∑

i=1

ε2i

)− 1

nE

(n∑

i=1

ε2i

)− 2

1

n

n∑i=1

∑i =j

E(εiεj) =

= E

(n∑

i=1

ε2i

)(1− 1

n

)=

n− 1

n

n∑i=1

Eε2i =

=n− 1

nnσ2 =

= σ2(n− 1).

Sada je

E

(n∑

i=1

e2i

)= V ar

(βOLS

) n∑i=1

X∗2i + σ2(n− 1)− 2

E (∑n

i=1 X∗i εi)∑n

i=1 X∗2i

E

(n∑

i=1

Xiεi

)=

= σ2 + σ2(n− 1)− 2σ2∑n

i=1 X∗2i∑n

i=1 X∗2i

=

= σ2 + nσ2 − σ2 − 2σ2 =

= (n− 2)σ2.

Otuda je

E(s2) =1

n− 2E

(n∑

i=1

e2i

)= σ2.

Tako je s2 nepristrasna ocena varijanse smetnje proste linearne regresije, σ2.Prethodni izraz delimo sa n − 2 zato ²to u modelu jednostruke linearne regresijeimamo n opservacija i dva ograni£enja nad tim opservacijama:

(i)n∑

i=1

(Yi − Yi) = 0

(ii)n∑

i=1

(Yi − Yi)Xi = 0.

Otuda varijansa smetnje ima n − 2 stepena slobode ²to je tako�e broj svih opser-vacija umanjen za broj parametara u modelu koje treba oceniti.

Intuitivno, ocena za σ2 moºe da se dobije na osnovu 1n−1

∑ni=1(εi − ε)2 ako su

prave smetnje poznate. Ali kako εi nisu poznati, koriste se njihove postojane ocene,a to su ei. Kako je

∑ni=1 ei = 0, ocena za σ2 je 1

n−1

∑ni=1 e

2i . Da bi ocena za σ2

bila nepristrasna pravi delilac treba da bude n − 2 umesto n − 1. Ovo je verodos-tojno, s obzirom na to da treba da se ocene dva parametra α i β kada izra£unamoei. Tada imamo n − 2 nezavisna dela informacija dobijena na osnovu podataka.Jedna£ine (1.2) i (1.3) predstavljaju dve veze koje uklju£uju ei. Tako, poznavaju¢in−2 ei-ova, moºemo dobiti preostala dva reziduala na osnovu jedna£ina (1.2) i (1.3).

21

Page 22: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

1.5 Ocena maksimalne verodostojnosti

Da bismo dobili ocene parametara α i β metodom maksimalne verodostojnosti,uvodimo pretpostavku o raspodeli smetnji:Pretpostavka 5: Smetnje εi su nezavisne i jednako raspodeljene sa raspodelomN (0, σ2).

Koriste¢i ovu pretpostavku, moºemo dobiti raspodelu ocena kao i odgovara-ju¢ih test statistika. Na osnovu (1.5) vidmo da je βOLS linearna kombinacija εi.Linearna kombinacija slu£ajnih promenljivih sa normalnom raspodelom je slu£ajnapromenljiva sa normalnom raspodelom. Otuda je

βOLS ∼ N(β;

σ2∑ni=1 X

∗2i

).

Sli£no,

αOLS ∼ N(α;

σ2∑ni=1 X

2i

n∑n

i=1 X∗2i

)i

Yi ∼ N(α+ βXi;σ

2).

�tavi²e, moºemo zapisati zajedni£ku funkciju gustine za εi kao

f(ε1, ε2, . . . , εn;α, β, σ2) =

1

(2πσ2)n/2e−

12σ2

∑n

i=1ε2i .

Da bismo dobili funkciju verodostojnosti, izvr²imo transformaciju: εi = Yi−α−βXi.Jakobijan te transformacije je 1. Dakle,

f(y1, y2, . . . , yn;α, β, σ2) =

1

(2πσ2)n/2e−

12σ2

∑n

i=1(yi−α−βxi)

2

. (1.8)

Zajedni£ka funkcija gustine f(y1, y2, . . . , yn;α, β, σ2) posmatrana kao funkcija para-metara α, β i σ2 za �ksirane vrednosti y1, y2, . . . , yn naziva se funkcija verodosto-jnosti i ozna£ava se sa

L(α, β, σ2) = f(y1, y2, . . . , yn;α, β, σ2).

Kada logaritmujemo funkciju verodostojnosti, dobijamo

logL(α, β, σ2) = −n

2log2πσ2 − 1

2σ2

n∑i=1

(yi − α− βxi)2. (1.9)

Maksimiziraju¢i funkciju verodostojnosti u odnosu na parametre α, β i σ2 do-bijamo ocene maksimalne verodostojnosti (Maximum Likelihood Estimator-MLE).Me�utim, u izrazu koji predstavlja logaritamsku funkciju verodostojnosti samo drugisabirak sadrºi α i β i taj izraz smo ve¢ minimizirali u odnosu na α i β u (1.2) i (1.3)

22

Page 23: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

kada smo ra£unali OLS ocenu. Zaista, ako (1.9) diferenciramo u odnosu na α i tajparcijalni izvod izjedna£imo sa nulom, dobijamo:

∂logL

α=

2

2σ2

n∑i=1

(yi − α− βxi) = 0, σ2 = 0

n∑i=1

(yi − α− βxi) = 0

n∑i=1

yi − nα− βn∑

i=1

xi = 0

n∑i=1

yi − βn∑

i=1

xi = nα

1

n

n∑i=1

yi − β1

n

n∑i=1

xi = α

αMLE = Y − βX.

Dakle,αMLE = αOLS

Ako, sada, diferenciramo (1.9) u odnosu na β dobi¢emo da je βMLE = βOLS. Sli£no,kada diferenciramo logL u odnosu na parametar σ2 i izjedna£imo izvod sa nulomdobijamo σ2

MLE = 1n

∑ni=1 e

2i . Zaista,

∂logL

∂σ2= −n

2

1

2πσ22π − 2

−1

4σ4

n∑i=1

(yi − α− βxi)2 =

= − n

2σ2+

1

2σ4

n∑i=1

(yi − α− βxi)2 = 0,

odavde je

−nσ2 +∑n

i=1(yi − α− βxi)2

2σ4= 0, gde je 2σ4 = 0.

S obzirom da jen∑

i=1

(yi − α− βxi)2 = nσ2,

to na osnovu prethodno dobijenih ocena parametara α i β metodom maksimalneverodostojnosti, imamo

σ2MLE =

1

n

n∑i=1

(Yi − αMLE − βMLEXi)2 =

1

n

n∑i=1

e2i .

Primetimo da se ovo razlikuje od s2 samo u imeniocu. U stvari je E(σMLE) =n−2nσ2 = σ2. Dakle, σ2

MLE je pristrasna ocena parametra σ2, ali je i dalje asimptot-ski nepristrasna.

23

Page 24: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Prednosti pretpostavke 5 su slede¢e: moºemo formirati funkciju verodostojnosti,moºemo izvesti ocene maksimalne verodostojnosti, kao i raspodele tih ocena. Pred-nosti ocena maksimalne verodostojnosti su te ²to su to:(i) postojane ocene iako zadovoljavaju veoma uop²tene uslove,(ii) asimptotski e�kasne ocene,(iii) invarjantne ocene u odnosu na reparametrizaciju modela.Mana ocena maksimalne verodostojnosti je ta ²to je za dobijanje tih ocena potrebnoda se precizno zna raspodela smetnji. Ovde je raspodela smetnji precizno data pret-postavkom 5. Nepristrasne ocene αOLS, βOLS i s2 su najbolje nepristrasne oceneparametara α, β i σ2 sa najmanjom varijansom pri £emu ocene αOLS, βOLS dostiºuRao-Kramerovu donju granicu, dok je s2 ne dostiºe.

Pod pretpostavkom da je raspodela smetnji normalna, OLS i MLE ocene para-metara α i β se poklapaju. Ako raspodela smetnji ne bi bila normalna, tada OLSi MLE ocene ne bi bile iste. U tom slu£aju, MLE ocena ¢e biti e�kasnija od OLSocene sve dok je raspodela smetnji precizno odre�ena.

Na²li smo raspodelu za αOLS i βOLS. S obzirom da je s2 suma kvadrata ne-zavisnih slu£ajnih promenljivih sa normalnom raspodelom ima¢e χ2 raspodelu, tj.bi¢e

∑n

i=1e2i

σ2 ∼ χ2n−2, odnosno (n − 2) s

2

σ2 ∼ χ2n−2. Tako�e, slu£ajna promenljiva s2

je nezavisna od αOLS i βOLS, ²to je veoma korisno prilikom testiranja hipoteza. Ustvari, najve¢a prednost pretpostavke 5 je da moºemo vr²iti testiranje hipoteza.

Standardizuju¢i normalnu slu£ajnu promenljivu βOlS, dobijamo

z =βOLS − β(

σ2∑n

i=1X∗2

i

)1/2∼ N (0; 1).

Ako normalnu normiranu slu£ajnu promenljivu, z, podelimo kvadratnim korenomizraza (n− 2) s

2

σ2 podeljenim sa svojim stepenom slobode n− 2 dobijamo t-statistikusa n− 2 stepena slobode. Dobijena statistika je

t =βOLS − β(

s2∑n

i=1X∗2

i

)1/2∼ tn−2.

Ova statistika se koristi za testiranje hipoteze H0 : β = β0 protiv H1 : β = β0,gde je β0 poznata konstanta. Pod pretpostavkom da vaºi H0, t se moºe izra£unati injena vrednost se moºe uporediti sa kriti£nom vredno²¢u t-raspodele sa n−2 stepenaslobode za dati prag zna£ajnosti a. Od velikog je zna£aja hipoteza H0 : β = 0 kojanam govori da ne postoji linearna veza izme�u Yi i Xi. Pod pretpostavkom da vaºiH0, tada je t-statistika

t =βOLS(s2∑n

i=1X∗2

i

)1/2=

βOLS

se(βOLS),

24

Page 25: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde je standardna gre²ka ocene βOLS se(βOLS) =(

s2∑n

i=1X∗2

i

)1/2

. Ako je |t| > ta/2;n−2

tada odbacujemo H0 sa pragom zna£ajnosti a. ta/2;n−2 predstavlja kriti£nu vrednostdobijenu iz t-raspodele sa n− 2 stepena slobode.

Sli£no, moºemo dobiti interval poverenja za β koriste¢i £injenicu da je

P{−ta/2;n−2 < t < ta/2;n−2} = 1− a

i zamenjuju¢i t sa βOLS

se(βOLS). Vrednost ta/2;n−2 £itamo iz tablice za Studentovu raspodelu,

βOLS i se(βOLS) se mogu izra£unati na osnovu podataka, pa ¢e (1− a)100% intervalpoverenja za β biti

βOLS ± ta/2;n−2se(βOLS).

Testiranje hipoteza i intevrali poverenja za α i σ2 se mogu sli£no dobiti koriste¢inormalnu raspodelu za αOLS i χ2 raspodelu za (n− 2) s

2

σ2 .Za testiranje hipoteze H0 : α = α0 protiv H1 : α = α0, gde je α0 unapred

poznata konstanta, koristimo test statistiku

t =αOLS − α(

s2∑n

i=1X2

i

n∑n

i=1X∗2

i

)1/2

koja ima tn−2 raspodelu pod pretpostavkom da je hipoteza H0 ta£na. Ako je|t| > ta/2;n−2, tada odbacujemo H0 sa pragom zna£ajnosti a. (1 − a)100% inter-val poverenja za parametar α bi¢e

αOLS ± ta/2;n−2

(s2∑n

i=1 X2i

n∑n

i=1 X∗2i

)1/2

.

Za testiranje hipoteze H0 : σ2 = σ20 protiv H1 : σ2 = σ2

0, gde je σ20 unapred

poznata konstanta, koristi se test statistika

S(β)

σ20

£ija je kriti£na oblast(χ2n−2;a/2;χ

2n−2;1−a/2

)c

. Interval poverenja za papametar σ2 je

S(β)

χ2n−2;1−a/2

;S(β)

χ2n−2;a/2

,gde smo sa S(β) ozna£ili izraz S(β) =

∑ni=1(Yi − Y )2 − β2

OLS

∑ni=1(Xi − X)2.

Do sada smo diskutovali o statisti£kim zaklju£cima posebno za α posebno zaβ. Individualni test zna£i da kada se testira H0 : α = α0, testira se bez obzirana vrednost parametra β. Na isti na£in, kada se testira hipoteza H0 : β = β0

testira se bez obzira na vrednost parametra α. Ako ºelimo da testiramo hipotezu

25

Page 26: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

da li se regresiona linija nalazi u nekoj oblasti ili ne, moramo da testiramo hipotezuH0 : α = α0, β = β0. Da bi izveli zaklju£ak, koristimo test statistiku

A =(αOLS − α, βOLS − β

)( n∑n

i=1 Xi∑ni=1 Xi

∑ni=1 X

2i

)(αOLS − α

βOLS − β

)∼ 2s2F2;n−2.

Tako, (1− a)100% oblast poverenja za α i β je data sa

A ≤ 2s2Fa;2,n−2,

gde je Fa;2,n−2 kvantil reda a Fi²erove raspodele. Primetimo da je ta oblast povere-nja u stvari elipsa.

1.6 Mera "�tovanja"

Dobili smo ocene najmanjih kvadrata parametara α, β i σ2 i na²li smo njihoveraspodele pod pretpostavkom da smetnje imaju normalnu raspodelu. Nau£ili smokako se testiraju hipoteze koje se odnose na sve parametre. Sada ¢emo se bavitimerenjem "�tovanja" ocenjene regresione linije. Posmatra¢emo sada slu£aj kada jeprediktor X slu£ajna promenljiva. Podsetimo se da je ei = Yi − Yi, gde smo sa Yi

ozna£ili predvi�enu vrednost za Yi dobijenu na osnovu regresione linije metodomnajmanjih kvadrata za dato Xi, tj. Yi = αOLS + βOLSXi. Koriste¢i £injenicu da je∑n

i=1 ei = 0, dobili smo da vaºi∑n

i=1 Yi =∑n

i=1 Yi. Ako obe strane prethodnog izrazapodelimo sa n zaklju£ujemo da vaºi Y =

¯Y , tj. prave i predvi�ene vrednosti za Y

imaju isto uzora£ko o£ekivanje. To je ta£no sve dok postoji konstanta u regresiji.Dodaju¢i i zamenjuju¢i Y u ei dobijamo ei = Y ∗

i − Y ∗i , tj. Y ∗

i = ei + Y ∗i . Ako

kvadriramo i sumiramo prethodni izraz dobijamon∑

i=1

Y ∗2i =

n∑i=1

e2i +n∑

i=1

Y ∗2i + 2

n∑i=1

eiY∗i =

n∑i=1

Y ∗2i +

n∑i=1

e2i , (1.10)

gde poslednja jednakost sledi na osnovu £injenice da je Y ∗i = βOLSX

∗i i

∑ni=1 eiX

∗i =

0. U stvari, £injenica da je∑n

i=1 eiY∗i =

∑ni=1 eiYi = 0 zna£i da su OLS reziduali neko-

relisani sa predvi�enim vrednostima u regresiji. Drugim re£ima, (1.10) kaºe da setotalno odstupanje Yi od njegovog uzora£kog o£ekivanja Y ,

∑ni=1 Y

∗2i , moºe podeliti

na dva dela: prvi deo je regresiona suma kvadrata∑n

i=1 Y∗2i = β2

OLS

∑ni=1 X

∗2i , a

drugi deo je rezidualna suma kvadrata∑n

i=1 e2i . Dakle, ukupna varijansa se moºe

podeliti na varijansu obja²njenu regresijom i na neobja²njenu varijansu.Posmatrajmo regresiju koja je data samo pomo¢u konstante Yi = α + εi, gde je

{εi} niz nezavisnih i jednako raspodeljenih slu£ajnih promenljivih sa o£ekivanjem 0 ivarijansom σ2, ²to kra¢e zapisujemo εi ∼ IID(0;σ2). Da dobijemo ocenu najmanjihkvadrata parametra α po�imo od izraza

∑ni=1(Yi − α)2 i taj izraz diferenciramo u

odnosu na parametar α:

∂α

( n∑i=1

(Yi − α)2)

= −2n∑

i=1

(Yi − α) = 0

26

Page 27: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

n∑i=1

(Yi − α) = 0

n∑i=1

Yi − nα = 0

n∑i=1

Yi = nα

1

n

n∑i=1

Yi = α

αOLS = Y ,

gde je αOLS odgovaraju¢a ocena parametra α dobijena na osnovu regresije date samopomo¢u konstante.

Ako sumiramo po i levu i desnu stranu izraza Yi = α + εi, a onda podelimo san, dobijamo Y = α+ ε. Otuda je

E(αOLS) = E(α) + Eε = α.

Varijansa nepristrasne ocene parametra α je

V ar(αOLS) = E(αOLS − α)2 = Eε2 =1

n2

n∑i=1

Eε2 =1

n2nσ2 =

σ2

n.

Rezidulana suma kvadrata jen∑

i=1

(Yi − αOLS)2 =

n∑i=1

(Yi − Y )2 =n∑

i=1

Y ∗2i .

Dakle,∑n

i=1 Y∗2i u (1.10) daje obja²njavaju¢u mo¢ promenljive X kada je konstanta

ispravna.Koriste¢i ovu podelu, moºemo de�nisati veli£inu koja meri ispravnost regresije

kao odnos regresione sume kvadrata i totalne sume kvadrata (Total Sum of Squares-TSS). Drugim re£ima, de�ni²emo

R2 =

∑ni=1 Y

∗2i∑n

i=1 Y∗2i

i njena vrednost je izme�u 0 i 1. U stvari, ako podelimo (1.10) sa∑n

i=1 Y∗2i dobijamo

R2 = 1−∑n

i=1 e2i∑n

i=1 Y∗2i

,

gde∑n

i=1 e2i predstavlja meru odstupanja minimiziranu metodom najmanjih kvadrata.

Ako je∑n

i=1 e2i veliko, regresija ne obja²njava ve¢inu odstupanja u Y, i tada je vred-

nost R2 mala. Me�utim, ako je∑n

i=1 e2i malo, regresija je dobra i R2 je veliko. U

stvari, za savr²enu regresiju, gde sva posmatranja leºe na ispravnoj liniji je Yi = Yi

i ei = 0, ²to zna£i da je∑n

i=1 e2i = 0 i R2 = 1. Drugi ekstremni slu£aj je kada je re-

gresiona suma kvadrata∑n

i=1 Y∗2i = 0, tj. kada linearna regresija ne opisuje ni jedno

27

Page 28: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

odstupanje Yi-ova. U tom slu£aju je∑n

i=1 Y∗2i =

∑ni=1 e

2i i R

2 = 0. Primetimo da iz∑ni=1 Y

∗2i = 0 sledi da je Y ∗

i = 0 za svako i, ²to zna£i da je Yi = Y , i = 1, 2, . . . , n. Fi-tovana regresiona linija u ovom slu£aju je horizontalna linija £ija je vrednost Y = Yi ne zavisi od promenljive X.

Primetimo da R2 ima dva alternativna zna£enja:(i) To je obi£an kvadrat koe�cijenta korelacije izme�u Yi i Yi. Pokaza¢emo najpre

da je R2 = r2xy, gde je r2xy =(∑n

i=1X∗

i Y∗i )

2∑n

i=1X∗2

i

∑n

i=1Y ∗2i

:

R2 =

∑ni=1 Y

∗2i∑n

i=1 Y∗2i

=β2OLS

∑ni=1 X

∗2i∑n

i=1 Y∗2i

=

(∑n

i=1X∗

i Y∗i )

2

(∑n

i=1X∗2

i )2

∑ni=1 X

∗2i∑n

i=1 Y∗2i

=(∑n

i=1 X∗i Y

∗i )

2∑ni=1 X

∗2i

∑ni=1 Y

∗2i

= r2xy

Po�imo sada od £injenice da je Y ∗i = Y ∗

i + ei. Najpre, obe strane izraza pomnoºimosa Y ∗

i a zatim sumiramo:Y ∗i Y

∗i = Y ∗2

i + eiY∗i

n∑i=1

Y ∗i Y

∗i =

n∑i=1

Y ∗2i +

n∑i=1

eiY∗i

n∑i=1

Y ∗i Y

∗i =

n∑i=1

Y ∗2i .

Sada je

ryiy2i =

(∑ni=1 Y

∗i Y

∗i

)2∑n

i=1 Y∗2i

∑ni=1 Y

∗2i

=

(∑ni=1 Y

∗2i

)2∑n

i=1 Y∗2i

∑ni=1 Y

∗2i

=

∑ni=1 Y

∗2i∑n

i=1 Y∗2i

= R2.

(ii) Tako�e, u slu£aju proste regresije, to je kvadrat obi£ne korelcije izme�u X i Y.To zna£i da pre nego ²to regresiramo Y pomo¢u slu£ajne promenljive X, moºemo

da izra£unamo r2xy koji nam pokazuje u kojoj meri X dobro obja²njava odstupanjau Y. Ukoliko je taj broj veoma mali, ima¢emo slabu linearnu vezu izme�u Y i X ine¢emo ispravno objasniti odstupanja u Y pomo¢u X. Treba naglasiti da je R2 meralinearne povezanosti izme�u X i Y. Moºe postojati, na primer, savr²ena kvadratnaveza izme�u X i Y, ali kriva koja je ocenjena metodom najmanjih kvadrata na os-novu podataka je prava linija koja implicira da je R2 = 0. Tako�e, regresija pomo¢unajmanjih kvadrata moºe biti neispravna kada je vrednost R2 blizu 1.

U nekim slu£ajevima se ne uklju£uje konstanta u regresiju. Tada koristimo ne-centrirano R2 kao meru "�tovanja". Necentrirano R2 se de�ni²e sa

necentrirano R2 = 1−∑n

i=1 e2i∑n

i=1 Y2i

=

∑ni=1 Y

2i∑n

i=1 Y2i

i predstavlja udeo odstupanja u∑n

i=1 Y2i koji je obja²njen regresijom za Y pomo¢u

X.

28

Page 29: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

1.7 Predvi�anje

Hajde sada da predvidimo vrednost Y0 za datu vrednost X0. Obi£no se pred-vi�anje radi pomo¢u vremenskih serija, kada se predvi�a budu¢nost, na primer zajedan period unapred. Ta nova opservacija Y0 je data sa

Y0 = α+ βX0 + ε0. (1.11)

O£ekivanje, EY0 = α + βX0, je linearna kombinacija parametara α i β. Koriste¢irezultat Gausa-Markova, Y0 = αOLS + βOLSX0 je najbolja linearana nepristrasnaocena za α+ βX0 sa varijansom

V ar(Y0) = V ar(αOLS + βOLSX0) = V ar(αOLS) +X20V ar(βOLS) + 2X0Cov(αOLS, βOLS) =

= σ2

(1

n+

X2∑ni=1 X

∗2i

)+X2

0

σ2∑ni=1 X

∗2i

+ 2X0(−X)σ2∑n

i=1 X∗2i

=

= σ2

[1

n+

1∑ni=1 X

∗2i

(X2 +X20 − 2X0X)

]=

= σ2

[1

n+

(X0 − X)2∑ni=1 X

∗2i

].

Y0 se razlikuje od EY0 za ε0. Najbolje predvi�anje za ε0 je nula pa je najboljelinearno nepristrasno predvi�anje za Y0 upravo Y0. Gre²ka predvi�anja je

Y0 − Y0 = [Y0 − EY0] + [EY0 − Y0] = ε0 + [EY0 − Y0],

gde je ε0 smetnja koja se javlja iako je poznata prava regresiona linija, a EY0 − Y0

je razlika izme�u uzora£ke i populacione regresione linije. Otuda, varijansa gre²kepredvi�anja bi¢e

V ar(ε0) + V ar(EY0 − Y0) + 2Cov(ε0, EY0 − Y0) = σ2

[1 +

1

n+

(X0 − X)2∑ni=1 X

∗2i

].

Na osnovu prethodnog izraza vidimo da je varijansa gre²ke predvi�anja jednaka va-rijansi predvi�anja za EY0, plus varijansa smetnje, plus dve kovarijanse za EY0− Y0

i ε0. Poslednji sabirak prethodnog izraza je nula, s obzirom da je ε0 nova smetnja iona nije u korelaciji sa smetnjama koje se javljaju u uzorku i koje se odnose na Yi.Stoga, predvi�anje proseka tro²kova doma¢instava koja imaju 20000 din prihoda jeisto kao predvi�anje tro²kova pojedinog doma¢instva £iji je prihod 20000 din. Ra-zlika nije u samom predvi�anju ve¢ u varijansi koja se odnosi na to predvi�anje.Varijansa gre²ke predvi�anja je ve¢a od varijanse predvi�anja za σ2. Dakle, vari-jansa predvi�anja zavisi od σ2, veli£ine uzorka, odstupanja u X i od toga koliko X0

odstupa od uzora£kog o£ekivanja opserviranih podataka. Da sumiramo, varijansapredvi�anja je manja ukoliko je σ2 manje, n ve¢e kao i kada je

∑ni=1 X

∗2i ve¢e i kada

je X0 bliºe X. Moºemo konstruisati 95 % interval povrenja predvi�anja za svakuvrednost X0. To je, u stvari,

(αOLS + βOLSX0)± t0.025;n−2s

[1 +

1

n+

(X0 − X)2∑ni=1 X

∗2i

]1/2,

29

Page 30: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde je s ocena za σ, a t0.025;n−2 predstavlja 2,5 % kriti£nu vrednost dobijenu naosnovu t-raspodele sa n − 2 stepena slobode. Slika 1.5 pokazuje granice poverenjaza ocenjenu regresionu liniju. To je hiperbola koja je najuºa oko X kao ²to se io£ekivalo, a ²iri se kada se udaljavamo od X.

1.8 Analiza reziduala

Gra�£ki podaci o razidualima su veoma bitni. Reziduali su postojane ocenepravih smetnji. Za razliku od εi, ei su zavisni. �tavi²e, OLS normalne jedna£ine (1.2)i (1.3) predstavljaju dve veze izme�u reziduala. Otuda, poznavaju¢i n− 2 rezidua-la, preostala dva reziduala se mogu izra£unati. Ako bi poznavali prave εi i gra�£kiih predstavimo, oni ¢e biti nasumi£no rastureni oko horizontalne ose bez nekogspeci�£nog obrasca. Gra�£ki podaci ei koji se pona²aju po odre�enom obrascu kaoskup pozitivnih reziduala pra¢en skupom negativnih reziduala, kao ²to je prikazanona slici 1.6(a), mogu ukazivati na naru²avanje neke od 5 pretpostavki na osnovukojih smo konstruisali model ili prosto ukazuju na pogre²nu funkcionalnu formu. Naprimer, ako su naru²eni uslovi pretpostavke 3, recimo da su εi pozitivno korelisanito je kao da imamo pozitivne reziduale pra¢ene pozitivnim i negativne pra¢ene ne-gativnim, slika 1.6(b). Sli£no ako kvadratnu vezu izme�u X i Y ocenimo pravomregresionom linijom, tada ¢e gra�k reziduala izgledati kao na slici 1.6(c).

Slika 1.5: 95% granice poverenja

Veliki reziduali ukazuju na lo²e predvi�anje. Veliki reziduali mogu ukazivati nato da je ispitiva£ pogre²no obradio svoje podatke. Tako�e, mogu postojati uticajnaposmatranja, autlajeri, £ije se pona²anje razlikuje od drugih podataka u uzorku i koji¢e biti daleko od ocenjene regresione linije u odnosu na druge podatke. �injenica dametod najmanjih kvadrata minimizira sumu kvadrata reziduala, zna£i da autlajeri,po svojoj prirodi, bitno uti£u na vrednost ukupne sume. Drugim re£ima, ukolikouklonimo ova posmatranja iz uzorka moºemo zna£ajno promeniti ocene i regresionu

30

Page 31: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Slika 1.6: Pozitivno korelisani reziduali

Slika 1.7: Rastu¢a varijansa reziduala

31

Page 32: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

liniju.Moºemo nacrtati raziduale naspram Xi. Ukoliko se pona²aju po obrascu koji je

prikazan na slici 1.7 to moºe biti pokazatelj da je naru²ena pretpostavka 2, zato ²tovarijansa reziduala raste sa porastom indeksa za Xi, a trebalo bi da bude konstantnaza sve opservacije. Tako�e, moºe se nagovestiti veza izme�u Xi i pravih smetnji kaoposledica naru²avanja pretpostavke 4.

Da zaklju£imo, trebalo bi uvek gra�£ki predstaviti reziduale da bi se proveri-li podaci, da se identi�kuju autlajeri i da se proveri da li je naru²ena neka od 5pretpostavki na osnovu kojih smo konstruisali model.

1.9 Primer

U tabeli 1.1 dat je broj bu²ela (bu²el je jedinica za masu ºitarica koja se nalaziu Ameri£kom sastavu mera) kukuruza po jutru, Y, kao rezultat upotrebe razli£itekoli£ine �ubriva po jutru, X, u periodu od 10 godina, od 1971-1980. Vrednosti sugra�£ki prikazane na slici 1.8. Vidimo da je veza izme�u X i Y pribliºno linearna.

Tabela 1.1Godina n Yi Xi Y ∗

i X∗i X∗

i Y∗i X∗2

i Yi

1971 1 40 6 -17 -12 204 144 37,081972 2 44 10 -13 -8 104 64 43,721973 3 46 12 -11 -6 66 36 47,041974 4 48 14 -9 -4 36 16 50,361975 5 52 16 -5 -2 10 4 53,681976 6 58 18 1 0 0 0 571977 7 60 22 3 4 12 16 63,641978 8 68 24 11 6 66 36 66,961979 9 74 26 17 8 136 64 70,281980 10 80 32 23 14 322 196 80,24

Na osnovu podataka iz tabele 1.1 moºemo oceniti parametre linearne regresije αi β. Imamo da je

∑10i=1 X

∗i Y

∗i = 956,

∑10i=1 X

∗2i = 576, kao i da je X = 18 i Y = 57.

Ocene parametara dobijene metodom najmanjih kvadrata bi¢e:

βOLS =

∑10i=1 X

∗i Y

∗i∑10

i=1 X∗2i

=956

576= 1, 66

iαOLS = Y − βOLSX = 57− 1, 66 ∗ 18 = 27, 12.

Ocenjena regresiona linija bi¢e

Yi = αOLS + βOLSXi = 27, 12 + 1, 66Xi, i = 1, 2, . . . , 10

i na osnovu nje moºemo izra£unati "�tovane" vrednosti za Yi, Yi. Za Xi = 0 imamovrednost za Yi, Yi = αOLS = 27, 12. Za vrednost X = 18 je Yi = 57 = Y . Ta£ka

32

Page 33: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

(X, Y ) leºi na regresionoj liniji, slika 1.9.U tabeli 1.2 se nalaze rezultati pomo¢u kojih moºemo oceniti varijansu smetnji,

σ2, i na osnovu kojih moºemo testirati hipoteze o zna£ajnosti parametara regresije.

Tabela 1.2n ei e2i X2

i Y ∗2i Y ∗2

i

1 2,92 8,52 36 289 396,802 0,28 0,07 100 169 176,353 -1,04 1,08 144 121 99,204 -2,36 5,56 196 81 44,085 -1,68 2,82 256 25 11,026 1 1 324 1 07 -3,64 13,24 484 9 44,088 1,04 1,04 576 121 99,209 3,72 13,83 676 289 176,3510 -0,24 0,05 1024 529 540,09

Slika 1.8:

Najpre, izra£unajmo reziduale ei = Yi − Yi a onda i ocenu parametra σ2

s2 =1

n− 2

10∑i=1

e2i =47, 31

8= 5, 91.

Varijanse ocena parametara bi¢e:

V ar(βOLS) =s2∑10

i=1 X∗2i

=5, 91

576= 0, 01

33

Page 34: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Slika 1.9:

34

Page 35: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

i

V ar(αOLS) =s2∑10

i=1 X2i

10∑10

i=1 X∗2i

=5, 91 ∗ 381610 ∗ 576

= 3, 92.

Standardne gre²ke su se(βOLS) = 0, 1 i se(αOLS) = 1, 98. Testiramo sada hipotezeHβ

0 : β = 0 i Hα0 : α = 0 i koristimo test-statistike:

tβ =βOLS

se(βOLS)=

1, 66

0, 1= 16, 6

itα =

αOLS

se(αOLS)=

27, 12

1, 98= 13, 7.

Vrednost ta/2;n−2 dobijena na osnovu Studentove raspodele sa 8 stepeni slobode zadati prag zna£ajnosti od 5% je 2,306. S obzirom da je ova vrednost manja od obevrednosti test statistika, odbacujemo obe nulte hipoteze.

Na kraju, izra£unajmo vrednost za R2

R2 =(∑10

i=1 X∗i Y

∗i )

2∑10i=1 X

∗2i

∑10i=1 Y

∗2i

=(956)2

576 ∗ 1634= 0, 971.

Znamo da totalnu varijansu odstupanja u Y moºemo podeliti na dve sume:∑n

i=1 Y∗2i

=∑n

i=1 Y∗2i +

∑ni=1 e

2i . Sumu

∑ni=1 Y

∗2i moºemo izra£unati na osnovu podataka iz

tabele 1.2 ali i kao razliku suma:∑n

i=1 Y∗2i =

∑ni=1 Y

∗2i − ∑n

i=1 e2i = 1587. U tom

slu£aju, vrednost za R2 je

R2 =

∑10i=1 Y

∗2i∑10

i=1 Y∗2i

=1587

1634= 0, 971.

To zna£i da koli£ina �ubriva (X), obja²njava 97,1% odstupanja u broju bu²ela kuku-ruza (Y).

35

Page 36: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

36

Page 37: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Glava 2

Vi²estruka linearna regresija

2.1 Uvod

Do sada smo u regresionoj jedna£ini imali, pored konstante, samo jedan regresorX. Vi²estruka regresija omogu¢ava istraºiva£u da prou£i efekte vi²e od jedne nezavi-sno promenljive u isto vreme. Op²ta namena vi²estruke linearne regresije je da pro-na�e linearnu vezu izme�u zavisno promenljive i nekoliko nezavisnih promenljivih.Vi²estruka linearna regresija moºe biti kori²¢ena da se ispita sa koliko nezavisnihpromenljivih moºe dovoljno dobro da se objasni neki rezultat. U drugim slu£aje-vima, vi²estruka linearna regresija se koristi da se ispita efekat na rezultat ukolikovi²e faktora uti£e na taj rezultat.

Veze izme�u promenljivih koje se koriste u ekonomiji obi£no uklju£uju vi²e re-gresora. Na primer, jedna£ina koja predstavlja prodaju jednog proizvoda obi£nosadrºi realnu cenu tog proizvoda sa dodatkom realnog prihoda u odnosu na realnucenu konkurentnog proizvoda kao i tro²kove reklamiranja proizvoda. U tom slu£aju,regresiona jedna£ina je

Yi = α+ β2X2i + β3X3i + . . .+ βKXKi + εi, i = 1, 2, . . . , n, (2.1)

gde smo sa Yi ozna£ili i -to posmatranje zavisno promenljive Y, ²to je u ovom slu£ajuprodaja proizvoda. Xki predstavlja i -to posmatranje nezavsino promenljive Xk,k = 2, . . . , K, ²to je u ovom slu£aju cena, konkurentska cena, tro²kovi reklame. α jeodse£ak, β2, . . . , βK su K − 1 koe�cijenata nagiba. εi, i = 1, 2, . . . , n zadovoljavajuosnovne pretpostavke 1-4 date u glavi 1. Pretpostavka 4 i u slu£aju vi²estrukelinearne regresije de�ni²e prediktore Xk, k = 2, . . . , n kao neslu£ajne promenljiveza koje vaºi osobina da

∑ni=1

(Xki−Xk)2

n, gde je Xk = 1

n

∑ni=1 Xki, ima kona£an limes

kada n → ∞ koji je razli£it od nule.Jedna£ina vi²estruke linearne regresije moºe da se napi²e i u matri£noj formi

Y = Xβ + ε, (2.2)

37

Page 38: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde su:

Y =

Y1

Y2...Yn

,X =

X11 X12 . . . X1K

X21 X22 . . . X2K...

... . . . ...Xn1 Xn2 . . . XnK

,β =

β1

β2...βK

, ε =

ε1ε2...εn

,n je broj posmatranja i K je broj promenljivih u regresiji, n > K. U ovom slu£ajuY je vektor kolona, a X je matrica dimenzije n × K. Svaka kolona u X ozna£avajednu promenljivu, a svaka vrsta je posmatranje datih promenljivih.

2.2 Ocena najmanjih kvadrata

Metod najmanjih kvadrata minimizira rezidualnu sumu kvadrata, gde su, u ovomslu£aju, reziduali dati sa: ei = Yi − α−∑K

k=2 βkXki, i = 1, 2, . . . , n i α i βk su nekeocene parametara regresije α i βk, respektivno. Rezidualnu sumu kvadrata

RSS =n∑

i=1

e2i =n∑

i=1

(Yi − α− β2X2i − . . .− βKXKi)2

minimiziramo re²avanjem slede¢eg sistema linearnih jedna£ina:

∂α

(n∑

i=1

e2i

)= −2

n∑i=1

ei = 0

∂βk

(n∑

i=1

e2i

)= −2

n∑i=1

eiXki = 0, k = 2, . . . , K (2.3)

²to je ekvivalentno sa:n∑

i=1

Yi = nα+ β2

n∑i=1

X2i + . . .+ βK

n∑i=1

XKi

n∑i=1

YiX2i = αn∑

i=1

X2i + β2

n∑i=1

X2iX2i + . . .+ βK

n∑i=1

XKiX2i

. . .n∑

i=1

YiXKi = αn∑

i=1

XKi + β2

n∑i=1

X2iXKi + . . .+ βK

n∑i=1

X2Ki,

gde prvu jedna£inu dobijamo tako ²to regresionu jedna£inu sumiramo, drugu do-bijamo tako ²to regresionu jedna£inu pomnoºimo sa X2 i sumiramo i td, K-tu je-dna£inu dobijamo tako ²to regresionu jedna£inu pomnoºimo sa XK i sumiramo. Izprethodnog sistema jedna£ina sledi da je

∑ni=1 ei = 0 i

∑ni=1 eiXki = 0, k = 2, . . . , K.

Re²avanjem tih K jedna£ina sa K nepoznatih dobijamo ocene najmanjih kvadrata.To se moºe uraditi elegantnije pomo¢u matrica.

Reziduali su sada dati sa e = Y − Xβ, gde su sa β ozna£ene neke pretposta-vljene vrednosti za β. Rezidualna suma kvadrata je

RSS =n∑

i=1

e2i = e′e = (Y − Xβ)′(Y − Xβ) = Y ′Y − Y ′Xβ − β′X ′Y + β′X ′Xβ.

38

Page 39: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Poslednja £etiri sabirka su skalari, ²to moºe biti potvr�eno pomo¢u njihovih dimen-zija. U stvari, dva sabirka koja su u sredini su jednaka, zato ²to je transponovanavrednost skalara isti taj skalar.

Diferenciraju¢i RSS u odnosu na β, dobijamo:

∂RSS

∂β= −(Y ′X)′ − X ′Y + (X ′X + (X ′X)′)β =

= −X ′Y − X ′Y + (X ′X + X ′X)β =

= −2X ′Y + 2X ′Xβ, (2.4)

gde smo iskoristili slede¢a dva pravila za diferenciranje matrica:(i) ∂a′b

∂b= a,

(ii) ∂(b′Ab)∂b

= (A+A′)b = 2Ab,gde je druga jednakost ta£na ako je A simetri£na matrica. Za minimiziranje jedna-£ine date u (2.4) parcijalni izvod prvog reda izjedna£imo sa nulom. Odatle dobijamo

X ′Xβ = X ′Y (2.5)

koja je poznata kao normalna jedna£ina obi£nih najmanjih kvadrata. Dok god jeX punog ranga, tj. ranga K, tada je X′X nesingularna matrica i re²enje prethodnejedna£ine je

βOLS = (X′X)−1X′Y.

"Punog ranga" zna£i da ne postoji kolona u X koja moºe da se dobije kao linearnakombinacija drugih kolona. U tom smislu uvodimo slede¢u pretpostavku:Pretpostavka 6: Ne postoji linearna zavisnost izme�u obja²njavaju¢ih promenljivih.

Ova pretpostavka nam govori da ni jedna promenljiva koja se javlja u regresijine moºe se dobiti kao linearna kombinacija ostalih promenljivih. Ukoliko se naru²iova pretpostavka to zna£i da bi imali K-1 linearno nezavisnu jedna£inu za dobijanjeK nepoznatih β, odnosno da ne¢emo imati jedinstvene ocene najmanjih kvadrata.

Primer 2.2.1 Ako je X2i = 3X4i− 2X5i+X7i, za i = 1, 2, . . . , n, tada mnoºe¢i ovujedna£inu sa ei i sumiraju¢i po i dobijamo

n∑i=1

X2iei = 3n∑

i=1

X4iei − 2n∑

i=1

X5iei +n∑

i=1

X7iei.

Vidimo da druga normalna jedna£ina najmanjih kvadrata iz (2.3) moºe biti pred-stavljena kao linearna kombinacija £etvrte, pete i sedme normalne jedna£ine naj-manjih kvadrata. Poznaju¢i te tri normalne jedna£ine, druga jedna£ina nam nedaje novu informaciju. Moºemo zameniti ovu jedna£inu u originalnu regresionujedna£inu (2.1), i posle sre�ivanja, X2 ¢e biti eliminisano i dobija se jedna£ina

Yi = α+β3X3i+(3β2+β4)X4i+(β5−2β2)X5i+β6X6i+(β2+β7)X7i+. . .+βKXKi+εi.

Koe�cijenti uz X4i, X5i, X7i su, sada, 3β2 + β4, β5 − 2β2, β2 + β7, respektivno.Svaki od njih sadrºi β2. Ove linearne kombinacije koe�cijenata β2, β4, β5, β7 ¢e

39

Page 40: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

biti ocenjene na osnovu prethodne regresije koja ne sadrºi X2i. U stvari, ostalepromenljive X, koje nisu linearno zavisne me�u sobom, ima¢e koe�cijente koji nesadrºe β2 i otuda one mogu biti ocenjene metodom najmanjih kvadrata. Me�utim,β2, β4, β5, β7 ne mogu biti ocenjeni pojedina£no.

Primetimo da se ovo odnosi na linearne veze ali da se ne odnosi na nelinearneveze izme�u nezavisno promenljivih. Drugim re£ima, moºemo uklju£iti X1i i X2

1i kao(godine iskustva) i (godine iskustva)2 u jedna£inu obja²njavaju¢i zaradu pojedinca.Iako postoji savr²ena kvadratna veza izme�u ovih nezavisno promenljivih, ne postojisavr²ena linearna veza i otuda to nije uzrok savr²ene multikolinearnosti.

Dakle, da jedna£ina (2.5) ima jedinstveno re²enje, matrica X′X treba da budenesingularna. X′X je matrica suma kvadrata i proizvoda izme�u promenljivih. Akoje u regresiju uklju£ena konstanta, tada matrica X sadrºi jednu kolonu jedinica.Obi£no je to prva kolona. U tom slu£aju, matrica X′X sadrºi sume, sume kvadratai sume proizvoda svake dve promenljive, tj.

X′X =

n

∑ni=1 Xi2 . . .

∑ni=1 XiK∑n

i=1 Xi2∑n

i=1 X2i2 . . .

∑ni=1 Xi2XiK

...... . . . ...∑n

i=1 XiK∑n

i=1 XiKXi2 . . .∑n

i=1 X2iK

.

Matrici X′X moºemo da dodamo Y kao jo² jednu promenljivu £ime ¢emo au-tomatski dobiti X′Y i Y′Y, tj. kolona koja se odnosi na Y ¢e generisati

∑ni=1 Yi,∑n

i=1 Xi1Yi,. . . ,∑n

i=1 XiKYi i∑n

i=1 Y2i . Da bismo ovo pokazali posmatrajmo

Z = [Y,X],

tada je

Z′Z =

[YX

] [Y X

]=

[Y′Y Y′XX′Y X′X

].

Ova matrica sadrºi sve podatke i moºemo regresirati bilo koju promenljivu iz Zpomo¢u ostalih promenljivih iz Z koriste¢i samo Z′Z.

Ozna£imo reziduale dobijene metodom najmanjih kvadrata sa e = Y − XβOLS,normalna jedna£ina najmanjih kvadrata data sa (2.5) moºe biti zapisana kao

X ′Y − X ′XβOLS = X ′(Y − XβOLS) = X ′e = 0. (2.6)

Rekli smo da ako jedna£ina regresije sadrºi konstantu, prva kolona u X bi¢e kolonajedinica i prva jedna£ina u (2.6) posta¢e

∑ni=1 ei = 0. To pokazuje dobro poznati

rezultat da ako postoji konstanta u regresiji, suma reziduala najmanjih kvadrata jenula. Jedna£ina (2.6) tako�e ukazuje na to da je matrica regresora X ortogonalnana vektor reziduala e.

Smetnje imaju normalnu raspodelu, tj. ε ∼ N (0, σ2In) ²to zna£i da:(i) svaka smetnja ima o£ekivanje 0,(ii) konstantnu varijansu i(iii) εi i εj, i = j su nekorelisani. Tako�e,

40

Page 41: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

(iv) podsetimo se da su prediktori neslu£ajne veli£ine i da je limn→∞X′Xn

kona£an i

pozitivno de�nitan i da je limn→∞X ′ε

n= 0, u verovatno¢i.

Na osnovu datih osnovnih pretpostavki i uslovljavaju¢i opserviranim X, lako sepokazuje da je βOLS nepristrasna ocena za β. U stvari, koriste¢i (2.2) moºemozapisati

βOLS = β + (X ′X)−1X ′ε. (2.7)

Ako potraºimo uslovno o£ekivanje leve i desne strane pod uslovom X i na osnovupretpostavki (i)-(iv) dobijamo kao rezultat nepristrasnost. Osim toga, moºemoizvesti kovarijansnu matricu za βOLS na osnovu (2.7) s obzirom na to da je

V ar(βOLS) = E[(βOLS − β)(βOLS − β)′

]=

= E[(X ′X)−1X ′εε′X(X ′X)−1

]=

= (X ′X)−1X ′X(X ′X)−1E(εε′) =

= σ2(X′X)−1, (2.8)

gde smo iskoristili pretpostavku (iv) i £injenicu da je E(εε′) = σ2In. Ova kovari-jansna matrica je dimenzije K ×K i na dijagonali su varijanse za βi, a van glavnedijagonale su kovarijanse za βi i βj.

Slede¢a teorema pokazuje da su me�u svim linearnim nepristrasnim ocenama zac′β, c′βOLS ocene sa najmanjom varijansom. Ona je poznata kao Gaus-Markovateorema.

Teorema 2.2.1 Posmatrajmo linearnu ocenu a′Y za c′β, gde su a i c proizvoljnivektori konstanti. Ako je a′Y nepristrasna ocena za c′β tada je

V ar(a′Y ) ≥ V ar(c′βOLS).

Dokaz: Kako je a′Y nepristrasna ocena za c′β iz (2.2) sledi da je

E(a′Y ) = E(a′Xβ) + E(a′ε) = a′Xβ = c′β

²to zna£i da je a′X = c′. Tako�e,

V ar(a′Y ) = E(a′Y − c′β)(a′Y − c′β)′ = E(a′Y − a′Xβ)(a′Y − a′Xβ)′ =

= E(a′ε)(a′ε)′ = E(a′εε′a) = σ2a′a.

Upore�uju¢i ovu varijansu sa varijansom za c′βOLS imamo

V ar(a′Y )− V ar(c′βOLS) = σ2a′a− σ2c′(X ′X)−1c.

Odnosno

σ2a′a− σ2a′X(X ′X)−1X ′a = σ2[a′a − a′PXa] = σ2a′PXa,

41

Page 42: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde je PX projekcija matrice na X-ravan de�nisana kaoX(X ′X)−1X ′ i PX je de�-nisano kao In − PX . U stvari, PXY = XβOLS = Y i PXY = Y − PXY = Y −−Y = e. Pa je Y projekcija vektora Y na X-ravan i e je projekcija vektora Y naravan koja je ortogonalna na X, vidi sliku 2.1. Obe matricePX i PX su idempotentne²to zna£i da je prethodna razlika σ2a′PXa ve¢a ili jednaka od nule s obzirom nato da je PX pozitivno semi-de�nitna matrica. Ako de�ni²imo z = PXa, tada jeprethodna razlika jednaka sa σ2z′z = σ2a′P ′

XPXa = σ2a′P 2Xa = σ2a′PXa ≥ 0.

Slika 2.1: Ortogonalna dekompozicija za y

Posledice ove teoreme su bitne. Ako, na primer, izaberemo c′ = (1, 0, . . . , 0)moºemo dobiti β2 = c′β £ija ¢e najbolja linearna nepristrasna ocena biti β2,OLS =

c′βOLS. Sli£no, bilo koje βj moºe biti dobijeno koriste¢i c′ = (0, . . . , 1, . . . , 0) gdese 1 nalazi na j -tom mestu, a na ostalim mestima su nule. Opet, najbolja linearnanepristrasna ocena za βj = c′β je βj,OLS = c′βOLS. �tavi²e, bilo koja linearnakombinacija za β kao ²to je njihova suma

∑Kj=2 βj, ²to odgovara c′ = (1, 1, . . . , 1)

ima najbolju linearnu nepristrasnu ocenu, a to je∑K

j=2 βj,OLS.Varijansa smetnji σ2 je nepoznata i treba je oceniti. Primetimo da je

E(ε′ε) = E(tr(εε′)) = trE(εε′) = tr(σ2In) = nσ2

pa ε′εn

li£i na prirodnu nepristrasnu ocenu za σ2. Me�utim, ε nije opserviranoi ocenjuje se pomo¢u reziduala najmanjih kvadrata e. Otuda je prirodno ispitatiE(e′e). Pokaza¢emo da je s2 = e′e

n−Knepistrasna ocena za σ2. Da bismo ovo pokazali

potreban nam je slede¢i rezultat

e = Y − XβOLS = Y − X(X ′X)−1X ′Y = PXY = PXε, (2.9)

gde poslednja jednakost sledi na osnovu £injenice da je PXX = 0. Dakle,

E(e′e) = E(ε′PXε) = E(tr(ε′PXε)) = E(tr(εε′PX)) =

42

Page 43: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

= tr(σ2PX) = σ2tr(PX) = σ2(n−K),

gde druga jednakost sledi na osnovu £injenice da je trag skalara skalar, tre¢a naosnovu £injenice da je tr(ABC) = tr(CAB), £etvrta na osnovu £injenice da jeE(trace) = traceE() i E(εε′) = σ2In. Poslednja jednakost sledi na osnovu £injeniceda je

tr(PX) = tr(In)− tr(PX) = n− tr(X(X ′X)−1X ′) =

= n− tr(X ′X(X ′X)−1) = n− tr(IK) = n−K.

Dakle, nepristrasna ocena za V ar(βOLS) = σ2(X ′X)−1 je data sa s2(X ′X)−1.Pokazali smo da je βOLS najbolja linearna nepristrasna ocena za β. Moºe se

pokazati da je to i postojana ocena za β. U stvari, ako potraºimo limes u verovatno¢iod (2.7) kada n → ∞ dobi¢emo

limn→∞

(βOLS) = limn→∞

(β + (X ′X)−1X ′ε) =

= limn→∞

β + limn→∞

(X ′X

n

)−1X ′ε

n= β.

Druga jednakost sledi na osnovu £injenice da je limes sume jednak sumi limesa, atre¢a na osnovu pretpostavke (iv) i £injenice da je limes proizvoda jednak proizvodulimesa.

2.3 Ocena maksimalne verodostojnosti

Uveli smo pretpostavku da smetnje imaju normalnu raspodelu, tj. ε ∼ N (0, σ2In).Ova pretpostavka nam omogu¢ava da dobijemo raspodelu ocena. Ovo je vaºno zakonstrukciju intervala poverenja i testiranje hipoteza. Koriste¢i (2.7) vidimo da jeβOLS linearna kombinacija ε-ova. Linearna kombinacija slu£ajnih promenljivih sanormalnom raspodelom je slu£ajna promenljiva sa normalnom raspodelom. Otudaje

βOLS ∼ N (β; σ2(X ′X)−1).

Sli£no,Y ∼ N (Xβ; σ2In) i e ∼ N (0;σ2PX).

�tavi²e, moºemo napisati zajedni£ku funkciju gustine za ε-ove kao

f(ε1, ε2, . . . , εn;β, σ2) =

(1

2πσ2

)n/2

e−ε′ε2σ2 .

Da dobijemo funkciju verodostojnosti izvr²imo transformaciju ε = Y − Xβ. Jako-bijan ove transformacije je 1. Otuda je

f(y1, y2, . . . , yn;β, σ2) =

(1

2πσ2

)n/2

e−1

2σ2 (y − xβ)′(y − xβ). (2.10)

43

Page 44: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Ako logaritmujemo funkciju verodostojnosti, dobijamo

logL(β, σ2) = −n

2log(2πσ2)− 1

2σ2(Y − Xβ)′(Y − Xβ). (2.11)

Maksimiziraju¢i funkciju verodostojnosti u odnosu na β i σ2 dobijamo ocene maksi-malne verodostojnosti (MLE). Ozna£imo sa θ = σ2 i Q = (Y − Xβ)′(Y − Xβ),imamo:

∂logL(β, θ)

∂β=

2X ′Y − 2X ′Xβ

∂logL(β, θ)

∂θ=

Q

2θ2− n

2θ.

Ako izjedna£imo ova dva parcijalna izvoda prvog reda sa nulom, dobijamo:

βMLE = βOLS i θ = σ2MLE =

Q

n=

RSS

n=

e′e

n.

Samo drugi sabirak u logaritmovanoj funkciji verodostojnosti sadrºi β i taj izraz(bez negativnog znaka) je ve¢ bio minimiziran u odnosu na β u (2.4) daju¢i namocene najmanjih kvadrata. Primetimo da se σ2

MLE razlikuje od s2 samo u stepenimaslobode. Jasno je da je βMLE nepristrasna ocena za β, dok je σ2

MLE pristrasnaocena za σ2. Ako zamenimo ocene maksimalne verodostojnosti u (2.11) dobijamomaksimalnu vrednost funkcije logL, koja iznosi:

logL(βMLE, σ2MLE) = −n

2log(2πσ2

MLE)−1

2σ2MLE

e′e =

= −n

2log(2π)− n

2log

e′e

n− e′e

2e′en

=

= −n

2log(2π)− n

2log

e′e

n− n

2=

= c− n

2log

e′e

n,

gde je c konstanta.Da dobijemo Rao-Kramerovu donju granicu za nepristrasne ocene parametara β

i σ2, ra£unamo prvo informacionu matricu

I(β, σ2) = −E

∂2logL

∂β∂β′∂2logL

∂β∂σ2

∂2logL

∂σ2∂β′∂2logL∂σ2∂σ2

. (2.12)

Podsetimo se oznaka θ = σ2 i Q = (Y − Xβ)′(Y − Xβ). Lako se pokazuje da je

∂2logL(β, θ)

∂β∂θ=

−X ′(Y − Xβ)

θ2.

44

Page 45: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Otuda je

E

(∂2logL(β, θ)

∂β∂θ

)=

−E(X ′ε)

θ2= 0.

Tako�e,∂2logL(β, θ)

∂β∂β′ =−X ′X

θi∂2logL(β, θ)

∂θ∂θ=

n

2θ2− Q

θ3,

pa je

E

(∂2logL(β, θ)

∂θ∂θ

)= −nθ

θ3+

n

2θ2=

−n

2θ2,

gde smo iskoristili £injenicu da je E(Q) = nσ2 = nθ. Otuda je

I(β, σ2) =

[X ′X

σ2 00 n

2σ4

]. (2.13)

Informaciona matrica je blok-dijagonalna matrica izme�u β i σ2. To je vaºna osobinaza regresione modele sa normalnom raspodelom. To implicira da je Rao-Kramerovadonja granica

I−1(β, σ2) =

[σ2(X ′X)−1 0

0 2σ4

n

]. (2.14)

Primetimo da βMLE = βOLS dostiºe Rao-Kramerovu donju granicu. Pod pret-postavkom o normalnosti raspodele smetnji, βOLS je nepristrasna ocena sa najma-njom varijansom (Minimum Variance Unbiased-MVU) za parametar β. Ona je naj-bolja me�u svim nepristrasnim ocenama, a ne samo me�u linearnim nepristrasnimocenama.

Pod pretpostavkom o normalnosti raspodele smetnji varijansa ocene s2 je 2σ4

n−K.

To zna£i da s2 ne dostiºe Rao-Kramerovu donju granicu. Me�utim, na osnovuteorije kompletnih dovoljnih statistika obe ocene βOLS i s2 su najbolje linearnenepristrasne ocene za odgovaraju¢e parametre i otuda su obe ocene e�kasne za maleuzorke. Primetimo, tako�e, da je σ2

MLE pristrasna ocena, pa otuda nije od zna£ajada se upore�uje njena varijansa sa Rao-Kramerovom donjom granicom.

Na²li smo raspodelu za βOLS, i sada ¢emo izvesti raspodelu za s2. Da bismo touradili, iskoristi¢emo rezultat iz teorije matrica koji se ovde navodi bez dokaza.

Lema 1 Za svaku simetri£nu idempotentnu matricu A ranga r, postoji ortogonalnamatrica P tako da vaºi P ′AP = Ir gde je Ir dijagonalna matrica £iji su prvih relemenata jedinice a ostali su nule.

Koristimo Lemu 1 da pokaºemo da RSSσ2 ima χ2

n−K raspodelu. Da bi ovo pokazali

primetimo da je e′eσ2 = ε′PXε

σ2 i da je PX simetri£na i idempotentna matrica rangan-K. Na osnovu Leme 1 postoji matrica P tako da je P ′PXP = Jn−K dijagonalnamatrica gde je prvih n-K elemenata na dijagonali jednako 1 a poslednjih K elemenataje jednako 0. Sada uvedimo smenu promenljivih ν = P ′ε. Dobijamo da ν ∼

45

Page 46: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

N (0;σ2In), s obzirom na to da su ν-ovi linearna kombinacija ε-ova i da je P ′P = In.Zamenjuju¢i ε sa ν u RSS

σ2 dobijamo

ν′P ′PXPν

σ2=

ν′Jn−Kν

σ2=

n−K∑i=1

ν2i

σ2,

gde je poslednja suma samo za i = 1, 2, . . . , n −K. Ali, ν-ovi su nezavisni i jedna-ko raspodeljeni N (0;σ2), pa otuda ν2i

σ2 je kvadrat standardizovane N (0; 1) slu£ajnepromenljive i ima raspodelu χ2

1. �tavi²e, suma nezavisnih χ2 slu£ajnih promenljivihje χ2 slu£ajna promenljiva sa stepenima slobode jednakim zbiru odgovaraju¢ih po-jedina£nih stepena slobode. Otuda, RSS

σ2 ima χ2n−K raspodelu.

Lepota prethodnog rezultata je ²to vaºi za sve kvadratne forme ε′Aε gde je Asimetri£na i idempotentna matrica.

2.4 Interpretacija ocena vi²estruke regresije pomo¢u

reziduala

Izveli smo ocene za parametre regresije metodom najmanjih kvadrata. Fokusi-rajmo se sada na te ocene. Na primer, β2 je ocena parametra vi²estruke regresije β2

dobijena metodom najmanjih kvadrata. Pokaza¢emo da moºemo interpretirati β2

kao koe�cijent jednostruke linearne regresije, pri £emu razmotramo slu£aj kada suprediktori slu£ajne promenljive.Tvr�enje 1:(i) Regresirati X2 u odnosu na sve druge X-ove iz (2.1) i dobiti reziduale ν2, tj.X2 = X2 + ν2(ii) Uraditi prostu linearnu regresiju za Y pomo¢u ν2. Rezultuju¢a ocena koe�cijentanagiba je β2.

Ova prva regresija su²tinski neutrali²e efekat drugih X-ova iz X2, na osnovu £egavarijansa za X2 zavisi samo od ν2. Tvrdnja 1 kaºe da se β2 moºe interpretirati kaokoe�cijent proste linearne regresije za Y pomo¢u ovog reziduala. Ovo je u skladusa interpretacijom pomo¢u parcijalnih izvoda za β2. Koriste¢i rezultat jednostrukeregresije sa regresorom Xi koji je zamenjen rezidualom ν2, dobijamo:

β2 =

∑ni=1 ν2iYi∑ni=1 ν

22i

(2.15)

i

V ar(β2) =σ2∑ni=1 ν

22i

. (2.16)

Alternativna interpretacija β2 kao koe�cijenta jednostruke linearne regresije je slede¢a:Tvr�enje 2:(i) Regresirati Y u odnosu na sve druge X-ove i dobiti predvi�anje Y i reziduale, naprimer, ω.(ii) Uraditi jednostruku linearnu regresiju za ω pomo¢u ν2. β2 je rezultuju¢a ocena

46

Page 47: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

koe�cijenta nagiba.Ova regresija neutrali²e efekat drugih X-ova i iz Y i iz X2 i onda regresira

pro£i²¢ene reziduale za Y pomo¢u reziduala za X2. Opet, ovo je u skladu sa in-terpretacijom pomo¢u parcijanih izvoda za β2.

Ove dve interpretacije β2 vaºne su zbog toga ²to predstavljaju jednostavan na£inshvatanja vi²estruke regresije u kontekstu proste linearne regresije. Tako�e, kaºe dane postoji potreba za neutralisanjem efekata jednog X-a od ostalih X-ova da bi na²linjegov jedinstven efekat na Y. Sve ²to treba uraditi jeste uklju£iti sve X-ove u istuvi²estruku regresiju.

Podsetimo se da je R2 = 1− RSSTSS

za bilo koju regresiju. Ozna£imo sa R22 kvadrat

koe�cijenta korelacije regresije za X2 pomo¢u ostalih X-ova, tada je

R22 = 1−

∑ni=1 ν

22i∑n

i=1 X∗22i

,

gde je X∗2i = X2i−X2 i X2 =

1n

∑ni=1 X2i; TSS =

∑ni=1(X2i−X2)

2 i RSS =∑n

i=1 ν22i.

Ekvivalentno je∑n

i=1 ν22i =

∑ni=1 X

∗22i (1−R2

2) i

V ar(β2) =σ2∑ni=1 ν

22i

=σ2

(1−R22)∑n

i=1 X∗22i

. (2.17)

To zna£i da ako je R22 ve¢e, 1 − R2

2 je manje ali je V ar(β2) ve¢a za �ksirano σ2 i∑ni=1 X

∗22i . Ovaj izraz predstavlja vezu izme�u multikolinearnosti i varijanse ocene

dobijene metodom najmanjih kvadrata. Zavisnost, bliska linearnoj, izme�u X2 iostalih X-ova je rezultat velikog R2

2 ²to, dalje, rezultira velikom varijansom oceneβ2. Linearna zavisnost je ekstremni slu£aj kada je R2

2 = 1. To ukazuje na beskona£nuvarijansu ocene β2. U op²tem slu£aju, zavisnost, bliska linearnoj, izme�u regresorastvara neprecizne ocene. Ocene parametara regresije dobijene metodom najmanjihkvadrata su i dalje nepristrasne dok god su zadovoljene pretpostavke 1-4, ali su teocene nepouzdane s obzirom na njihove velike varijanse. Me�utim, vaºno je naglasitida malo σ2 i veliko

∑ni=1 X

∗22i mogu smanjiti efekat velikog R2

2 vode¢i do zna£ajnerealizovane vrednosti t-statistike za β2. U praksi, multikolinearnost je osetljiva nadodavanje ili izbacivanje opservacija. Vaºnije je posmatrati standardne gre²ke ivrednosti t-statistike da bi procenili ozbiljnost multikolinearnosti.

Mogu¢a re²enja uklju£uju: (i) sakupljanje novih i boljih podataka, ali ovo je retkoizvodljivo; (ii) uvo�enje "informacija bez uzorka" o parametrima modela baziranimna prethodnim empirijskim istraºivanjima ili ekonomskoj teoriji. Problem sa drugimre²enjem je u tome ²to nikada stvarno ne znamo da li su informacije koje uvodimodovoljno dobre da smanje ocenu srednje kvadratne gre²ke.

2.5 Problemi odre�ivanja regresionog modela

Do sada smo pretpostavljali da je prava linearna regresiona veza korektno odre�ena.U praksi je to naj£e²¢e naru²eno. Sa ciljem da pojednostavimo stvari, posmatraj-mo slu£aj kada su regresori slu£ajne promenljive i kada je pravi model jednostruka

47

Page 48: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

regresija sa jednim regresorom X1

pravi model : Yi = α+ β1X1i + εi,

gde su εi ∼ IID(0;σ2), ali ocenjeni model je isuvi²e detaljno odre�en i on uklju£ujedodatnu bezna£ajnu promenljivu X2, tj.

ocenjeni model : Yi = α+ β1X1i + β2X2i.

Na osnovu prethodnog odeljka, jasno je da je β1 =∑n

i=1ν1iYi∑n

i=1ν21i

, gde su ν1 rezidualinajmanjih kvadrata regresije za X1 pomo¢u X2. Ako zamenimo pravi model za Ydobijamo

β1 =1∑n

i=1 ν21i

n∑i=1

ν1i(α+ β1X1i + εi) = β1

∑ni=1 ν1iX1i∑n

i=1 ν21i

+

∑ni=1 ν1iεi∑ni=1 ν

21i

,

s obzirom da je∑n

i=1 ν1i = 0. Ali, X1i = X1i + ν1i i∑n

i=1 X1iν1i = 0, odakle sledi daje∑n

i=1 X1iν1i =∑n

i=1 X1iν1i +∑n

i=1 ν21i =

∑ni=1 ν

21i. Otuda je

β1 = β1 +

∑ni=1 ν1iεi∑ni=1 ν

21i

(2.18)

i E(β1) = β1 s obzirom da je ν1 linearna kombinacija X-ova i E(Xkε) = 0, i = 1, 2.Tako�e,

V ar(β1) =σ2∑ni=1 ν

21i

=σ2

(1−R21)∑n

i=1 X∗21i

, (2.19)

gde je X∗1i = X1i− X1 i R2

1 je kvadrat koe�cijenta korelacije izme�u X1 i X2 dobijenna osnovu regresije za X1 pomo¢u X2. Da smo koristili pravi model da ocenimoβ1, dobili bismo b1 =

∑n

i=1X∗

1iY∗i∑n

i=1X∗2

1i

gde je E(b1) = β1 i V ar(b1) = σ2∑n

i=1X∗2

1i

. Otuda

V ar(β1) ≥ V ar(b1). Primetimo, tako�e, da je u detaljno ocenjenom modelu ocenaza β2, £ija je prava vrednost nula, data sa

β2 =

∑ni=1 ν2iYi∑ni=1 ν

22i

, (2.20)

gde su ν2 reziduali najmanjih kvadrata dobijeni na osnovu regresije za X2 pomo¢uX1. Zamenjuju¢i Y iz pravog modela dobijamo

β2 =

∑ni=1 ν2iεi∑ni=1 ν

22i

(2.21)

s obzirom da je∑n

i=1 ν2iX1i = 0 i∑n

i=1 ν2i = 0. Otuda je E(β2) = 0, s obzirom da jeν2 linearna kombinacija X-ova i E(Xkε) = 0, k = 1, 2. Zaklju£ak je da su u detaljnoocenjenom modelu ocene za β1 i β2 i dalje nepristrasne ali po ceni ve¢e varijanse.Sli£no, ako pravi model sadrºi dva regresora

pravi model : Yi = α+ β1X1i + β2X2i + εi,

48

Page 49: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde su εi ∼ IID(0;σ2), a ocenjeni model je

ocenjeni model : Yi = α+ β1X1i.

Ocenjeni model ne sadrºi relevantnu promenljivu X2 i potcenjuje pravu vezu. Uovom slu£aju je

β1 =

∑ni=1 X

∗1iYi∑n

i=1 X∗21i

, (2.22)

gde je X∗1i = X1i − X1. Zamenjuju¢i Y iz pravog modela, dobijamo

β1 = β1 + β2

∑ni=1 X

∗1iX2i∑n

i=1 X∗21i

+

∑ni=1 X

∗1iεi∑n

i=1 X∗21i

. (2.23)

Otuda je E(β1) = β1 + β2b12 s obzirom da je E(X∗1ε) = 0, gde je b12 =

∑n

i=1X∗

1iX2i∑n

i=1X∗2

1i

.Primetimo da je b12 regresioni nagib £ija je ocena dobijena na osnovu regresije zaX2 pomo¢u X1 i konstante. Tako�e je

V ar(β1) = E(β1 − E(β1))2 = E

(∑ni=1 X

∗1iεi∑n

i=1 X∗21i

)2

=σ2∑n

i=1 X∗21i

i ona nedovoljno obja²njava varijansu ocene za β1 dobijenu na osnovu pravog modela,tj. b1 =

∑n

i=1ν1iYi∑n

i=1ν21i

i

V ar(b1) =σ2∑ni=1 ν

21i

=σ2

(1−R21)∑n

i=1 X∗21i

≥ V ar(β1). (2.24)

Da sumiramo, ocene u slu£aju modela sa izostavljenom promenljivom su pristrasnei ne obja²njavaju varijansu u potpunosti. To je tako�e primer kada se name¢eograni£enje da je vrednost parametra β2 nula kada to ustvari nije ta£no. Uvodi sepristrasnost zato ²to je ograni£enje pogre²no, ali se smanjuje varijansa zato ²to sename¢u nove informacije £ak i ako one mogu biti pogre²ne.

2.6 Koe�cijent parcijalne korelacije

Razmotrimo sada slu£aj kada su prediktori slu£ajne promenljive.Koe�cijent parcijalne korelacije meri £istu korelaciju izme�u zavisno promenljive

i jedne nezavisno promenljive posle isklju£enja zajedni£kog uticaja ostalih nezavisnopromenljivih u modelu (tj. njih posmatramo kao konstante). Na primer, posma-trajmo slede¢i model

Y = α+ β1X1 + β2X2 + ε.

rY X1∗X2 je koe�cijent parcijalne korelacije izme�u Y i X1 posle neutralisanja uticajanezavsino promenljive X2 i iz Y i iz X1 i de�ni²e se na slede¢i na£in

rY X1∗X2 =rY X1 − rY X2rX1X2

(1− r2Y X2)1/2(1− r2X1X2

)1/2,

49

Page 50: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde je rY X1 obi£an koe�cijent korelacije izme�u Y i X1 i rY X2 i rX1X2 se de�ni²uanalogno. Koe�cijent parcijalne korelcije izme�u Y i X2 posle neutralisanja uticajanezavisno promenljive X1 je dat sa

rY X2∗X1 =rY X2 − rY X1rX1X2

(1− r2Y X1)1/2(1− r2X1X2

)1/2.

Sa ciljem da odstranimo uticaj nezavisno promenljive X2 iz Y, regresiramo Y po-mo¢u X2 i na�emo rezidual e1 = Y (r). Da odstranimo uticaj nezavisno promenljiveX2 iz X1, regresiramo X1 pomo¢u X2 i na�emo rezidual e2 = X

(r)1 . Y (r), X

(r)1

predstavljaju varijacije u Y i X1, koje su na taj na£in ostale neobja²njene posleodstranjivanja uticaja nezavisno promenljive X2 i iz Y i iz X1. Otuda je koe�cijentparcijalne korelacije samo obi£an koe�cijent korelacije izme�u reziduala Y (r) i X(r)

1 ,tj. rY X1∗X2 = r

Y (r)X(r)1.

Koe�cijenti parcijalne korelcije uzimaju vrednosti izme�u -1 i 1, kao ²to jeto slu£aj sa obi£nim koe�cijentom korelacije. Na primer, rY X1∗X2 = −1 pred-stavlja slu£aj kada postoji savr²ena negativna linearna veza izme�u promenljivihY i X1 posle odstranjivanja zajedni£kog uticaja nezavisno promenljive X2 i iz Y iiz X1. Me�utim, rY X1∗X2 = 1 ukazuje na savr²enu pozitivnu linearnu vezu izme�upromenljivih Y i X1. rY X1∗X2 = 0 ukazuje na nepostojanje linearne veze izme�upromenljivih Y i X1 kada je odstranjen uticaj nezavisno promenljive X2 i iz Y i izX1. Kao rezultat, X1 moºe biti izostavljeno iz regresije.

Znak koe�cijenta parcijalne korelacije je isti kao znak odgovaraju¢eg ocenjenogparametra. Na primer, za ocenjenu regresionu jedna£inu Y = α + β1X1 + β2X2,rY X1∗X2 ima isti znak kao koe�cijent β1, a rY X2∗X1 ima isti znak kao koe�cijent β2.

Koe�cijent parcijalne korelacije se koristi u analizi vi²estruke regresije da seodredi relativna vaºnost svake obja²njavaju¢e promenljive u modelu. Nezavisnapromenljiva sa najve¢im koe�cijentom parcijalne korelacije u odnosu na zavisnopromenljivu ima najve¢u obja²njavaju¢u mo¢ u modelu i nalazi se na prvom mestuu jedna£ini vi²estruke regresije. Treba primetiti, me�utim, da koe�cijenti parcijalnekorelcije daju ordinarnu, a ne i kardinalnu, meru £iste korelcije, a suma koe�cijenataparcijalne korelacije izme�u zavisne i svih nezavisno promenljivih u modelu ne moranuºno da dostiºe 1.

2.7 R2 nasuprot R2

S obzirom da metod najmanjih kvadrata minimizira rezidualnu sumu kvadrata,dodavaju¢i jednu ili vi²e promenljivih u regresiju ne moºemo pove¢ati tu sumukvadrata. Posle svega, mi minimiziramo po skupu parametara ve¢e dimenzije itaj minimum je manji ili jednak minimumu po podskupu parametarskog prostora.Otuda, ako slu£ajnu promenljivu Y ºelimo da objasnimo pomo¢u novih dodatihregresora, tj. ako u regresionu jedna£inu dodajemo nove nezavisno promenljive,pri £emu sada razmatramo slu£aj kada su regresori u regresionoj jedna£ini slu£aj-ne promenljive, tada ¢e

∑ni=1 e

2i biti nerastu¢e i R2 neopadaju¢e, s obzirom da je

50

Page 51: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

R2 = 1 −∑n

i=1e2i∑n

i=1Y ∗2i

. Otuda, kriterijum za odabir regresije koji "maksimizira R2"

nema smisla, po²to moºemo dodati vi²e promenljivih regresiji da bi pobolj²ali R2

(ili u najgorem slu£aju ostaviti kakvo jeste).Posmatrajmo sada regresionu jedna£inu

Yi = α+ β2X2i + β3X3i + . . .+ βKXKi + εi, i = 1, 2, . . . , n.

Sa ciljem "kaºnjavanja" istraºiva£a zbog uvo�enja dodatnih promenljivih, ra£unamo

R2 = 1−

∑n

i=1e2i

n−K∑n

i=1Y ∗2i

n−1

, (2.25)

gde su∑n

i=1 e2i i

∑ni=1 Y

∗2i podeljeni svojim stepenima slobode. Oznaka za

∑n

i=1e2i

n−K

je s2. Ovo se razlikuje od s2 iz glave 1 u stepenima slobode. Ovde je stepenslobode n-K zato ²to imamo K ocenjenih koe�cijenata.

∑ni=1 e

2i je nerastu¢e ukoliko

dodajemo promenljive, ali se stepen slobode smanjuje za jedan sa svakom dodatompromenljivom. Prema tome, s2 ¢e se smanjiti samo ako efekat smanjenja

∑ni=1 e

2i

prevagne u odnosu na efekat gubitka jednog stepena slobode za s2. To je idejapostojanja R2, tj. "kaºnjavanje" zbog svake dodate promenljive smanjenjem brojastepeni slobode za jedan. Otuda ¢e se uve¢avati R2 samo kada smanjenje u

∑ni=1 e

2i

nadoknadi ovaj gubitak, tj. samo kada s2 opada. Koriste¢i se de�nicijom za R2

moºemo ga povezati sa R2 na slede¢i na£in

1− R2 =

∑n

i=1e2i

n−K∑n

i=1Y ∗2i

n−1

=(n− 1)

∑ni=1 e

2i

(n−K)∑n

i=1 Y∗2i

= (1−R2)n− 1

n−K.

2.8 Intervali poverenja i testiranje hipoteza

Konstruisa¢emo interval poverenja za bilo koju linearnu kombinaciju za β, naprimer c′β. Znamo da c′βOLS ∼ N (c′β; σ2c′(X ′X)−1c) i da je to skalar. Otudaje

z =c′βOLS − c′β

σ(c′(X ′X)−1c)1/2(2.26)

standardizovana slu£ajna promenljiva N (0; 1). Zamena σ sa s je ekvivalentna de-ljenju z sa kvadratnim korenom slu£ajne promenljive sa χ2 raspodelom podeljenomsa svojim stepenom slobode. Dobijena slu£ajna promenljiva je (n−K) s

2

σ2 = RSSσ2 za

koju je pokazano da ima raspodelu χ2n−K . Slu£ajne promenljive z i RSS

σ2 su nezavisne.Da to pokaºemo koristimo rezulat iz teorije matrica koji navodimo bez dokaza.

Lema 2 Linearna Bε i kvadratna forma ε′Aε normalnih slu£ajnih promenljivih εsu nezavisne ako je BA = 0, gde su A i B proizvoljne konstantne matrice.

51

Page 52: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

U tom smislu, βOLS − β = (X ′X)−1X ′ε je linearna forma po ε, a (n −K)s2 =e′e = ε′PXPXε = ε′PXε je kvadrtna forma po ε. S obzirom na to da vaºi

(X ′X)−1X ′PX = (X ′X)−1X ′[In − X(X ′X)−1X ′] =

= (X ′X)−1X ′ − (X ′X)−1X ′X(X ′X)−1X ′ = 0,

ove dve forme su nezavisne, tj. slu£ajne promenljive z i RSSσ2 su nezavisne. To zna£i

da je

t =c′βOLS − c′β

s(c′(X ′X)−1c)1/2(2.27)

slu£ajna promenljiva sa raspodelom N (0; 1) podeljena kvadratnim korenom neza-

visne slu£ajne promenljive sa raspodelomχ2n−K

n−K. To je t-statistika sa (n-K) stepeni

slobode. Otuda, 100(1− a)% interval poverenja za c′β je

c′βOLS ± ta/2s(c′(X ′X)−1c)1/2.

2.9 Zdruºeni intervali poverenja i testiranje

linearnih ograni£enja

Ponekad nam treba vi²e podataka o parametrima regresije ili ºelimo da vidimoefekte jedne ili vi²e nezavisno promenljivih u regresionom modelu kada su nametnutaograni£enja za ostale nezavisno promenljive u modelu. U tom slu£aju, moºe biti in-teresnatno primeniti zdruºeni test zna£ajnosti za dva ili vi²e parametra istovremenoili, prosto, da se testira da li su zadovoljena neka linearna ograni£enja za parametreregresije. Iako ograni£enja za parametre regresionog modela mogu biti nelinearna,mi ¢emo se samo baviti ocenama parametra kada su nametnutna uop²tena linearnaograni£enja.

Strategija koja sledi sastoji se u tome da se nametnu ograni£enja modelu i da seizvedu rezultati na osnovu takvog modela. Odgovaraju¢a rezidualna suma kvadratamodela za koji vaºe linearna ograni£enja za parametre se ozna£ava sa RRSS. Zatimposmatramo model bez nametanja tih linearnih ograni£enja da dobijemo rezidualnusumu kvadrata modela bez ograni£enja za parametre, koju ozna£avamo sa URSS. Ustvari, ºelimo da istraºimo vezu izme�u sume kvadrata gre²aka pravog modela i up-ro²¢enog modela. Pravi model je model bez ograni£enja za parametre, a upro²¢enimodel je model za koji vaºe linearna ograni£enja za parametre. Zato formiramoslede¢u F-statistiku

F =RRSS−URSS

gURSSn−K

,

gde sa g ozna£avamo broj ograni£enja i n-K je broj stepeni slobode modela za koji nevaºe ograni£enja za parametre. Ideja ovog testa je intuitivna. Ako ograni£enja ina£evaºe tada RRSS ne bi trebalo mnogo da se razlikuje od URSS. Ako se RRSS razlikujeod URSS tada odbacujemo ta ograni£enja. Imenilac F-statistike je postojana ocenavarijanse regresije bez ograni£enja za parametre. Deljenjem sa URSS

n−K, F-statistika

52

Page 53: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

postaje invarjantna u odnosu na merne jedinice.Testirajmo, na primer, hipotezu da je β2 = β4 = 0, tj. da promenljive X2 i X4

nisu od zna£aja za model. To moºe biti zapisano kao c′2β = c′4β = 0, gde je c′jvektor vrste koji na j -oj poziciji ima jedinicu, a sve ostalo su nule. Da testiramoove dve hipoteze istovremeno, zapi²emo ova ograni£enja za β u formi matrica Rβ =0, gde je R′ = [c2, c4]. Na sli£an na£in moºemo zapisati g ograni£enja za β uformi matrice R koja ¢e sada imati dimenzije g × K. Tako�e, ova ograni£enjane moraju imati formu Rβ = 0, ve¢ mogu imati uop²teniju formu Rβ = r, gdeje r vektor konstanti dimenzije g × 1. Na primer, β1 + β2 = 1 i 3β3 + 2β4 = 5su dva takva ograni£enja. S obzirom da je Rβ kolekcija linearnih kombinacijaza β, njena najbolja linearna nepristrasna ocena je RβOLS i ona ima raspodeluN (Rβ;σ2R(X ′X)−1R′). Standardizacija forme sa skalarom c′β dovodi nas doslede¢eg izraza

(RβOLS − Rβ)′[R(X ′X)−1R′]−1(RβOLS − Rβ)

σ2, (2.28)

pri £emu smo mnoºili inverzom, umesto da podelimo varijansom. S obzirom dasmo izvr²ili transformaciju ekvivalentnu sa deljenjem varijansom, a ne standardnomdevijacijom, kvadriramo brojilac, ²to u vektorskoj formi zna£i mnoºiti transpono-vanim vektorom. Ako zamenimo matricu R vektorom c′ u (2.28) dobijamo kvadratz -statistike koja je dobijena u (2.26)

(c′βOLS − c′β)2

σ2[c′(X ′X)−1c]= z2.

S obzirom da z ∼ N (0; 1) njen kvadrat ima χ21 raspodelu pod pretpostavkom da

vaºi nulta hipoteza. Da dobijemo raspodelu promenljive date sa (2.28), trik je da seona zapi²e u terminima originalnih smetnji, tj.

ε′X(X ′X)−1R′[R(X ′X)−1R′]−1R(X ′X)−1X ′ε

σ2, (2.29)

pri £emu je RβOLS − Rβ zamenjeno sa R(X ′X)−1X ′ε. Primetimo da je (2.29)kvadratna forma smetnji tipa ε′Aε

σ2 , gde smo sa A ozna£ili matricu

A = X(X ′X)−1R′[R(X ′X)−1R′]−1R(X ′X)−1X ′.

Matrica A je simetri£na i idempotentna ranga g, odnosno

A2 = X(X ′X)−1R′[R(X ′X)−1R′]−1R(X ′X)−1X ′X(X ′X)−1R′

[R(X ′X)−1R′]−1R(X ′X)−1X ′ =

= X(X ′X)−1R′[R(X ′X)−1R′]−1R(X ′X)−1X ′ = A

i

rang(A) = tr(A) = tr(X(X ′X)−1R′[R(X ′X)−1R′]−1R(X ′X)−1X ′) =

= tr(R(X ′X)−1X ′X(X ′X)−1R′[R(X ′X)−1R′]−1) = tr(Ig) = g.

53

Page 54: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

S obzirom da je ε ∼ N (0;σ2In), na osnovu izvo�enja koje sledi iza Leme 1 imamoda vaºi ε

′Aεσ2 ∼ χ2

g. Opet, σ2 je neopservirano, pa (2.29) delimo sa (n − K) s2

σ2 ∼

χ2n−K . Znamo da je s2 = ε′PXε

n−K. I ovde koristimo rezultat teorije matrica koji

navodimo bez dokaza.

Lema 3 Dve pozitivne semi-de�nitne kvadratne forme ε′Aε i ε′Bε normalnih slu£a-jnih promenljivih ε su nezavisne akko je AB = 0, gde su A i B proizvoljne kon-stantne matrice.

Kvadratne forme ε′PXεn−K

i ε′Aεσ2 su nezavisne s obzirom da vaºi PXA = 0. Koli£nik

dve nezavisne slu£ajne promenljive sa χ2 raspodelom podeljenim svojim stepenimaslobode je slu£ajna promenljiva koja ima Fi²erovu raspodelu sa odgovaraju¢im ste-penima slobode. Na taj na£in dobijamo statistiku

(RβOLS − r)′[R(X ′X)−1R′]−1(RβOLS − r)

gs2(2.30)

koja pod pretpostavkom da vaºi nulta hipoteza Rβ = r ima raspodelu F(g,n-K).Maksimiziranje funkcije verodostojnosti date sa (2.10) pod uslovom da vaºe

ograni£enja Rβ = r je ekvivalentno minimiziranju rezidualne sume kvadrata poduslovom da vaºe ograni£enja Rβ = r. Formiramo Lagranºeovu funkciju

Ψ(β, µ) = (Y − Xβ)′(Y − Xβ) + 2µ′(Rβ − r), (2.31)

i diferenciraju¢i u odnosu na β i µ dobijamo:

∂Ψ(β, µ)

∂β= −2X ′Y + 2X ′Xβ + 2R′µ = 0 (2.32)

∂Ψ(β, µ)

∂µ= 2(Rβ − r) = 0. (2.33)

Re²avaju¢i prethodni sistem po µ dobijamo

R′µ = X ′Y − X ′Xβ,

odavde je dalje

R(X ′X)−1R′µ = R(X ′X)−1X ′Y − R(X ′X)−1X ′Xβ = RβOLS − Rβ,

tj.µ = [R(X ′X)−1R′]−1(RβOLS − r). (2.34)

Zamenjuju¢i (2.34) u (2.32) dobijamo

βRLS = βOLS − (X ′X)−1R′[R(X ′X)−1R′]−1(RβOLS − r). (2.35)

Ocena najmanjih kvadrata za β sa ograni£enjima, βRLS (Restricted Least Squares-RLS), se razlikuje od ocene najmanjih kvadrata bez ograni£enja u drugom sabirku za

54

Page 55: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

izraz u zagradi pokazuju¢i stepen za koji ocena najmanjih kvadrata bez ograni£enjazadovoljava ograni£enja. βRLS je pristrasna ocena osim u slu£aju kada je organi£enjeRβ = r zadovoljeno. Ako potraºimo o£ekivanje od (2.35) dobijamo

E(βRLS) = E(βOLS)− (X ′X)−1R′[R(X ′X)−1R′]−1(E(RβOLS − r)) =

= β − (X ′X)−1R′[R(X ′X)−1R′]−1(Rβ − r).

Ukoliko je ograni£enje zadovoljeno Rβ = r, tj. Rβ − r = 0, ocena βRLS je ne-pristrasna. Me�utim, njena varijansa je uvek manja od varijanse za βOLS. Tonas dovodi do kompromisa izme�u pristrasnosti i varijanse i kriterijuma srednjekvadratne gre²ke.

Ocena Lagranºeovog multiplikatora µ ima raspodeluN (0;σ2[R(X ′X)−1R′]−1)pod pretpostavkom da vaºi nulta hipoteza. Otuda, da testiramo nultu hipotezuµ = 0 koristimo

µ′[R(X ′X)−1R′]µ

σ2=

(RβOLS − r)′[R(X ′X)−1R′]−1(RβOLS − r)

σ2. (2.36)

S obzirom da µ meri tro²kove nametanja ograni£enja Rβ = r, nije iznena�enje daje desna strana u (2.36) ve¢ dobijena u (2.28) i da ima χ2

g raspodelu.

Primer 2.9.1 Zdruºena zna£ajnost svih koe�cijenata nagiba. U ovom slu£aju testi-ramo hipotezu

H0 : β2 = β3 = . . . = βK = 0

protiv alternativne H1: da je za bar jedno k, k = 2, . . . , K, βk = 0. Ako vaºi nultahipoteza, samo konstanta ostaje u regresiji. Za regresiju za Y samo pomo¢u konstanteα, ocena najmanjih kvadrata za parametar α je Y . To zna£i da je odgovaraju¢arezidualna suma kvadrata

∑ni=1(Yi − Y )2. Dakle, RRSS je jednako totalnoj sumi

kvadrata regresije (2.1), tj.∑n

i=1 Y∗2i . URSS je kao i obi£no

∑ni=1 e

2i dobijena na

osnovu modela bez ograni£enja za parametre datog sa (2.1). Otuda, odgovaraju¢aF-statistika za H0 je

F =TSS−RSS

K−1RSSn−K

=

∑n

i=1Y ∗2i −

∑n

i=1e2i

K−1∑n

i=1e2i

n−K

=R2

1−R2

n−K

K − 1,

gde je R2 = 1 −∑n

i=1e2i∑n

i=1Y ∗2i

. Ova F-statistika ima K-1 i n-K stepeni slobode podpretpostavkom da vaºi nulta hipoteza i obi£no je data kao izlazna informacija uprogramskim paketima.

Primer 2.9.2 Testiranje konstantnog prinosa u Cobb-Douglas-ovoj funkciji pro-izvodnje.

Q = AKαLβEγM δeε

je Cobb-Douglas-ova funkcija proizvodnje gde je K-kapital, L-radna snaga, E-energija,M-materijal. Konstantni prinosi zna£e koliko je proporcionalno pove¢anje ulaznih

55

Page 56: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

proizvoda isto toliko je proporcionalno pove¢anje izlaznih. Ozna£imo to propor-cionalno pove¢anje sa λ, tada je: K∗ = λK, L∗ = λL, E∗ = λE, M∗ = λM .

Q∗ = A(K∗)α(L∗)β(E∗)γ(M∗)δeε = A(λK)α(λL)β(λE)γ(λM)δeε =

= λ(α+β+γ+δ)AKαLβEγM δeε = λ(α+β+γ+δ)Q

Da bi poslednji izraz bio jednak sa λQ traºeno ograni£enje mora biti: α+β+γ+δ = 1.Cobb-Douglas-ova funkcija proizvodnje je nelinearna u odnosu na promenljive i moºese u£initi linearnom ako se logaritmuju obe strane

logQ = logA+ αlogK + βlogL+ γlogE + δlogM + ε. (2.37)

Ovo je linearna regresija gde je Y = logQ, X2 = logK, X3 = logL, X4 =logE, X5 = logM . Obi£ni najmanji kvadrati su najbolje linearne nepristrasne oceneovog nelinearnog modela dok god ε zadovoljava pretpostavke 1-4. Primetimo da sesve smetnje u originalnoj Cobb-Douglas-ovoj funkciji proizvodnje javljaju mnoºenjemsa eεi. Ako pak smetnje dodamo kao: Q = AKαLβEγM δ + ε i logaritmujemo obestrane, desnu stranu ne¢emo pojednostaviti i mora¢emo da je ocenimo nelinearnimnajmanjim kvadratima.

Sada kada smo dobili model linearne regresije, moºemo testirati konstantne pri-nose na slede¢i na£in. Regresija bez ograni£enja za parametre je data sa (2.37), sabrojem stepeni slobode n-5. Uvo�enje pretpostavke H0, zna£i zamena nekog parame-tra, na primer, parametra β sa 1− α− γ − δ. Kada to zamenimo dobijamo slede¢uregresiju za koju vaºi linearno ograni£enje za parametre i koja sada ima jedan para-metar manje

logQ = logA+ αlogK + (1− α− γ − δ)logL+ γlogE + δlogM + ε =

= logA+ logL+ α(logK − logL) + γ(logE − logL) + δ(logM − logL) + ε,

odakle je

logQ

L= logA+ αlog

K

L+ γlog

E

L+ δlog

M

L+ ε. (2.38)

Broj stepeni slobode je n-4. Opet imamo sve informacije koje su nam potrebne za

test statistiku F =RRSS−URSS

gURSSn−K

i ta statistika ima F1,n−5 raspodelu pod pretpostavkom

da vaºi nulta hipoteza H0.

56

Page 57: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Glava 3

Odstupanja od klasi£nih pretpostavki

U ovom delu, oslobodi¢emo se pretpostavki koje smo zadali u glavi 1, jedne pojedne i prou£i¢emo efekte na ocene dobijene metodom obi£nih najmanjih kvadrata.U slu£aju da ocene dobijene metodom obi£nih najmanjih kvadrata nisu vi²e validne,izve²¢emo alternativne ocene i predloºi¢emo neke testove koji ¢e nam omogu¢iti daproverimo da li je neka pretpostvka naru²ena.

3.1 Pretpostavka o nultom o£ekivanju

Odstupanje od pretpostavke 1 podrazumeva da o£ekivanje smetnji nije vi²e nula.Posmatrajmo dva slu£aja:Slu£aj 1: E(εi) = µ = 0

Smetnje imaju zajedni£ko o£ekivanje koje nije nula. U ovom slu£aju moºemooduzeti µ od εi i dobiti nove smetnje ε∗i = εi − µ koje imaju o£ekivanje nula izadovoljavaju sve ostale pretpostavke za εi. Oduzimanjem µ od ε, dodajemo µkonstanti α i na taj na£in ne menjamo regresionu jedna£inu

Yi = α∗ + βXi + ε∗i , (3.1)

gde je α∗ = α+µ. Jasno je da samo α∗ i β mogu biti ocenjeni, ali ne i α i µ. Drugimre£ima, ne moºemo dobiti α i µ iz ocenjenog α∗ bez nekih dodatnih informacija. Naprimer, posmatrajmo prostu linearnu regresiju sa konstantom

Yi = α+ βXi + εi, i = 1, 2, . . . , n.

Ako su smetnje εi nezavisne i jednako raspodeljene slu£ajne promenljive sa gammaraspodelom f(εi) =

1Γ(θ)

εθ−1i e−εi , gde je εi ≥ 0 i θ > 0, tada je αOLS−s2 nepristrasna

ocena parametra α. Ili, ako su smetnje εi nezavisne i jednako raspodeljene slu£ajnepromenljive sa χ2

ν raspodelom sa ν stepeni slobode, tada je αOLS − s2

2nepristrasna

ocena parametra α.Sa ovom reparametrizacijom, jedna£ina (3.1) zadovoljava £etiri klasi£ne pret-

postavke i otuda metod obi£nih najmanjih kvadrata daje najbolje linearne nepri-strasne ocene za parametre α∗ i β. Dakle, konstantno nenula o£ekivanje smetnji

57

Page 58: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

uti£e samo na ocenu odse£ka ali ne i na ocenu nagiba. Na sre¢u, u najve¢em brojuekonomskih zahteva je od interesa koe�cijent nagiba a ne odse£ak.Slu£aj 2: E(εi) = µi

Smetnje imaju o£ekivanje koje je druga£ije za svako posmatranje. U ovomslu£aju, moºemo transformisati regresionu jedna£inu (3.1) dodavaju¢i i oduzimaju¢iµi. Problem je, me�utim, ²to je sada α∗

i = α + µi druga£ije za svako posmatranje iotuda imamo vi²e parametara nego posmatranja. U stvari, treba oceniti n odse£akai jedan nagib sa n posmatranja. Ukoliko nemamo ponovljene opservacije (vi²e pos-matranja za svako i) u dostupnim informacijama ili neke prioritetne informacije zaα∗i , ne moºemo oceniti ovaj model.

3.2 Stohasti£ke obja²njavaju¢e promenljive

Neka je naru²ena pretpostavka 4. U ovom slu£aju, X je slu£ajna promenljivakoja moºe biti:(i) nezavisna;(ii) istovremeno nekorelisana; ili(iii) prosto korelisana sa smetnjama.Slu£aj 1: Ako je X slu£ajna promenljiva nezavisna od ε, onda vaºe svi rezultati izglave 1, ali su oni sada uslovljeni nekim skupom podataka za X dobijenim na osnovuuzorka.

Podsetimo se da je ocena parametra β za prostu linearnu regresiju

βOLS = β +n∑

i=1

ωiεi gde je ωi =X∗

i∑ni=1 X

∗2i

. (3.2)

Otuda, kada potraºimo o£ekivanje dobijamo E(∑n

i=1 ωiεi) =∑n

i=1 E(ωi)E(εi) = 0.Prva jednakost vaºi zato ²to su X i ε nezavisni, a druga zato ²to ε ima o£ekivanjenula. Drugim re£ima, vaºi osobina nepristrasnosti ocene dobijene metodom obi£nihnajmanjih kvadrata. Me�utim,

V ar(βOLS) = E

(n∑

i=1

ωiεi

)2

=n∑

i=1

n∑j=1

E(ωiωj)E(εiεj) = σ2n∑

i=1

Eω2i ,

gde poslednja jednakost sledi na osnovu pretpostavke 2 i 3, homoskedasti£nosti inepostojanja serijske korelisanosti. Jedina razlika izme�u ovog rezultata i onog izglave 1 je ta ²to traºimo o£ekivanje od X-ova, a ne same X-ove. Dakle, uslovljava-ju¢i u odnosu na pojedini skup podataka za X koji je opserviran, moºemo koristitisve rezultate iz glave 1. Tako�e, maksimiziranje funkcije verodostojnosti uklju£ujei X-ove i ε-ne. Ali, dok god raspodela za X ne uklju£uje parametre koje ocenju-jemo, tj. α, β i σ2, dobijaju se iste ocene maksimalne verodostojnosti, zato ²toje f(x1, x2, . . . , xn, ε1, ε2, . . . , εn) = f1(x1, x2, . . . , xn)f2(ε1, ε2, . . . , εn) s obzirom dasu X i ε nezavisni. Maksimiziranje funkcije f u odnosu na α, β i σ2 je isto kaomaksimiziranje funkcije f2 u odnosu na α, β i σ2, dok god f1 nije funkcija ovihparametara.

58

Page 59: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Slu£aj 2: Posmatrajmo prost model potro²nje gde je Yt, trenutna potro²nja, funkcijaod Yt−1, potro²nje iz prethodnog perioda. U ovom slu£aju, regresiona jedna£ina je

Yt = α+ βYt−1 + εt, t = 2, 3, . . . , T,

gde smo na ovaj na£in izgubili jednu opservaciju. O£igledno je da je Yt u korelacijisa εt, ali ovde je pitanje da li je Yt−1 u korelaciji sa εt, jer je Yt−1 obja²njavaju¢apromenljiva Xt. Dok god pretpostavka 3 nije naru²ena, tj. ε za svaki period nisuu korelaciji, εt predstavlja novodobijenu smetnju nezavisnu od prethodnih smetnjii otuda ona nije u korelaciji sa prethodno dobijenim Yt−1. Na ovo se misli kada sekaºe istovremeno nekorelisana, tj. εt je u korelaciji sa Yt ali nije u korelaciji sa Yt−1.Ocena obi£nih najmanjih kvadrata za β je

βOLS =

∑Tt=2 Y

∗t Y

∗t−1∑T

t=2 Y∗2t−1

= β +

∑Tt=2 Y

∗t−1εt∑T

t=2 Y∗2t−1

i njena o£ekivana vrednost nije β, zato ²to je u op²tem slu£aju

E

(∑Tt=2 Y

∗t−1εt∑T

t=2 Y∗2t−1

)=

E(∑T

t=2 Y∗t−1εt

)E(∑T

t=2 Y∗2t−1

) .

O£ekivana vrednost koli£nika nije jednaka koli£niku o£ekivanih vrednosti. Tako�e,iako je E(Yt−1εt) = 0 lako se vidi da je E(Y ∗

t−1εt) = 0. U stvari, Y ∗t−1 = Yt−1− Y i Y

sadrºi sve Yt, a znamo da je E(Ytεt) = 0. Dakle, izgubili smo osobinu nepristrasnostiocene obi£nih najmanjih kvadrata. Me�utim, sve asimptotske osobine i dalje vaºe.U stvari, βOLS je postojana zato ²to

βOLSv−→ β +

Cov(Yn−k, εn)

V ar(Y )= β, T → ∞, k > 0,

gde jednakost sledi na osnovu izraza za ocenu parametra β i £injenice da∑T

t=2Y ∗t−1εt

T

v−→ Cov(Yn−k, εn), k > 0 ²to je nula i∑T

t=2Y ∗2t−1

T

v−→ V ar(Y ), ²to jepozitivno i kona£no.Slu£aj 3: Ovaj slu£aj se odnosi na £injenicu da su X i ε u korelaciji. U ovomslu£aju, ocene obi£nih najmanjih kvadrata su pristrasne i nepostojane. To se moºelako izvesti koriste¢i (3.2), s obzirom da

∑n

i=1X∗

i εi

n

v−→ Cov(X, ε) = 0, kada n → ∞ i

grani£na vrednost u verovatno¢i kada n → ∞ za∑n

i=1X∗2

i

nje pozitivna i kona£na. To

zna£i da ocena obi£nih najmanjih kvadrata vi²e nije odgovaraju¢a i treba da se izvedealternativna ocena da ispravi ovu pristrasnost. U stvari, prou£i¢emo tri speci�£naslu£aja u kojima je ova pretpostavka naru²ena, a to su: (i) slu£aj sa gre²kama primerenju; (ii) slu£aj sa "lagged" slu£ajnim promenljivama sa korelisanim gre²kama;(iii) simultane jedna£ine.

Ukratko, slu£aj sa gre²kama pri merenju obuhvata situaciju gde je pravi regre-sioni model izraºen u terminima X◦, ali su X◦ merene sa gre²kama, tj. Xi = X◦

i +νi,

59

Page 60: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

pa opserviramo Xi, ne X◦i . Otuda, kada zamenimo to Xi umesto X◦

i u regresionujedna£inu, dobijamo

Yi = α+ βX◦i + εi = α+ βXi + (εi − βνi),

gde je kombinovana smetnja sada u korelaciji sa Xi, s obzirom da je Xi u korelacijisa νi. Posle svega je Xi = X◦

i + νi i E(Xiνi) = E(ν2i ) ako X◦

i i νi nisu u korelaciji iako je E(νi) = 0.

U drugom slu£aju, ako su εt korelisani tokom vremena, tj. ako je εt−1 u korelacijisa εt, tada Yt−1, koja je funkcija od εt−1, ¢e tako�e biti u korelaciji sa εt i E(Yt−1εt) =0. Vi²e o ovome kada govorimo o korelaciji.

Kona£no, u slu£aju (iii), posmatrajmo jedna£ine potraºnje i nabavke gde jevrednost Qt funkcija od cene Pt u obe jedna£ine:

Qt = α1 + β1Pt + εt (potraºnja) (∗)

Qt = α2 + β2Pt + νt (nabavka), (∗∗)

gde su smetnje εt i νt nezavisne slu£ajne promenljive. Ovde je pitanje da li je Pt

u korelaciji sa smetnjama εt i νt u obe jedna£ine. Odgovor je da, zato ²to su (*)i (**) dve jedna£ine sa dve nepoznate Pt i Qt. Re²avaju¢i sistem u odnosu na ovepromenljive, dobijamo Pt i Qt kao linearne funkcije od konstante i od εt i νt. KadaPt pomoºimo sa εt, dobijamo da je to zbir slobodnog £lana, εt pomoºen nekimkoe�cijentom, νi pomnoºen nekim koe�cijentom, ε2t i εtνt. S obzirom na to da jeV ar(εt) = 0, to zna£i da E(Ptεt) = 0 i E(Ptνt) = 0 i ocene obi£nih najmanjihkvadrata i za (*) i za (**) su pristrasne i nepostojane.

Za sve situacije gde su X i ε u korelaciji, bilo bi interesantno predstaviti gra�£kiza²to ocena obi£nih najmanjih kvadrata nije vi²e postojana. Neka su smetnje, naprimer, pozitivno korelisane sa obja²njavaju¢om promenljivom. Slika 1.3 iz glave1 prikazuje istinitu regresionu liniju α + βXi. Ona tako�e pokazuje da kada su Xi

i εi pozitivno korelisani, tada Xi koje je ve¢e od svog o£ekivanja ¢e biti povezanosa smetnjom εi koja je iznad svog o£ekivanja, tj. sa pozitivnim smetnjom. Stoga,Yi = α + βXi + εi ¢e uvek biti iznad prave regresione linije kad god je Xi iznadsvog o£ekivanja. Sli£no, Yi ¢e biti ispod prave regresione linije za svako Xi ispodsvog o£ekivanja. To zna£i da bez poznavanja prave regresione linije, istraºiva£ kojira£una ocene obi£nih najmanjih kvadrata na osnovu ovih podataka ¢e imati pristra-san odse£ak i nagib. U stvari, odse£ak ¢e biti nedovoljno izraºen a nagib ¢e bitiprevi²e izraºen. �tavi²e, ova pristrasnost ne¢e nestati ako dodamo jo² podataka,s obzirom na to da ¢e ovi novi podaci biti generisani istim mehanizmom koji jeprethodno opisan. Otuda su ove ocene obi£nih najmanjih kvadrata nepostojane.

Sli£no, ako su Xi i εi negativno korelisani, odse£ak ¢e biti previ²e izraºen a nagib¢e biti nedovoljno izraºen. Ova pri£a se primenjuje na bilo koju jedna£inu sa barjednom promenljivom na desnoj strani koja je u korelaciji sa smetnjama.

60

Page 61: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

3.3 Multikolinearnost

Razmotrimo sada slu£aj kada su regresori slu£ajne promenljive.Multikolinearnost predstavlja slu£aj kada su dve ili vi²e obja²njavaju¢ih promen-

ljivih u regresiji zna£ajno korelisane i to predstavlja pote²ko¢u ili nemogu¢nost dase izoluje njihov individualni uticaj na zavisno promenljivu. Dve ili vi²e nezavis-nih promenljivih su savr²eno korelisane ako jedna ili vi²e promenljivih moºe da seizrazi kao linearna kombinacija ostalih promenljivih. Na primer, postoji savr²enakolinearnost izme�u X1 i X2 ako je X1 = 2X2 ili X1 = 5− 1

3X2. Ako su dve ili vi²e

obja²njavaju¢ih promenljivih savr²eno korelisane, bi¢e nemogu¢e dobiti jedinstveneocene parametara metodom obi£nih najmanjih kvadrata, zato ²to ¢e sistem normal-nih jedna£ina sadrºati dve ili vi²e jedna£ina koje nisu nezavisne.

Zna£ajna, ali ne savr²ena, kolinearnost predstavlja slu£aj kada su dve ili vi²enezavisnih promenljivih u regresionom modelu zna£ajno korelisane. U ovom slu£aju,kao ²to smo ve¢ rekli, moºe biti te²ko ili nemogu¢e izdvojiti efekat svake od zna£ajnokorelisanih obja²njavaju¢ih promenljivih na zavisno promenljivu. Me�utim, koe�-cijenti ocenjeni metodom obi£nih najmanjih kvadrata su i dalje nepristrasni, ako jemodel valjano odre�en. Osim toga, ako je glavni cilj predvi�anje, multikolinearnostne predstavlja problem ako isti obrazac multikolinearnosti ostaje tokom perioda zapredvi�anje.

Klasi£an slu£aj multikolinearnosti se javlja kada nijedna obja²njavaju¢a promen-ljiva u regresiji, u kojoj su parametri regresije ocenjeni metodom obi£nih najmanjihkvadrata, nije statisti£ki zna£ajna, £ak i ako R2 moºe biti visoko, na primer, izme�u0,7 i 1. U manje jasnijim slu£ajevima, utvr�ivanje multikolinearnosti moºe biti te²ko.Obi£an ili parcijalni koe�cijenti korelacije izme�u obja²njavaju¢ih promenljivih seponekad koriste kao mera multikolinearnosti. Me�utim, ozbiljna multikolinearnostmoºe biti prisutna £ak i ako su obi£an ili parcijalni koe�cijent korelacije relativnomali, tj. manji od 0,5.

Ozbiljna multikolinearnost moºe se ponekad ispraviti:(1) pove¢avaju¢i obim uzorka podataka(2) koriste¢i neke a priori informacije (na primer, na osnovu neke prethodne studijemoºemo znati da je β2 = 0, 25β1)(3) transformisanjem funkcionalne veze(4) izostavljanjem neke od zna£ajno korelisanih promenljivih. Me�utim, to moºedovesti do pristrasnosti ili gre²ke ako nam teorija potvrdi da izostavljena promenljivatreba da bude uklju£ena u model.

Primer 3.3.1 Tabela 3.1 daje proizvodnju u tonama Q, ulaganje radne snage u ra-dnim satima L, i kapitalno ulaganje u radnim satima ma²ine K, kao i transformacijuovih podataka u formu prirodnog logaritma, za 15 �rmi jedne industrije. (a) FitujmoCobb-Douglas-ovu funkciju proizvodnje u formi Q = αLβ1Kβ2eε na osnovu podatakai na�imo R2 i obi£an korelacioni koe�cijent izme�u lnL i lnK. (b) Regresirajmo lnQsamo pomo¢u lnL. (c) Regresirajmo lnQ samo pomo¢u lnK.(a) Koriste¢i podatke date u tabeli, regresiramo lnQ pomo¢u lnL i lnK, dobijamo:

lnQ = 0, 50 + 0, 76lnL+ 0, 19lnK

61

Page 62: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

R2 = 0, 969

R2 = 0, 964

rlnLlnK = 0, 992

(b) lnQ = −5, 50 + 1, 71lnL R2 = 0, 964(c) lnQ = 5, 30 + 0, 34lnK R2 = 0, 966

Tabela 3.1Firma Q L K lnQ lnL lnK

1 2350 2334 1570 7,762 7,755 7,3582 2470 2425 1850 7,811 7,793 7,5223 2110 2230 1150 7,654 7,709 7,0474 2560 2463 1940 7,847 7,809 7,5705 2650 2565 2450 7,882 7,849 7,8036 2240 2278 1340 7,714 7,731 7,2007 2430 2380 1700 7,795 7,774 7,4388 2530 2437 1860 7,835 7,798 7,5289 2550 2446 1880 7,843 7,802 7,53910 2450 2403 1790 7,803 7,784 7,48911 2290 2301 1480 7,736 7,741 7,29912 2160 2253 1240 7,677 7,720 7,12213 2400 2367 1660 7,783 7,769 7,41414 2490 2430 1850 7,820 7,795 7,52215 2590 2470 2000 7,859 7,811 7,600

Po²to ni β1 ni β2 u delu pod (a) nisu razli£iti od 0 sa pragom zna£ajnosti od 5%(tj. imaju velike standardne gre²ke) dok je R2 = 0, 97, postoji multikolinearnost.Posebno, velike �rme koriste vi²e radne snage i kapitala od malih �rmi. Ovo jepotvr�eno veoma visokom vredno²¢u, 0,99, prostog koe�cijenta korelacije izme�u lnLi lnK. U delovima pod (b) i (c), prosta regresija je ocenjena sa samo jednom obja²n-javaju¢om promenljivom lnL ili lnK. U ovim prostim regresijama, obe lnL i lnK sustatisti£ki zna£ajne sa nivoom mnogo ve¢im od 1%, pri £emu R2 prema²uje vrednost0,96. Me�utim, izostavljaju¢i bilo lnK ili lnL iz vi²estruke regresije dovodi do pris-trasnosti nagiba, ocenjenog metodom obi£nih najmanjih kvadrata, koji se odnosi napreostalu promenljivu zato ²to ekonomska teorija ukazuje na to da i radna snaga ikapital treba da budu uklju£eni u funkciju prozvodnje.

Postavlja se pitanje kako prevazi¢i problem multikolinearnosti ako se zna da kon-stantni prinosi preovla�uju u ovoj industriji (tj. β1 + β2 = 1). Sa konstantnimprinosima, Cobb-Douglas-ovu jedna£inu moºemo zapisati na slede¢i na£in

Q = αLβ1K1−β1eε.

Ako logaritmujemo i levu i desnu stranu prethodne jednakosti, dobijamo:

lnQ = lnα+ β1lnL+ (1− β1)lnK + ε

62

Page 63: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

lnQ− lnK = lnα+ β1(lnL− lnK) + ε.

Ako ozna£imo sa lnQ∗ = lnQ− lnK i lnL∗ = lnL− lnK i regresiramo lnQ∗ pomo¢ulnL∗, dobijamo

lnQ∗ = 0, 07 + 0, 83lnL∗, R2 = 0, 992

i β2 = 1− β1 = 1− 0, 83 = 0, 17.

3.4 Normalnost smetnji

Ako smetnje nemaju normalnu raspodelu, ocene obi£nih najmanjih kvadratasu i dalje najbolje linearne nepristrasne ocene pod uslovom da pretpostavke 1-4i dalje vaºe. Normalna raspodela smetnji £ini da ocene obi£nih najmanjih kvadratabudu nepristrasne sa najmanjom varijansom i ispostavilo se da su ocene obi£nihnajmanjih kvadrata identi£ne sa ocenama maksimalne verodostojnosti. Normalnaraspodela smetnji nam omogu¢ava da izvedemo raspodelu ovih ocena i na taj na£inomogu¢ava da testiramo hipoteze koriste¢i t i F testove o kojima je ranije bilo re£i.Ako smetnje nemaju normalnu raspodelu, a uzorak je veliki, i dalje moºemo koristitinormalnu raspodelu asimptotski za ocene obi£nih najmanjih kvadrata oslanjaju¢i sena Centralnu grani£nu teoremu. Prost asimptotski test za pretpostavku normalnostismetnji dali su Jorque i Bera. On se bazira na £injenici da normalna raspodela imakoe�cijent asimetrije nula i kartozis 3.Koe�cijent asimetrije (nedostatak simetrije) se meri pomo¢u

S =[E(X − µ)3]2

[E(X − µ)2]3=

kvadrat tre¢eg centralnog momentakub varijanse

.

Kartozis (mera zaravnjenosti) se meri pomo¢u

k =E(X − µ)4

[E(X − µ)2]2=

£etvrti centralni momentkvadrat varijanse

.

Za normalnu raspodelu S = 0 i k = 3. Otuda, statistika Jorque-Bera (JB) je datasa

JB = n

[S2

6+

(k − 3)2

24

],

gde je S koe�cijent asimetrije i k kartozis reziduala obi£nih najmanjih kvadrata.Ova statistika je asimptotski raspodeljena kao χ2 raspodela sa dva stepena slobodepod pretpostavkom H0, tj. da smetnje imaju normalnu raspodelu. OdbacivanjemH0 odbacuje se normalnost smetnji ali se ne nudi alternativna raspodela. U tomsmislu je test nekonstruktivan. Da dodamo, neodbacivanje H0 ne zna£i obaveznoda je raspodela smetnji normalna. To samo zna£i da ne odbacujemo £injenicu da jeraspodela smetnji simetri£na i da ima kartozis 3.

63

Page 64: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

3.5 Heteroskedasti£nost

Heteroskedasti£nost predstavlja slu£aj kada varijansa smetnji nije konstantna zasve vrednosti nezavisno promenljive, tj. kada je E(ε2i ) = σ2, tj. vaºi slede¢e E(ε2i ) =σ2i za i = 1, 2, . . . , n. Ovo predstavlja odstupanje od druge klasi£ne pretpostavke.

Heteroskedasti£nost se prvenstveno javlja kod podataka koji su prikupljeni u datomvremenskom trenutku. Na primer, varijansa smetnje koja je povezana sa tro²kovimaporodica sa niskim primanjima je obi£no manja od varijanse smetnje povezane satro²kovima porodica sa visokim primanjima, jer u porodicama sa niskim primanjimave¢ina izdataka su na svakodnevne potrebe, sa malo prostora za luksuz.

Za jednostruku linearnu regresiju, o£igledno je da je βOLS, dato sa (3.2), i daljenepristrasna i postojana ocena zato ²to ove osobine zavise od pretpostavki 1 i 4, aline i od pretpostavke 2. Me�utim, varijansa za βOLS je sada druga£ija

V ar(βOLS) = V ar

(n∑

i=1

ωiεi

)=

n∑i=1

ω2i σ

2i =

∑ni=1 X

∗2i σ2

i

(∑n

i=1 X∗2i )

2 , (3.3)

gde druga jednakost sledi na osnovu pretposatvke 3 i £injenice da je sada V ar(εi) =σ2i . Primetimo da ako je σ2

i = σ2, opet se vra¢amo na σ2∑n

i=1X∗2

i

, uobi£ajenu for-

mulu za V ar(βOLS) pod pretpostavkom o homoskedasti£nosti. �tavi²e, lako moºemopokazati da ¢e E(s2) uklju£ivati sve σ2

i , a ne jedno zajedni£ko σ2. U glavi 1 smopokazali da je: ei = (β − βOLS)X

∗i + (εi − ε) i da je

n∑i=1

e2i = (β − βOLS)2

n∑i=1

X∗2i +

n∑i=1

(εi − ε)2 − 2(βOLS − β)n∑

i=1

X∗i (εi − ε).

Kada potraºimo o£ekivanje leve i desne strane, dobijamo

E

(n∑

i=1

e2i

)= V ar(βOLS)

n∑i=1

X∗2i + E

(n∑

i=1

(εi − ε)2)− 2

E (∑n

i=1 X∗i εi)

2∑ni=1 X

∗2i

.

S obzirom da su εi nekorelisani i heteroskedasti£ni, vaºi slede¢e

E

(n∑

i=1

X∗i εi

)2

=n∑

i=1

X∗2i σ2

i .

Drugi sabirak u izrazu za E (∑n

i=1 e2i ) je jednak

E

(n∑

i=1

(εi − ε)2)

= E

(n∑

i=1

(ε2i − 2εiε+ ε2)

)=

= E

(n∑

i=1

ε2i − 2n1

n

n∑i=1

εiε+ nε2)=

= E

(n∑

i=1

(ε2i − 2nε2 + nε2

))=

= E

(n∑

i=1

ε2i

)− E

(nε2

)=

64

Page 65: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

=n∑

i=1

E(ε2i)− nE

(1

n

n∑i=1

εi

)2

=

=n∑

i=1

σ2i − n

1

n2E

n∑i=1

ε2i +∑i

∑i =j

εiεj

=

=n∑

i=1

σ2i −

1

n

n∑i=1

σ2i =

(1− 1

n

) n∑i=1

σ2i =

=n− 1

n

n∑i=1

σ2i .

Kona£no imamo da je

E(s2)

=1

n− 2E

(n∑

i=1

e2i

)=

=1

n− 2

(∑i=1 X

∗2i σ2

i∑ni=1 X

∗2i

+n− 1

n

n∑i=1

σ2i − 2

∑ni=1 X

∗2i σ2

i∑ni=1 X

∗2i

)=

=1

n− 2

(n− 1

n

n∑i=1

σ2i −

∑ni=1 X

∗2i σ2

i∑ni=1 X

∗2i

).

Kada vaºi homoskedasti£nost, dobijamo da je E(s2) = σ2. To zna£i da onaj statis-ti£ki programski paket koji daje s2∑n

i=1X∗2

i

kao ocenu varijanse za βOLS pravi dve

gre²ke. Prva, program ne koristi pravu formulu za varijansu, tj. jedna£inu (3.3).Druga, koristi s2 da oceni op²tu varijansu σ2, kada su, u stvari, σ2

i svi razli£iti. Pris-trasnost koja se javlja kada se koristi s2∑n

i=1X∗2

i

kao ocena za V ar(βOLS) ¢e zavisiti

od prirode heteroskedasti£nosti i regresora. U stvari, ako je σ2i = bX∗2

i , b > 0, tadas2∑n

i=1X∗2

i

nedovoljno precizno ocenjuje varijansu i otuda se za t-statistiku, koja sekoristi za testiranje da li je β = 0, kaºe da je "prenaduvena", a za interval poverenjaza β da je "zategnutiji" nego ²to bi trebalo da bude.

Pretpostavili smo da za varijansa smetnji vaºi E(ε2i ) = σ2i = bX∗2

i gde je b > 0,posmatrajmo sada

E

(s2∑n

i=1 X∗2i

)− V ar(βOLS) =

1

n− 2

(−∑n

i=1 X∗2i σ2

i

(∑n

i=1 X∗2i )

2 +n− 1

n

∑ni=1 σ

2i∑n

i=1 X∗2i

)−∑n

i=1 X∗2i σ2

i∑ni=1 X

∗2i

=

=n− 1

n(n− 2)·∑n

i=1 σ2i∑n

i=1 X∗2i

−∑n

i=1 X∗2i σ2

i

(∑n

i=1 X∗2i )

2

(1

n− 2+ 1

)=

=n− 1

n(n− 2)·∑n

i=1 bX∗2i∑n

i=1 X∗2i

− b∑n

i=1 X∗2i X∗2

i

(∑n

i=1 X∗2i )

2 · n− 1

n− 2=

=n− 1

n− 2

(1

n· b∑n

i=1 X∗2i

∑ni=1 X

∗2i

(∑n

i=1 X∗2i )

2 − b∑n

i=1 X∗2i X∗2

i

(∑n

i=1 X∗2i )

2

)=

=n− 1

n− 2· b∑n

i=1 X∗2i

∑ni=1 X

∗2i − bn

∑ni=1 X

∗2i X∗2

i

n (∑n

i=1 X∗2i )

2 =

65

Page 66: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

=n− 1

n− 2·bn(1n

∑ni=1 X

∗2i

∑ni=1 X

∗2i −∑n

i=1 X∗2i X∗2

i

)n (∑n

i=1 X∗2i )

2 =

=n− 1

n− 2·−b

(∑ni=1 X

∗2i X∗2

i − 1n

∑ni=1 X

∗2i

∑ni=1 X

∗2i

)(∑n

i=1 X∗2i )

2 =

= −n− 1

n− 2·b∑n

i=1

(X∗2

i − 1n

∑ni=1 X

∗2i

)2(∑n

i=1 X∗2i )

2 .

Odakle sledi da je

E

(s2∑n

i=1 X∗2i

)< V ar(βOLS).

To zna£i da u srednjem, ocenjena standardna gre²ka za βOLS nedovoljno preciznoocenjuje standardnu gre²ku. Tako dobijena vrednost t-statistike, u ovom slu£aju,pokazuje zna£ajnost regresionog koe�cijenta nagiba, kada on moºda nije zna£ajan.

Ocena obi£nih najmanjih kvadrata za β je linearna, nepristrasna i postojana,pa se postavlja pitanje da li je ona i dalje najbolja linearna nepristrasna ocena.Ako podelimo εi sa σi

σ, rezultat ε∗i = σεi

σi¢e imati konstantnu varijansu σ2. Tako

dobijeni ε∗i zadovoljavaju sve klasi£ne pretpostavke uklju£uju¢i i homoskedasti£nost.Regresioni model postaje

σYi

σi

=σα

σi

+ βσXi

σi

+ ε∗i (3.4)

i ocena obi£nih najmanjih kvadrata modela (3.4) je najbolja linearna nepristrasnaocena. Normalne jedna£ine obi£nih najmanjih kvadrata za (3.4) su:

n∑i=1

Yi

σ2i

= αn∑

i=1

1

σ2i

+ βn∑

i=1

Xi

σ2i

n∑i=1

YiXi

σ2i

= αn∑

i=1

Xi

σ2i

+ βn∑

i=1

X2i

σ2i

.

Primetimo da se σ2 ne javlja u ovim jedna£inama. Re²avaju¢i prethodni sistemnormalnih jedna£ina, dobijamo

α = Y (∗) − βX(∗),

i

β =

∑ni=1 ω

(∗)i (Xi − X(∗))(Yi − Y (∗))∑ni=1 ω

(∗)i (Xi − X(∗))2

,

gde je Y (∗) =∑n

i=1ω(∗)i Yi∑n

i=1ω(∗)i

, X(∗) =∑n

i=1ω(∗)i Xi∑n

i=1ω(∗)i

i ω(∗)i = 1

σ2iJasno je da se najbolje

linearne nepristrasne ocene α i β, dobijene na osnovu regresije (3.4), razlikuju oduobi£ajenih ocena obi£nih najmanjih kvadrata αOLS i βOLS, s obzirom da one zaviseod σ2

i . Tako�e, ako je σ2i = σ2, za sve i = 1, 2, . . . , n, tj. pod pretpostavkom

66

Page 67: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

homoskedasti£nosti, tada se ocene α i β svode na ocene obi£nih najmanjih kvadrata.Ocene α i β imaju teºinu i -te opservacije, tj. 1

σi, ²to predstavlja preciznost te

opservacije. Ukoliko je opservacija preciznija, tj. σi je manje, ve¢u teºinu ima taopservacija. Ocene α i β su, tako�e, poznate kao ocene teºinskih najmanjih kvadrata(WLS ocene).

Pod pretpostavkom heteroskedasti£nosti, ocene obi£nih najmanjih kvadrata gubee�kasnost u smislu da vi²e nisu najbolje linearne nepristrasne ocene. Me�utim,zato ²to su i dalje nepristrasne i postojane i zato ²to prave σ2

i nisu poznate, nekiistraºiva£i ra£unaju ocene obi£nih najmanjih kvadrata kao inicijalne postojane oceneregresionih koe�cijenata. Vaºno je naglasiti, me�utim, da standardne gre²ke ovihocena, koje vra¢aju regresioni programski paketi, su pristrasne i bilo koji zaklju£ak,koji se bazira na ovim ocenjenim varijansama, uklju£uju¢i i rezultate t-statistike,je varljiv. White je, 1980. godine, predloºio jednostavnu proceduru pomo¢u kojese dobijaju heteroskedasti£no postojane standardne gre²ke ocena obi£nih najmanjihkvadrata. U jedna£ini (3.3), ova procedura zamenjuje σ2

i sa e2i , kvadratom i -togreziduala obi£nih najmanjih kvadrata, tj.

White′s V ar(βOLS) =

∑ni=1 X

∗2i e2i

(∑n

i=1 X∗2i )

2 .

Primetimo da ne moºemo postojano oceniti σ2i sa e2i , s obzirom da postoji jedna

opservacija po ocenjenom parametru. Kada se pove¢ava obim uzorka, pove¢ava se ibroj nepoznatih σ2

i . Ono ²to je White postojano ocenio je varijansa V ar(βOLS), kojaje teºinska suma e2i -ova. Ista analiza se koristi za ocene obi£nih najmanjih kvadratavi²estruke regresije. U tom slu£aju, White-ova postojana ocena heteroskedasti£nevarijanse za k-ti regresioni koe�cijent, koji je ocenjen metodom obi£nih najmanjihkvadrata, βk je data sa

White′s V ar(βk) =

∑ni=1 ν

2kie

2i

(∑n

i=1 ν2ki)

2 ,

gde je ν2k kvadrirani rezidual obi£nih najmanjih kvadrata dobijen na osnovu re-

gresije za Xk pomo¢u ostalih regresora u jedna£ini koju ocenjujemo, ukoliko suregresori slu£ajne promenljive. ei je i -ti rezidual obi£ni najmanjih kvadrata iz ovejedna£ine vi²estruke regresije. Mnogi regresioni programski paketi daju White-oveheteroskedasti£no postojane ocene varijansi i njihove odgovaraju¢e t-statistike.

S obzirom da ocene parametara jednostruke regresije dobijene metodom obi£nihnajmanjih kvadrata nisu vi²e najbolje linearne nepristrasne ocene, treba ra£unatiα i β. Jedini problem je ²to su σi-ovi retko poznati. Jedan primer gde su σi-ovipoznati do na konstantu je slede¢i prost primer agregacije.

Primer 3.5.1 Agregacija i heteroskedsati£nost.Neka je Yij posmatranje j-te �rme i-te industrije. Posmatrajmo slede¢u regresiju

Yij = α+ βXij + εij, i = 1, 2, . . . ,m, j = 1, 2, . . . , ni. (3.5)

67

Page 68: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Ako su dostupna samo agregaciona posmatranja za svaku industriju, tada (3.5) sumi-ramo u odnosu na �rme, tj.

Yi = αni + βXi + εi, i = 1, 2, . . . ,m, (3.6)

gde je Yi =∑ni

j=1 Yij, Xi =∑ni

j=1 Xij, εi =∑ni

j=1 εij za sve i = 1, 2, . . . ,m. Primetimoda, iako su εij ∼ IID(0;σ2), agregacijom dobijamo εi ∼ IID(0;niσ

2). To zna£ida su smetnje u (3.6) heteroskedasti£ne. Me�utim, σ2

i = niσ2 su poznata do na

konstantu. U stvari je σσi

=(

1ni

)1/2. Otuda, mnoºe¢i (3.6) sa

(1ni

)1/2i primenjuju¢i

metod obi£nih najmanjih kvadrata na transformisanu jedna£inu dobijamo najboljelinearne nepristrasne ocene za α i β. Drugim re£ima, najbolje linearne nepristrasneocene se svode na izvo�enje obi£nih najmanjih kvadrata za Yi

(ni)1/2pomo¢u (ni)

1/2 iXi

(ni)1/2.

U praksi mogu postojati jo² neki slu£ajevi gde su σi poznati do na konstantu,ali u op²tem slu£aju, σi su obi£no nepoznati i treba da budu ocenjeni. Ovo jebeznadeºno raditi sa samo n opservacija s obzirom da ima n σi-ova, pa moramo daponavljamo opservacije ili da znamo vi²e informacija o σi-ovima.Slu£aj 1: Ponovljene opservacije

Pretpostavimo da su slu£ajno izabrana ni doma¢instva sa prihodima Xi za i =1, 2, . . . ,m. Za svako doma¢instvo j = 1, 2, . . . , ni opservirajmo njihove potro²a£keizdatke na hranu, na primer Yij. Regresiona jedna£ina je

Yij = α+ βXi + εij, i = 1, 2, . . . ,m, j = 1, 2, . . . , ni,

gde je m broj izabranih grupa prihoda. Primetimo da Xi ima samo jedan indeksdok Yij ima dva indeksa ozna£avaju¢i ponovljene opservacije za doma¢instva saistim prihodom Xi. εij su nezavisno raspodeljene sa o£ekivanjem 0 i varijansamaσ2i , ukazuju¢i na heteroskedasti£nost u potro²a£kim izdacima izme�u razli£itih grupa

prihoda. U ovom slu£aju ima n =∑m

i=1 ni opservacija i m σ2i -ova koje treba oceniti.

Ovo je izvodljivo i postoje dva metoda za ocenu ovih σ2i . Prvi je da se ra£una

s2i =ni∑j=1

(Yij − Yi)2

ni − 1,

gde je Yi =∑ni

j=1Yij

ni. Drugi je primenom

s2i =ni∑j=1

e2ijni

,

gde je eij rezidual obi£nih najmanjih kvadrata dat sa eij = Yij−αOLS−βOLSXi. Obeocene za σ2

i su postojane. Zamenjuju¢i ili s2i ili s2i umesto σ2

i u izrazima za ocene αi β nas dovodi do toga da moºemo oceniti parametre α i β. Me�utim, rezultuju¢eocene nisu vi²e najbolje linearne nepristrasne ocene. Zamena postojanom ocenomza σ2

i je opravdana time ²to su rezultuju¢e ocene za α i β asimptotski e�kasne. Na-ravno, ovaj korak moºe biti zamenjen regresijom za Yij

sipomo¢u 1

sii Xi

siili sli£nom

68

Page 69: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

regresijom u terminima si. Za ovu ocenu s2i moºe se ponoviti postupak, tj. mogu sedobiti novi reziduali bazirani na novoj regresionoj oceni i otuda novi s2i . Proces senastavlja dok se ocene dobijene u r-toj iteraciji ne razlikuju od onih koje su dobijeneu (r+1)-oj iteraciji po apsolutnoj vrednosti za malu pozitivnu unapred izabranukonstantu, koja je zadata kao kriterijum konvergencije.Slu£aj 2: Informacije o formi heteroskedasti£nosti

Ukoliko nemamo ponovljene opservacije, beznadeºno je poku²avati ocenjivati nvarijansi i α i β sa samo n opservacija. Potrebno je znati vi²e o formi heteroske-dasti£nosti da se oceni takav model. Heteroskedasti£nost se, na primer, javlja kodpodataka gde opservacije mogu biti �rme razli£itih veli£ina. Na primer, regresijakoja predstavlja relaciju izme�u pro�ta i prodaje moºe imati heteroskedasti£nostzato ²to ve¢e �rme imaju vi²e resursa da rastu, mogu pozajmljivati vi²e, investirativi²e i gubiti ili napredovati vi²e od malih �rmi. Otuda, o£ekujemo da forma hetero-skedasti£nosti bude u vezi sa veli£inom �rme, koja se u ovom slu£aju re�ektuje prekoregresora, prodaje ili nekih drugih promenljivih koje mere veli£inu, kao ²to su sre-dstva, ili roba. Otuda, za ovu regresiju moºemo pisati σ2

i = σ2Z2i , gde Zi ozna£ava

prodaju ili sredstva �rme i. Jo² jednom je forma heteroskedasti£nosti poznata dona konstantu i najbolje linearne nepristrasne ocene za α i β se dobijaju pomo¢u α iβ, pod pretpostavkom da je Zi poznato. Alternativno, moºemo uraditi regresiju zaYi

Zipomo¢u 1

Zii Xi

Zida bi dobili isti rezultat. Posebno su interesantni slu£ajevi kada

je Zi ili Xi ili EYi.(i) Ako je Zi = Xi, gde je Xi slu£ajna promenljiva, tada regresiramo Yi

Xipomo¢u

1Xi

i konstante. Primetimo da regresioni koe�cijent uz 1Xi

je ocena za α, dok jekonstanta u regresiji ocena za β. Postavlja se pitanje da li je mogu¢e da imamo εikoji nisu u korelaciji sa Xi kada smo pretpostavili da je V ar(εi) u relaciji sa Xi.Odgovor je pozitivan dok god je E(εi|Xi) = 0, tj. o£ekivanje za εi je nula za svevrednosti Xi, vidi sliku 1.4, glava 1. Ovo, zauzvrat, implicira da je obi£no o£ekivanjeod εi nula, tj. E(εi) = 0 i da je Cov(Xi, εi) = 0. Ako drugi uslov nije zadovoljen ipretpostavimo da je Cov(Xi, εi) ve¢a od nule, tada velike vrednsti za Xi implicirajuvelike vrednosti za εi. To bi zna£ilo da za te vrednosti Xi imamo nenula o£ekivanjeodgovaraju¢ih εi. To je kontradikcija sa E(εi|Xi) = 0. Otuda, ako je E(εi|Xi) = 0,tada je Cov(Xi, εi) = 0.(ii) Ako je Zi = EYi = α + βXi, tada je σ2

i proprcionalno sa populacionom re-gresionom linijom, koja je linearna funkcija od α i β. S obzirom na to da suocene obi£nih najmanjih kvadrata postojane, moºemo oceniti EYi pomo¢u Yi =αOLS + βOLSXi koriste¢i Zi = Yi umesto EYi. Drugim re£ima, uradimo regresiju zaYi

Yipomo¢u 1

Yii Xi

Yibez konstante. Rezultuju¢e ocene su asimptotski e�kasne.

Moºemo generalizovati formu heteroskedasti£nosti σ2i = σ2Z2

i sa σ2i = σ2Zδ

i , gdeje δ nepoznati parametar koji treba oceniti. Otuda, umesto da ocenimo n σ2

i , trebada ocenimo samo σ2 i δ. Ako pretpostavimo da smetnje imaju normalnu raspodelu,moºemo postaviti funkciju verodostojnosti i izvesti parcijalne izvode prvog redadiferenciraju¢i tu funkciju verodostojnosti u odnosu na α, β, σ2 i δ. Rezultuju¢ejedna£ine su nelinearne. Alternativno, moºemo traºiti me�u mogu¢im vrednostimaza δ = 0; 0, 1; 0, 2; . . . ; 4 i dobiti odgovaraju¢e ocene za α, β i σ2 na osnovu regresije

69

Page 70: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

za Yi

Zδ/2i

pomo¢u 1

Zδ/2i

i Xi

Zδ/2i

bez konstante. To se uradi za sve vrednosti δ i u svakom

od slu£ajeva dobijamo vrednosti funkcije verodostojnosti. Koriste¢i ovu procedurunalaºenja moºemo dobiti maksimalnu vrednost funkcije verodostojnosti i odgovara-ju¢e ocene maksimalne verodostojnosti za α, β, σ2 i δ. Sa porastom vrednosti za δraste i stepen heteroskedasti£nosti, dok relativna e�kasnost ocena obi£nih najmanjihkvadrata opada.

Moºemo generalizovati formu heteroskedasti£nosti σ2i = σ2Zδ

i uklju£uju¢i vi²epromenljivih Z. Uop²tena forma ove multiplikativne heteroskedasti£nosti je

logσ2i = logσ2 + δ1logZ1i + δ2logZ2i + . . .+ δrlogZri,

gde je r < n, jer u suprotnom ne moºemo vr²iti ocenjivanje sa n opservacija.Z1, Z2, . . . , Zr su poznate promenljive koje odre�uju heteroskedasti£nost. Prime-timo da ako je δ2 = δ3 = . . . = δr = 0 vra¢amo se na σ2

i = σ2Zδi , gde je δ = δ1.

Druga forma heteroskedasti£nosti je aditivna forma

σ2i = a+ b1Z1i + b2Z2i + . . .+ brZri,

gde je r < n. Specijalni slu£aj aditivne forme heteroskedasti£nosti je

σ2i = a+ b1Xi + b2X

2i ,

gde ako su a i b1 nule imamo prostu formu multiplikativne heteroskedasti£nosti.

3.5.1 Testiranje homoskedasti£nosti

Testiranje homoskedasti£nosti, tj. testiranje da li nema heteroskedasti£nostismetnji vr²i se na vi²e na£ina.

U slu£aju ponovljenih opservacija, moºemo koristiti Bartlett-ov test. Nultahipoteza koju testiramo je H0 : σ2

1 = σ22 = . . . = σ2

m. Pod pretpostavkom davaºi nulta hipoteza postoji jedna varijansa σ2 koja moºe biti ocenjena pomo¢uobjedinjene varijanse s2 =

∑m

i=1νis

2i

ν, gde je ν =

∑mi=1 νi i νi = ni − 1. Ukoliko

vaºi alternativna hipoteza, postoji m razli£itih varijansi, ocenjenih pomo¢u s2i , zai = 1, 2, . . . ,m. Test koli£nika verodostojnosti, koji ra£una odnos maksimalnih vero-dostojnosti kada vaºe nulta i alternativna hipoteza, se svodi na izra£unavanje

B =νlogs2 −∑m

i=1 νilogs2i

c,

gde je c = 1+

∑m

i=11νi

− 1ν

3(m−1). Pod pretpostavkom da vaºi hipoteza H0, B ima raspodelu

χ2m−1. Velika p-vrednost za statistiku B zna£i da ne odbacujemo homoskedasti-

£nost, dok male p-vrednosti dovode do obacivanja nulte hipoteze u korist hete-roskedasti£nosti.

U slu£aju kada nema ponovljenih opservacija, u literaturi postoje nekoliko testova.Nave²¢emo samo neke od njih.(1) Glejser-ov test (1969): U ovom slu£aju regresiramo |ei| pomo¢u konstante i

70

Page 71: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Zδi za δ = −1;−0, 5; 0, 5; 1. Ako su koe�cijenti za Zδ

i zna£ajno razli£iti od nule, to bivodilo do odbacivanja homoskedasti£nosti. Mo¢ ovog testa zavisi od stvarnog stanjaheteroskedasti£nosti. Vaºan rezultat, me�utim, je da mo¢ ovog testa nije ozbiljnougroºena ako je izabrana pogre²na vrednost za δ.(2) Goldfeld-Quandt-ov test (1965): Ovaj test je jednostavan i intuitivan.Pore�amo opservacije u odnosu na Xi, tj. od najmanje do najve¢e vrednosti zaXi i izostavimo c centralnih opservacija, u smislu da ih ne uklju£ujemo u regresiju.Zatim, uradimo dve odvojene regresije za dva odvojena skupa podataka od po n−c

2

opservacija u svakom od njih. c izostavljenih opservacija odvaja male vrednosti zaXi od velikih vrednosti za Xi, i ako heteroskedasti£nost postoji i u vezi je sa Xi,ocene za σ2 dobijene na osnovu ove dve regresije trebalo bi da budu razli£ite. Dakle,test statistika je MSE2

MSE1, gde su MSE1 i MSE2 srednje kvadratne gre²ke za ove dve

regresije, respektivno. Ova statistika ima F-raspodelu sa jednakim brojem stepenaslobode, n−c

2− K, gde je K broj parametara u regresiji koje treba oceniti. Jedino

preostalo pitanje za primenu ovog testa je veli£ina za c. O£igledno ²to je c ve¢e, ²toje vi²e centralnih opservacija izostavljeno, sigurniji smo da su ova dva uzorka udal-jenija jedan od drugog. Gubitak c informacija trebalo bi da vodi do gubitka mo¢itesta. Me�utim, razdvajanjem ova dva uzorka trebalo bi da smo sigurniji da su ovedve varijanse ustvari iste ako ne odbacimo homoskedasti£nost. Ako se ne izostavini jedna centralna opservacija, test je i dalje moºe da se koristi, ali ima¢e slabijumo¢ da detektuje heteroskedasti£nost. Ovaj metod prou£ili su Goldfeld i Quandtkoriste¢i Monte Karlo metod. Njihovi rezultati preporu£uju da se koristi c=8 zan=30 i c=16 za n=60. Ovo je popularan test ali pretpostavlja da znamo redosledpo kome re�amo opservacije, u ovom slu£aju koriste¢i Xi. U slu£aju da postoji vi²eod jednog regresora na desnoj strani regresione jedna£ine, pore�ali bismo opservacijekoriste¢i Yi.(3) Spearman-ov korelacioni test rangova: Ovaj test rangira Xi i apsolutnevrednosti reziduala obi£nih najmanjih kvadrata, ei. Zatim ra£una razliku izme�uovih rangova, tj. di = rank(|ei|)− rank(Xi). Spearman-ov korelacioni koe�cijent je

r = 1− 6∑n

i=1 d2i

n3 − n.

Ovaj test testira nultu hipotezu H0 da je korelacioni koe�cijent izme�u rangova nula,ra£unaju¢i slede¢u test statistiku

t =

(r2(n− 2)

1− r2

)1/2

koja ima t-raspodelu sa n-2 stepena slobode. Ako ova t-statistika ima veliku p-vrednost ne odbacujemo homoskedasti£nost. U suprotnom, odbacujemo homoske-dasti£nost u korist heteroskedasti£nosti.(4) White-ov test (1980): Jo² jedan uop²teni test za homoskedasti£nost gdeni²ta nije poznato o formi heteroskedasti£nosti je predloºio White (1980). Ovajtest se bazira na razlici izme�u varijanse ocena obi£nih najmanjih kvadrata kada

71

Page 72: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

vaºi homoskedasti£nost i one varijanse kada vaºi heteroskedasti£nost. Za slu£aj jed-nostruke linearne regresije sa konstantom, White pokazuje da ovaj test upore�ujeWhite′sV ar(βOLS) sa uobi£ajenom varijansom za βOLS kada vaºi homoskedasti£nost,

s2∑n

i=1X∗2

i

. Ovaj test se svodi na regresiju za e2i pomo¢u konstante, Xi i X2i i ra£u-

nanje vrednosti statistike nR2, koja ima χ22 raspodelu kada vaºi nulta hipoteza o

homoskedasti£nosti. Broj stepeni slobode odgovara broju regresora. Ako ova statis-tika nije zna£ajna, tada e2i nisu u relaciji sa Xi i X2

i i ne moºemo da odbijemo daje varijansa konstantna. Primetimo da ako nema konstante u regresiji, dobijamo e2isamo pomo¢u konstante iX2

i , tj. Xi nije vi²e u regresiji i stepen slobode testa je sada1. U op²tem slu£aju, White-ov test se bazira na dobijanju e2i na osnovu proizvodasvih X-ova u regresiji koji su ocenjeni, ra£unanju nR2 i upore�ivanju sa kriti£nomvredno²¢u χ2

r raspodele, gde je r broj regresora u regresiji uklju£uju¢i i konstantu.Za slu£aj sa dva regresora X2 i X3 i konstantom, White-ov test se bazira, opet,na nR2 za regresiju za e2i pomo¢u konstante, X2, X3, X

22 , X2X3, X

23 . Ova statistika

ima¢e raspodelu χ25. White-ov test se standardno nalazi u EViews programskom

paketu.

Primer 3.5.2 Tabela 3.2 daje prosek plata Y i broj zaposlenih radnika X u 30 in-dustrijskih �rmi.

Tabela 3.2Prosek plata Broj zaposlenih

8,40 8,40 8,60 8,70 8,90 9,00 1008,90 9,10 9,30 9,30 9,40 9,60 2009,50 9,80 9,90 10,30 10,30 10,50 30010,30 10,60 10,90 11,30 11,50 11,70 40011,60 11,80 12,10 12,50 12,70 13,10 500

Regresiraju¢i Y pomo¢u X za ceo uzorak, dobijamo:

Y = 7, 5 + 0, 009X, R2 = 0, 90.

Rezultati regresija za Y pomo¢u X za prvih i poslednjih 12 opservacija su respektivno:

Y = 8, 1 + 0, 006X R2 = 0, 66, MSE1 = 0, 507

iY = 6, 1 + 0, 013X R2 = 0, 60, MSE2 = 3, 095.

S obzirom da je MSE2

MSE1= 3,095

0,507= 6, 10 ve¢e od F10,10 = 2, 97 sa nivoom poverenja od

5%, hipoteza o heteroskedasti£nosti je prihva¢ena.Ocenimo opet transformisani model da ispravimo heteroskedasti£nost, pa dobi-

jamo:Y

X= 0, 008 + 7, 8

1

X, R2 = 0, 99.

Primetimo da je koe�cijent nagiba u po£etnoj regresiji (0,009) dat kao odse£ak uprethodnoj regresiji (0,008) i manji je nego pre tansformisanja regresione jedna£ine.

72

Page 73: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

3.6 Autokorelacija

Naru²avanje pretpostavke 3 zna£i da su smetnje u korelaciji, tj. E(εiεj) = σij, zai = j i i, j = 1, 2, . . . , n. S obzirom da εi ima o£ekivanje nula, E(εiεj) = Cov(εi, εj)i ona je ozna£ena sa σij. Ova korelacija se £e²¢e doga�a u vremenskim serijamanego kada podatke sakupljamo, na primer iz �rmi ili doma¢instava, u odre�enomtrenutku.

Razmatrajmo ocenjivanje funkcije tro²kova na slu£ajnom uzorku doma¢instava.Neo£ekivani doga�aj, kao ²to je poseta £lanova porodice, pove¢a¢e tro²kove do-ma¢instva. Me�utim, ova pozitivna smetnja ne mora biti u korelaciji sa smetnjamakoja uti£u na tro²kove drugih slu£ajno izabranih doma¢instava. Ali ako smo ocenji-vali ovu funkciju potro²nje koriste¢i zdruºene vremenske serije podataka za SAD,tada godina recesije verovatno uti£e na potro²nju negativno i moºe preneti efektena nekoliko narednih godina. �ok za ekonomiju, kao ²to je naftni embargo 1973.god, verovatno je uticao na ekonomiju i nekoliko godina kasnije. �trajk radnikate godine je uticao na proizvodnju i nekoliko godina kasnije. Zato menjamo i i jindeksima t i s, ozna£avaju¢i opservacije vremenskih serija, t, s = 1, 2, . . . , T , gdeje obim uzorka ozna£en sa T umesto sa n. Kovarijansni izraz je simetri£an pa jeσ12 = E(ε1ε2) = E(ε2ε1) = σ21. Otuda, samo T (T−1)

2razli£itih σts treba da bude

ocenjeno. Na primer, ako je T=3 tada su σ12, σ23 i σ13 razli£iti kovarijansni izrazi.Me�utim, beznadeºno je ocenjivati T (T−1)

2kovarijansi σts sa samo T opservacija.

Zbog toga moramo da znamo vi²e informacija o σts. Popularna je pretpostavka daεt obrazuju autoregresioni proces prvog reda ozna£en sa AR(1)

εt = ρεt−1 + νt, t = 1, 2, . . . , T, (3.7)

gde su νt ∼ IID(0;σ2ν). Proces je autoregresioni zato ²to je εt u relaciji sa svojom

prethodnom vredno²¢u, εt−1. Moºemo zapisati (3.7) za period t-1 kao

εt−1 = ρεt−2 + νt−1 (3.8)

i zamenimo (3.8) u (3.7) da dobijemo

εt = ρ2εt−2 + ρνt−1 + νt. (3.9)

Primetimo da stepen za ρ i indeks za ε ili ν uvek u sumi daju t. Nastavljaju¢iovakvu zamenu na kraju dobijamo

εt = ρtε0 + ρt−1ν1 + . . .+ ρνt−1 + νt. (3.10)

To zna£i da je εt funkcija od trenutne, pro²lih vrednosti za νt i ε0, gde je ε0 po£etnavrednost za εt. Ako ε0 ima nulto o£ekivanje, tada εt ima nulto o£ekivanje. Todobijamo kada potraºimo o£ekivanje izraza (3.10). Tako�e, iz (3.7) je

V ar(εt) = ρ2V ar(εt−1) + V ar(νt) + 2Cov(εt−1, νt). (3.11)

Na osnovu (3.10), εt−1 je funkcija od νt−1, pro²lih vrednosti za νt−1 i ε0. S obziromda ε0 ne zavisi od ν-ova, i ν-ovi nisu u korelaciji me�u sobom, tada εt−1 ne zavisi

73

Page 74: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

od νt. To zna£i da je Cov(εt−1, νt) = 0. Dalje, kako bi εt bilo homoskedasti£no,V ar(εt) = V ar(εt−1) = σ2

ε se pomo¢u (3.11) svodi na σ2ε = ρ2σ2

ε + σ2ν , ²to kada se

re²i po σ2ε daje

σ2ε =

σ2ν

1− ρ2. (3.12)

Otuda, ε0 ∼(0; σ2

ν

1−ρ2

), tj. ε-i imaju nulto o£ekivanje i homoskedasti£na standardna

odstupanja. Mnoºe¢i (3.7) sa εt−1 i traºe¢i o£ekivanu vrednost, dobijamo

E(εtεt−1) = ρE(ε2t−1) + E(εt−1νt) = ρσ2ε , (3.13)

s obzirom da je E(ε2t−1) = σ2ε i E(εt−1νt) = 0. Prema tome, Cov(εtεt−1) = ρσ2

ε ikorelacioni koe�cijent izme�u εt i εt−1 je

Corr(εt, εt−1) =Cov(εt, εt−1)√

V ar(εt)V ar(εt−1)=

ρσ2ε

σ2ε

= ρ.

S obzirom da je ρ korelacioni koe�cijent to zna£i da je −1 ≤ ρ ≤ 1. U op²temslu£aju moºe se pokazati da vaºi

Cov(εt, εs) = ρ|t−s|σ2ε , t = 1, 2, . . . , T. (3.14)

Formulu (3.7), kontinuiranom zamenom kao u (3.10) moºemo zaustaviti u trenutkut-s, εt−s, da dobijemo

εt = ρsεt−s + ρs−1νt−s+1 + ρs−2νt−s+2 + . . .+ ρνt−1 + νt, t > s.

Kao i ranije, stepen za ρ i indeks za ν uvek u sumi daju t. Mnoºe¢i obe strane saεt−s i traºe¢i o£ekivanu vrednost, dobijamo

E(εtεt−s) = ρsE(ε2t−s) + ρs−1E(εt−sνt−s+1) + ρs−2E(εt−sνt−s+2) +

+ . . .+ ρE(εt−sνt−1) + E(εt−sνt).

S obzirom da ε0 ne zavisi od ν i ν-ovi me�usobom nisu u korelaciji, tada εt−s ne zavisiod νt, νt−1, . . . , νt−s+1. Otuda, svi izrazi na desnoj strani jednakosti za E(εtεt−s), semprvog, su nule. Zbog toga je

Cov(εt, εt−s) = E(εtεt−s) = ρsσ2ε , t > s.

To zna£i da je korelacija izme�u εt i εt−s ρs, ²to je u stvari racionalan broj kojise nalazi u intervalu izme�u -1 i 1 stepenovan celim brojem, tj. korelacija opadaizme�u smetnji koje su dalje. To ima smisla u ekonomiji i moºe biti razlog za²toje autoregresiona forma (3.7) toliko popularna. Treba naglasiti da ovo nije jedinaforma za korelaciju izme�u smetnji tokom vremena.

Postavlja se pitanje kako naru²avanje pretpostavke o nekorelisanosti izme�usmetnji uti£e na ocene obi£nih najmanjih kvadrata. Ocene obi£nih najmanjih kva-drata su i dalje nepristrasne i postojane s obzirom na to da se ove osobine oslanjaju

74

Page 75: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

na pretpostavke 1 i 4 i nemaju ni²ta sa pretpostavkom 3. Za jednostruku linearnuregresiju, na osnovu (3.2), varijansa za βOLS je sada

V ar(βOLS) = V ar

(T∑t=1

ωtεt

)=

T∑t=1

T∑s=1

ωtωsCov(εt, εs) =

=σ2ε∑T

t=1 X∗2t

+∑t

∑t=s

ωtωsρ|t−s|σ2

ε , (3.15)

gde je Cov(εt, εs) = ρ|t−s|σ2ε . Primetimo da je prvi sabirak u (3.15) uobi£ajena

varijansa za βOLS, kada vaºe klasi£ni uslovi. Drugi sabirak u (3.15) nastaje zbogkorelacije izme�u εt. Otuda, varijansa koja se dobija pomo¢u nekih statisti£kih pro-gramskih paketa, tj. s2∑T

t=1X∗2

t

je nedovoljno precizna ocena varijanse za βOLS iz dva

razloga. Prvi, koristi pogre²nu formulu za varijansu, tj. σ2ε∑T

t=1X∗2

t

umesto (3.15),

gde drugi sabirak u (3.15) zavisi od ρ. Drugi razlog je taj ²to E(s2) vi²e nije σ2ε , i

E(s2) pored σ2ε uklju£uje i ρ. Otuda, s2 nije nepristrasna ocena za σ2

ε i s2∑T

t=1X∗2

t

je

pristrasna ocena za V ar(βOLS). Pravac i veli£ina ove pristrasnosti zavise od ρ i odregresora. U stvari, ako je ρ pozitivno i X∗

t su me�usobno direktno proporcionalni,tada s2∑T

t=1X∗2

t

nedovoljno precizno ocenjuje pravu varijansu za βOLS. U tom slu£aju,

za interval poverenja za β kaºe se da je "zategnutiji" nego ²to bi trebalo da bude i daje t-statistika, koja se koristi za testiranje hipoteze H0 : β = 0, "naduvena". Kaou slu£aju heteroskedasti£nosti, ali iz totalno druga£ijih razloga, bilo koji zaklju£akkoji se oslanja na V ar(βOLS) dobijen na osnovu standardnih regresionih program-skih paketa ¢e biti varljiv ako su εt korelisani.

Sa ciljem da dobijemo najbolje linearne nepristrasne ocene u ovom slu£aju, pome-rimo regresionu jedna£inu za jedan period unazad, pomoºimo sa ρ, a zatim takodobijenu jednakost oduzmemo od originalne regresione jedna£ine i dobijemo

Yt − ρYt−1 = α(1− ρ) + β(Xt − ρXt−1) + νt, t = 2, 3, . . . , T. (3.16)

Ova transformacija, poznata kao Cochrane-Orcutt (1949) transformacija, svodi ko-relisane smetnje na klasi£ne smetnje - smetnje koje su nezavisne i jednako raspo-deljene slu£ajne promenljive sa o£ekivanjem 0 i varijansom σ2

ν . Otuda, metodobi£nih najmanjih kvadrata primenjen na ovu regresiju £ini ocene najboljim lin-earnim nepristrasnim ocenama, tj. kada regresiramo Yt = Yt − ρYt−1 pomo¢u kon-stante i Xt = Xt − ρXt−1, za t = 2, 3, . . . , T . Primetimo da smo izgubili jednuopservaciju kada smo pomerili regresionu jedna£inu za jedan period unazad, i rezul-tuju¢e ocene su najbolje linearne nepristrasne ocene samo za linearne kombinacijeT-1 opservacija za Y. Prais i Winsten (1954) su izveli najbolje linearne nepristrasneocene za linearnu kombinaciju T opservacija za Y. To podrazumeva dobijanje inici-jalnih opservacija na slede¢i na£in:(i) Prve opservacije u regresionoj jedna£ini pomnoºimo sa

√1− ρ2√

1− ρ2Y1 = α√1− ρ2 + β

√1− ρ2X1 +

√1− ρ2ε1.

75

Page 76: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

(ii) Dodamo ove transformisane inicijalne opservacije u Cochrane-Orcutt trans-formisane opservacije za t = 2, 3, . . . , T , i uradimo regresiju sa T opservacija umestosa T-1. Primetimo da je

Y1 =√1− ρ2Y1 i Yt = Yt − ρYt−1 za t = 2, 3, . . . , T.

Sli£no,X1 =

√1− ρ2X1 i Xt = Xt − ρXt−1 za t = 2, 3, . . . , T.

Konstanta Ct = 1 za t = 1, 2, . . . , T je sada nova promenljiva Ct koja uzima vred-nosti C1 =

√1− ρ2 i Ct = 1 − ρ za t = 2, 3, . . . , T . Prais-Winsten procedura je

regresija za Yt pomo¢u Ct i Xt. O£igledno je da ¢e najbolje linearne nepristrasneocene uklju£ivati ρ i da ¢e se zbog toga razlikovati od uobi£ajenih ocena obi£nihnajmanjih kvadrata osim u slu£aju kada je ρ = 0. Tako, ocene obi£nih najmanjihkvadrata nisu vi²e najbolje linearne nepristrasne ocene. �tavi²e, moramo da znamoρ da bi smo dobili najbolje linearne nepristrasne ocene. U praksi, ρ nije unapredpoznato i treba da se oceni. U tom slu£aju, Prais-Winsten regresija ne daje vi²enajbolje linearne nepristrasne ocene, s obzirom na to da se zasniva na ocenjenojvrednosti za ρ umesto na pravoj. Me�utim, dok god je ρ postojana ocena parame-tra ρ, odgovaraju¢e ocene parametara α i β su asimptotski e�kasne.

Nave²¢emo, sada, nekoliko metoda za ocenu parametra ρ:(1) Cochrane-Orcutt (1949) metod: Ovaj metod po£inje inicijalnom ocenom zaρ, najzgodnije je 0, i minimizira rezidualnu sumu kvadrata u (3.16). Ovaj postupaknam daje ocene obi£nih najmanjih kvadrata za parametre α i β. Onda zamenimoαOLS i βOLS u (3.16) i dobijemo

et = ρet−1 + νt, t = 2, 3, . . . , T, (3.17)

gde et ozna£ava rezidual dobijen metodom najmanjih kvadrata. Ocena za ρ moºebiti dobijena minimiziranjem rezidualne sume kvadrata u (3.17) ili na osnovu regre-

sije za et pomo¢u et−1. Rezultuju¢a ocena za ρ je ρco =∑T

t=2etet−1∑T

t=2e2t−1

, gde su obe sume

po t = 2, 3, . . . , T . Drugi korak u CO proceduri je da se regresija u (3.16) predstavipomo¢u ρco umesto ρ. Moºemo nastaviti ovu proceduru ra£unaju¢i nove rezidualebazirane na novim ocenama za α i β i otuda ponovo oceniti ρ iz (3.17) i tako daljedo konvergencije.(2) Hilderth-Lu (1960) procedura pretraºivanja: Ranije smo pomenuli da je−1 ≤ ρ ≤ 1, pa ova procedura pretraºuje vrednosti za ρ u ovim granicama, tj. kori-ste¢i vrednosti, na primer, izme�u -0,9 i 0,9 sa razmakom od 0,1. Za svaku vrednostparametra ρ, ra£unamo regresiju (3.16) i dobijamo sumu kvadrata koja odgovaratom ρ. Minimalna rezidualna suma kvadrata nam daje izbor za ρ i odgovaraju¢aregresija nam daje ocene za α, β i σ2. Nastavljamo ovu proceduru oko najboljegρ na�enog u prvom krugu. Na primer, pretpostavimo da ρ = 0, 6 daje najmanjurezidualnu sumu kvadrata, pa dalje traºimo vrednosti za ρ u granicama izme�u 0,51i 0,69 sa razmakom od 0,01. Ova procedura pretraºivanja nagomilava vrednostiza ρ oko lokalnog minimuma. Funkcija verodostojnosti sadrºi ρ pored parametara

76

Page 77: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

α, β i σ2, pa ova procedura pretraºivanja moºe biti modi�kovana da maksimizirafunkciju verodostojnosti, pri £emu je raspodela smetnji normalna, umesto ²to mini-mizira rezidualnu sumu kvadrata, s obzirom na to da ova dva kriterijuma vi²e nisuekvivalentna. Maksimalna vrednost funkcije verodostojnosti da¢e nam izbor za ρkao i odgovaraju¢e ocene za parametre α, β i σ2.(3) Durbin-ov metod (1960): Moºemo druga£ije zapisati regresiju (3.16) tako²to sabirak ρYt−1 promeni stranu, tj.

Yt = ρYt−1 + α(1− ρ) + βXt − ρβXt−1 + νt

i primenimo metod obi£nih najmanjih kvadrata na prethodni izraz. Za smetnjuu prethodnom izrazu vaºe klasi£ne pretpostavke i prisustvo Yt−1 na desnoj stranipodse¢a nas na slu£aj istovremene nekorelisanosti o kome smo diskutovali kada smorazmatrali naru²avanje pretpostavke 4. Kod takvog naru²avanja, pokazali smo ocenegube nepristrasnost, ali ne i postojanost. Otuda, ocena za ρ, kao koe�cijenta uz Yt−1,je pristrasna ali postojana. Sa ρD ozna£avamo ovu Durbinovu ocenu parametra ρ.Na dalje, moºemo koristiti ovu ocenu u drugom koraku Cochrane-Orcutt procedure.

3.6.1 Testiranje autokorelacije

Prou£ili smo osobine ocena obi£nih najmanjih kvadrata kada je naru²ena pret-postavka 3. Izveli smo asimptotski e�kasne ocene koe�cijenata bazirane na posto-je¢im ocenama za ρ. Sada ¢emo se usredsrediti na problem otkrivanja autokorelacijeizme�u smetnji.

Popularna test - statistika koja se koristi za testiranje da li postoji autokorelacijaizme�u smetnji je Durbin-Watson-ova (1951) statistika

d =

∑Tt=2(et − et−1)

2∑Tt=1 e

2t

. (3.18)

Ako se ova statistika oslanja na prave εt i T je veoma veliko, tada d ima granicukoja iznosi 2(1 − ρ). To zn£i da ako ρ → 0 tada d → 2; ako ρ → 1 tada d → 0 iako ρ → −1 tada d → 4. Otuda, test za H0 : ρ = 0 moºe se zasnivati na tome dali je d blizu 2 ili nije. Naºalost, kriti£na vrednost za d zavisi od Xt i ona varira odjednog skupa podataka do drugog. Da bi se dobila vrednost za d, Durbin i Watsonsu ustanovili gornju (dU) i donju (dL) granicu za ovu kriti£nu vrednost. Slika 3.1pokazuje ove granice.

O£igledno je da ako je opservirano d manje od dL ili ve¢e od 4−dL, odbacujemoH0. Ako je opservirano d izme�u dU i 4 − dU , tada ne odbacujemo H0. Ako se dnalazi izme�u dL i dU ili izme�u 4 − dU i 4 − dL, onda treba da izra£unamo ta£nukriti£nu vrednost koja zavisi od Xt, jer je tada test neubedljiv, tj. ne daje nikakavzaklju£ak. Ve¢ina regresionih programskih paketa izra£unava Durbin-Watson-ovustatistiku. Ako je od interesa jednostrani test, na primer, da testiramo hipotezuH0 : ρ = 0 protiv alternativne H1 : ρ > 0, tada ¢emo da odbijemo H0 ako jed < dL i ne¢emo ako je d > dU . Ako je dL < d < dU , tada test ne daje nikakve

77

Page 78: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Slika 3.1: Durbin-Watson-ove kriti£ne vrednosti

zaklju£ke. Sli£no, za testiranje H0 : ρ = 0 protiv H1 : ρ < 0, ra£unamo 4-d ipratimo korake za testiranje protiv pozitivne autokorelisanosti. Durbin-Watson-ovetabele za dL i dU pokrivaju veli£ine uzoraka od 15 do 100 elemenata sa maksimum5 regresora.

Durbin-Watson-ova statistika ima nekoliko ograni£enja. Pomenuli smo intervalza d koji ne daje nikakve zaklju£ke i tada moramo da ra£unamo ta£nu kriti£nuvrednost. Durbin-Watson-ova statistika je odgovaraju¢a statistika kada postoji kon-stanta u regresiji. Tako�e, Durbin-Watson-ova statistika nije odgovaraju¢a kadapostoje vrednosti zavisno promenljive iz prethodnih perioda me�u regresorima.

Pomenu¢emo sada jedno alternativno testiranje za otkrivanje serijske korelacijekoje nema ova ograni£enja i koje je tako�e lako za primenu. Ovaj test su izveliBreusch i Godfrey (1978) i poznat je kao Breusch-Godfrey test za nultu serijsku ko-relaciju prvog reda. Ovo je Lagranºeov multiplikativni test koji predstavlja izvo�enjeregresije za reziduale obi£nih najmanjih kvadrata et pomo¢u et−1 i originalnih re-gresora u modelu. Test statistika je TR2. Njena raspodela pod pretpostavkom davaºi nulta hipoteza je χ2

1. U ovom slu£aju, regresori su konstanta kao i Xt, i testproverava da li je koe�cijent uz et−1 zna£ajan. Lepota ovog testa je u slede¢em:(1) Isti test se koristi za serijsku korelaciju prvog reda, bez obzira da li smetnjeobrazuju proces AR(1) ili MA(1).(2) Ovaj test se lako generalizuje za autoregresione ili ²eme pokretnih sredina vi²egreda. Na primer, za serijsku korelaciju drugog reda, kao ²to je MA(2) ili AR(2),uklju£ujemo reziduale za dva perioda unazad, tj. i et−1 i et−2.(3) Ovaj test je validan £ak i kada su prisutne vrednosti zavisno promenljive izprethodnih perioda me�u regresorima.Breusch-Godfrey test je u standardnoj upotrebi EViews programskog paketa i omo-gu¢ava korisniku da izabere broj prethodnih perioda reziduala koje uklju£uje kadatestira serijsku korelaciju.

Ako se autokorelacija javlja zbog ispu²tanja neke vaºne promenljive, pogre²nefunkcionalne forme ili neodgovaraju¢eg modela, tada te probleme treba prvo uklo-niti pre primenjivanja neke procedure za korekciju autokorelacije.

78

Page 79: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Primer 3.6.1 Tabela 3.3 daje nivo zaliha Y i prodaju X, oba u milionima dolaraza proizvodnju u SAD od 1979-1998.

Tabela 3.3Godina 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988

Y 242 265 283 312 312 340 335 323 338 369X 144 154 168 163 172 191 194 195 206 225

Godina 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998Y 391 405 391 383 384 405 431 437 456 467X 237 243 240 250 261 279 300 310 327 338

Regresiraju¢i Y pomo¢u X, dobijamo

Yt = 126, 06 + 1, 03Xt, R2 = 0, 94, d = 0, 58.

S obzirom na to da je d = 0, 58 < dL = 1, 20, sa nivoom zna£ajnosti od 5% i san=20 i k=1, evidentirana je autokorelacija. Ocena za ρ je data kao koe�cijent uzYt−1 u slede¢oj regresiji

Yt = 66, 88 + 0, 58Yt−1 + 0, 88Xt − 0, 50Xt−1, R2 = 0, 97.

Koristimo ρ = 0, 58 da transformi²emo originalne promenljive (ovde je slu£ajnostda je d = ρ) i kao prve transformisane opservacije koristimo 242

√1− 0, 582 =

197, 14 i 144√1− 0, 582 = 117, 30 za Y i X, respektivno. Uradimo opet regresiju sa

transformisanim promenljivama i dobijamo:

Y ∗t = 65, 68 + 0, 94X∗

t , R2 = 0, 83, d = 1, 78.

S obzirom na to da je sada d = 1, 78 > dU = 1, 41, nije evidentirana autokorelacija.

3.7 Gre²ke u promenljivama

Gre²ke u promenljivama predstavljaju slu£aj kada promenljive u regresionommodelu sadrºe u sebi i gre²ke pri merenju. Ovo je veoma £est slu£aj s obzirom nana£in kako se prikupljaju i obra�uju podaci.

Gre²ke pri merenju koje se odnose na zavisno promenljivu, su uklju£ene u izrazsmetnje, pri £emu su ocene parametara obi£nih najmanjih kvadrata i dalje nepri-strasne i postojane. Me�utim, ocene parametara obi£nih najmanjih kvadrata nisuvi²e e�kasne u smislu da njihove varijanse nisu vi²e minimalne.

Kada se jave gre²ke pri merenju kod obja²njavaju¢ih promenljivih, naru²ava sepretpostavka obi£nih najmanjih kvadrata o nezavisnosti obja²njavaju¢ih promenljivihi smetnji. U ovom slu£aju, ocene obi£nih najmanjih kvadrata parametara su pris-trasne i nepostojane. Na primer, u prostoj linearnoj regresiji, ocena βOLS je pri-strasna na dole, ²to zna£i da je o£ekivanje od βOLS manje od β, dok je ocena αOLS

pristrasna na gore, odnosno o£ekivanje od αOLS je ve¢e od α.

79

Page 80: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Ne postoji formalni test da se otkrije prisustvo gre²aka u promenljivama. Eko-nomska teorija i poznavanje na£ina kako su generisani podaci, moºe ponekad datineke indikacije o ozbiljnosti problema.

Jedan metod za dobijanje postojanih, ali i dalje pristrasnih i nee�kasnih, ocenaobi£nih najmanjih kvadrata parametara je da se obja²njavaju¢e promenljive kojesadrºe gre²ku pri merenju, zamene drugim promenljivama koje su visoko korelisanesa originalnim obja²njavaju¢im promenljivama ali ne zavise od smetnji. Te pro-menljive nazivaju se instrumentalne promenljive. U realnom svetu moºe biti te²koda se prona�u takve instrumentalne promenljive i nikad ne¢emo biti sigurni da lione ne zavise od smetnji. Najpopularnije instrumentalne promenljive su vrednostiobja²njavaju¢ih promenljivih iz jednog od prethodnih perioda.

Gre²ke pri merenju koje se javljaju kod obja²njavaju¢ih promenljivih se mogu is-praviti pomo¢u inverznih najmanjih kvadrata. Metod inverznih najmanjih kvadratapredstavlja regresiju za X pomo¢u Y. Tada je α = −α′

β′ i β = 1β′ , gde su α i β postojane

ocene odse£ka i nagiba regresije za Y pomo¢u X, a α′ i β′ su postojane ocene odse£kai nagiba regresije za X pomo¢u Y. Kori²¢enje metoda inverznih najmanjih kvadratadaje bolje rezultate nego ²to je to slu£aj kada se koriste instrumentalne promenljiveza otklanjanje gre²aka pri merenju. Kada koristimo instrumentalne promenljive,ocene i nagiba i odse£ka su dalje od pravih vrednosti parametara. Me�utim, rezul-tati mogu da se razlikuju u nekom drugom slu£aju. U svakom slu£aju, u praksi retkoznamo koje su vrste gre²aka prisutne, koji tip prilago�avanja je prikladan i kolikosu prilago�eni parametri blizu pravim vrednostima parametara.

Primer 3.7.1 Tabela 3.4 daje zalihe Y, stvarnu prodaju X i hipoteti£ke vrednostiza X koje uklju£uju gre²ke pri merenju X ′, sve u milionima dolara za proizvodnju uSAD od 1983-1998. Za Y i X se pretpostavlja da ne sadrºe gre²ke pri merenju.Regresirajmo Yt pomo¢u Xt i dobijemo

Yt = 169, 69 + 0, 90Xt, R2 = 0, 95.

Regresirajmo, sada, Yt pomo¢u X ′t, ako smo prethodno pretpostavili da Xt nisu dos-

tupni i dobijemo

Yt = 182, 50 + 0, 78X ′t, R2 = 0, 94.

Tabela 3.4Godina 1983 1984 1985 1986 1987 1988 1989 1990

Y 312 340 335 323 338 369 391 405X 172 191 194 195 206 225 237 243X ′ 176 195 199 200 212 232 245 252

Godina 1991 1992 1993 1994 1995 1996 1997 1998Y 391 383 384 405 431 437 456 467X 240 250 261 279 300 310 327 338X ′ 251 263 276 296 320 333 352 366

80

Page 81: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Primetimo da je β′ < β, ²tavi²e β se nalazi van 95% intervala poverenja za β′, kojiiznosi (0,67;0,89).

Pretpostavimo sada da je X ′t u korelaciji sa εt, pa uradimo regresiju sa X ′

t−1, kojau ovom slu£aju predstavlja instrumentalnu promenljivu za X ′

t. Dobijamo slede¢e

Yt = 187, 90 + 0, 80X ′t−1, R2 = 0, 92.

Koe�cijent uz X ′t−1 je sada bliºi pravoj vrednosti parametra i predstavlja njegovu po-

stojanu ocenu. Pripada 95% intervalu poverenja (0,66;0,94).Naravno, u stvarnom svetu je retko poznato kakva se gre²ka javlja prilikom

merenja, jer bi se u suprotnom gre²ke ispravile pre regresiranja. Kao ²to smo malo-pre naveli, tako�e je te²ko ili je gotovo nemogu¢e utvrditi da li je X ′

t u korelaciji saεt.

Regresirajmo sada X ′t pomo¢u Yt sa ciljem da odstranimo gre²ke pri merenju

X ′t = −206, 10 + 1, 21Yt, R2 = 0, 94.

Sada je

α =−α′

β′= −−206, 10

1, 21= 170, 33 i β =

1

β′=

1

1, 21= 0, 83,

gde su α i β postojane, ali pristrasne, ocene odse£ka i nagiba regresije za Yt pomo¢uXt.

81

Page 82: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

82

Page 83: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Glava 4

Dodatne tehnike i primene u analizi

regresije

4.1 Funkcionalna forma

Teorija ekonomije ponekad moºe da ukaºe na odre�enu funkcionalnu formu vezeizme�u dve ili vi²e promenljivih £iji odnos treba da se ispita. Na primer, mikroeko-nomska teorija pretpostavlja prose£nu, kratkoro£nu liniju tro²kova koja ima U obliki prose£nu liniju �ksnih tro²kova koja konstantno opada i asimptotski se pribliºavax-osi po²to se ukupni �ksni tro²kovi pove¢avaju sa pove¢anjem broja proizvedenihjedinica.

Dijagram rasturanja tako�e ukazuje na odgovaraju¢u funkcionalnu formu vezeizme�u dve promenljive. Kada ni teorija ni dijagram rasturanja ne ukazuju na nekuodre�enu funkcionalnu formu veze izme�u promenljivih, prvo se poku²a sa linearnomfunkcionalnom formom veze zbog njene jednostavnosti.

Postoji mogu¢nost da se odre�ene nelinearne funkcionalne forme transformi²uu linearne funkcionalne forme veze izme�u promenljivih tako da i dalje moºe dase koristi metod obi£nih najmanjih kvadrata za dobijanje ocena parametara. Pri-mena metoda obi£nih najmanjih kvadrata na transformisanu linearnu formu dajenepristrasnu ocenu nagiba. Neke od naj£e²¢e kori²¢enih i op²tih transformacija ne-linearnih u linearne funkcionalne forme su dvostruki logaritam ili double log, polu-logaritam ili semilog, recipro£na i polinomska funkcija, vidi tabelu 4.1.

Tabela 4.1 Funkcionalne forme i njihove transformacijeFunkcija Transformacija Forma

Y = αXβeε Y (l) = α(l) + βX(l) + ε Duoble loglnY = α+ βX + ε Y (l) = α+ βX + ε SemilogY = α+ β

X+ ε Y = α+ βZ + ε Reciprocal

Y = α+ β1X + β2X2 + ε Y = α+ β1X + β2W + ε Polynomial

U tabeli 4.1 su kori²¢ene slede¢e oznake: Y (l) = lnY , α(l) = lnα, X(l) = lnX,ε = lneε, Z = 1

Xi W = X2.

83

Page 84: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Jedna od prednosti forme dvostrukog logartima je ta da parametar nagiba pred-stavlja elasti£nost.

Primer 4.1.1 Posmatrajmo funkciju potraºnje koja moºe da se transformi²e u li-nearnu formu pomo¢u duple logaritamske transformacije

Q = αP β1Y β2eε,

gde je Q traºena koli£ina, P cena i Y prihod. Pokazati da je: (a) β1 elasti£nost ceneu odnosu na potraºnju ili ηP ; (b) β2 je elasti£nost prihoda u odnosu na potraºnju iliηY .(a) De�nicija elasti£nosti cene u odnosu na potraºnju je

ηP =∂Q

∂P

P

Q.

Imamo da je

∂Q

∂P= β1αP

β1−1Y β2eε = β1(αPβ1Y β2eε)P−1 = β1

Q

P.

Odakle sledi da je

ηP =∂Q

∂P

P

Q= β1

Q

P

P

Q= β1.

(b) Elasti£nost prihoda u odnosu na potraºnju se de�ni²e na slede¢i na£in

ηY =∂Q

∂Y

Y

Q.

Kao u delu pod (a), imamo da je

∂Q

∂Y= β2αP

β1Y β2−1eε = β2(αPβ1Y β2eε)Y −1 = β2

Q

Y,

pa sledi

ηY =∂Q

∂Y

Y

Q= β2

Q

Y

Y

Q= β2.

Semilog transformacija se koristi kada se zavisno promenljiva pove¢ava za kon-stantan iznos tokom vremena, kao ²to je to slu£aj sa radnom snagom i popu-lacijom. Recipro£na i polinomska transformacija se koriste kada treba oceniti kriveprose£nih i ukupnih tro²kova. Ocena transformisane dvostruke logaritamske formemetodom obi£nih najmanjih kvadrata daje nepristrasnu ocenu nagiba. Me�utim,αOLS = eα

(l)OLS je pristrasna ali postojana ocena za α. �injenica da je αOLS pris-

trasna nema vaºnije posledice zato ²to konstanta u regresiji obi£no nije od primarnevaºnosti. U skladu sa transformacijama datim u tabeli 4.1, αOLS je tako�e nepris-trasna ocena. Linearni model dvostrukog logaritma je odgovaraju¢ kada ta£ke (lnX,lnY) aproksimativno leºe na pravoj liniji.

84

Page 85: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Primer 4.1.2 Posmatrajmo funkciju potraºnje koja ima formu sli£nu kao u pretho-dnom primeru

Y = αXβ11 Xβ2

2 eε,

gde je, kao u prethodnom primeru, Y-traºena koli£ina neke robe, X1-cena te robe iX2-prihod potro²a£a. Na osnovu podataka iz tabele 4.2 i koriste¢i se metodom obi£nihnajmanjih kvadrata za ovu funkciju potraºnje transformisanu u duplu logaritamskulinearnu formu, dobijamo

lnY = 1, 96− 0, 26lnX1 + 0, 39lnX2, R2 = 0, 97,

gde su -0,26 i 0,39 nepristrasne ocene elasti£nosti cene i prihoda, respektivno.

Tabela 4.2Godina Y X1 X2

1985 40 9 4001986 45 8 5001987 50 9 6001988 55 8 7001989 60 7 8001990 70 6 9001991 65 6 10001992 65 8 11001993 75 5 12001994 75 5 13001995 80 5 14001996 100 3 15001997 90 4 16001998 95 3 17001999 85 4 1800

4.2 Ve²ta£ke promenljive

Mnoge obja²njavaju¢e promenljive su kvalitativne po prirodi. Na primer, glavaporodice moºe biti osoba mu²kog ili ºenskog pola, belac ili ne, zaposlena ili neza-poslena osoba itd. Kvalitativne obja²anjavaju¢e promenljive mogu biti uklju£ene uregresionu analizu uzimaju¢i vrednost 1 za jednu klasi�kaciju (na primer, ukoliko jevreme rata) i 0 za drugu (na primer, vreme mira). Ove promenjive se zovu ve²ta£kepromenljive i testiraju se kao bilo koja druga promenljiva.

U ovakvom slu£aju, jedna vrednost ve²ta£ke promenljive je "M" za osobu mu²kogpola ili "F" za osobu ºenskog pola. Promena ove kvalitativne promenljive, zvaneFEMALE, u kvantitativnu dobija vrednost 0 za osobu mu²kog pola i vrednost 1 zaosobu ºenskog pola. Name¢e se, sada, pitanje za²to nemamo promenljivu MALEkoja uzima vrednost 1 za osobu mu²kog pola i vednost 0 za osobu ºenskog pola. Ustvari, promenljiva MALE bila bi jednaka promenljivoj 1-FEMALE. Drugim re£ima,0 i 1 predstavljaju "prekida£", koji kada je uklju£en ima vrednost 1 i kada je isklju£en

85

Page 86: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

ima vrednost 0.Pretpostavimo da je od interesa da se ispita zarada doma¢instva, u oznaci EARN,

kada su MALE i FEMALE jedine dostupne obja²njavaju¢e promenljive. U tomsmislu posmatrajmo slede¢u regresionu jedna£inu

EARN = αMMALE + αFFEMALE + ε. (4.1)

Sada je αM prosek zarade mu²karaca u uzorku i αF prosek zarade ºena u uzorku.Primetimo da u jedna£ini (4.1) nema odse£ka. To je zbog "zamke ve²ta£ke promen-ljive" kako se naziva u literaturi. Ukratko re£eno, ve²ta£ke promenljive MALE iFEMALE su linearno zavisne, tj. bi¢e MALE+FEMALE=1. Neki istraºiva£i moguodlu£iti da uklju£e odse£ak i isklju£e jednu od promenljivih koja opisuje pol. Tadaje

EARN = α+ βFEMALE + ε (4.2)

i ocene obi£nih najmanjih kvadrata su date sa: α = αM je prosek zarade mu²karacau uzorku i β = αF − αM je razlika proseka zarade ºena i proseka zarade mu²karacau uzorku. Regresija (4.2) se £e²¢e koristi kada je u interesu da se ispita razlikaizme�u zarada mu²karaca i ºena i kada treba da se dobije pove¢anje ili smanjenjeprose£ne zarade αF − αM pomo¢u jedne regresije isto tako dobro kao kada se testirahipoteza da li se ova razlika statisti£ki razlikuje od nule. U drugom slu£aju, to bibila obi£na t-statistika koja se koristi prilikom testiranja hipoteze da je koe�cijentnagiba u (4.2) jednak 0. Sa druge strane, ako je u interesu testirati prosek zarademu²karaca i ºena odvojeno, model (4.1) bi bio odgovaraju¢. U tom slu£aju, t-testza testiranje hipoteze αF − αM = 0 bi uklju£ivao dodatna izra£unavanja koja nisudirektno data pomo¢u regresije (4.1).

�ta se de²ava kada se uklju£i jo² jedna kvalitativna promenljiva da se opi²e jo²jedna klasi�kacija elemenata uzorka, na primer, rasa? Pretpostavimo da postojetri grupe rasa u uzorku: WHITE, BLACK i HISPANIC. Moºemo formirati ve-²ta£ku promenljivu za svaku od ovih klasi�kacija. Na primer, WHITE ¢e uzetivrednost 1 ukoliko je osoba bele rase ili vednost 0 ukoliko nije. Primetimo da "zamkave²ta£ke promenljive" ne dozvoljava uklju£enje sve tri kategorije s obzirom na toda je njihova suma 1. Tako�e, iako je ispu²ten odse£ak, MALE i FEMALE suuklju£ene i savr²ena multikolinearnost je i dalje prisutna s obzirom na to da jeMALE+FEMALE=WHITE+BLACK+HISPANIC. Zbog toga, bilo koja kategorijakoja opisuje rasu moºe biti isklju£ena. Suits (1984) tvrdi da istraºiva£ treba daizostavi jednu kategoriju ve²ta£ke promenljive, da bi bio u prednosti kada interpretirarezultat. Na primer, ako je od interesa upore�ivanje zarada izme�u polova za nekurasu, isklju£ivanje MALE ili FEMALE je prirodno. Sa druge strane, ukoliko je odinteresa razlika u zaradi izme�u rasa za odre�eni pol, jedna od promenljivih kojaopisuje rasu treba da bude isklju£ena iz regresione jedna£ine. Koja god promenljivada je isklju£ena dobijamo bazu za upore�ivanje zarada sa ostalim kategorijama.Ve¢ina istraºiva£a vi²e voli da zadrºi odse£ak iako regresioni programski paketi nudeopciju regresiranja bez odse£ka. U ovom slu£aju, isklju£i¢emo po jednu rasnu i jednupolnu kategoriju. Na primer, neka su MALE i WHITE isklju£ene

EARN = α+ βFFEMALE + βBBLACK + βHHISPANIC + ε. (4.3)

86

Page 87: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Pretpostavimo da ε zadovoljava sve klasi£ne pretpostavke i ako potraºimo o£eki-vanje obe strane jedna£ine (4.3) vidimo da je ose£ak α jednak o£ekivanoj vrednostizarade propu²tene kategorije a to je "white male". Sli£no, α + βF je o£ekivanavrednost zarade kategorije "white female", s obzirom na to da smo uklju£ili vre-dnost promenljive FEMALE. Pa moºemo zaklju£iti da je koe�cient βF jednak ra-zlici o£ekivanih vrednosti zarada izme�u kategorija "white female" i "white male".Sli£no, α+βB je o£ekivana vrednost zarade kategorije "black male" i α+βF +βB jeo£ekivana vrednost zarade kategorije "black female". Otuda, βF predstavlja razlikuo£ekivanih vrednosti zarada izme�u kategorija "black female" i "black male". Nasli£an na£in dolazimo do zaklju£ka da βF predstavlja razliku o£ekivanih vrednostizarada izme�u kategorija "hispanic female" i "hispanic male". Drugim re£ima, ko-e�cijent βF predstavlja razliku o£ekivanih vrednosti zarada izme�u mu²karaca i ºenaza datu rasu. Sli£no, moºe se pokazati da koe�cijent βB predstavlja razliku o£eki-vanih vrednosti zarada izme�u bele i crne rase za dati pol i koe�cient βH predstvaljarazliku o£ekivane zarade izme�u rasnih kategorija "white" i "hispanic" za dati pol.Glavna odlika u interpretaciji koe�cijenata ve²ta£kih promenljivih je da se izabereodre�ena osobina i da se zapi²u ta£na o£ekivanja.

Stvarna regresija, u op²tem slu£aju, moºe da sadrºi i kvalitativne i kvantitativnepromenljive

EARN = α+ βFFEMALE + βBBLACK + βHHISPANIC +

+γ1EXP + γ2EXP 2 + γ3EDUC + γ4UNION + ε, (4.4)

gde promenljiva EXP predstavlja godine radnog iskustva, promenljiva EDUC godine²kolovanja i promenljiva UNION uzima vrednost 1 ako je osoba u braku i vrednost0 u suprotnom. EXP 2 je kvadrat promenljive EXP. I u ovom slu£aju, moºemointerpretirati koe�cijente ove regresije uklju£juju¢i i isklju£uju¢i odre�ene osobine.Na primer, koe�cijent γ4 se interpretira kao o£ekivana razlika zarada osoba koje suu braku i osoba koje nisu u braku dok sve ostale promenljive u regresionoj jedna£ini(4.4) imaju konstantnu vrednost.

Treba napomenuti da se koe�cijenti ve²ta£kih promenljivih interpretiraju na dru-ga£iji na£in kada je zavisno promenljiva logaritmovana. Na primer, neka je jedna£inazarade data u semilog formi

log(EARNINGS) = α+ βUNION + γEDUC + ε.

Tada koe�cijent γ predstavlja procentualnu promenu zarade ako se broj godinaobrazovanja uve¢a za 1, dok je pripadnost bra£noj zajednici konstantna. Postavljase pitanje ²ta se de²ava sa osobama koje su u braku i sa onim koje nisu u braku.Ozna£imo sa Y1 = log(EARNINGS) logaritmovanu vrednost zarade osobe koja jeu braku i sa Y0 = log(EARNINGS) logaritmovanu vrednost zarade osobe koja nijeu braku. Tada g predstavlja procentualnu promenu zarade usled stupanja osobe ubrak, tj. g = eY1−eY0

eY0. Ekvivalentno moºemo pisati da je log(1 + g) = Y1 − Y0 = β

odnosno da je g = eβ − 1. Drugim re£ima, ne smemo da poºurimo da zaklju£imo daβ ima istu interpretaciju kao γ. U stvari, procentualna promena zarade osobe usled

87

Page 88: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

stupanja u bra£nu zajednicu je eβ − 1 a ne β. Gre²ka koja se javlja kada koristimoβ umesto eβ − 1 da ocenimo g moºe biti od su²tinske vaºnosti, pogotovo ukolikoje vrednost za β velika. Na primer, ako je β = 0, 5; 0, 75; 1 tada g uzima vrednostig = eβ−1 = 0, 65; 1, 12; 1, 72, respektivno. Ako je β nepristrasna ocena parametra β,tada g ne mora biti nepristrasna ocena parametra g. Me�utim, postojanost ocene βukazuje na postojanost ocene g. Ako pretpostavimo da smetnje imaju log-normalnuraspodelu, tada je E(eβ) = eβ+0,5V ar(β). Koriste¢i ovaj rezultat, predloºeno je daocena za g bude g = eβ+0,5V ar(β), gde je V ar(β) postojana ocena za V ar(β).

Jo² jedna upotreba ve²ta£kih promenljivih je kada se uzimaju u obzir sezonskifaktori, tj. uklju£ivanje 3 sezonske ve²ta£ke promenljive i ispu²tanje jedne postajeosnova pore�enja. Na primer, neka je regresiona jedna£ina data sa

SALE = α+ βWWINTER + βSSPRING+ βFFALL+ γ1PRICE + ε, (4.5)

gde smo ispustili leto. Ako (4.5) modelira prodaju klima-ure�aja, tada koe�cijent βF

predstavlja razliku o£ekivanih prodaja klima-ure�aja u letnjem i jesenjem periodu,kada je cena klima-ure�aja konstantna. Ako su u pitanju grejne jedinice, moºemopromeniti bazno godi²nje doba na osnovu kojeg ¢emo vr²iti upore�ivanje.

Koristimo ve²ta£ke promenljive kada su godine rata da bi opisali potro²nju kojanije na svom uobi£ajenom nivou zbog racionalizacije. Posmatrajmo slede¢u funkcijupotro²nje koju ºelimo da ocenimo

Ct = α+ βYt + δWARt + εt, t = 1, 2, . . . , T, (4.6)

gde smo sa Ct ozna£ili potro²nju po glavi stanovnika, Yt ozna£ava prihod po glavistanovnika i WARt je ve²ta£ka promenljiva koja uzima vrednost 1 ukoliko je vremerata i vrednost 0 u suprotnom. Primetimo da godine rata ne uti£u na nagib linijepotro²nje, samo na odse£ak. Odse£ak α predstavlja godinu koja nije ratna, a α+ δje odse£ak ratne godine. Drugim re£ima, prihod je isti i u godini rata i u godini kojanije ratna, samo je nivo potro²nje razli£it.

Naravno, koristimo ve²ta£ke promenljive i za druge neuobi£ajene godine, kao ²tosu periodi ²trajka, godine prirodnih katastrofa, zemljotresa, uragana, kao i drugestvari koje su izmakle kontroli, kao ²to je to bio naftni embargo u SAD-u 1973.godine.

Do sada smo koristili ve²ta£ke promenljive u regresiji da posmatramo promenuvrednosti odse£ka. Op²tom formulom to moºe da se zapi²e na slede¢i na£in

Y = α+ β1X + β2D + ε. (4.7)

Ve²ta£ke promenljive mogu biti kori²¢ene kada se posmatra promena vrednosti ko-e�cijenta nagiba, kao i kada se posmatra promena vrednosti odse£ka i promena vred-nosti koe�cijenta nagiba istovremeno. Te promene se zapisuju jedna£inama (4.8) i(4.9), respektivno,

Y = α+ β1X + β2XD + ε (4.8)

iY = α+ β1X + β2D + β3XD + ε (4.9)

88

Page 89: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

gde D uzima vrednost 1 za jednu klasi�kacionu grupu i vrednost 0 ina£e. X je obi£nokvantitativna obja²njavaju¢a promenljiva.

Primer 4.2.1 Tabela 4.3 daje koli£inu mleka koje �rma isporu£uje mese£no, Q, porazli£itoj ceni P, tokom perioda od 14 meseci. Firma se suo£ila sa ²trajkom u svo-jim pogonima tokom tog perioda u 5-om, 6-om i 7-om mesecu. Uraditi regresiju zaQ pomo¢u P: (a) testiraju¢i promene vrednosti odse£ka tokom perioda ²trajka; (b)testiraju¢i promene vrednosti odse£ka i koe�cijenta nagiba.

4.3 Koli£ina isporu£enog mleka i odgovaraju¢a cenaMesec 1 2 3 4 5 6 7Q 98 100 103 105 80 87 94P 0,97 0,80 0,82 0,82 0,93 0,95 0,96

Mesec 8 9 10 11 12 13 14Q 113 116 118 121 123 126 128P 0,88 0,88 0,90 0,93 0,94 0,96 0,97

(a) Ozna£imo sa D=1 period koji je u ²trajku i D=0 ina£e

Q = −32, 47 + 165, 97P − 37, 64D, R2 = 0, 98.

S obzirom na to da D ima nivo statisti£ke zna£ajnosti ve¢i od 1%, odse£ak je α =−32, 47 za period tokom kog nema ²trajka. Odse£ak za period ²trajka je -32,47-37,64=-70,11.

(b) Q = −29, 74 + 162, 86P − 309, 62D + 287, 14PD, R2 = 0, 99.

D i PD imaju nivo statisti£ke zna£ajnosti ve¢i od 1%. Koe�cijenti odse£ka i nag-iba su, respektivno, -29,74 i 162,86 za period kada �rma nije u ²trajku. Za vreme²trajka odse£ak je α + β2 = −29, 74 − 309, 62 = −339 a koe�cijent nagiba jeβ1 + β3 = 162, 86 + 287, 14 = 450 (s obzirom na to da je �rma u mogu¢nosti dapoja£a rast proizvodnje u svojim pogonima kada nema ²trajka).

4.3 Lag modeli

�esto efekti politike slu£ajne promenljive mogu biti raspodeljeni preko periodavremenskog niza, zahtevaju¢i niz odloºenih obja²njavaju¢ih slu£ajnih promenljivihda se upotpuni proces prilago�avanja kroz vreme, tj. zavisno promenljiva moºe biti"usporena" da odgovori na promenu politike nezavisno promenljive.

Lag model je onaj model kod koga trenutna vrednost zavisno promenljive Yt zavi-si od teºinske sume sada²nje i pro²lih vrednosti nezavisno promenljive (Xt, Xt−1, Xt−2,. . . i tako dalje) i smetnje, pri £emu su uop²teni razli£iti teºinski koe�cijenti do-deljeni razli£itim vremenskim periodima, koji obi£no sukcesivno opadaju za ranijevremenske periode

Yt = α+ β0Xt + β1Xt−1 + β2Xt−2 + . . .+ εt. (4.10)

89

Page 90: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Ocenjivanje lag modela nailazi na nekoliko pote²ko¢a. Kod ocenjivanja lag modela,uklju£ivanjem svake prethodne vrednosti nezavisno promenljive, stepen slobode sepove¢ava za 1. Kada je broj prethodnih trenutaka nezavisno promenljive, k, mali,model moºe biti ocenjen metodom najmanjih kvadrata. Me�utim, za veliko k, kojepredstavlja duºinu vremenskog niza, broj stepeni slobode moºe biti nedovoljan dadobijene ocene parametara budu dovoljno precizne. �tavi²e, odloºene obja²njavaju¢epromenljive u lag modelima su najverovatnije jako korelisane, pa moºe biti te²koadekvatno odvojiti njihove nezavisne efekte na zavisno promenljivu.

Ove pote²ko¢e mogu biti eliminisane izvo�enjem iz jedna£ine (4.10) Koyck-ov lagmodel, koji podrazumeva da teºinski koe�cijenti opadaju geometrijski. Da dobijemoKoyck-ov lag model, po�imo od jedna£ine (4.10), gde pretpostavljamo da su sveklasi£ne pretpostavke metoda obi£nih najmanjih kvadrata zadovoljene. Koe�cijentikoji geometrijski opadaju u 0 < λ < 1 daju

βi = λiβ0, i = 1, 2, . . . . (4.11)

Zamenjuju¢i jedna£inu (4.11) u jedna£inu (4.10), dobijamo

Yt = α+ β0Xt + λβ0Xt−1 + λ2β0Xt−2 + . . .+ εt.

Pomeraju¢i prethodnu jedn£inu za jedan period unazad, dobijamo

Yt−1 = α+ β0Xt−1 + λβ0Xt−2 + λ2β0Xt−3 + . . .+ εt−1.

Mnoºimo, sada, prethodnu jedna£inu sa λ i dobijamo

λYt−1 = λα + λβ0Xt−1 + λ2β0Xt−2 + λ3β0Xt−3 + . . .+ λεt−1.

Oduzimaju¢i je od jedna£ine (4.10), dobijamo

Yt−λYt−1 = α−λα+β0Xt+λβ0Xt−1−λβ0Xt−1+λ2β0Xt−2−λ2β0Xt−2+. . .+εt−λεt−1

Yt − λYt−1 = α(1− λ) + β0Xt + εt − λεt−1,

odnosno,Yt − λYt−1 = α(1− λ) + β0Xt + νt, (4.12)

gde je νt = εt − λεt−1. Primetimo da je u jedna£ini (4.12) broj regresora sveden nadva, sa samo jednim X.

Kod ocenjivanja Koyck-ovog modela javljaju se dva ozbiljna problema. Prvi,ako εt-ovi u jedna£ini (4.10) zadovoljavaju sve pretpostavke metoda obi£nih najma-njih kvadrata, tada νt = εt − λεt−1 u jedna£ini (4.12) ne zadovoljavaju. Specijalno,E(νtνt−1) = 0 zato ²to se i νt i νt−1 de�ni²u pomo¢u εt−1, tj. νt = εt − λεt−1

i νt−1 = εt−1 − λεt−2. Kao dodatak, imamo E(νtYt−1) = 0. Naru²avanje ovihklasi£nih pretpostavki metoda obi£nih najmanjih kvadrata kao rezultat daje pristra-sne i nepostojane ocene za Koyck-ov lag model, zahtevaju¢i detaljne procedure zakorekciju. Drugi ozbiljan problem je taj da Koyck-ov lag model strogo pretpostavljateºinske koe�cijente koji geometrijski opadaju. Ovo moºe biti redak slu£aj u realnom

90

Page 91: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

svetu, pa se zahteva �eksibilnija lag ²ema.Drugi lag model koji se koristi je Almon-ov lag model. Dok Koyck-ov lag model

pretpostavlja teºinske koe�cijente koji geometrijski opadaju, Almon-ov lag modeldozvoljava bilo koju lag strukturu, koja ¢e biti empirijski aproksimirana polinomom£iji je stepen bar za jedan ve¢i od broja prekretnica u funkciji. Na primer, formalag strukture koja je obrnuto U (tj. β1 > β0), moºe da se aproksimira polinomomnajmanje drugog stepena. Do ovoga moºe do¢i, kao ²to je slu£aj kod funkcije investi-cije, kada zbog odlaganja u prepoznavanju i dono²enju odluka, nivo investicija vi²eodgovara uslovima potraºenje u nekoliko ranijih perioda nego u teku¢em periodu.

Pretpostavimo da je forma lag struktrure sastavljena od tri prethodna periodanezavisno promenljive i takva forma nam daje polinom drugog stepena

Yt = α+ β0Xt + β1Xt−1 + β2Xt−2 + β3Xt−3 + εt, (4.13)

gde jeβi = c0 + c1i+ c2i

2, (4.14)

pa imamoYt = α+ c0Z1t + c1Z2t + c2Z3t + νt, (4.15)

gde je Z1t =∑3

i=0 Xt−i, Z2t =∑3

i=1 iXt−i i Z3t =∑3

i=1 i2Xt−i. Vrednosti za βi u

jedna£ini (4.13) su dobijene zamenjuju¢i ocenjene vrednosti za c0, c1 i c2 i jedna£ine(4.15) u jedna£inu (4.14).

Primer 4.3.1 Tabela 4.4 daje nivo zaliha Y i prodaju X (u milionima dolara) uproizvodnji u SAD od 1981-1999. Fitujmo Koyck-ov model pomo¢u podataka iz tabele4.4, pri £emu koristimo date podatke samo za Y i X.

Yt = 88426, 14 + 0, 60Xt + 0, 50Yt−1, R2 = 0, 99.

Vrednosti parametara λ i α su:

λ = 0, 50 i α(1− 0, 50) = 88426, 14 pa je α = 176852, 28.

Ocenimo sada Almon-ov lag model, gde je lag forma data pomo¢u prethodna triperioda nezavisno promenljive i koja daje polinom drugog stepena. Tabela 4.4 namdaje originalne vrednosti promenljivih Y i X kao i izra£unate vrednosti promenljivihZ. Regresirajmo Y pomo¢u Z da ocenimo regresiju datu jedna£inom (4.15), na�imoocene koe�cijenata β u jedna£ini (4.13).

Yt = 171, 80 + 0, 44Z1t + 0, 27Z2t − 0, 15Z3t, R2 = 0, 99.

Regresioni koe�cijenti su sada:α = 171, 80

β0 = c0 = 0, 44

β1 = c0 + c1 + c2 = 0, 44 + 0, 27− 0, 15 = 0, 56

91

Page 92: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

β2 = c0 + 2c1 + 4c2 = 0, 44 + 0, 54− 0, 60 = 0, 38

β3 = c0 + 3c1 + 9c2 = 0, 44 + 0, 81− 1, 35 = −0, 10.

Pa je regresiona jedna£ina

Yt = 171, 80 + 0, 44Xt + 0, 56Xt−1 + 0, 38Xt−2 − 0, 10Xt−3.

4.4 Nivo zaliha i prodajaGodina Y X Z1 Z2 Z3

1981 546 345 - - -1982 574 344 - - -1983 590 396 - - -1984 650 417 1502 2119 48771985 664 428 1585 2241 50971986 663 445 1686 2450 56601987 710 473 1763 2552 59101988 767 522 1868 2647 61051989 815 533 1973 2803 64191990 841 542 2070 2996 68781991 835 542 2139 3174 73721992 843 585 2202 3225 75071993 870 609 2278 3295 76311994 935 672 2408 3405 78271995 996 701 2567 3645 83731996 1014 730 2712 3872 88701997 1062 769 2872 4148 95821998 1100 797 2997 4332 99981999 1151 872 3168 4525 10443

4.4 Modeli sa binarnim izborom

Ukoliko je zavisno promenljiva ve²ta£ka promenljiva, tada regresija u kojoj jeizvr²eno ocenjivanje parametara regresije metodom obi£nih najmanjih kvadrata nijeodgovaraju¢a. Regresijom u kojoj su parametri ocenjeni metodom obi£nih najmanjihkvadrata moglo bi da se dobije neodgovaraju¢e predvi�anje koje je ve¢e od 1 ilimanje od 0. Tako�e, takva regresija bi mogla da naru²i pretpostavku koja govorida smetnje nisu heteroskedasti£ne zbog diskretne prirode zavisno promenljive.

Da ocenimo pravi regresioni model, prvo postavimo osnovni model

Y(b)i = α+ βXi + εi.

Ovde Y (b) podrazumeva slede¢u osobinu ve²ta£kih promenljivih, da za jednu klasi-�kaciju uzme vrednost 1 a u suprotnom 0

Yi =

{1, Y

(b)i ≥ 0 (εi ≥ −α− βXi)

0, Y(b)i < 0 (εi < −α− βXi).

92

Page 93: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Ocene maksimalne verodostojnosti koe�cijenata se ra£unaju postavljaju¢i funkcijulogaritamske verodostojnosti

lnL = Σ1 [lnP{εi ≥ −α− βXi|Yi = 1}] + Σ0 [lnP{εi < −α− βXi|Yi = 0}] ,

gde Σ1 i Σ0 predstavljaju sume svih verovatno¢a za one podatke kada je Yi =1 i Yi = 0, respektivno, i α i β su izabrani tako da maksimiziraju logaritamskufunkciju verodostojnosti. Ukoliko se za nalaºenje verovatno¢a koristi standardnanormalna raspodela, regresioni model se naziva probit model. A ako se koristilogisti£ka raspodela, tada je regresioni model logit model. S obzirom na to da ovefunkcije nisu linearne, obi£no se ocenjivanje vr²i pomo¢u regresionih programskihpaketa.

Sada ¢emo da izvedemo logaritamsku funkciju verodostojnosti za probit model.S obzirom na to da se radi o probit modelu, znamo da εi ima normalnu raspodelu umodelu sa slede¢om osobinom za Y

Y(b)i = α+ βXi + εi,

gde je Yi = 1 ako je Y (b)i ≥ 0 i Yi = 0 ako je Y (b)

i < 0. Ako vidimo da je opserviranavrednost za Y jednaka 1, znamo da je Y

(b)i ≥ 0 ili alternativno εi ≥ −α − βXi.

Verovatno¢a za εi, koja se nalazi u intevralu desno od −α−βXi, je 1−ϕ(−α−βXi),gde je ϕ funkcija normalne raspodele. S obzirom na to da je normalna raspodelasimetri£na, tu verovatno¢u moºemo zapisati kao

P{Y = 1} = ϕ(α+ βXi).

Sli£no, verovatno¢a za opserviranu vrednost Y=0 za jedno posmatranje je

P{Y = 0} = P{εi < −α− βXi} = ϕ(−α− βXi).

Znamo da ako su opservacije nezavisne, zajedni£ka gustina raspodele jednaka jeproizvodu pojedina£nih gustina raspodele. Za dati skup podataka, zajedni£ka funkcijagustine za posmatranu kombinaciju za Y=1 i Y=0 je funkcija verodostojnosti L

L = Π1 [ϕ(α+ βXi)] Π0 [ϕ(−α− βXi)] ,

gde Π1 i Π0 predstavljaju proizvod svih verovatno¢a za date podatke kada je Yi = 1i Yi = 0, respektivno. Ako logaritmujemo prethodni izraz, dobijamo logaritamskufunkciju verodostojnosti

lnL = Σ1 [lnϕ(α+ βXi)] + Σ0 [lnϕ(−α− βXi)] .

Logaritamsku funkciju verodostojnosti moºemo zapisati i na druga£iji na£in

lnL = Σ [(Yi)lnϕ(α+ βXi) + (1− Yi)lnϕ(−α− βXi)]

ililnL = Σ [lnϕ ((2Yi − 1)(α+ βXi))] .

93

Page 94: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Kada je u pitanju logit model, jedina razlika je ²to normalnu raspodelu zamenjujemologisti£kom raspodelom, £ija je funkcija raspodele Λ(z) = 1

1+e−z .U su²tini, i logit i probit modeli se zasnivaju na istom osnovnom modelu. Ali

zato ²to se osnovni model zasniva na raspodeli smetnji, mora ta£no da se navederaspodela koja se koristi prilikom ocenjivanja modela. Probit model, kao ²to smopomenuli, koristi normalnu raspodelu, ²to je op²ta raspodela koja se £esto javlja urealnom svetu. Logit model koristi logisti£ku raspodelu, koja je po izgledu sli£nanormalnoj raspodeli, ali je bliºa studentovoj raspodeli sa 7 stepeni slobode. Pre-dnost logisti£ke raspodele je ta ²to ne zahteva tablice prilikom ra£unanja vrednostifunkcije raspodele. Oba modela daju sli£ne rezultate. Pravilo je da je βL = 0, 6βP ,gde βL i βP predstavljaju koe�cijente logit i probit modela, respektivno.

Razmotri¢emo sada interpretaciju koe�cijenta nagiba u modelima sa binarnimizborom. Interpretacija koe�cijenta β se menja u modelima sa binarnim izborom.Koe�cijent β daje vezu samo izme�u X i Y (b), neopservirane vrednosti za Y. Odnosno,β predstavlja efekat X na Y (b). Otuda, koe�cijent nagiba ima dvosmislenu inter-pretaciju i ne mogu se upore�ivati koe�cijenti izme�u raºli£itih modela ili izme�ulogit i probit modela.

U tom smislu, lak²e se interpretira marginalni efekat X na P{Y=1}. Odnosno,marginalni efekat predstvalja efekat X na verovatno¢u opserviranog Y, i on je datsa

f(α+ βX)β,

gde je, u slu£aju probit modela, f funkcija gustine normalne raspodele, f(x) =1√2Πe−

x2

2 . Dok je u slu£aju logit modela, f funkcija gustine logisti£ke raspodele,odnosno, f(x) = λ(x) = ex

(1+ex)2. S obzirom na to da Y moºe biti opservirano,

interpretacija marginalnog efekta je jasnija i marginalni efekat se £e²¢e koristi kaointerpretacija modela sa binarnim izborom.

Prilikom testiranja podesnosti modela sa binarnim izborom koristi se indekskoli£nika verodostojnosti. Tom prilikom upore�uje se maksimalna vrednost log-aritamske funkcije verodostojnosti (lnL) sa maksimalnom vredno²¢u logaritamskefunkcije verodostojnosti modela koji sadrºi samo konstante (lnL0). Indeks koli£nikaverodostojnosti (Likelihood Ratio Index-LRI) se de�ni²e na slede¢i na£in

LRI = 1− lnL

lnL0

.

Indeks koli£nika verodostojnosti koristi odnos vrednosti logaritamske verodosto-jnosti da ostvari sli£no merenje kao R2, ali njegova intepretacija nije ba² ista. Onse nalazi u granicama izme�u 0 i 1, ali dostiºe 1 samo na granici i retko kad uzimavelike vrednosti. Razlog za²to koristimo indeks koli£nika verodostojnosti umesto R2

kod modela sa binarnim izborom je taj ²to R2 predstavlja odnos obja²njene sumekvadrata u odnosu na totalnu sumu kvadrata u regresiji i R2 ne moºe biti de�nisanza model sa neopserviranom zavisnom promenljivom.

Jo² jedan pokazatelj da li smo dobro odredili model je da uporedimo predvi�enuvrednost za Y sa njenom stvarnom vredno²¢u. U praksi se pokazalo da je model

94

Page 95: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

dobro odre�en ako je P{εi ≥ −α − βXi} > 0, 5, tj. ako je verovatno¢a da Y uzmevrednost 1 ve¢a od 50%.

Primer 4.4.1 Neka je od interesa da ocenimo vezu izme�u "otvorenosti" zemljeY i prihoda po glavi stanovnika te zemlje u dolarima X, 1992. godine. Testiramohipotezu da je ve¢i prihod po glavi stanovnika povezan sa slobodnom trgovinom tezemlje sa pragom zna£ajnosti od 5%. Podaci su dati u tabeli 4.5. Promenljiva Yuzima vrednost 1 za slobodnu trgovinu i vrednost 0 ina£e.

Tabela 4.5Drºava Burundi �ad Kongo Egipat Hong Kong

Y 0 0 0 0 1X 569 408 2240 1869 16471

Drºava Indija Indonezija Obala Slonova£e Kenija MalezijaY 0 1 0 0 1X 1282 2102 1104 914 5746

Drºava Maroko Nigerija Ruanda Singapur Juºna AfrikaY 1 0 0 1 1X 2173 978 762 12653 3068

Drºava Tunis Uganda Urugvaj Venecuela ZimbabveY 1 1 1 1 0X 3075 547 5185 7082 1162

S obzirom da je zavisno promenljiva Y binarna promenljiva, postavimo indikatorskufunkciju

Y (b) = α+ βX + ε.

Ako je Y (b) ≥ 0 tada je Y=1, odnosno, u datoj zemlji je razvijena slobodna trgovina.Ako je Y (b) < 0, tada je Y=0, zemlja nije zemlja sa slobodnom trgovinom. Ocenaprobit modela daje slede¢e rezultate:

Y (b) = −1, 9942 + 0, 0010X

ise(α) = 0, 8247, se(β) = 0, 0005, lnL = −6, 8647.

Za testiranje zna£ajnosti, moºemo koristiti uobi£ajeni t-test, ali s obzirom na to daprobit model koristi standardnu normalnu raspodelu, moºemo koristiti z-tabelu:

tα =α

se(α)= −2, 42 < −1, 96 i tβ =

β

se(β)= 2 > 1, 96.

Posmatrajmo sada marginalni efekat X na verovatno¢u da li je data zemlja otvorenaza slobodnu trgovinu

ϕ(α+ βX)β = ϕ(−1, 9942 + 0, 0010(3469, 5))(0, 0010) = 0, 0001.

95

Page 96: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Ovo, tako�e, moºe biti interpretirano kao marginalni efekat X na o£ekivanu vrednostza Y. Indeks koli£nika verodnostojnosti je

LRI = 1− lnL

lnL0

= 1− −6, 8647

−13, 8629= 0, 50.

Predvi�ene verovatno¢e su date tabelom 4.6.

Tabela 4.6Drºava Burundi �ad Kongo Egipat Hong Kong

P{Y = 1} 0,08 0,06 0,60 0,45 > 0, 99Drºava Indija Indonezija Obala Slonova£e Kenija Malezija

P{Y = 1} 0,24 0,54 0,19 0,14 > 0, 99Drºava Maroko Nigerija Ruanda Singapur Juºna Afrika

P{Y = 1} 0,57 0,15 0,11 > 0, 99 0,86Drºava Tunis Uganda Urugvaj Venecuela Zimbabve

P{Y = 1} 0,86 0,07 > 0, 99 > 0, 99 0,20

Model daje korektna predvi�anja za 18 od 20 zemalja, ili u procentima 90%. (Prime-timo samo da ako su vrednosti za X, kada je Y=1, sve ve¢e ili sve manje od vrednostikada je Y=0, tada model sa binarnim izborom ne moºe biti ocenjen.)

96

Page 97: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Zaklju£ak

U radu su predstavljeni i detaljno obja²njeni jednostruki i vi²estruki linearni re-gresioni modeli, metodi za ocenu parametara ovih modela, statisti£ke osobine ocenaparametara. Konstruisane su hipoteze za testiranje ocena parametara, kao i inter-vali poverenja tih ocena. Bilo je re£i o zdruºenim intervalima poverenja i testiranjulinearnih ograni£enja za parametre vi²estruke regresije, o problemima odre�ivanjaregresionog modela, kao i o problemima koji nastaju kada se odstupi od klasi£nihpretpostavki na osnovu kojih smo konstruisali modele koji generi²u podatke.

Neki od problema, koji nastaju kao posledica odstupanja od klasi£nih pret-postavki, su multikolinearnost, heteroskedasti£nost, gre²ke u promenljivama, predik-tori koji su slu£ajne promenljive. U svim ovim slu£ajevima izvedene su alternativneocene za parametre regresije i predstavljeni su na£ini kako da se ovi problemi otkolne.

U poslednjoj glavi razmatrane su neke dodatne tehnike i primene regresione ana-lize za modeliranje podataka.

Primeri, koji su dati u radu, prikazuju kako se linearni regresioni modeli koristeu praksi i kako se promenjuju rezultati do kojih smo do²li teorijskim putem.

97

Page 98: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

98

Page 99: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Literatura

[1] Xin Yan, Xiao Gang Su, Linear Regression Analysis, Theory and Computing,World Scienti�c Publishing, 2009

[2] Badi H. Baltagi, Econometrics, 4th edition, Springer-Verlag, 2009

[3] Fumio Hayashi, Econometrics, Princeton University Press, 2000

[4] Dominic Salvatore, Derrick Reagle, Theory and Problems of Statistics andEconometrics, 2nd edition, The McGraw-Hill Companies, 2002

[5] Prof. dr Biljana Popovi¢, Matemati£ka statistika, Prirodno-matemati£kifakultet, Ni², 2009

99

Page 100: Univerzitet u Ni²u Prirodno matemati£ki fakultet · Glava 1 Jednostruka linearna regresija 1.1 Uvod U velikom broju istraºivanja ili eksperimenata uo£aav se veza izme u dve ili

Biogra�ja

Mila Nikoli¢ je ro�ena 12.12.1988. godine u Pirotu, Republika Srbija. Os-novnu ²kolu "Vuk Karadºi¢" je zavr²ila u Pirotu sa odli£nim uspehom. Gimnaziju,prirodno-matemati£ki smer, je zavr²ila u Pirotu sa odli£nim uspehom.

Osnovne akademske studije na Prirodno-matemati£kom fakultetu u Ni²u up-isala je ²kolske 2007/2008. godine. Master studije na departmanu za matematiku,Prirodno-matemati£kog fakulteta u Ni²u, smer primenjena matematika u �nansi-jama, upisala je oktobra 2011. godine i zavr²ila oktobra 2014. godine sa prose£nomocenom 9,21.

100