Regresiono-Korelaciona Analiza f

Preview:

Citation preview

Regresiono-korelaciona analiza

Doc. dr Emina Resić

Sadržaj predavanja

Formaliziranje i modelsko oblikovanje veze (relacija međuslovljenosti) između varijabli

Dijagram rasipanja Regresioni model Koeficijent determinacije i korelacije Ostale mjere reprezentativnosti regresionog

modela Spearmanov koeficijent korelacije Predviđanje Model višestruke regresije

Nakon ovih predavanja moći ćete...

Objasniti vezu između korelacije i regresije Kreirati regresioni model sa dvije i više od

dvije varijable Determinisati “kvalitet” regresionog

modela kroz koeficijent korelacije ili determinacije, grešku predviđanja ili koeficijent varijacije regresionog modela

Na osnovu regresionog modela vršiti predviđanje (interpolaciju i ekstrapolaciju)

Modelizacija veza između dvije ili više varijabli

Model - pojednostavljena slika realnosti Model služi da se na adekvatan način kvantificiraju

složeni ekonomski fenomeni i relacije između njih Pretpostavke koje moraju biti zadovoljene kako

bismo mogli modelizirati vezu između varijabli: Modeliziranje možemo vršiti ukoliko postoji zavisnost

između varijabli Funkcionalna versus stohastička međuzavisnost

Mogu se modelizirati jedino kvantitativne varijable, jer je u tom slučaju moguće kompletirati oblak (dijagram) rasipanja, računati mjere centralne tendencije i disperzije

Regresioni model - model koji kvantificira oblik međuzavisnosti između dvije ili više varijabli

Etape konstrukcije regresionog modela (modela međuzavisnosti dvije varijable)

1. Determinisati nezavisnu i zavisnu varijablu2. Grafički predstaviti na dijagramu rasipanja

podatke o analiziranim varijablama da bi se potvrdila ili odbacila pretpostavka o zavisnosti između dvije statističke varijable

3. Na osnovu dijagrama procijeniti oblik veze između posmatranih varijabli Postoje različiti oblici veza kao npr. linearna, krivolinijska,

eksponencijalna itd4. Konstruisati ili ocijeniti primjenom odgovarajućih

metoda odabrani regresioni model5. Izračunati rezidualna (neobjašnjena) odstupanja

ocijenjenih od posmatranih podataka i analizirati ih

6. Procijeniti kvalitet ocijenjenog regresionog modela

Pitanje

Želimo modelizirati vezu između visine kazne za određeni tip saobraćajnog prekršaja i broja saobraćajnih prekršaja datog tipa. Koju vrstu analize ćemo upotrijebiti?

a) deskriptivnub) regresionuc) inferencijalnud) dinamičku

Smjer veze između dvije varijable

Pozitivan ili direktan porast vrijednosti jedne varijable uslovljava porast vrijednosti druge varijable. Vrijeme koje student provede učeći i ocjena na ispitu Vrijeme provedeno u gledanju TV-a i strah od kriminala

Negativan ili indirektan porast vrijednosti jedne varijable uslovljava pad vrijednosti druge varijable Brzina i vrijeme potrebno da se stigne do zadanog odredišta Cijena i količina

Dijagram (oblak) rasipanja Služi za vizuelnu identifikaciju da li između

dvije varijable postoji međuzavisnost, pri čemu moramo imati jednu nezavisnu varijablu (npr. period edukacije) i jednu zavisnu varijablu (npr. visina primanja)

Pokazuje koliko jedna varijabla utiče na drugu

Daje odgovor na sljedeća pitanja: Da li postoji veza između varijabli X i Y? Kog smjera je veza između varijabli X i Y? Da li je ta veza pravolinijska (linearna) ili nije? Da li postoje outlieri?

Dijagram rasipanja - Da li postoji veza između varijabli X i Y?

Veza postojiVeza ne

postoji

x

y

a x

y

b x

y

c

x

y

d x

y

e x

y

f

Dijagram rasipanja - Smjer veze između varijabli X i Y

Direktna vezaIndirektna

veza

Dijagram rasipanja – Linearna versus nelinearna veza?

x

y

x

y

Pitanje

Posmatrali smo vezu između indeksa cijena i indeksa količina prehrambenih proizvoda i na osnovu 10 parova podataka dobili sljedeći oblak rasipanja:

Veza između ovih indeksa je pribižno:a) paraboličnab) eksponencijalnac) linearnad) logaritamska

Indeks količina

Indeks cijena

Primjer 1

Imamo ocjenu o danima pohađanja nastave i ocjeni za 14 studenata.

Naš zadatak je da analiziramo vezu između ovih varijabli.

Dani pohađanja nastave

Ocjena

16 0.64

17 0.68

14 0.63

10 0.56

27 0.93

34 0.92

7 0.59

31 0.92

7 0.48

25 0.89

22 0.64

23 0.83

34 1

13 0.68

Rješenje

Prvi korak je da identificiramo zavisnu i nezavisnu varijablu: Nezavisna varijabla je broj dana

pohađanja nastave Zavisna varijabla je ocjena

Potom kreiramo dijagram rasipanja da sagledamo vezu između posmatranih varijabli.

Rješenje, cont.

Dijagram rasipanja

00,10,20,30,40,50,60,70,80,9

11,1

0 5 10 15 20 25 30 35 40

dani pohađanja nastave

ocj

ena

Rješenje, cont.

Na bazi dijagrama rasipanja zaključujemo sljedeće:

Postoji međuzavisnost Smjer veze je direktan (više dana

pohađanja nastave viša ocjena) Veza se može ocijenti linearnim

regresionim modelom

Kovarijansa

Simultano prati varijabilitet dvije varijable

Mjeri uzajamni varijabilitet dvije varijable u odnosu na njihove aritmetičke sredine

ili

1( , ) i i

i

Cov X Y x x y yn

1( , ) i i

i

Cov X Y x y x yn

Tumačenje kovarijanse Kovarijansa je pozitivna ako oblak rasipanja

ima generalno rastuću tendenciju. Kada X i Y variraju u istom smjeru, kovarijansa je pozitivna.

Kovarijansa je negativna kada oblak rasipanja ima generalno opadajuću tendenciju. Kada X i Y variraju u suprotnom smjeru, kovarijansa je negativna.

Kovarijansa je jednaka ili približno jednaka nuli ako oblak rasipanja nije ni rastući ni opadajući ili ukoliko je pola opadajući, a pola rastući. Ako nema ni rastuće ni opadajuće generalne tendencije, kovarijansa je jednaka nuli.

Pitanje

U jednom regionu pratili smo varijable «broj industrijskih postrojenja» i «broj oboljelih od astme» po gradovima. Kovarijansa ove dvije varijable iznosi 34,6. Veza između ove dvije varijable je:

a) multiplab) direktnac) indirektnad) jaka

Zbir i razlika statističkih varijabli

Varijansu zbira i razlike statističkih varijabli možemo analizirati koristeći kovarijansu i izraziti ih na sljedeći način: Var(X +Y)=VarX + Var Y + 2 Cov(X,Y) Var(X-Y)=VarX + Var Y - 2 Cov(X,Y)

Međutim, ukoliko su X i Y nezavisne varijable kovarijansa je jednala nuli (Cov(X, Y)=0). U tom slučaju varijansu za zbir i razliku statističkih varijabli možemo izraziti sljedećim relacijama: Var(X+Y)=VarX + Var Y Var(X-Y)=VarX + Var Y

Regresioni model Kvantificira ili matematski formalizira vezu između

zavisne i niza nezavisnih varijabli – oblik veze Opšti oblik regresionog modela glasi:

gdje je: Yi - zavisna promjenljiva, Xj - nezavisne promjenljive i ei - slučajno odstupanje.

Prezentirani model naziva se model višestruke ili multiple regresije ili višedimenzionalni regresioni model.

1 2( , ,.., ,.., )i i ji ki iY f X X i X X e

Model jednostavne regresije

Za određivanje analitičkog odnosa između dvije varijable.

Sadrži zavisnu i jednu nezavisnu promjenljivu

Opšti oblik modela jednostavne regresije glasi:

( )i i iY f X e

Model jednostavne linearne regresije

Za određivanje parametrara za konstrukciju modela linearne međuzavisnosti između dvije varijable.

Jednostavni ili prosti model sadrži zavisnu i jednu nezavisnu promjenljivu

Opšti oblik modela jednostavne linearne regresije glasi:

gdje su parametri a i b parametri linearne veze koje je potrebno ocijeniti.

, i 1,2,..., .i i iy a b x e n

Model jednostavne linearne regresije, cont.

Razložimo model jednostavne linerne regresije na funkcionalni i stohastički dio:

Funkcionalni dio modela odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta nezavisne varijable i predstavljen je lineranom vezom

Stohastički dio modela (rezidualno odstupanje) odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta varijabli ili faktora koji nisu uključeni u regresioni model

stohastički dio modelaˆ -funkcionalni dio modelai

i i i

y

y a b x e

Model jednostavne linearne regresije, cont.

Rezidualno odstupanje ili stohastički dio regresionog modela možemo izraziti kao:

ˆ= +

ˆ

( )

i i i

i i i

i i i

y y e

e y y

e y a b x

yi

ŷi = a + bxi

x

ŷi

y

xi

ei=( yi - ŷi )

Metod najmanjih kvadrata

Cilj - minimizirati rezidualna odstupanja. Kako?

Minimiziranje zbira kvadrata rezidualnih odstupanja – metod najmanjih kvadrata (MNK)

2

1

2 2

1 1

minimum

ˆ( ) minimum

n

ii

n n

i i ii i

e

e y y

yi

ŷi = a + bxi

x

ŷi

y

xi

ei=( yi - ŷi )

Metod najmanjih kvadrata – jednostavna linearna regresija

Parcijalni izvodi ovog zbira po parametrima a i b trebaju biti jednaki nuli, te se dobijaju “normalne jednačine”, te na osnovu njih formule za izračunavanje parametara a i b.

2

1

2

11

2 )()ˆ( i

n

iii

n

ii

n

ii bxayyye

1 1

NJ :n n

i ii i

I y na b x

2

1 1 1

NJ :n n n

i i i ii i i

II x y a x b x

a y bx

2

( , )

X

Cov X Yb

Tumačenje parametara jednostavnog linearnog regresionog modela

Parametar a je matematski “presjek sa x osom”, to jeste ukazuje na očekivanu vrijednost zavisne varijable ukoliko nezavisna varijabla uzme vrijednost nula:

Parametar b je matematski “nagib” prave koja predstavlja jednostavni linearni regresioni model, to jeste pokazuje za koliko će se jedinica promijeniti zavisna varijabla ukoliko se nezavisna varijabla poveća za jednu svoju jedinicu:

ˆ0i ix y a

ˆ1x y b

Primjer 1, cont.

Vezu između analiziranih varijabli ocijeniti odgovarajućim regresionim modelom.

Na osnovu dijagrama rasipanja za ovaj primjer zaključili smo da je adekvatno konstruisati linearni regresioni model, te ocjenjujemo parametre jednostavne linearne regresije:

00,10,20,30,40,50,60,70,80,9

11,1

0 5 10 15 20 25 30 35 40

dani pohađanja nastave

ocje

na

Rješenje

Kao prvo formiramo radnu tabelu gdje izračunavamo sve sume potrebne za izračunavanje parametara linearne regresije:

2x 2y x yDani pohađanja nastave - x

Ocjena - y

16 0,64 256 0,4096 10,24

17 0,68 289 0,4624 11,56

14 0,63 196 0,3969 8,82

10 0,56 100 0,3136 5,60

27 0,93 729 0,8649 25,11

34 0,92 1156 0,8464 31,28

7 0,59 49 0,3481 4,13

31 0,92 961 0,8464 28,52

7 0,48 49 0,2304 3,36

25 0,89 625 0,7921 22,25

22 0,64 484 0,4096 14,08

23 0,83 529 0,6889 19,09

34 1 1156 1 34

13 0,68 169 0,4624 8,84

280 10,39 6748 8,0717 226,88

Rješenje, cont.

Ocjena će porasti za 0,0166 ako se broj dana pohađanja nastave poveća za 1. (direktna veza)

Student koji ima 0 skor za pohađanje nastave će prema modelu imati ocjenu 0,4097.

Regresioni model glasi:

2 22

14 226,88 280 10,390,0166

14 6748 280

n x y x yb

n x x

10,39 2800,0166 0,4097

14 14a y bx

ˆ 0,4097 0,0166i iy x

Pitanje

Između količine proizvodnje kao nezavisne varijable i troškova proizvodnje kao zavisne varijable utvrđena je regresiona veza oblika:

Vrijednost «10» u ovoj funkcionalnoj vezi predstavlja:

a) troškove po jedinici proizvodab) ukupne troškovec) dobit po jedinici proizvodad) fiksne troškove

103,1ˆ ii xy

Pitanje

Pratili smo uticaj broja agenata osiguranja na broj prodanih polica osiguranja i dobijena je regresiona veza

Ukoliko se broj agenata poveća za 1, broj prodanih polica će se:

a) povećati za 1b) smanjiti za 2c) povećati za 2d) povećati za 8

82ˆ ii xy

Primjer 2

Istraživanje da li postoji veza između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene za 8 polovnih automobila dalo je sljedeće rezultate:

Starost auta u godinama Cijena u $000

1 15

2 13

3 12

4 10

5 9

6 7

7 6

8 4

Primjer 2, cont.

Konstruisati oblak rasipanja. Komentar. Konstruisati odgovarajući regresioni

model. Objasniti parametre.

Rješenje

U Excelu biramo opciju Chart Wizard i u okviru nje Scatterplot:

Rješenje, cont.

Ovakav oblak rasipanja ukazuje na postojanje indirektne veze između analiziranih varijabli.

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10

starost auta

cije

na

Rješenje, cont.

Kod određivanja parametara a i b koristićemo Excelove statističke funkcije:

Rješenje, cont.

Regresioni model glasi:

Što znači da: Ako kupujemo novo auto analiziranog tipa C

njegova očekivana cijena je $16 375,14 Ako starost auta poraste za jednu godinu

očekujemo da će cijena tog auta da se smanji za $1 523,81 (indirektna veza)

ˆ 16375,14 1523,81i iy x

Mjere reprezentativnosti regresionog modela

Pokazatelji reprezentativnosti ili “kvaliteta” regresionog modela kvantificiraju stepen međuzavisnosti i izražavaju direktno ili indirektno odstupanje vrijednosti zavisne varijable ocijenjenih regresionim modelom od orginalnih vrijednosti zavisne varijable.

Pokazatelji reprezentativnosti regresionog modela su:

1. koeficijent determinacije, 2. koeficijent korelacije, 3. standardna greška i 4. koeficijent varijacije regresionog modela.

Dekompozicija varijanse

Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable se može grafički izraziti kao:y

x

ˆi iy a b x

ˆy y

iy

y

ˆiy y

ˆi i ie y y ˆiy

Dekompozicija varijanse, cont.

Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable matematski se može matematski izraziti kao:

gdje:

je orginalna vrijednost zavisne varijable iz niza podataka dobijenih istraživanjem

je procjenjena ili predviđena vrijednost zavisne varijable na bazi regresionog

modela

je prosječna vrijednost zavisne varijable

ˆ ˆ( )i i i iy y y y y y iy

ˆiy

ˆy y

Dekompozicija varijanse, cont.

Posmatrajmo ukupan varijabilitet zavisne varijable u kontekstu njegova dva dijela koja smo identificirali dekompozicijom varijanse: ˆ ˆ( ) ( )i i i iy y y y y y

Odstupanje orginalnih podataka za zavisnu varijablu od prosjeka zavisne varijable

Odstupanje podataka ocjenjenih regresionim

modelom za zavisnu varijablu od prosjeka

zavisne varijable— ovo je dio koji ukazuje na međuzavisnost između zavisne i nezavisne varijable

Odstupanje podataka ocjenjenih

regresionim modelom za zavisnu varijablu

od orginalnih vrijednosti zavisne

varijable— ovo je dio koji ukazuje na uticaj

drugih faktora koje regresioni model nije uključio na zavisnu

varijablu.

Dekompozicija varijanse, cont.

Ako kvadriramo ova odstupanja i sumiramo ih, dobićemo sume kvadrata koje su zbrojive: 22 2ˆ ˆ( ) ( )i i i iy y y y y y

Ukupan varijabilitet - suma kvadrata odstupanja orginalnih vrijednosti zavisne varijable od njenog prosjeka

Objašnjeni varijabilitet - suma kvadrata odstupanja u okviru regresionog modela – ovo je dio varijabiliteta zavisne varijable koji se može predvidjeti na osnovu poznavanja vrijednosti nezavisne varijable

Neobjašnjeni varijabilitet - suma kvadrata odstupanja koja nije objašnjena regresionim modelom

Koeficijent determinacije Na osnovu dekompozicije varijanse određujemo koeficijent

determinacije. Predstavlja učešće objašnjenog varijabiliteta u ukupnom

varijabilitetu zavisne varijable.

Pokazuje dio varijabiliteta zavisne varijable koji je objašnjen regresionim modelom kroz uticaj nezavisne varijable biz modela.

Relativna mjera, izražava se u %. Može uzeti vrijednosti iz intervala 0 do +1 (ili 0-100%). Veća vrijednost ovog koeficijenta ukazuje da je veća proporcija

objašnjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.

2 2

22 2

ˆ ˆ1i i i

i i

y y y yr

y y y y

Koeficijent korelacije Mjeri jačinu i smjer povezanosti dvije pojave za koje

poznajemo empirijske vrijednosti kvantitatinih varijabli.

Neimenovani broj. Kao i kod koeficijenta determinacije sa kojim je u

funkcionalnoj vezi, veća vrijednost ovog koeficijenta ukazuje da je veća proporcija objašnjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.

2

22

)(

)ˆ(

yy

yyrr

i

i

Koeficijent linearne korelacije Odnos kovarijanse varijabli X i Y i proizvoda standardnih devijacija

varijable X i varijable Y.

Vrijednost koeficijenta linearne korelacije se nalazi između -1 i 1. Veća vrijednost koeficijenta ukazuje na postojanje veće linearne

povezanosti između promjenjljivih X i Y. Manja vrijednost r ne mora uvijek značiti da je slaba korelacija jer

se može raditi o pogrešnoj primjeni koeficijenta linearne korelacije za mjerenje jačine veze pojava koje nisu u linearnom odnosu.

Tumačenje: Za vrijednosti: -1 < r < 0 korelacija je negativna (stohastička). Za vrijednosti: 0 < r < 1 korelacije je pozitivna (stohastička). Za vrijednosti –1 i 1, radi se o perfektnoj negativnoj odnosno pozitivnoj

korelaciji, to jeste o funkcionalnoj vezi.

2 2

( )( )( , )

( ) ( )

i i

X Y i i

x x y yCov X Yr

x x y y

Koeficijent linearne korelacije, cont.

Napomena: ako je moguće uvjek je bolje prvo testirati hipotezu H0: r=0, a tek onda komentarisati koeficijent korelacije.

Pitanje

Koeficijent determinacije je količnik dviju varijansi. Kojih:

a) objašnjene i ukupneb) neobjašnjene i ukupnec) neobjašnjene i objašnjened) objašnjene i neobjašnjene

Pitanje

Poluprečnik i površina kruga su u funkcionalnoj vezi. Koeficijent korelacije poluprečnika i površine kruga je:

a) 0b) -1c) 1d) 2r

Standardna greška ocjene

Prema vrijednosti neobjašnjenog varijabiliteta za regresioni model određujemo standardnu grešku ocjene:

2

standardnaneobjašnjeni varijabilitet

greška ocjene

(1 ) ukupan varijabilitet

n

r

n

Standardna greška ocjene, cont.

Mjeri kvalitet i reprezentativnost ocijenjenog regresionog modela i pokazuje prosječno odstupanje empirijskih vrijednosti zavisne varijable Y od podataka ocijenjenih regresionim modelom.

Apsolutna mjera disperzije oko regresije jer se izražava u istim jedinicama mjere kao zavisna varijabla.

Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.

Koeficijent varijacije regresionog modela

Relativni pokazatelj kvaliteta regresionog modela

Jednak je odnosu standardne greške ocijenjenog regresionog modela i aritmetičke sredine zavisne varijable Y:

Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.

100ˆˆ

yk yyV

Koeficijent varijacije regresionog modela, cont.

Na osnovu vrijednosti ovog koeficijenta možemo procijeniti preciznost i kvalitet ocjene na sljedeći način: Ako je u intervalu 7%<kv 10%, ocjena je

relativno dosta dobra Ako je u intervalu 4%< kv 7%, ocjena je

dobra Ako je u intervalu 1%< kv 4%, ocjena je

vrlo dobra Ako je kv 1%, ocjena je odlična.

Primjer 1, cont.

Analizirati kvalitet (reprezentativnost) regresionog modela kojim je ocjenjena veza između dana pohađanja nastave i ocjene na ispitu.

Rješenje

2 22 2

2 2

14 226,88 280 10,390,9375

14 6748 280 14 8,0717 10,39

xy

x y

C n x y x yr

n x x n y y

Koeficijent korelacije je pozitivan i teži ka 1, tako da zaključujemo da je linearna veza između analiziranih varijabli jaka i direktna. Prisustvo nastavi utiče direktno na visinu finalne ocjene.

Rješenje, cont.

Određujemo standardnu grešku procjene:

Ovaj pokazatelj prati jedinicu mjere zavisne varijable. Koristan je za komparaciju više modela sa istim varijablama i jedinicama mjere.

2

22

standardna(1 ) ukupan varijabilitet

greška procjene

8,0717 10,391 0,9375

14 140,0148

14

r

n

Rješenje, cont.

Izračunavamo koeficijent varijacije regresionog modela:

Ocjena je vrlo dobra, ovaj model možemo koristiti za predviđanje.

ˆˆ 100

0,0148100 1,994%

10,3914

yVyk y

Pitanje

Ako ocjenjeni linearni regresioni model, ima koeficijent determinacije 0,64, onda bismo mogli reći:a. 64% varijacija zavisne varijable

objašnjeno je nezavisnom varijablom.b. Uzoračka korelacija između Y i X bila je

0,64.c. 64% tačaka leži na regresionoj pravojd. Nijedno od gore pomenutih

Predviđanje

Regresioni model dobijen MNK metodom koristimo za predviđanje vrijednosti zavisne varijable na osnovu poznate vrijednosti nezavisne varijable.

Što je: Viši koeficijent determinacije i korelacije Niža standardna greška procjene Niži koeficijent varijacije regresionog

modela

to je predviđanje pouzdanije i obratno.

Predviđanje, cont.

Predviđanje na osnovu regresionog modela može biti:

1. Interpolacija – ako se dato X (vrijednost nezavisne varijable) nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

2. Ekstrapolacija – ako se dato X (vrijednost nezavisne varijable) ne nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

Interpolacija daje pouzdanije procjene od ekstrapolacije.

Primjer 1, cont.

Želimo predvidjeti ocjenu za studenta koji je 28 dana bio na nastavi.

Ovo je interpolacija, jer se 28 kao vrijednost nezavisne varijable nalazi u rangu između najnižeg i najvišeg podatka za nezavisnu varijablu korištenih za konstrukciju regresionog modela (xmin=7 i xmax=34)

28

ˆ 0,4097 0,0166

0,4097 0,0166 28 0,875

i

i i

x

y x

Prema modelu regresije, očekivana ocjena za studenta koji je 28 dana bio na nastavi je 0,875.

Primjer 2, cont.

Da se prisjetimo, u ovom primjeru smo pratili vezu između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

Analizirati kvalitet (reprezentativnost) regresionog modela kojim je ocjenjena veza između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

Koliku cijenu očekujemo kod automobila starog 10 godina?

Rješenje

Kod određivanja mjera reprezentativnosti koristićemo Excelove statističke funkcije:

Rješenje, cont. Koeficijent korelacije je

negativan i teži ka 1, te dobijeni model ukazuje na jaku indirektnu linearnu vezu.

Predviđanje ovakvim modelom je pouzdano.

Standardna greška procjene iznosi 0,2817, to jeste $281,7.

Predviđanje se odnosi na ekstrapolaciju jer je vrijednost nezavisne varijable 10 izvan okvira vrijednosti nezavisne varijable korištenih prilikom konstrukcije regresionog modela:

10

ˆ 16375,14 1523,81

16375,14 1523,81 10 1315,5

i

i i

x

y x

Prema modelu regresije, očekivana cijena automobila starog 10 godina je $1315,5.

Spearmanov koeficijent korelacije ranga

se koristi ako imamo pojave za koje su podaci dati u obliku modaliteta rang varijable:

gdje je d razlika rangova za x i y:

Tumačenje identično koeficijentu korelacije.

2

3

61 id

n n

, ,i x i y id r r

Primjer 3

Dva umjetnika su ocjenjivala šest umjetničkih dijela sa ocjenama u obliku rangova 1 (najbolji) do 6 (najlošiji). U tabeli su prezentirane njihove ocjene:

Izračunati i objasniti Spearmanov koeficijent korelacije ranga.

Umjetničko djelo

Umjetnik 1 Umjetnik 2

A 6 5

B 5 6

C 1 2

D 3 1

E 4 3

F 2 4

Rješenje

Imamo rangove za dvije varijable te izračunavamo razliku rangova:

xr yr2dUmjetničko

djeloUmjetnik 1 Umjetnik 2 d

A 6 5 1 1

B 5 6 -1 1

C 1 2 -1 1

D 3 1 2 4

E 4 3 1 1

F 2 4 -2 4

sum 12

Rješenje, cont.

Spearmanov koeficijent korelacije ranga je:

Ovo ukazuje na relativno visoko direktno slaganje (66%) mišljenja dva umjetnika.

2

3 3

6 6 121 1 0,66

6 6

d

n n

Primjer 4Poznati su podaci o obimu

proizvodnje i ukupnim troškovima proizvodnje:

a) Nacrtati dijagram rasipanja.

b) Ocijeniti ukupne troškove proizvodnje kao linearnu funkciju obima proizvodnje. Objasniti dobijene parametre.

c) Izračunati i objasniti koeficijent determinacije.

d) Za obim proizvodnje 8.500 kom kolike troškove možemo očekivati?

obim proizvodnje (000 kom)

troškovi proizvodnje (000 KM)

2 50

3 73

4 89

5 110

6 128

a) Dijagram (oblak) rasipanja

40

5060

70

8090

100

110

120130

140

1 2 3 4 5 6 7

obim proizvodnje (000 kom)

trošk

ovi

pro

izvo

dnje

(=== K

M)

b) Linearni model jednostavne regresije – radna tabela

obim proizvodnje (000 kom) -

X

troškovi proizvodnj

e (000 KM)- Y x2 xy y2

2 50 4 100 2500

3 73 9 219 5329

4 89 16 356 7921

5 110 25 550 12100

6 128 36 768 16384

Sume: 20 450 90 1993

44234

b) Linearni model jednostavne regresije – potrebni elementi

1

1 204

5

N

ii

X xN

2 2 2 2

1

1 190 4 2

5

N

X ii

x XN

2 2 2 2

1

1 144234 90 746,8

5

N

Y ii

y YN

1

1 11993 4 90 38,6

5

N

XY i ii

C x y X YN

1

1 45090

5

N

ii

Y yN

b) Linearni model jednostavne regresije – izračunavanje parametara

2XY

X

Cb

38,6

19,32

Ukoliko se obim proizvodnje poveća za 1.000 kom tada će troškovi proizvodnje porasti za 19.300 KM.

90 19,3 4 12,8 a Y b X Ukoliko se ne proizvodi tj. obim proizvodnje je jednak 0, tada su troškovi proizvodnje 12.800 KM (fiksni troškovi).

ˆ 12,8 19,3i iy x

c) Koeficijent determinacije

22

2 2XY

X Y

Cr

238,60,9976

2 746,8

99,76% promjena troškova izraženih varijansom duguje se uticaju obima proizvodnje.

d) Predviđanje

ˆ 12,8 19,3 8,5 176,85iy

za obim proizvodnje 8.500 komada je 8,5ix

Ako obim proizvodnje iznosi 8.500 komada očekuju se troškovi od 176.850 KM.

Model višestruke ili multiple regresije

Zavisna varijabla Y je izražena kao funkcija K nezavisnih varijabli i slučajnog člana e.

Ako je funkcionalni dio modela definisan linearnom funkcijom model možemo definisati generalni model višestruke linearne regresije za n vrijednosti sljedećim izrazom niexbxbxbay iiKKiii ,...,2,1,...2211

Model višestruke ili multiple regresije, cont.

Koeficijenti u regresijskom modelu imaju sljedeće značenje:

parametar a je slobodni, konstantni član koji predstavlja očekivanu vrijednost zavisne varijable Y kada je vrijednost svih K nezavisnih varijabli (X1, X2,...,XK) jednaka nuli.

Vrijednost ovog parametra nema uvijek logičko objašnjenje. Parametar bi (i=1,2,....,K) ili regresioni koeficijent pokazuje

prosječnu promjenu zavisne varijable Y nastalu usljed jediničnog povećanja nezavisne varijable Xi, uz uslov da ostale nezavisne varijable ostanu nepromijenjene.

Pozitivna vrijednost parametra bi ukazuje na proporcionalan odnos varijabli Y i Xi.

Negativna vrijednost koeficijenta bi znači obrnuto proporcionalan odnos zavisne varijable Y i nezavisne varijable Xi.

Koeficijent multiple determinacije

Izražava jačinu veze ili slaganje varijabiliteta između zavisne varijable i zbirnog varijabiliteta K nezavisnih varijabli

Kvadratni korijen koeficijenta multiple determinacije je koeficijent multiple linearne korelacije

10 ,)(

)ˆ( 2

2

22

,..,2,1; ,..,2,1;

KY

Ryy

yyR

i

iKY

Koeficijent parcijalne korelacije

Pokazuje jačinu i smjer veze zavisne varijable Y i j-te nezavisne varijable uz nepromijenjen uticaj preostalih (K-1) varijabli.

Vrijednost ovog koeficijenta se kreće u granicama: (-1,1).

1 2 12 2 1 121.2 2.12 2 2 2

1 12 2 12

;(1 )(1 ) (1 )(1 )

y y y yy y

y y

r r r r r rr r

r r r r

Primjer 5Za osam firmi dati su podaci o ukupnom godišnjem prihodu i ukupnim godišnjim izdacima za plate Y (obje pojave mjerene u milionima KM):

Metodom najmanjih kvadrata ocijeniti linearnu regresiju. Objasniti parametre.

Pomoću koeficijenta linarne korelacije odrediti smjer i jačinu veze.

Za ukupan godišnji prihod 105 miliona KM, kolike ukupne godišnje izdatke za plate možemo očekivati?

Ukupan godišnji prihod

Ukupni godišnji izdaci za

plate

93 21

57 15

100 25

41 12

70 19

57 10

98 21

84 19

Rješenje, Excel – Data Analysis

Zavisna varijabla – izdaci za plate

Prema oblaku rasipanja – direktna linearna veza

0

5

10

15

20

25

30

0 20 40 60 80 100 120

prihod

izdac

i za

pla

te

Rješenje, Excel – Data Analysis, cont.

Rješenje, Excel – Data Analysis, cont.

Rješenje

Jednostavni linearni regresioni model glasi:

Koeficijent korelacije r=0,9078 direktna jaka veza Standardna greška ocjene 2,28 Za ukupan godišnji prihod 105 miliona KM

Izdaci za plate koje možemo očekivati su 24 miliona KM.

ˆ 2,165 0,208i iy x

ˆ 2,165 0,208 105 24,005iy

Analiza varijanse - ANOVA

testira kvalitet ili reprezentativnost modela testira se da li postoji značajna veza

između niza nezavisnih varijabli uključenih u model i zavisne varijable

odnosi se na F test hipoteza glasi:

ili makar jedna nezavisna varijabla uključena u model je značajna to jeste signifikantno utiče na zavisnu varijablu

0 1. ... 2. ... . ... 1 . ...: ... 0 / : najmanje jedan parametar 0i i ik ijH b b b H b

Analiza varijanse – ANOVA, Excel

U prvoj koloni su informacije o odgovarajućem broju stepeni slobode:

gdje je k broj nezavisnih varijabli uključenih u model i n broj observacija

U drugoj koloni su rezultati o sumama kvadrata odstupanja.

1

1

regression objašnjeno

residual neobjašnjeno

total ukupno

df df k

df df n k

df df n

2ˆ( )regresion objašnjeno iSS SS y y 2ˆ( )residual neobjašnjeno i iSS SS y y

2( )total ukupno iSS SS y y

Analiza varijanse – ANOVA, Excel

U trećoj koloni su rezultati o MS (suma kvadrataodstupanja/broj stepeni slobode)

U četvrtoj koloni je empirijska vrijednost F testa, a u petoj koloni odgovarajuća p-vrijednost (F significance)

Ako je , smatramo model značajnim (najmanje jedna od nezavisnih varijabli uključenih u model je značajna to jeste utiče na zavisnu varijablu).

(odgovarajući)

1 1

regresion objašnjenoregresion

regresion

neobjašnjeno ukupnoresidual totalresidual total

residual total

SS SSSSMS MS

df df k

SS SSSS SSMS MS

df n k df n

1< =0,05p H

Primjer 6

Sljedeća tabela sadrži podatke o obimu prometa (u 000 komada ) jednog prehrambenog artikla prema veličini poslovnog prostora ( u 00 m2) i udaljenosti od centra grada (u km), u slučajnom uzorku od 7 prodavnica:

Ocijeniti parametre odgovarajućeg regresionog modela.

Komentarisati kvalitet modela.

obim prometa

veličina poslovnog prostora

udaljenost od centra

grada

120 4,2 2

150 4,2 1,5

180 5 2,5

30 3 1,5

75 3 0,5

60 3,2 1,5

75 3,4 1

Rješenje, Excel – Data Analysis

Zavisna varijabla – obim prometa

Rješenje, Excel – Data Analysis, cont.

Rješenje Višestruki regresioni model glasi:

Parametar a=-187,01, nema logično tumačenje Parametri b znače:

Ako se veličina poslovnog prostora poveća za 100 m2 očekuje se rast prometa za 91 940 komada, uz uslov da se ne promjeni udaljenost od centra grada.

Ako se udaljenost od centra grada poveća za 1 km očekuje se pad prometa za 37 258 komada, uz uslov da se ne promjeni veličina poslovnog prostora.

iii xxx 321 258,3794,91016,187ˆ

Rješenje, cont.

Koeficijent korelacije iznosi 0,9896, što znači da je model reprezentativan.

Zaključak potvrđuje i p vrijednost analize varijanse (0,0004) koja je manja od 0,05.

Standardna greška modela iznosi 9,38. Prema p vrijednostima uz b (0,0004 i

0,002) koeficijente koje su niže od 0,05 zaključujemo da su obje nezavisne varijable uključene u model signifikantne.

Izvori Somun-Kapetanović R., Statistika u ekonomiji i

menadžmentu, Ekonomski fakultet u Sarajevu, Sarajevo 2006.

Resić, E., Delalić, A., Balavac, M., Abdić, A., Statistics in Economics and Management, Ekonomski fakultet u Sarajevu, Sarajevo, 2010.

Resić E., Zbirka zadataka iz statistike, Ekonomski fakultet u Sarajevu, Sarajevo 2006.

Curwin J. and Slater R., Quantitative Methods for Business Decisions, Thomson Learning – fifth edition 2002.

Hvala na pažnji!

Recommended