95
Regresiono-korelaciona analiza Doc. dr Emina Resić

Regresiono-Korelaciona Analiza f

  • Upload
    -

  • View
    2.809

  • Download
    5

Embed Size (px)

Citation preview

Page 1: Regresiono-Korelaciona Analiza f

Regresiono-korelaciona analiza

Doc. dr Emina Resić

Page 2: Regresiono-Korelaciona Analiza f

Sadržaj predavanja

Formaliziranje i modelsko oblikovanje veze (relacija međuslovljenosti) između varijabli

Dijagram rasipanja Regresioni model Koeficijent determinacije i korelacije Ostale mjere reprezentativnosti regresionog

modela Spearmanov koeficijent korelacije Predviđanje Model višestruke regresije

Page 3: Regresiono-Korelaciona Analiza f

Nakon ovih predavanja moći ćete...

Objasniti vezu između korelacije i regresije Kreirati regresioni model sa dvije i više od

dvije varijable Determinisati “kvalitet” regresionog

modela kroz koeficijent korelacije ili determinacije, grešku predviđanja ili koeficijent varijacije regresionog modela

Na osnovu regresionog modela vršiti predviđanje (interpolaciju i ekstrapolaciju)

Page 4: Regresiono-Korelaciona Analiza f

Modelizacija veza između dvije ili više varijabli

Model - pojednostavljena slika realnosti Model služi da se na adekvatan način kvantificiraju

složeni ekonomski fenomeni i relacije između njih Pretpostavke koje moraju biti zadovoljene kako

bismo mogli modelizirati vezu između varijabli: Modeliziranje možemo vršiti ukoliko postoji zavisnost

između varijabli Funkcionalna versus stohastička međuzavisnost

Mogu se modelizirati jedino kvantitativne varijable, jer je u tom slučaju moguće kompletirati oblak (dijagram) rasipanja, računati mjere centralne tendencije i disperzije

Regresioni model - model koji kvantificira oblik međuzavisnosti između dvije ili više varijabli

Page 5: Regresiono-Korelaciona Analiza f

Etape konstrukcije regresionog modela (modela međuzavisnosti dvije varijable)

1. Determinisati nezavisnu i zavisnu varijablu2. Grafički predstaviti na dijagramu rasipanja

podatke o analiziranim varijablama da bi se potvrdila ili odbacila pretpostavka o zavisnosti između dvije statističke varijable

3. Na osnovu dijagrama procijeniti oblik veze između posmatranih varijabli Postoje različiti oblici veza kao npr. linearna, krivolinijska,

eksponencijalna itd4. Konstruisati ili ocijeniti primjenom odgovarajućih

metoda odabrani regresioni model5. Izračunati rezidualna (neobjašnjena) odstupanja

ocijenjenih od posmatranih podataka i analizirati ih

6. Procijeniti kvalitet ocijenjenog regresionog modela

Page 6: Regresiono-Korelaciona Analiza f

Pitanje

Želimo modelizirati vezu između visine kazne za određeni tip saobraćajnog prekršaja i broja saobraćajnih prekršaja datog tipa. Koju vrstu analize ćemo upotrijebiti?

a) deskriptivnub) regresionuc) inferencijalnud) dinamičku

Page 7: Regresiono-Korelaciona Analiza f

Smjer veze između dvije varijable

Pozitivan ili direktan porast vrijednosti jedne varijable uslovljava porast vrijednosti druge varijable. Vrijeme koje student provede učeći i ocjena na ispitu Vrijeme provedeno u gledanju TV-a i strah od kriminala

Negativan ili indirektan porast vrijednosti jedne varijable uslovljava pad vrijednosti druge varijable Brzina i vrijeme potrebno da se stigne do zadanog odredišta Cijena i količina

Page 8: Regresiono-Korelaciona Analiza f

Dijagram (oblak) rasipanja Služi za vizuelnu identifikaciju da li između

dvije varijable postoji međuzavisnost, pri čemu moramo imati jednu nezavisnu varijablu (npr. period edukacije) i jednu zavisnu varijablu (npr. visina primanja)

Pokazuje koliko jedna varijabla utiče na drugu

Daje odgovor na sljedeća pitanja: Da li postoji veza između varijabli X i Y? Kog smjera je veza između varijabli X i Y? Da li je ta veza pravolinijska (linearna) ili nije? Da li postoje outlieri?

Page 9: Regresiono-Korelaciona Analiza f

Dijagram rasipanja - Da li postoji veza između varijabli X i Y?

Veza postojiVeza ne

postoji

x

y

a x

y

b x

y

c

x

y

d x

y

e x

y

f

Page 10: Regresiono-Korelaciona Analiza f

Dijagram rasipanja - Smjer veze između varijabli X i Y

Direktna vezaIndirektna

veza

Page 11: Regresiono-Korelaciona Analiza f

Dijagram rasipanja – Linearna versus nelinearna veza?

x

y

x

y

Page 12: Regresiono-Korelaciona Analiza f

Pitanje

Posmatrali smo vezu između indeksa cijena i indeksa količina prehrambenih proizvoda i na osnovu 10 parova podataka dobili sljedeći oblak rasipanja:

Veza između ovih indeksa je pribižno:a) paraboličnab) eksponencijalnac) linearnad) logaritamska

Indeks količina

Indeks cijena

Page 13: Regresiono-Korelaciona Analiza f

Primjer 1

Imamo ocjenu o danima pohađanja nastave i ocjeni za 14 studenata.

Naš zadatak je da analiziramo vezu između ovih varijabli.

Dani pohađanja nastave

Ocjena

16 0.64

17 0.68

14 0.63

10 0.56

27 0.93

34 0.92

7 0.59

31 0.92

7 0.48

25 0.89

22 0.64

23 0.83

34 1

13 0.68

Page 14: Regresiono-Korelaciona Analiza f

Rješenje

Prvi korak je da identificiramo zavisnu i nezavisnu varijablu: Nezavisna varijabla je broj dana

pohađanja nastave Zavisna varijabla je ocjena

Potom kreiramo dijagram rasipanja da sagledamo vezu između posmatranih varijabli.

Page 15: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Dijagram rasipanja

00,10,20,30,40,50,60,70,80,9

11,1

0 5 10 15 20 25 30 35 40

dani pohađanja nastave

ocj

ena

Page 16: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Na bazi dijagrama rasipanja zaključujemo sljedeće:

Postoji međuzavisnost Smjer veze je direktan (više dana

pohađanja nastave viša ocjena) Veza se može ocijenti linearnim

regresionim modelom

Page 17: Regresiono-Korelaciona Analiza f

Kovarijansa

Simultano prati varijabilitet dvije varijable

Mjeri uzajamni varijabilitet dvije varijable u odnosu na njihove aritmetičke sredine

ili

1( , ) i i

i

Cov X Y x x y yn

1( , ) i i

i

Cov X Y x y x yn

Page 18: Regresiono-Korelaciona Analiza f

Tumačenje kovarijanse Kovarijansa je pozitivna ako oblak rasipanja

ima generalno rastuću tendenciju. Kada X i Y variraju u istom smjeru, kovarijansa je pozitivna.

Kovarijansa je negativna kada oblak rasipanja ima generalno opadajuću tendenciju. Kada X i Y variraju u suprotnom smjeru, kovarijansa je negativna.

Kovarijansa je jednaka ili približno jednaka nuli ako oblak rasipanja nije ni rastući ni opadajući ili ukoliko je pola opadajući, a pola rastući. Ako nema ni rastuće ni opadajuće generalne tendencije, kovarijansa je jednaka nuli.

Page 19: Regresiono-Korelaciona Analiza f

Pitanje

U jednom regionu pratili smo varijable «broj industrijskih postrojenja» i «broj oboljelih od astme» po gradovima. Kovarijansa ove dvije varijable iznosi 34,6. Veza između ove dvije varijable je:

a) multiplab) direktnac) indirektnad) jaka

Page 20: Regresiono-Korelaciona Analiza f

Zbir i razlika statističkih varijabli

Varijansu zbira i razlike statističkih varijabli možemo analizirati koristeći kovarijansu i izraziti ih na sljedeći način: Var(X +Y)=VarX + Var Y + 2 Cov(X,Y) Var(X-Y)=VarX + Var Y - 2 Cov(X,Y)

Međutim, ukoliko su X i Y nezavisne varijable kovarijansa je jednala nuli (Cov(X, Y)=0). U tom slučaju varijansu za zbir i razliku statističkih varijabli možemo izraziti sljedećim relacijama: Var(X+Y)=VarX + Var Y Var(X-Y)=VarX + Var Y

Page 21: Regresiono-Korelaciona Analiza f

Regresioni model Kvantificira ili matematski formalizira vezu između

zavisne i niza nezavisnih varijabli – oblik veze Opšti oblik regresionog modela glasi:

gdje je: Yi - zavisna promjenljiva, Xj - nezavisne promjenljive i ei - slučajno odstupanje.

Prezentirani model naziva se model višestruke ili multiple regresije ili višedimenzionalni regresioni model.

1 2( , ,.., ,.., )i i ji ki iY f X X i X X e

Page 22: Regresiono-Korelaciona Analiza f

Model jednostavne regresije

Za određivanje analitičkog odnosa između dvije varijable.

Sadrži zavisnu i jednu nezavisnu promjenljivu

Opšti oblik modela jednostavne regresije glasi:

( )i i iY f X e

Page 23: Regresiono-Korelaciona Analiza f

Model jednostavne linearne regresije

Za određivanje parametrara za konstrukciju modela linearne međuzavisnosti između dvije varijable.

Jednostavni ili prosti model sadrži zavisnu i jednu nezavisnu promjenljivu

Opšti oblik modela jednostavne linearne regresije glasi:

gdje su parametri a i b parametri linearne veze koje je potrebno ocijeniti.

, i 1,2,..., .i i iy a b x e n

Page 24: Regresiono-Korelaciona Analiza f

Model jednostavne linearne regresije, cont.

Razložimo model jednostavne linerne regresije na funkcionalni i stohastički dio:

Funkcionalni dio modela odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta nezavisne varijable i predstavljen je lineranom vezom

Stohastički dio modela (rezidualno odstupanje) odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta varijabli ili faktora koji nisu uključeni u regresioni model

stohastički dio modelaˆ -funkcionalni dio modelai

i i i

y

y a b x e

Page 25: Regresiono-Korelaciona Analiza f

Model jednostavne linearne regresije, cont.

Rezidualno odstupanje ili stohastički dio regresionog modela možemo izraziti kao:

ˆ= +

ˆ

( )

i i i

i i i

i i i

y y e

e y y

e y a b x

yi

ŷi = a + bxi

x

ŷi

y

xi

ei=( yi - ŷi )

Page 26: Regresiono-Korelaciona Analiza f

Metod najmanjih kvadrata

Cilj - minimizirati rezidualna odstupanja. Kako?

Minimiziranje zbira kvadrata rezidualnih odstupanja – metod najmanjih kvadrata (MNK)

2

1

2 2

1 1

minimum

ˆ( ) minimum

n

ii

n n

i i ii i

e

e y y

yi

ŷi = a + bxi

x

ŷi

y

xi

ei=( yi - ŷi )

Page 27: Regresiono-Korelaciona Analiza f

Metod najmanjih kvadrata – jednostavna linearna regresija

Parcijalni izvodi ovog zbira po parametrima a i b trebaju biti jednaki nuli, te se dobijaju “normalne jednačine”, te na osnovu njih formule za izračunavanje parametara a i b.

2

1

2

11

2 )()ˆ( i

n

iii

n

ii

n

ii bxayyye

1 1

NJ :n n

i ii i

I y na b x

2

1 1 1

NJ :n n n

i i i ii i i

II x y a x b x

a y bx

2

( , )

X

Cov X Yb

Page 28: Regresiono-Korelaciona Analiza f

Tumačenje parametara jednostavnog linearnog regresionog modela

Parametar a je matematski “presjek sa x osom”, to jeste ukazuje na očekivanu vrijednost zavisne varijable ukoliko nezavisna varijabla uzme vrijednost nula:

Parametar b je matematski “nagib” prave koja predstavlja jednostavni linearni regresioni model, to jeste pokazuje za koliko će se jedinica promijeniti zavisna varijabla ukoliko se nezavisna varijabla poveća za jednu svoju jedinicu:

ˆ0i ix y a

ˆ1x y b

Page 29: Regresiono-Korelaciona Analiza f

Primjer 1, cont.

Vezu između analiziranih varijabli ocijeniti odgovarajućim regresionim modelom.

Na osnovu dijagrama rasipanja za ovaj primjer zaključili smo da je adekvatno konstruisati linearni regresioni model, te ocjenjujemo parametre jednostavne linearne regresije:

00,10,20,30,40,50,60,70,80,9

11,1

0 5 10 15 20 25 30 35 40

dani pohađanja nastave

ocje

na

Page 30: Regresiono-Korelaciona Analiza f

Rješenje

Kao prvo formiramo radnu tabelu gdje izračunavamo sve sume potrebne za izračunavanje parametara linearne regresije:

2x 2y x yDani pohađanja nastave - x

Ocjena - y

16 0,64 256 0,4096 10,24

17 0,68 289 0,4624 11,56

14 0,63 196 0,3969 8,82

10 0,56 100 0,3136 5,60

27 0,93 729 0,8649 25,11

34 0,92 1156 0,8464 31,28

7 0,59 49 0,3481 4,13

31 0,92 961 0,8464 28,52

7 0,48 49 0,2304 3,36

25 0,89 625 0,7921 22,25

22 0,64 484 0,4096 14,08

23 0,83 529 0,6889 19,09

34 1 1156 1 34

13 0,68 169 0,4624 8,84

280 10,39 6748 8,0717 226,88

Page 31: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Ocjena će porasti za 0,0166 ako se broj dana pohađanja nastave poveća za 1. (direktna veza)

Student koji ima 0 skor za pohađanje nastave će prema modelu imati ocjenu 0,4097.

Regresioni model glasi:

2 22

14 226,88 280 10,390,0166

14 6748 280

n x y x yb

n x x

10,39 2800,0166 0,4097

14 14a y bx

ˆ 0,4097 0,0166i iy x

Page 32: Regresiono-Korelaciona Analiza f

Pitanje

Između količine proizvodnje kao nezavisne varijable i troškova proizvodnje kao zavisne varijable utvrđena je regresiona veza oblika:

Vrijednost «10» u ovoj funkcionalnoj vezi predstavlja:

a) troškove po jedinici proizvodab) ukupne troškovec) dobit po jedinici proizvodad) fiksne troškove

103,1ˆ ii xy

Page 33: Regresiono-Korelaciona Analiza f

Pitanje

Pratili smo uticaj broja agenata osiguranja na broj prodanih polica osiguranja i dobijena je regresiona veza

Ukoliko se broj agenata poveća za 1, broj prodanih polica će se:

a) povećati za 1b) smanjiti za 2c) povećati za 2d) povećati za 8

82ˆ ii xy

Page 34: Regresiono-Korelaciona Analiza f

Primjer 2

Istraživanje da li postoji veza između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene za 8 polovnih automobila dalo je sljedeće rezultate:

Starost auta u godinama Cijena u $000

1 15

2 13

3 12

4 10

5 9

6 7

7 6

8 4

Page 35: Regresiono-Korelaciona Analiza f

Primjer 2, cont.

Konstruisati oblak rasipanja. Komentar. Konstruisati odgovarajući regresioni

model. Objasniti parametre.

Page 36: Regresiono-Korelaciona Analiza f

Rješenje

U Excelu biramo opciju Chart Wizard i u okviru nje Scatterplot:

Page 37: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Ovakav oblak rasipanja ukazuje na postojanje indirektne veze između analiziranih varijabli.

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10

starost auta

cije

na

Page 38: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Kod određivanja parametara a i b koristićemo Excelove statističke funkcije:

Page 39: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Regresioni model glasi:

Što znači da: Ako kupujemo novo auto analiziranog tipa C

njegova očekivana cijena je $16 375,14 Ako starost auta poraste za jednu godinu

očekujemo da će cijena tog auta da se smanji za $1 523,81 (indirektna veza)

ˆ 16375,14 1523,81i iy x

Page 40: Regresiono-Korelaciona Analiza f

Mjere reprezentativnosti regresionog modela

Pokazatelji reprezentativnosti ili “kvaliteta” regresionog modela kvantificiraju stepen međuzavisnosti i izražavaju direktno ili indirektno odstupanje vrijednosti zavisne varijable ocijenjenih regresionim modelom od orginalnih vrijednosti zavisne varijable.

Pokazatelji reprezentativnosti regresionog modela su:

1. koeficijent determinacije, 2. koeficijent korelacije, 3. standardna greška i 4. koeficijent varijacije regresionog modela.

Page 41: Regresiono-Korelaciona Analiza f

Dekompozicija varijanse

Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable se može grafički izraziti kao:y

x

ˆi iy a b x

ˆy y

iy

y

ˆiy y

ˆi i ie y y ˆiy

Page 42: Regresiono-Korelaciona Analiza f

Dekompozicija varijanse, cont.

Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable matematski se može matematski izraziti kao:

gdje:

je orginalna vrijednost zavisne varijable iz niza podataka dobijenih istraživanjem

je procjenjena ili predviđena vrijednost zavisne varijable na bazi regresionog

modela

je prosječna vrijednost zavisne varijable

ˆ ˆ( )i i i iy y y y y y iy

ˆiy

ˆy y

Page 43: Regresiono-Korelaciona Analiza f

Dekompozicija varijanse, cont.

Posmatrajmo ukupan varijabilitet zavisne varijable u kontekstu njegova dva dijela koja smo identificirali dekompozicijom varijanse: ˆ ˆ( ) ( )i i i iy y y y y y

Odstupanje orginalnih podataka za zavisnu varijablu od prosjeka zavisne varijable

Odstupanje podataka ocjenjenih regresionim

modelom za zavisnu varijablu od prosjeka

zavisne varijable— ovo je dio koji ukazuje na međuzavisnost između zavisne i nezavisne varijable

Odstupanje podataka ocjenjenih

regresionim modelom za zavisnu varijablu

od orginalnih vrijednosti zavisne

varijable— ovo je dio koji ukazuje na uticaj

drugih faktora koje regresioni model nije uključio na zavisnu

varijablu.

Page 44: Regresiono-Korelaciona Analiza f

Dekompozicija varijanse, cont.

Ako kvadriramo ova odstupanja i sumiramo ih, dobićemo sume kvadrata koje su zbrojive: 22 2ˆ ˆ( ) ( )i i i iy y y y y y

Ukupan varijabilitet - suma kvadrata odstupanja orginalnih vrijednosti zavisne varijable od njenog prosjeka

Objašnjeni varijabilitet - suma kvadrata odstupanja u okviru regresionog modela – ovo je dio varijabiliteta zavisne varijable koji se može predvidjeti na osnovu poznavanja vrijednosti nezavisne varijable

Neobjašnjeni varijabilitet - suma kvadrata odstupanja koja nije objašnjena regresionim modelom

Page 45: Regresiono-Korelaciona Analiza f

Koeficijent determinacije Na osnovu dekompozicije varijanse određujemo koeficijent

determinacije. Predstavlja učešće objašnjenog varijabiliteta u ukupnom

varijabilitetu zavisne varijable.

Pokazuje dio varijabiliteta zavisne varijable koji je objašnjen regresionim modelom kroz uticaj nezavisne varijable biz modela.

Relativna mjera, izražava se u %. Može uzeti vrijednosti iz intervala 0 do +1 (ili 0-100%). Veća vrijednost ovog koeficijenta ukazuje da je veća proporcija

objašnjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.

2 2

22 2

ˆ ˆ1i i i

i i

y y y yr

y y y y

Page 46: Regresiono-Korelaciona Analiza f

Koeficijent korelacije Mjeri jačinu i smjer povezanosti dvije pojave za koje

poznajemo empirijske vrijednosti kvantitatinih varijabli.

Neimenovani broj. Kao i kod koeficijenta determinacije sa kojim je u

funkcionalnoj vezi, veća vrijednost ovog koeficijenta ukazuje da je veća proporcija objašnjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.

2

22

)(

)ˆ(

yy

yyrr

i

i

Page 47: Regresiono-Korelaciona Analiza f

Koeficijent linearne korelacije Odnos kovarijanse varijabli X i Y i proizvoda standardnih devijacija

varijable X i varijable Y.

Vrijednost koeficijenta linearne korelacije se nalazi između -1 i 1. Veća vrijednost koeficijenta ukazuje na postojanje veće linearne

povezanosti između promjenjljivih X i Y. Manja vrijednost r ne mora uvijek značiti da je slaba korelacija jer

se može raditi o pogrešnoj primjeni koeficijenta linearne korelacije za mjerenje jačine veze pojava koje nisu u linearnom odnosu.

Tumačenje: Za vrijednosti: -1 < r < 0 korelacija je negativna (stohastička). Za vrijednosti: 0 < r < 1 korelacije je pozitivna (stohastička). Za vrijednosti –1 i 1, radi se o perfektnoj negativnoj odnosno pozitivnoj

korelaciji, to jeste o funkcionalnoj vezi.

2 2

( )( )( , )

( ) ( )

i i

X Y i i

x x y yCov X Yr

x x y y

Page 48: Regresiono-Korelaciona Analiza f

Koeficijent linearne korelacije, cont.

Napomena: ako je moguće uvjek je bolje prvo testirati hipotezu H0: r=0, a tek onda komentarisati koeficijent korelacije.

Page 49: Regresiono-Korelaciona Analiza f

Pitanje

Koeficijent determinacije je količnik dviju varijansi. Kojih:

a) objašnjene i ukupneb) neobjašnjene i ukupnec) neobjašnjene i objašnjened) objašnjene i neobjašnjene

Page 50: Regresiono-Korelaciona Analiza f

Pitanje

Poluprečnik i površina kruga su u funkcionalnoj vezi. Koeficijent korelacije poluprečnika i površine kruga je:

a) 0b) -1c) 1d) 2r

Page 51: Regresiono-Korelaciona Analiza f

Standardna greška ocjene

Prema vrijednosti neobjašnjenog varijabiliteta za regresioni model određujemo standardnu grešku ocjene:

2

standardnaneobjašnjeni varijabilitet

greška ocjene

(1 ) ukupan varijabilitet

n

r

n

Page 52: Regresiono-Korelaciona Analiza f

Standardna greška ocjene, cont.

Mjeri kvalitet i reprezentativnost ocijenjenog regresionog modela i pokazuje prosječno odstupanje empirijskih vrijednosti zavisne varijable Y od podataka ocijenjenih regresionim modelom.

Apsolutna mjera disperzije oko regresije jer se izražava u istim jedinicama mjere kao zavisna varijabla.

Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.

Page 53: Regresiono-Korelaciona Analiza f

Koeficijent varijacije regresionog modela

Relativni pokazatelj kvaliteta regresionog modela

Jednak je odnosu standardne greške ocijenjenog regresionog modela i aritmetičke sredine zavisne varijable Y:

Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.

100ˆˆ

yk yyV

Page 54: Regresiono-Korelaciona Analiza f

Koeficijent varijacije regresionog modela, cont.

Na osnovu vrijednosti ovog koeficijenta možemo procijeniti preciznost i kvalitet ocjene na sljedeći način: Ako je u intervalu 7%<kv 10%, ocjena je

relativno dosta dobra Ako je u intervalu 4%< kv 7%, ocjena je

dobra Ako je u intervalu 1%< kv 4%, ocjena je

vrlo dobra Ako je kv 1%, ocjena je odlična.

Page 55: Regresiono-Korelaciona Analiza f

Primjer 1, cont.

Analizirati kvalitet (reprezentativnost) regresionog modela kojim je ocjenjena veza između dana pohađanja nastave i ocjene na ispitu.

Page 56: Regresiono-Korelaciona Analiza f

Rješenje

2 22 2

2 2

14 226,88 280 10,390,9375

14 6748 280 14 8,0717 10,39

xy

x y

C n x y x yr

n x x n y y

Koeficijent korelacije je pozitivan i teži ka 1, tako da zaključujemo da je linearna veza između analiziranih varijabli jaka i direktna. Prisustvo nastavi utiče direktno na visinu finalne ocjene.

Page 57: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Određujemo standardnu grešku procjene:

Ovaj pokazatelj prati jedinicu mjere zavisne varijable. Koristan je za komparaciju više modela sa istim varijablama i jedinicama mjere.

2

22

standardna(1 ) ukupan varijabilitet

greška procjene

8,0717 10,391 0,9375

14 140,0148

14

r

n

Page 58: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Izračunavamo koeficijent varijacije regresionog modela:

Ocjena je vrlo dobra, ovaj model možemo koristiti za predviđanje.

ˆˆ 100

0,0148100 1,994%

10,3914

yVyk y

Page 59: Regresiono-Korelaciona Analiza f

Pitanje

Ako ocjenjeni linearni regresioni model, ima koeficijent determinacije 0,64, onda bismo mogli reći:a. 64% varijacija zavisne varijable

objašnjeno je nezavisnom varijablom.b. Uzoračka korelacija između Y i X bila je

0,64.c. 64% tačaka leži na regresionoj pravojd. Nijedno od gore pomenutih

Page 60: Regresiono-Korelaciona Analiza f

Predviđanje

Regresioni model dobijen MNK metodom koristimo za predviđanje vrijednosti zavisne varijable na osnovu poznate vrijednosti nezavisne varijable.

Što je: Viši koeficijent determinacije i korelacije Niža standardna greška procjene Niži koeficijent varijacije regresionog

modela

to je predviđanje pouzdanije i obratno.

Page 61: Regresiono-Korelaciona Analiza f

Predviđanje, cont.

Predviđanje na osnovu regresionog modela može biti:

1. Interpolacija – ako se dato X (vrijednost nezavisne varijable) nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

2. Ekstrapolacija – ako se dato X (vrijednost nezavisne varijable) ne nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

Interpolacija daje pouzdanije procjene od ekstrapolacije.

Page 62: Regresiono-Korelaciona Analiza f

Primjer 1, cont.

Želimo predvidjeti ocjenu za studenta koji je 28 dana bio na nastavi.

Ovo je interpolacija, jer se 28 kao vrijednost nezavisne varijable nalazi u rangu između najnižeg i najvišeg podatka za nezavisnu varijablu korištenih za konstrukciju regresionog modela (xmin=7 i xmax=34)

28

ˆ 0,4097 0,0166

0,4097 0,0166 28 0,875

i

i i

x

y x

Prema modelu regresije, očekivana ocjena za studenta koji je 28 dana bio na nastavi je 0,875.

Page 63: Regresiono-Korelaciona Analiza f

Primjer 2, cont.

Da se prisjetimo, u ovom primjeru smo pratili vezu između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

Analizirati kvalitet (reprezentativnost) regresionog modela kojim je ocjenjena veza između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

Koliku cijenu očekujemo kod automobila starog 10 godina?

Page 64: Regresiono-Korelaciona Analiza f

Rješenje

Kod određivanja mjera reprezentativnosti koristićemo Excelove statističke funkcije:

Page 65: Regresiono-Korelaciona Analiza f

Rješenje, cont. Koeficijent korelacije je

negativan i teži ka 1, te dobijeni model ukazuje na jaku indirektnu linearnu vezu.

Predviđanje ovakvim modelom je pouzdano.

Standardna greška procjene iznosi 0,2817, to jeste $281,7.

Predviđanje se odnosi na ekstrapolaciju jer je vrijednost nezavisne varijable 10 izvan okvira vrijednosti nezavisne varijable korištenih prilikom konstrukcije regresionog modela:

10

ˆ 16375,14 1523,81

16375,14 1523,81 10 1315,5

i

i i

x

y x

Prema modelu regresije, očekivana cijena automobila starog 10 godina je $1315,5.

Page 66: Regresiono-Korelaciona Analiza f

Spearmanov koeficijent korelacije ranga

se koristi ako imamo pojave za koje su podaci dati u obliku modaliteta rang varijable:

gdje je d razlika rangova za x i y:

Tumačenje identično koeficijentu korelacije.

2

3

61 id

n n

, ,i x i y id r r

Page 67: Regresiono-Korelaciona Analiza f

Primjer 3

Dva umjetnika su ocjenjivala šest umjetničkih dijela sa ocjenama u obliku rangova 1 (najbolji) do 6 (najlošiji). U tabeli su prezentirane njihove ocjene:

Izračunati i objasniti Spearmanov koeficijent korelacije ranga.

Umjetničko djelo

Umjetnik 1 Umjetnik 2

A 6 5

B 5 6

C 1 2

D 3 1

E 4 3

F 2 4

Page 68: Regresiono-Korelaciona Analiza f

Rješenje

Imamo rangove za dvije varijable te izračunavamo razliku rangova:

xr yr2dUmjetničko

djeloUmjetnik 1 Umjetnik 2 d

A 6 5 1 1

B 5 6 -1 1

C 1 2 -1 1

D 3 1 2 4

E 4 3 1 1

F 2 4 -2 4

sum 12

Page 69: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Spearmanov koeficijent korelacije ranga je:

Ovo ukazuje na relativno visoko direktno slaganje (66%) mišljenja dva umjetnika.

2

3 3

6 6 121 1 0,66

6 6

d

n n

Page 70: Regresiono-Korelaciona Analiza f

Primjer 4Poznati su podaci o obimu

proizvodnje i ukupnim troškovima proizvodnje:

a) Nacrtati dijagram rasipanja.

b) Ocijeniti ukupne troškove proizvodnje kao linearnu funkciju obima proizvodnje. Objasniti dobijene parametre.

c) Izračunati i objasniti koeficijent determinacije.

d) Za obim proizvodnje 8.500 kom kolike troškove možemo očekivati?

obim proizvodnje (000 kom)

troškovi proizvodnje (000 KM)

2 50

3 73

4 89

5 110

6 128

Page 71: Regresiono-Korelaciona Analiza f

a) Dijagram (oblak) rasipanja

40

5060

70

8090

100

110

120130

140

1 2 3 4 5 6 7

obim proizvodnje (000 kom)

trošk

ovi

pro

izvo

dnje

(=== K

M)

Page 72: Regresiono-Korelaciona Analiza f

b) Linearni model jednostavne regresije – radna tabela

obim proizvodnje (000 kom) -

X

troškovi proizvodnj

e (000 KM)- Y x2 xy y2

2 50 4 100 2500

3 73 9 219 5329

4 89 16 356 7921

5 110 25 550 12100

6 128 36 768 16384

Sume: 20 450 90 1993

44234

Page 73: Regresiono-Korelaciona Analiza f

b) Linearni model jednostavne regresije – potrebni elementi

1

1 204

5

N

ii

X xN

2 2 2 2

1

1 190 4 2

5

N

X ii

x XN

2 2 2 2

1

1 144234 90 746,8

5

N

Y ii

y YN

1

1 11993 4 90 38,6

5

N

XY i ii

C x y X YN

1

1 45090

5

N

ii

Y yN

Page 74: Regresiono-Korelaciona Analiza f

b) Linearni model jednostavne regresije – izračunavanje parametara

2XY

X

Cb

38,6

19,32

Ukoliko se obim proizvodnje poveća za 1.000 kom tada će troškovi proizvodnje porasti za 19.300 KM.

90 19,3 4 12,8 a Y b X Ukoliko se ne proizvodi tj. obim proizvodnje je jednak 0, tada su troškovi proizvodnje 12.800 KM (fiksni troškovi).

ˆ 12,8 19,3i iy x

Page 75: Regresiono-Korelaciona Analiza f

c) Koeficijent determinacije

22

2 2XY

X Y

Cr

238,60,9976

2 746,8

99,76% promjena troškova izraženih varijansom duguje se uticaju obima proizvodnje.

Page 76: Regresiono-Korelaciona Analiza f

d) Predviđanje

ˆ 12,8 19,3 8,5 176,85iy

za obim proizvodnje 8.500 komada je 8,5ix

Ako obim proizvodnje iznosi 8.500 komada očekuju se troškovi od 176.850 KM.

Page 77: Regresiono-Korelaciona Analiza f

Model višestruke ili multiple regresije

Zavisna varijabla Y je izražena kao funkcija K nezavisnih varijabli i slučajnog člana e.

Ako je funkcionalni dio modela definisan linearnom funkcijom model možemo definisati generalni model višestruke linearne regresije za n vrijednosti sljedećim izrazom niexbxbxbay iiKKiii ,...,2,1,...2211

Page 78: Regresiono-Korelaciona Analiza f

Model višestruke ili multiple regresije, cont.

Koeficijenti u regresijskom modelu imaju sljedeće značenje:

parametar a je slobodni, konstantni član koji predstavlja očekivanu vrijednost zavisne varijable Y kada je vrijednost svih K nezavisnih varijabli (X1, X2,...,XK) jednaka nuli.

Vrijednost ovog parametra nema uvijek logičko objašnjenje. Parametar bi (i=1,2,....,K) ili regresioni koeficijent pokazuje

prosječnu promjenu zavisne varijable Y nastalu usljed jediničnog povećanja nezavisne varijable Xi, uz uslov da ostale nezavisne varijable ostanu nepromijenjene.

Pozitivna vrijednost parametra bi ukazuje na proporcionalan odnos varijabli Y i Xi.

Negativna vrijednost koeficijenta bi znači obrnuto proporcionalan odnos zavisne varijable Y i nezavisne varijable Xi.

Page 79: Regresiono-Korelaciona Analiza f

Koeficijent multiple determinacije

Izražava jačinu veze ili slaganje varijabiliteta između zavisne varijable i zbirnog varijabiliteta K nezavisnih varijabli

Kvadratni korijen koeficijenta multiple determinacije je koeficijent multiple linearne korelacije

10 ,)(

)ˆ( 2

2

22

,..,2,1; ,..,2,1;

KY

Ryy

yyR

i

iKY

Page 80: Regresiono-Korelaciona Analiza f

Koeficijent parcijalne korelacije

Pokazuje jačinu i smjer veze zavisne varijable Y i j-te nezavisne varijable uz nepromijenjen uticaj preostalih (K-1) varijabli.

Vrijednost ovog koeficijenta se kreće u granicama: (-1,1).

1 2 12 2 1 121.2 2.12 2 2 2

1 12 2 12

;(1 )(1 ) (1 )(1 )

y y y yy y

y y

r r r r r rr r

r r r r

Page 81: Regresiono-Korelaciona Analiza f

Primjer 5Za osam firmi dati su podaci o ukupnom godišnjem prihodu i ukupnim godišnjim izdacima za plate Y (obje pojave mjerene u milionima KM):

Metodom najmanjih kvadrata ocijeniti linearnu regresiju. Objasniti parametre.

Pomoću koeficijenta linarne korelacije odrediti smjer i jačinu veze.

Za ukupan godišnji prihod 105 miliona KM, kolike ukupne godišnje izdatke za plate možemo očekivati?

Ukupan godišnji prihod

Ukupni godišnji izdaci za

plate

93 21

57 15

100 25

41 12

70 19

57 10

98 21

84 19

Page 82: Regresiono-Korelaciona Analiza f

Rješenje, Excel – Data Analysis

Zavisna varijabla – izdaci za plate

Prema oblaku rasipanja – direktna linearna veza

0

5

10

15

20

25

30

0 20 40 60 80 100 120

prihod

izdac

i za

pla

te

Page 83: Regresiono-Korelaciona Analiza f

Rješenje, Excel – Data Analysis, cont.

Page 84: Regresiono-Korelaciona Analiza f

Rješenje, Excel – Data Analysis, cont.

Page 85: Regresiono-Korelaciona Analiza f

Rješenje

Jednostavni linearni regresioni model glasi:

Koeficijent korelacije r=0,9078 direktna jaka veza Standardna greška ocjene 2,28 Za ukupan godišnji prihod 105 miliona KM

Izdaci za plate koje možemo očekivati su 24 miliona KM.

ˆ 2,165 0,208i iy x

ˆ 2,165 0,208 105 24,005iy

Page 86: Regresiono-Korelaciona Analiza f

Analiza varijanse - ANOVA

testira kvalitet ili reprezentativnost modela testira se da li postoji značajna veza

između niza nezavisnih varijabli uključenih u model i zavisne varijable

odnosi se na F test hipoteza glasi:

ili makar jedna nezavisna varijabla uključena u model je značajna to jeste signifikantno utiče na zavisnu varijablu

0 1. ... 2. ... . ... 1 . ...: ... 0 / : najmanje jedan parametar 0i i ik ijH b b b H b

Page 87: Regresiono-Korelaciona Analiza f

Analiza varijanse – ANOVA, Excel

U prvoj koloni su informacije o odgovarajućem broju stepeni slobode:

gdje je k broj nezavisnih varijabli uključenih u model i n broj observacija

U drugoj koloni su rezultati o sumama kvadrata odstupanja.

1

1

regression objašnjeno

residual neobjašnjeno

total ukupno

df df k

df df n k

df df n

2ˆ( )regresion objašnjeno iSS SS y y 2ˆ( )residual neobjašnjeno i iSS SS y y

2( )total ukupno iSS SS y y

Page 88: Regresiono-Korelaciona Analiza f

Analiza varijanse – ANOVA, Excel

U trećoj koloni su rezultati o MS (suma kvadrataodstupanja/broj stepeni slobode)

U četvrtoj koloni je empirijska vrijednost F testa, a u petoj koloni odgovarajuća p-vrijednost (F significance)

Ako je , smatramo model značajnim (najmanje jedna od nezavisnih varijabli uključenih u model je značajna to jeste utiče na zavisnu varijablu).

(odgovarajući)

1 1

regresion objašnjenoregresion

regresion

neobjašnjeno ukupnoresidual totalresidual total

residual total

SS SSSSMS MS

df df k

SS SSSS SSMS MS

df n k df n

1< =0,05p H

Page 89: Regresiono-Korelaciona Analiza f

Primjer 6

Sljedeća tabela sadrži podatke o obimu prometa (u 000 komada ) jednog prehrambenog artikla prema veličini poslovnog prostora ( u 00 m2) i udaljenosti od centra grada (u km), u slučajnom uzorku od 7 prodavnica:

Ocijeniti parametre odgovarajućeg regresionog modela.

Komentarisati kvalitet modela.

obim prometa

veličina poslovnog prostora

udaljenost od centra

grada

120 4,2 2

150 4,2 1,5

180 5 2,5

30 3 1,5

75 3 0,5

60 3,2 1,5

75 3,4 1

Page 90: Regresiono-Korelaciona Analiza f

Rješenje, Excel – Data Analysis

Zavisna varijabla – obim prometa

Page 91: Regresiono-Korelaciona Analiza f

Rješenje, Excel – Data Analysis, cont.

Page 92: Regresiono-Korelaciona Analiza f

Rješenje Višestruki regresioni model glasi:

Parametar a=-187,01, nema logično tumačenje Parametri b znače:

Ako se veličina poslovnog prostora poveća za 100 m2 očekuje se rast prometa za 91 940 komada, uz uslov da se ne promjeni udaljenost od centra grada.

Ako se udaljenost od centra grada poveća za 1 km očekuje se pad prometa za 37 258 komada, uz uslov da se ne promjeni veličina poslovnog prostora.

iii xxx 321 258,3794,91016,187ˆ

Page 93: Regresiono-Korelaciona Analiza f

Rješenje, cont.

Koeficijent korelacije iznosi 0,9896, što znači da je model reprezentativan.

Zaključak potvrđuje i p vrijednost analize varijanse (0,0004) koja je manja od 0,05.

Standardna greška modela iznosi 9,38. Prema p vrijednostima uz b (0,0004 i

0,002) koeficijente koje su niže od 0,05 zaključujemo da su obje nezavisne varijable uključene u model signifikantne.

Page 94: Regresiono-Korelaciona Analiza f

Izvori Somun-Kapetanović R., Statistika u ekonomiji i

menadžmentu, Ekonomski fakultet u Sarajevu, Sarajevo 2006.

Resić, E., Delalić, A., Balavac, M., Abdić, A., Statistics in Economics and Management, Ekonomski fakultet u Sarajevu, Sarajevo, 2010.

Resić E., Zbirka zadataka iz statistike, Ekonomski fakultet u Sarajevu, Sarajevo 2006.

Curwin J. and Slater R., Quantitative Methods for Business Decisions, Thomson Learning – fifth edition 2002.

Page 95: Regresiono-Korelaciona Analiza f

Hvala na pažnji!