Transcript
Page 1: Regresiona i Korelaciona Analiza.skripta

Modelizacija veza između dvije ili više varijabli• Model - pojednostavljena slika realnosti • Model služi da se na adekvatan način kvantificiraju složeni ekonomski fenomeni i relacije između njih• Pretpostavke koje moraju biti zadovoljene kako bismo mogli modelizirati vezu između varijabli:

– Modeliziranje možemo vršiti ukoliko postoji zavisnost između varijabli• Funkcionalna versus stohastička međuzavisnost

– Mogu se modelizirati jedino kvantitativne varijable, jer je u tom slučaju moguće kompletirati oblak (dijagram) rasipanja, računati mjere centralne tendencije i disperzije

• Regresioni model - model koji kvantificira oblik međuzavisnosti između dvije ili više varijabli

Etape konstrukcije regresionog modela (modela međuzavisnosti dvije varijable) 1. Determinisati nezavisnu i zavisnu varijablu2. Grafički predstaviti na dijagramu rasipanja podatke o analiziranim varijablama da bi se potvrdila ili

odbacila pretpostavka o zavisnosti između dvije statističke varijable3. Na osnovu dijagrama procijeniti oblik veze između posmatranih varijabli

– Postoje različiti oblici veza kao npr. linearna, krivolinijska, eksponencijalna itd4. Konstruisati ili ocijeniti primjenom odgovarajućih metoda odabrani regresioni model5. Izračunati rezidualna (neobjašnjena) odstupanja ocijenjenih od posmatranih podataka i analizirati ih6. Procijeniti kvalitet ocijenjenog regresionog modela

Smjer veze između dvije varijable 7. Pozitivan ili direktan Þ porast vrijednosti jedne varijable uslovljava porast vrijednosti druge varijable.

– Vrijeme koje student provede učeći i ocjena na ispitu– Vrijeme provedeno u gledanju TV-a i strah od kriminala

8. Negativan ili indirektan Þ porast vrijednosti jedne varijable uslovljava pad vrijednosti druge varijable– Brzina i vrijeme potrebno da se stigne do zadanog odredišta– Cijena i količina

Dijagram (oblak) rasipanja

Služi za vizuelnu identifikaciju da li između dvije varijable postoji međuzavisnost, pri čemu moramo imati jednu nezavisnu varijablu (npr. period edukacije) i jednu zavisnu varijablu (npr. visina primanja)Pokazuje koliko jedna varijabla utiče na druguDaje odgovor na sljedeća pitanja:

– Da li postoji veza između varijabli X i Y?– Kog smjera je veza između varijabli X i Y?– Da li je ta veza pravolinijska (linearna) ili nije?– Da li postoje outlieri?

Dijagram rasipanja - Da li postoji veza između varijabli X i Y?

Veza postoji

x

y

a x

y

b x

y

c

x

y

d x

y

e x

y

f

Page 2: Regresiona i Korelaciona Analiza.skripta

Veza ne postoji

Dijagram rasipanja - Smjer veze između varijabli X i Y

Dijagram rasipanja – Linearna versus nelinearna veza?

Pitanje

Page 3: Regresiona i Korelaciona Analiza.skripta

Rješenje • Prvi korak je da identificiramo zavisnu i nezavisnu varijablu:

– Nezavisna varijabla je broj dana pohađanja nastave– Zavisna varijabla je ocjena

• Potom kreiramo dijagram rasipanja da sagledamo vezu između posmatranih varijabli. Rješenje, cont.

• Rješenje, cont. Na bazi dijagrama rasipanja zaključujemo sljedeće:

• Postoji međuzavisnost• Smjer veze je direktan (više dana pohađanja nastave Þ viša ocjena)• Veza se može ocijenti linearnim regresionim modelom

Kovarijansa

Page 4: Regresiona i Korelaciona Analiza.skripta

Tumačenje kovarijanse

• Kovarijansa je pozitivna ako oblak rasipanja ima generalno rastuću tendenciju. Þ Kada X i Y variraju u istom smjeru, kovarijansa je pozitivna.

• Kovarijansa je negativna kada oblak rasipanja ima generalno opadajuću tendenciju. Þ Kada X i Y variraju u suprotnom smjeru, kovarijansa je negativna.

• Kovarijansa je jednaka ili približno jednaka nuli ako oblak rasipanja nije ni rastući ni opadajući ili ukoliko je pola opadajući, a pola rastući. Þ Ako nema ni rastuće ni opadajuće generalne tendencije, kovarijansa je jednaka nuli.

Pitanje U jednom regionu pratili smo varijable «broj industrijskih postrojenja» i «broj oboljelih od astme» po gradovima. Kovarijansa ove dvije varijable iznosi 34,6. Veza između ove dvije varijable je: a) multipla b) direktna c) indirektna d) jaka

Zbir i razlika statističkih varijabli

• Varijansu zbira i razlike statističkih varijabli možemo analizirati koristeći kovarijansu i izraziti ih na sljedeći način:

• Var(X +Y)=VarX + Var Y + 2 Cov(X,Y)

• Var(X-Y)=VarX + Var Y - 2 Cov(X,Y)

• Međutim, ukoliko su X i Y nezavisne varijable kovarijansa je jednala nuli (Cov(X, Y)=0). U tom slučaju varijansu za zbir i razliku statističkih varijabli možemo izraziti sljedećim relacijama:

• Var(X+Y)=VarX + Var Y

• Var(X-Y)=VarX + Var Y

Regresioni model

• Kvantificira ili matematski formalizira vezu između zavisne i niza nezavisnih varijabli – oblik veze

Page 5: Regresiona i Korelaciona Analiza.skripta

• Opšti oblik regresionog modela glasi:

gdje je:

– Yi - zavisna promjenljiva,

– Xj - nezavisne promjenljive i

– ei - slučajno odstupanje.

• Prezentirani model naziva se model višestruke ili multiple regresije ili višedimenzionalni regresioni model.

Model jednostavne regresije

• Za određivanje analitičkog odnosa između dvije varijable.

• Sadrži zavisnu i jednu nezavisnu promjenljivu

• Opšti oblik modela jednostavne regresije glasi:

Model jednostavne linearne regresije

• Za određivanje parametrara za konstrukciju modela linearne međuzavisnosti između dvije varijable.• Jednostavni ili prosti model Þ sadrži zavisnu i jednu nezavisnu promjenljivu • Opšti oblik modela jednostavne linearne regresije glasi:

gdje su parametri a i b parametri linearne veze koje je potrebno ocijeniti.

Model jednostavne linearne regresije, cont.

• Razložimo model jednostavne linerne regresije na funkcionalni i stohastički dio:

• Funkcionalni dio modela odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta nezavisne varijable i predstavljen je lineranom vezom

• Stohastički dio modela (rezidualno odstupanje) odnosi se na varijabilitet zavisne varijable nastao pod uticajem varijabiliteta varijabli ili faktora koji nisu uključeni u regresioni model

Model jednostavne linearne regresije, cont.

• Rezidualno odstupanje ili stohastički dio regresionog modela možemo izraziti kao:

Page 6: Regresiona i Korelaciona Analiza.skripta

Metod najmanjih kvadrata

Metod najmanjih kvadrata – jednostavna linearna regresija

Tumačenje parametara jednostavnog linearnog regresionog modela

• Parametar a je matematski “presjek sa x osom”, to jeste ukazuje na očekivanu vrijednost zavisne varijable ukoliko nezavisna varijabla uzme vrijednost nula:

Page 7: Regresiona i Korelaciona Analiza.skripta

ˆ0i ix y a Þ

Parametar b je matematski “nagib” prave koja predstavlja jednostavni linearni regresioni model, to jeste pokazuje za koliko će se jedinica promijeniti zavisna varijabla ukoliko se nezavisna varijabla poveća za jednu svoju jedinicu:

ˆ1x y b Þ

Primjer 1, cont.

• Vezu između analiziranih varijabli ocijeniti odgovarajućim regresionim modelom.

• Na osnovu dijagrama rasipanja za ovaj primjer zaključili smo da je adekvatno konstruisati linearni regresioni model, te ocjenjujemo parametre jednostavne linearne regresije.

Rješenje

Rješenje, cont.

Page 8: Regresiona i Korelaciona Analiza.skripta

Ocjena će porasti za 0,0166 ako se broj dana pohađanja nastave poveća za 1. (direktna veza)

Student koji ima 0 skor za pohađanje nastave će prema modelu imati ocjenu 0,4097. Regresioni model glasi:

Pitanje 1.

Između količine proizvodnje kao nezavisne varijable i troškova proizvodnje kao zavisne varijable utvrđena je regresiona veza oblika:

Vrijednost «10» u ovoj funkcionalnoj vezi predstavlja:a) troškove po jedinici proizvoda b) ukupne troškove c) dobit po jedinici proizvoda d) fiksne troškove

Pitanje 2.Pratili smo uticaj broja agenata osiguranja na broj prodanih polica osiguranja i dobijena je regresiona veza

Ukoliko se broj agenata poveća za 1, broj prodanih polica će se: a) povećati za 1b) smanjiti za 2 c) povećati za 2d) povećati za 8

Primjer 2, cont.• Konstruisati oblak rasipanja. Komentar.• Konstruisati odgovarajući regresioni model.• Objasniti parametre.

103,1ˆ ii xy

82ˆ ii xy

Page 9: Regresiona i Korelaciona Analiza.skripta

Rješenje, cont.

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10

starost auta

cije

na

• Ovakav oblak rasipanja ukazuje na postojanje indirektne veze između analiziranih varijabli.

Page 10: Regresiona i Korelaciona Analiza.skripta

• Regresioni model glasi:

• Što znači da:– Ako kupujemo novo auto analiziranog tipa C njegova očekivana cijena je $16 375,14– Ako starost auta poraste za jednu godinu očekujemo da će cijena tog auta da se smanji za $1

523,81 (indirektna veza)

Mjere reprezentativnosti regresionog modela

• Pokazatelji reprezentativnosti ili “kvaliteta” regresionog modela kvantificiraju stepen međuzavisnosti i izražavaju direktno ili indirektno odstupanje vrijednosti zavisne varijable ocijenjenih regresionim modelom od orginalnih vrijednosti zavisne varijable.

• Pokazatelji reprezentativnosti regresionog modela su:1. koeficijent determinacije, 2. koeficijent korelacije, 3. standardna greška i 4. koeficijent varijacije regresionog modela.

Page 11: Regresiona i Korelaciona Analiza.skripta

Dekompozicija varijanse

Dekompozicija varijanse, cont.

Dekompozicija varijanse za orginalni podatak o vrijednosti zavisne varijable matematski se može matematski izraziti kao:

gdje:• je orginalna vrijednost zavisne varijable iz niza podataka dobijenih istraživanjem

• je procjenjena ili predviđena vrijednost zavisne varijable na bazi regresionog modela

• je prosječna vrijednost zavisne varijable•

ˆ ˆ( )i i i iy y y y y y

Page 12: Regresiona i Korelaciona Analiza.skripta

Koeficijent korelacije• Mjeri jačinu i smjer povezanosti dvije pojave za koje poznajemo empirijske vrijednosti kvantitatinih

varijabli.

• Neimenovani broj.Kao i kod koeficijenta determinacije sa kojim je u funkcionalnoj vezi, veća vrijednost ovog koeficijenta ukazuje da je veća proporcija objašnjene u ukupnoj varijansi i da je odabrani model pouzdaniji i reprezentativniji.

2

22

)(

)ˆ(

yy

yyrr

i

i

Page 13: Regresiona i Korelaciona Analiza.skripta

Koeficijent linearne korelacije• Odnos kovarijanse varijabli X i Y i proizvoda standardnih devijacija varijable X i varijable Y.

• Vrijednost koeficijenta linearne korelacije se nalazi između -1 i 1. • Veća vrijednost koeficijenta ukazuje na postojanje veće linearne povezanosti između promjenjljivih X

i Y.• Manja vrijednost r ne mora uvijek značiti da je slaba korelacija jer se može raditi o pogrešnoj

primjeni koeficijenta linearne korelacije za mjerenje jačine veze pojava koje nisu u linearnom odnosu.• Tumačenje:

– Za vrijednosti: -1 < r < 0 korelacija je negativna (stohastička).– Za vrijednosti: 0 < r < 1 korelacije je pozitivna (stohastička).

Za vrijednosti –1 i 1, radi se o perfektnoj negativnoj odnosno pozitivnoj korelaciji, to jeste o funkcionalnoj vezi.

Koeficijent linearne korelacije, cont.

Napomena: ako je moguće uvjek je bolje prvo testirati hipotezu H0: r=0, a tek onda komentarisati koeficijent korelacije.

Standardna greška ocjenePrema vrijednosti neobjašnjenog varijabiliteta za regresioni model određujemo standardnu grešku ocjene:

2 2

( )( )( , )

( ) ( )

i i

X Y i i

x x y yCov X Yr

x x y y

Page 14: Regresiona i Korelaciona Analiza.skripta

Standardna greška ocjene, cont.• Mjeri kvalitet i reprezentativnost ocijenjenog regresionog modela i pokazuje prosječno odstupanje

empirijskih vrijednosti zavisne varijable Y od podataka ocijenjenih regresionim modelom. • Apsolutna mjera disperzije oko regresije jer se izražava u istim jedinicama mjere kao zavisna

varijabla. • Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da

je odabrani model manje pouzdan i manje reprezentativan i obratno.

Koeficijent varijacije regresionog modela • Relativni pokazatelj kvaliteta regresionog modela• Jednak je odnosu standardne greške ocijenjenog regresionog modela i aritmetičke sredine zavisne

varijable Y:

• Veća vrijednost ovog pokazatelja ukazuje da je veća proporcija neobjašnjene u ukupnoj varijansi i da je odabrani model manje pouzdan i manje reprezentativan i obratno.

Koeficijent varijacije regresionog modela, cont.Na osnovu vrijednosti ovog koeficijenta možemo procijeniti preciznost i kvalitet ocjene na sljedeći način:

– Ako je u intervalu 7%<kv£ 10%, ocjena je relativno dosta dobra– Ako je u intervalu 4%< kv £ 7%, ocjena je dobra– Ako je u intervalu 1%< kv £ 4%, ocjena je vrlo dobra– Ako je kv £1%, ocjena je odlična.

Predviđanje• Regresioni model dobijen MNK metodom koristimo za predviđanje vrijednosti zavisne varijable na

osnovu poznate vrijednosti nezavisne varijable.• Što je:

– Viši koeficijent determinacije i korelacije– Niža standardna greška procjene– Niži koeficijent varijacije regresionog modela

to je predviđanje pouzdanije i obratno.

Predviđanje, cont.• Predviđanje na osnovu regresionog modela može biti:

1. Interpolacija – ako se dato X (vrijednost nezavisne varijable) nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

2. Ekstrapolacija – ako se dato X (vrijednost nezavisne varijable) ne nalazi u rangu vrijednosti nezavisne varijable na osnovu kojih je izveden regresioni model za predviđanje

• Interpolacija daje pouzdanije procjene od ekstrapolacije.

100ˆˆ

yk yyV

Page 15: Regresiona i Korelaciona Analiza.skripta

Primjer 1, cont.

Primjer 2, cont.Da se prisjetimo, u ovom primjeru smo pratili vezu između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

• Analizirati kvalitet (reprezentativnost) regresionog modela kojim je ocjenjena veza između godina starosti polovnog automobila tipa C i njegove tekuće prodajne cijene.

• Koliku cijenu očekujemo kod automobila starog 10 godina?

Rješenje, cont.

Page 16: Regresiona i Korelaciona Analiza.skripta

Spearmanov koeficijent korelacije ranga

• r se koristi ako imamo pojave za koje su podaci dati u obliku modaliteta rang varijable:

gdje je d razlika rangova za x i y:

• Tumačenje identično koeficijentu korelacije.

Primjer 3Dva umjetnika su ocjenjivala šest umjetničkih dijela sa ocjenama u obliku rangova 1 (najbolji) do 6 (najlošiji). U tabeli su prezentirane njihove ocjene:

Izračunati i objasniti Spearmanov koeficijent korelacije ranga.

Umjetničko djelo

Umjetnik 1 Umjetnik 2

A 6 5

B 5 6

C 1 2

D 3 1

E 4 3

F 2 4

Page 17: Regresiona i Korelaciona Analiza.skripta

Rješenje, cont.• Spearmanov koeficijent korelacije ranga je:

• Ovo ukazuje na relativno visoko direktno slaganje (66%) mišljenja dva umjetnika.

Primjer 4

a) Dijagram (oblak) rasipanja

40

5060

70

8090

100

110

120130

140

1 2 3 4 5 6 7

obim proizvodnje (000 kom)

trošk

ovi

pro

izvo

dnje

(=== K

M)

b) Linearni model jednostavne regresije – radna tabela

obim proizvodnje (000 kom) -

X

troškovi proizvodnje (000 KM)- Y

x2 xy y2

2 50 4 100 2500

3 73 9 219 5329

4 89 16 356 7921

5 110 25 550 12100

6 128 36 768 16384

Suma: 20 450

90

1993

44234

Page 18: Regresiona i Korelaciona Analiza.skripta

b) Linearni model jednostavne regresije – izračunavanje parametara

c) Koeficijent determinacije

99,76% promjena troškova izraženih varijansom duguje se uticaju obima proizvodnje.

d) Predviđanje

Ako obim proizvodnje iznosi 8.500 komada očekuju se troškovi od 176.850 KM.

Page 19: Regresiona i Korelaciona Analiza.skripta

Model višestruke ili multiple regresije• Zavisna varijabla Y je izražena kao funkcija K nezavisnih varijabli i slučajnog člana e.• Ako je funkcionalni dio modela definisan linearnom funkcijom model možemo definisati generalni

model višestruke linearne regresije za n vrijednosti sljedećim izrazom

Model višestruke ili multiple regresije, cont.Koeficijenti u regresijskom modelu imaju sljedeće značenje:

– parametar a je slobodni, konstantni član koji predstavlja očekivanu vrijednost zavisne varijable Y kada je vrijednost svih K nezavisnih varijabli (X1, X2,...,XK) jednaka nuli.

– Vrijednost ovog parametra nema uvijek logičko objašnjenje.– Parametar bi (i=1,2,....,K) ili regresioni koeficijent pokazuje prosječnu promjenu zavisne

varijable Y nastalu usljed jediničnog povećanja nezavisne varijable Xi, uz uslov da ostale nezavisne varijable ostanu nepromijenjene.

– Pozitivna vrijednost parametra bi ukazuje na proporcionalan odnos varijabli Y i Xi. – Negativna vrijednost koeficijenta bi znači obrnuto proporcionalan odnos zavisne varijable Y i

nezavisne varijable Xi.

Koeficijent multiple determinacije• Izražava jačinu veze ili slaganje varijabiliteta između zavisne varijable i zbirnog varijabiliteta K

nezavisnih varijabli

• Kvadratni korijen koeficijenta multiple determinacije je koeficijent multiple linearne korelacije

Koeficijent parcijalne korelacije

• Pokazuje jačinu i smjer veze zavisne varijable Y i j-te nezavisne varijable uz nepromijenjen uticaj preostalih (K-1) varijabli.

• Vrijednost ovog koeficijenta se kreće u granicama: (-1,1).

Analiza varijanse – ANOVA• testira kvalitet ili reprezentativnost modela• testira se da li postoji značajna veza između niza nezavisnih varijabli uključenih u model i zavisne

varijable • odnosi se na F test• hipoteza glasi:

ili makar jedna nezavisna varijabla uključena u model je značajna to jeste signifikantno utiče na zavisnu varijablu

niexbxbxbay iiKKiii ,...,2,1,...2211

10 ,)(

)ˆ( 2

2

22

,..,2,1; ,..,2,1;££

KY

Ryy

yyR

i

iKY

0 1. ... 2. ... . ... 1 . ...: ... 0 / : najmanje jedan parametar 0i i ik ijH b b b H b

Page 20: Regresiona i Korelaciona Analiza.skripta

Analiza varijanse – ANOVA, Excel• U prvoj koloni su informacije o odgovarajućem broju stepeni slobode:

gdje je k broj nezavisnih varijabli uključenih u model i n broj observacija• U drugoj koloni su rezultati o sumama kvadrata odstupanja.


Recommended