View
2
Download
0
Category
Preview:
Citation preview
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 1
Izabrane teme višestrukog KLRM
MULTIKOLINEARNOST
Zorica Mladenović
1
Struktura
Pojam i tipovi multikolinearnosti
⚫ Visoka
⚫ Perfektna
Posledice na kvalitet ONK ocena
Provera postojanja visoke multikolinearnosti
Metode otklanjanja visoke multikolinearnosti
Zorica Mladenović2
1
2
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 2
Pojam multikolinearnosti
Multikolinearnost: korelisanost između objašnjavajućihpromenljivih
Model:
Multikolinearnost se odnosi na povezanost
Model:
Multikolinearnost prati korelisanost
U izvesnoj meri multikolinearnost je uvek prisutna
Problem nastaje onda kada je ta korelisanost izuzetnovisoka
Dva tipa multikolinearnosti o kojima treba voditi računa
⚫ Perfektna
⚫ VisokaZorica Mladenović3
iiii XXY +++= 22110
iiiiii XXXXY +++++= 443322110
.X i X ii 21
.X i X ,X ,X iiii 4321
Perfektna multikolinearnost
Objašnjavajuće promenljive JESU linearnozavisne.
Narušena je 6. pretpostavka višestrukog KLRM.
Posledice:
⚫ Objašnjavajuće promenljive su perfektnokorelisane
⚫ Jedna od objaš. promenljivih se može izraziti ufunkciji od ostalih objašnjavajućih promenljivih
⚫ Parametri KLRM ne mogu da se ocene
Zorica Mladenović4
3
4
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 3
Perfektna multikolinearnost: primer
⚫ Model:
⚫ Podaci za objašnjavajuće promenljive:
⚫ Uočavamo sledeće:
⚫ Objašnjavajuće promenljive su međusobno zavisne
X1i 2 4 6 8 10 12 14 16
X2i 4 8 12 16 20 24 28 32
,...,i ,XX
XX
ii
ii
2102
2
21
12
==−
=
Zorica Mladenović
5
iiii XXY +++= 22110
Perfektna multikolinearnost: primer (II)
Koeficijent korelacije r je 1
0
5
10
15
20
25
30
35
0 2 4 6 8 10 12 14 16 18
X1
X2
6
Zorica Mladenović
1 2
1
2 2
1 2
1 1
n
i i
i
n n
i i
i i
x x
r
x x
=
= =
=
5
6
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 4
Perfektna multikolinearnost:
Parametri višestrukog modela
se ne mogu oceniti
Primenom metoda
ONK ne može se
dobiti ocena
parametra uz X1i za
r=1.
Slično se dobija i
za ocenu uz X2i
Zorica Mladenović7
=
==
==
==
==
n
ii
n
iii
n
iii
n
ii
n
ii
n
iii
n
iii
n
iii
xxx
xxx
xyx
xxyx
b
1
22
121
121
1
21
1
22
12
121
11
1
Perfektna multikolinearnost:
Parametri višestrukog modela
se ne mogu oceniti (II)
Zorica Mladenović8
1 1 2
1 1
2
2 2
1 1
1
2 2 2
1 1 2
1 1 1
2 2 2
1 2 2
1 1 1
n n
i i i i
i i
n n
i i i
i i
n n n
i i i
i i i
n n n
i i i
i i i
x y x x
x y x
b
x r x x
r x x x
= =
= =
= = =
= = =
=
7
8
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 5
Perfektna multikolinearnost:
Parametri višestrukog modela
se ne mogu oceniti (III
Zorica Mladenović9
( )
22 1 1 2 2
1 1 1 1
2 2 21 2
1 1
22 1 1 2 2
1 1 1 1
11
1 0
1
n n n n
i i i i i i ii i i i
n n
i ii i
n n n n
i i i i i i ii i i i
x x y x x x y
x x r
x x y x x x y
b
r
b
= = = =
= =
= = = =
−
−
−
=
=
=
Perfektna multikolinearnost:
opšti model
⚫ Model:
⚫ Koeficijent determinacije u modelu u kojem je,recimo, , ocenjeno u funkciji od ostalih objašnja-vajućih promenljivih je 1:
iX1
Zorica Mladenović10
iikkii vX...XX ++++= −− 112201
iikXk...iXiXiY +−−++++= 1122110
9
10
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 6
Visoka multikolinearnost
Objašnjavajuće promenljive NISU linearnozavisne, ALI SU VISOKO KORELISANE
Posledice:
⚫ Koeficijent korelacije uzima vrednost koja jebliska vrednosti 1
⚫ Parametri KLRM mogu da se dobiju
⚫ Ocene parametara su nepouzdane.
Zorica Mladenović11
Visoka multikolinearnost:
Koef. korelacije r je blizak vrednosti 1
2
4
6
8
10
12
14
16
18
0 2 4 6 8 10 12 14 16 18
X1
X2
Zorica Mladenović
12
11
12
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 7
Slučajevi perfektne/visoke multikolinearnosti
Skup objašnjavajućih promenljivih čine:
⚫ Ista nominalna i realna veličina
• Primer: nominalna i realna kamatna stopa (realna
kamatna stopa je količnih nominalne stope i
indeksa troškova života)
⚫ Ista promenljiva u tekućem i prethodnim
periodima
• Primer: Xt, Xt-1, Xt-2, Xt-3, Xt-4,...
Zorica Mladenović13
Slučajevi perfektne/visoke multikolinearnosti
Model zavisnosti:
⚫ Potrošnje domaćinstva od dohotka i bogatstva
⚫ Tražnje datog proizvoda od raspoloživog dohotka,
njegove cene i cene konkurentnih proizvoda
⚫ Potrošnje pojedinca od dohotka i godina školovanja
⚫ Inflacije od deprecijacije valute i stope rasta novca
⚫ Izvoza od realnih jediničnih troškova rada i realnog
deviznog kursa
Zorica Mladenović14
13
14
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 8
Posledice visoke multikolinearnosti
Ocene regresionih parametara su neprecizne u
smislu visokih standardnih grešaka ocena
Ocene su nestabilne - osetljive na promenu
uzorka i specifikaciju modela
t-odnosi su niski i mogu dovesti do pogrešnog
statističkog zaključka
• t-odnos=ocena/(standardna greška ocene)
Intervalne ocene parametara su neprecizne
• Ocena (standardna greška ocene)*(krit.vred. t-stat.)
Visoka vrednost koeficijenta determinacije je
praćena niskim t-odnosimaZorica Mladenović
15
Zašto su ocene neprecizne?
Zorica Mladenović16
( ) ( )
=
−
=
−
=
==
=
==
n
ii
n
ii
n
iii
n
ii
n
ii
xx
xx
r
xr
)b(v ,
xr
)b(v
1
22
1
21
121
1
22
2
2
2
1
21
2
2
1
11
•U modelu sa 2 objašnjavajuće
promenljive varijanse ocena
parcijalnih koeficijenata nagiba
su:
•U slučaju visoke
multikolinearnosti r2 dovodi do
redukcije vrednosti imenioca i
povećanja vrednosti varijansi
ocena
15
16
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 9
Zašto su ocena neprecizne? (II)
U modelu sa većim brojem objašnjavajućih
promenljivih varijanse ocene parcijalnih koeficijenata
nagiba su:
U slučaju visoke multikolinearnosti koeficijent
determinacije utiče na smanjenje vrednosti
imenioca i povećanje vrednosti varijansi ocena
( )( ) ( )
2
22
1
2
1
1
koeficijent determinacije iz modela zavisnosti
na ostale nezavisne promenljive u modelu
1,2 3 1
j
ji j
ji
v bR X X
R X
j , ,...,k
=
− −
−
= −
21R
Zorica Mladenović17
Ispitivanje postojanja multikolinearnosti
Reč je o problemu uzorka
Ne može se postaviti odgovarajući skuphipoteza, a time ni definisati precizan test
Najčešće korišćeni pristupi:
1. Izračunavanje (i dodatna analiza)koeficijenta korelacije izmeđuobjašnjavajućih promenljivih
2. Izračunavanje faktora rasta varijanse
Zorica Mladenović18
17
18
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 10
1. Koeficijent korelacije r između
objašnjavajućih promenljivih
Ako je vrednost r veća od 0.80/0.85/0.90 očekujemoda je multikolinearnost visoka.
Zaključivanje je u izvesnoj meri proizvoljno, jerzavisi od tipa podataka i obima uzorka.
Dodatna analiza
Upoređivanje r sa koeficijentom korelacije između Yi X1 (rYX1) i Y i X2 (rYX2) .
Ako je vrednost r veća od vrednosti rYX1 i (ili)vrednosti rYX2 , tada je multikolinearnost visoka.
Upoređivanje r2 sa R2 iz cele regresije.
Ako je r2 veće od R2, onda je multikolinearnostvisoka.
Zorica Mladenović
1. Koeficijent korelacije r između
objašnjavajućih promenljivih: modifikacija
Upoređuje se korigovani koeficijent determinaciječitave regresije sa korigovanim koeficijentomdeterminacije u pomoćnom modelu u kojem se jednaobjašnjavajuća promenljiva ocenjuje u zavisnosti odostalih objašnjavajućih promenljivih
Korisno kod modela sa većim brojem objašnjavajućihpromenljivih
Veća vrednost korigovanog koeficijenta determinacije upomoćnom modelu je signal izražene multikolinearnosti
2 2
0 1 1 2 2 3 3
2 2
1 0 2 2 3 3 1 1
2 2
1
, ,
, , - pomoćni model
multikolinearnost je visoka
i i i i i
i i i i
Y X X X R R
X X X v R R
R R
= + + + +
= + + +
Zorica Mladenović
20
19
20
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 11
2. Faktor rasta varijanse
o Oznaka: FRV
o Engl. skraćenica: VIF (variance inflation factor)
o To je pokazatelj prirasta varijanse ocene parcijalnogkoeficijenta nagiba zbog uključivanja dodatneobjašnjavajuće promenljive
o Formula:
( )
( )
2
2
2
1
1
blisko 1 0
multikolinearnost nije izražena
uzima visoke vrednosti 1
multikolinearnost je izražena
FRVr
FRV r
FRV r
=−
21
FRV – neke vrednostiFRV
0 1
0.20 1.25
0.40 1.67
0.80 5
0.90 10
0.950 20
0.975 40
0.990 100
0.999 1000
2r
FRV veće od 10 uzima se kao znak izrazito visoke
multikolinearnosti Zorica Mladenović
22
21
22
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 12
FRV – model sa 2 objašnjavajuće
promenljive
( )( )
( )
( )( )
0 1 1 2 2
0 1 1
2
12 2
111
2 2211
12
1
1
2
1
1 0 2 2
2 2
1
:
:
11 1
.1 1
je koeficijent determinacije iz modela:
: K
II II II II
i i i i
I I I
i i i
II
n
IIi
i
II
n
i
i
i i i
II Y X X
I Y X
v b
r xv b
FRVr Rv b
v b
x
R
X X v
R r
NAPOMENA
=
=
= + + +
= + +
=
− = = =
− −=
= + +
=
vadrat koeficijenta korelacije je jednak
koeficijentu determinacije u jednostavnom modelu 23
FRV – model sa 3 objašnjavajuće
promenljive
( )( )
( )
( )( )
1
0 1 1 2 2 3 3
0 1 1
2
12 2
111
2211
12
1
1
2
1
1 0 2 2 3 3
:
:
11
.1
je koeficijent determinacije iz modela:
III III III III III
i i i i i
I I I
i i i
III
n
IIIi
i
II
n
i
i
i i i i
III Y X X X
I Y X
v b
R xv b
FRVRv b
v b
x
R
X X X v
=
=
= + + + +
= + +
=
− = =
−=
= + + +
Zorica Mladenović24
23
24
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 13
Kako rešiti problem visoke
multikolinearnosti?
1. Promena uzorka dodavanjem novih podataka
⚫ Veći obim uzorka smanjuje varijanse ocene
parametara.
⚫ Ne znači da će se time multikolinearnost
eliminisati.
Zorica Mladenović25
Kako rešiti problem visoke
multikolinearnosti? (II)
2. Upotreba spoljnih ocena (apriori definisana veza izmeđuparametara - postulirana teorijska veza izmeđuparametara modela)
Primer: ocenjuje se zavisnost tražnje za pivom (Y) odnjegove cene (X1), cene žestokih pića (X2), cene ostalihproizvoda i usluga (X3) i dohotka (X4), na osnovu log-logmodela:
Parcijalni koeficijenti nagiba su parcijalni elasticiteti.
Pretpostavimo da jednoprocentno pojedinačno povećanjesvih cena i dohotka ne menja tražnju.
Teorijska veza:
iiiiii XlnXlnXlnXlnYln +++++= 443322110
.04321 =+++
Zorica Mladenović26
25
26
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 14
Kako rešiti problem visoke
multikolinearnosti? (III)
⚫ Primer – nastavak
⚫ Ocenjuje se model sa manje promenljivih
⚫ Objašnjavajuće promenljive su transformisane
(relativne cene i realni dohodak)
⚫ Nametnuto ograničenje treba prethodno proveriti
testiranjem (u nastavku predavanja).
( )
( ) ( ) ( )
ii
i
i
i
i
ii
iiiiiiii
iiiiii
iiiiii
X
Xln
X
Xln
X
XlnYln
XlnXlnXlnXlnXlnXlnYln
XlnXlnXlnXlnYln
XlnXlnXlnXlnYln
+
+
+
+=
+−+−+−+=
++−−−+++=
+++++=
−−−==+++
3
44
3
22
3
110
3443223110
44342122110
443322110
42134321 0
Zorica Mladenović
27
Kako rešiti problem visoke
multikolinearnosti? (IV)
3. Transformacija polaznih podataka
1. Svi podaci se dele sa promenljivom koja generiše
problem (slično prethodnom primeru)
2. Koriste se prve diference promenljivih
⚫ Ovako transformisane objašnjavajuće promenljive
su obično slabije korelisane od polaznih
⚫ Svaki od navedenih pristupa može rešiti problem
visoke multikolinearnosti, ali i stvoriti neki novi
problem.
Zorica Mladenović28
27
28
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 15
Kako rešiti problem visoke
multikolinearnosti? (V)
0
0 1 1 2 22
10 1 2
2 2 2 2
0 1 1 2 2
*
1 1 2 2
3.1. Umesto
:
ocenjuje se
1heteroskedastičnost
3.2. Umesto
ocenjuje se
autokorelaci
i i i ii
i i i
i i i i
t t t t
t t t t
Y X XX
Y X
X X X X
Y X X
Y X X
= + + +
= + + +
= + + +
= + + +
1
1
ja
, itd.t t t
t t t
Y Y Y
−
−
= −
= −Zorica Mladenović
29
Kako rešiti problem visoke
multikolinearnosti? (VI)
4. Izostavljanje promenljive koja stvara problem
⚫ Pristup kojim se menja smisao i ideja modela
⚫ Eliminisanje promenljive zbog multikolinearnosti
znači grešku u postavci modela – izostavljanje
relevantne promenljive.
⚫ “Defetistički” pristup
Zorica Mladenović30
29
30
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 16
31
Ilustracija 1. Primer 7.1. Udžbenik Potrošnja, Y 22 10 14 15 10 10 15 18 14 15
Dohodak, X1 36 12 16 18 17 14 20 23 15 18
Bogatstvo, X2 144 47 63 70 67 52 79 90 58 70
( ) ( )
( )
( )
595
68700220
12301745
745
80420880
50507654
200
68708042
9990137006213364
2
1
21
.t
. od manje put 31 oko .
0.800R ,X..Y
.t
. od manje puta 32 oko .
0.803R ,X..Y
.t 0.38t
. .
14.45F,.r 0.805,R ,X. - X..Y
2b
2ii
1b
2ii
2b1b
500.25FRV
2iii
=
→
=+=
=
→
=+=
−==
===+=
=
32
Ilustracija 2. (Studenmund, 2006)
Modelira se tražnja za benzinom u SAD prema podacima
za svaku od 50 saveznih država. Podaci se odnose na
jednu godinu (n=50).
Reč je o sledećim veličinama:
⚫ Potrošnja benzina (Y1i)
⚫ Dužina asfaltiranog puta (X1i)
⚫ Taksa na benzin (X2i)
⚫ Broj registrovanih automobila (X3i)
Ocenjen je model
2
1 2 3ˆ 389.57 60.76 -36 47 0.06 , R 0.92419
(10.26) (13.15) (0.04)
t-odnosi 5.92 -2.77 -1.50
i i i iY X . X X= + − =
31
32
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 17
33
Ilustracija 2. (II)
Na osnovu ocene svih korelacionih koeficijenata
zaključujemo da postoji visoka multikolinearnost između
promenljivih X1i i X3i .
Sve ocene su sadržane u tzv. korelacionoj matrici:
Ocenjene su dve nove zavisnosti u kojima je izostavljena
po jedna od dve visoko korelisane nezavisne veličine
Y X1 X2 X3
Y 1.00000
X1 0.95156 1.00000
X2 -0.38614 -0.28085 1.00000 -0.24219
X3 0.91522 0.97864 -0.24219 1.00000
34
Ilustracija 2. (III)
3
2
1 2
1
2
2 3
Izostavljena promenljiva :
ˆ 410.02 46.39 -39 59 , R 0.917
(2.17) (13.12)
Izostavljena promenljiva :
ˆ 551.69 -53 59 0.19 , R 0.861
i
i i i
i
i i i
X
Y X . X
X
Y . X X
= + =
= + =
2
1 2 3
(16.86) (0.01)
Polazna zavisnost:
ˆ 389.57 60.76 -36 47 0.06 , R 0.917
(10.26) (13.15) (0.04)
i i i iY X . X X= + − =
33
34
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 18
35
Zadatak 25. Zbirka
Ocenjujemo zavisnost potrošnje od dohotka i bogatstva
10 porodica.
a) Ocenite parametre višestruke regresije i testirati njen
kvalitet t i F testom.
b) Kako zaključujete da u modelu postoji problem visoke
multikolinearnosti?
c) Ocenite dve pojedinačne zavisnosti. Uporediti
dobijene rezultate (prevashodno standardne greške
ocena) i objasniti ih. Potrošnja, Y 32 11 15 17 16 13 18 20 14 17
Dohodak, X1 36 12 16 18 17 14 20 23 15 18
Bogatstvo, X2 144 47 63 70 67 52 79 90 58 70
Zadatak 25: potrebne sume centriranih
vrednosti
10 102 2
1 2
1 1
10 10
1 2 1
1 1
10 102
2
1 1
1 2
410.9; 6852;
1677; 350.3;
1430; 300.1.
17.30, 18.9, 74
i i
i i
i i i i
i i
i i i
i i
x x
x x x y
x y y
Y X X
= =
= =
= =
= =
= =
= =
= = =
35
36
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 19
Zorica Mladenović37
Dependent Variable: Y
Method: Least Squares
Date: 03/31/19 Time: 11:44
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 1.320381 0.682305 1.935178 0.0942
X1 0.679460 0.670155 1.013885 0.3444
X2 0.042403 0.164110 0.258381 0.8035
R-squared 0.995172 Mean dependent var 17.30000
Adjusted R-squared 0.993793 S.D. dependent var 5.774465
S.E. of regression 0.454945 Akaike info criterion 1.506045
Sum squared resid 1.448825 Schwarz criterion 1.596820
Log likelihood -4.530225 Hannan-Quinn criter. 1.406464
F-statistic 721.4667 Durbin-Watson stat 1.449281
Prob(F-statistic) 0.000000
Zadatak 25: dvostruki model
Dependent Variable: Y
Method: Least Squares
Date: 03/31/19 Time: 11:45
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 1.187394 0.420980 2.820548 0.0225
X1 0.852519 0.021094 40.41549 0.0000
R-squared 0.995126 Mean dependent var 17.30000
Adjusted R-squared 0.994517 S.D. dependent var 5.774465
S.E. of regression 0.427587 Akaike info criterion 1.315537
Sum squared resid 1.462643 Schwarz criterion 1.376054
Log likelihood -4.577685 Hannan-Quinn criter. 1.249150
F-statistic 1633.412 Durbin-Watson stat 1.460477
Prob(F-statistic) 0.000000
Zorica Mladenović38
Zadatak 25: jednostavni model I
37
38
Profesor Zorica Mladenović
Ekonomski fakultet, 2019 20
Zorica Mladenović39
Dependent Variable: Y
Method: Least Squares
Date: 03/31/19 Time: 11:46
Sample: 1 10
Included observations: 10
Variable Coefficient Std. Error t-Statistic Prob.
C 1.856334 0.432156 4.295517 0.0026
X2 0.208698 0.005506 37.90624 0.0000
R-squared 0.994463 Mean dependent var 17.30000
Adjusted R-squared 0.993771 S.D. dependent var 5.774465
S.E. of regression 0.455739 Akaike info criterion 1.443066
Sum squared resid 1.661588 Schwarz criterion 1.503583
Log likelihood -5.215328 Hannan-Quinn criter. 1.376679
F-statistic 1436.883 Durbin-Watson stat 1.596286
Prob(F-statistic) 0.000000
Zadatak 25: jednostavni model II
39
Recommended