View
328
Download
2
Category
Preview:
Citation preview
MODELUL DE REGRESIE LINIAR MULTIFACTORIAL
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
Exemple:
1. În medie ne-am aştepta ca la un nivel mai ridicat de educaţie,
nivelul venitului să crească:
venit = 1 + 2educaţie +
Însă venitul depinde şi de vârstă: venit = 1 + 2educaţie +3vârstă +
2. (funcţia Cobb Douglas): Producţia = f(capital, forţă de muncă) +
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
3. În analiza raportului dintre cererea şi oferta unui produs vom putea studia cantitatea cerută pentru un anumit produs numai în funcţie de preţ, stabilind astfel un model simplu de regresie:
qt = + ·pt + t,
unde qt reprezintă cantitatea cerută, pt este preţul unitar, iar t este o variabilă reziduală ce cuantifică influenţa altor variabile asupra cererii.
Cererea dintr-un anumit produs este influenţată într-o mare măsură şi de alţi factori, precum calitatea produselor, veniturile disponibile etc.
Vom reprezenta, de exemplu, în acest caz modelul de regresie prin următoarea relaţie:
qt = + ·pt + t+ t,
unde în plus faţă de modelul anterior t cuantificã venitul disponibil al populatiei.
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
În multe situaţii, variabila rezultativă supusă studiului este determinată de mai mulţi factori de influenţă
Modelul regresiei multiple se prezintă sub forma ecuaţiei:y = 1x1 + 2x2 + … + kxk + .
În cazul acestei ecuaţii de regresie se identifică urmãtoarele variabilele: grupul de variabile exogene sau independente, ce se reprezintă sub
forma variabilei vectoriale X = (X1, X2, …, Xk ). o variabilă endogenă, notată prin Y.
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
Se realizează o selecţie de volum n Pentru fiecare unitate i vom avea seria de valori xi1, xi2, …, xik Pentru fiecare variabilă ansamblul datelor observate pentru cele n unităti vor fi
reprezentate prin vectorul coloană xi cu i=1,…k Ansamblul datelor pentru variabilele exogene vor fi prezentate sub forma
matricei:
În cazul modelului liniar de regresie cu termen liber prima coloană a matricei de mai sus este in fapt egală cu un vector cu n elemente egale cu 1. Vom scrie în
acest caz x1=1, unde 1=
11 21 1
12 22 21 2 ( , )
1 2
...
..., ,..., .
.... .... .... ....
...
k
kk n k
n n kn
x x x
x x xX x x x M
x x x
1
1
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
Pentru cele n unităti sunt înregistrate valorile y1, y2, …, yn, ce reprezintă elementele vectorului coloană y, deci valorile variabilei endogene vor fi reprezentate prin:
Cu notaţiile de mai sus vom scrie modelul de regresie prin următoarea ecuaţie:
y = 1x1 + 2x2 + … + kxk + .
ny
y
y
2
1
y
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
este vectorul coloană al parametrilor βj, j=1,…,k
de dimensiune (k,1).
vectorul coloană al variabilei aleatoare, de dimensiune (n,1)
Modelul liniar multifactorial se scrie:
Y = X +
k
...
2
1
n
...
2
1
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
Y
X1
X2
Variaţia explicată de X1 şi X2
Variaţia explicată de X1
Variaţia explicată de X2
Variaţia neexplicată de X1 sau X2
1. Specificarea, definirea şi identificarea modelului liniar multifactorial
Y
X1 X2
2. Ipotezele modelului liniar multifactorial
1. Y = X +
2. Media zero a erorilor: μ()=0 μ(Y) = X
3. Homoscedasticitatea: cov(’)=2I
4. Necorelarea între variabila independentă şi erori: cov(,X)=0
5. Matricea X este de rang k cu coloane independente două câte două
6. Normalitatea erorilor: N(0,2I)
Estimarea parametrilor prin MCMMP
Minimizăm suma pătratelor erorilor de ajustare:
Folosind scrierea matriceală:
Minimizarea lui S se realizează în raport cu parametrii modelului de regresie Astfel, vom avea:
În dezvoltarea ultimei expresii s-a luat în considerare faptul că este un scalar real.
2 21 1 2 2
ˆ ˆ ˆ ˆ( ) ( ... )i i i i k kii i
S e y x x x i
iy .)'ˆ( 2ix
1
221 2
1
ˆ( ) ( ... ) 'n
i ni
n
e
eS e e e e
e
e e
ˆ
ˆ ˆ ˆ ˆ ˆ ˆ[min] ( ) ' ( ) '( ) ' ' ' ' .2 'S e e Y X Y X Y Y X Y X X
ˆ ' 'X Y
Estimarea parametrilor prin MCMMP
Derivînd în raport cu avem:
Din ipoteza V matricea X’X este nesingulară, deci estimatorul vectorului parametrilor modelului de regresie multiplă este:
Dar atunci
Ultima expresie este pozitiv definită, deci soluţia este optimă.
ˆ ˆ ˆ ˆ ˆ ˆ( ) [ ' 2 ' ' ' ' ] [ ' ' ] ˆ2 ' 2 ' 2 ' 0ˆ ˆ ˆ
S Y Y X Y X X X XX Y X Y X X
.1ˆ ( ' ) 'X X X Y ˆ( ) ˆ2 ' 2 '
ˆS
X Y X X
XX
S'2
'ˆˆ)ˆ(2
Interpretarea parametrilor
Considerăm modelul:
Atunci, dacă x2, … xk sunt constante se obţine următoarea egalitate:
Interpretare
este rata marginală de substituţie a variabilei endogene în raport cu variabila exogenă X1
arată cu câte unităţi creşte sau se micşorează caracteristica Y, dacă caracteristica X1 se modifică cu x1i unităţi, în condiţiile în care celelalte caracteristici X2, …, Xp rămân constante.
În cazul în care variabilele endogene sunt necorelate, atunci semnul coeficientului fiecărei variabile din modelul multiplu de regresie coincide cu semnul coeficientului din modelul simplu de regresie de analiză al variabilei endogene funcţie de fiecare variabilă exogenă în parte.
1 1 2 2ˆ ˆ ˆ... .i i i k kiy x x x
ii xy 11i
i
x
y
11
1
3. Estimarea parametrilor modelului liniar multifactorial
Modelul de regresie în eşantion în formă matricială este:
Y = XB + E
Estimatorii parametrilor se determină după relatia:
Valorile previzionate:
Erorile:
YXXXB ')'( 1
XBY ˆ
YYE ˆ
Verificarea validităţii modelului multifactorial de regresie liniară
I. Testarea validităţii modelului de regresie folosind metoda analizei de varianţă
II. Determinarea măsurii calităţii ajustării şi intensităţii legăturii între variabile
III. Testarea parametrilor modelului de regresie
IV. Verificarea ipotezelor modelului de regresie
I. Testarea validităţii modelului de regresie folosind metoda analizei de varianţă
Ipotezele testate:
H0: (influenţa variabilelor X nu este diferită de cea a factorilor
aleatori, deci modelul nu poate fi validat)
H1: (influenţa variabilelor exogene X este semnificativ mai mare decât cea a factorilor aleatori)
Testul statistic F (Fisher):
Regula de decizie: Dacă Fcalc≤ Fα,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este
semnificativ statistic; Dacă Fcalc> Fα,k,n-k-1, atunci se respinge H0, se acceptă H1, deci
modelul este semnificativ statistic (valid).
1/ 22/ exy ss
1/ 22/ exy ss
1
ˆ:
ˆ 22
2
2/
kn
yy
k
yy
s
sF iii
e
xy
I. Testarea validităţii modelului de regresie folosind metoda analizei de varianţă
ANOVA
Sursa variaţiei
Varianţa (suma pătratelor)
Gradele de libertate
Dispersia corectată (media pătratelor)
Statistica F
Datorată regresiei (explicată de model)
Reziduală(neexplicată de model)
k
n-k-1
Totală
n-1–
n
iiy yyS
1
2)(
n
iixy yyS
1
2/ )ˆ(
n
iiie yyS
1
2)ˆ(
k
Ss
xyxy
/2/
12
kn
Ss ee
12
n
Ss
yy
2
2/
e
xy
s
sF
II. Determinarea măsurii calităţii ajustării
Pentru a măsura calitatea ajustării în cazul regresiei liniare multifactoriale se calculează: Coeficientul de determinaţie (indicator relativ) Abaterea medie pătratică (eroarea standard) a
reziduurilor (măsură absolută a calităţii ajustării pe baza regresiei în eşantion)
Coeficientii liniari de regresie parţială
II. Determinarea măsurii calităţii ajustării
Coeficientul de determinaţie:
ia valori în intervalul [0,1] Este o măsură a proporţiei varianţei explicate de model Măsoară intensitatea dependenţei variabilei endogene de factorii de
regresie (variabilele exogene) Valoarea coeficientului de determinaţie sporeşte odată cu creşterea
numărului variabilelor exogene folosite în definirea modelului de regresie
Coeficientul de determinaţie ajustat: se ajustează coeficientul de determinaţie cu gradele de libertate
este întotdeauna mai mic decât coeficientul de determinaţie
y
e
y
xy
S
S
S
SR 1/2
2
22 1
)1/(
)1/(1
y
e
y
e
s
s
nS
knSR
II. Determinarea măsurii calităţii ajustării
Abaterea medie pătratică a erorilor în eşantion este:
1
ˆ
11
2
2
kn
yy
kn
Sss
n
iii
eee
unde este un estimator nedeplasat al dispersiei reziduurilorse este util în compararea modelelor. Dacă avem la dispoziţie câteva modele dintre care trebuie să alegem, cel mai potrivit a fi utilizat este cel pentru care se este mai scăzut.
2es
2
II. Determinarea măsurii calităţii ajustării
Corelaţia parţială în eşantion:
Studiază intensitatea dependenței dintre variabila endogenă și o parte din variabilele exogene, în condițiile în care celelalte sunt cu acțiune constantă
În cazul a trei variabile y, x1 și x2 coeficientul corelației
parțiale dintre y și x1 când x2 rămâne constant se
calculează după relația:
)1)(1( 22,
212
2121
21
xxyx
xxyxyxxyx
rr
rrrr
Exemplu: Dacă se consideră modelul de regresie
yt=1x1t+ 2x2t + t
sunt reținute următoarele posibilități pentru caracterizarea
gradului de dependență a caracteristicii endogene de variabilele
exogene ce definesc acest model:
Folosind coeficientul de determinare
Măsurând variația caracteristicii endogene explicată de fiecare variabilă exogenă prin coeficienții de coelație: ry/x1, ry/x2
Măsurând variația variabilei endogene sub influența a două variabile exogene în condițiile în care a treia variabilă este considerată cu acțiune constantă: ry/x1,X2, ry/x2,x1
II. Determinarea măsurii calităţii ajustării
III. Testarea parametrilor modelului de regresie
Testarea parametrilor modelului de regresie
Ipotezele:
Testul statistic: unde
Regula de decizie: se respinge H0, deci parametrul i este
seminificativ
0:
0:
1
0
i
i
H
H
ii b
i
b
ii
s
b
s
bt
12
2
2
2
2 )'(...
2
1
XXdiags
s
s
s
s e
b
b
b
B
k
1,2/ kncalc tt
1,2/ kncalc tt
Ipoteza de non multicolinearitate
Multicolinearitatea în sens restrâns:
Multicolinearitatea în sens larg:
0...2211 ppxxx
0...2211 ippxxx
Cauze de apariţie a multicolinearităţii
Metoda de colectare a datelor: în cazul în care datele nu au fost observate complet aleator, ori au fost excluse anumite grupuri de indivizi din eşantion, poate apare fenomenul de multicolinearitate a variabilelor observate, fără ca acesta să fie real;
Restricţiile asupra modelului sau asupra populaţiei eşantionate: în cazul unor restricţii care elimină indivizii ce diferenţiază variabilele observate, apare multicolinearitatea variabilelor;
Specificarea modelului
Model supradeterminat: în cazul în care un model are mai multe variabile explicative decât observaţii.
Ipoteza de non multicolinearitate
Consecințele multicolinearității
Dacă există multicolinearitate perfectă det(X’X)=0 şi nu se poate
defini inversa matricei X’X, deci nu pot fi determinaţi estimatorii
coeficienţilor de regresie.
În cazul unei multicolinearităţi puternice dar nu perfecte,
determinantul matricei X’X nu va fi identic zero, dar va tinde către
zero. Componentele matricei X’X vor tinde către infinit, deci şi
variaţia estimatorilor parametrilor de regresie va tinde către infinit.
Ipoteza de non multicolinearitate
Depistarea multicolinearităţii Criteriul Klein
Pentru modelul de regresie complet se calculează raportul de corelaţie Ry2
Se determină matricea de corelaţie liniară a variabilelor exogene:
Două variabile exogene xi şi xj sunt coliniare dacă:
Criteriul factorului de inflaţie
Se regresează fiecare variabilă exogenă (j) în funcţie de toate celelalte
variabile exogene, notându-se cu coeficientul de determinare.
Se calculează factorul de inflaţie:
Dacă Fij este foarte mare există fenomenul de multicolinearitate datorat
variabilei j
njixx ji
r,1,/
ji xxy rR /2
21
1
jj R
FI
2jR
Ipoteza de non multicolinearitate
Eliminarea fenomenului de multicolinearitate Partiţionarea matricei variabilelor exogene
În cazul apariţiei multicolinearităţii, după determinarea variabilelor exogene ce
conduc la aceasta, se va partiţiona matricea variabilelor explicative X, în două
submatrice cu coloanele liniar independente (variabilele corelate sunt separate în submatrici diferite) : X=(Xm, Xp-m).
Se consideră modelul de regresie, în care sunt incluse variabilele exogene din
prima matrice:
y=Xmm+m
Se estimează parametrii modelului anterior şi se calculează:
Se consideră apoi modelul de regresie, cu variabilele exogene din a doua matrice:
y*=Xrr+r
Se estimează parametrii acestui nou model de regresie.
mmXyy *
Ipoteza de non multicolinearitate
Eliminarea mecanică a multicolinearităţii În cazul unei multicolinearităţi puternice, cea mai simplă metodă ar fi
eliminarea câte uneia din variabilele corelate. Însă prin eliminarea unei
variabile explicative din model se produce o eroare de specificare.
Transformarea variabilelor Pentru reducerea multicolinearităţii, în cazul seriilor temporale, se apelează
adesea la transformarea variabilelor iniţiale, folosind diferenţele de ordinul
întâi.
Astfel în locul modelului general:
se vor estima parametrii modelului:
tptptt uxxy ...110
1111111 )(...)( ttptptptttt uuxxxxyy
Ipoteza de non multicolinearitate
Estimarea valorilor variabilei dependente
01'
01,2/0 '1ˆ XXXXsty ekn
ˆ0xY
Valoarea punctuală previzionată atunci când elementele vectorului x0 sunt fixate este:
Intervalul de încredere pentru valoarea previzionată este:
Exemplu
Se consideră modelul de regresie liniară ce descrie legătura între: variabila endogenă: ritmul anual de modificare a
consumului final (yi) variabilele exogene: ritmul anual de creştere a
câştigului salarial mediu (x1i) şi rata inflaţiei (x2i)
AnRata
inflaţieiRitmul anual de creştere a
salariului mediuRitmul anual de modificare a consumului
final
1995 32,3 48,9 10,8
1996 38,8 51,9 7
1997 155 96,8 -4,3
1998 59,1 64,9 1,1
1999 45,8 46,1 -2,5
2000 45,7 62,8 1,4
2001 34,5 41,2 6,3
2002 22,5 25,5 4,9
2003 15,3 27,7 6,9
2004 11,9 23,3 10,3
Exemplu
Fie modelul liniar multifactorial de regresie:
Se fac n=13 observatii asupra celor trei variabile si se obtin matricile:
Sa se determine estimatorii parametrilor ecuatiei de regresie si sa se previzioneze ecuatia de regresie pentru x1=64 si x2=23
ii xxy 2211
43438452205
845219828452
20545213
'XX
38769
82495
2034
'YX
Exemplu:Nr.
familii (X1)
Supr.comerciala (X2)
Cifra de afaceri (Y)
70 21 19835 26 20955 14 19725 10 15628 12 8543 20 18715 5 4333 28 21123 9 1204 6 6245 10 176
Exemplu – rezultate Excel:
Regression Statistics Multiple R (R) 0,9251 R Square (R2) 0,8558 Adjusted R Square 0,8270 Standard Error (se) 27,8500 Observations (n) 13
Interpretări: R : legătura dintre Xi şi Y este puternică. R2 : 85,6% din variaţia lui Y este determinată de influenţa lui X1,X2 (este explicată de model)
Exemplu – rezultate Excel:ANOVA
df SS MS F Significance F
Regression k = 2 2
/ xy = 46033,02 2/ xys = 23016,51 Fcalc = 29,67 0,00006234
Residual n-k-1 = 10 2e = 7756,21 2
es = 775,62
Total n-1 = 12 2y = 53789,23
Interpretări: Modelul de regresie este semnificativ statistic (valid) (adică se acceptă H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%
Exemplu – rezultate Excel:
Coefficients Standard
Error t Stat P-value Lower 95%
Upper 95%
Intercept a =
37,5023 sa =
17,6461
calct =
2,1252 0,059496 -1,82 76,82
Nr. familii b1 =
1,4963 sb1 =
0,5534
1calct =
2,7039 0,022165 0,26 2,73
Supr.com b2 =
4,2446 sb2 =
1,0650
2calct =
3,9856 0,002578 1,87 6,62
Interpretări: Parametrul α nu este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-5,95=94,05%<95%. 82,7682,1
Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%
73,226,0
Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%
62,687,1
RESIDUAL OUTPUT
Observation Predicted Cifra
afaceri Residuals 1 231,38 -33,38 2 200,23 8,77 3 179,22 17,78 4 117,36 38,64 5 130,33 -45,33 6 186,74 0,26 7 81,17 -38,17 8 205,73 5,27 9 110,12 9,88
10 68,96 -6,96 11 147,28 28,72 12 101,39 15,61 13 274,10 -1,10
Exemplu – rezultate Excel:
Recommended