035_prezentare Curs 9 Regresie Multi Factorial A

MODELUL DE REGRESIE LINIAR MULTIFACTORIAL

1. Specificarea, definirea şi identificarea modelului liniar multifactorial

Exemple:

1. În medie ne-am aştepta ca la un nivel mai ridicat de educaţie,

nivelul venitului să crească:

venit = 1 + 2educaţie +

Însă venitul depinde şi de vârstă: venit = 1 + 2educaţie +3vârstă +

2. (funcţia Cobb Douglas): Producţia = f(capital, forţă de muncă) +

3. În analiza raportului dintre cererea şi oferta unui produs vom putea studia cantitatea cerută pentru un anumit produs numai în funcţie de preţ, stabilind astfel un model simplu de regresie:

qt = + ·pt + t,

unde qt reprezintă cantitatea cerută, pt este preţul unitar, iar t este o variabilă reziduală ce cuantifică influenţa altor variabile asupra cererii.

Cererea dintr-un anumit produs este influenţată într-o mare măsură şi de alţi factori, precum calitatea produselor, veniturile disponibile etc.

Vom reprezenta, de exemplu, în acest caz modelul de regresie prin următoarea relaţie:

qt = + ·pt + t+ t,

unde în plus faţă de modelul anterior t cuantificã venitul disponibil al populatiei.

În multe situaţii, variabila rezultativă supusă studiului este determinată de mai mulţi factori de influenţă

Modelul regresiei multiple se prezintă sub forma ecuaţiei:y = 1x1 + 2x2 + … + kxk + .

În cazul acestei ecuaţii de regresie se identifică urmãtoarele variabilele: grupul de variabile exogene sau independente, ce se reprezintă sub

forma variabilei vectoriale X = (X1, X2, …, Xk ). o variabilă endogenă, notată prin Y.

Se realizează o selecţie de volum n Pentru fiecare unitate i vom avea seria de valori xi1, xi2, …, xik Pentru fiecare variabilă ansamblul datelor observate pentru cele n unităti vor fi

reprezentate prin vectorul coloană xi cu i=1,…k Ansamblul datelor pentru variabilele exogene vor fi prezentate sub forma

matricei:

În cazul modelului liniar de regresie cu termen liber prima coloană a matricei de mai sus este in fapt egală cu un vector cu n elemente egale cu 1. Vom scrie în

acest caz x1=1, unde 1=

11 21 1

12 22 21 2 ( , )

..., ,..., .

.... .... .... ....

kk n k

n n kn

x x xX x x x M

Pentru cele n unităti sunt înregistrate valorile y1, y2, …, yn, ce reprezintă elementele vectorului coloană y, deci valorile variabilei endogene vor fi reprezentate prin:

Cu notaţiile de mai sus vom scrie modelul de regresie prin următoarea ecuaţie:

y = 1x1 + 2x2 + … + kxk + .

este vectorul coloană al parametrilor βj, j=1,…,k

de dimensiune (k,1).

vectorul coloană al variabilei aleatoare, de dimensiune (n,1)

Modelul liniar multifactorial se scrie:

Y = X +

Variaţia explicată de X1 şi X2

Variaţia explicată de X1

Variaţia explicată de X2

Variaţia neexplicată de X1 sau X2

2. Ipotezele modelului liniar multifactorial

1. Y = X +

2. Media zero a erorilor: μ()=0 μ(Y) = X

3. Homoscedasticitatea: cov(’)=2I

4. Necorelarea între variabila independentă şi erori: cov(,X)=0

5. Matricea X este de rang k cu coloane independente două câte două

6. Normalitatea erorilor: N(0,2I)

Estimarea parametrilor prin MCMMP

Minimizăm suma pătratelor erorilor de ajustare:

Folosind scrierea matriceală:

Minimizarea lui S se realizează în raport cu parametrii modelului de regresie Astfel, vom avea:

În dezvoltarea ultimei expresii s-a luat în considerare faptul că este un scalar real.

2 21 1 2 2

ˆ ˆ ˆ ˆ( ) ( ... )i i i i k kii i

S e y x x x i

iy .)'ˆ( 2ix

ˆ( ) ( ... ) 'n

eS e e e e

ˆ ˆ ˆ ˆ ˆ ˆ[min] ( ) ' ( ) '( ) ' ' ' ' .2 'S e e Y X Y X Y Y X Y X X

ˆ ' 'X Y

Estimarea parametrilor prin MCMMP

Derivînd în raport cu avem:

Din ipoteza V matricea X’X este nesingulară, deci estimatorul vectorului parametrilor modelului de regresie multiplă este:

Dar atunci

Ultima expresie este pozitiv definită, deci soluţia este optimă.

ˆ ˆ ˆ ˆ ˆ ˆ( ) [ ' 2 ' ' ' ' ] [ ' ' ] ˆ2 ' 2 ' 2 ' 0ˆ ˆ ˆ

S Y Y X Y X X X XX Y X Y X X

.1ˆ ( ' ) 'X X X Y ˆ( ) ˆ2 ' 2 '

X Y X X

'ˆˆ)ˆ(2

Interpretarea parametrilor

Considerăm modelul:

Atunci, dacă x2, … xk sunt constante se obţine următoarea egalitate:

Interpretare

este rata marginală de substituţie a variabilei endogene în raport cu variabila exogenă X1

arată cu câte unităţi creşte sau se micşorează caracteristica Y, dacă caracteristica X1 se modifică cu x1i unităţi, în condiţiile în care celelalte caracteristici X2, …, Xp rămân constante.

În cazul în care variabilele endogene sunt necorelate, atunci semnul coeficientului fiecărei variabile din modelul multiplu de regresie coincide cu semnul coeficientului din modelul simplu de regresie de analiză al variabilei endogene funcţie de fiecare variabilă exogenă în parte.

1 1 2 2ˆ ˆ ˆ... .i i i k kiy x x x

ii xy 11i

3. Estimarea parametrilor modelului liniar multifactorial

Modelul de regresie în eşantion în formă matricială este:

Y = XB + E

Estimatorii parametrilor se determină după relatia:

Valorile previzionate:

Erorile:

YXXXB ')'( 1

XBY ˆ

YYE ˆ

Verificarea validităţii modelului multifactorial de regresie liniară

I. Testarea validităţii modelului de regresie folosind metoda analizei de varianţă

II. Determinarea măsurii calităţii ajustării şi intensităţii legăturii între variabile

III. Testarea parametrilor modelului de regresie

IV. Verificarea ipotezelor modelului de regresie

Ipotezele testate:

H0: (influenţa variabilelor X nu este diferită de cea a factorilor

aleatori, deci modelul nu poate fi validat)

H1: (influenţa variabilelor exogene X este semnificativ mai mare decât cea a factorilor aleatori)

Testul statistic F (Fisher):

Regula de decizie: Dacă Fcalc≤ Fα,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este

semnificativ statistic; Dacă Fcalc> Fα,k,n-k-1, atunci se respinge H0, se acceptă H1, deci

modelul este semnificativ statistic (valid).

1/ 22/ exy ss

sF iii

Sursa variaţiei

Varianţa (suma pătratelor)

Gradele de libertate

Dispersia corectată (media pătratelor)

Statistica F

Datorată regresiei (explicată de model)

Reziduală(neexplicată de model)

Totală

n-1–

iiy yyS

iixy yyS

2/ )ˆ(

iiie yyS

II. Determinarea măsurii calităţii ajustării

Pentru a măsura calitatea ajustării în cazul regresiei liniare multifactoriale se calculează: Coeficientul de determinaţie (indicator relativ) Abaterea medie pătratică (eroarea standard) a

reziduurilor (măsură absolută a calităţii ajustării pe baza regresiei în eşantion)

Coeficientii liniari de regresie parţială

Coeficientul de determinaţie:

ia valori în intervalul [0,1] Este o măsură a proporţiei varianţei explicate de model Măsoară intensitatea dependenţei variabilei endogene de factorii de

regresie (variabilele exogene) Valoarea coeficientului de determinaţie sporeşte odată cu creşterea

numărului variabilelor exogene folosite în definirea modelului de regresie

Coeficientul de determinaţie ajustat: se ajustează coeficientul de determinaţie cu gradele de libertate

este întotdeauna mai mic decât coeficientul de determinaţie

SR 1/2

Abaterea medie pătratică a erorilor în eşantion este:

unde este un estimator nedeplasat al dispersiei reziduurilorse este util în compararea modelelor. Dacă avem la dispoziţie câteva modele dintre care trebuie să alegem, cel mai potrivit a fi utilizat este cel pentru care se este mai scăzut.

Corelaţia parţială în eşantion:

Studiază intensitatea dependenței dintre variabila endogenă și o parte din variabilele exogene, în condițiile în care celelalte sunt cu acțiune constantă

În cazul a trei variabile y, x1 și x2 coeficientul corelației

parțiale dintre y și x1 când x2 rămâne constant se

calculează după relația:

)1)(1( 22,

xxyxyxxyx

Exemplu: Dacă se consideră modelul de regresie

yt=1x1t+ 2x2t + t

sunt reținute următoarele posibilități pentru caracterizarea

gradului de dependență a caracteristicii endogene de variabilele

exogene ce definesc acest model:

Folosind coeficientul de determinare

Măsurând variația caracteristicii endogene explicată de fiecare variabilă exogenă prin coeficienții de coelație: ry/x1, ry/x2

Măsurând variația variabilei endogene sub influența a două variabile exogene în condițiile în care a treia variabilă este considerată cu acțiune constantă: ry/x1,X2, ry/x2,x1

III. Testarea parametrilor modelului de regresie

Testarea parametrilor modelului de regresie

Ipotezele:

Testul statistic: unde

Regula de decizie: se respinge H0, deci parametrul i este

seminificativ

2 )'(...

XXdiags

1,2/ kncalc tt

Ipoteza de non multicolinearitate

Multicolinearitatea în sens restrâns:

Multicolinearitatea în sens larg:

0...2211 ppxxx

0...2211 ippxxx

Cauze de apariţie a multicolinearităţii

Metoda de colectare a datelor: în cazul în care datele nu au fost observate complet aleator, ori au fost excluse anumite grupuri de indivizi din eşantion, poate apare fenomenul de multicolinearitate a variabilelor observate, fără ca acesta să fie real;

Restricţiile asupra modelului sau asupra populaţiei eşantionate: în cazul unor restricţii care elimină indivizii ce diferenţiază variabilele observate, apare multicolinearitatea variabilelor;

Specificarea modelului

Model supradeterminat: în cazul în care un model are mai multe variabile explicative decât observaţii.

Consecințele multicolinearității

Dacă există multicolinearitate perfectă det(X’X)=0 şi nu se poate

defini inversa matricei X’X, deci nu pot fi determinaţi estimatorii

coeficienţilor de regresie.

În cazul unei multicolinearităţi puternice dar nu perfecte,

determinantul matricei X’X nu va fi identic zero, dar va tinde către

zero. Componentele matricei X’X vor tinde către infinit, deci şi

variaţia estimatorilor parametrilor de regresie va tinde către infinit.

Depistarea multicolinearităţii Criteriul Klein

Pentru modelul de regresie complet se calculează raportul de corelaţie Ry2

Se determină matricea de corelaţie liniară a variabilelor exogene:

Două variabile exogene xi şi xj sunt coliniare dacă:

Criteriul factorului de inflaţie

Se regresează fiecare variabilă exogenă (j) în funcţie de toate celelalte

variabile exogene, notându-se cu coeficientul de determinare.

Se calculează factorul de inflaţie:

Dacă Fij este foarte mare există fenomenul de multicolinearitate datorat

variabilei j

njixx ji

ji xxy rR /2

Eliminarea fenomenului de multicolinearitate Partiţionarea matricei variabilelor exogene

În cazul apariţiei multicolinearităţii, după determinarea variabilelor exogene ce

conduc la aceasta, se va partiţiona matricea variabilelor explicative X, în două

submatrice cu coloanele liniar independente (variabilele corelate sunt separate în submatrici diferite) : X=(Xm, Xp-m).

Se consideră modelul de regresie, în care sunt incluse variabilele exogene din

prima matrice:

y=Xmm+m

Se estimează parametrii modelului anterior şi se calculează:

Se consideră apoi modelul de regresie, cu variabilele exogene din a doua matrice:

y*=Xrr+r

Se estimează parametrii acestui nou model de regresie.

mmXyy *

Eliminarea mecanică a multicolinearităţii În cazul unei multicolinearităţi puternice, cea mai simplă metodă ar fi

eliminarea câte uneia din variabilele corelate. Însă prin eliminarea unei

variabile explicative din model se produce o eroare de specificare.

Transformarea variabilelor Pentru reducerea multicolinearităţii, în cazul seriilor temporale, se apelează

adesea la transformarea variabilelor iniţiale, folosind diferenţele de ordinul

întâi.

Astfel în locul modelului general:

se vor estima parametrii modelului:

tptptt uxxy ...110

1111111 )(...)( ttptptptttt uuxxxxyy

Estimarea valorilor variabilei dependente

01,2/0 '1ˆ XXXXsty ekn

Valoarea punctuală previzionată atunci când elementele vectorului x0 sunt fixate este:

Intervalul de încredere pentru valoarea previzionată este:

Exemplu

Se consideră modelul de regresie liniară ce descrie legătura între: variabila endogenă: ritmul anual de modificare a

consumului final (yi) variabilele exogene: ritmul anual de creştere a

câştigului salarial mediu (x1i) şi rata inflaţiei (x2i)

AnRata

inflaţieiRitmul anual de creştere a

salariului mediuRitmul anual de modificare a consumului

1995 32,3 48,9 10,8

1996 38,8 51,9 7

1997 155 96,8 -4,3

1998 59,1 64,9 1,1

1999 45,8 46,1 -2,5

2000 45,7 62,8 1,4

2001 34,5 41,2 6,3

2002 22,5 25,5 4,9

2003 15,3 27,7 6,9

2004 11,9 23,3 10,3

Exemplu

Fie modelul liniar multifactorial de regresie:

Se fac n=13 observatii asupra celor trei variabile si se obtin matricile:

Sa se determine estimatorii parametrilor ecuatiei de regresie si sa se previzioneze ecuatia de regresie pentru x1=64 si x2=23

ii xxy 2211

43438452205

845219828452

20545213

Exemplu:Nr.

familii (X1)

Supr.comerciala (X2)

Cifra de afaceri (Y)

70 21 19835 26 20955 14 19725 10 15628 12 8543 20 18715 5 4333 28 21123 9 1204 6 6245 10 176

Exemplu – rezultate Excel:

Regression Statistics Multiple R (R) 0,9251 R Square (R2) 0,8558 Adjusted R Square 0,8270 Standard Error (se) 27,8500 Observations (n) 13

Interpretări: R : legătura dintre Xi şi Y este puternică. R2 : 85,6% din variaţia lui Y este determinată de influenţa lui X1,X2 (este explicată de model)

Exemplu – rezultate Excel:ANOVA

df SS MS F Significance F

Regression k = 2 2

/ xy = 46033,02 2/ xys = 23016,51 Fcalc = 29,67 0,00006234

Residual n-k-1 = 10 2e = 7756,21 2

es = 775,62

Total n-1 = 12 2y = 53789,23

Interpretări: Modelul de regresie este semnificativ statistic (valid) (adică se acceptă H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%

Coefficients Standard

Error t Stat P-value Lower 95%

Upper 95%

Intercept a =

37,5023 sa =

17,6461

calct =

2,1252 0,059496 -1,82 76,82

Nr. familii b1 =

1,4963 sb1 =

0,5534

1calct =

2,7039 0,022165 0,26 2,73

Supr.com b2 =

4,2446 sb2 =

1,0650

2calct =

3,9856 0,002578 1,87 6,62

Interpretări: Parametrul α nu este semnificativ, deoarece probabilitatea cu care se poate accepta

H1 (care susţine că este semnificativ) este de cel mult 100-5,95=94,05%<95%. 82,7682,1

Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%

73,226,0

Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%

62,687,1

RESIDUAL OUTPUT

Observation Predicted Cifra

afaceri Residuals 1 231,38 -33,38 2 200,23 8,77 3 179,22 17,78 4 117,36 38,64 5 130,33 -45,33 6 186,74 0,26 7 81,17 -38,17 8 205,73 5,27 9 110,12 9,88

10 68,96 -6,96 11 147,28 28,72 12 101,39 15,61 13 274,10 -1,10

035_prezentare Curs 9 Regresie Multi Factorial A

Documents

Ejemplo Factorial

Www.aseonline.ro Probleme Rezolvate REGRESIE

interpretare regresie

Introducción Modelo factorial ortogonal Construcción del modelo factorial: método de componentes principales Construcción del modelo factorial: método

Regresie Multipla-Adrian Dusa

Diseño Factorial

6570901 Herencia Poligenica o Multi Factorial

Design-plots for factorial and fractional-factorial designs

Probleme Regresie Signed

54133048 Test Multi Factorial

Curs 10: Modele de regresie neliniară

Tema 3_ Modele de Regresie Simplă

Introducción Modelo factorial ortogonal Construcción del modelo factorial: método de componentes principales Construcción del modelo factorial:

Arreglo Factorial

M-FAT 다요인 능력검사란? Multi-Factorial Ability Test M-FAT · 2014. 6. 16. · M-FAT Multi-Factorial Ability Test 학교/소속 학년/반/번호 이 름 성 별 검사실시일

entobuletin.lepidoptera.roentobuletin.lepidoptera.ro/04_1993/BIE04d199303_Stan.pdf · 8) Se unesc cele douä puncte iar pe dreapta de regresie se trece formula ecuatiei de regresie

Factorial Design

Analisis Factorial

Curs 8 Regresie

Metoda de regresie liniara simpla