15
Econometrie MRK 1 Regresia liniară simplă Problemă rezolvată: O firmă de asigurări vrea să găsească o legătură între valoarea prejudici ului provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri: Nr. crt. Distanța față de stația de pompieri (zeci km) Valoarea prejudiciului (mii Euro) 1 3,4 26,2 2 1,8 17,8 3 4,6 31,3 4 2,3 23,1 5 3,1 27,5 6 5,5 36,0 7 0,7 14,1 8 3,0 22,3 9 2,6 19,6 10 4,3 31,3 11 2,1 24,0 12 1,1 17,3 13 6,1 43,2 14 4,8 36,4 15 3,8 26,1 Cerintele sunt: 1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este variabila explicativă şi care este variabila explicată; 2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute ; 3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%; 4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson; 5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificatie de 5% şi interpretaţi rezultatul obţinut; 6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut; 7. Testati ipotezele referitoare la semnificaţ ia parametrilor modelului de regresie, la un nivel de semnificaţie de 5%; 8. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului; 9. Rezolvaţi problema în Excel; 10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri ( previziunea punctuală şi prin interval de încredere).

Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Embed Size (px)

Citation preview

Page 1: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

1

Regresia liniară simplă

Problemă rezolvată: O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului

provocat de incediul unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de

pompieri. Pentru aceasta, realizează un studiu, într-o anumită regiune, luând în considerare cele mai

recente 15 incendii. Sunt înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu

şi cea mai apropiată staţie de pompieri:

Nr. crt. Distanța față de stația de pompieri (zeci km) Valoarea prejudiciului (mii Euro)

1 3,4 26,2

2 1,8 17,8

3 4,6 31,3

4 2,3 23,1

5 3,1 27,5

6 5,5 36,0

7 0,7 14,1

8 3,0 22,3

9 2,6 19,6

10 4,3 31,3

11 2,1 24,0

12 1,1 17,3

13 6,1 43,2

14 4,8 36,4

15 3,8 26,1

Cerintele sunt:

1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele doua variabile stabilind care este

variabila explicativă şi care este variabila explicată;

2. Pe baza datelor din eşantion, determinaţi estimatiile coeficienţilor modelului de regresie adecvat

analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;

3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;

4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie

Pearson;

5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificatie de

5% şi interpretaţi rezultatul obţinut;

6. Calculati coeficientul de determinaţie şi interpretaţi rezultatul obţinut;

7. Testati ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de

semnificaţie de 5%;

8. Determinaţi si interpretati intervalele de încredere 95% pentru parametrii modelului;

9. Rezolvaţi problema în Excel;

10. Estimaţi punctual şi printr-un interval de încredere 95% nivelul prejudiciului, dacă distanţa între locul

incendiului şi staţia de pompieri ar fi de 6,5 zeci de kilometri (previziunea punctuală şi prin interval

de încredere).

Page 2: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

2

REZOLVARE

1. Variabilele sunt:

X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată

în zeci de km

(variabila independentă sau variabila explicativă sau variabila exogenă)

Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro

(variabila dependentă sau variabila explicată sau variabila endogenă)

Corelograma

Sintaxa Excel: Insert

Chart

XY(Scatter)

Corelograma

0.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

40.0

45.0

50.0

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0

Valorile variabilei independente X

(distanta de la locul incendiului la statia de pompieri, in zeci km)

Valo

rile

vari

ab

ilei

dep

en

den

te Y

(valo

are

a p

reju

dic

iulu

i, i

n m

ii E

ur)

Corelograma sugerează că există legătură directă şi liniară între cele două variabile.

Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, XfY , o funcţie

liniară xxf .

Modelul liniar de regresie este XY .

2. Coeficienţii modelului de regresie liniră simplă

Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-

se astfel seria de date nn yxyxyx ,,...,,,, 2211 sau niyx ii ,1,, . Pe baza acestui eşantion vom

determina estimatorii a şi b ai parametrilor şi ai modelului de regresie. Estimatorii a şi b reprezintă

soluţia sistemului ecuaţiilor normale:

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

i

yxxbxa

yxbna

11

2

1

11

Page 3: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

3

Rezolvarea sistemului folosind metoda determinanţilor:

aa si

bb ,

unde

n

i

i

n

i

i

n

i

i

xx

xn

1

2

1

1 este determinantul matricei sistemului de ecuaţii,

iar

n

i

i

n

i

ii

n

i

i

n

i

i

a

xyx

xy

1

2

1

11 ,

n

i

ii

n

i

i

n

i

i

b

yxx

yn

11

1 sunt minorii corespunzători celor două necunoscute.

2

11

2

111

2

11

2

111

2

1

n

i

i

n

i

i

n

i

i

n

i

i

n

i

ii

b

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

i

a

xxn

yxyxn

b

xxn

yxxxy

a

Calculele intermediare sunt prezentate în tabelul de mai jos:

Valorile xi ale

variabilei X

Valorile yi ale

variabilei Y 2

ix 2

iy ii yx

x1=3,4 y1=26,2 (x1)2=11,56 (y1)

2=686,44 x1·y1=89,08

x2=1,8 y2=17,8 (x2)2=3,24 (y2)

2=316,84 x2·y2=32,04

x3=4,6 y3=31,3 (x3)2=21,16 (y3)

2=979,69 x3·y3=143,98

2,3 23,1 5,29 533,61 53,13

3,1 27,5 9,61 756,25 85,25

5,5 36,0 30,25 1296,00 198

0,7 14,1 0,49 198,81 9,87

3,0 22,3 9,00 497,29 66,9

2,6 19,6 6,76 384,16 50,96

4,3 31,3 18,49 979,69 134,59

2,1 24,0 4,41 576,00 50,4

1,1 17,3 1,21 299,29 19,03

6,1 43,2 37,21 1866,24 263,52

4,8 36,4 23,04 1324,96 174,72

x15=3,8 y15=26,1 (x15)2=14,44 (y15)

2=681,21 x15·y15=99,18

2,4915

1

i

ix

15

1

2,396i

iy

15

1

2 16,196i

ix

15

1

2 48,11376i

iy 65,147015

1

i

ii yx

Se obţine: 2779,102,4916,19615

65,14702,4916,1962,3962

aa

Page 4: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

4

9193,42,4916,19615

16,3962,4965,1470152

bb ,

prin urmare dreapta de regresie este de ecuaţie xxbay 9193,42779,10ˆ ,

ecuaţia de regresie liniară în eşantion este 15,1,9193,42779,10 iexexbay iiiii ,

iar valorile ajustate ale observaţiilor 15,1, iyi prin regresie sunt

15,1,9193,42779,10ˆ ixxbay iii .

Interpretarea valorilor coeficienţilor

b arată că valoarea prejudiciului creşte cu 4,9193 mii euro dacă distanţa dintre incediu şi staţia de

pompieri creşte cu o unitate, adică 10 km

a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă

staţia de pompieri.

3. Validitatea modelului de regresie

Pentru testarea validităţii modelului se formulează cele două ipoteze:

H0: modelul de regresie nu este valid statistic,

cu alternativa

H1: modelul de regresie este valid statistic.

Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:

1,~

1

knkFisher

kn

SSEk

SSR

MSE

MSRF sau 1,2

2/

2

2/

~

1

knk

e

xy

e

xyFisher

kn

k

s

sF ,

unde k este numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem

un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul

sau pragul de semnificaţie al testului, iar 1-α’ este nivelul de încredere al testului. Dacă nu se specifică,

vom considera în general că α’=0,05 (sau α’·100=5%), iar 1-α’=0,95 (sau (1-α’)·100=95%). Pentru

calculul statisticii calcF folosim tabelul ANOVA:

Page 5: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

5

Sursa

variaţiei

Suma pătratelor

(SS-Sum of Squares)

Grade de

libertate

(df -

degrees of

freedom)

Media pătratelor

(MS- Mean of

Squares)

Dispersiile

corectate

Valoarea

statisticii F Fcritic

Datorată

regresiei

(Regression)

n

ii

xy

yy

SSR

1

2

2/

ˆ k

k

SSRMSR

sau

ks

xy

xy

2/2

/

MSE

MSRF

sau

2

2

/

e

xy

calcs

sF

1,;' knkF

Reziduală

(Residual)

n

iii

e

yy

SSE

1

2

2

ˆ n – k – 1

1

kn

SSEMSE

sau

1

22

kns e

e

Totală

n

ii

y

yy

SST

1

2

2

n – 1

De asemenea, se poate calcula si dispersia de selectie a lui Y, adica 11

2

2

nn

SSTs

y

y .

Regula de decizie este:

dacă 1,;' knkcriticcalc FFF , adică Fcalc se găseşte în regiunea critică,

atunci respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.

Calculele intermediare sunt prezentate în tabelul următor:

Page 6: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

6

Nr.

crt. ix iy ii xy 9193,42779,10ˆ iii yye ˆ yyi 2yyi 22 ˆiii yye 2ˆ yyi

1 3,4 26,2 27,0035 -0,8035 -0,2133 0,0455 0,6456 0,3484

2 1,8 17,8 19,1326 -1,3326 -8,6133 74,1889 1,7759 53,0080

3 4,6 31,3 32,9067 -1,6067 4,8867 23,8798 2,5814 42,1640

4 2,3 23,1 21,5923 1,5077 -3,3133 10,9780 2,2732 23,2421

5 3,1 27,5 25,5277 1,9723 1,0867 1,1809 3,8898 0,7842

6 5,5 36,0 37,3341 -1,3341 9,5867 91,9048 1,7797 119,2628

7 0,7 14,1 13,7214 0,3786 -12,3133 151,6174 0,1433 161,0841

8 3,0 22,3 25,0358 -2,7358 -4,1133 16,9192 7,4846 1,8975

9 2,6 19,6 23,0681 -3,4681 -6,8133 46,4211 12,0276 11,1905

10 4,3 31,3 31,4309 -0,1309 4,8867 23,8798 0,0171 25,1762

11 2,1 24,0 20,6084 3,3916 -2,4133 5,8240 11,5027 33,6965

12 1,1 17,3 15,6891 1,6109 -9,1133 83,0522 2,5949 115,0078

13 6,1 43,2 40,2856 2,9144 16,7867 281,7933 8,4936 192,4415

14 4,8 36,4 33,8905 2,5095 9,9867 99,7342 6,2974 55,9091

15 3,8 26,1 28,9712 -2,8712 -0,3133 0,0982 8,2440 6,5431

15

1

2,396i

iy

15

1

2,396ˆi

iy

15

1

0i

ie

15

1

0i

i yy 52,911

2

ySST

751,69

2

eSSE

76,841

2/

xySSR

unde 4133,2615

15

1

i

iy

y . Se poate calcula și dispersia de selecție a prejudiciului (variabila Y): 108,651

2

n

SSTsy

Page 7: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

7

Tabelul ANOVA

Sursa

variaţiei

Suma pătratelor

(SS-Sum of Squares)

Grade

de

libertat

e

(df -

degrees

of

freedo

m)

Media pătratelor

(MS - Mean of

Squares)

Valoarea statisticii F Fcritic

Datorată

regresiei

(Regressio

n)

76,8412/ xySSR

k = 1

76,8412/ xysMSR

89,1562

2/

e

xy

calcs

s

MSE

MSRF

667,413,1;05,0 F

Reziduală

(Residual)

751,692 eSSE

n – k –

1 = 13 365,52 esMSE

Totală 52,9112 ySST

n – 1 =

14

Cum criticcalc FF 667,489,156 , respingem ipoteza nulă şi concluzionăm că modelul de

regresie este valid statistic

(modelul este semnificativ statistic sau modelul este corect specificat).

4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie

Pearson

n

i

n

i

ii

n

i

n

i

ii

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

ii

xy

yynxxn

yxyxn

ynyxnx

yxnyx

yyxx

yyxx

r

1

2

1

2

1

2

1

2

111

2

1

22

1

2

1

1

2

1

2

1

96098,02,39648,11376152,4916,19615

2,3962,4965,147015

22

xyr

Valoarea coeficientului de corelaţie Pearson, pozitivă şi foarte apropiată de 1, arată că între cele două

variabile există o legătura liniară directă şi puternică.

Page 8: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

8

5. Calculaţi raportul de corelaţie, testaţi validitatea acestuia şi interpretaţi rezultatul obţinut.

96098,052,911

76,8412

2/

y

xy

SST

SSRR

Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea

H0: Raportul de corelaţie este nesemnificativ statistic

(variabila X nu are influenţă semnificativă asupra lui Y)

cu alternativa

H1: Raportul de corelaţie este semnificativ statistic

(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).

Statistica testului este 1,2

2

1

1

knkFisher

kn

R

k

R

F .

Valoarea calculată a statisticii testului este 89,156

1115

96098,01

1

96098,0

2

2

F ,

acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.

Daca testearea se realizeaza la un prag de semnificaţie α’=0,05, atunci

67,413,1;05,01,'; FFF knkcritic .

Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul de

corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă asupra

variabilei Y (prejudiciul).

6. Coeficientul de determinaţie este 9235,052,911

76,8412

2/2

y

xy

SST

SSRR

sau 9235,096098,0 22 R şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de

incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de

pompieri).

7. Testarea semnificatiei parametrului α al modelului linear de regresie XY :

H0: α=0 (parametrul este nesemnificativ statistic)

H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)

Statistica testului este )1(

kn

a

Students

at

,

unde

n

ii

en

ii

ea

xx

x

ns

xx

x

nss

1

2

2

1

2

22 11

este abaterea standard (eroarea standard) a

estimatorului a, 2

es este disperia reziduala sau a erorilor, iar 2

ee ss este abaterea standard reziduală

(eroarea standard reziduală sau a erorilor).

Page 9: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

9

Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică α=0, este

aa

calcs

a

s

at

0, deci 237,7

42,1

2779,10

a

calcs

at , cu sa=1,42.

Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este

;;;,

;;

13;2

05,013;

2

05,01;

2

'1;

2

' tttt

ttR

knkn

criticcriticc

,

unde 1;

2

'

kn

critic tt este valoarea critica a testului t bilateral pentru testarea semnificatiei parametrilor unui

model liniar de regresie cu k variabile explicative si la un nivel de semnificatie ' .

Cum critickn

ttt

160,213;

2

05,01;

2

' , atunci ;160,2160,2;237,7 ccalc Rt , deci

respingen H0 şi concluzionăm ca parametrul α este semnificativ statistic.

Testarea semnificaţiei parametrului β al modelului linear de regresie XY :

H0: β=0 (parametrul este nesemnificativ statistic)

H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)

Statistica testului este )1(

kn

b

Students

bt

,

unde

n

i

i

e

n

i

i

eb

xx

s

xx

ss

1

2

1

2

2 1 este abaterea standard (eroarea standard) a estimatorului b,

2

es este disperia reziduală, iar 2

ee ss este abaterea standard reziduală (eroarea standard reziduală).

Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică β=0, este

bb

calcs

b

s

bt

0, deci 56,12

39,0

9193,4

b

calcs

bt , cu sb=0,39.

Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este

;;;,

;;

13;2

05,013;

2

05,01;

2

'1;

2

' tttt

ttR

knkn

criticcriticc

.

Cum critickn

ttt

160,213;

2

05,01;

2

' , atunci ;160,2160,2;56,12 ccalc Rt , deci respingen

H0 şi concluzionăm ca parametrul β este semnificativ statistic.

8. Intervalul de încredere (1-α’)·100% = 95% pentru parametrul α al modelului linear de regresie

XY , determinat pe baza eşantionului observat, este:

uiparametrul a 100%)'-(1 incredere de

uiintervalul a superioara limita

1;2

'

uiparametrul a 100%)α'-(1 incredere de

uiintervalul a inferioara limita

1;2

'

a

kna

knstasta

,

unde sa este eroarea standard a estimatorului a.

Page 10: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

10

În cazul nostru, a=10,2779, sa=1,42, α’=0,05, 160,213;

2

05,01;

2

'

ttkn

, deci intervalul [7,21; 13,34]

acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori [7,21; 13,34]

mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar lângă staţia de

pompieri.

Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci putem

spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci

concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de regresie

XY , determinat pe baza eşantionului observat, este:

uiparametrul a 100%)'-(1 incredere de

uiintervalul a superioara limita

1;2

'

β uiparametrul a 100%)α'-(1 incredere de

uiintervalul a inferioara limita

1;2

'

b

knb

knstbstb

,

unde sb este eroarea standard a estimatorului b.

În cazul nostru, b=4,9193, sb=0,39, α’=0,05, 160,213;

2

05,01;

2

'

ttkn

, deci intervalul [4,07; 5,76]

acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa devine mai

mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul [4,07; 5,76] mii

Eur, cu o probabilitate de 0,95.

Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci putem

spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci

concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

9. Rezolvarea în Excel:

În Excel, există modulul Data Analysis, opţiunea Regression care furnizează într-un output specific

toate aceste calcule prezentate până acum.

Page 11: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

11

Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru

n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se

lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data

Analysis şi apoi Regression.

În fereastra care va apare, trebuie:

1. să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi care

este şirul de valori corespunzătoare variabilei independente X (Input X Range)

2. să specificaţi nivelulde încredere al testului, de obicei 95%

3. să precizaţi celula din foaia de lucru de la care se vor afişa rezultatele, adică outputul (Output Range)

Page 12: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

12

4. să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.

Output-ul este prezentat în tabelele următoare:

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,9609 = R = raportul de corelaţie

R Square 0,9234= R2

= coeficientul de determinaţie

Adjusted R Square 0,9175

Standard Error 2,3163= se = eroarea standard sau abaterea standard a erorilor

Observations 15 = n = numărul de perechi de observaţii din eşantion

ANOVA

df SS MS F

Significance

F

Regression 1 = k 2

/ xySSR 841,7660 2

/ xys 841,7660 calcF 156,8860 1,2478E-08

Residual 13 = n-k-1 2

eSSE 69,7510 2

es 5,3650

Total 14 = n-1 2

ySST 911,5200

Coefficient

s

Standar

d

Error

t Stat P-value

Lower 95%

(Limita inferioară

a intervalului

de încredere

95%)

Upper 95%

(Limita

superioară

a intervalului

de încredere 95%)

Intercept 10,2779=a 1,42=sa 7,237=

a

calcs

at

6,59E-

06

7,21=

= akn

sta 1;

2

05,0

13,34=

= akn

sta 1;

2

05,0

X Variable

1 4,9193=b 0,39=sb

12,525=

b

calcs

bt

1,25E-

08

4,07=

= bkn

stb 1;

2

05,0

5,76=

= bkn

stb 1;

2

05,0

RESIDUAL OUTPUT

Observation Predicted Y ii xy 9193,42779,10ˆ Residuals iii yye ˆ

1 27,0037 -0,8037

2 19,1327 -1,3327

3 32,9068 -1,6068

4 21,5924 1,5076

5 25,5279 1,9721

6 37,3342 -1,3342

7 13,7215 0,3785

8 25,0359 -2,7359

9 23,0682 -3,4682

10 31,4311 -0,1311

Page 13: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

13

11 20,6085 3,3915

12 15,6892 1,6108

13 40,2858 2,9142

14 33,8907 2,5093

15 28,9714 -2,8714

y = 4.9193x + 10.278

R2 = 0.9235

0

5

10

15

20

25

30

35

40

45

50

0 1 2 3 4 5 6 7

Distanta, in zeci km (variabila X)

Va

loa

rea

pre

jud

iciu

lui,

in

mii

Eu

r (v

ari

ab

ila

Y)

valorile observate yi

valorile estimate ale lui yi

Linear (valorile observate yi)

Probleme propuse spre rezolvare

Problema 1. Pentru 8 agenţii de turism s-au înregistrat datele privind numărul biletelor vândute şi

profitul obţinut (mii RON). În urma analizei legăturii liniare dintre cele două variabile, s-au obţinut

următoarele rezultate:

ANOVA

df SS MS F Significance F

Regression … …………. 0,4382 ………… 0,0522

Residual 6 0,4508 ………..

Total … ………….

Coefficients Standard Error t Stat P-value

Intercept -0,435 0,8569 ………… 0,6298

Nr. bilete vândute 0,00138 …………. ………… 0,0522

Ştiind că dispersia numărului de bilete vândute este de 32796,79 se cere:

a) Scrieți ecuația de regresie și interpretați coeficienții.

b) Completați informaţiile lipsă din tabelele de mai sus.

c) Ce procent din variaţia profitului a fost determinat de influenţa numărului de bilete vândute?

d) Testați validitatea modelului de regresie pentru un nivel de semnificație de 10% ( 776,3criticF ).

e) Să se determine și să se interpreteze intervalele de încredere 90% pentru parametrii modelului.

Page 14: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

14

Problema 2. Pentru un mare magazin alimentar s-au cules date privind vânzările (mii RON) şi profitul

(mii RON) realizate în 9 luni ale anului 2007. În urma studierii legăturii liniare dintre cele două variabile, s-

au obţinut următoarele rezultate:

ANOVA

df SS MS F Significance F

Regression 1 0,0304 ……….. ………… 0,00007

Residual ... …………. 0,0004

Total 8 ………….

Coefficients Standard Error t Stat P-value

Intercept 0,0784 …………. ………… 0,0017

Val. Vânz. 0,0117 0,0014 …………. 7,8E-05

Ştiind că valoarea medie a vânzărilor este de 10 mii RON/luna, se cere:

a) Să se completeze informaţiile lipsă din tabelele de mai sus.

b) Să se testeze semnificaţia modelului liniar de regresie, pentru un nivel de semnificaţie de 5%.

c) Să se testeze semnificaţia parametrilor modelului, pentru acelaşi nivel de semnificaţie.

d) Ce procent din variaţia profitului a fost determinat de influenţa volumului vânzărilor?

Problema 3. Pentru a analiza dependenţa dintre suprafaţa cultivată (ha) şi producţia la hectar (q/ ha) s-au

înregistrat date referitoare la aceste variabile pentru 10 parcele. În urma prelucrării datelor (utilizând

EXCEL) şi a specificării ecuaţiei de regresie (în ipoteza legăturii liniare) care modelează dependenţa dintre

cele 2 variabile se obţine:

Supr. cultivată (ha) Producția la hectar (q/ha)

Mean 82,4000 Mean 24,6000

Standard Deviation 11,2960 Standard Deviation 7,5011

Sample Variance 127,6000 Sample Variance 56,2666

Sum 824,0000 Sum 246,0000

Count 10 Count 10

ii xy 576.08711.22ˆ , iar dispersia erorilor este 2es 15.656.

a) Validaţi modelul de regresie obţinut.

b) Determinaţi intervalele de încredere pentru parametrii ecuaţiei de regresie.

c) Analizaţi intensitatea legăturii dintre cele două variabile cu ajutorul unui indicator adecvat şi testaţi

semnificaţia acestuia.

Problema 4. Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare

difuzate şi numărul vizitatorilor (mii pers.) timp de 5 zile. Modelul de regresie obţinut în urma prelucrării

datelor este: iy =9,13+3,98xi. Se cunosc: varianţa datorată regresiei (sistematică)

n

iixy yy

1

22/ ˆ =740,8;

varianţa reziduală

n

iiie yy

1

22 ˆ =60. Să se testeze semnificaţia modelului de regresie folosind testul F,

pentru un nivel de semnificaţie α=0,05.

Problema 5. Pentru a analiza dacă între valoarea vânzărilor lunare şi vârsta agenţilor de vânzări, ai

unei mari companii ce comercializează produse cosmetice, există o legătură, un analist selectează aleator un

Page 15: Regresia liniară simplă - aurapopa.ase.ro · un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă). Fie α’ nivelul Fie α’ nivelul

Econometrie MRK

15

eţantion de 15 persoane. În urma prelucrării în EXCEL a datelor culese pentru cele două variabile, s-au

obţinut rezultatele:

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,1004

R Square 0,0100

Adjusted R Square 0,0660

Standard Error 5,2906

Observations 15

ANOVA

df SS MS F

Regression 1 ……. 3,7120 …………

Residual 13 ………… ………...

Total 14 367,6000

Coefficients Standard Error t Stat Lower 95% Upper 95%

Intercept 11,6734 ………….. ………. -0,1309 23,4777

Vârsta 0,0622 …………… ………. -0,3072 0,4317

a) Să se testeze validitatea modelului de regresie liniară pe baza căruia s-au obţinut prelucrările din

tabelele de mai sus.

b) Să se testeze semnificaţia parametrilor modelului pentru o probabilitate de 95% (tcritic=2,624).

Problema 6. O firmă ce organizează licitaţii pentru vânzarea unor antichităţi doreşte să determine

relaţia dintre preţul obţinut pentru articolele licitate (u.m.) şi numărul de persoane ce participă la licitaţie. În

ipoteza unui model de regresie liniară, rezultatele prelucrării în EXCEL sunt:

Regression Statistics

Multiple R 0,8602

R Square 0,7400

Adjusted R Square 0,7075

Standard Error 177,7908

Observations 10

ANOVA

df SS MS F Significance F

Regression 1 719973,5000 719973,5000 22,7770 0,0014

Residual 8 252876,5000 31609,5600

Total 9 972850,0000

Coefficients Standard Error t Stat P-value

Intercept 1086,6910 174,4825 6,2280 0,0002

Mărimea audienței 9,3291 1,954748 4,7725 0,0014

a) Determinați modelul de regresie adecvat analizei dependendenței dintre cele două variabile.

b) Să se interpreteze rezultatele din tabele.

c) Determinaţi şi interpretaţi intervalele de încredere pentru parametrii modelului (tcritic=2,896).