32
Econometrie - curs 2, 3 prof. univ. . Elena Druică, email: elena.[email protected] 1

Curs 2 -3 Econometrie

Embed Size (px)

Citation preview

Page 1: Curs 2 -3 Econometrie

Econometrie - curs 2, 3prof. univ. dr. Elena Druică, email: [email protected]

1

Page 2: Curs 2 -3 Econometrie

Structura cursuluiCoeficienții dreptei de regresie ca estimatori.

Metode de estimare:

metoda celor mai mici pătrate (OLS)

metoda verosimilității maxime (ML)

Coeficientul de deteminare ca măsură a celei mai bune potriviri.

Coeficientul de corelație.

Termenul eroare într-o analiză de regresie.

2

Page 3: Curs 2 -3 Econometrie

Motivația studiuluiLanț de supermarketuri “BonTon” dorește să determine factorii care au cel mai mare impact asupra încasărilor lunare

Se pornește de la ideea că numărul zilnic de vizitatori este o variabiă explicativă relevantă

Se face o selecție a unui eșantion format din 40 de zile pentru care se înregistrează numărul de vizitatori și încasările înregistrate de supermarketurile BonTon din București.

Pe baza acestui eșantion se încearcă determinarea relației dintre cele două variabile, care să caracterizeze întreaga populație (adică relația dintre numărul de vizitatori și încasări, în oricare zi din an).

3

Page 4: Curs 2 -3 Econometrie

Datele disponibile

100 de observații alese aleatoriu din mulțime zilelor lucrătoare

Codul pe baza căruia au fost generate aceste date se găsește postat sub numele de “Cod generare date”

Setul de date creat este postat de asemenea, ca fisier csv cu numele “BonTon”

4

Page 5: Curs 2 -3 Econometrie

Variabile

Variabilă dependentă: volumul zilnic al încasărilor, pe ansamblul supermarketurilor BonTon din București (sute lei)

Variabilă independentă: numărul zilnic de vizitatori, pe ansamblul supermarketurilor BonTon din București

5

Page 6: Curs 2 -3 Econometrie

Încasări = beta_0 + beta_1*Vizitatori + eroare

Modelul de regresie pentru relația dintre vizitatori și încasări Funcția pe ansamblul populației

6

Page 7: Curs 2 -3 Econometrie

Relația pe care o presupunem

O relație directă; cu cât mai mare este numărul de vizitatori, cu atât mai mari sunt șansele ca aceștia să cumpere ceva și ca atare să contribuie la încasări

O reorezentare mai exactă: diagrama scatter.

7

Page 8: Curs 2 -3 Econometrie

8

Page 9: Curs 2 -3 Econometrie

Observații

Relația este într-adevăr una directă

Din forma norului de puncte, se preconizează o relație liniară

Pentru eșantionul de care dispunem, vom estima un model de forma:

Încasări medii = b_0 + b_1*Vizitatori

9

Page 10: Curs 2 -3 Econometrie

10

Cum știm care este cea mai potrivită dreaptă pe care o putem reprezenta?

Page 11: Curs 2 -3 Econometrie

Cum știm care este cea mai potrivită dreaptă de regresie?

Să aproximeze cel mai bine punctele din diagramă, dar…

În ce sens, să le aproximeze “cel mai bine”?

Mai mulți algoritmi de definire a acestui “cel mai bine”

Metoda celor mai mici pătrate

Metoda verosimilității maxime

11

Page 12: Curs 2 -3 Econometrie

Metoda celor mai mici pătrate

Suma pătratelor erorilor care se produc prin explicarea variabilității încasărilor ca rezultat al variabilității numărului de clienți prin modelul pe care îl construim, să fie minimă.

Ce înseamnă erori?

12

Page 13: Curs 2 -3 Econometrie

13

Valoare efectivă

Valoare estimată

Eroare = valoare efectivă - valoare estimată

Page 14: Curs 2 -3 Econometrie

Comentarii

Pentru fiecare dintre valorile observate, sau efective, se obține o valoare ca rezultat al aplicării modelului

Valoarea observată este y_i, corespunzător unei observații i, una dintre cele 100

14

Page 15: Curs 2 -3 Econometrie

Mai exact:

Venitul observat_i

Venitul prognozat_i = b_0 + b_1*Vizitatori_i

Eroarea_i = Venitul observat_i - Venitul prognozat_i

!

Eroarea_i = Venitul observat_i - (b_0 + b_1*Vizitatori_i)

15

Page 16: Curs 2 -3 Econometrie

Ce spune metoda celor mai mici pătrate?

Că b_0 și b_1 sunt rezultatul minimizării expresiei

Sumă(Eroarea_i)^2

sau a minimizării

Sumei pătratelor erorilor individuale aferente tuturor observațiilor de care dispunem în eșantion

16

Page 17: Curs 2 -3 Econometrie

Revenim la exemplu

Încasări medii = 647.84 + 0.76*Vizitatori

647.84 - termenul liber. Ce interpretare îi dați?

0.76 - coeficientul variabilei independente. Ce interpretare îi dați?

17

Page 18: Curs 2 -3 Econometrie

Cum arată erorile? Pentru prima observație:

Vizitatori_1 = 3097

Încasări_1 = 2942.827

Predict_încasări_1 = 647.84 + 0.76*Vizitatori_1

Predict_încasări_1 = 647.84 + 0.76* 3097

Predict_încasări_1 = 3001.56

Eroare_1 = Încasări_1 - Predict_încasări_1

Eroare_1 = -58.733

18

Page 19: Curs 2 -3 Econometrie

Comentarii:Pentru prima observație, modelul prognozează încasări puțin mai mari decât se înregistrează de fapt.

Similar, se determină și celelalte erori individuale (aferente fiecărei observații)

Suma pătratelor erorilor individuale se notează cu SPE și este, în acest caz, 14065765 (a se rula codul în R)

Ar trebui să fie mai mică decât orice altă valoare SPE obținută pe baza unei alte drepte care “aproximează” punctele de pe diagrama scatter. :-)

19

Page 20: Curs 2 -3 Econometrie

Ce-am obținut cu asta?Prin intermediul ecuației estimate a regresie am găsit o relație între încasările medii ale supermarketului, ca funcție de numărul de vizitatori

Această relație poate fi folosită pentru a prognoza vânzările unui supermarket într-o zi în care este vizitat de un anumit număr de persoane

Același lucru l-am fi putut face dacă foloseam media încasărilor pe ansamblul mulțimii de date.

Folosind un model de regresie, creștem performanța predicției? Și dacă da, cu cât?

20

Page 21: Curs 2 -3 Econometrie

21

Predicția prin dreapta de regresie și prin media valorilor variabilei dependente

valoarea medie a încasărilor

Page 22: Curs 2 -3 Econometrie

Observații Erorile pe care le facem prin aproximarea cu ajutorul dreptei de regresie sunt mai mici decât cele în raport cu dreapta care trece prin media încasărilor

Putem compara cele două tipuri de erori

Definim Suma pătratelor erorii totale, ca sumă a pătratelor diferențelor dintre valorile observate ale variabilei dependente și media acestor valori.

Această mărime se notează cu SPT

22

Page 23: Curs 2 -3 Econometrie

SPT - cum se calculează:

Media(Încasări) = 2859.979

Eroarea_1 = 82.84848

SPT = Suma pătratelor diferențelor de forma (Încasări_i - Media(Încasări))

SPT = 71130151

23

Page 24: Curs 2 -3 Econometrie

Comparație între SPT și SPE

SPT = 71130151

SPE = 14065765

SPT - SPE = 57064386

Diferența dintre SPT și SPE se notează cu SPR și se numește suma pătratelor erorilor explicate prin intermediul modelului de regresie

SPR = 57064386

24

Page 25: Curs 2 -3 Econometrie

La ce folosește SPR?

Se determină procentul din eroarea totală explicat prin modelul de regresie, adică:

SPR/SPT = 0.8022531

adică 80,22%

Raportul SPR/SPT poartă numele de coeficient de determinare și se notează cu R^2

25

Page 26: Curs 2 -3 Econometrie

Coeficientul de determinare

Arată cât anume din variația variabilei dependente poate fi explicată prin modelul de regresie utilizat

sau

Arată cât anume din variația variabilei dependente poate fi explicată prin variațiile variabilelor independente luate în calcul

Este o mărime din intervalul [0,1] și poate fi exprimată și procentual

Ex: 0.82 poate fi scris ca 82%

26

Page 27: Curs 2 -3 Econometrie

Comentarii

Din calcule rezultă că utilizarea modelului de regresie conduce la o aproximare mai bună a predicțiilor decât modelul de bază - acela al aproximării pe bază de valoare medie

80,22% dintre variațiile încasărilor pot fi explicate de numărul de vizitatori ai supermarketului

Există un procent de variație de aproape 20% care nu poate fi explicat astfel și se datorează altor factori.

27

Page 28: Curs 2 -3 Econometrie

Coeficientul de corelație

Se definește ca radical din coeficientul de determinare (și se notează cu r)

Indică gradul de asociere dintre două variabile

Poate fi pozitiv, sau negativ, în funcție de natura directă, sau indirectă a variabilei

În cazul exemplului nostru: r = √0.82 = 0.896

28

Page 29: Curs 2 -3 Econometrie

29

Sursa: Gujarati, 2004,

pag. 86

Page 30: Curs 2 -3 Econometrie

Termenul eroareNotăm eroarea cu u

u = valoarea observată efectiv - valoarea prognozată prin modelul de regresie

u_i =Yi −E(Y|Xi)

Yi =E(Y|Xi)+u_i

E(Y|Xi) = componenta deterministă a modelului

u = componenta stocastică, sau aleatorie, care include factorii pe care nu i-am luat deja în calcul în model.

30

Page 31: Curs 2 -3 Econometrie

De ce nu pot fi incluși?1. teoria nu ne oferă un background complet

2. nu avem informații (date), sau avem date despre proxy-uri

3. nu avem informații exact despre variabilele cele mai importante

4. există o incertitudine ireductibilă, venită din natura însăși a sistemelor analizate

5. proxy-urile sunt greșit alese

6. din nevoia de a nu complica modelul inutil

7. din eșantionare

8. din alegerea greșită a formei funcționale a modelului

31

Page 32: Curs 2 -3 Econometrie

Bibliografie (accesabilă pe internet)

Gujarati Damodar, (2004) “Basic Econometrics”, Fourth Edition, p. 58-91

Codurile pentru săptămâna 2, postate pe www.teoriadeciziei.ro

32