21
1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1) 1 2 2 3 3 ... i i i K Ki i Y X X X 1 1 2 21 3 31 1 1 2 1 2 22 3 32 2 2 1 2 2 3 3 ... ... . . . ... K K K K N N N K KN N Y X X X Y X X X Y X X X 1 2 . . . N Y Y Y Y

1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

Embed Size (px)

Citation preview

Page 1: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

1

IL MODELLO DI REGRESSIONE MULTIPLA

Per le N osservazioni possiamo scrivere:

VETTORE

COLONNA

(N*1)

1 2 2 3 3 ...i i i K Ki iY X X X

1 1 2 21 3 31 1 1

2 1 2 22 3 32 2 2

1 2 2 3 3

...

...

.

.

.

...

K K

K K

N N N K KN N

Y X X X

Y X X X

Y X X X

1

2

.

.

.

N

Y

Y

Y

Y

Page 2: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

2

21 1

22 2

2

1 ......

......1

. .

. .

. .

1 ......

K

K

N KN

X X

X X

X

X X

MATRICE (N*K)

VETTORE VETTORE

COLONNA COLONNA

(K*1) (N*1)

IL MODELLO IN FORMA MATRICIALE DIVIENE:

1

2

.

.

.

K

1

2

.

.

.

N

Y=Xβ+ε

Page 3: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

3

1

2

.

.

.

N

Y

Y

Y

21 1

22 2

2

1 ......

......1

. .

. .

. .

1 ......

K

K

N KN

X X

X X

X X

1

2

.

.

.

K

1

2

.

.

.

N

(N*1) (N*K) (K*1) (N*1)

LA MATRICE HA ELEMENTO GENERICO IN CUI L’INDICE j RAPPRESENTA LA VARIABILE (REGRESSORE) CONSIDERATA (j=1,2, … ,K) MENTRE L’INDICE i DENOTA LA i-ESIMA OSSERVAZIONE (i=1,2,…,N).

OGNI COLONNA DI È UN VETTORE DI N OSSERVAZIONICOSTANTE PER REGRESSORI jINTERCETTA 1 2 ………K OSSERVAZIONI i

1 2

N

X ijX

X

21 1

22 2

2

1 ......

......1

. .

. .

. .

1 ......

K

K

N KN

X X

X X

X

X X

Page 4: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

4

ASSUNZIONI PER STIME OLS

1. SPECIFICAZIONE LINEARE DEL MODELLO

2.a SONO NON STOCASTICI.

2.b IL RANGO DI È UGUALE A K<N

3.

4. LA VARIABILE DI ERRORE HA DISTRIBUZIONE NORMALE

LA 2., RANK =K<N, ASSICURA L’ASSENZA DI MULTICOLLINEARITÀ. INFATTI QUANDO RANK < K UNA DELLE COLONNE SAREBBE COMBINAZIONE LINEARE DELLE ALTRE E QUINDI LA MATRICE

RISULTEREBBE SINGOLARE

LA 3. GARANTISCE CHE GLI ERRORI ABBIANO MEDIA NULLA, VARIANZA FINITA E COSTANTE E COVARIANZA NULLA. ESAMINIAMO LA MATRICE DI VARIANZA E COVARIANZA DERIVANTE DA

y X

ijX

X

0E ' 2E I

X

X

X

'E

OMOSCHEDASTICITA’

INCORRELAZIONE

X

Page 5: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

5

1

2

'1 2

.* , ,...,

.

.

N

N

E E

21 1 2 1

22 1 2 2

221

......

......

......

N

N

N NN

E E E

E E E

E EE

1 2COV 1 NCOV

2 I

ALLORA TUTTI I VALORI AL DI FUORI DELLA DIAGONALE PRINCIPALE SONO NULLI E QUELLI SULLA DIAGONALE SONO UGUALI A , CIOÈ:

2

2

0

Page 6: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

6

2

2 2

2

0......0

0 ......0

.................

0 0......

I

1 0......0

0 1......0

...... ............

0 0.......1

I

STIMA OLS

OBIETTIVO: DETERMINARE IL VETTORE CHE MINIMIZZA LA QUANTITÀ

DOVE:

VETTORE (N*1) DEI RESIDUI

VETTORE (N*1) DEI VALORI TEORICI

VETTORE DELLE STIME OLS

SOSTITUENDO E IN SI HA:

ˆ ˆy y

ˆy X

''

' '' ' ' '

' '' ' '

ˆ ˆˆ ˆ

ˆ ˆ ˆ ˆ

ˆ ˆ ˆ2

y X y X

y y X y y X X X

y y X y X X

A B

'2ˆ ˆ ˆiRSS

Page 7: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

7

QUESTO PERCHÈ A E B SONO ENTRAMBI DUE SCALARI UGUALI. INFATTI

A =SCALARE

(1*K)

(K*N) (N*1)

B ANALOGAMENTE

MINIMIZZANDO LA , CIOÈ:

SI HA:

LA MATRICE DETTA MATRICE “CROSS-PRODUCT”, HA CERTAMENTE L’INVERSA per l’ipotesi

che implica RANK =K ovvero

NON SINGOLARE.

1

2

1 21 22 2

21

1 1..............1ˆ ˆ....... ...... .

........................ .

......

k N

K KNK N

y

y

X X X

X XX y

'' 'ˆ ˆ ˆ2 2 0X Y X X

1' 'ˆ X X X Y

1'X X

RANK X K 1'X X 1'X X

Page 8: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

8

DIMENSIONI DELLE MATRICI

MATRICE “CROSS-PRODUCT”

=

(K*N)

(N*K)

'

1' '

'

1' '

ˆ *1

* ; *

* ; *

*1 ; *1

*1

K

X K N X N K

X X K K X X K K

Y N X Y K

X X X Y K

21 1

21 22 2 22 2

21

2

1 1.............1 1 ......

...... *1 ......

.................. ........ .

...... ..

..

......1

K

N K

K KNK

N KN

X X

X X X X X

X XX

X X

'X X

Page 9: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

9

2

2

2 2 2

2

2

.............

......

.............................................

......

i Ki

i i Ki i

Ki Ki i Ki

N X X

X X X X

X X X X

21 22 2*1 *1 ... *1NX X X 1 21 2 22 2...K K KN NX X X X X X

1 1 2 2 ...K K K K KN KNX X X X X X

VETTORE 'X Y

12

2

21 22 2

21

1 1.............1.

...... * ..

......................... ..

......

i

i i

N

K KNK N

Ki i

YY

X YY

X X X

X XX YX Y

Page 10: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

10

PRODOTTO 1' 'X X X Y

11

2 22

2

2 2 2

2

2

ˆ

ˆ.............

........

...............................................

........ ˆ

i

i ii Ki

i i Ki i

Ki Ki i KiKi i K

Y

X YN X X

X X X X

X X X XX Y

Page 11: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

11

DALLE RELAZIONI MATRICIALI VISTE SEGUONO DUE RISULTATI UTILI PER SUCCESSIVI SVILUPPI:

1)

PERCHÈ

2)

PERCHÈ:

COME GIÀ VISTO

E PERCHÈ:

IL RISULTATO 1) CI DICE CHE IL PRODOTTO INCROCIATO TRA I REGRESSORI E GLI ERRORI È NULLO. CIÒ È LA TRADUZIONE CAMPIONARIA DELLA ASSUNZIONE , IN ALTRE PAROLE CHE I RESIDUI NON DEVONO DIPENDERE DAI REGRESSORI.

' ' ˆ2 2 0ˆ

ESSX Y X X

1' 'ˆ X X X Y

' ' 0E X

0ˆ'')ˆ('ˆ' XXYXXYXX

YXYY ''ˆ'ˆ'ˆ

ˆ''ˆ''ˆ2'ˆ'ˆ XXYXYY

Page 12: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

12

PROPRIETÀ DEGLI STIMATORI OLS

VALORE ATTESO DI

CON

ALLORA:

0

VETTORE DI STIMATORI CORRETTI

1 1' ' ' '

1 1' ' ' '

1' '

ˆ X X X Y X X X X

X X X X X X X

X X X A

1' 'A X X X

ˆ

ˆ

ˆ

E E A AE

E

Page 13: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

13

VARIANZA DEGLI STIMATORI

DATO CHE GLI ELEMENTI DI A SONO NON STOCASTICI.

'

2

1 1 1 1

2

1 1

ˆ ˆ ˆ

ˆ ˆ ˆ................. ..........

...................................................................................

ˆ ˆ ˆ...........................

K K

K K K K

V VAR E

E E

E E

1 1

1

' '

' ' ' ' ' '2 2

ˆ ˆ ˆ........ .........

...................... .............................

ˆ ˆ ˆ................

ˆ ˆ ˆ

K

K K

VAR COV

COV VAR

VAR E E A A

E A A AE A A I A AA

'1 1' ' ' ' '

1 1' ' '

1 1 1' ' ' '

AA X X X X X X

X X X X X X

X X X X X X X X

NB LA matrice cross product è simmetrica

Page 14: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

14

PERTANTO:

VEDIAMO SE TALE VARIANZA È MINIMA.

RICORDANDO CHE , CONSIDERIAMO LA

MATRICE ARBITRARIA E LO STIMATORE

LINEARE alternativo .

LA MEDIA DI È:

CHE RISULTA UGUALE A SE E SOLO SE

CALCOLIAMO ORA:

QUESTO PERCHÈ

' 1'2ˆ ˆE X X

ˆ AY C b

b

1' 'E b X X X X C X I C X

0C X

' 'VAR b E b b E A C A C

)()(

ˆ)()(

CAXCA

CYCYAYYCAb

IXXXXAX ')'( 1

)()( CACACXAXb

Page 15: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

15

PERTANTO:

MA

= 0 =

AFFINCHÈ

PERTANTO:

SI PUÒ DIMOSTRARE CHE LA MATRICE È POSITIVA SEMIDEFINITA. PERTANTO LA FORMA QUADRATICA AD ESSA ASSOCIATA È POSITIVA, ALLORA . QUANDO TALE FORMA QUADRATICA È NULLA, ALLORA TUTTI GLI ELEMENTI DI SONO ZERO E PERTANTO .

QUINDI È BLUE

' '' '

'2

VAR b E A C A C A C E A C

A C A C

' ' ' ' '

1 1 1 1' ' ' ' ' ' ' '

1' '

A C A C AA C A AC CC

X X X X X X C X X X X X X C CC

X X CC

E b

1' ' '2 2ˆVAR b X X CC VAR CC

'CC

C ˆb

ˆVAR b VAR

Page 16: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

16

CONSISTENZA IN MEDIA QUADRATICA DEGLI STIMATORI OLS

Gli stimatori dei minimi quadrati sono consistenti in media quadratica.

Per dimostrare questa proprietà è necessaria un’ipotesi ulteriore, cioè

Con matrice finita e non singolare. Si osservi che tale matrice contiene le medie delle variabili esplicative, dei loro quadrati e dei loro

prodotti. E’ quindi ragionevole assumere che il limite di queste quantità, al divergere della numerosità campionaria, sia finito. Per

dimostrare la consistenza in media quadratica è necessario verificare le due condizioni seguenti

XXn

XXn

'1

lim

XX

Page 17: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

17

ˆlim En

1...kj ogniper 0ˆlim j

nVar

La prima condizione è verificata: essendo gli stimatori OLS non distorti per n finito, lo sono anche asintoticamente. Per verificare la seconda condizione si considera il limite della matrice di varianza e covarianza di ,

00'

lim

)'(lim

12

12

XXn

n

n

XX

n

XX

Asintoticamente la matrice di varianza e covarianza converge ad una matrice nulla e di conseguenza le varianze degli stimatori tendono a zero.

Page 18: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

18

STIMA DI 2

Obiettivo : ricavare una stima della varianza dei termini di errore del modello. Poiché gli errori non sono osservabili pare ragionevole stimare utilizzando la devianza residua RSS. Il punto è determinare il divisore della devianza residua: la soluzione possiamo trovarla imponendo il vincolo che lo stimatore di appartenga alla classe degli stimatori corretti.

2

MYYXXXI

YXXXXYXY

)')'((

')'()ˆ(ˆ1

1

dove ')'( 1 XXXXIM

M è una matrice SIMMETRICA e IDEMPOTENTE

Matrice idempotente

Una matrice simmetrica P è idempotente se PP = P.

Page 19: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

19

0')'( 1 XXXXXXMX

MXMMY )(ˆ

Dalla Idempotenza e simmetria di M segue che

MMMMM ''')'(ˆ'ˆ

Calcolando il valore atteso:

scalare è ' poiché

)'()'()ˆ'ˆ(

M

MTrEMEE

)()()'(

)'()ˆ'ˆ(22 MTrIMTrETrM

MTrEE

si definisce traccia di una matrice, e si utilizza il simbolo tr(A), la somma dei valori di tutti gli elementi che stanno nella diagonale principale della matrice A.

tr(AB) = tr(BA)

Page 20: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

20

Dalla definizione di M si ha

knITrITr

XXXXTrITr

XXXXTrITrMTr

kn

n

)()(

')'()(

')'()()(1

1

kn

knE

ˆ'ˆ

s

pertanto )()ˆ'ˆ(

2

2

rappresenta lo stimatore corretto della varianza del termine di errore del modello.

La radice quadrata dello stimatore, s, viene detta errore standard della stima.

22

2 )()E(s

kn

kn

Page 21: 1 IL MODELLO DI REGRESSIONE MULTIPLA Per le N osservazioni possiamo scrivere: VETTORE COLONNA (N*1)

21

Una spiegazione intuitiva della

circostanza che lo stimatore non

distorto è ottenuto dividendo la somma

dei quadrati dei residui per n−k,

anziché per n, è costituita dal fatto

che, benché si considerano n residui,

soltanto n−k sono linearmente

indipendenti infatti le equazioni0ˆ'')ˆ('ˆ' XXYXXYXX

impongono k vincoli (si dimostra facilmente esplicitando il sistema che la somma dei residui e la somma dei prodotti dei residui per ciascuna delle variabili esplicative deve essere uguale a zero). Determinato il valore dei primi n−k residui, gli ultimi dovranno essere tali da soddisfare la condizione sopra . Vi sono k vincoli, uno per ogni coefficiente di regressione stimato, e si perdono quindi k gradi di libertà.