18
1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria un’ipotesi sulla distribuzione degli errori in modo da poter derivare una statistica con distribuzione nota per n finito. Si assume perciò che il vettore degli errori abbia una distribuzione normale multivariata. Di conseguenza qui diventa fondamentale l’ipotesi ) , 0 ( 2 I N ) ' , ( ˆ 1 2 X X N ) ' , ( ˆ 1 2 jj j j X X N Da cui consegue che

1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

Embed Size (px)

Citation preview

Page 1: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

1

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE

MULTIPLA (parte 1)

Per effettuare test e costruire intervalli di confidenza è necessaria un’ipotesi sulla distribuzione degli errori in modo da poter derivare una statistica con distribuzione nota per n finito. Si assume perciò che il vettore degli errori abbia una distribuzione normale multivariata. Di conseguenza qui diventa fondamentale l’ipotesi

),0( 2IN

)',(ˆ 12 XXN

)',(ˆ 12 jjjj XXN

Da cui consegue che

Page 2: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

2

)1,0(

'

ˆ

12N

XX jj

jj

Dove rappresenta l’elemento jj sulla diagonale principale della matrice

1' jjXX

1' XX

Questa quantità non può essere utilizzata come statistica di riferimento perché la varianza non è nota. E’ necessario utilizzare lo stimatore della

varianza. Per derivare la sua distribuzione si considerino le quantità:

)(2

2

ˆ'ˆkn

)(2

2

2

)( kns

kn

è indipendente da j

Page 3: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

3

Di conseguenza la quantità

2

2

12 '

ˆ

s

XXt

jj

jj

j

è il rapporto fra una normale standardizzata e la radice di una variabile casuale chi-quadrato con n−k gradi di libertà rapportata ai suoi gradi di libertà. Poiché il numeratore e il denominatore sono indipendenti essa ha una distribuzione t di Student con n−k gradi di libertà. Semplificando si ha

kn

jj

jjj t

XXst

1'

ˆ

Page 4: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

4

Il test di significatività sui parametri del modello di

regressione

E’ opportuno, dopo aver stimato un modello di regressione, sottoporre a test la significatività dei coefficienti per verificare se le singole variabili esplicative contribuiscono a spiegare le variazioni della variabile dipendente. E’ infatti prassi verificare l’ipotesi nulla

H0: per j= 1, 2,…,k.

H1: per j= 1, 2,…,k.

Se essa non è respinta la j-esima variabile esplicativa non ha effetto sulla variabile dipendente.

La statistica test di riferimento è la appena definita (detta t-ratio), che sotto ipotesi nulla diventa:

ˆ

0j

kn

jj

jj t

XXst

1'

0j

jt

Page 5: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

5

La regione critica del test è

knj tt ,2/

I software statistici generalmente per ogni parametro stimato forniscono il p-valore di un test bidirezionale. Per ciascuna ipotesi nulla di non significatività i software riportano la probabilità

dove è il valore osservato della statistica test ossia del t-ratio.

In altri termini, il p-valore è il minimo livello di significatività per il quale l’ipotesi nulla può essere respinta in un test bidirezionale.

)|(|Pr,

2

osskn

ttob

osst

Page 6: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

6

Intervalli di confidenza sui parametri del modello di

regressione

Dall’ipotesi di normalità dei termini di errore del modello consegue che

ha una distribuzione completamente nota (t-Student con (n-k) g.l), pertanto costituisce la quantità pivot di riferimento.

Fissato il livello di confidenza 1−α si ha

1'

ˆ

jj

jjkn

XXst

1Prob 2/2/ ttt kn

1'ˆ'Prob 12/

12/ jjjjjj XXstXXst

Page 7: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

7

12/

12/ 'ˆ;'ˆ jjjjjj XXstXXst

Per cui, gli estremi dell’intervallo di confidenza sono:

Limite inferiore

Limite superior

e

Page 8: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

8

Significato dei coefficienti di regressione ed elasticità

Il coefficiente esprime la variazione che subisce la variabile dipendente Y in seguito a una variazione unitaria della variabile esplicativa , mentre il valore delle altre variabili esplicative rimane costante. Attenzione però!!! I valori dei coefficienti dipendono dall’unità di misura delle variabili quindi la loro entità non fornisce informazione sull’importanza dei diversi regressori rispetto alla variabile Y. Informazioni

sull’importanza dei diversi regressori possono essere desunte stimando l’elasticità della variabile dipendente rispetto ad essi.

L'elasticità della Y rispetto alla variabile esplicativa è il rapporto fra la variazione percentuale della Y e la variazione percentuale della . Essa non dipende dall'unità di misura ed è quindi

j

jX

jX

jX

Page 9: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

9

facilmente interpretabile. L’elasticità è data da

Y

X

Y

X

X

Y

X

XYY

jj

j

j

j

jX j

Che può essere agevolmente stimata nel seguente modo:

Y

X jjX j

ˆˆ

Pertanto una variabile esplicativa ha un effetto maggiore sulla variabile dipendente, rispetto alle altre variabili esplicative, se il valore assoluto dell’elasticità della Y rispetto a è maggiore.

jX

jX

Page 10: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

10

Si consideri una funzione di domanda del burro:

YPPQ MBB 4321

funzione del prezzo del burro, della margarina, e del reddito Y delle famiglie. Per questo modello è possibile calcolare:

B

BB Q

P2

B

MM Q

P3

BY Q

Y4

Elasticità rispetto al prezzo

Elasticità rispetto al prezzo della margarina

Elasticità rispetto al reddito delle famiglie

Page 11: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

11

Il valore dell'elasticità è diverso in ogni punto della funzione di regressione ed è quindi importante che i valori di Y e di utilizzati per calcolarla siano rappresentativi. Quando le osservazioni sono riferite ad un unico periodo è ragionevole considerare l’elasticità in corrispondenza dei valori medi; se invece i dati sono costituiti da serie storiche può essere utile considerare i valori più recenti.

jX

Page 12: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

12

Scomposizione della devianza e indice di

determinazioneDopo aver stimato il modello di regressione è opportuno verificare l’adattamento ai dati. A tal fine si utilizza l’indice di determinazione. Per il calcolo di tale indice ripercorriamo la procedura vista per il modello di regressione semplice )ˆ()ˆ( YYYYYY iiii

)ˆ)(ˆ(2)ˆ()ˆ(

)(22

2

YYYYYYYY

YY

iiiiii

i

per i vincoli imposti dalle equazioni normali, il doppio prodotto si annulla, pertanto

Page 13: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

13

22

222

ˆ)ˆ(

)ˆ()ˆ()(

ii

iiii

YY

YYYYYY

Devianza spiegata (ESS)

Devianza residua (RSS)

L’accostamento del modello ai dati è tanto migliore quanto più elevata è la percentuale di devianza totale costituita dalla devianza spiegata. Di conseguenza l’adattamento può essere misurato mediante il rapporto fra la devianza spiegata e la devianza totale. Si ottiene così l’indice di determinazione

TSS

RSS

TSS

ESS

YY

YYR

i

i

1

)(

)ˆ(2

22

Page 14: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

14

L’indice di determinazione esprime qual è la percentuale di devianza della variabile dipendente (TSS) spiegata dall’insieme delle variabili esplicative nel loro complesso. Questo indice varia nell’intervallo [0,1]; é uguale ad 1 quando la devianza residua è nulla ossia vi è un perfetto adattamento del modello ai dati. L’indice di determinazione invece è uguale a zero quando la devianza spiegata è nulla quindi i regressori non sono in grado di spiegare le variazioni della variabile dipendente.

Page 15: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

15

Il test F sulla significatività del modello di regressione

Dopo aver stimato un modello di regressione è opportuno verificarne l’utilità. La sua costruzione si giustifica se l’introduzione dei regressori migliora significativamente la spiegazione del fenomeno. L’utilità apportata dalla costruzione di un modello di regressione multipla può perciò essere verificata mediante un test congiunto sui parametri sottoponendo a test l’ipotesi nulla

che implica che nessun regressore contribuisce a spiegare le variazioni della Y. L’ipotesi alternativa assume come modello quello di regressione, per cui

0...:0 32 kH

0un almeno:1 jH

Page 16: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

16

Il test quindi verifica se la devianza spiegata è sufficientemente ampia da giustificare la costruzione del modello. La statistica test è data da

)()ˆ(

)1()ˆ(

)/(

)1/(2

2

knYY

kYY

knRSS

kESSF

ii

i

e sotto l’ipotesi nulla si distribuisce come una variabile casuale F di Fisher (Snedecor) con k −1 gradi di libertà al numeratore e n−k al denominatore.

Al numeratore della statistica test c’è la devianza spiegata rapportata ai suoi gradi di libertà, che risultano k −1. Essa viene confrontata con la varianza dei residui. Il valore della statistica test aumenta al crescere della devianza spiegata. Di conseguenza l’ipotesi nulla risulta meno verosimile per valori elevati della statistica test e quindi la regione critica si trova nella coda destra della distribuzione.

Page 17: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

17

Pertanto, al livello di significatività α la regione critica del test è

)1;;1( knkFF

Dove è il quantile della distribuzione F che isola alla sua sinistra un’area pari a (1- α).

Si osservi che la statistica F contiene le stesse informazioni presenti nell'indice di determinazione e tra i due esiste la seguente relazione

)1;;1( knkF

11)/(

)1/(2

2

k

kn

R

R

knRSS

kESSF

La differenza è costituita dal fatto che la valutazione dell’adattamento del modello ai dati mediante l’indice è realizzata con un approccio di tipo descrittivo, mentre nel test sulla significatività della regressione l’approccio è di tipo inferenziale.

2R

Page 18: 1 INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1) Per effettuare test e costruire intervalli di confidenza è necessaria unipotesi sulla

18

TAVOLA ANOVA

CAUSA DEVIANZE GRADI DI MSEVARIAZIONE LIBERTÀ

MODELLO ESS k-1 ESS/(k-1)

RESIDUO RSS (n-k) RSS/(n-k)

TOTALE TSS (n-1)