27
7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile quantitativa Y da un insieme di m variabili esplicative quantitative X 1 , …, X m , dette regressori, mediante un modello lineare. Esempio: Si consideri quale variabile risposta (Y ) la spesa familiare mensile. Y dipende da una serie di variabili quali ad esempio il reddito familiare mensile (X 1 ), il numero di componenti della famiglia (X 2 ), l’età del capofamiglia (X 3 ), ecc… In generale si indichi con (X 1 , …, X m ) l’ insieme delle variabili da cui può dipendere la spesa familiare Y Y = f(X 1 , …, X m ) + ε= β 0 + β 1 X 1 + β 2 X 2 + … + β m X m + ε (2.1) La funzione f dipende da parametri che determinano l’influenza di ogni singolo regressore sul valore di Y. Nella formulazione del modello di regressione multipla la linearità vale rispetto ai parametri. Il valore della spesa Y per tutte le famiglie con il medesimo insieme di valori dei regressori (ad esempio X 1 =1500€, X 2 =2 componenti, X 3 =35 anni) non sarà lo stesso; infatti: 1) vi sono infiniti fattori che influenzano la spesa delle famiglie che non è possibile né rilevare né considerare nella funzione f; 2) nei fenomeni reali vi è un elemento imprevedibile di casualità; 3) i valori di Y possono essere rilevati e/o misurati con errore. La relazione che lega Y a (X 1 , …, X m ) non è quindi esprimibile mediante una funzione matematica, pertanto nell’equazione (2.1) viene aggiunta una variabile aleatoria ε che riassume l’effetto su Y di tutti quei fattori non inclusi nella funzione f. 2.1 Il modello di regressione lineare multipla Equazione del modello Y = β 0 + β 1 X 1 + … + β m X m + ε (2.2) il termine β 0 + β 1 X 1 + … + β m X m rappresenta la componente sistematica del modello, la variabile casuale ε è la componente d’errore del modello. I parametri (non noti) del modello sono: β 0 (l’intercetta), e β 1 , β 2 , … β m (i coefficienti di regressione). Ipotesi sui regressori (X 1 , …, X m ) (X 1 , …, X m ) sono variabili deterministiche, ovvero misurate senza errore; (nell’analisi di alcuni fenomeni reali tale ipotesi non è realistica; può essere resa meno restrittiva).

2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

  • Upload
    lyphuc

  • View
    222

  • Download
    3

Embed Size (px)

Citation preview

Page 1: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

7

2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile quantitativa Y da un insieme di m variabili esplicative quantitative X1, …, Xm, dette regressori, mediante un modello lineare. Esempio: Si consideri quale variabile risposta (Y ) la spesa familiare mensile. Y dipende da una serie di variabili quali ad esempio il reddito familiare mensile (X1), il numero di componenti della famiglia (X2), l’età del capofamiglia (X3), ecc… In generale si indichi con (X1, …, Xm) l’ insieme delle variabili da cui può dipendere la spesa familiare Y

Y = f(X1, …, Xm) + ε= β0 + β1 X1 + β2 X2 + … + βm Xm + ε (2.1) La funzione f dipende da parametri che determinano l’influenza di ogni singolo regressore sul valore di Y. Nella formulazione del modello di regressione multipla la linearità vale rispetto ai parametri. Il valore della spesa Y per tutte le famiglie con il medesimo insieme di valori dei regressori (ad esempio X1=1500€, X2=2 componenti, X3=35 anni) non sarà lo stesso; infatti: 1) vi sono infiniti fattori che influenzano la spesa delle famiglie che non è possibile né rilevare né considerare nella funzione f; 2) nei fenomeni reali vi è un elemento imprevedibile di casualità; 3) i valori di Y possono essere rilevati e/o misurati con errore. La relazione che lega Y a (X1, …, Xm) non è quindi esprimibile mediante una funzione matematica, pertanto nell’equazione (2.1) viene aggiunta una variabile aleatoria ε che riassume l’effetto su Y di tutti quei fattori non inclusi nella funzione f.

2.1 Il modello di regressione lineare multipla

Equazione del modello

Y = β0 + β1 X1 + … + βm Xm + ε (2.2) il termine β0 + β1 X1 + … + βm Xm rappresenta la componente sistematica del modello, la variabile casuale ε è la componente d’errore del modello. I parametri (non noti) del modello sono: β0 (l’intercetta), e β1, β2, … βm (i coefficienti di regressione).

Ipotesi sui regressori (X1, …, Xm)

(X1, …, Xm) sono variabili deterministiche, ovvero misurate senza errore; (nell’analisi di alcuni fenomeni reali tale ipotesi non è realistica; può essere resa meno restrittiva).

Page 2: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

8

Ipotesi su εεεε

1. L’effetto su Y di tutti i fattori non rilevati e/o non rilevabili può essere positivo o negativo; e non dipende dai valori dei regressori; ad es.: il valore della spesa Y per le famiglie con X1=1500€ di reddito, X2=2 componenti, X3=35 anni potrà essere per alcune di esse esattamente pari a f(X1, X2, X3), per altre inferiore, per altre ancora superiore.

E(ε|X1, …, Xm) = E(ε) = 0 � E(Y|X1, …, Xm) = β0 + β1X1 + … + βmXm

da cui k

m1

X

X ..., ,X|E(Y

∂∂ )

= βk

βk rappresenta la variazione attesa di Y per una variazione unitaria positiva di Xk quando gli altri regressori restano costanti (qualunque sia il loro valore).

2. La variabilità dell’effetto di tutti i fattori non rilevati e/o non rilevabili non dipende dai

valori dei regressori;

V(ε|X1, …, Xm) = V(ε) = σ2 � V(Y|X1, …, Xm) = σ2 (ipotesi di omoschedasticità).

3. Gli effetti sulla spesa Y dei fattori non rilevati per la famiglia i non dipendono da quelli

relativi alla famiglia j:

Cov (εi, εj) = 0 ∀ i ≠ j dove εi ed εj sono il valore della variabile aleatoria per le due famiglie (ipotesi di incorrelazione).

4. (ipotesi non essenziale al modello lineare classico, ma necessaria per la stima intervallare e

il controllo di ipotesi sui parametri)

ε ∼ N(0, σ2)

2.2 Lo stimatore dei minimi quadrati ordinari dei parametri del modello

Si suppone che il modello (2.2) valga nella popolazione oggetto di interesse. Poiché nella maggior parte dei casi la popolazione nel suo complesso non è direttamente rilevabile, al fine di stimare i parametri del modello (2.2) ci si deve basare sulle informazioni contenute su un campione causale di n unità, su ciascuna delle quali vengono rilevati i valori della variabile Y e degli m regressori:

(Yi, Xi1, …, Xim) per i = 1,…, n. (2.3) Se il campione viene estratto con criterio casuale semplice allora gli n vettori di variabili dell’equazione (2.3) sono indipendenti. Posto il modello (2.2), per la generica osservazione campionaria vale la seguente relazione:

Page 3: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

9

Yi = β0 + β1 Xi1 + … + βm Xim + εi (2.4)

che, formulata per ciascuna delle n unità del campione, dà luogo al seguente sistema di n equazioni in m+1 incognite: Y1 = β0 + β1 X11 + … + βm X1m + ε1 … Yi = β0 + β1 Xi1 + … + βm Xim + εi … Yn = β0 + β1 Xn1 + … + βm Xnm + εn Indicando con: ��y il vettore n×1 dei valori della variabile dipendente per le n unità del campione; ��X la matrice n×(m+1) dei valori degli m regressori per le n unità del campione. La matrice

contiene, oltre ai valori dei regressori, una colonna supplementare composta da n valori tutti pari a 1 in corrispondenza dell’intercetta del modello.

��ββββ il vettore (m+1)×1 dei parametri del modello; ��εεεε il vettore n×1 dei termini d’errore; il sistema può essere riscritto in maniera compatta e semplificata nella forma di un’equazione matriciale:

y = Xββββ + εεεε (2.5) Poiché ciascuna osservazione del campione può essere interpretata come una realizzazione empirica delle corrispondenti variabili in popolazione, le condizioni ipotizzate sui termini del modello possono quindi essere formulate in maniera compatta rispetto ai termini dell’equazione (2.5). 1) E(εεεε) = 0 vettore nullo di n elementi da cui E(y|X) = Xββββ; 2+3) V(εεεε) = E(ε εε εε εε ε’) = ΣΣΣΣ =σ2In dove In indica la matrice identità di ordine n (ipotesi di sfericità dei termini d’errore) da cui V(y|X) = E[(y − E(y|X))(y − E(y|X))T] = E[(y − Xββββ) (y − Xββββ)T] = E(ε εε εε εε εT) = ΣΣΣΣ = σ2In 4) εεεε ∼ NMV(0, σ2In) da cui y|X ∼ NMV(Xββββ, σ2In). Cioè i residui si distribuiscono come una normale multivariata di parametri 0 e σ2In. Questa ipotesi non necessaria nella fase di stima puntuale riveste un ruolo fondamentale per la stima intervallare e la verifica di ipotesi. Oltre agli m+1 parametri incogniti presenti nell’equazione del modello dovrà essere stimato anche il parametro σ2. Il metodo dei minimi quadrati può essere utilizzato per stimare il vettore di parametri incogniti ββββ. A partire dal vettore delle stime b calcolate rispetto a un campione di n unità è possibile determinare il vettore y* dei valori TEORICI della variabile dipendente per le n unità del campione nell’ipotesi di perfetta dipendenza lineare tra Y e gli m regressori:

Page 4: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

10

y* = Xb (2.6)

yi

* = b0 + b1 xi1 + … + bm xim per i = 1, …, n. La differenza tra gli n valori EMPIRICI ed i corrispondenti valori TEORICI di Y definisce il vettore dei residui campionari:

e = y − y* = y − Xb (2.7) ei = (yi − yi

*) = (yi − b0 − b1 xi1 − … − bm xim) per i = 1, …, n. Gli n valori di ei sono n determinazioni campionarie del termine d’errore ε del modello. Come è noto il metodo dei minimi quadrati ricerca il vettore di coefficienti b in modo da rendere minima la somma dei quadrati degli scarti tra ordinate empiriche e ordinate teoriche, o equivalentemente, la somma dei residui al quadrato:

Φ(b) = 2

1

* )(�=

−n

iii yy =�

=

n

1i

2ie = eT e = (y − Xb) T (y − Xb) =

= y T y − b T X T y − y T X b + bT X T X b = y Ty − 2 bT X T y + bT X T X b (*) Uguagliando a zero la derivata di Φ(b) calcolata rispetto al vettore di parametri incogniti

bb

∂Φ∂ )(

= − 2X T y + 2X T X b = 0

e semplificando si ottiene un sistema di m+1 equazioni in m+1 incognite: X T X b = X T y (equazioni normali) In forma esplicita:

��������

��������

���

���

��

=

=

=

===

===

==

n

i

2im

n

iimi1

n

iim

n

ii2im

n

ii1im

n

iim

n

ii2i1

n

i

2i

n

ii1

n

ii2

n

ii1

x

...

xx

x

...xxxxx

............

xxxx

xxn

1

1

1

111

111

1

11

...

...

����

����

...1

0

mb

b

b

=

��������

��������

...

=

=

=

n

iiim

n

iii1

n

ii

yx

yx

y

1

1

1

Nel caso particolare m = 1 si ha il modello di regressione lineare semplice. Proprietà della matrice XTX:

1) quadrata (m+1)×(m+1); 2) simmetrica; 3) i termini sulla diagonale principale sono le somme dei quadrati dei valori delle colonne di X; 4) i termini fuori dalla diagonale principale sono i prodotti scalari tra le coppie di colonne di X.

Page 5: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

11

Allo stesso sistema di equazioni normali si perviene rileggendo il problema da un punto di vista geometrico. La funzione (*) che si vuole minimizzare può infatti essere interpretata come la distanza del vettore y dal vettore Xb che, al variare di b descrive lo spazio colonna della matrice X. Quindi minimizzare eT e equivale a trovare ( )Xby

b ,min

d .

Poiché la distanza di un vettore da un sottospazio è minima se si valuta la distanza del vettore dalla sua proiezione ortogonale sul sottospazio, si tratta di trovare quel vettore b* che definisce la proiezione ortogonale di y sullo spazio colonna di X. Poiché il vettore y- Xb* è ortogonale a ogni vettore dello spazio colonna di X, ovvero

0, =− *XbyXb ∀ b

che equivale a scrivere

( ) ( ) 0=− *XbyXb T da cui si ricava

( )[ ] 0=− *XbyXb TT . Essendo Tb diverso dal vettore nullo dovrà essere

( ) 0=− *XbyXT o equivalentemente

yXXb*X TT = (sistema normale) Se XXT è invertibile il sistema ammette una sola soluzione

( ) yXXXb* TT 1−= (2.8)

Se le colonne di X sono linearmente dipendenti la matrice XXT è singolare e il sistema normale ha infinite soluzioni. Dalla prima delle m equazioni normali si ha: b0 = y − b1 1x − b2 2x − … bm mx . da ciò si evince che il punto di coordinate ( )y,x soddisfa l’equazione di regressione. Inoltre poiché

���===

=+++n

ii

n

iimm

n

ii yxbxbnb

111110 ...

dove il primo membro equivale a �=

n

iiy

1

* si ricava

��==

=n

ii

n

ii yy

11

*

da cui

( ) 011

* ==− ��==

n

ii

n

iii eyy

ad indicare che i residui dei minimi quadrati hanno media nulla. Inoltre, per costruzione

Page 6: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

12

( ) 0=− XbyX T o equivalentemente

0=eX T ovvero il vettore dei residui dei minimi quadrati e è ortogonale (o normale) allo spazio colonna di X, da cui il nome di equazioni normali, e per la relazione ( ) ( ) 0=− *XbyXb T esso è ortogonale anche al vettore y*. Sostituendo la (2.8) nella relazione y* = Xb che descrive le ordinate teoriche si ottiene:

( ) HyyXXXXy ==− TT 1

* . (2.9) e quindi

( ) ( ) MyyHIyXXXXye =−=−=− TT 1

La matrice ( ) TT XXXX1−

, solitamente indicata con la lettera H e denominata matrice cappello1 è la matrice di proiezione di y sullo spazio generato dalle colonne di X. Per essa e per la corrispondente matrice M=I -H valgono le seguenti proprietà: ��H è una matrice nxn simmetrica ��M è una matrice nxn simmetrica

��HX=X infatti ( ) XXXXXX =− TT 1

�� 0XHIMX =−= )( infatti IX -HX=X-X=0

��H è idempotente HH=H2=H infatti

( ) ( ) ( ) HXXXXXXXXXXXX ==−−− TTTTTT 111

�� )( HIM −= è idempotente infatti

)())(( HIHHHIHIHI −=+−−=−−

Le matrici H e M sono inoltre fra loro ortogonali: 0)( =−=−⋅ HHHIH

2.3 La stima dei parametri a partire dalle variabili scarto dalla media

Si considerino le variabili in forma di scarti dalla media:

AXX11IX11Xx1XX =

��

� −=

��

�−=−= Tnnn

Tnn

Tn nn

11~ dove X

~ è una matrice n×m

����

����

����

����

=

111

1

111

111

1

10

10

001

��

��

nA

1 Questa denominazione è mutuata dalla letteratura anglosassone in cui i valori teorici vengono indicati con y . Il simbolo ^ “hat” viene tradotto in italiano come “cappello” da cui il nome di “matrice cappello” perché è la matrice che trasforma i valori osservati y nei valori teorici y .

Page 7: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

13

La matrice di centering A è simmetrica e idempotente A=A2 Vale in particolare:

�� 0A1 =n

�� eAe = (dove e è il vettore dei residui OLS a media nulla) Indicato con b il vettore delle stime OLS e con e il vettore dei residui vale y=Xb+e. Se si opera sulla matrice X la partizione [ ]21 XxX = , dove n1x =1 , si può scrivere

ebXxy ++= 1201b . Premoltiplicando per A si ottiene:

ebAXAy += 12

poiché 01 == nA1Ax e eAe = .

Premoltiplicando per T2X si ricava:

1222 bAXXAyX TT =

poiché 02 =eX T in quanto i residui OLS sono ortogonali alle colonne di X. Poiché A è simmetrica e idempotente

( ) ( ) ( ) ( ) 1222 bAXAXAyAX TT =

1

~~~~bXXyX TT = (2.10)

cioè b1 che è soluzione del sistema di equazioni normali originario è anche soluzione della (2.10).

Inoltre poiché Txx

T nSXX =~~ è la matrice delle devianze-codevianze tra gli m regressori e

xyT nsyX =~~

è il vettore delle codevianze tra Y e gli m regressori si ha:

xyxxTxxxy nn sSbbSs 1

11−=�=

Per comprendere la relazione che intercorre tra i coefficienti di un modello di regressione multiplo e quello delle stesse variabili in altrettanti modelli di regressione semplice si consideri il seguente semplice esempio riferito a due soli regressori espressi in forma di scarti dalla media. Siano:

��

���

�=

2212

1221

ss

ssSxx e �

���

�=

2

1

y

y

yx s

ss

da cui

=��

���

���

���

−−

−=

2

1

2212

1221

212

22

21

1

y

y

s

s

ss

ss

sssb

����

����

−−

−−

=

����

����

−+−−

=

1221

1212

1221

2121

212

22

21

212112

212

22

21

212221

1

1

bb

bbbbb

bbb

sss

sssssss

ssss

byy

yy

yy

yy

Page 8: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

14

E’ quindi facile verificare come i coefficienti di regressione nel modello multiplo siano funzione dei coefficienti di regressione delle medesime variabili in un modello semplice, ma tengono anche conto dell’interdipendenza tra i regressori e della dipendenza della variabile dipendente anche da tutti gli altri regressori inclusi nel modello. Per questa ragione i coefficienti di regressione in un modello di regressione multiplo si dicono “coefficienti di regressione parziale”. Ciascuno di essi, di cui il generico sarà bj, esprime la variazione media della variabile dipendente, per ogni variazione unitaria della corrispondente variabile indipendente, a parità di valori assunti rispetto agli altri regressori nel modello. Essendo dotati di unità di misura i valori dei diversi coefficienti di regressione non possono essere tra loro confrontati e quindi in nessun modo possono essere assunti quali indicatori dell’importanza della componente variabile indipendente nella spiegazione della variabilità della y. I coefficienti di regressione del modello multiplo coincidono con quelli di altrettanti modelli semplici qualora i regressori siano fra loro incorrelati o, in termini geometrici, qualora le colonne della matrice X siano tra loro ortogonali.

2.4 La stima dei parametri a partire dalle variabili standardizzate

Se si considerano le variabili standardizzate, poiché la matrice di varianze e covarianze di variabili standardizzate è la matrice di correlazione delle variabili generiche, lo stimatore dei minimi quadrati assume la forma:

b = Rxx-1r xy

dove Rxx è la matrice delle correlazioni tra gli m regressori e r xy è il vettore delle correlazioni tra Y e gli m regressori.

Poiché 2121 −−= xxxxxxxx DSDR e y

xyxxxy s

121 sDr −=

11212121121 11ˆ bsSDsDDSDb ≠== −−−

yxyxxxx

yxyxxxxxxxx ss

Il generico coefficiente kb , misura la variazione media della variabile Y standardizzata per una variazione unitaria positiva della variabile Xk standardizzata, quando gli altri regressori restano costanti. I coefficienti di regressione così determinati possono essere confrontati per stabilire quali regressori hanno un effetto maggiore su Y.

2.5 L’indice di determinazione lineare R2

La devianza totale di Y nel modello di regressione lineare multipla può essere scomposta come segue:

Dev(Y) = DevReg(Y) + DevDisp(Y) (2.11)

dove

Page 9: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

15

��Dev(Y) = ( )�=

−n

ii yy

1

2è la devianza totale di Y

��DevReg(Y)= ( )�=

−n

ii yy

1

2* è la devianza di regressione di Y

��DevDisp(Y) = ( )�=

−n

iii yy

1

2* è la devianza residua o di dispersione di Y.

Indice di determinazione lineare nel modello di regressione lineare semplice

L’indice è definito come:

)(

1

)(2

YDev

DevDisp

YDev

DevRegR

−== (2.12)

In un modello di regressione lineare semplice la devianza di regressione risulta:

DevReg(Y) ( ) ( ) ( )���===

−=−−+=−=n

ii

n

ii

n

ii xxbxbbxbbyy

1

221

1

21010

1

2*

),()( 121 YXCodevbXDevb == poiché

2

221 )(

),(

XDev

YXCodevb =

Quindi

)(

),(

)(

)( 1212

YDev

YXCodevb

YDev

XDevbR == (2.13)

Dividendo l’espressione (2.13) per (n-1):

( )( ) yy

xy

s

sb

nYDev

nYXCodevbR 112

1)(

1),( =−

−= (2.14)

Inoltre poiché x

y

s

sbb 11ˆ= si ha:

xyyx

xy

yy

xy

x

y rbss

sb

ss

s

s

sbR 111

2 ˆˆˆ === (2.15)

Indice di determinazione lineare nel modello di regressione lineare multiplo

Partendo dalla espressione (2.12) e osservando che in un modello di regressione lineare multiplo le tre devianze sono definite come:

��DevDisp(Y) = ( ) ��==

=−n

ii

n

iii eyy

1

2

1

2* = eTe

��Dev(Y)= 2ynT −yy

Page 10: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

16

��DevReg(Y)= ( ) 2ynTT −bXXb

(La devianza di regressione è infatti

DevReg(Y) ( ) ( ) =−−−−=−−= XbyXbyyyeeyy TTTT ynyn 22

( ) =−−+=−−+==−−=−++−−=

22

22

222

2

ynyn

ynynTTTTTTTTTT

TTTTTTTTTTT

XbXbeXbXbXbXbXbeXbXb

XbXbyXbXbXbyXbXbyyyyy

( ) 2ynTT −= bXXb poiché 02 =eXb TT per la proprietà dei residui) l’indice di determinazione lineare è allora

( )2

2

22 1

yn

yn

ynR

T

TT

T

T

−−=

−−=

yybXXb

yyee

(2.16)

Se si ragiona su variabili scarto:

=−=yyee~~12

T

T

R ( )

yybXXb

~~

~~

T

TT ( )yy

eyXb~~

~~

T

TT += =+=yy

eXbyXb~~

~~~

T

TTTT

yy

yXb~~

~~

T

TT

(2.17)

dove nella espressioni evidenziate è facile riconoscere l’analogo delle (2.13). Se il modello è riferito a variabili standardizzate, 2R rimane invariato 2R bRb ˆˆ

xxT= perché 1=yyT

brbRRr ˆˆ1 Txyxxxx

Txy == −

per esteso ymmyy rbrbrb ˆ...ˆˆ2211 +++

Poiché xyxxrRb 1ˆ −= , se le X sono incorrelate Ixx =R e quindi xyrb =ˆ . Pertanto per regressori

incorrelati vale 22

221

2 ... ymyyxyTxy rrrR +++== rr (2.18)

Così in tal caso, e solo in tal caso, l’R2 del modello multiplo si può esprimere come somma degli R2

di modelli semplici. L’indice di determinazione lineare varia fra 0 e 1 poiché 0 � DevReg(Y) � Dev(Y). R2 misura la frazione della variabilità di Y dovuta alla sua dipendenza lineare dai regressori. Presenta però alcuni inconvenienti. L’indice può assumere valori elevati anche quando la relazione non è di tipo lineare. Inoltre 2R cresce sempre al crescere del numero dei regressori, pertanto non è un indicatore adeguato per il confronto tra modelli con un diverso numero di regressori. Si considerino ad esempio due distinti modelli rispettivamente con due e un regressore: Modello I jjjj exbxbby +++= 22110

Modello II jjyj exbby ++= 110

Si vuole verificare che 2

II2I RR ≥ . Le devianze di regressione dei due modelli risultano:

Page 11: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

17

( ) ( )

( ) ( )22

212

12121

12

12

1221

2211I

,1

,1

,,

XYCodevs

s

r

rrrXYCodev

s

s

r

rrr

XYCodevbXYCodevbDevReg

yyyyyy

−−

+−−

=

=+=

( ) ( )11

111II ,, XYCodevs

srXYCodevbDevReg y

yy ==

Si ottiene quindi

( ) ( )

( ) ( )

( )0

1

1

2

11

,11

,1

,11

,1

212

2

1212

212

122122

212

21

212

121222

12

1222

1211

22

212

1212

212

212111221

11

2

22

212

121212

12

12211

12

2II

2I

≥−

−=

=−

−+=

−−

+−−

=

=��

���

��

���

−−

+���

���

−+−−

=

=��

���

��

���

−−

+��

���

�−

−−

=−

r

rrr

r

rrrrrr

r

rrrr

r

rrrrr

XYCodevs

s

r

rrr

r

rrrrrrXYCodev

s

s

ns

XYCodevs

s

r

rrrr

r

rrrXYCodev

s

s

nsRR

yy

yyyyyyy

yyy

yyyyyyyy

y

yyyy

yyy

y

da cui 02

II2I ≥− RR .2

La scomposizione delle devianze vale anche rispetto ai corrispondenti gradi di libertà: g.d.l. Dev(Y) n−1

DevDisp(Y) n−(m+1) DevReg(Y) m

Dal rapporto tra le devianze ed i gradi di libertà corrispondenti si ottengono le varianze: 1) la varianza totale di Y

2Ys = Dev(Y)/(n−1)

2) la varianza residua (o di dispersione) di Y

2es = DevDisp(Y)/(n−m−1) = e’e/(n−m−1)

2 Dall’ultima espressione si evince che la differenza fra i due indici è anche pari al quadrato del coefficiente di correlazione semiparziale fra Y e X2 una volta eliminato l’effetto della variabile X1 su X2:

( ) 21|22

12

2

12122II

2I 1 y

yy rr

rrrRR =

−−

=−

L’indice di correlazione semiparziale 21|2yr è nullo quando

1212 rrr yy = .

Dalla (2.18) si ricava inoltre: 2

1|221

21|2

2II

2I yyy rrrRR +=+=

da cui si osserva che se le variabili X1 e X2 sono incorrelate, ovvero 012 =r , si ritrova la scomposizione (2.18).

Page 12: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

18

3) la varianza di regressione di Y 2regrs = DevReg(Y)/m

2.6 Proprietà dello stimatore dei minimi quadrati ordinari

Lo stimatore dei minimi quadrati ( ) yXXXb TT 1−= gode delle seguenti proprietà:

1) b è una funzione lineare dei valori di Y; 2) b è uno stimatore corretto di ββββ:

( ) ( ){ } ( ) ( ){ } ( ) ( ) ��XXX��X

�XXXyXXXb =+=+==

−−−EEEE TTTTTT 111

3) V(b) = σ2 (XTX)-1

( ) ( ){ } ( ) ( ){ } ( ){ }=+=+==−−− �XXX

��X�

XXXyXXXb TTTTTT VVVV111

( ) ( ) ( ) ( ) ( ) ( ) 12121110

−−−−−==+= XXXXXIXXXXXX�XXX TT

nTTTTT V σσ

I termini sulla diagonale principale di V(b) determinano le varianze degli elementi di b, quelli fuori dalla diagonale principale ne determinano le covarianze. In particolare si è soliti indicare

( ) jjj cbV 2σ= dove jjc è il j-esimo elemento sulla diagonale principale di (XTX)-1. Una espressione

equivalente per ( )jbV è data da

( ) ( ) 20

2

1

1

jjj RXDev

bV−

= σ (2.19)

dove 20jR è l’indice di determinazione lineare multiplo della regressione di Xj sugli altri regressori.

Il termine ( )2011 jR− è noto come VIFj, dove la sigla VIF è l’acronimo dell’espressione inglese

Variance Inflation Factor (in italiano fattore di incremento della varianza). 4) Se Y|X ∼ NMV(Xββββ, σ2In) allora b ∼ NMV(ββββ, σ2(XTX)-1) 5) Per gli stimatori dei minimi quadrati vale il Teorema di Gauss−−−−Markov , che con riferimento alle stime dei parametri di un modello di regressione lineare si può enunciare come segue: lo stimatore dei minimi quadrati b è il più efficiente nella classe degli stimatori lineari corretti di ββββ. b è BLUE (Best Linear Unbiased Estimator): * Unbiased = corretto * Linear = lineare rispetto a Y * Best = il più efficiente nella classe degli stimatori lineari corretti. Dimostrazione del Teorema di Gauss-Markov Si consideri uno stimatore lineare

Page 13: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

19

dCyb +=*

Affinché *b risulti corretto è necessario che ( ) ( ) ( ) �dX �CdyCb =+=+= EE * che risulta verificata se d=0 e CX=I .

Senza perdita di generalità si definisca una matrice D tale che ( ) DXXXC +=− TT 1

. La condizione

CX=I impone che ( ) DXIDXXXXXCX +=+=− TT 1

ovvero 0DX = . Uno stimatore lineare per ββββ è pertanto

( ){ } ( ){ }( ) ( ){ }�DXXX��X �DXXXyDXXXb ++=++=+=−−− TTTTTT 111*

Si valuti la varianza di *b :

( ) ( ) ( ){ } ( ) ( ){ } ( ) TTTTTT VVV DDXXDXXX�DXXX�b 21211* 0 σσ ++=+++=−−−

Essa risulta dalla somma delle varianze dello stimatore dei minimi quadrati (si veda proprietà 3) e della quantità TDD2σ . Poiché TDD è una forma quadratica semidefinita positiva ( ) ( )bb VV ≥* dove l’uguaglianza vale

solo per bb =* .

2.7 Lo stimatore del parametro σσσσ2

Poiché la funzione Φ(ββββ) minimizzata mediante il metodo dei minimi quadrati non dipende da σ2, non è possibile derivare nello stesso tempo anche lo stimatore di σ2. Poiché σ2 rappresenta la varianza del termine d’errore ε di cui conosciamo n determinazioni campionarie {ei, i =1, …, n} è plausibile basare la stima di σ2 su una misura della variabilità dei residui campionari. Lo stimatore viene definito in modo da risultare corretto per σ2.

Considerando la (2.9) si ricava ( ) ( ) MyyHIyXXXXye =−=−=− TT 1

da cui

( ) M �M �MX ��X �Me =+=+= poiché MX =0 Essendo M una matrice simmetrica e idempotente:

M ��ee TT =

Il valore attesto della devianza di dispersione è:

( ) ( ) ( )( )M ��M ��ee TTT trEEE == poiché M �� T è uno scalare

Page 14: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

20

( )( ) ( )( ) ( ) MIM� �MM � � trtrEtrtrE TT 22 σσ =⋅=== La traccia della matrice M risulta:

( )[ ] ( )[ ] ( ) 111

11−−=+−=−=−=−= +

−−mnmntrtrtrtrtrtrtr mn

TTn

TTn IIXXXXIXXXXIM

Quindi ( ) ( )12 −−= mnE T σee Una stima corretta di 2σ è quindi rappresentata dalla varianza di dispersione:

12

−−=

mns

T

e

ee

Il valore atteso della varianza di regressione è invece maggiore di σ2:

E( �� � �� ) = mσ2 + g(ββββ, X)

dove g(ββββ, X) ≥ 0. Se β1 = β2 = … = βm = 0 allora g(ββββ, X) = 0; in tal caso anche la varianza di regressione rappresenta uno stimatore corretto di σ2.

2.8 Controllo di ipotesi sui parametri

In questo contesto risulta necessario avvalersi dell’ipotesi di normalità (4) formulata sui residui. Da essa discende infatti la normalità distributiva dello stimatore dei minimi quadrati e la distribuzione delle devianze di regressione e di dispersione secondo variabili aleatorie 2χ con m e n-m-1 gradi di libertà rispettivamente. 1) Ipotesi di indipendenza lineare di Y dagli m regressori (ipotesi di significatività del modello):

H0: β1 = β2 = … = βm = 0

F = 2e

2reg

s

s=

1))/(DevDisp(

)/DevReg(

n-m-Y

mY ∼ Fm, (n-m-1) (2.20)

Fissato un livello di significatività α, se F > Fα allora il test è significativo al livello α, e H0 va rifiutata. Ciò significa che: * la variabilità di Y spiegata dal modello è significativamente più elevata della variabilità residua; * ad almeno uno degli m regressori corrisponde in popolazione un coefficiente di regressione significativamente diverso da 0.

Page 15: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

21

Se invece F ≤ Fα allora il test NON è significativo al livello α, e H0 non viene rifiutata; in tal caso il modello non è adeguato, tra Y e gli m regressori non vi è alcuna relazione di dipendenza lineare. Poiché DevReg(Y)= R2 Dev(Y) DevDisp(Y)= (1−R2) Dev(Y) si ha:

F = )1(/)R(1

/R2

2

−−− mn

m (2.21)

2) Ipotesi di indipendenza lineare di Y da Xj (dato l’effetto degli altri m−1 regressori)

H0: βj = 0 Poiché b ∼ NMV(ββββ, σ2(X’X)-1) si ha bj ∼ N(βj, σ2cjj)

dove cjj è il j-esimo elemento della diagonale principale di (XTX)-1;

quindi z = jj

jj

c�

�b

2

− ∼ N(0, 1). (2.22)

Supponendo che H0 sia vera e stimando la varianza incognita con la varianza di dispersione si ha:

t = jje

j

jje

j

cs

b

cs

b=

2 ∼ t(n-m-1)

Fissato un livello di significatività α, se t > +tα/2 oppure t < −tα/2 allora il test è significativo al livello α, e H0 va rifiutata; il contributo di Xj nel modello in cui vi sono gli altri regressori è significativo. Come emerge dalla (2.22) il ricorso alla statistica z o, qualora σ2 sia stimata con la varianza di dispersione, alla corrispondente statistica t, consente il controllo dell’ipotesi nulla più generale

H0: βj = k dove k è un valore non necessariamente nullo. Un metodo formalmente diverso, ma del tutto equivalente a quello precedentemente illustrato per il controllo dell’ipotesi nulla di indipendenza, si basa sull’analisi della varianza . Il test dell’ipotesi H0: βj = 0 si può infatti pensare come un confronto fra un modello a m regressori in cui il regressore Xj è incluso:

I) Y = β0 + β1 X1 + … + βj Xj +…+ βm Xm + ε e un modello a m-1 regressori da cui il regressore Xj è escluso

II) Y = β0 + β1 X1 + … + βj-1 Xj-1 + βj+1 Xj+1 +…+ βm Xm + ε

Page 16: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

22

Per la proprietà di R2 e quindi delle devianze di regressione DevReg(Y)I �DevReg(Y)II. DevReg(Y)I - DevReg(Y)II misura dunque la riduzione nella devianza di regressione conseguente all’esclusione del regressore Xj. E’ dunque ancora una devianza di regressione a cui corrispondono m-(m-1)=1 gradi di libertà. L’ipotesi nulla

H0: βj = 0 può dunque essere controllata ricorrendo alla statistica test

( ) ( )( ) ( )1−−

−=

mnYDevDisp

YDevRegYDevRegF

I

III

(detta test F parziale) che si distribuisce come una F con 1 e (n-m-1) gradi di libertà. (La ragione per cui a denominatore si pone la DevDisp(Y) del modello che contiene il maggior numero di regressori saranno chiarite nel seguito). E’ facile verificare come questa statistica test F non sia altro che il quadrato della statistica test t illustrata in precedenza. Il ricorso al test F parziale consente comunque il controllo di ipotesi di indipendenza più complesse relative non solo ad un coefficiente di regressione ma ad insiemi di coefficienti.

2.9 Intervallo di confidenza per ββββj

A partire dalla (2.22) e stimando σ2 con la varianza di dispersione è possibile costruire un intervallo di confidenza per βj a un livello di confidenza dell’ 1-α. Gli estremi di tale intervallo sono:

jjemnj cstb 21..,2α±

2.10 Diagnostica

Con il termine “diagnostica”, nell’ambito della regressione, ci si riferisce a un insieme di tecniche volte all’individuazione di eventuali problemi rispetto al modello o rispetto ai dati. A questo fine particolare rilievo assumono i residui. L’analisi dei residui permette di: * stabilire se le ipotesi formulate sul termine d’errore del modello di regressione sono valide rispetto al fenomeno analizzato; * identificare l’eventuale presenza di outlier (osservazioni anomale rispetto alla variabile dipendente Y), punti di leverage (osservazioni anomale rispetto alle X), osservazioni influenti (osservazioni la cui esclusione modifica le stime dei minimi quadrati). Per la (2.9) i residui possono essere espressi come ( ) MyyHIe =−= Poiché i residui sono gli scarti tra i valori osservati e quelli stimati dal modello, costituiscono la base per misurare la variabilità di Y non spiegata dal modello di regressione.

Page 17: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

23

Inoltre, poiché sono le determinazioni campionarie della componente d’errore ε del modello, qualunque allontanamento dalle assunzioni formulate su ε si ripercuote sui valori dei residui. La loro somma (media aritmetica) è nulla (per le proprietà dei minimi quadrati), inoltre

( ) ( ) ( ) 22)( σσ HIHIHIe −=−−=Var cioè i residui stimati hanno varianze diverse e sono tra loro correlati. In particolare la varianza dell’i-esimo residuo è

V(ei) = σ2(1 − hii) (2.23)

dove hii è l’i-esimo elemento della diagonale principale della matrice H = ( ) TT XXXX1−

ed è chiamato valore di leverage:

hii = ( ) Ti

Ti xXXx

1−

Nel modello di regressione semplice

hii = ( )

( )�=

−+

n

ii

i

xx

xx

n

1

2

21

una espressione che mostra come hii sia una misura della distanza dell’ascissa dell’unità i-esima dal baricentro della X. Inoltre dalla (2.23) si deduce che unità con hii elevato avranno valori piccoli per V(ei). All’avvicinarsi di hii a 1 la varianza dei residui tenderà a 0. Per tali osservazioni, indipendentemente dal valore che l’unità assume rispetto alla Y si è certi di avere un residuo nullo. Le osservazioni cui corrisponde un hii ≥ 2(m+1)/n vengono riconosciuti come punti di leverage. Poiché hii non coinvolge la Y non è detto che una unità a cui corrisponde un valore hii elevato sia un dato anomalo rispetto al modello di regressione. D’altra parte, se l’obiettivo è l’identificazione di dati anomali l’esame dei soli residui non è sufficiente. Per tenere conto congiuntamente dei residui e della loro variabilità è opportuno riscalare i residui dividendoli per una stima del loro scarto quadratico medio. Si ottengono così i residui studentizzati internamente:

r i = )h(s

e

iie

i

−1 i = 1, …, n

Gli r i sono detti residui studentizzati internamente perché σ è stimato con es , la radice della

varianza di dispersione calcolata su tutte le unità statistiche. La media aritmetica dei residui studentizzati è nulla e la loro varianza è 1, ma sono ancora moderatamente correlati. Una eventuale osservazione anomala influenzerà inevitabilmente la varianza di dispersione e quindi anche i residui studentizzati internamente. Per ovviare a ciò alcuni autori suggeriscono di stimare la varianza del residuo i-esimo omettendo l’i-esima unità statistica dal calcolo della varianza di dispersione. Si ottengono cosi i residui studentizzati esternamente:

ti = )h(s

e

iiie

i

−1)(

i = 1, …, n

Page 18: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

24

dove )(ies indica che, nel calcolo della varianza di dispersione, l’i-esima osservazione è stata

esclusa. Le osservazioni per cui |ti|≥ 2 rappresentano potenziali outlier.

Osservazioni influenti

Se un valore di yi è particolarmente inusuale rispetto a tutti gli altri allora la stima del modello di regressione può essere notevolmente influenzata da tale osservazione. Per valutare la presenza di valori influenti si elimina una osservazione alla volta e si stima nuovamente il modello. Quelle osservazioni che producono variazioni rilevanti sono dette influenti. Si indichi con b(i) la stima OLS di ββββ ottenuta omettendo l’i-esima unità. Una possibile misura di influenza è rappresentata dalla distanza di Cook secondo la quale la distanza fra b(i) e b è data da

Di = ( ) ( )( )

( ) 21 e

(i)TT

(i)

sm+−− bbXXbb

i = 1, …, n

Essendo Xb(i) – Xb= **

(i) yy − la distanza di Cook può essere anche formulata come:

Di = ( ) ( )

( ) 2

**)(

**)(

1 e

i

T

i

sm+−− yyyy

Si dimostra che Di si può anche scrivere in modo alternativo come:

Di = )1()1(

2i

ii

ii

h

h

m

r

−+ i = 1, …, n;

è quindi composta da una componente che misura l’adattamento (in quanto funzione dei residui) e da una componente che misura la distanza delle X dal baricentro (essendo una misura del livello di leverage dell’i-esima osservazione). Si distribuisce come una F con m+1 e n-m-1 gradi di libertà. Le unità per cui Di > 1 sono potenziali osservazioni influenti.

2.11 La multicollinearità

Vi è multicollinearità nei dati quando si presentano relazioni lineari tra i regressori. Esempi (m = 2): 1) regressori incorrelati e ortogonali

XX~~ T = �

���

10

01 ( ) 1~~ −

XXT = ��

���

10

01 det( )XX

~~ T =1

2) regressori correlati

Page 19: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

25

XX~~ T = �

���

19,0

9,01 ( ) 1~~ −

XXT = ��

���

−−

26,574,4

74,426,5 det( )XX

~~ T = 0,19

3) regressori correlati

XX~~ T

= ��

���

199,0

99,01 ( ) 1~~ −

XXT= �

���

−−

505,49

5,4950 det( )XX

~~ T = 0,02

Effetti della presenza di correlazione (e quindi di multicollinearità) tra i regressori: poiché V(b) = σ2(XTX)-1 le varianze degli stimatori crescono al crescere della multicollinearità; � cala la precisione delle stime puntuali; � gli intervalli di confidenza si allargano; � crescono le covarianze campionarie tra gli stimatori; � i test t tendono a segnalare coefficienti non significativi anche con valori elevati di R2. Inoltre le stime b sono molto sensibili a variazioni anche molto piccole dei valori osservati di Y e/o dei regressori. Tra gli m regressori vi è multicollinearità esatta se le colonne di X sono linearmente dipendenti, ovvero se esiste una loro combinazione lineare non banale che dà il vettore nullo: c1X1 + c2X2 + …+ cmXm = 0 con almeno uno dei ck ≠ 0. Tra gli m regressori vi è multicollinearità se esiste una combinazione lineare non banale delle colonne di X la cui norma è un numero “piccolo”:

c1X1 + c2X2 + …+ cmXm = d con d < q c dove c = 222

21 ... mccc +++ .

In base al valore di q = d / c è possibile definire il “grado” di multicollinearità.

Cause della multicollinearità

1) Errata specificazione del modello 2) Multicollinearità inerenti alla popolazione 3) Multicollinearità inerenti al campione

Diagnosi della multicollinearità

Sulla base della correlazione esistente fra i regressori è possibile definire diverse misure di multicollinearità. 1) L’indice di determinazione lineare 20kR del modello di regressione in cui Xk dipende dagli altri

m−1 regressori.

20kR > 0,9 segnalano la presenza di possibili relazioni di multicollinearità.

Page 20: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

26

2) I fattori di incremento della varianza VIFk = 201

1

kR−

VIFk > 10 segnalano la presenza di possibili relazioni di multicollinearità. 3) Tolleranza Tk = 1/VIFk = 1 − 2

0kR

La correlazione tuttavia è una condizione sufficiente ma non necessaria alla multicollinearità. Per strumenti di diagnosi della multicollinearità più completi si rimanda ad altri appunti.

2.12 Lo stimatore dei minimi quadrati generalizzati

Tra le ipotesi classiche formulate per il modello di regressione lineare multipla vi è quella di sfericità dei termini d’errore: V(εεεε) = E(εεεε εεεεT) = ΣΣΣΣ = σ2In. Vi sono situazioni in cui tale ipotesi può non essere vera. Esempi. 1) Con dati regionali di tipo cross-section, i valori di Y relativi a regioni geograficamente vicine sono correlati condizionatamente ai regressori; in tal caso si ha: Cov (εεεεi, εεεεj) ≠ 0 ∀ i ≠ j. 2) Con dati microeconomici sulle famiglie, la variabilità di Y intorno alla media condizionata può cambiare al variare dei regressori; in tal caso si ha: Var(εεεεi) ≠ Var(εεεεj) ∀ i ≠ j. La matrice delle varianze e delle covarianze dei termini d’errore non è più diagonale, e gli elementi della diagonale possono essere diversi: V(εεεε) = E(ε εε εε εε εT) = ΣΣΣΣ = σ2V. Conseguenze sulle proprietà dello stimatore dei minimi quadrati ordinari

y = Xββββ + εεεε (2.24) dove E(εεεε) = 0 V(εεεε)= σ2V

bOLS = (XTX)-1XT y (2.25) E(bOLS)= ββββ;

Page 21: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

27

V(bOLS) = σ2(XTX)-1XT V X(XTX)-1 bOLS è ancora uno stimatore corretto di ββββ ma non è più lo stimatore a minima varianza. Poiché le procedure di stima intervallare e controllo di ipotesi basate sullo stimatore dei minimi quadrati ordinari bOLS sono derivate in ipotesi di omoschedasticità e indipendenza quando queste condizioni vengono a cadere esse risultano inadeguate. Come conseguenza del teorema spettrale, poiché V è una matrice non singolare, simmetrica e definita positiva, esiste una matrice K non singolare n×n tale che K TK = KK = V � V-1 = K -1K -1 Premoltiplichiamo la (2.24) per K -1: K -1y = K -1Xββββ + K -1εεεε (2.26) Se poniamo Z=K -1y; F=K -1X; ηηηη=K -1εεεε la (2.26) può essere riscritta:

Z = Fββββ + ηηηη (2.27) La (2.27) è l’equazione matriciale di un modello di regressione, funzione dei parametri ββββ, rispetto al quale valgono le seguenti condizioni

E(ηηηη) = 0 V(ηηηη)= σ2In che giustificano il ricorso al metodo dei minimi quadrati. Lo stimatore corretto e a minima varianza di ββββ è quello che rende minima la devianza di dispersione del modello (2.27): Φ(ββββ) = ηηηηTηηηη = (Z − Fββββ)T (Z − Fββββ) bGLS= (FTF)-1FTZ = (XT K -1 T K -1X)-1XT K -1 T K -1y = (XT V-1X)-1XT V -1y bGLS è lo stimatore dei minimi quadrati generalizzati.

E(bGLS) = ββββ V(bGLS) = σ2(XT V-1X)-1

2.13 Criteri per la scelta dei regressori

Specificazione del modello

La scelta dei regressori da includere nel modello rappresenta una fase cruciale nell’analisi della regressione multipla. In fase di costruzione del modello, si possono commettere due tipi di errori (errori di specificazione del modello): 1) omissione di regressori rilevanti; 2) inclusione di regressori irrilevanti.

Page 22: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

28

Si ipotizzi che, in popolazione, gli m regressori considerati siano tutti e soli i regressori che danno un contributo significativo alla spiegazione della variabilità della Y. Il modello completo (m regressori) è allora:

y = Xββββ + εεεε = Xpββββp + Xm-pββββm-p + εεεε (2.28) dove la matrice X n×(m+1) è stata scomposta in Xp n×(p+1) e Xm-p n×(m-p):

��

���

�=

− pm

p

X

XX

Questa partizione nella matrice dei regressori genera una analoga partizione nei coefficienti di regressione ββββ e nel vettore delle stime b dei minimi quadrati:

��

���

�=

− pm

p�

��

��

���

�=

− pm

p

b

bb

Si ipotizzi poi di rilevare soltanto p di tali m regressori e di avere omesso erroneamente i restanti k=m-p. Si definisce così un modello ridotto (p < m regressori):

y = Xpββββp + ξξξξ (2.29) rispetto al quale lo stimatore dei minimi quadrati è:

bp* = (Xp

TXp)-1Xp

Ty stimatore di ββββp Tuttavia:

E(bp*) = E[(XpTXp)

-1XpTy] = E[(Xp

TXp)-1Xp

T(Xpββββp + Xkββββk + εεεε)] =

= E[(XpTXp)

-1XpTXpββββp] + E[(Xp

TXp)-1Xp

TXkββββk]= ββββp + (XpTXp)

-1XpTXkββββk

Pertanto bp* è uno stimatore di ββββp distorto a meno che non sia Xp

TXk = 0 e/o ββββk = 0. La distorsione è una combinazione lineare delle variabili escluse e dei coefficienti veri. Inoltre

( )( ) 21 σ≠−− pnDevDispE Infatti, se il modello stimato è

y = Xpbp + e sarà

( ) ( )( )( ) ( ) yMyHIyXXXXI

yXXXXybXye

ppTpp

Tpp

Tpp

Tpppp

=−=−=

=−=−=−

1

1

La devianza di dispersione è

yMyee pTTDevDisp ==

poiché M p è idempotente. Ma �

�X

�Xy ++= kkpp e quindi

Page 23: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

29

( ) ( )( )[ ]( )��

X�

XM��XMX

��X

�XM��

X�

X

++++=

++++=

kkpppT

kkpTp

Tp

kkpppT

kkppDevDisp

da cui, considerando che 0=p

TpMX e 0=ppXM per le proprietà della matrice pM

( ) ( )����MX

��XMX

����MX��

XM��XMX

���XM��

X

pT

pTk

Tkkkp

Tk

Tk

pT

pTk

Tkkkp

Tkkp

Tk

Tkkkp

TkkDevDisp

++=

+++=++=

2

Calcolandone il valore atteso:

( ) ( )10 2 −−++= pnDevDispE kkpTk

Tk σ�

XMX�

Quindi

22

11σσ ≠+

−−=

���

−− pnpn

DevDispE kkp

Tk

Tk

�XMX

La matrice M p è semidefinita positiva e quindi la distorsione introdotta nella varianza è positiva. Nel modello ridotto la varianza di Y viene quindi sovrastimata dalla varianza di dispersione. (Ecco perché a denominatore del test F si mette la devianza di dispersione del modello completo). Risultano verificate tutte le procedure inferenziali, in particolare il test t e il test F. Se invece il modello “vero” in popolazione è il modello ridotto (2.29) a p variabili e si includono le restanti m-p che sono irrilevanti, naturalmente, per quanto appena visto, sia le stime dei minimi quadrati, sia la stima di σ2 attraverso la varianza di dispersione risultano corrette. Tuttavia:

Var(bj)= σ2201

11

jj R)dev(X − nel modello (2.28)

Var(bj*) = σ2

*R1

1

)dev(X

12j0j −

nel modello (2.29)

20jR ≥ *Rj

20 � 1 − 2

0jR ≤ 1 − *20jR

� 201

1

jR− ≥

*Rj201

1

− � Var(bj) ≥ Var(bj*)

cioè le stime dei parametri βp ottenute col modello (2.28) sono più variabili di quelle ottenute col modello (2.29).

Criteri per il confronto tra modelli alternativi

R2 misura la bontà dell’adattamento del modello ai dati. In precedenza si è dimostrato che aggiungendo regressori nel modello il valore di R2 aumenta; l’andamento dei valori di R2 al crescere di m è quindi monotono crescente. L’aumento del numero di regressori nel modello induce cioè un progressivo aumento della quota di variabilità di Y spiegata dal modello lineare.

Page 24: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

30

Può capitare però, come si è visto, che a questo si accompagni un peggioramento della precisione delle stime. Pertanto R2 non è un indicatore adeguato per confrontare modelli con un diverso numero di regressori. Nel caso di indipendenza lineare di Y dagli m regressori (cioè quando vale H0: β1 = β2 = … = βm = 0) sia la varianza di regressione di Y che quella totale sono stime corrette di σ2.

��

���

− )(nDevTot(Y)/

mDevReg(Y)/E

1 ≅ 1

��

���

�−DevTot(Y)

DevReg(Y)E

m

n 1 ≅ 1

E(R2) ≅ 1−n

m

mentre ci si aspetterebbe che E(R2) fosse uguale a 0. Si può allora correggere l’R2

R2c = R2 −

1−n

m

Tuttavia nel caso di perfetta dipendenza lineare di Y dagli m regressori si avrà ora:

R2c = 1 −

1−n

m =

1

1

−−−

n

mn < 1

che dovrà essere nuovamente corretto per far sì che assuma valori nell’intervallo [0,1]:

R2cc = R2

c 1

1

−−−mn

n =

��

−−

12

n

mR

1

1

−−−mn

n

Sviluppando il prodotto e semplificando si ha R2cc = 1 −

2

2

Y

e

s

s.

Questo indicatore non ha, diversamente da R2, un andamento monotono crescente all’aumentare del numero di regressori e quindi può utilmente essere impiegato per il confronto di modelli che contengono un numero diverso di regressori.

Criteri automatici per la scelta dei regressori

Con questi criteri viene esaminato un numero ridotto di sottoinsiemi di possibili variabili esplicative, in base ad un procedimento di scelta sequenziale in cui i singoli regressori sono progressivamente aggiunti o eliminati dal modello. 1) Forward selection. 2) Backward elimination. 3) Stepwise.

Page 25: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

31

Forward selection

I singoli regressori vengono aggiunti in maniera sequenziale al modello. Punto di partenza: Y = β0 + ε Passo 1. Viene scelto quel regressore che, qualora venga inserito nel modello specificato inizialmente, determina il più elevato aumento di R2, ovvero la più elevata diminuzione di DevDisp(Y); sarà il regressore con la più alta correlazione semplice con Y. Poniamo che sia X1. X1 verrà inserito nel modello specificato inizialmente solo se il suo contributo originale alla spiegazione della variabilità di Y è significativo; ovvero se l’ipotesi H0: β1 = 0 viene rifiutata mediante il test

t =

))dev(X(n

)y(y

bn

i

*ii

1

1

2

1

2−

−�=

∼ t(n-2) (2.30)

per un prefissato livello di significatività αin. Se il test è significativo e l’ipotesi viene rifiutata, allora X1 viene inserito nel modello:

Y = β0 + β1X1 + ε. Viceversa il processo di selezione ha termine. Se la variabile che dà luogo al valore di R2 più elevato non merita di entrare nel modello nessun’altra può. Passo 2. Se X1 entra nel modello viene poi scelto un nuovo regressore: quello che, se inserito nel modello specificato al termine del passo 1, determina il più elevato aumento di R2, ovvero la più elevata diminuzione di DevDisp(Y). Poniamo che sia X2. X2 verrà inserito nel modello specificato al termine del passo 1 solo se il suo contributo originale alla spiegazione della variabilità di Y è significativo, cioè se la statistica test t per saggiare l’ipotesi H0: β2 = 0 risulta significativa. In tal caso X2 viene inserito nel modello:

Y = β0 + β1X1 + β2X2 + ε. In generale: dato un modello con i−1 regressori, l’i-esimo regressore candidato ad entrare nel modello verrà inserito se risulta significativo il test t per il controllo dell’ipotesi H0: βi = 0 nel modello di regressione multipla. La procedura si arresta quando per la prima volta si ottiene un test NON significativo, oppure quando tutte le variabili esplicative sono state inserite nel modello. Una volta inserita nel modello, una variabile vi rimane per sempre anche se, in seguito all’ingresso di ulteriori regressori il suo coefficiente risulta non significativamente diverso da 0. Il metodo forward non è rigoroso dal punto di vista metodologico perché i modelli che vengono costruiti ai vari passi risentono dell’errore di errata specificazione in termini di esclusione di regressori rilevanti, ma presenta il vantaggio di consentire la selezione di regressori in quelle

Page 26: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

32

situazioni in cui il numero delle variabili osservate è maggiore del numero delle unità e le stime dei minimi quadrati del modello completo non esistono.

Backward elimination

I singoli regressori vengono eliminati in maniera sequenziale dal modello. Punto di partenza:

Y = β0 + β1X1 + β2X2 + … + βmXm +ε Passo 1. Viene scelto quel regressore che, qualora venga eliminato dal modello specificato inizialmente, determina la più piccola diminuzione di R2, ovvero il più piccolo aumento di DevDisp(Y). Poniamo che sia X1. X1 verrà eliminato dal modello specificato inizialmente solo se il suo contributo originale alla spiegazione della variabilità di Y è NON significativo; ovvero se il test t per saggiare H0: β1 = 0 nel modello completo è non significativo per un prefissato livello di significatività αout. Il modello diventa allora

Y = β0 + β2X2 + … + βmXm +ε e si ripete il passo 1. In generale: dato un modello con m–i regressori, il successivo regressore candidato ad uscire dal modello verrà eliminato se il suo coefficiente non risulta significativamente diverso da 0. La procedura si arresta quando per la prima volta si ottiene un test SIGNIFICATIVO, oppure quando tutte le variabili esplicative sono state eliminate dal modello. Una volta esclusa dal modello , una variabile non vi può più rientrare. Per rendere più dinamico il processo di ingresso e di uscita dei regressori dal modello è stato proposto il metodo stepwise convenzionale.

Stepwise

I passi 1 e 2 coincidono con quelli della forward selection:

Y = β0 + β1X1 + β2X2 + ε. Prima del terzo passo forward viene realizzato un passo backward rispetto alla variabile X1 inserita nel modello al passo 1, con cui si controlla mediante il test se l’eliminazione di X1 dal modello contenente X2 induce un aumento non significativo della devianza di dispersione. In generale, dopo ogni inserimento nel modello del regressore che induce la più elevata diminuzione significativa della devianza di dispersione (al livello di significatività αin), tutti i regressori inclusi nel modello ai passi precedenti vengono considerati, uno alla volta, come candidati alla rimozione. La procedura si arresta quando nessun regressore escluso può essere inserito (in base al valore di αin) e nessun regressore incluso può essere eliminato (in base al valore di αout).

Page 27: 2. LA REGRESSIONE LINEARE · PDF file7 2. LA REGRESSIONE LINEARE MULTIPLA La teoria della regressione lineare multipla risponde all’obiettivo di studiare la dipendenza di una variabile

33

Con questo criterio la decisione di includere un regressore non è irreversibile. Una variabile già inclusa può essere rimossa in seguito all’inserimento di altri regressori che rendono non più significativo il suo contributo originale alla spiegazione della Y. Osservazioni sulla scelta dei valori αin e αout. 1) Se si sceglie αin>αout, un regressore inserito nel modello in base al valore di αin verrà probabilmente eliminato in seguito. 2) Se si sceglie αin<αout, un regressore inserito nel modello in base al valore di αin probabilmente non verrà più eliminato. Conviene scegliere αin = αout, maggiori degli usuali livelli di significatività. E’ opportuno sottolineare come i modelli di regressione costruiti mediante i metodi di selezione automatici appena illustrati non rappresentino i migliori modelli in senso assoluto. Essi sono i migliori modelli che si possono costruire dati i diversi passi che sono stati compiuti. Questo significa che piccole perturbazioni nei dati possono portare a modelli sensibilmente diversi e che eventuali “errori ” di selezione nelle fasi iniziali si ripercuotono sul modello complessivo.