110
1 LA REGRESSIONE LINEARE MULTIPLA

LA REGRESSIONE LINEARE MULTIPLA

Embed Size (px)

DESCRIPTION

LA REGRESSIONE LINEARE MULTIPLA. Osservazioni introduttive. I fenomeni collettivi (economici, demografici, ecc.) sono strettamente legati da una complessa rete di relazioni . Pertanto risulta spesso insufficiente lo studio della relazione tra due sole variabili. - PowerPoint PPT Presentation

Citation preview

Page 1: LA REGRESSIONE LINEARE MULTIPLA

1

LA REGRESSIONE LINEARE MULTIPLA

Page 2: LA REGRESSIONE LINEARE MULTIPLA

22

Osservazioni introduttive• I fenomeni collettivi (economici, demografici, ecc.)

sono strettamente legati da una complessa rete di relazioni. Pertanto risulta spesso insufficiente lo studio della relazione tra due sole variabili.

• In questi casi, una volta individuato il carattere dipendente, sarà opportuno studiare come esso varia in media al variare degli altri caratteri.

Questo studio viene denominato regressione multipla e costituisce una generalizzazione della regressione semplice.

Page 3: LA REGRESSIONE LINEARE MULTIPLA

33

ESEMPI DI RICORSO A MODELLI DI REGRESSIONE MULTIPLA

Ad esempio:• Il prezzo di una merce sui vari mercati (o in una

serie di anni o in diverse zone territoriali) è collegato con la produzione, le scorte esistenti, il prezzo di altre merci, la domanda dei consumatori e così via;

• Il consumo per abitante di energia elettrica (in varie regioni) dipende dal reddito per abitante, dalla incidenza degli occupati addetti al terziario sugli occupati in complesso, ecc.;

Page 4: LA REGRESSIONE LINEARE MULTIPLA

44

Modelli

I modelli sono una rappresentazione matematica della realtà

“All models are wrong, but some are useful”

George Box

Page 5: LA REGRESSIONE LINEARE MULTIPLA

55

Modello empirico o statistico (Empirical Model)

Di solito non si conosce la relazione esatta che esiste fra due variabili

Per questo motivo si adatta un modello empirico

Page 6: LA REGRESSIONE LINEARE MULTIPLA

66

Schema logico per la costruzione di un modello statistico

TEORIZZAZIONE SU UN FENOMENO

INDIVIDUAZIONE DELLE VARIABILI ESPLICATIVE

FORMULAZIONE O IDENTIFICAZIONE DEL MODELLO

USO DEI DATI PER LA STIMA DEL MODELLO

VERIFICA DEL MODELLO

USO DEL MODELLO

Page 7: LA REGRESSIONE LINEARE MULTIPLA

77

Modello di regressione lineare multipla

Lo studio della regressione multipla consiste nel determinare

una funzione che esprima nel modo migliore il legame

(in media) tra le variabili indipendenti X1, X2, …., Xk e

la variabile dipendente Y.

Per fare questo occorre incominciare con lo stabilire il tipo di

funzione che lega la variabile dipendente a quelle

indipendenti. In analogia con quanto già esposto sulla

regressione semplice, ipotizziamo il tipo più semplice,

quello lineare.

Page 8: LA REGRESSIONE LINEARE MULTIPLA

88

Regressione lineare multipla

Idea: Esaminare le relazione lineare fra 1 dipendente (Y) e 2 o più variabili independenti (Xi)

eXXXY kk22110i BBBB

Modello di regressione multipla con k variabili indipendenti:

Y-intercetta Coefficiente di regressione parziale

Errore casuale

Page 9: LA REGRESSIONE LINEARE MULTIPLA

99

Modello lineare multiplo

I coefficienti del modello sono stimati sulla base di dati campionari

kk221i10i XbXbXbbY

Stima (o valore previsto di Y Stima dei coefficienti di

regressione parziale

Modello di regressione multipla con k variabili indipendenti :

Stima dell’intercetta

In questo capitolo utilizzeremo sempre Excel per ottenere i parametri del

modello di regressione e altre statistiche (regression summary measures).

Page 10: LA REGRESSIONE LINEARE MULTIPLA

1010

PARAMETRI • yi ed x1 , x2 ….xk sono i valori, rispettivamente, della variabile

dipendente e delle k variabili indipendenti, rilevate con riferimento alla i-esima unità statistica;

• B0 è la costante;

• B1, B2,… Bk sono i coefficienti di regressione parziale (indicano di quanto varia in media la Y quando Xj aumenta di un’unità, a parità di valori delle altre variabili esplicative);

• ei è il “residuo non spiegato” relativo all’osservazione i-esima;

• n è il numero di osservazioni.

Page 11: LA REGRESSIONE LINEARE MULTIPLA

1111

INTERPRETAZIONE

Nel modello di regressione multipla si assume

che ciascun valore osservato della variabile

dipendente sia esprimibile come funzione

lineare dei corrispondenti valori delle variabili

esplicative, più un termine residuo che

traduce l’incapacità del modello di riprodurre

con esattezza la realtà osservata.

Page 12: LA REGRESSIONE LINEARE MULTIPLA

1212

Modello lineare nel caso di tre variabili: piano di regressione

Nel caso particolare di due sole variabili esplicative X1 e X2 si ha il piano di regressione:

eXBXBBY 22110

Page 13: LA REGRESSIONE LINEARE MULTIPLA

1313

Modello con due variabili

Y

X1

X2

22110 XbXbbY

Pendenza per la

varia

bile X 1

Pendenza per la variabile X2

Modello lineare nel caso di tre variabili: piano di regressione

Page 14: LA REGRESSIONE LINEARE MULTIPLA

1414

Esempio: estensione di un modello da 2 a 3 variabili indipendenti

Con riferimento a 20 famiglie si cerca di spiegare il consumo alimentare (Y) utilizzando come variabile esplicativa il reddito (X1). Il modello stimato è il seguente:

)20,,2,1(184,0412,0ˆ1 ixy ii

Ora estendiamo il modello per considerare anche la dimensione della famiglia (X2), misurata in termini di numero di componenti della famiglia. Il modello diventa:

Ora estendiamo il modello per considerare anche la dimensione della famiglia (X2), misurata in termini di numero di componenti della famiglia. Il modello diventa:

Spesa alimentare = B0 + B1 Reddito + B2 Numero ComponentiSpesa alimentare = B0 + B1 Reddito + B2 Numero Componenti

Page 15: LA REGRESSIONE LINEARE MULTIPLA

1515

famiglia Spesa annua per

l'alimentazione (000*Euro) Reddito annuo (000*Euro) Dimensione della famiglia (numero di componenti)

  SPESA REDDITO NC

1 5.2 28 3

2 5.1 26 3

3 5.6 32 2

4 4.6 24 1

5 11.3 54 4

6 8.1 59 2

7 7.8 44 3

8 5.8 30 2

9 5.1 40 1

10 18 82 6

11 4.9 42 3

12 11.8 58 4

13 5.2 28 1

14 4.8 20 5

15 7.9 42 3

16 6.4 47 1

17 20 112 6

18 13.7 85 5

19 5.1 31 2

20 2.9 26 2

Page 16: LA REGRESSIONE LINEARE MULTIPLA

1616

• Dovremmo aspettarci che i segni di B1 e di B2 siano entrambi positivi, cioè che sia il reddito sia la dimensione della famiglia abbiano effetti positivi sulla spesa alimentare della famiglia. Ciò vale nel caso di singole regressioni lineari semplici;

• Invece B1 misura l'effetto parziale del reddito sulla spesa alimentare, tenendo costante la dimensione della famiglia, e B2 misura l'effetto parziale della dimensione della famiglia sulla spesa, tenendo costante il reddito.

Esempio: estensione di un modello da 2 a 3 variabili indipendenti

Page 17: LA REGRESSIONE LINEARE MULTIPLA

1717

In definitiva, sia la teoria economica sia il buonsenso dovrebbero costituire una base per la selezione delle variabili esplicative da inserire nel modello. L’analisi grafica sia del tipo che della struttura di correlazione fra le variabili può essere compiuta con il ricorso alla matrice degli scatterplot, uno strumento grafico che presenta i diagrammi di dispersione per ogni coppia delle variabili nel modello(http://www.wessa.net/rwasp_cloud.wasp#output)

La matrice degli Scatterplot è un importante strumento grafico per l’analisi esplorativa dei dati e per mettere in risalto: 1. Tipo di relazione fra ciascuna coppia di variabili: diretta o inversa 2. Forma del legame: lineare o non lineare 3. Intensità della relazione fra ciascuna coppia di variabili - da perfettamente forte e diretta (r = +1) a perfettamente forte ed inversa (r = -1). Nessun rapporto affatto se r = 0 4. Presenza di valori anamoli (outliers) nell'insieme di dati.

Esempio: estensione di un modello da 2 a 3 variabili indipendenti

Page 18: LA REGRESSIONE LINEARE MULTIPLA

1818

La matrice degli scatterplot suggerisce le seguenti conclusioni: 1. La relazione fra spesa alimentare della famiglia e la dimensione è diretta, lineare e relativamente forte con la presenza di un possibile outlier. 2. La relazione fra Spesa alimentare della famiglia e reddito è diretta, lineare e relativamente forte senza la presenza apparente di outliers. 3. La relazione fra la dimensione della famiglia ed il reddito annuo è diretta, lineare e debole con la visibile presenza di un outlier. Così dovremmo prevedere il problema di collinearity nella regressione

Page 19: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

19

La matrice dei coefficienti di correlazione

  SPESA REDDITO NC

SPESA 1  

REDDITO 0.95 1  

NC 0.79 0.68 1

  SPESA REDDITO NC

SPESA 1  

REDDITO 0.95 1  

NC 0.79 0.68 1

Page 20: LA REGRESSIONE LINEARE MULTIPLA

2014 Il modello di regressione

lineare multipla 20

Stima del vettore dei coefficienti (parametri del modello)

n

iie

1min2

CONDIZIONE DEI MINIMI QUADRATI ORDINARI (OLS):

SVOLGENDO LA CONDIZIONE DI MINIMO SI OTTIENE LA SOLUZIONE:

Stime dei coefficienti B con i minimi quadrati

Page 21: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

2114 Il modello di regressione lineare multipla

21

Stima del vettore dei parametri del modello di Regressione multipla

• Utilizzando Excel per stimare i coefficienti e la misura della bontà dell’adattamento per il modello di regressione

• Excel:– Strumenti / Analisi Dati... / Regressione

Page 22: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

2214 Il modello di regressione lineare multipla

22

Risultati della regressione multipla

(NC)793,0 (Reddito) 0,148 1,118- SAESP

Page 23: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

2314 Il modello di regressione lineare multipla

23

L’equazione di regressione multipla

b2 = 0,793: la SPESA

alimentare aumenta, in media, di 793 Euro all’anno all’aumentare di 1 di NC , al netto (fermo restando) degli effetti dovuti alle variazioni del REDDITO

Dove SPESA è in Euro*1000 REDDITO è in Euro*1000 NC è in numero di componenti.

b1 = 0,148: la SPESA alimentare aumenta, in media,

di 148 Euro all’anno all’aumentare di 1000 Euro

del REDDITO, al netto (fermo restando) degli effetti dovuti

alle variazioni di NC

(NC)793,0 (Reddito) 0,148 1,118- SAESP

Page 24: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

2414 Il modello di regressione lineare multipla

24

Commento e significato dei parametri• 1. a = -1,118 nessun significato interpretabile perché il livello medio della

spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza di una famiglia che pur non avendo reddito e zero componenti presenta una spesa per alimentazione.  Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la equazione di regressione stimata per la previsione.

•2. b1 = 0,148 Rappresenta l'effetto parziale del reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito.

• 3. b2 =0,793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo stimato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare aumenta di 793 euro per ogni componente della famiglia in più ( per matrimonio, nascita, adozione, ecc.). Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona.

Page 25: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

25

Piano di regressione e valori osservati

Page 26: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

26

Quale variabile ha la maggior influenza sulla

SPESA ? La risposta si ottiene dal confronto dei coefficienti di

regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z.

La risposta si ottiene dal confronto dei coefficienti di regressione parziale b1 e b2. Il confronto però non è possibile in quanto essi hanno unità di misura diversa (unità di misura della var. dipendente/ unità di misura della variabile esplicativa). Per rendere possibile il confronto è necessario fare ricorso a dei coefficienti di regressione parziali che sono numeri puri e ottenuti partendo da una equazione di regressione multipla in termini di variabili standardizzate Z.

uZBetaZBetaZ y 2211

Page 27: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

27

Stima modello in termini di Z con GRETL

Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina una variazione di 0,07612 nello

ZSPESA

Coefficienti di regressione Standardizzato. Una variazione unitaria di ZREDDITO determina una variazione di 0,07612 nello

ZSPESA

Page 28: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

28

Stima modello in termini di Z con GRETL

NCREDDITOSPESA ZZZ 2729,07611,0ˆ

Pertanto il modello in termini di scarti standardizzati delle variabili diventa:Pertanto il modello in termini di scarti standardizzati delle variabili diventa:

In tal caso, i coefficienti di regressione Beta sono puri numeri e quindi confrontabili. Ne deriva che la variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali

In tal caso, i coefficienti di regressione Beta sono puri numeri e quindi confrontabili. Ne deriva che la variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali

Page 29: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

29

Piano di regressione in termini di scarti standardizzati

Page 30: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

30

Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta)

Un modo più rapido di ottenere i valori dei coefficienti Beta e di ottenerli in funzione dei coefficienti B. La formula per standardizzare un coefficiente di regressione parziale è:

Un modo più rapido di ottenere i valori dei coefficienti Beta e di ottenerli in funzione dei coefficienti B. La formula per standardizzare un coefficiente di regressione parziale è:

j

Y

x

j bBeta j

Il coefficiente di regressione è moltiplicato per il rapporto delle deviazioni standard della variabile indipendente Xj e della variabile dipendente Y

Il coefficiente di regressione è moltiplicato per il rapporto delle deviazioni standard della variabile indipendente Xj e della variabile dipendente Y

Page 31: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

31

Significato (interpretazione ) dei coefficienti di regressione parziali standardizzati

Poiché i coefficienti di regressione parziali sono espressi nella stessa metrica (sono numeri puri), si può determinare la loro capacità relativa di spiegare la variabile dipendente.Conseguentemente, la variabile indipendente con il più elevato valore del coefficiente Beta ha il elevato impatto sulla variabile dipendente Y.

Poiché i coefficienti di regressione parziali sono espressi nella stessa metrica (sono numeri puri), si può determinare la loro capacità relativa di spiegare la variabile dipendente.Conseguentemente, la variabile indipendente con il più elevato valore del coefficiente Beta ha il elevato impatto sulla variabile dipendente Y.

Page 32: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

32

STATISTICHE DESCRITTIVE CON GRETL

Page 33: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

33

Metodo indiretto per calcolare i coefficienti di regressione standardizzati (Beta)

7611,06642,4

955,231482,0 REDDITOBeta

2729,06642,4

6051,17931,0 NCBeta

La variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali.

La variabile che fornisce il contributo più elevato alla spiegazione della Spesa alimentare delle famiglie è il reddito! Al contrario di quanto si poteva pensare guardando erroneamente ai valori dei coefficienti di regressione parziali.

NCREDDITOSPESA ZZZ 2729,07611,0ˆ

Page 34: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

34

Quale variabile ha la maggior influenza sulla

SPESA ? Si possono utilizzare diversi metodi:

1) Confronto dei coefficienti di regressione parziale standardizzati;2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante;3) Scomposizione del coefficiente di determinazione multipla R2

nei contributi delle diverse variabili.

Si possono utilizzare diversi metodi:

1) Confronto dei coefficienti di regressione parziale standardizzati;2) Confronto dei valore della t di Student: il coefficiente con il più alto t di Student identifica la variabile più importante;3) Scomposizione del coefficiente di determinazione multipla R2

nei contributi delle diverse variabili.

2.1.212.1

2

12. yyyyY rrR

935,0215,0720,0787,02729,0946,07611,02

12. YR

Posto uguale a 100 la variabilità della variabile dipendente, la variabile X1 (REDDITO), spiega il 77% e la variabile X2 (NC) il restante 23%.

Posto uguale a 100 la variabilità della variabile dipendente, la variabile X1 (REDDITO), spiega il 77% e la variabile X2 (NC) il restante 23%.

Page 35: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

3514 Il modello di regressione lineare multipla

35

Impiego della equazione di regressione per fare previsioni

Prevedere la spesa alimentare nel caso in cui il reddito è 90000 € e NC = 5

La SPESA alimentare prevista è di 16167 Euro

16,167

50,793 90 0,1481,118-

0,793(NC) ITO)0,148(REDD 1,118- SAESP

Attenzione che il REDDITO è in €*1000, pertanto €90000 significano che REDDITO = 90

Page 36: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

3614 Il modello di regressione lineare multipla

36

ANOVA(scomposizione della devianza)

2)ˆ(2)ˆ(2)( iyiyyiyyiyDEV. TOTALE DEV. RESIDUA (ERRORE)DEV. REGRESSIONE

SST = SSR + SSE

TOTDEV

ERRDEV

SST

SSE

SST

SSRR

.

.112

1. Significatività del test F

2. Valore di R2

GIUDIZIO GLOBALE SUL MODELLO

Page 37: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

3714 Il modello di regressione lineare multipla

37

R2 = indice di determinazione multiplo

120

.

.1

.

.2

R

TOTDEV

ERRDEV

TOTDEV

REGDEVR

Segnala la quota di devianza (varianza) della variabile dipendente Y spiegata dalla relazione lineare con le variabili esplicative. Si può ritenere R2 come misura della bontà dell’adattamento (closeness of fit) del piano di regressione ai punti osservati. Vale a dire, più prossimo a 1 è il valore di R2, più piccolo è la dispersione dei punti intorno al piano di regressione e migliore sarà l’adattamento

Page 38: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

3814 Il modello di regressione lineare multipla

38

Coefficiente di Determinazione multipla

935,0413,3455

386,3129

SST

SSRR 2

Y x2x1,

Il 93,5% della variabilità del consumo alimentare è spiegata dalla variazione del Reddito e della numerosità famigliare (NC)

Page 39: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

3914 Il modello di regressione lineare multipla

39

Il coefficiente di correlazione multipla (the multiple correlation coefficient )

2RR

R =0,967 misura l’entità della relazione (the degree of relationship) fra i valori osservati (yi) e i previsti (ýi) della Spesa alimentare delle famiglie. Poichè I valori di ýi sono ottenuti come combinazione lineare del Reddito (X1) e NC (X2), un valore del coefficiente pari a 0,967 indica che la relazione lineare fra Spesa alimentare e le due variabili esplicative è abbastanza forte (is quite strong) e positiva.

Da notare che :

Page 40: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

4014 Il modello di regressione lineare multipla

40

Confronto fra modello con una variabile e due variabili esplicative

Nel modulo della regressione semplice si era visto che utilizzando una sola variabile esplicativa (il Reddito) la quota di variabilità spiegata della variabile dipendente era pari all’89,4% (R2 = 0,894).Introducendo una seconda variabile indipendente (modello multiplo), la quota di variabilità spiegata aumenta al 93,5%. (R2

y.x1,x2 = 0,935) ma si perde un grado di libertà. L’incremento in quota di variabilità spiegata introducendo NC controbilancia la perdita di gradi di libertà? Per dare una risposta, bisogna confrontare 0,894 con R2 corretto (Adjusted R-Square or R2 with a bar over it) che nel nostro caso è pari a 0,927).

2

1,

2

2,1, XYXXY RR

Page 41: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

4114 Il modello di regressione lineare multipla

41

R2 Adjusted (modificato o corretto)

• R2 non diminuisce mai quando una nuova variabile X è aggiunta al modello – Ciò può essere uno svantaggio se si desidera

confrontare modelli con un numero di variabili esplicative diverso

• Qual è l'effetto netto dovuto all’introduzione di una nuova variabile ? Infatti, quando si aggiunge una nuova variabile indipendente X nel modello si perde un grado di libertà. Bisogna allora valutare se la nuova variabile X fornisce un contributo esplicativo sufficiente a controbilanciare la perdita di un grado di libertà.

Page 42: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

4214 Il modello di regressione lineare multipla

42

Mostra la proporzione di variabilità di Y spiegata da tutte le variabili indipendenti X, corretta per il numero di variabili di X utilizzate

(dove n = dimensione campione, k = numero di variabili indipendenti).

– Penalizza l‘impiego eccessivo di variabili indipendenti poco importanti

– Più piccolo di R2

– Utile nel confronto fra modelli

R2 Adjusted (modificato o corretto)

1

1)1(1 22

...2,1 kn

nRR

XkXXYadj

Page 43: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

4314 Il modello di regressione lineare multipla

43

R2 Adjusted (modificato o corretto)

)1(.

)1(.

12

nTOTDEV

knERRDEV

R

AGGIUNGENDO

UNA VARIABILE

NEL MODELLO

R2 CORRETTO PUO’

ANCHE DIMINUIRE

Page 44: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

4414 Il modello di regressione lineare multipla

44

R2 Adjusted (modificato o corretto)927,0R 2

adj Il 92,7% della variabilità nella spesa alimentare è spiegato tramite la variazione nel reddito e nella dimensione della famiglia, tenendo conto della dimensione del campione e del numero di variabili indipendenti

Page 45: LA REGRESSIONE LINEARE MULTIPLA

4514 Il modello di regressione

lineare multipla 45

Cosa dicono e non dicono R2e R2-corretto?

L’R2e R2-corretto dicono se le variabili esplicative sono idonee a prevedere (o “spiegare”) i valori della variabile dipendente

L’R2 e R2 corretto non dicono se

1.Una variabile inclusa è statisticamente significativa;2. Le variabili esplicative sono la vera causa dei movimenti della variabile dipendente;3.Il modello è ben specificato;4.Il gruppo di variabili esplicative è il più appropriato

Page 46: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

4614 Il modello di regressione lineare multipla

46

Errore standard della stima

(la notazione standard è Se)

Questa statistica riassuntiva misura l'esattezza o la qualità generale del modello multiplo valutata in termini di media/variabilità standardizzata non spiegata nella variabile dipendente che può essere dovuta a errori che potrebbero provenire da errori di campionamento. Errori che causano valori delle stime b dei parametri che differiscono significativamente dai valori B non noti; Se questi errori sono piccoli, in media, quindi il valore di Se potrebbe avvicinarsi a zero (uguaglia esattamente a zero se i valori teorici ýi del modello sono esattamente uguali ai valori osservati y per tutti i = 1, 2,…, n). Se al contrario, i valori di Se si avvicinano a +∞; il modello non è utilizzabile.. Si noti che SeSe è uno stimatore corretto dello scarto quadratico medio intorno al vero piano di regressione condizionato µy/x

iixy BXBB ,2,110/

Page 47: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

47

LE IPOTESI (ASSUNZIONI) NEL MODELLO DEI MINIMI QUADRATI

• Assunzioni sulla natura delle variabili esplicative ( regressori) X:

• Assunzione A: I regressori Xi sono non stocastici, in altre parole i valori delle X osservati nel campione non hanno natura stocastica (la variabile X è fissa).

• Assunzione B: I regressori Xi sono stocastici, in altre parole i valori delle X osservati nel campione sono estratti in maniera casuale e indipendente da una data popolazione (ipotesi più realistica)

Page 48: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

48

LE ASSUNZIONI DEL MODELLO DEI MINIMI QUADRATI

( X non stocastico)

• A1: Gli errori hanno media zero• A2: Gli errori sono omoschedastici

• A3: Gli errori sono indipendenti

• A4: Gli errori si distribuiscono in modo normale

Page 49: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

49

10

TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A

Le ipotesi (Assumptions) per il Modello A

A.1 Gli errori hanno media zero E(ei) = 0 per ogni i

Si assume che il valore medio del termine di errore per tutte le osservazioni dovrebbe essere zero. A volte il termine di errore sarà positivo, a volte negativo, ma non dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti, il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in Y non rappresentato dai regressor. Il ruolo dell'intercetta è di prendere in conto ogni tendenza sistematica ma costante in Y non tenuta presente (spiegata) dalle variabili esplicative.

Si assume che il valore medio del termine di errore per tutte le osservazioni dovrebbe essere zero. A volte il termine di errore sarà positivo, a volte negativo, ma non dovrebbe presentare una tendenza sistematica in uno o nell’altro senso. Infatti, il ruolo dell'intercetta è di prendere tutta la tendenza sistematica ma costante in Y non rappresentato dai regressor. Il ruolo dell'intercetta è di prendere in conto ogni tendenza sistematica ma costante in Y non tenuta presente (spiegata) dalle variabili esplicative.

Page 50: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

50

17

TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A

Assumptions for Model A

A.2 Il termine di errore è omoschedastico

ieei 22

Si assume che la varianza del termine di errore per tutte le osservazioni sia omoschedastica, intendendo che il valore di ogni osservazione è ricavato da una distribuzione con varianza costante. Questo è un concetto beforehand, vale a dire stiamo pensando al comportamento potenziale del termine di dispersione prima che il campione realmente sia generato. Una volta che abbiamo generato il campione, il termine di dispersione risulterà essere maggior in alcune osservazioni e più piccolo in altre, ma ci non dovrebbe essere alcun motivo affinchè sia più erratico erratico erratico in alcune osservazioni che in altre.Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una correzione.

Si assume che la varianza del termine di errore per tutte le osservazioni sia omoschedastica, intendendo che il valore di ogni osservazione è ricavato da una distribuzione con varianza costante. Questo è un concetto beforehand, vale a dire stiamo pensando al comportamento potenziale del termine di dispersione prima che il campione realmente sia generato. Una volta che abbiamo generato il campione, il termine di dispersione risulterà essere maggior in alcune osservazioni e più piccolo in altre, ma ci non dovrebbe essere alcun motivo affinchè sia più erratico erratico erratico in alcune osservazioni che in altre.Se il presupposto non è soddisfatto, le stime dei coefficienti di regressione di OLS saranno inefficienti. Per ottenere risultati più certi occorre introdurre una correzione.

Page 51: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

51

Assumptions for Model A

A.3 Il termine di errore è indipendente

ei è distributo in modo indipendente per ogni ej per j ≠ i

22

TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A

Questa ipotesi sta ad indicare che, non dovrebbe esserci associazione sistematica fra i suoi valori in tutte le coppie di osservazioni. Per esempio, se si constata che il termine di errore è grande e positivo in un'osservazione, ciò non dovrebbe significare che debba essere grande e positivo nella successiva osservazione (o grande e negativo, per quella materia, o piccolo e positivo, o piccolo e negativo). L’ipotesi, implica che la covarianza nella popolazione fra ei e ej sia zero. Se questo presupposto non è soddisfatto, OLS darà ancora le stime inefficienti.. Le violazioni di questo presupposto sono comunque rare con i dati cross section.

Questa ipotesi sta ad indicare che, non dovrebbe esserci associazione sistematica fra i suoi valori in tutte le coppie di osservazioni. Per esempio, se si constata che il termine di errore è grande e positivo in un'osservazione, ciò non dovrebbe significare che debba essere grande e positivo nella successiva osservazione (o grande e negativo, per quella materia, o piccolo e positivo, o piccolo e negativo). L’ipotesi, implica che la covarianza nella popolazione fra ei e ej sia zero. Se questo presupposto non è soddisfatto, OLS darà ancora le stime inefficienti.. Le violazioni di questo presupposto sono comunque rare con i dati cross section.

Page 52: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

52

26

Solitamente si suppone che il termine di dispersione abbia una distribuzione normale. La giustificazione di questa ipotesi è nel teorema del limite centrale TLC). Essenzialmente, se una variabile casuale è il risultato composito degli effetti di tantissime altre variabili casuali, si distribuisce in modo normale anche se le relative componenti non lo sono, a condizione che nessuna di loro sia dominante. Poiché il termine di dispersione è composto di un certo numero di fattori che non compaiono esplicitamente nell'equazione di regressione così, anche se non sappiamo nulla intorno alla distribuzione di questi fattori, solitamente siamo autorizzati a supporre che il termine di dispersione si distribuisca normalmente.

TYPES OF REGRESSION MODEL AND ASSUMPTIONS FOR MODEL A

Assumptions for Model A

A.4 Il termine di errore ha una distribuzione normale

Page 53: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

5314 Il modello di regressione lineare multipla

53

Modello a due variabili

Y

X1

X2

22110 XbXbbY Yi

Yi

<

x2i

x1i La miglior equazione , Y ,è ottenuta minimizzando la somma dei quadrati degli errori, e2

<

Osservazione campionaria

Residui nella regressione multipla

Residui = ei

= (Yi – Yi)

<

Page 54: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

5414 Il modello di regressione lineare multipla

54

Assunzioni sugli errori (residui) del Modello di Regressione Lineare Multiplo

Assunzioni:

• Media nulla degli errori• Omoschedasticità: varianza degli errori costante e finita• Incorrelazione tra gli errori• Gli errori si distribuiscono in modo normale (Gaussiano)

Errori (residui) dal modello di regressione:

)ˆ(ii YYe

Page 55: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

5514 Il modello di regressione lineare multipla

55

Plots dei residui impiegati nella regressione Multipla

• I plots dei residui utilizzati nella regressione multipla sono i seguenti:

– Residui vs. Yi

– Residui vs. X1i

– Residui vs. X2i

– Residui vs. tempo (se abbiamo dati in serie

– storiche)

<

Questi plots sono utilizzati per verificare se vi sono violazioni alle assunzioni sul modello

<

Page 56: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

5614 Il modello di regressione lineare multipla

56

Residui vs. Yi

Page 57: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

5714 Il modello di regressione lineare multipla

57

Residui vs. X1i

(Excel)

Page 58: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

58

Residui vs. X1i

GRETL

Page 59: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

5914 Il modello di regressione lineare multipla

59

Residui vs. X2i

Excel

Page 60: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

60

Residui vs. X2i

Gretl

Page 61: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

61

Multicollinearità

• 1. Elevata Correlazione fra le variabili esplicative X

• 2. Le variabili non forniscono informazioni aggiuntive ed è difficile valutare l’effetto di ciascuna di esse

• 3. Le stime dei coefficienti presentano elevata variabilità (elelevati standard error)

• 4. Esiste sempre – Questione di grado.

Page 62: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

62

Come si rivela la presenza di multicollinearità?

• 1. Esame della matrice dei coefficienti di correlazione– 1. La Correlazione fra coppie di variabili X è più

elevata di quella con la variabile Y – 2. Esaminare il Variance Inflation Factor (VIF)– Se VIFj > 5 (or 10 secondo il test), la multicollinearità

è presente

• 3. Pochi rimedi– Utilizzare nuovi dati– Eliminare una delle variabili X correlate

Page 63: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

63

Correlation Matrix Computer Output

rY1 rY2

All 1’sr12

  SPESA REDDITO NC

SPESA 1  

REDDITO 0.9456 1  

NC 0.7871 0.6755 1

Coefficienti di correlazione, usando le osservazioni 1 - 20Valore critico al 5% (per due code) = 0.4438 per n = 20Coefficienti di correlazione, usando le osservazioni 1 - 20Valore critico al 5% (per due code) = 0.4438 per n = 20

Page 64: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

64

Variance Inflation Factors Computer Output

Fattori di Inflazione della Varianza (VIF)

Valore minimo possibile: 1.0Valori superiori a 10.0 indicano un problema di collinearità

REDDITO 1.839 NC 1.839

VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(1- 0,6755)^2 = 1,839

Proprietà della matrice X'X:

Norma 1 = 56396 Determinante = 5803192 Reciproco del numero di condizione = 5.798468e-005

Fattori di Inflazione della Varianza (VIF)

Valore minimo possibile: 1.0Valori superiori a 10.0 indicano un problema di collinearità

REDDITO 1.839 NC 1.839

VIF(j) = 1/(1 - R(j)^2), dove R(j) è il coefficiente di correlazione multipla tra la variabile j e le altre variabili indipendenti. Nel nostro caso r REDDITO, NC = 1/(1- 0,6755)^2 = 1,839

Proprietà della matrice X'X:

Norma 1 = 56396 Determinante = 5803192 Reciproco del numero di condizione = 5.798468e-005

Page 65: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

6565

Come i diagrammi di Venn possono aiutarci a capire la multicollinearità

Una var. dip. (Y) e 2 indipendenti (X1 e X2)— presentano 3 correlazioni da esaminare:

• Correlazioni fra ciascuna var. indip. e la var. dip. Y: rY1 and rY2

• Correlazione fra le var. indip.: r12

Il nostro obiettivo: capire le interrelazioni fra le correlazioni.

• Quanta variabilità di Y è spiegata da X1 e X2 insieme

• Quanta variabilità di Y è spiegata da X1 dopo aver tenuto conto di X2

• Quanta variabilità di Y è spiegata da X2 dopo aver tenuto conto di X1

Y

X2X1

Y

X2X1

Page 66: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

6666

Diagrammi di Venn con variabili indipenedenti non correlate e correlate Variabili esplicative non correlateLe variabili indipendenti non correlate

sono molto rare, sono prevalentemente presenti nei disegni di esperimenti.

In tal caso possiamo calcolare l’ R2 totale (overall R2) sommando i vari singoli R2.

YX2X1

22|

21|

212| YYY RRR

R2 spiegare Y utilizzando

solo X1

21|YR

R2 spiegare Y utilizzando solo

X2:

22|YR

Variabili esplicative correlateLe variabili indipendenti correlate sono molto

comuni, sono presenti in quasi tutti gli studi.In tal caso non possiamo sommare i vari singoli R2 a causa della intersezione dei

contributi.

Y

X2X1

cba

cbaRY 212|

caRY 21| cbRY 2

2|

cba

X1 X2

YCome la correlazione fra le variabili

espilicative influenza il loro effetto congiunto?

• Variabili esplicative altamente correlate: la quota parte spiegata congiuntamente “c” è grande; Le quote parti indipendenti addizionali “a” e “b” sono piccole

• Variabili esplicative scarsamente correlate : la quota parte spiegata congiuntamente “c” à

piccola; Le quote parti indipendenti addizionali “a” e“b” sono grandi

X2X1

cba

Y

Page 67: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

6767

Misurazione del contributo esplicativo addizionale di una variabile esplicativa addizionale

Supponendo, che X1 sia già nel modello, come possiamo misurare il contributo

addizionale di X2, in aggiunta a quello già spiegato da X1?

Y

X2X1

cba dcba

cbRY

2

2

d dcbaYVarianza )( dbXYsidua varVarianzaRe )|( 1

21)|( X a spiegatadXY VarRes di Propdb

b

2

22

Y

Y

r

semplicenecorrelazioR

1.2

21.|2

Y

Y

r

parziale necorrelazioR

Terminologia e annotazioni

• Correlazione semplice, rY2 and RY2

2 : Proporzione di variabilità di Y spiegata da X2

• Correlazione multipla, RY.122 :

Proporzione di variabilità di Y spiegata da entrambe X1 e X2

• Correlazione parziale, rY2.1 : Y2 identifica la variabile correlata con Y; .1 identifica la variabile(i) tenuta costante (o tenuta ferma, parzializzata)

dcba

cbrY

2

2

Correlaz.Semplice2

db

brY

2

1.2

Correlaz. Parziale2

Come i coefficienti parziali sono legati a quelli semplici?

Confrontando queste 2 equazioni, possiamo notare che b e d sono in entrambi i

denominatori. Pertanto la relazione fra semplice e parziale dipende dalla dimensione

di “a” e “c” rispetto a “b” e “d”

Page 68: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

6814 Il modello di regressione lineare multipla

68

Test di ipotesi nella regressione lineareTest per la significatività del modello di Regressione

Page 69: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

6914 Il modello di regressione lineare multipla

69

Page 70: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7014 Il modello di regressione lineare multipla

70

Inferenza Statistica: possono essere verificate due diverse tipologie di ipotesi

Fra tutti le variabili esplicative, non c’è ne nessuna da

eliminare, o si potrebbe fare a

meno di qualcuna ?

Controllo se ogni variabile esplicativa nel modello, Xj,

ha un effetto?

Y) di nulla

spieganon eregression (la

0: 21 k 0H

ivo)significat effetto

un ha previsore (

0:

almeno 1

alcuni j 1Hivo)significat effettoun ha

previsore (

0:

non

questoj 0H

ivo)significat effettoun

previsore (

0:

ha

questoj 0H

Completo/Omnibus F test

t-tests individuali

Con una sola variabile esplicativa (cioè nella regressione lineare semplice), questi due tests sono identici. Nella regressione multipla,

questi due tests sono decisamente differenti!

Page 71: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7114 Il modello di regressione lineare multipla

71

verifica della significatività globale• F-Test per la Significatività Globale del Modello

• Mostra se c’è un rapporto lineare fra tutte le variabili X considerate insieme e Y

• Utilizza il test statistico F

• Ipotesi:

H0: B1 = B2 = … = Bk = 0 (nessuna relazione lineare)

H1: almeno un Bi ≠ 0 (almeno una variabile

indipendente influenza Y)

Page 72: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7214 Il modello di regressione lineare multipla

72

F-Test per la significatività globale

• Test statistico:

• dove F ha (numeratore) = k e (denominatore) = (n –

k - 1) gradi di libertà (degrees of freedom)

1

kn

SSEk

SSR

MQE

MQRF

Page 73: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7314 Il modello di regressione lineare multipla

73

F-Test per la significatività globale

Con 2 e 17 gradi di libertà

P-value per il test F

4702,12117,2 MQE

MQRF

Page 74: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7414 Il modello di regressione lineare multipla

74

F-Test per la significatività globale

H0: B1 = B2 = 0

H1: B1 e B2 entrambi non

uguali a zero

= .05

df1= 2 df2 = 12

Test Statistico:

Decisione:

Poiche la statistica F test cade nella regionedi rifiuto (p-value < 0,05), rifiuto H0

0

= .05

F 0,05, 2,17 = 3.59Rifiuto H0Non

rifiuto H0

Valore critico:

F 0,05, 2,17 = 3.59

F

4702,12117,2 MQE

MQRF

Page 75: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7514 Il modello di regressione lineare multipla

75

F-Test per la significatività globale: Conclusioni

• Ad un livello di significatività del 5%,dalla tavola della distribuzione F si ottiene un valore critico del F-value o F 0.05, 2, 17 = 3.59.

• Pertanto, possiamo rifiutare H0 in favore di H1. Ciò significa che il modello di regressione multipla che è stato proposto non è una mera costruzione teorica, ma effettivamente esiste ed è statisticamente significativo. Infatti,

• C’è evidenza che almeno una variabile indipendente influenza significativamente Y !!!

Page 76: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7614 Il modello di regressione lineare multipla

76

T-Test per la significatività dei singoli coefficienti di regressione:

le singole variabili esplicative sono significative?

• Utilizzo il t-tests per ognuno dei singoli coefficienti di regressione parziali (slopes) delle variabili

• Mostra se esiste una relazione lineare significativa fra la variabile Xi and Y

Page 77: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7714 Il modello di regressione lineare multipla

77

T-Test per la significatività dei singoli coefficienti di regressione:

H0: Bi = 0 (nessuna relazione lineare)

H1: Bi ≠ 0 (Fra Xi and Y esiste una relazione lineare)

Test Statistic:

(df = n – k -1)

ib

ikn S

bt

01

Ipotesi:

Page 78: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7814 Il modello di regressione lineare multipla

78

• 1. a = -1.118 nessun significato interpretabile perché il livello medio della spesa alimentare della famiglia non può essere negativo anche quando nessun componente ha una occupazione remunerata. Inoltre, non è realistico pensare all'esistenza una famiglia che non ha reddito e componente ma presenta spesa per alimentazione.  Ciò nonostante, questo valore non dovrebbe essere scartato; svolge un ruolo importante quando si utilizza la linea di regressione/equazione stimata per la previsione.

•2. b1 = .148 Rappresenta l'effetto parziale di reddito annuale della famiglia sulla spesa per alimentazione, tenendo costante la dimensione. Il segno positivo stimato implica che tale effetto è positivo mentre il valore assoluto implica che il consumo alimentare aumenta di euro 148 per ogni 1000 euro di aumento nel reddito.

• 3. b2 = .793 rappresenta l'effetto parziale della dimensione della famiglia sulla spesa per alimentazione , tenendo costante il reddito della famiglia. Il segno positivo valutato implica che tale effetto sia positivo mentre il valore assoluto implica che la spesa alimentare è aumentata di 793 euro per ogni componente della famiglia in più. supplementare alla famiglia per matrimonio, nascita o adozione. Si noti che l'aggiunta ad una famiglia per matrimonio è una possibilità perché vi sono alcune famiglie nel campione con soltanto una persona.

Page 79: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

7914 Il modello di regressione lineare multipla

79

Le singole variabili esplicative sono significative?

t-value per il Reddito è t = 9,0491, con p-value 0,0000

t-value per NC t = 3,2446, con p-value 0,0048

Page 80: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

8014 Il modello di regressione lineare multipla

80

d.f. = 20-2-1 = 17

= 0,05

t/2 = 2.110

Inferenza riguardo al coefficiente di regressione parziale:Esempio di t Test

H0: Bi = 0

H1: Bi 0

Il valore del test statistico per ogni variabile cade nella zona di rifiuto (p-values < 0,05)

Dall’output di Excel :

Decisione: Rifiuto H0 per ogni variabile

Rifiuto H0Rifiuto H0

/2=0,025

-tα/2

Non rifiuto H0

0 tα/2

/2=0,025

-2.110 2.110

Page 81: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

8114 Il modello di regressione lineare multipla

81

Inferenza riguardo al coefficiente di regressione parziale: Conclusioni

Riguardo al REDDITO, l’ipotesi nulla è H0: B1 = 0 (cioè, il reddito non influenza la Spesa alimentare), contro l’alternativa H1: B1 non è uguale a zero (cioè, il REDDITO ha effetti causali sulla Spesa alimentare). Per NC (dimensione della famiglia), l’ipotesi nulla è H0: B2 = 0 (cioè, NC non ha effetti causali sulla SPESA), contro l’alternativa che H1: B2 non è uguale a zero (cioè, pure NC ha effetti causali sulla spesa alimentare). Al livello di significatività α =0,05 e d.f. = n -k-1 = 20 -2-1 = 17, il valore critico del test t è = t0.025,17 = ±2.110.

Per il REDDITO il t osservato = 9.049. Così, H0 deve essere inequivocabilmente rifiutata in favore di H1; in questo caso, si può affermare che il REDDITO famigliare influenza significativmente la SPESA alimentare delle famiglie. Per NC , t osservato = 3.245. Così, Ho deve essere rifiutata in favore di H1; in questo caso, si può ritenere che la dimensione della famiglia (NC) ha una influenza significativa sulla Spesa alimentare.

Page 82: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

8214 Il modello di regressione lineare multipla

82

Test per la verifica della significatività economica/pratica dei coefficienti di

regressione• Una variazione interessante del test t è la verifica dell’importanza

economica del parametro riguardo al senso della causalità di ogni variabile indipendente.

In questo caso, l’ipotesi nulla è espressa come:

H0: Bi ha un valore che è al massimo zero , contro H1: Bi > 0 (cioe; il valore è rigorosamente positivo secondo la sottostante teoria economica). Se il segno del parametro si ritiene che sia negativo in base alla teoria o al buonsenso, l’ ipotesi nulla è espressa come H0: Bi ha un valore che è almeno zero , contro H1: Bi < 0 ( cioe; il valore è rigorosamente negativo secondo la sottostante teoria economica).

Page 83: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

8314 Il modello di regressione lineare multipla

83

Test per la verifica della significatività economica/pratica dei coefficienti di

regressione

Consideriamo, ad esempio, NC. Ci si aspetta che il segno di B2 sia positivo. H0: B2 ha un valore che è al massimo zero contro H1: B2 > 0.   Al livello di significatività α = .05, il valore critico di t = t 0,.05,17 = +1.740. Ma il valore osservato di t = 3.245 , così l’ipotesi nulla di un effetto negativo o nessun effetto della dimesione della famiglia deve essere rifiutata in modo inequivocabile..

Si noti che nel test che tiene conto del significato economico di un parametro il valore alfa non è diviso per due poiché in tal caso il test è a una coda.

Page 84: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

84

35

Funzione di densità di probabilità di bj

0

Se si utilizza un test a due code con un livello di significatività del 5%, la stima deve essere 2,11 (1.96 nella normale) standard deviations sopra o sotto 0 se si rifiuta H0.

2.5% 2.5%

Ipotesi nulla: H0 : j = 0

Ipotesi alternativa: H1 : j = 0

rifiuto H0rifiuto H0 non rifiuto H0

2,11 sd-2,11 sd

TEST t a due code

Page 85: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

85

36

Funzione di densità di probabilità di bj

0

Se è giustificato fare ricorso ad un test a una coda, per esempio con H0: 2 > 0, la stima deve essere 1,74 (1.65 nella normale) standard deviations sopra 0. E’ facile constatare che ciò lo rende più facile rifiutare H0 e quindi dimostrare che Y è realmente influenzato dalla X (che lascia supporre che il o modello è specificato correttamente).

rifiuto H0non rifiuto H0

1.74 sd

5%

Ipotesi nulla: H0 : Bj = 0

Ipotesi alternativa: H1 : Bj > 0

TEST t a una coda

Page 86: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

8686

Test sull’intercetta: Test t

• La verifica dell'intercetta è poco interessante dato che non ha incidenza sulla bontà di adattamento. In genere si sottopone a verifica l'ipotesi che sia uguale a zero

• Il procedimento è del tutto simile a quello visto per il coefficiente angolare

anno accademico 2009/10

Page 87: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

8714 Il modello di regressione lineare multipla

87

Valori critici della distribuzione t

Page 88: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

88

Selezione delle variabili in Model

Building

Use Theory Only!Use Theory Only! Use Computer Search!Use Computer Search!

Page 89: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

89

Model Building

• Obiettivo è quello di sviluppare modelli con il numero minore possibile (Fewest) di variabili esplicative (principio della parsimonia)– Più facili da interpretare – Bassa probabilità di collinearità

• Procedure di Regressione stepwise– Fornisce una valutazione limitata di modelli

alternativi

• Approccio Best-Subset • Utilizza la statistica Cp

– Seleziona il modello con il CP più piccolo

Page 90: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

90

Model Building Flowchart

Scegliere X1,X2,…Xk

Run Regression to find VIFs

Remove Variable with

Highest VIF

Any VIF>5?

Run Subsets Regression to Obtain

“best” models in terms of Cp

Do Complete Analysis

Add Curvilinear Term and/or Transform Variables as Indicated

Perform Predictions

No

More than One?

Remove this X

Yes

No

Yes

Page 91: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

9114 Il modello di regressione lineare multipla

91

Sequential Methods

• Stepwise selection procedures• Comporta "Partialling-out" delle

variabili esplicative

• Sulla base del coefficiente di correlazione parziale

223

213

2313123.12

11 rr

rrrr

Page 92: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

9214 Il modello di regressione lineare multipla

92

All possible subsets

• s2 is residual variance for reduced model and 2 is the residual variance for full model

• All subset regressions compute possible 1, 2, 3, … variable models given some optimality criterion.

Requires use of optimality criterion, e.g., Mallow’s Cp

2

22

ˆ

ˆ

pns

pC p (p = k + 1)

Page 93: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

9314 Il modello di regressione lineare multipla

93

Mallow’s Cp

• Measures total squared error• Choose model where Cp ~ p

Page 94: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

94

Modelli con due o più variabili quantitative

Page 95: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

95

Types of Regression Models

ExplanatoryVariable

1stOrderModel

3rdOrderModel

2 or MoreQuantitative

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

Model

1Quantitative

Variable

ExplanatoryVariable

1stOrderModel

3rdOrderModel

2 or MoreQuantitative

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

Model

1Quantitative

Variable

Page 96: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

96

First-Order Model With 2 Independent Variables

• 1. La Relazione fra 1 Variabile Dipendente e 2 Variabili Independenti è una Funzione lineare

• 2. Si ipotizza nessuna interazione fra X1 e X2 (L’ effetto di X1 su E(Y) è lo stesso a prescindere dai valori

X2)

• 3. Il modello:

E Y X Xi i( ) 0 1 1 2 2E Y X Xi i( ) 0 1 1 2 2

Page 97: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

97

Nessuna Interazione

Effetto (pendenza) di Effetto (pendenza) di XX11 su su EE((YY) non dipende dal valore di ) non dipende dal valore di XX22

E(Y)E(Y)

XX11

44

88

1212

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(2) = 7 + + 3(2) = 7 + 22XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(1) = 4 + + 3(1) = 4 + 22XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(0) = 1 + + 3(0) = 1 + 22XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3(3) = 10 + + 3(3) = 10 + 22XX11

Page 98: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

98

First-Order Model Relationships

X2

Y

X1

0Resp on seS urfac e

X2

Y

X1

0Resp on seS urfac e

Page 99: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

99

Types of Regression Models

ExplanatoryVariable

1stOrderModel

3rdOrderModel

2 or MoreQuantitative

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

Model

1Quantitative

Variable

ExplanatoryVariable

1stOrderModel

3rdOrderModel

2 or MoreQuantitative

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

Model

1Quantitative

Variable

Page 100: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

100

Interaction Model With 2 Independent Variables

• 1. Hypothesizes Interaction Between Pairs of X Variables– Response to One X Variable Varies at

Different Levels of Another X Variable

Page 101: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

101

Modello con due variabili esplicative e interazione

1. Si ipotizza una interazione fra coppie di variabili indipendenti. (L’effetto di una variabile X varia a differenti livelli di un’altra variabile X );

2. Contiene Two-Way Cross Product Terms

3. Può essere combinato con altri modelli (Ad esempio modelli con variabili dummy)

E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2

Page 102: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

102

Effetto della interazione

• 1. Dato:

• 2. Senza il termine di interazione, l’effetto di X1 su Y è misurato da 1

• 3. Con il termine di interazione l’effetto di X1 su Y è misurato da 1 + 3X2

– L’effetto aumenta all’aumentare di X2i

E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2E Y X X X Xi i i i( ) 0 1 1 2 2 3 1 2

Page 103: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

103

Modello con due variabili esplicative e interazione

E(Y)E(Y)

XX11

44

88

1212

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

Page 104: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

104

Modello con due variabili esplicative e interazione

E(Y)E(Y)

XX11

44

88

1212

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + 2) = 1 + 2XX11

Page 105: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

105

Modello con due variabili esplicative e interazione

E(Y)E(Y)

XX11

44

88

1212

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(11) + 4) + 4XX11((11) = 4 + 6) = 4 + 6XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + 2) = 1 + 2XX11

Page 106: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

106

Modello con due variabili esplicative e interazione

L’effetto (pendenza) di L’effetto (pendenza) di XX11 su su EE((YY) dipende dai valori ) dipende dai valori

di di XX22

E(Y)E(Y)

XX11

44

88

1212

0000 110.50.5 1.51.5

EE((YY) = 1 + 2) = 1 + 2XX11 + 3 + 3XX2 2 + 4+ 4XX11XX22

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(11) + 4) + 4XX11((11) = 4 + ) = 4 + 66XX11

EE((YY) = 1 + 2) = 1 + 2XX11 + 3( + 3(00) + 4) + 4XX11((00) = 1 + ) = 1 + 22XX11

Page 107: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

107

Types of Regression Models

ExplanatoryVariable

1stOrderModel

3rdOrderModel

2 or MoreQuantitative

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

Model

1Quantitative

Variable

ExplanatoryVariable

1stOrderModel

3rdOrderModel

2 or MoreQuantitative

Variables

2ndOrderModel

1stOrderModel

2ndOrderModel

Inter-ActionModel

1Qualitative

Variable

DummyVariable

Model

1Quantitative

Variable

Page 108: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

108

Second-Order Model With 2 Independent Variables

• 1. La Relazione fra 1 variabile Dipendente e 2 o più variabili Independenti è una funzione Quadratica

• 2. E’ utile come primo modello se si sospetta la presenza di una relazione non lineare

• 3. Il modello è:

• 4. Questi modelli però hanno scarso utilizzo in economia

E Y X X X X

X X

i i i i

i i

( )

0 1 1 2 2 3 1 2

4 12

5 22

E Y X X X X

X X

i i i i

i i

( )

0 1 1 2 2 3 1 2

4 12

5 22

Page 109: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

109

Second-Order Model Relationships

Y

X2X1

Y

X2X1

Y

X2X1

Y

X2X1

Y

X2X1

Y

X2X1

4 + 5 > 0 4 + 5 < 0

32 > 4 4 5 E Y X X

X X

X X

i i

i i

i i

( )

0 1 1 2 2

3 1 2

4 12

5 22

E Y X X

X X

X X

i i

i i

i i

( )

0 1 1 2 2

3 1 2

4 12

5 22

Page 110: LA REGRESSIONE LINEARE MULTIPLA

14 Il modello di regressione lineare multipla

11014 Il modello di regressione lineare multipla

110

Riferimenti bibliografici

• D.M. Levine, T.C. Krehbiel, M.L. Berenson (2002) Statistica, Apogeo.

• Cap. 10 (disponibile online all’indirizzo• www.apogeonline.com/libri/00805/allegati/).

• D. N. Gujarati (2003) Basic conometrics, McGrawHill.

http://www.wessa.net/esteq.wasphttp://www.wessa.net/esteq.wasp