101

Il modello di regressione lineare - uniroma1.it

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Il modello di regressione lineare - uniroma1.it

Il modello di regressione lineare

Riccardo [email protected]

Statistica Multivariata

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 1 / 101

Page 2: Il modello di regressione lineare - uniroma1.it

Cosa impareremo sul modello di regressione lineare

1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 2 / 101

Page 3: Il modello di regressione lineare - uniroma1.it

Sommario

1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 3 / 101

Page 4: Il modello di regressione lineare - uniroma1.it

Il modello di regressione lineare

Date p variabili quantitative, X1,X2, . . . ,Xp (variabili esplicative oindipendenti), siamo interessati all'in�uenza esercitata da queste su unavariabile quantitativa Y (variabile dipendente o risposta).

Ipotizziamo che la relazione sia di tipo lineare:

Y = β0 + β1 · X1 + β2 · X2 + . . .+ βp · Xp

dove β0, β1, . . . , βp sono i parametri (o coe�cienti) del modello, inparticolare:

β0 è l'intercetta;

βj (j = 1, . . . , p) è il coe�ciente angolare di Xj .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 4 / 101

Page 5: Il modello di regressione lineare - uniroma1.it

Il termine di errore

Nella pratica la relazione non è (quasi) mai esatta, per cui dobbiamoaggiungere un termine di errore (ε).

Y = β0 + β1 · X1 + β2 · X2 + . . .+ βp · Xp + ε

La relazione non è esatta per diversi motivi:

1 la relazione potrebbe non essere lineare;

2 potrebbero esserci altre variabili (non considerate e/o non osservabili)che in�uiscono sulla Y ;

3 ci potrebbero essere errori di misurazione delle variabili.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 5 / 101

Page 6: Il modello di regressione lineare - uniroma1.it

Esempio

Consideriamo la relazione tra potenza (X , in cavalli vapore) e consumo (Y ,km per litro) di un campione di veicoli.

5.0

7.5

10.0

12.5

100 200 300

Cavalli vapore

Km

per

litro

Veicoli con la stessa potenza possono avere consumi di�erenti.

Questa discrepanza è dovuta principalmente al fatto che molti altrifattori possono in�uenzare Y .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 6 / 101

Page 7: Il modello di regressione lineare - uniroma1.it

Interpretazione dei parametri del modello

L'intercetta β0 rappresenta il valore atteso della Y quando tutte levariabili esplicative sono pari a 0.

Il coe�ciente angolare βj rappresenta la variazione attesa della Y

quando la Xj varia di una unità, ferme restando tutte le altrevariabili esplicative.

βj è anche detto l'e�etto marginale di Xj su Y , e misura l'e�etto di Xj suY , a parità di tutte le altre condizioni.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 7 / 101

Page 8: Il modello di regressione lineare - uniroma1.it

Esempio: E�cacia della pubblicità

Consideriamo la relazione tra vendite di un prodotto (Sales, migliaia diprodotti venduti) e investimenti in pubblicità televisiva (TV, in migliaia didollari) e radiofonica (Radio, sempre in migliaia di dollari), per uncampione di 200 città1:

Sales = β0 + β1 · TV + β2 · Radio + ε

β0 sono le vendite attese nei mercati in cui non sono stati fattiinvestimenti pubblicitari, né via TV, né sui giornali;

β1 è la variazione attesa delle vendite quando gli investimenti inpubblicità televisiva aumentano di 1000 dollari, a parità di investimentiin pubblicità radiofonica.

Domanda: come si interpreta β2?

1I dati sono presi da �An Introduction to Statistical Learning, with applications in R� (Springer, 2013), con il

permesso degli autori G. James, D. Witten, T. Hastie e R. Tibshirani.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 8 / 101

Page 9: Il modello di regressione lineare - uniroma1.it

Il modello di regressione lineare in termini matriciali

Date n osservazioni sulla variabile Y e sulle variabili esplicative Xj , siano:

y il vettore colonna di n elementi relativo alle osservazioni sullavariabile dipendente;

β il vettore colonna di p + 1 elementi relativo ai parametri del modello;

ε il vettore colonna di n elementi dei termini di errore;

X la matrice n × p + 1, la cui prima colonna è un un vettore colonnadi elementi pari ad 1 (corrispondente all'intercetta), mentre le restantip colonne sono altrettanti vettori colonna, ciascuno relativo alle nosservazioni sulla corrispondente variabile esplicativa, con n > p + 1.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 9 / 101

Page 10: Il modello di regressione lineare - uniroma1.it

y =

y1y2...yi...yn

β =

β0β1...βj...βp

ε =

ε1ε2...εi...εn

X =

1 x11 x12 . . . x1j . . . x1p1 x21 x22 . . . x2j . . . x2p. . . . . . . . . . . . . . . . . . . . .1 xi1 xi2 . . . xij . . . xip. . . . . . . . . . . . . . . . . . . . .1 xn1 xn2 . . . xnj . . . xnp

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 10 / 101

Page 11: Il modello di regressione lineare - uniroma1.it

Il modello di regressione lineare può essere espresso in termini più compattiricorrendo alla seguente notazione matriciale:

y = Xβ + ε

che (a parte la presenza di un termine di errore) rappresenta la forma

matriciale di un sistema di equazioni lineari con n equazioni e pincognite.

Indicando con x′i = (1, xi1, xi2, . . . , xij , . . . , xip) l'i-ma riga di X, la genericaequazione può essere scritta come:

yi = x′iβ + εi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 11 / 101

Page 12: Il modello di regressione lineare - uniroma1.it

Ipotesi del modello

Le principali assunzioni per la stima dei parametri del modello sono:

1 yi = x′iβ + εi , per ogni osservazione (linearità del modello);

2 r(X) = p + 1, con p + 1 < n;3 le εi sono variabili casuali, con

a) E (εi ) = 0;b) Var(εi ) = σ2 (omoschedasticità)c) cor(εi , εj ) = 0 (assenza di correlazione).d) εi ∼ N(0, σ2)

In termini più compatti si può scrivere:

ε ∼ N(0, σ2I)

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 12 / 101

Page 13: Il modello di regressione lineare - uniroma1.it

Date le ipotesi, si ha che:

E (y|X) = βX

dove E (y|X) è il valore atteso di Y condizionato dalle p variabiliesplicative.

βX rappresenta l'iperpiano di regressione (componentedeterministica del modello).

Per p = 1, si ha la retta di regressione β0 + β1 · xi1.Inoltre, si ha anche che:

y|X ∼ N(βX, σ2I)

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 13 / 101

Page 14: Il modello di regressione lineare - uniroma1.it

Stima dei parametri del modello

Per ottenere una stima dei coe�cienti (ignoti) βj occorre un campione din osservazioni per la variabile dipendente e per le p variabili esplicative:

Nel primo esempio, abbiamo n = 200 osservazioni sulle vendite e sugliinvestimenti pubblicitari via TV e via giornali.

L'obiettivo è quello di ottenere le stime dei parametri βj , indicate con βj ,tali che l'iperpiano stimato passi il più vicino possibile ai dati osservati,ossia:

yi︸︷︷︸valore

osservato

≈ β0 + β1 · xi1 + . . .+ βp · xip︸ ︷︷ ︸valore stimato

(i = 1, . . . , n),

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 14 / 101

Page 15: Il modello di regressione lineare - uniroma1.it

Esempio: p = 1 (retta di regressione)

x

y

valori osservati

retta stimata

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 15 / 101

Page 16: Il modello di regressione lineare - uniroma1.it

Metodo dei minimi quadrati ordinari

Il criterio più utilizzato per ottenere queste stime è il metodo dei minimi

quadrati ordinari (Ordinary Least Squares, OLS), o, più semplicemente,metodo dei minimi quadrati.

Sia yi = β0 + β1 · xi1 + . . .+ βp · xip il valore stimato della variabile Yin corrispondenza delle i-me osservazioni delle variabili esplicative X .

Sia ei = yi − yi = yi − (β0 + β1 · xi1 + . . .+ βp · xip) il residuo i-mo.

Sia

RSS = e21 + e22 + . . .+ e2i + . . .+ e22 =n∑

i=1

e2i

la somma dei quadrati dei residui (residual sum of squares, RSS).

Con il metodo dei minimi quadrati si determinano i valori di βj cheminimizzano RSS .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 16 / 101

Page 17: Il modello di regressione lineare - uniroma1.it

In termini matriciali, sia e = y− y il vettore dei residui (dove y = βX è ilvettore dei valori di Y stimati condizionatamente ad X).

Il problema è quello di minimizzare la seguente quantità:

RSS = e′e = (y − βX)′(y − βX)

Si dimostra che lo stimatore OLS del vettore β dei parametri, ottenutominimizzando RSS , è dato da:

β =(X′X

)−1X′y

dove

β =

β0β1...

βp

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 17 / 101

Page 18: Il modello di regressione lineare - uniroma1.it

Esempio: E�cacia della pubblicità (ctd.)

Torniamo all'esempio sulla relazione tra vendite e investimenti in pubblicitàsulla TV e sulla radio.

Sostituiamo nel modello le seguenti stime, ottenute con il metodo deiminimi quadrati:

β0 = 2.921, β1 = 0.046, β2 = 0.188

quindiyi = 2.921 + 0.046 · TVi + 0.188 · Radioi

Domanda: come si interpretano le stime dei parametri?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 18 / 101

Page 19: Il modello di regressione lineare - uniroma1.it

Proprietà di β

1 β = (X′X)−1X′y è una funzione lineare di Y .

2 E' uno stimatore corretto di β, E (β) = β.

3 La matrice di varianze e covarianze di β è Var(β) = σ2(X′X)−1.

4 Teorema di Gauss-Markov: nella classe degli stimatori lineari ecorretti, β è lo stimatore più e�ciente (best linear unbiasedestimator, BLUE).

5 Data l'ipotesi di Normalità dei termini di errore, anche β è distribuitocome un vettore di v.c. Normali:

β ∼ N(β, σ2(X′X)−1)

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 19 / 101

Page 20: Il modello di regressione lineare - uniroma1.it

Errore standard di βj

La deviazione standard di βj (stima OLS di βj) è√Var(βj) = σ

√cjj

dove cjj è l'elemento j-mo sulla diagonale di (X′X)−1.

Dal momento che σ non è noto, va stimato.

Lo stimatore corretto di σ è:

S =

√ ∑ni=1

e2in − p − 1

=

√RSS

n − p − 1

Sostituendo S nell'espressione della deviazione standard di βj siottiene l'errore standard (standard error) della stima OLS di βj

SE (βj) = S · √cjj .

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 20 / 101

Page 21: Il modello di regressione lineare - uniroma1.it

Esempio: E�cacia della pubblicità (ctd.)

Nella seguente tabella si riportano le stime dei minimi quadrati, insieme airispettivi errori standard, per il modello sulle vendite:

Estimate Std. Error

(Intercept) 2.921 0.294

TV 0.046 0.001

Radio 0.188 0.008

Maggiore è l'errore standard di una stima (in relazione alla stimastessa), minore è l'a�dabilità della stima (ci torneremo).

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 21 / 101

Page 22: Il modello di regressione lineare - uniroma1.it

Veri�ca della bontà del modello

Una volta stimati i parametri del modello, vogliamo sapere in che misura ilmodello si adatta ai dati.

Nel seguito, considereremo tre misure di bontà di adattamento (goodnessof �t) del modello ai dati:

1 il Residual Standard Error ;

2 il coe�ciente di determinazione, R2;

3 il coe�ciente di determinazione corretto, R2.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 22 / 101

Page 23: Il modello di regressione lineare - uniroma1.it

Residual Standard Error

La stima corretta di σ è anche detta Residual Standard Error , e misura ladistanza media tra i valori stimati e quelli osservati.

Oss.: può essere interpretato come una stima di quanto i valori dellaY si discostano, in media, dal vero (ed ignoto) iperpiano diregressione.

Più piccolo è RSE , migliore è l'adattamento del modello ai dati.

Nel nostro esempio il valore di RSE è pari a 1.68, ossia la distanza mediatra valori stimati e valori osservati per le vendite è pari a 1.68 (in termini dinumero di prodotti venduti).

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 23 / 101

Page 24: Il modello di regressione lineare - uniroma1.it

Limiti di RSE

RSE è una misura assoluta della bontà di adattamento, che dipendedall'ordine di grandezza della Y .

Per questo motivo è di�cile stabilire se il valore osservato per RSEindichi un adattamento accettabile ai dati.

Nel nostro caso RSE = 1.68 indica un adattamento buono o pessimo?

Per ottenere una misura relativa della bontà di adattamento facciamoricorso ad un'importante relazione:la scomposizione della devianza totale.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 24 / 101

Page 25: Il modello di regressione lineare - uniroma1.it

Scomposizione della devianza totale

Si dimostra che, date le stime OLS yi , vale la seguente relazione

Scomposizione della devianza totale

n∑i=1

(yi − y)2︸ ︷︷ ︸TSS

=n∑

i=1

(yi − y)2︸ ︷︷ ︸ESS

+n∑

i=1

(yi − yi )2

︸ ︷︷ ︸RSS

dove:

TSS : devianza totale della Y , data dalla somma dei quadrati degliscarti dei valori osservati dalla media (total sum of squares);

ESS : devianza spiegata, data dalla somma dei quadrati degli scartitra i valori stimati e la media (explained sum of squares) e rappresentala parte della devianza totale spiegata dal modello.

Quindi RSS è il grado di incertezza residua una volta che il modello èstato stimato.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 25 / 101

Page 26: Il modello di regressione lineare - uniroma1.it

Il coe�ciente di determinazione R2

Dalla precedente relazione deriviamo il coe�ciente di determinazione

R2, che è una misura relativa della bontà di adattamento del modello aidati:

R2 =ESS

TSS= 1− RSS

TSS0 ≤ R2 ≤ 1

R2 misura la quota di variabilità della Y che viene spiegata dal modello.

Più il valore di R2 è vicino ad 1, migliore è l'adattamento delmodello ai dati.

Valori vicini allo 0 indicano uno scarso adattamento ai dati, il chepotrebbe essere dovuto ad un elevato valore di σ2, all'uso di unmodello non adatto (ad esempio, per l'ipotesi di linearità), o adentrambe le cose.

Nel nostro esempio, si ha che R2 = 0.89719, il che signi�ca che il modellospiega circa il 90% della variabilità totale dei dati.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 26 / 101

Page 27: Il modello di regressione lineare - uniroma1.it

Valori di R2

Più la retta stimata passa �vicino� ai dati osservati, più elevato è R2.R2 = 0.35 R2 = 0.6

R2 = 0.79 R2 = 0.95

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 27 / 101

Page 28: Il modello di regressione lineare - uniroma1.it

Limiti del coe�ciente di determinazione R2

Se si aggiunge ad un modello una variabile esplicativa il valore di RSSdiminuisce, per cui R2 aumenta, a prescindere che il contributo dellavariabile aggiuntiva sia rilevante o meno.

Consideriamo due modelli A e B uno annidato (nested) nell'altro:il modello A contiene p variabili esplicative, il modello B contiene lestesse p variabili esplicative, più altre p′ (p′ ≥ 1),

Si dimostra che R2

B≥ R2

A, ma ciò non signi�ca necessariamente che il

secondo modello sia migliore del primo, in termini di adattamento aidati.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 28 / 101

Page 29: Il modello di regressione lineare - uniroma1.it

Il coe�ciente di determinazione corretto R2

Per decidere qual è il modello migliore (in termini di bontà diadattamento ai dati) tra due modelli a confronto, si usa il coe�ciente di

determinazione corretto R2

R2 = 1− n − 1

n − p − 1(1− R2)

che aumenta solo se il contributo delle variabili aggiuntive è sostanziale.

Al crescere di p il termine di penalizzazione n−1n−p−1 aumenta,

mentre 1− R2 diminuisce (a causa dell'aumento di R2).

R2 aumenta solo se la diminuzione di 1− R2 è superioreall'incremento del termine di penalizzazione.

Se R2

B> R2

A, il modello B è migliore del modello A.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 29 / 101

Page 30: Il modello di regressione lineare - uniroma1.it

Esempio

Sappiamo che per il nostro modello R2 = 0.89719.

Il coe�ciente di determinazione corretto è:

R2 = 1− 199

197· (1− 0.89719) = 0.89615

Se aggiungiamo anche gli investimenti in pubblicità sui quotidiani(Newspaper), il coe�ciente di determinazione è leggermente superiore(R2 = 0.89721).

In questo caso il coe�ciente di determinazione corretto è:

R2 = 1− 199

196· (1− 0.89721) = 0.89564

per cui aggiungere la nuova variabile al modello non migliora

l'adattamento ai dati.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 30 / 101

Page 31: Il modello di regressione lineare - uniroma1.it

Veri�ca della bontà delle stime

Quanto sono a�dabili le stime che abbiamo ottenuto?

Nell'esempio abbiamo visto che all'aumentare degli investimenti inpubblicità televisiva la variazione attesa delle vendite è pari 46 unità diprodotto vendute per ogni 1000 $ investiti, qualsiasi sia l'entità degliinvestimenti in pubblicità radiofoniche.Possiamo fare a�damento su questa stima?

Tutte le variabili esplicative concorrono a spiegare la variabile Y , o solo unsottoinsieme delle variabili Xj è rilevante?

Quali tra le variabili utilizzate nell'ultimo esempio contribuiscee�ettivamente a spiegare le variazioni delle vendite?

Per rispondere a queste domande dobbiamo analizzare le stime ottenute intermini inferenziali.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 31 / 101

Page 32: Il modello di regressione lineare - uniroma1.it

Inferenza nel modello di regressione lineareData l'ipotesi di normalità delle stime OLS βj , se la deviazione standarddei termini di errore, σ, fosse nota si avrebbe che:

βj − βjσ · √cjj

∼ N(0, 1)

Dal momento che σ generalmente non è nota, la sostituiamo con il suostimatore corretto, S , per cui:

βj − βjS · √cjj

∼ tn−p−1

Per n su�cientemente grande si ha che

βj − βjS · √cjj

∼ N(0, 1)

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 32 / 101

Page 33: Il modello di regressione lineare - uniroma1.it

Veri�ca d'ipotesi sui singoli parametri del modello

Supponiamo di voler sottoporre a veri�ca l'ipotesi che il parametro βj siauguale ad un certo valore βj , contro l'ipotesi alternativa che sia diverso(test bidirezionale).

La statistica test in questo caso è:

βj − βjS · √cjj

che, data l'ipotesi nulla, si distribuisce come una t-Student con n− p − 1gradi di libertà.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 33 / 101

Page 34: Il modello di regressione lineare - uniroma1.it

Esistenza della relazione tra Y e Xj

Nel modello di regressione lineare si è interessati a sottoporre a veri�cal'ipotesi nulla H0 : βj = 0, contro l'ipotesi alternativa, H1 : βj 6= 0.

L'ipotesi nulla equivale a dire che la variabile Xj non in�uenza lavariabile Y .

Se l'ipotesi nulla è vera, la statistica t è:

t =βj

s · √cjj∼ tn−p−1

La statistica t è anche detta t-value.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 34 / 101

Page 35: Il modello di regressione lineare - uniroma1.it

Fissato un livello di signi�catività α, si determina il valore soglia tα/2,tale che:

P(|T | > tα/2) = P(T < −tα/2) + P(T > tα/2) = α

Si ri�uta l'ipotesi nulla se |t| > tα/2.

In alternativa, si calcola il p-value:

P(|T | > t) = 2 · [1− F (t)]

dove F (t) è la funzione di ripartizione della v.c. t-Student.

Si ri�uta l'ipotesi nulla se il p-value è minore di α.

Se l'ipotesi nulla βj = 0 viene ri�utata, si dice che il parametro βj èsigni�cativamente diverso da 0, ovvero che la variabile è signi�cativa,al livello α.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 35 / 101

Page 36: Il modello di regressione lineare - uniroma1.it

Esempio: E�cacia della pubblicità (ctd.)

Consideriamo i risultati della regressione delle vendite sugli investimenti inpubblicità sui TV e radio (nelle ultime due colonne ci sono i t-value e ip-value delle stime, rispettivamente):

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.921 0.294 9.919 0

TV 0.046 0.001 32.909 0

Radio 0.188 0.008 23.382 0

Dal momento che n = 200, possiamo considerare la distribuzione Normaleper il calcolo del valore soglia.

Se �ssiamo α = 0.01, il valore soglia è z0.005 = 2.576, per cuientrambe le variabili sono signi�cative.

E' su�ciente osservare che il p-value è praticamente pari a 0, perentrambe le stime dei coe�cienti delle due variabili.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 36 / 101

Page 37: Il modello di regressione lineare - uniroma1.it

Esempio: E�cacia della pubblicità (ctd.)

Se aggiungiamo anche gli investimenti in pubblicità sui giornali abbiamo:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.939 0.312 9.422 0.00

TV 0.046 0.001 32.809 0.00

Radio 0.189 0.009 21.893 0.00

Newspaper -0.001 0.006 -0.177 0.86

In questo caso, la variabile Newspaper non è signi�cativa al livelloα = 0.01, dal momento che il suo p-value è molto elevato (comunquesuperiore al livello di signi�catività �ssato).

Oss.: i risultati per le altre due variabili restano praticamente

invariati dopo l'inserimento della nuova variabile.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 37 / 101

Page 38: Il modello di regressione lineare - uniroma1.it

Veri�ca d'ipotesi congiunta su più parametri

Per veri�care l'ipotesi che più parametri del modello sianocongiuntamente pari a 0, si impiega il test F , basato sulla v.c. F -Fisher.

Consideriamo il seguente modello (che chiameremo completo):

yi = β0 + β1xi1 + . . .+ βpxip + εi

Senza perdere in generalità, supponiamo di voler veri�care che leultime p − h variabili del modello (con h ≤ p) non siano utili perspiegare la relazione lineare con la Y , per cui possono essereeliminate dal modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 38 / 101

Page 39: Il modello di regressione lineare - uniroma1.it

Formalmente, questo corrisponde a sottoporre a veri�ca l'ipotesi nulla:

βh+1 = βh+2 . . . = βp = 0, per h < p

contro l'ipotesi alternativa che almeno uno dei parametri consideratisia diverso da 0.

Se l'ipotesi nulla è vera, il vero modello è:

yi = β0 + β1xi1 + . . .+ βhxih + εi

detto modello ridotto.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 39 / 101

Page 40: Il modello di regressione lineare - uniroma1.it

Sia RSS la somma dei quadrati dei residui del modello completo e RSS0quella del modello ridotto.

Dal momento che il modello completo ha un numero maggiore divariabili esplicative rispetto al modello ridotto, si ha che RSS ≤ RSS0.

Se la di�erenza RSS0 − RSS è grande, l'ipotesi nulla va ri�utataperché il contributo delle ultime p − h variabili alla capacitàesplicativa del modello non è trascurabile.

Viceversa se RSS0 − RSS è piccola: non ri�utiamo H0, per cui leultime p − h variabili sono ridondanti.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 40 / 101

Page 41: Il modello di regressione lineare - uniroma1.it

Per stabilire statisticamente se la di�erenza RSS0 − RSS siasu�cientemente grande da ri�utare l'ipotesi nulla, si utilizza la statisticatest F :

F =(RSS0 − RSS)/(p − h)

RSS/(n − p − 1)

che data l'ipotesi nulla si distribuisce come una v.c. F -Fisher, con p − h

e n − p − 1 gradi di libertà (Fp−h,n−p−1).

Stabilito il livello di signi�catività α, si determina il valore soglia Fα,tale che P(F > Fα)=α.

Si ri�uta l'ipotesi nulla se F > Fα (test unidirezionale).

Anche in questo caso si può osservare il p-value per valutare seri�utare l'ipotesi nulla.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 41 / 101

Page 42: Il modello di regressione lineare - uniroma1.it

Decisione basata sul p-value

Rifiuto H0

0 Fα F

Non rifiuto H0

0 F Fα

L'area in rosso rappresenta α, quella in blu il p-value.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 42 / 101

Page 43: Il modello di regressione lineare - uniroma1.it

Veri�ca della bontà del modello: F-statistic

Per h = 0, l'ipotesi nulla coincide con il caso in cui tutti i parametri del

modello, tranne l'intercetta, sono pari a 0.

β1 = β2 = . . . = βp ⇒ yi = β0 + εi

La statistica test (detta F-statistic) è:

F =R2/p

(1− R2)/(n − p − 1)∼ Fp,n−p−1

Il test diventa un giudizio complessivo sulla capacità esplicativa delmodello.

Nel seguito, quando parleremo di statistica F , o test F , faremosempre riferimento a quest'ultimo caso.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 43 / 101

Page 44: Il modello di regressione lineare - uniroma1.it

Esempio: E�cacia della pubblicità (ctd.)Tornando al modello in cui si mettono in relazione le vendite con gliinvestimenti in pubblicità su TV e radio, la statistica F è:

F =0.89719/2

0.10281/197= 859.578

e si distribuisce come una F2,197.

Vogliamo veri�care l'ipotesi nulla β1 = β2 = 0, per α = 0.01.

Dal momento che sulle tavole, i gradi di libertà per il denominatorearrivano �no a 120, approssimiamo n − p − 1 ad in�nito (∞).

Il valore soglia è F0.01;2;197 ≈ 4.61 (il valore reale è 4.71) per cuiri�utiamo l'ipotesi nulla.

Il p-value è praticamente pari a 0, precisamente

P(F > 859.578) = 4.8273619× 10−98

per cui è minore di qualsiasi livello di signi�catività comunemente

�ssato.R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 44 / 101

Page 45: Il modello di regressione lineare - uniroma1.it

Esempio: E�cacia della pubblicità (ctd.)

Se aggiungiamo anche gli investimenti pubblicitari sui giornali avremo(ricordando che R2 = 0.89721):

F =0.89721/3

0.10279/196= 570.267

che si distribuisce come una F3,196.

Sempre per α = 0.01, il valore soglia è

F0.01;3;196 ≈ 3.78

per cui anche in questo caso ri�utiamo l'ipotesi nulla.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 45 / 101

Page 46: Il modello di regressione lineare - uniroma1.it

Tutti i risultati discussi sinora sono riportati di seguito (è l'output di R perla regressione lineare):

Call:

lm(formula = Sales ~ TV + Radio, data = dat)

Residuals:

Min 1Q Median 3Q Max

-8.7977 -0.8752 0.2422 1.1708 2.8328

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.92110 0.29449 9.919 <2e-16 ***

TV 0.04575 0.00139 32.909 <2e-16 ***

Radio 0.18799 0.00804 23.382 <2e-16 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.681 on 197 degrees of freedom

Multiple R-squared: 0.8972, Adjusted R-squared: 0.8962

F-statistic: 859.6 on 2 and 197 DF, p-value: < 2.2e-16

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 46 / 101

Page 47: Il modello di regressione lineare - uniroma1.it

Riportiamo per completezza l'output del modello in cui consideriamo anchegli investimenti in pubblicità sui giornali:

Call:

lm(formula = Sales ~ ., data = dat)

Residuals:

Min 1Q Median 3Q Max

-8.8277 -0.8908 0.2418 1.1893 2.8292

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.938889 0.311908 9.422 <2e-16 ***

TV 0.045765 0.001395 32.809 <2e-16 ***

Radio 0.188530 0.008611 21.893 <2e-16 ***

Newspaper -0.001037 0.005871 -0.177 0.86

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.686 on 196 degrees of freedom

Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956

F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 47 / 101

Page 48: Il modello di regressione lineare - uniroma1.it

Selezione delle variabili

All models are wrong. Some models are useful

George E. P. Box

Uno dei problemi più comuni è quello della scelta di quali e quantevariabili esplicative inserire nel modello.

Teoricamente, avendo a disposizione p variabili esplicative dovremmoconfrontare 2p modelli, ognuno contenente un sottoinsieme delle pvariabili, per scegliere il modello migliore in base ad uno o più criteri(R2, AIC, BIC, ecc,).

Nel nostro esempio, il dataset contiene 3 (potenziali) variabiliesplicative, per cui dovremmo confrontare 8 modelli (compreso ilmodello con la sola intercetta).

Se invece avessimo a disposizione 10 (potenziali) variabili esplicative,dovremmo confrontare 1024 modelli!!

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 48 / 101

Page 49: Il modello di regressione lineare - uniroma1.it

Procedure per la selezione delle variabili esplicative

Esistono delle procedure (semi-)�automatiche� che rendono la selezionedelle variabili esplicative meno impegnativa.

1 Forward selection: a partire dal modello con la sola intercetta, siinserisce una variabile alla volta in maniera tale da minimizzare lasomma dei quadrati dei residui (RSS). Il processo si arresta in base aduna regola pre�ssata (ad esempio, se la riduzione di RSS è inferiore adun dato valore).

2 Backward selection: a partire dal modello con tutte le p variabiliesplicative, si elimina una variabile per volta partendo da quella con ilp-value più elevato. Il processo si arresta quando i p-value di tutte levariabili rimaste sono al di sotto di una certa soglia.

3 Approccio misto: si procede come per la forward selection, madurante il processo vengono eliminate le variabili i cui p-valueeccedono un pre�ssato valore.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 49 / 101

Page 50: Il modello di regressione lineare - uniroma1.it

Osservazione

Nei principali programmi per l'analisi dei dati (R, Stata, SAS, ecc.)esistono diverse funzioni che applicano uno dei tre metodi visti.

Uno dei problemi di questi approcci è che nessuno è ideale sotto ogniaspetto.

Inoltre rappresentano una sorta di black box , in cui abbiamo pochepossibilità di controllare la procedura.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 50 / 101

Page 51: Il modello di regressione lineare - uniroma1.it

Una possibile alternativa è quella di selezionare inizialmente una o piùvariabili esplicative di interesse (ad esempio, per sottoporre a veri�caun'ipotesi di lavoro, o una teoria).

Successivamente si possono inserire altre variabili (dette di controllo), perveri�care che l'e�etto delle variabili iniziali non venga vani�catodall'inserimento di queste ulteriori variabili.

Se, ad esempio, siamo interessati principalmente all'e�etto sullevendite degli investimenti in pubblicità sui giornali potremmoprocedere come descritto nella slide seguente.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 51 / 101

Page 52: Il modello di regressione lineare - uniroma1.it

Confronto tra modelli

Di seguito si riportano i tre modelli in cui inseriamo una variabileesplicativa per volta:

Dependent variable:

Sales

(1) (2) (3)

Newspaper 0.055∗∗∗ 0.044∗∗∗ -0.001(0.017) (0.010) (0.006)

TV 0.047∗∗∗ 0.046∗∗∗

(0.003) (0.001)

Radio 0.189∗∗∗

(0.009)

Constant 12.351∗∗∗ 5.775∗∗∗ 2.939∗∗∗

(0.621) (0.525) (0.312)

Observations 200 200 200

R2 0.052 0.646 0.897

Adjusted R2 0.047 0.642 0.896Residual Std. Error 5.092 (df = 198) 3.121 (df = 197) 1.686 (df = 196)F Statistic 10.887∗∗∗ (df = 1; 198) 179.619∗∗∗ (df = 2; 197) 570.271∗∗∗ (df = 3; 196)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 52 / 101

Page 53: Il modello di regressione lineare - uniroma1.it

Come mai quando aggiungiamo gli investimenti pubblicitari sulle radiol'e�etto delle pubblicità sui giornali sparisce?

Un indizio lo abbiamo dalla correlazione tra le variabili:

TV Radio Newspaper Sales

TV 1.000 0.055 0.057 0.782

Radio 0.055 1.000 0.354 0.576

Newspaper 0.057 0.354 1.000 0.228

Sales 0.782 0.576 0.228 1.000

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 53 / 101

Page 54: Il modello di regressione lineare - uniroma1.it

Come si vede, gli investimenti pubblicitari sulle radio sono positivamente

correlati con quelli sui giornali.

Inoltre la correlazione tra vendite e investimenti in annunci radiofoniciè più elevata di quella tra vendite e investimenti in pubblicità suigiornali.

In altre parole, nelle città dove si investe molto in pubblicità sulle radiole vendite sono più elevate, ma anche gli investimenti pubblicitari suigiornali sono elevati.

Se non teniamo conto degli investimenti sulle radio, la variabile Newspaper

ingloba anche l'e�etto della variabile Radio.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 54 / 101

Page 55: Il modello di regressione lineare - uniroma1.it

Analisi dei residui

L'analisi dei residui ei = yi − yi permette di sottoporre a veri�ca leprincipali ipotesi fatte per la stima del modello:

1 linearità della relazione;

2 omoschedasticità dei residui (varianza costante);

3 Normalità dei residui;

4 presenza di dati anomali.

Tipicamente l'analisi dei residui viene e�ettuata con test speci�ci, maanche con una semplice analisi gra�ca.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 55 / 101

Page 56: Il modello di regressione lineare - uniroma1.it

Analisi dei residuiModello:

Sales = β0 + β1 · TV + β2 · Radio + ε

5 10 15 20 25

−10

−6

−2

24

Fitted values

Res

idua

ls

Residuals vs Fitted

131

6179

−3 −2 −1 0 1 2 3

−4

−2

02

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

131

6179

5 10 15 20 25

0.0

1.0

2.0

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location131

6179

0.000 0.010 0.020 0.030

−6

−4

−2

02

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance

Residuals vs Leverage

131

636

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 56 / 101

Page 57: Il modello di regressione lineare - uniroma1.it

Descrizione dei gra�ci e dei risultati

1 Residuals vs Fitted : confronto tra valori stimati e residui.Se la curva rossa che interpola i dati ha un andamentoapprossimativamente lineare (e parallelo all'asse delle ascisse),l'ipotesi di linearità non è violata.Inoltre, se i punti al di sopra e al di sotto della curva si dispongono inmaniera casuale (senza nessun pattern evidente) anche l'ipotesi diomoschedasticità non è violata.

2 Normal Q-Q: confronto tra percentili teorici della distribuzioneNormale standardizzata e i percentili dei residui standardizzati.L'ipotesi di Normalità dei residui non è violata se i punti sidispongono approssimativamente lungo la diagonale del gra�co.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 57 / 101

Page 58: Il modello di regressione lineare - uniroma1.it

Descrizione dei gra�ci e dei risultati/2

3 Scale-Location: simile al primo gra�co, ma in questo caso si considerala radice quadrata dei residui standardizzati.L'interpretazione è simile a quella del primo gra�co.

4 Residuals vs Leverage: confronto tra il leverage di ciascunaosservazione e i residui standardizzati.L'indice di leverage considerato è la distanza di Cook che indical'in�uenza della singola osservazione sulla stima del modello. Più èelevato questo valore, maggiore è la possibilità che il dato siaanomalo.Accanto ai dati potenzialmente anomali viene indicata l'etichettadell'unità.Se alcune unità hanno valori dell'indice vicini o superiori a 0.5, vienemostrata una curva tratteggiata che indica tale distanza.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 58 / 101

Page 59: Il modello di regressione lineare - uniroma1.it

Commento generale

Per l'ipotesi di linearità servono ulteriori approfondimenti;

i residui sembrano mostrare un andamento ad U, non compatibile conle ipotesi del modello;

la distribuzione dei residui non sembra approssimare molto bene ladistribuzione Normale, specialmente per i valori nelle code;

si osserva la presenza di alcuni dati anomali.

Se i risultati non sono soddisfacenti, è opportuno aggiungere altre variabilie/o trasformarne alcune.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 59 / 101

Page 60: Il modello di regressione lineare - uniroma1.it

Sommario

1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 60 / 101

Page 61: Il modello di regressione lineare - uniroma1.it

Esempio (da Stock, Watson, 2007)

Consideriamo 420 distretti scolastici in California, sui quali sono stateosservate, tra le altre le seguenti variabili:

stratio: numero di studenti per insegnante (rapportostudenti-insegnanti, proxy della dimensione delle classi);

english: % di studenti che devono seguire un corso di Inglese(studenti non madrelingua);

score: punteggio medio degli studenti (rendimento medio);

lunch: % di studenti che hanno diritto alla mensa pubblica;

calworks: % di studenti che hanno diritto ad assistenza economica

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 61 / 101

Page 62: Il modello di regressione lineare - uniroma1.it

Alcune statistiche sui dati

Statistic N Mean St. Dev. Min Max

stratio 420 19.640 1.892 14.000 25.800score 420 654.157 19.053 605.550 706.750english 420 15.768 18.286 0.000 85.540lunch 420 44.705 27.123 0.000 100.000calworks 420 13.246 11.455 0.000 78.994

Matrice di correlazione

stratio score english lunch calworks

stratio 1.000 -0.226 0.188 0.135 0.018

score -0.226 1.000 -0.644 -0.869 -0.627

english 0.188 -0.644 1.000 0.653 0.320

lunch 0.135 -0.869 0.653 1.000 0.739

calworks 0.018 -0.627 0.320 0.739 1.000

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 62 / 101

Page 63: Il modello di regressione lineare - uniroma1.it

Relazione tra rendimento degli studenti e rapportostudenti-insegnanti

Siamo interessati in particolare alla relazione tra rendimento degli

studenti e il rapporto studenti-insegnanti (legato alla dimensione delleclassi).Studenti in classi meno numerose rendono di più?

630

660

690

14 16 18 20 22 24 26stratio

scor

e

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 63 / 101

Page 64: Il modello di regressione lineare - uniroma1.it

Modello (1)

Consideriamo il modello di regressione lineare semplice in cui mettiamo inrelazione il punteggio medio degli studenti nei distretti con il rapportostudenti-insegnanti.

Estimate Std. Error t value Pr(>|t|)

(Intercept) 698.9329 9.4675 73.8245 0

stratio -2.2798 0.4798 -4.7513 0

Per ogni punto percentuale in meno del rapporto studenti-insegnanti, ilpunteggio medio nei distretti aumenta di 2.3 punti, circa.

Poiché il p-value è praticamente pari a 0, la relazione è signi�cativa ancheper valori di α molto piccoli (ad esempio α = 0.001).

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 64 / 101

Page 65: Il modello di regressione lineare - uniroma1.it

Il coe�ciente di determinazione è pari a 0.0512, per cui il coe�cientedi determinazione corretto è 0.049 (controllare per esercizio).

La statistica F , data l'ipotesi nulla β1 = 0, si distribuisce come unaF -Fisher con 1 e 418 gradi di libertà.Il valore della statistica è F = 22.5751 (controllare per esercizio).Il valore critico per α = 0.05, approssimando i gradi di libertà aldenominatore ad in�nito, è F0.05,1,418 ≈ 3.84, per cui possiamori�utare l'ipotesi nulla.

N.B.: osserviamo che in questo caso l'ipotesi nulla per il test su β1 e quellaper il test F coincidono.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 65 / 101

Page 66: Il modello di regressione lineare - uniroma1.it

Modello (2)

La relazione negativa tra rendimento e dimensione delle classi potrebbeessere dovuta al fatto che nelle classi più grandi c'è una maggiorepercentuale di studenti non madrelingua.

Aggiungiamo la variabile di controllo english.

Estimate Std. Error t value Pr(>|t|)

(Intercept) 686.0322 7.4113 92.5656 0.000

stratio -1.1013 0.3803 -2.8960 0.004

english -0.6498 0.0393 -16.5159 0.000

Confrontando questo modello con il precedente, si osserva che la variabilestratio è sempre signi�cativa, e con lo stesso segno, ma il suo e�etto siè dimezzato.

In questo caso l'e�etto del rapporto studenti-insegnanti è valutato a paritàdi % di non madrelingua, mentre prima non si teneva conto di questavariabile.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 66 / 101

Page 67: Il modello di regressione lineare - uniroma1.it

Modello (2): Domande

Sapendo che R2 = 0.4264:

1 in termini di bontà di adattamento, questo modello è migliore delprecedente?

2 Qual è il valore della statistica F?

3 Per α = 0.05, possiamo ri�utare l'ipotesi nulla che β1 = β2 = 0?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 67 / 101

Page 68: Il modello di regressione lineare - uniroma1.it

Modello (2): Risposte

1 Il coe�ciente di determinazione corretto è R2 = 0.4237, per cuiquesto modello è migliore del primo.

2 F = 155.0137.

3 Il valore critico è F0.05,2,417 ≈ 3, per cui ri�utiamo l'ipotesi nulla.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 68 / 101

Page 69: Il modello di regressione lineare - uniroma1.it

Confronto tra i modelli (1) e (2)

Dependent variable:

score

(1) (2)

stratio -2.2798∗∗∗ -1.1013∗∗∗

(0.4798) (0.3803)

english -0.6498∗∗∗

(0.0393)

Constant 698.9329∗∗∗ 686.0322∗∗∗

(9.4675) (7.4113)

Observations 420 420

R2 0.0512 0.4264

Adjusted R2 0.0490 0.4237Residual Std. Error 18.5810 (df = 418) 14.4645 (df = 417)F Statistic 22.5751∗∗∗ (df = 1; 418) 155.0137∗∗∗ (df = 2; 417)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 69 / 101

Page 70: Il modello di regressione lineare - uniroma1.it

Modello (3a)

Aggiungiamo un'ulteriore variabile, lunch.

Estimate Std. Error t value Pr(>|t|)

(Intercept) 700.1500 4.6857 149.4231 0e+00

stratio -0.9983 0.2388 -4.1813 0e+00

english -0.1216 0.0323 -3.7619 2e-04

lunch -0.5473 0.0216 -25.3414 0e+00

Domande:

1 Confrontare il modello con i precedenti.

2 Quali variabili sono signi�cative per α = 0.05?3 Sapendo che R2 = 0.7745:

a) Questo modello è migliore degli altri in termini di bontà di adattamento?b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0

può essere ri�utata, sempre per α = 0.05?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 70 / 101

Page 71: Il modello di regressione lineare - uniroma1.it

Modello (3b)

Sostituiamo la variabile lunch con calworks:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 697.9987 6.0242 115.8665 0

stratio -1.3080 0.3067 -4.2646 0

english -0.4876 0.0335 -14.5640 0

calworks -0.7900 0.0525 -15.0449 0

Domande:

1 Confrontare il modello con i precedenti.

2 Quali variabili sono signi�cative per α = 0.1?3 Sapendo che R2 = 0.6285:

a) Questo modello è migliore di tutti gli altri in termini di bontà diadattamento?

b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0può essere ri�utata, sempre per α = 0.1?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 71 / 101

Page 72: Il modello di regressione lineare - uniroma1.it

Modello (3c)

Sostituiamo la variabile lunch con calworks:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 700.3918 4.6980 149.0840 0.0000

stratio -1.0144 0.2397 -4.2311 0.0000

english -0.1298 0.0340 -3.8186 0.0002

lunch -0.5286 0.0322 -16.4218 0.0000

calworks -0.0479 0.0610 -0.7849 0.4330

Domande:

1 Confrontare il modello con i precedenti.

2 Quali variabili sono signi�cative per α = 0.01?3 Sapendo che R2 = 0.7749:

a) Questo modello è migliore di tutti gli altri in termini di bontà diadattamento?

b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0può essere ri�utata, sempre per α = 0.01?

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 72 / 101

Page 73: Il modello di regressione lineare - uniroma1.it

Confronto tra gli ultimi 3 modelli

Dependent variable:

score(3a) (3b) (3c)

(1) (2) (3)

stratio -0.9983∗∗∗ -1.3080∗∗∗ -1.0144∗∗∗

(0.2388) (0.3067) (0.2397)

english -0.1216∗∗∗ -0.4876∗∗∗ -0.1298∗∗∗

(0.0323) (0.0335) (0.0340)

lunch -0.5473∗∗∗ -0.5286∗∗∗

(0.0216) (0.0322)

calworks -0.7900∗∗∗ -0.0479(0.0525) (0.0610)

Constant 700.1500∗∗∗ 697.9987∗∗∗ 700.3918∗∗∗

(4.6857) (6.0242) (4.6980)

Observations 420 420 420

R2 0.7745 0.6285 0.7749

Adjusted R2 0.7729 0.6259 0.7727Residual Std. Error 9.0801 (df = 416) 11.6543 (df = 416) 9.0843 (df = 415)F Statistic 476.3063∗∗∗ (df = 3; 416) 234.6381∗∗∗ (df = 3; 416) 357.0540∗∗∗ (df = 4; 415)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 73 / 101

Page 74: Il modello di regressione lineare - uniroma1.it

Analisi dei residui. Modello (3c)

620 630 640 650 660 670 680

−40

−20

020

Fitted values

Res

idua

ls

Residuals vs Fitted

180

367

77

−3 −2 −1 0 1 2 3

−2

02

4

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

180

367

77

620 630 640 650 660 670 680

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location180367

77

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

−4

−2

02

4

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance 0.5

0.5

Residuals vs Leverage

180

10

6

Commentare i gra�ci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 74 / 101

Page 75: Il modello di regressione lineare - uniroma1.it

Valori critici per il test F

Modello (3a): F3,416,0.05 ≈ 2.6.

Modello (3b): F3,416,0.1 ≈ 2.08.

Modello (3c): F4,415,0.01 ≈ 3.32.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 75 / 101

Page 76: Il modello di regressione lineare - uniroma1.it

Sommario

1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 76 / 101

Page 77: Il modello di regressione lineare - uniroma1.it

Esercizio 1

Date le seguenti variabili, rilevate su 32 siti di e-commerce:

overall: giudizio medio generale;

time: tempo medio di permanenza sul sito (in minuti);

value: spesa media (in euro);

crm: giudizio medio sulla cura del cliente;

design: giudizio medio sul design del sito;

easy: giudizio medio sulla facilità d'uso.

Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione la spesa media con alcune variabili esplicative.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 77 / 101

Page 78: Il modello di regressione lineare - uniroma1.it

Esercizio 1: Modello (1)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 5.4879 1.4070 3.9004 0.0005

time 0.3929 0.1738 2.2610 0.0314

overall 0.4746 0.1485 3.1969 0.0033

R2 = 0.2968

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 78 / 101

Page 79: Il modello di regressione lineare - uniroma1.it

Esercizio 1: Modello (2)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.7069 1.6807 2.8006 0.0091

time 0.3648 0.1776 2.0539 0.0494

overall 0.4912 0.1504 3.2664 0.0029

crm 0.1413 0.1646 0.8587 0.3978

R2 = 0.3149

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 79 / 101

Page 80: Il modello di regressione lineare - uniroma1.it

Esercizio 1: Modello (3)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.4763 1.8272 0.8079 0.4265

overall 0.3905 0.1396 2.7967 0.0096

time 0.3544 0.1596 2.2201 0.0353

crm 0.2283 0.1511 1.5110 0.1429

design 0.2642 0.1425 1.8538 0.0751

easy 0.4336 0.1436 3.0198 0.0056

R2 = 0.5021

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 80 / 101

Page 81: Il modello di regressione lineare - uniroma1.it

Esercizio 1: Analisi dei residui. Modello (3)

6 8 10 12 14

−4

−2

02

4

Fitted values

Res

idua

ls

Residuals vs Fitted

22

1725

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

22

17 25

6 8 10 12 14

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location22

1725

0.00 0.05 0.10 0.15 0.20 0.25 0.30

−2

−1

01

2

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance0.5

0.5

Residuals vs Leverage

22

135

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 81 / 101

Page 82: Il modello di regressione lineare - uniroma1.it

Esercizio 1: Domande

1 Quali sono le variabili esplicative nei tre modelli?

2 Veri�care la signi�catività di tutti i parametri singolarmente perα = 0.1, α = 0.05 e α = 0.01;

3 interpretare i parametri di tutti i modelli;

4 indicare quale modello è il migliore, in termini di bontà di

adattamento;

5 per ogni modello, veri�care la signi�catività di tutti i parametricongiuntamente per α = 0.01;

6 commentare i gra�ci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 82 / 101

Page 83: Il modello di regressione lineare - uniroma1.it

Valori critici per il test F (Esercizio 1)

Modello (1): F2,29,0.01 = 5.42.

Modello (2): F3,28,0.01 = 4.57.

Modello (3): F5,26,0.01 = 3.82.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 83 / 101

Page 84: Il modello di regressione lineare - uniroma1.it

Dependent variable:

value

(1) (2) (3)

time 0.3929∗∗ 0.3648∗∗ 0.3544∗∗

(0.1738) (0.1776) (0.1596)

overall 0.4746∗∗∗ 0.4912∗∗∗ 0.3905∗∗∗

(0.1485) (0.1504) (0.1396)

crm 0.1413 0.2283(0.1646) (0.1511)

design 0.2642∗

(0.1425)

easy 0.4336∗∗∗

(0.1436)

Constant 5.4879∗∗∗ 4.7069∗∗∗ 1.4763(1.4070) (1.6807) (1.8272)

Observations 32 32 32

R2 0.2968 0.3149 0.5021

Adjusted R2 0.2483 0.2415 0.4063Residual Std. Error 2.3882 (df = 29) 2.3991 (df = 28) 2.1225 (df = 26)F Statistic 6.1211∗∗∗ (df = 2; 29) 4.2896∗∗ (df = 3; 28) 5.2429∗∗∗ (df = 5; 26)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 84 / 101

Page 85: Il modello di regressione lineare - uniroma1.it

Esercizio 2

Su un campione di 350 clienti di una nota marca di prodotti per l'infanziasono state rilevate le seguenti variabili:

expend: spesa media annuale (x 100 euro);

age: età;

education: anni di studio;

income: reddito;

child: numero di �gli;

prom: numero di iniziative promozionali alle quali il cliente ha aderito;

time: da quanti mesi è cliente?

Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione la spesa media con alcune variabili esplicative.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 85 / 101

Page 86: Il modello di regressione lineare - uniroma1.it

Esercizio 2: Modello (1)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 6.5622 1.2830 5.1147 0.0000

age -0.1796 0.0181 -9.9447 0.0000

education -0.1533 0.1155 -1.3275 0.1852

income 0.4948 0.0972 5.0926 0.0000

R2 = 0.2739

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 86 / 101

Page 87: Il modello di regressione lineare - uniroma1.it

Esercizio 2: Modello (2)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.5983 1.1321 4.0617 0.0001

age -0.2018 0.0159 -12.7248 0.0000

education -0.1976 0.1006 -1.9647 0.0502

income 0.4555 0.0847 5.3807 0.0000

child 1.3421 0.1270 10.5682 0.0000

R2 = 0.4515

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 87 / 101

Page 88: Il modello di regressione lineare - uniroma1.it

Esercizio 2: Modello (3)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.7621 1.4885 3.1992 0.0015

age -0.2021 0.0159 -12.6995 0.0000

education -0.1991 0.1010 -1.9716 0.0495

income 0.4563 0.0849 5.3750 0.0000

child 1.3444 0.1276 10.5403 0.0000

prom -0.0915 0.1888 -0.4845 0.6283

time -0.0011 0.0470 -0.0244 0.9806

R2 = 0.4518

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 88 / 101

Page 89: Il modello di regressione lineare - uniroma1.it

Esercizio 2: Analisi dei residui. Modello (3)

−5 0 5

−10

05

10

Fitted values

Res

idua

ls

Residuals vs Fitted

30628 52

−3 −2 −1 0 1 2 3

−2

01

23

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

3062852

−5 0 5

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location30628 52

0.00 0.01 0.02 0.03 0.04 0.05 0.06

−3

−1

12

3

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance

Residuals vs Leverage

262

17223

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 89 / 101

Page 90: Il modello di regressione lineare - uniroma1.it

Esercizio 2: Domande

1 Quali sono le variabili esplicative nei tre modelli?

2 Veri�care la signi�catività di tutti i parametri singolarmente perα = 0.1, α = 0.05 e α = 0.01;

3 interpretare i parametri di tutti i modelli;

4 indicare quale modello è il migliore, in termini di bontà di

adattamento;

5 per ogni modello, veri�care la signi�catività di tutti i parametricongiuntamente per α = 0.05;

6 commentare i gra�ci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 90 / 101

Page 91: Il modello di regressione lineare - uniroma1.it

Valori critici per il test F (Esercizio 2)

Modello (1): F3,346,0.05 ≈ 2.6.

Modello (2): F4,345,0.05 ≈ 2.37.

Modello (3): F6,343,0.05 ≈ 2.1.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 91 / 101

Page 92: Il modello di regressione lineare - uniroma1.it

Dependent variable:

expend

(1) (2) (3)

age -0.1796∗∗∗ -0.2018∗∗∗ -0.2021∗∗∗

(0.0181) (0.0159) (0.0159)

education -0.1533 -0.1976∗ -0.1991∗∗

(0.1155) (0.1006) (0.1010)

income 0.4948∗∗∗ 0.4555∗∗∗ 0.4563∗∗∗

(0.0972) (0.0847) (0.0849)

child 1.3421∗∗∗ 1.3444∗∗∗

(0.1270) (0.1276)

prom -0.0915(0.1888)

time -0.0011(0.0470)

Constant 6.5622∗∗∗ 4.5983∗∗∗ 4.7621∗∗∗

(1.2830) (1.1321) (1.4885)

Observations 350 350 350

R2 0.2739 0.4515 0.4518

Adjusted R2 0.2676 0.4451 0.4423Residual Std. Error 4.6223 (df = 346) 4.0234 (df = 345) 4.0337 (df = 343)F Statistic 43.5036∗∗∗ (df = 3; 346) 70.9868∗∗∗ (df = 4; 345) 47.1220∗∗∗ (df = 6; 343)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 92 / 101

Page 93: Il modello di regressione lineare - uniroma1.it

Esercizio 3

Su un campione di 27 stati sono state rilevate le seguenti variabili:

pop15: % di popolazione sotto i 15 anni;

pop75: % di popolazione sopra i 75 anni;

sr: risparmio aggregato;

dpi: PIL pro capite;

ddpi: tasso di crescita del PIL (in %).

Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione il risparmio aggregato con alcune variabili esplicative.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 93 / 101

Page 94: Il modello di regressione lineare - uniroma1.it

Esercizio 3: Modello (1)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 37.8913 9.5563 3.9651 0.0006

pop15 -0.6513 0.1934 -3.3676 0.0026

pop75 -2.7638 1.3343 -2.0714 0.0492

R2 = 0.3968

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 94 / 101

Page 95: Il modello di regressione lineare - uniroma1.it

Esercizio 3: Modello (2)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 40.3690 9.6795 4.1706 0.0004

pop15 -0.7117 0.1978 -3.5973 0.0015

pop75 -2.0900 1.4328 -1.4587 0.1582

dpi -0.0018 0.0015 -1.2157 0.2364

R2 = 0.4332

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 95 / 101

Page 96: Il modello di regressione lineare - uniroma1.it

Esercizio 3: Modello (3)

Estimate Std. Error t value Pr(>|t|)

(Intercept) 35.0522 10.4332 3.3597 0.0028

pop15 -0.6249 0.2069 -3.0203 0.0063

pop75 -1.9217 1.4204 -1.3530 0.1898

dpi -0.0013 0.0015 -0.8244 0.4186

ddpi 0.4239 0.3342 1.2683 0.2180

R2 = 0.4718

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 96 / 101

Page 97: Il modello di regressione lineare - uniroma1.it

Esercizio 3: Analisi dei residui. Modello (3)

4 6 8 10 12 14 16

−5

05

Fitted values

Res

idua

ls

Residuals vs Fitted

Peru

Chile

Venezuela

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

Peru

Chile

Venezuela

4 6 8 10 12 14 16

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−LocationPeru

ChileVenezuela

0.0 0.1 0.2 0.3 0.4 0.5

−2

−1

01

2

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance1

0.5

0.5

1

Residuals vs Leverage

JapanIreland

Peru

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 97 / 101

Page 98: Il modello di regressione lineare - uniroma1.it

Esercizio 3: Domande

1 Quali sono le variabili esplicative nei tre modelli?

2 Veri�care la signi�catività di tutti i parametri singolarmente perα = 0.1, α = 0.05 e α = 0.01;

3 interpretare i parametri di tutti i modelli;

4 indicare quale modello è il migliore, in termini di bontà di

adattamento;

5 per ogni modello, veri�care la signi�catività di tutti i parametricongiuntamente per α = 0.1;

6 commentare i gra�ci dell'analisi dei residui dell'ultimo modello.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 98 / 101

Page 99: Il modello di regressione lineare - uniroma1.it

Valori critici per il test F (Esercizio 3)

Modello (1): F2,24,0.1 = 2.54.

Modello (2): F3,23,0.1 = 2.34.

Modello (3): F4,22,0.1 = 2.22.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 99 / 101

Page 100: Il modello di regressione lineare - uniroma1.it

Dependent variable:

sr

(1) (2) (3)

pop15 -0.6513∗∗∗ -0.7117∗∗∗ -0.6249∗∗∗

(0.1934) (0.1978) (0.2069)

pop75 -2.7638∗∗ -2.0900 -1.9217(1.3343) (1.4328) (1.4204)

dpi -0.0018 -0.0013(0.0015) (0.0015)

ddpi 0.4239(0.3342)

Constant 37.8913∗∗∗ 40.3690∗∗∗ 35.0522∗∗∗

(9.5563) (9.6795) (10.4332)

Observations 27 27 27

R2 0.3968 0.4332 0.4718

Adjusted R2 0.3465 0.3593 0.3758Residual Std. Error 3.9261 (df = 24) 3.8876 (df = 23) 3.8371 (df = 22)F Statistic 7.8931∗∗∗ (df = 2; 24) 5.8595∗∗∗ (df = 3; 23) 4.9130∗∗∗ (df = 4; 22)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 100 / 101

Page 101: Il modello di regressione lineare - uniroma1.it

Per saperne di più

S. Borra, A. Di Ciaccio �Statistica. Metodologia per le scienzeeconomiche e sociali� , McGraw-Hill

Capp. 16, 17 per il modello di regressione lineare semplice.Cap. 19 per il modello di regressione lineare multipla disponibile al link:http://www.ateneonline.it/borra2e/studenti/capitolo_19.pdf.

G. Cicchitelli �Statistica. Principi e metodi�, PearsonCap. 21.

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 101 / 101