Upload
others
View
7
Download
0
Embed Size (px)
Citation preview
Il modello di regressione lineare
Riccardo [email protected]
Statistica Multivariata
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 1 / 101
Cosa impareremo sul modello di regressione lineare
1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui
2 Esempio: rendimento scolastico e condizione economica
3 Esercizi
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 2 / 101
Sommario
1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui
2 Esempio: rendimento scolastico e condizione economica
3 Esercizi
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 3 / 101
Il modello di regressione lineare
Date p variabili quantitative, X1,X2, . . . ,Xp (variabili esplicative oindipendenti), siamo interessati all'in�uenza esercitata da queste su unavariabile quantitativa Y (variabile dipendente o risposta).
Ipotizziamo che la relazione sia di tipo lineare:
Y = β0 + β1 · X1 + β2 · X2 + . . .+ βp · Xp
dove β0, β1, . . . , βp sono i parametri (o coe�cienti) del modello, inparticolare:
β0 è l'intercetta;
βj (j = 1, . . . , p) è il coe�ciente angolare di Xj .
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 4 / 101
Il termine di errore
Nella pratica la relazione non è (quasi) mai esatta, per cui dobbiamoaggiungere un termine di errore (ε).
Y = β0 + β1 · X1 + β2 · X2 + . . .+ βp · Xp + ε
La relazione non è esatta per diversi motivi:
1 la relazione potrebbe non essere lineare;
2 potrebbero esserci altre variabili (non considerate e/o non osservabili)che in�uiscono sulla Y ;
3 ci potrebbero essere errori di misurazione delle variabili.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 5 / 101
Esempio
Consideriamo la relazione tra potenza (X , in cavalli vapore) e consumo (Y ,km per litro) di un campione di veicoli.
5.0
7.5
10.0
12.5
100 200 300
Cavalli vapore
Km
per
litro
Veicoli con la stessa potenza possono avere consumi di�erenti.
Questa discrepanza è dovuta principalmente al fatto che molti altrifattori possono in�uenzare Y .
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 6 / 101
Interpretazione dei parametri del modello
L'intercetta β0 rappresenta il valore atteso della Y quando tutte levariabili esplicative sono pari a 0.
Il coe�ciente angolare βj rappresenta la variazione attesa della Y
quando la Xj varia di una unità, ferme restando tutte le altrevariabili esplicative.
βj è anche detto l'e�etto marginale di Xj su Y , e misura l'e�etto di Xj suY , a parità di tutte le altre condizioni.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 7 / 101
Esempio: E�cacia della pubblicità
Consideriamo la relazione tra vendite di un prodotto (Sales, migliaia diprodotti venduti) e investimenti in pubblicità televisiva (TV, in migliaia didollari) e radiofonica (Radio, sempre in migliaia di dollari), per uncampione di 200 città1:
Sales = β0 + β1 · TV + β2 · Radio + ε
β0 sono le vendite attese nei mercati in cui non sono stati fattiinvestimenti pubblicitari, né via TV, né sui giornali;
β1 è la variazione attesa delle vendite quando gli investimenti inpubblicità televisiva aumentano di 1000 dollari, a parità di investimentiin pubblicità radiofonica.
Domanda: come si interpreta β2?
1I dati sono presi da �An Introduction to Statistical Learning, with applications in R� (Springer, 2013), con il
permesso degli autori G. James, D. Witten, T. Hastie e R. Tibshirani.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 8 / 101
Il modello di regressione lineare in termini matriciali
Date n osservazioni sulla variabile Y e sulle variabili esplicative Xj , siano:
y il vettore colonna di n elementi relativo alle osservazioni sullavariabile dipendente;
β il vettore colonna di p + 1 elementi relativo ai parametri del modello;
ε il vettore colonna di n elementi dei termini di errore;
X la matrice n × p + 1, la cui prima colonna è un un vettore colonnadi elementi pari ad 1 (corrispondente all'intercetta), mentre le restantip colonne sono altrettanti vettori colonna, ciascuno relativo alle nosservazioni sulla corrispondente variabile esplicativa, con n > p + 1.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 9 / 101
y =
y1y2...yi...yn
β =
β0β1...βj...βp
ε =
ε1ε2...εi...εn
X =
1 x11 x12 . . . x1j . . . x1p1 x21 x22 . . . x2j . . . x2p. . . . . . . . . . . . . . . . . . . . .1 xi1 xi2 . . . xij . . . xip. . . . . . . . . . . . . . . . . . . . .1 xn1 xn2 . . . xnj . . . xnp
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 10 / 101
Il modello di regressione lineare può essere espresso in termini più compattiricorrendo alla seguente notazione matriciale:
y = Xβ + ε
che (a parte la presenza di un termine di errore) rappresenta la forma
matriciale di un sistema di equazioni lineari con n equazioni e pincognite.
Indicando con x′i = (1, xi1, xi2, . . . , xij , . . . , xip) l'i-ma riga di X, la genericaequazione può essere scritta come:
yi = x′iβ + εi
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 11 / 101
Ipotesi del modello
Le principali assunzioni per la stima dei parametri del modello sono:
1 yi = x′iβ + εi , per ogni osservazione (linearità del modello);
2 r(X) = p + 1, con p + 1 < n;3 le εi sono variabili casuali, con
a) E (εi ) = 0;b) Var(εi ) = σ2 (omoschedasticità)c) cor(εi , εj ) = 0 (assenza di correlazione).d) εi ∼ N(0, σ2)
In termini più compatti si può scrivere:
ε ∼ N(0, σ2I)
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 12 / 101
Date le ipotesi, si ha che:
E (y|X) = βX
dove E (y|X) è il valore atteso di Y condizionato dalle p variabiliesplicative.
βX rappresenta l'iperpiano di regressione (componentedeterministica del modello).
Per p = 1, si ha la retta di regressione β0 + β1 · xi1.Inoltre, si ha anche che:
y|X ∼ N(βX, σ2I)
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 13 / 101
Stima dei parametri del modello
Per ottenere una stima dei coe�cienti (ignoti) βj occorre un campione din osservazioni per la variabile dipendente e per le p variabili esplicative:
Nel primo esempio, abbiamo n = 200 osservazioni sulle vendite e sugliinvestimenti pubblicitari via TV e via giornali.
L'obiettivo è quello di ottenere le stime dei parametri βj , indicate con βj ,tali che l'iperpiano stimato passi il più vicino possibile ai dati osservati,ossia:
yi︸︷︷︸valore
osservato
≈ β0 + β1 · xi1 + . . .+ βp · xip︸ ︷︷ ︸valore stimato
(i = 1, . . . , n),
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 14 / 101
Esempio: p = 1 (retta di regressione)
x
y
valori osservati
retta stimata
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 15 / 101
Metodo dei minimi quadrati ordinari
Il criterio più utilizzato per ottenere queste stime è il metodo dei minimi
quadrati ordinari (Ordinary Least Squares, OLS), o, più semplicemente,metodo dei minimi quadrati.
Sia yi = β0 + β1 · xi1 + . . .+ βp · xip il valore stimato della variabile Yin corrispondenza delle i-me osservazioni delle variabili esplicative X .
Sia ei = yi − yi = yi − (β0 + β1 · xi1 + . . .+ βp · xip) il residuo i-mo.
Sia
RSS = e21 + e22 + . . .+ e2i + . . .+ e22 =n∑
i=1
e2i
la somma dei quadrati dei residui (residual sum of squares, RSS).
Con il metodo dei minimi quadrati si determinano i valori di βj cheminimizzano RSS .
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 16 / 101
In termini matriciali, sia e = y− y il vettore dei residui (dove y = βX è ilvettore dei valori di Y stimati condizionatamente ad X).
Il problema è quello di minimizzare la seguente quantità:
RSS = e′e = (y − βX)′(y − βX)
Si dimostra che lo stimatore OLS del vettore β dei parametri, ottenutominimizzando RSS , è dato da:
β =(X′X
)−1X′y
dove
β =
β0β1...
βp
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 17 / 101
Esempio: E�cacia della pubblicità (ctd.)
Torniamo all'esempio sulla relazione tra vendite e investimenti in pubblicitàsulla TV e sulla radio.
Sostituiamo nel modello le seguenti stime, ottenute con il metodo deiminimi quadrati:
β0 = 2.921, β1 = 0.046, β2 = 0.188
quindiyi = 2.921 + 0.046 · TVi + 0.188 · Radioi
Domanda: come si interpretano le stime dei parametri?
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 18 / 101
Proprietà di β
1 β = (X′X)−1X′y è una funzione lineare di Y .
2 E' uno stimatore corretto di β, E (β) = β.
3 La matrice di varianze e covarianze di β è Var(β) = σ2(X′X)−1.
4 Teorema di Gauss-Markov: nella classe degli stimatori lineari ecorretti, β è lo stimatore più e�ciente (best linear unbiasedestimator, BLUE).
5 Data l'ipotesi di Normalità dei termini di errore, anche β è distribuitocome un vettore di v.c. Normali:
β ∼ N(β, σ2(X′X)−1)
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 19 / 101
Errore standard di βj
La deviazione standard di βj (stima OLS di βj) è√Var(βj) = σ
√cjj
dove cjj è l'elemento j-mo sulla diagonale di (X′X)−1.
Dal momento che σ non è noto, va stimato.
Lo stimatore corretto di σ è:
S =
√ ∑ni=1
e2in − p − 1
=
√RSS
n − p − 1
Sostituendo S nell'espressione della deviazione standard di βj siottiene l'errore standard (standard error) della stima OLS di βj
SE (βj) = S · √cjj .
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 20 / 101
Esempio: E�cacia della pubblicità (ctd.)
Nella seguente tabella si riportano le stime dei minimi quadrati, insieme airispettivi errori standard, per il modello sulle vendite:
Estimate Std. Error
(Intercept) 2.921 0.294
TV 0.046 0.001
Radio 0.188 0.008
Maggiore è l'errore standard di una stima (in relazione alla stimastessa), minore è l'a�dabilità della stima (ci torneremo).
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 21 / 101
Veri�ca della bontà del modello
Una volta stimati i parametri del modello, vogliamo sapere in che misura ilmodello si adatta ai dati.
Nel seguito, considereremo tre misure di bontà di adattamento (goodnessof �t) del modello ai dati:
1 il Residual Standard Error ;
2 il coe�ciente di determinazione, R2;
3 il coe�ciente di determinazione corretto, R2.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 22 / 101
Residual Standard Error
La stima corretta di σ è anche detta Residual Standard Error , e misura ladistanza media tra i valori stimati e quelli osservati.
Oss.: può essere interpretato come una stima di quanto i valori dellaY si discostano, in media, dal vero (ed ignoto) iperpiano diregressione.
Più piccolo è RSE , migliore è l'adattamento del modello ai dati.
Nel nostro esempio il valore di RSE è pari a 1.68, ossia la distanza mediatra valori stimati e valori osservati per le vendite è pari a 1.68 (in termini dinumero di prodotti venduti).
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 23 / 101
Limiti di RSE
RSE è una misura assoluta della bontà di adattamento, che dipendedall'ordine di grandezza della Y .
Per questo motivo è di�cile stabilire se il valore osservato per RSEindichi un adattamento accettabile ai dati.
Nel nostro caso RSE = 1.68 indica un adattamento buono o pessimo?
Per ottenere una misura relativa della bontà di adattamento facciamoricorso ad un'importante relazione:la scomposizione della devianza totale.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 24 / 101
Scomposizione della devianza totale
Si dimostra che, date le stime OLS yi , vale la seguente relazione
Scomposizione della devianza totale
n∑i=1
(yi − y)2︸ ︷︷ ︸TSS
=n∑
i=1
(yi − y)2︸ ︷︷ ︸ESS
+n∑
i=1
(yi − yi )2
︸ ︷︷ ︸RSS
dove:
TSS : devianza totale della Y , data dalla somma dei quadrati degliscarti dei valori osservati dalla media (total sum of squares);
ESS : devianza spiegata, data dalla somma dei quadrati degli scartitra i valori stimati e la media (explained sum of squares) e rappresentala parte della devianza totale spiegata dal modello.
Quindi RSS è il grado di incertezza residua una volta che il modello èstato stimato.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 25 / 101
Il coe�ciente di determinazione R2
Dalla precedente relazione deriviamo il coe�ciente di determinazione
R2, che è una misura relativa della bontà di adattamento del modello aidati:
R2 =ESS
TSS= 1− RSS
TSS0 ≤ R2 ≤ 1
R2 misura la quota di variabilità della Y che viene spiegata dal modello.
Più il valore di R2 è vicino ad 1, migliore è l'adattamento delmodello ai dati.
Valori vicini allo 0 indicano uno scarso adattamento ai dati, il chepotrebbe essere dovuto ad un elevato valore di σ2, all'uso di unmodello non adatto (ad esempio, per l'ipotesi di linearità), o adentrambe le cose.
Nel nostro esempio, si ha che R2 = 0.89719, il che signi�ca che il modellospiega circa il 90% della variabilità totale dei dati.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 26 / 101
Valori di R2
Più la retta stimata passa �vicino� ai dati osservati, più elevato è R2.R2 = 0.35 R2 = 0.6
R2 = 0.79 R2 = 0.95
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 27 / 101
Limiti del coe�ciente di determinazione R2
Se si aggiunge ad un modello una variabile esplicativa il valore di RSSdiminuisce, per cui R2 aumenta, a prescindere che il contributo dellavariabile aggiuntiva sia rilevante o meno.
Consideriamo due modelli A e B uno annidato (nested) nell'altro:il modello A contiene p variabili esplicative, il modello B contiene lestesse p variabili esplicative, più altre p′ (p′ ≥ 1),
Si dimostra che R2
B≥ R2
A, ma ciò non signi�ca necessariamente che il
secondo modello sia migliore del primo, in termini di adattamento aidati.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 28 / 101
Il coe�ciente di determinazione corretto R2
Per decidere qual è il modello migliore (in termini di bontà diadattamento ai dati) tra due modelli a confronto, si usa il coe�ciente di
determinazione corretto R2
R2 = 1− n − 1
n − p − 1(1− R2)
che aumenta solo se il contributo delle variabili aggiuntive è sostanziale.
Al crescere di p il termine di penalizzazione n−1n−p−1 aumenta,
mentre 1− R2 diminuisce (a causa dell'aumento di R2).
R2 aumenta solo se la diminuzione di 1− R2 è superioreall'incremento del termine di penalizzazione.
Se R2
B> R2
A, il modello B è migliore del modello A.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 29 / 101
Esempio
Sappiamo che per il nostro modello R2 = 0.89719.
Il coe�ciente di determinazione corretto è:
R2 = 1− 199
197· (1− 0.89719) = 0.89615
Se aggiungiamo anche gli investimenti in pubblicità sui quotidiani(Newspaper), il coe�ciente di determinazione è leggermente superiore(R2 = 0.89721).
In questo caso il coe�ciente di determinazione corretto è:
R2 = 1− 199
196· (1− 0.89721) = 0.89564
per cui aggiungere la nuova variabile al modello non migliora
l'adattamento ai dati.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 30 / 101
Veri�ca della bontà delle stime
Quanto sono a�dabili le stime che abbiamo ottenuto?
Nell'esempio abbiamo visto che all'aumentare degli investimenti inpubblicità televisiva la variazione attesa delle vendite è pari 46 unità diprodotto vendute per ogni 1000 $ investiti, qualsiasi sia l'entità degliinvestimenti in pubblicità radiofoniche.Possiamo fare a�damento su questa stima?
Tutte le variabili esplicative concorrono a spiegare la variabile Y , o solo unsottoinsieme delle variabili Xj è rilevante?
Quali tra le variabili utilizzate nell'ultimo esempio contribuiscee�ettivamente a spiegare le variazioni delle vendite?
Per rispondere a queste domande dobbiamo analizzare le stime ottenute intermini inferenziali.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 31 / 101
Inferenza nel modello di regressione lineareData l'ipotesi di normalità delle stime OLS βj , se la deviazione standarddei termini di errore, σ, fosse nota si avrebbe che:
βj − βjσ · √cjj
∼ N(0, 1)
Dal momento che σ generalmente non è nota, la sostituiamo con il suostimatore corretto, S , per cui:
βj − βjS · √cjj
∼ tn−p−1
Per n su�cientemente grande si ha che
βj − βjS · √cjj
∼ N(0, 1)
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 32 / 101
Veri�ca d'ipotesi sui singoli parametri del modello
Supponiamo di voler sottoporre a veri�ca l'ipotesi che il parametro βj siauguale ad un certo valore βj , contro l'ipotesi alternativa che sia diverso(test bidirezionale).
La statistica test in questo caso è:
βj − βjS · √cjj
che, data l'ipotesi nulla, si distribuisce come una t-Student con n− p − 1gradi di libertà.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 33 / 101
Esistenza della relazione tra Y e Xj
Nel modello di regressione lineare si è interessati a sottoporre a veri�cal'ipotesi nulla H0 : βj = 0, contro l'ipotesi alternativa, H1 : βj 6= 0.
L'ipotesi nulla equivale a dire che la variabile Xj non in�uenza lavariabile Y .
Se l'ipotesi nulla è vera, la statistica t è:
t =βj
s · √cjj∼ tn−p−1
La statistica t è anche detta t-value.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 34 / 101
Fissato un livello di signi�catività α, si determina il valore soglia tα/2,tale che:
P(|T | > tα/2) = P(T < −tα/2) + P(T > tα/2) = α
Si ri�uta l'ipotesi nulla se |t| > tα/2.
In alternativa, si calcola il p-value:
P(|T | > t) = 2 · [1− F (t)]
dove F (t) è la funzione di ripartizione della v.c. t-Student.
Si ri�uta l'ipotesi nulla se il p-value è minore di α.
Se l'ipotesi nulla βj = 0 viene ri�utata, si dice che il parametro βj èsigni�cativamente diverso da 0, ovvero che la variabile è signi�cativa,al livello α.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 35 / 101
Esempio: E�cacia della pubblicità (ctd.)
Consideriamo i risultati della regressione delle vendite sugli investimenti inpubblicità sui TV e radio (nelle ultime due colonne ci sono i t-value e ip-value delle stime, rispettivamente):
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.921 0.294 9.919 0
TV 0.046 0.001 32.909 0
Radio 0.188 0.008 23.382 0
Dal momento che n = 200, possiamo considerare la distribuzione Normaleper il calcolo del valore soglia.
Se �ssiamo α = 0.01, il valore soglia è z0.005 = 2.576, per cuientrambe le variabili sono signi�cative.
E' su�ciente osservare che il p-value è praticamente pari a 0, perentrambe le stime dei coe�cienti delle due variabili.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 36 / 101
Esempio: E�cacia della pubblicità (ctd.)
Se aggiungiamo anche gli investimenti in pubblicità sui giornali abbiamo:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.939 0.312 9.422 0.00
TV 0.046 0.001 32.809 0.00
Radio 0.189 0.009 21.893 0.00
Newspaper -0.001 0.006 -0.177 0.86
In questo caso, la variabile Newspaper non è signi�cativa al livelloα = 0.01, dal momento che il suo p-value è molto elevato (comunquesuperiore al livello di signi�catività �ssato).
Oss.: i risultati per le altre due variabili restano praticamente
invariati dopo l'inserimento della nuova variabile.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 37 / 101
Veri�ca d'ipotesi congiunta su più parametri
Per veri�care l'ipotesi che più parametri del modello sianocongiuntamente pari a 0, si impiega il test F , basato sulla v.c. F -Fisher.
Consideriamo il seguente modello (che chiameremo completo):
yi = β0 + β1xi1 + . . .+ βpxip + εi
Senza perdere in generalità, supponiamo di voler veri�care che leultime p − h variabili del modello (con h ≤ p) non siano utili perspiegare la relazione lineare con la Y , per cui possono essereeliminate dal modello.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 38 / 101
Formalmente, questo corrisponde a sottoporre a veri�ca l'ipotesi nulla:
βh+1 = βh+2 . . . = βp = 0, per h < p
contro l'ipotesi alternativa che almeno uno dei parametri consideratisia diverso da 0.
Se l'ipotesi nulla è vera, il vero modello è:
yi = β0 + β1xi1 + . . .+ βhxih + εi
detto modello ridotto.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 39 / 101
Sia RSS la somma dei quadrati dei residui del modello completo e RSS0quella del modello ridotto.
Dal momento che il modello completo ha un numero maggiore divariabili esplicative rispetto al modello ridotto, si ha che RSS ≤ RSS0.
Se la di�erenza RSS0 − RSS è grande, l'ipotesi nulla va ri�utataperché il contributo delle ultime p − h variabili alla capacitàesplicativa del modello non è trascurabile.
Viceversa se RSS0 − RSS è piccola: non ri�utiamo H0, per cui leultime p − h variabili sono ridondanti.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 40 / 101
Per stabilire statisticamente se la di�erenza RSS0 − RSS siasu�cientemente grande da ri�utare l'ipotesi nulla, si utilizza la statisticatest F :
F =(RSS0 − RSS)/(p − h)
RSS/(n − p − 1)
che data l'ipotesi nulla si distribuisce come una v.c. F -Fisher, con p − h
e n − p − 1 gradi di libertà (Fp−h,n−p−1).
Stabilito il livello di signi�catività α, si determina il valore soglia Fα,tale che P(F > Fα)=α.
Si ri�uta l'ipotesi nulla se F > Fα (test unidirezionale).
Anche in questo caso si può osservare il p-value per valutare seri�utare l'ipotesi nulla.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 41 / 101
Decisione basata sul p-value
Rifiuto H0
0 Fα F
Non rifiuto H0
0 F Fα
L'area in rosso rappresenta α, quella in blu il p-value.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 42 / 101
Veri�ca della bontà del modello: F-statistic
Per h = 0, l'ipotesi nulla coincide con il caso in cui tutti i parametri del
modello, tranne l'intercetta, sono pari a 0.
β1 = β2 = . . . = βp ⇒ yi = β0 + εi
La statistica test (detta F-statistic) è:
F =R2/p
(1− R2)/(n − p − 1)∼ Fp,n−p−1
Il test diventa un giudizio complessivo sulla capacità esplicativa delmodello.
Nel seguito, quando parleremo di statistica F , o test F , faremosempre riferimento a quest'ultimo caso.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 43 / 101
Esempio: E�cacia della pubblicità (ctd.)Tornando al modello in cui si mettono in relazione le vendite con gliinvestimenti in pubblicità su TV e radio, la statistica F è:
F =0.89719/2
0.10281/197= 859.578
e si distribuisce come una F2,197.
Vogliamo veri�care l'ipotesi nulla β1 = β2 = 0, per α = 0.01.
Dal momento che sulle tavole, i gradi di libertà per il denominatorearrivano �no a 120, approssimiamo n − p − 1 ad in�nito (∞).
Il valore soglia è F0.01;2;197 ≈ 4.61 (il valore reale è 4.71) per cuiri�utiamo l'ipotesi nulla.
Il p-value è praticamente pari a 0, precisamente
P(F > 859.578) = 4.8273619× 10−98
per cui è minore di qualsiasi livello di signi�catività comunemente
�ssato.R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 44 / 101
Esempio: E�cacia della pubblicità (ctd.)
Se aggiungiamo anche gli investimenti pubblicitari sui giornali avremo(ricordando che R2 = 0.89721):
F =0.89721/3
0.10279/196= 570.267
che si distribuisce come una F3,196.
Sempre per α = 0.01, il valore soglia è
F0.01;3;196 ≈ 3.78
per cui anche in questo caso ri�utiamo l'ipotesi nulla.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 45 / 101
Tutti i risultati discussi sinora sono riportati di seguito (è l'output di R perla regressione lineare):
Call:
lm(formula = Sales ~ TV + Radio, data = dat)
Residuals:
Min 1Q Median 3Q Max
-8.7977 -0.8752 0.2422 1.1708 2.8328
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.92110 0.29449 9.919 <2e-16 ***
TV 0.04575 0.00139 32.909 <2e-16 ***
Radio 0.18799 0.00804 23.382 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.681 on 197 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8962
F-statistic: 859.6 on 2 and 197 DF, p-value: < 2.2e-16
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 46 / 101
Riportiamo per completezza l'output del modello in cui consideriamo anchegli investimenti in pubblicità sui giornali:
Call:
lm(formula = Sales ~ ., data = dat)
Residuals:
Min 1Q Median 3Q Max
-8.8277 -0.8908 0.2418 1.1893 2.8292
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.938889 0.311908 9.422 <2e-16 ***
TV 0.045765 0.001395 32.809 <2e-16 ***
Radio 0.188530 0.008611 21.893 <2e-16 ***
Newspaper -0.001037 0.005871 -0.177 0.86
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.686 on 196 degrees of freedom
Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956
F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 47 / 101
Selezione delle variabili
All models are wrong. Some models are useful
George E. P. Box
Uno dei problemi più comuni è quello della scelta di quali e quantevariabili esplicative inserire nel modello.
Teoricamente, avendo a disposizione p variabili esplicative dovremmoconfrontare 2p modelli, ognuno contenente un sottoinsieme delle pvariabili, per scegliere il modello migliore in base ad uno o più criteri(R2, AIC, BIC, ecc,).
Nel nostro esempio, il dataset contiene 3 (potenziali) variabiliesplicative, per cui dovremmo confrontare 8 modelli (compreso ilmodello con la sola intercetta).
Se invece avessimo a disposizione 10 (potenziali) variabili esplicative,dovremmo confrontare 1024 modelli!!
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 48 / 101
Procedure per la selezione delle variabili esplicative
Esistono delle procedure (semi-)�automatiche� che rendono la selezionedelle variabili esplicative meno impegnativa.
1 Forward selection: a partire dal modello con la sola intercetta, siinserisce una variabile alla volta in maniera tale da minimizzare lasomma dei quadrati dei residui (RSS). Il processo si arresta in base aduna regola pre�ssata (ad esempio, se la riduzione di RSS è inferiore adun dato valore).
2 Backward selection: a partire dal modello con tutte le p variabiliesplicative, si elimina una variabile per volta partendo da quella con ilp-value più elevato. Il processo si arresta quando i p-value di tutte levariabili rimaste sono al di sotto di una certa soglia.
3 Approccio misto: si procede come per la forward selection, madurante il processo vengono eliminate le variabili i cui p-valueeccedono un pre�ssato valore.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 49 / 101
Osservazione
Nei principali programmi per l'analisi dei dati (R, Stata, SAS, ecc.)esistono diverse funzioni che applicano uno dei tre metodi visti.
Uno dei problemi di questi approcci è che nessuno è ideale sotto ogniaspetto.
Inoltre rappresentano una sorta di black box , in cui abbiamo pochepossibilità di controllare la procedura.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 50 / 101
Una possibile alternativa è quella di selezionare inizialmente una o piùvariabili esplicative di interesse (ad esempio, per sottoporre a veri�caun'ipotesi di lavoro, o una teoria).
Successivamente si possono inserire altre variabili (dette di controllo), perveri�care che l'e�etto delle variabili iniziali non venga vani�catodall'inserimento di queste ulteriori variabili.
Se, ad esempio, siamo interessati principalmente all'e�etto sullevendite degli investimenti in pubblicità sui giornali potremmoprocedere come descritto nella slide seguente.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 51 / 101
Confronto tra modelli
Di seguito si riportano i tre modelli in cui inseriamo una variabileesplicativa per volta:
Dependent variable:
Sales
(1) (2) (3)
Newspaper 0.055∗∗∗ 0.044∗∗∗ -0.001(0.017) (0.010) (0.006)
TV 0.047∗∗∗ 0.046∗∗∗
(0.003) (0.001)
Radio 0.189∗∗∗
(0.009)
Constant 12.351∗∗∗ 5.775∗∗∗ 2.939∗∗∗
(0.621) (0.525) (0.312)
Observations 200 200 200
R2 0.052 0.646 0.897
Adjusted R2 0.047 0.642 0.896Residual Std. Error 5.092 (df = 198) 3.121 (df = 197) 1.686 (df = 196)F Statistic 10.887∗∗∗ (df = 1; 198) 179.619∗∗∗ (df = 2; 197) 570.271∗∗∗ (df = 3; 196)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 52 / 101
Come mai quando aggiungiamo gli investimenti pubblicitari sulle radiol'e�etto delle pubblicità sui giornali sparisce?
Un indizio lo abbiamo dalla correlazione tra le variabili:
TV Radio Newspaper Sales
TV 1.000 0.055 0.057 0.782
Radio 0.055 1.000 0.354 0.576
Newspaper 0.057 0.354 1.000 0.228
Sales 0.782 0.576 0.228 1.000
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 53 / 101
Come si vede, gli investimenti pubblicitari sulle radio sono positivamente
correlati con quelli sui giornali.
Inoltre la correlazione tra vendite e investimenti in annunci radiofoniciè più elevata di quella tra vendite e investimenti in pubblicità suigiornali.
In altre parole, nelle città dove si investe molto in pubblicità sulle radiole vendite sono più elevate, ma anche gli investimenti pubblicitari suigiornali sono elevati.
Se non teniamo conto degli investimenti sulle radio, la variabile Newspaper
ingloba anche l'e�etto della variabile Radio.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 54 / 101
Analisi dei residui
L'analisi dei residui ei = yi − yi permette di sottoporre a veri�ca leprincipali ipotesi fatte per la stima del modello:
1 linearità della relazione;
2 omoschedasticità dei residui (varianza costante);
3 Normalità dei residui;
4 presenza di dati anomali.
Tipicamente l'analisi dei residui viene e�ettuata con test speci�ci, maanche con una semplice analisi gra�ca.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 55 / 101
Analisi dei residuiModello:
Sales = β0 + β1 · TV + β2 · Radio + ε
5 10 15 20 25
−10
−6
−2
24
Fitted values
Res
idua
ls
Residuals vs Fitted
131
6179
−3 −2 −1 0 1 2 3
−4
−2
02
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
131
6179
5 10 15 20 25
0.0
1.0
2.0
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location131
6179
0.000 0.010 0.020 0.030
−6
−4
−2
02
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance
Residuals vs Leverage
131
636
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 56 / 101
Descrizione dei gra�ci e dei risultati
1 Residuals vs Fitted : confronto tra valori stimati e residui.Se la curva rossa che interpola i dati ha un andamentoapprossimativamente lineare (e parallelo all'asse delle ascisse),l'ipotesi di linearità non è violata.Inoltre, se i punti al di sopra e al di sotto della curva si dispongono inmaniera casuale (senza nessun pattern evidente) anche l'ipotesi diomoschedasticità non è violata.
2 Normal Q-Q: confronto tra percentili teorici della distribuzioneNormale standardizzata e i percentili dei residui standardizzati.L'ipotesi di Normalità dei residui non è violata se i punti sidispongono approssimativamente lungo la diagonale del gra�co.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 57 / 101
Descrizione dei gra�ci e dei risultati/2
3 Scale-Location: simile al primo gra�co, ma in questo caso si considerala radice quadrata dei residui standardizzati.L'interpretazione è simile a quella del primo gra�co.
4 Residuals vs Leverage: confronto tra il leverage di ciascunaosservazione e i residui standardizzati.L'indice di leverage considerato è la distanza di Cook che indical'in�uenza della singola osservazione sulla stima del modello. Più èelevato questo valore, maggiore è la possibilità che il dato siaanomalo.Accanto ai dati potenzialmente anomali viene indicata l'etichettadell'unità.Se alcune unità hanno valori dell'indice vicini o superiori a 0.5, vienemostrata una curva tratteggiata che indica tale distanza.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 58 / 101
Commento generale
Per l'ipotesi di linearità servono ulteriori approfondimenti;
i residui sembrano mostrare un andamento ad U, non compatibile conle ipotesi del modello;
la distribuzione dei residui non sembra approssimare molto bene ladistribuzione Normale, specialmente per i valori nelle code;
si osserva la presenza di alcuni dati anomali.
Se i risultati non sono soddisfacenti, è opportuno aggiungere altre variabilie/o trasformarne alcune.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 59 / 101
Sommario
1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui
2 Esempio: rendimento scolastico e condizione economica
3 Esercizi
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 60 / 101
Esempio (da Stock, Watson, 2007)
Consideriamo 420 distretti scolastici in California, sui quali sono stateosservate, tra le altre le seguenti variabili:
stratio: numero di studenti per insegnante (rapportostudenti-insegnanti, proxy della dimensione delle classi);
english: % di studenti che devono seguire un corso di Inglese(studenti non madrelingua);
score: punteggio medio degli studenti (rendimento medio);
lunch: % di studenti che hanno diritto alla mensa pubblica;
calworks: % di studenti che hanno diritto ad assistenza economica
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 61 / 101
Alcune statistiche sui dati
Statistic N Mean St. Dev. Min Max
stratio 420 19.640 1.892 14.000 25.800score 420 654.157 19.053 605.550 706.750english 420 15.768 18.286 0.000 85.540lunch 420 44.705 27.123 0.000 100.000calworks 420 13.246 11.455 0.000 78.994
Matrice di correlazione
stratio score english lunch calworks
stratio 1.000 -0.226 0.188 0.135 0.018
score -0.226 1.000 -0.644 -0.869 -0.627
english 0.188 -0.644 1.000 0.653 0.320
lunch 0.135 -0.869 0.653 1.000 0.739
calworks 0.018 -0.627 0.320 0.739 1.000
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 62 / 101
Relazione tra rendimento degli studenti e rapportostudenti-insegnanti
Siamo interessati in particolare alla relazione tra rendimento degli
studenti e il rapporto studenti-insegnanti (legato alla dimensione delleclassi).Studenti in classi meno numerose rendono di più?
630
660
690
14 16 18 20 22 24 26stratio
scor
e
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 63 / 101
Modello (1)
Consideriamo il modello di regressione lineare semplice in cui mettiamo inrelazione il punteggio medio degli studenti nei distretti con il rapportostudenti-insegnanti.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 698.9329 9.4675 73.8245 0
stratio -2.2798 0.4798 -4.7513 0
Per ogni punto percentuale in meno del rapporto studenti-insegnanti, ilpunteggio medio nei distretti aumenta di 2.3 punti, circa.
Poiché il p-value è praticamente pari a 0, la relazione è signi�cativa ancheper valori di α molto piccoli (ad esempio α = 0.001).
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 64 / 101
Il coe�ciente di determinazione è pari a 0.0512, per cui il coe�cientedi determinazione corretto è 0.049 (controllare per esercizio).
La statistica F , data l'ipotesi nulla β1 = 0, si distribuisce come unaF -Fisher con 1 e 418 gradi di libertà.Il valore della statistica è F = 22.5751 (controllare per esercizio).Il valore critico per α = 0.05, approssimando i gradi di libertà aldenominatore ad in�nito, è F0.05,1,418 ≈ 3.84, per cui possiamori�utare l'ipotesi nulla.
N.B.: osserviamo che in questo caso l'ipotesi nulla per il test su β1 e quellaper il test F coincidono.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 65 / 101
Modello (2)
La relazione negativa tra rendimento e dimensione delle classi potrebbeessere dovuta al fatto che nelle classi più grandi c'è una maggiorepercentuale di studenti non madrelingua.
Aggiungiamo la variabile di controllo english.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 686.0322 7.4113 92.5656 0.000
stratio -1.1013 0.3803 -2.8960 0.004
english -0.6498 0.0393 -16.5159 0.000
Confrontando questo modello con il precedente, si osserva che la variabilestratio è sempre signi�cativa, e con lo stesso segno, ma il suo e�etto siè dimezzato.
In questo caso l'e�etto del rapporto studenti-insegnanti è valutato a paritàdi % di non madrelingua, mentre prima non si teneva conto di questavariabile.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 66 / 101
Modello (2): Domande
Sapendo che R2 = 0.4264:
1 in termini di bontà di adattamento, questo modello è migliore delprecedente?
2 Qual è il valore della statistica F?
3 Per α = 0.05, possiamo ri�utare l'ipotesi nulla che β1 = β2 = 0?
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 67 / 101
Modello (2): Risposte
1 Il coe�ciente di determinazione corretto è R2 = 0.4237, per cuiquesto modello è migliore del primo.
2 F = 155.0137.
3 Il valore critico è F0.05,2,417 ≈ 3, per cui ri�utiamo l'ipotesi nulla.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 68 / 101
Confronto tra i modelli (1) e (2)
Dependent variable:
score
(1) (2)
stratio -2.2798∗∗∗ -1.1013∗∗∗
(0.4798) (0.3803)
english -0.6498∗∗∗
(0.0393)
Constant 698.9329∗∗∗ 686.0322∗∗∗
(9.4675) (7.4113)
Observations 420 420
R2 0.0512 0.4264
Adjusted R2 0.0490 0.4237Residual Std. Error 18.5810 (df = 418) 14.4645 (df = 417)F Statistic 22.5751∗∗∗ (df = 1; 418) 155.0137∗∗∗ (df = 2; 417)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 69 / 101
Modello (3a)
Aggiungiamo un'ulteriore variabile, lunch.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 700.1500 4.6857 149.4231 0e+00
stratio -0.9983 0.2388 -4.1813 0e+00
english -0.1216 0.0323 -3.7619 2e-04
lunch -0.5473 0.0216 -25.3414 0e+00
Domande:
1 Confrontare il modello con i precedenti.
2 Quali variabili sono signi�cative per α = 0.05?3 Sapendo che R2 = 0.7745:
a) Questo modello è migliore degli altri in termini di bontà di adattamento?b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0
può essere ri�utata, sempre per α = 0.05?
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 70 / 101
Modello (3b)
Sostituiamo la variabile lunch con calworks:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 697.9987 6.0242 115.8665 0
stratio -1.3080 0.3067 -4.2646 0
english -0.4876 0.0335 -14.5640 0
calworks -0.7900 0.0525 -15.0449 0
Domande:
1 Confrontare il modello con i precedenti.
2 Quali variabili sono signi�cative per α = 0.1?3 Sapendo che R2 = 0.6285:
a) Questo modello è migliore di tutti gli altri in termini di bontà diadattamento?
b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0può essere ri�utata, sempre per α = 0.1?
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 71 / 101
Modello (3c)
Sostituiamo la variabile lunch con calworks:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 700.3918 4.6980 149.0840 0.0000
stratio -1.0144 0.2397 -4.2311 0.0000
english -0.1298 0.0340 -3.8186 0.0002
lunch -0.5286 0.0322 -16.4218 0.0000
calworks -0.0479 0.0610 -0.7849 0.4330
Domande:
1 Confrontare il modello con i precedenti.
2 Quali variabili sono signi�cative per α = 0.01?3 Sapendo che R2 = 0.7749:
a) Questo modello è migliore di tutti gli altri in termini di bontà diadattamento?
b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0può essere ri�utata, sempre per α = 0.01?
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 72 / 101
Confronto tra gli ultimi 3 modelli
Dependent variable:
score(3a) (3b) (3c)
(1) (2) (3)
stratio -0.9983∗∗∗ -1.3080∗∗∗ -1.0144∗∗∗
(0.2388) (0.3067) (0.2397)
english -0.1216∗∗∗ -0.4876∗∗∗ -0.1298∗∗∗
(0.0323) (0.0335) (0.0340)
lunch -0.5473∗∗∗ -0.5286∗∗∗
(0.0216) (0.0322)
calworks -0.7900∗∗∗ -0.0479(0.0525) (0.0610)
Constant 700.1500∗∗∗ 697.9987∗∗∗ 700.3918∗∗∗
(4.6857) (6.0242) (4.6980)
Observations 420 420 420
R2 0.7745 0.6285 0.7749
Adjusted R2 0.7729 0.6259 0.7727Residual Std. Error 9.0801 (df = 416) 11.6543 (df = 416) 9.0843 (df = 415)F Statistic 476.3063∗∗∗ (df = 3; 416) 234.6381∗∗∗ (df = 3; 416) 357.0540∗∗∗ (df = 4; 415)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 73 / 101
Analisi dei residui. Modello (3c)
620 630 640 650 660 670 680
−40
−20
020
Fitted values
Res
idua
ls
Residuals vs Fitted
180
367
77
−3 −2 −1 0 1 2 3
−2
02
4
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
180
367
77
620 630 640 650 660 670 680
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location180367
77
0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14
−4
−2
02
4
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance 0.5
0.5
Residuals vs Leverage
180
10
6
Commentare i gra�ci dell'analisi dei residui dell'ultimo modello.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 74 / 101
Valori critici per il test F
Modello (3a): F3,416,0.05 ≈ 2.6.
Modello (3b): F3,416,0.1 ≈ 2.08.
Modello (3c): F4,415,0.01 ≈ 3.32.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 75 / 101
Sommario
1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui
2 Esempio: rendimento scolastico e condizione economica
3 Esercizi
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 76 / 101
Esercizio 1
Date le seguenti variabili, rilevate su 32 siti di e-commerce:
overall: giudizio medio generale;
time: tempo medio di permanenza sul sito (in minuti);
value: spesa media (in euro);
crm: giudizio medio sulla cura del cliente;
design: giudizio medio sul design del sito;
easy: giudizio medio sulla facilità d'uso.
Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione la spesa media con alcune variabili esplicative.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 77 / 101
Esercizio 1: Modello (1)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.4879 1.4070 3.9004 0.0005
time 0.3929 0.1738 2.2610 0.0314
overall 0.4746 0.1485 3.1969 0.0033
R2 = 0.2968
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 78 / 101
Esercizio 1: Modello (2)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7069 1.6807 2.8006 0.0091
time 0.3648 0.1776 2.0539 0.0494
overall 0.4912 0.1504 3.2664 0.0029
crm 0.1413 0.1646 0.8587 0.3978
R2 = 0.3149
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 79 / 101
Esercizio 1: Modello (3)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.4763 1.8272 0.8079 0.4265
overall 0.3905 0.1396 2.7967 0.0096
time 0.3544 0.1596 2.2201 0.0353
crm 0.2283 0.1511 1.5110 0.1429
design 0.2642 0.1425 1.8538 0.0751
easy 0.4336 0.1436 3.0198 0.0056
R2 = 0.5021
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 80 / 101
Esercizio 1: Analisi dei residui. Modello (3)
6 8 10 12 14
−4
−2
02
4
Fitted values
Res
idua
ls
Residuals vs Fitted
22
1725
−2 −1 0 1 2
−2
−1
01
2
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
22
17 25
6 8 10 12 14
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location22
1725
0.00 0.05 0.10 0.15 0.20 0.25 0.30
−2
−1
01
2
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance0.5
0.5
Residuals vs Leverage
22
135
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 81 / 101
Esercizio 1: Domande
1 Quali sono le variabili esplicative nei tre modelli?
2 Veri�care la signi�catività di tutti i parametri singolarmente perα = 0.1, α = 0.05 e α = 0.01;
3 interpretare i parametri di tutti i modelli;
4 indicare quale modello è il migliore, in termini di bontà di
adattamento;
5 per ogni modello, veri�care la signi�catività di tutti i parametricongiuntamente per α = 0.01;
6 commentare i gra�ci dell'analisi dei residui dell'ultimo modello.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 82 / 101
Valori critici per il test F (Esercizio 1)
Modello (1): F2,29,0.01 = 5.42.
Modello (2): F3,28,0.01 = 4.57.
Modello (3): F5,26,0.01 = 3.82.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 83 / 101
Dependent variable:
value
(1) (2) (3)
time 0.3929∗∗ 0.3648∗∗ 0.3544∗∗
(0.1738) (0.1776) (0.1596)
overall 0.4746∗∗∗ 0.4912∗∗∗ 0.3905∗∗∗
(0.1485) (0.1504) (0.1396)
crm 0.1413 0.2283(0.1646) (0.1511)
design 0.2642∗
(0.1425)
easy 0.4336∗∗∗
(0.1436)
Constant 5.4879∗∗∗ 4.7069∗∗∗ 1.4763(1.4070) (1.6807) (1.8272)
Observations 32 32 32
R2 0.2968 0.3149 0.5021
Adjusted R2 0.2483 0.2415 0.4063Residual Std. Error 2.3882 (df = 29) 2.3991 (df = 28) 2.1225 (df = 26)F Statistic 6.1211∗∗∗ (df = 2; 29) 4.2896∗∗ (df = 3; 28) 5.2429∗∗∗ (df = 5; 26)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 84 / 101
Esercizio 2
Su un campione di 350 clienti di una nota marca di prodotti per l'infanziasono state rilevate le seguenti variabili:
expend: spesa media annuale (x 100 euro);
age: età;
education: anni di studio;
income: reddito;
child: numero di �gli;
prom: numero di iniziative promozionali alle quali il cliente ha aderito;
time: da quanti mesi è cliente?
Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione la spesa media con alcune variabili esplicative.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 85 / 101
Esercizio 2: Modello (1)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.5622 1.2830 5.1147 0.0000
age -0.1796 0.0181 -9.9447 0.0000
education -0.1533 0.1155 -1.3275 0.1852
income 0.4948 0.0972 5.0926 0.0000
R2 = 0.2739
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 86 / 101
Esercizio 2: Modello (2)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.5983 1.1321 4.0617 0.0001
age -0.2018 0.0159 -12.7248 0.0000
education -0.1976 0.1006 -1.9647 0.0502
income 0.4555 0.0847 5.3807 0.0000
child 1.3421 0.1270 10.5682 0.0000
R2 = 0.4515
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 87 / 101
Esercizio 2: Modello (3)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.7621 1.4885 3.1992 0.0015
age -0.2021 0.0159 -12.6995 0.0000
education -0.1991 0.1010 -1.9716 0.0495
income 0.4563 0.0849 5.3750 0.0000
child 1.3444 0.1276 10.5403 0.0000
prom -0.0915 0.1888 -0.4845 0.6283
time -0.0011 0.0470 -0.0244 0.9806
R2 = 0.4518
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 88 / 101
Esercizio 2: Analisi dei residui. Modello (3)
−5 0 5
−10
05
10
Fitted values
Res
idua
ls
Residuals vs Fitted
30628 52
−3 −2 −1 0 1 2 3
−2
01
23
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
3062852
−5 0 5
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−Location30628 52
0.00 0.01 0.02 0.03 0.04 0.05 0.06
−3
−1
12
3
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance
Residuals vs Leverage
262
17223
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 89 / 101
Esercizio 2: Domande
1 Quali sono le variabili esplicative nei tre modelli?
2 Veri�care la signi�catività di tutti i parametri singolarmente perα = 0.1, α = 0.05 e α = 0.01;
3 interpretare i parametri di tutti i modelli;
4 indicare quale modello è il migliore, in termini di bontà di
adattamento;
5 per ogni modello, veri�care la signi�catività di tutti i parametricongiuntamente per α = 0.05;
6 commentare i gra�ci dell'analisi dei residui dell'ultimo modello.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 90 / 101
Valori critici per il test F (Esercizio 2)
Modello (1): F3,346,0.05 ≈ 2.6.
Modello (2): F4,345,0.05 ≈ 2.37.
Modello (3): F6,343,0.05 ≈ 2.1.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 91 / 101
Dependent variable:
expend
(1) (2) (3)
age -0.1796∗∗∗ -0.2018∗∗∗ -0.2021∗∗∗
(0.0181) (0.0159) (0.0159)
education -0.1533 -0.1976∗ -0.1991∗∗
(0.1155) (0.1006) (0.1010)
income 0.4948∗∗∗ 0.4555∗∗∗ 0.4563∗∗∗
(0.0972) (0.0847) (0.0849)
child 1.3421∗∗∗ 1.3444∗∗∗
(0.1270) (0.1276)
prom -0.0915(0.1888)
time -0.0011(0.0470)
Constant 6.5622∗∗∗ 4.5983∗∗∗ 4.7621∗∗∗
(1.2830) (1.1321) (1.4885)
Observations 350 350 350
R2 0.2739 0.4515 0.4518
Adjusted R2 0.2676 0.4451 0.4423Residual Std. Error 4.6223 (df = 346) 4.0234 (df = 345) 4.0337 (df = 343)F Statistic 43.5036∗∗∗ (df = 3; 346) 70.9868∗∗∗ (df = 4; 345) 47.1220∗∗∗ (df = 6; 343)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 92 / 101
Esercizio 3
Su un campione di 27 stati sono state rilevate le seguenti variabili:
pop15: % di popolazione sotto i 15 anni;
pop75: % di popolazione sopra i 75 anni;
sr: risparmio aggregato;
dpi: PIL pro capite;
ddpi: tasso di crescita del PIL (in %).
Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione il risparmio aggregato con alcune variabili esplicative.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 93 / 101
Esercizio 3: Modello (1)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 37.8913 9.5563 3.9651 0.0006
pop15 -0.6513 0.1934 -3.3676 0.0026
pop75 -2.7638 1.3343 -2.0714 0.0492
R2 = 0.3968
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 94 / 101
Esercizio 3: Modello (2)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 40.3690 9.6795 4.1706 0.0004
pop15 -0.7117 0.1978 -3.5973 0.0015
pop75 -2.0900 1.4328 -1.4587 0.1582
dpi -0.0018 0.0015 -1.2157 0.2364
R2 = 0.4332
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 95 / 101
Esercizio 3: Modello (3)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 35.0522 10.4332 3.3597 0.0028
pop15 -0.6249 0.2069 -3.0203 0.0063
pop75 -1.9217 1.4204 -1.3530 0.1898
dpi -0.0013 0.0015 -0.8244 0.4186
ddpi 0.4239 0.3342 1.2683 0.2180
R2 = 0.4718
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 96 / 101
Esercizio 3: Analisi dei residui. Modello (3)
4 6 8 10 12 14 16
−5
05
Fitted values
Res
idua
ls
Residuals vs Fitted
Peru
Chile
Venezuela
−2 −1 0 1 2
−2
−1
01
2
Theoretical Quantiles
Sta
ndar
dize
d re
sidu
als
Normal Q−Q
Peru
Chile
Venezuela
4 6 8 10 12 14 16
0.0
0.5
1.0
1.5
Fitted values
Sta
ndar
dize
d re
sidu
als
Scale−LocationPeru
ChileVenezuela
0.0 0.1 0.2 0.3 0.4 0.5
−2
−1
01
2
Leverage
Sta
ndar
dize
d re
sidu
als
Cook's distance1
0.5
0.5
1
Residuals vs Leverage
JapanIreland
Peru
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 97 / 101
Esercizio 3: Domande
1 Quali sono le variabili esplicative nei tre modelli?
2 Veri�care la signi�catività di tutti i parametri singolarmente perα = 0.1, α = 0.05 e α = 0.01;
3 interpretare i parametri di tutti i modelli;
4 indicare quale modello è il migliore, in termini di bontà di
adattamento;
5 per ogni modello, veri�care la signi�catività di tutti i parametricongiuntamente per α = 0.1;
6 commentare i gra�ci dell'analisi dei residui dell'ultimo modello.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 98 / 101
Valori critici per il test F (Esercizio 3)
Modello (1): F2,24,0.1 = 2.54.
Modello (2): F3,23,0.1 = 2.34.
Modello (3): F4,22,0.1 = 2.22.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 99 / 101
Dependent variable:
sr
(1) (2) (3)
pop15 -0.6513∗∗∗ -0.7117∗∗∗ -0.6249∗∗∗
(0.1934) (0.1978) (0.2069)
pop75 -2.7638∗∗ -2.0900 -1.9217(1.3343) (1.4328) (1.4204)
dpi -0.0018 -0.0013(0.0015) (0.0015)
ddpi 0.4239(0.3342)
Constant 37.8913∗∗∗ 40.3690∗∗∗ 35.0522∗∗∗
(9.5563) (9.6795) (10.4332)
Observations 27 27 27
R2 0.3968 0.4332 0.4718
Adjusted R2 0.3465 0.3593 0.3758Residual Std. Error 3.9261 (df = 24) 3.8876 (df = 23) 3.8371 (df = 22)F Statistic 7.8931∗∗∗ (df = 2; 24) 5.8595∗∗∗ (df = 3; 23) 4.9130∗∗∗ (df = 4; 22)
Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 100 / 101
Per saperne di più
S. Borra, A. Di Ciaccio �Statistica. Metodologia per le scienzeeconomiche e sociali� , McGraw-Hill
Capp. 16, 17 per il modello di regressione lineare semplice.Cap. 19 per il modello di regressione lineare multipla disponibile al link:http://www.ateneonline.it/borra2e/studenti/capitolo_19.pdf.
G. Cicchitelli �Statistica. Principi e metodi�, PearsonCap. 21.
R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 101 / 101