Il modello di regressione lineare - uniroma1.it

Il modello di regressione lineare

Riccardo [email protected]

Statistica Multivariata

R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 1 / 101

mailto:[email protected]

Cosa impareremo sul modello di regressione lineare

1 Il modello di regressione lineareStima dei parametri del modelloBontà di adattamento del modello ai datiInferenza nel modello di regressione lineareSelezione delle variabiliAnalisi dei residui

2 Esempio: rendimento scolastico e condizione economica

3 Esercizi


Sommario



3 Esercizi


Il modello di regressione lineare

Date p variabili quantitative, X1,X2, . . . ,Xp (variabili esplicative oindipendenti), siamo interessati all'in�uenza esercitata da queste su unavariabile quantitativa Y (variabile dipendente o risposta).

Ipotizziamo che la relazione sia di tipo lineare:

Y = β0 + β1 · X1 + β2 · X2 + . . .+ βp · Xp

dove β0, β1, . . . , βp sono i parametri (o coe�cienti) del modello, inparticolare:

β0 è l'intercetta;

βj (j = 1, . . . , p) è il coe�ciente angolare di Xj .


Il termine di errore

Nella pratica la relazione non è (quasi) mai esatta, per cui dobbiamoaggiungere un termine di errore (ε).

Y = β0 + β1 · X1 + β2 · X2 + . . .+ βp · Xp + ε

La relazione non è esatta per diversi motivi:

1 la relazione potrebbe non essere lineare;

2 potrebbero esserci altre variabili (non considerate e/o non osservabili)che in�uiscono sulla Y ;

3 ci potrebbero essere errori di misurazione delle variabili.


Esempio

Consideriamo la relazione tra potenza (X , in cavalli vapore) e consumo (Y ,km per litro) di un campione di veicoli.

5.0

7.5

10.0

12.5

100 200 300

Cavalli vapore

Km

per

litro

Veicoli con la stessa potenza possono avere consumi di�erenti.

Questa discrepanza è dovuta principalmente al fatto che molti altrifattori possono in�uenzare Y .


Interpretazione dei parametri del modello

L'intercetta β0 rappresenta il valore atteso della Y quando tutte levariabili esplicative sono pari a 0.

Il coe�ciente angolare βj rappresenta la variazione attesa della Y

quando la Xj varia di una unità, ferme restando tutte le altrevariabili esplicative.

βj è anche detto l'e�etto marginale di Xj su Y , e misura l'e�etto di Xj suY , a parità di tutte le altre condizioni.


Esempio: E�cacia della pubblicità

Consideriamo la relazione tra vendite di un prodotto (Sales, migliaia diprodotti venduti) e investimenti in pubblicità televisiva (TV, in migliaia didollari) e radiofonica (Radio, sempre in migliaia di dollari), per uncampione di 200 città1:

Sales = β0 + β1 · TV + β2 · Radio + ε

β0 sono le vendite attese nei mercati in cui non sono stati fattiinvestimenti pubblicitari, né via TV, né sui giornali;

β1 è la variazione attesa delle vendite quando gli investimenti inpubblicità televisiva aumentano di 1000 dollari, a parità di investimentiin pubblicità radiofonica.

Domanda: come si interpreta β2?

1I dati sono presi da �An Introduction to Statistical Learning, with applications in R� (Springer, 2013), con il

permesso degli autori G. James, D. Witten, T. Hastie e R. Tibshirani.


http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv

Il modello di regressione lineare in termini matriciali

Date n osservazioni sulla variabile Y e sulle variabili esplicative Xj , siano:

y il vettore colonna di n elementi relativo alle osservazioni sullavariabile dipendente;

β il vettore colonna di p + 1 elementi relativo ai parametri del modello;

ε il vettore colonna di n elementi dei termini di errore;

X la matrice n × p + 1, la cui prima colonna è un un vettore colonnadi elementi pari ad 1 (corrispondente all'intercetta), mentre le restantip colonne sono altrettanti vettori colonna, ciascuno relativo alle nosservazioni sulla corrispondente variabile esplicativa, con n > p + 1.


y =

y1y2...yi...yn

β =

β0β1...βj...βp

ε =

ε1ε2...εi...εn

X =

1 x11 x12 . . . x1j . . . x1p1 x21 x22 . . . x2j . . . x2p. . . . . . . . . . . . . . . . . . . . .1 xi1 xi2 . . . xij . . . xip. . . . . . . . . . . . . . . . . . . . .1 xn1 xn2 . . . xnj . . . xnp


Il modello di regressione lineare può essere espresso in termini più compattiricorrendo alla seguente notazione matriciale:

y = Xβ + ε

che (a parte la presenza di un termine di errore) rappresenta la forma

matriciale di un sistema di equazioni lineari con n equazioni e pincognite.

Indicando con x′i = (1, xi1, xi2, . . . , xij , . . . , xip) l'i-ma riga di X, la genericaequazione può essere scritta come:

yi = x′iβ + εi


Ipotesi del modello

Le principali assunzioni per la stima dei parametri del modello sono:

1 yi = x′iβ + εi , per ogni osservazione (linearità del modello);

2 r(X) = p + 1, con p + 1 < n;3 le εi sono variabili casuali, con

a) E (εi ) = 0;b) Var(εi ) = σ2 (omoschedasticità)c) cor(εi , εj ) = 0 (assenza di correlazione).d) εi ∼ N(0, σ2)

In termini più compatti si può scrivere:

ε ∼ N(0, σ2I)


Date le ipotesi, si ha che:

E (y|X) = βX

dove E (y|X) è il valore atteso di Y condizionato dalle p variabiliesplicative.

βX rappresenta l'iperpiano di regressione (componentedeterministica del modello).

Per p = 1, si ha la retta di regressione β0 + β1 · xi1.Inoltre, si ha anche che:

y|X ∼ N(βX, σ2I)


Stima dei parametri del modello

Per ottenere una stima dei coe�cienti (ignoti) βj occorre un campione din osservazioni per la variabile dipendente e per le p variabili esplicative:

Nel primo esempio, abbiamo n = 200 osservazioni sulle vendite e sugliinvestimenti pubblicitari via TV e via giornali.

L'obiettivo è quello di ottenere le stime dei parametri βj , indicate con βj ,tali che l'iperpiano stimato passi il più vicino possibile ai dati osservati,ossia:

yi︸︷︷︸valore

osservato

≈ β0 + β1 · xi1 + . . .+ βp · xip︸︷︷︸valore stimato

(i = 1, . . . , n),


Esempio: p = 1 (retta di regressione)

x

y

valori osservati

retta stimata


Metodo dei minimi quadrati ordinari

Il criterio più utilizzato per ottenere queste stime è il metodo dei minimi

quadrati ordinari (Ordinary Least Squares, OLS), o, più semplicemente,metodo dei minimi quadrati.

Sia yi = β0 + β1 · xi1 + . . .+ βp · xip il valore stimato della variabile Yin corrispondenza delle i-me osservazioni delle variabili esplicative X .

Sia ei = yi − yi = yi − (β0 + β1 · xi1 + . . .+ βp · xip) il residuo i-mo.

Sia

RSS = e21 + e22 + . . .+ e2i + . . .+ e22 =n∑

i=1

e2i

la somma dei quadrati dei residui (residual sum of squares, RSS).

Con il metodo dei minimi quadrati si determinano i valori di βj cheminimizzano RSS .


In termini matriciali, sia e = y− y il vettore dei residui (dove y = βX è ilvettore dei valori di Y stimati condizionatamente ad X).

Il problema è quello di minimizzare la seguente quantità:

RSS = e′e = (y − βX)′(y − βX)

Si dimostra che lo stimatore OLS del vettore β dei parametri, ottenutominimizzando RSS , è dato da:

β =(X′X

)−1X′y

dove

β =

β0β1...

βp


Esempio: E�cacia della pubblicità (ctd.)

Torniamo all'esempio sulla relazione tra vendite e investimenti in pubblicitàsulla TV e sulla radio.

Sostituiamo nel modello le seguenti stime, ottenute con il metodo deiminimi quadrati:

β0 = 2.921, β1 = 0.046, β2 = 0.188

quindiyi = 2.921 + 0.046 · TVi + 0.188 · Radioi

Domanda: come si interpretano le stime dei parametri?


Proprietà di β

1 β = (X′X)−1X′y è una funzione lineare di Y .

2 E' uno stimatore corretto di β, E (β) = β.

3 La matrice di varianze e covarianze di β è Var(β) = σ2(X′X)−1.

4 Teorema di Gauss-Markov: nella classe degli stimatori lineari ecorretti, β è lo stimatore più e�ciente (best linear unbiasedestimator, BLUE).

5 Data l'ipotesi di Normalità dei termini di errore, anche β è distribuitocome un vettore di v.c. Normali:

β ∼ N(β, σ2(X′X)−1)


Errore standard di βj

La deviazione standard di βj (stima OLS di βj) è√Var(βj) = σ

√cjj

dove cjj è l'elemento j-mo sulla diagonale di (X′X)−1.

Dal momento che σ non è noto, va stimato.

Lo stimatore corretto di σ è:

S =

√ ∑ni=1

e2in − p − 1

=

√RSS

n − p − 1

Sostituendo S nell'espressione della deviazione standard di βj siottiene l'errore standard (standard error) della stima OLS di βj

SE (βj) = S · √cjj .



Nella seguente tabella si riportano le stime dei minimi quadrati, insieme airispettivi errori standard, per il modello sulle vendite:

Estimate Std. Error

(Intercept) 2.921 0.294

TV 0.046 0.001

Radio 0.188 0.008

Maggiore è l'errore standard di una stima (in relazione alla stimastessa), minore è l'a�dabilità della stima (ci torneremo).


Veri�ca della bontà del modello

Una volta stimati i parametri del modello, vogliamo sapere in che misura ilmodello si adatta ai dati.

Nel seguito, considereremo tre misure di bontà di adattamento (goodnessof �t) del modello ai dati:

1 il Residual Standard Error ;

2 il coe�ciente di determinazione, R2;

3 il coe�ciente di determinazione corretto, R2.


Residual Standard Error

La stima corretta di σ è anche detta Residual Standard Error , e misura ladistanza media tra i valori stimati e quelli osservati.

Oss.: può essere interpretato come una stima di quanto i valori dellaY si discostano, in media, dal vero (ed ignoto) iperpiano diregressione.

Più piccolo è RSE , migliore è l'adattamento del modello ai dati.

Nel nostro esempio il valore di RSE è pari a 1.68, ossia la distanza mediatra valori stimati e valori osservati per le vendite è pari a 1.68 (in termini dinumero di prodotti venduti).


Limiti di RSE

RSE è una misura assoluta della bontà di adattamento, che dipendedall'ordine di grandezza della Y .

Per questo motivo è di�cile stabilire se il valore osservato per RSEindichi un adattamento accettabile ai dati.

Nel nostro caso RSE = 1.68 indica un adattamento buono o pessimo?

Per ottenere una misura relativa della bontà di adattamento facciamoricorso ad un'importante relazione:la scomposizione della devianza totale.


Scomposizione della devianza totale

Si dimostra che, date le stime OLS yi , vale la seguente relazione

Scomposizione della devianza totale

n∑i=1

(yi − y)2︸︷︷︸TSS

=n∑

i=1

(yi − y)2︸︷︷︸ESS

+n∑

i=1

(yi − yi )2

︸︷︷︸RSS

dove:

TSS : devianza totale della Y , data dalla somma dei quadrati degliscarti dei valori osservati dalla media (total sum of squares);

ESS : devianza spiegata, data dalla somma dei quadrati degli scartitra i valori stimati e la media (explained sum of squares) e rappresentala parte della devianza totale spiegata dal modello.

Quindi RSS è il grado di incertezza residua una volta che il modello èstato stimato.


Il coe�ciente di determinazione R2

Dalla precedente relazione deriviamo il coe�ciente di determinazione

R2, che è una misura relativa della bontà di adattamento del modello aidati:

R2 =ESS

TSS= 1− RSS

TSS0 ≤ R2 ≤ 1

R2 misura la quota di variabilità della Y che viene spiegata dal modello.

Più il valore di R2 è vicino ad 1, migliore è l'adattamento delmodello ai dati.

Valori vicini allo 0 indicano uno scarso adattamento ai dati, il chepotrebbe essere dovuto ad un elevato valore di σ2, all'uso di unmodello non adatto (ad esempio, per l'ipotesi di linearità), o adentrambe le cose.

Nel nostro esempio, si ha che R2 = 0.89719, il che signi�ca che il modellospiega circa il 90% della variabilità totale dei dati.


Valori di R2

Più la retta stimata passa �vicino� ai dati osservati, più elevato è R2.R2 = 0.35 R2 = 0.6

R2 = 0.79 R2 = 0.95


Limiti del coe�ciente di determinazione R2

Se si aggiunge ad un modello una variabile esplicativa il valore di RSSdiminuisce, per cui R2 aumenta, a prescindere che il contributo dellavariabile aggiuntiva sia rilevante o meno.

Consideriamo due modelli A e B uno annidato (nested) nell'altro:il modello A contiene p variabili esplicative, il modello B contiene lestesse p variabili esplicative, più altre p′ (p′ ≥ 1),

Si dimostra che R2

B≥ R2

A, ma ciò non signi�ca necessariamente che il

secondo modello sia migliore del primo, in termini di adattamento aidati.


Il coe�ciente di determinazione corretto R2

Per decidere qual è il modello migliore (in termini di bontà diadattamento ai dati) tra due modelli a confronto, si usa il coe�ciente di

determinazione corretto R2

R2 = 1− n − 1

n − p − 1(1− R2)

che aumenta solo se il contributo delle variabili aggiuntive è sostanziale.

Al crescere di p il termine di penalizzazione n−1n−p−1 aumenta,

mentre 1− R2 diminuisce (a causa dell'aumento di R2).

R2 aumenta solo se la diminuzione di 1− R2 è superioreall'incremento del termine di penalizzazione.

Se R2

B> R2

A, il modello B è migliore del modello A.


Esempio

Sappiamo che per il nostro modello R2 = 0.89719.

Il coe�ciente di determinazione corretto è:

R2 = 1− 199

197· (1− 0.89719) = 0.89615

Se aggiungiamo anche gli investimenti in pubblicità sui quotidiani(Newspaper), il coe�ciente di determinazione è leggermente superiore(R2 = 0.89721).

In questo caso il coe�ciente di determinazione corretto è:

R2 = 1− 199

196· (1− 0.89721) = 0.89564

per cui aggiungere la nuova variabile al modello non migliora

l'adattamento ai dati.


Veri�ca della bontà delle stime

Quanto sono a�dabili le stime che abbiamo ottenuto?

Nell'esempio abbiamo visto che all'aumentare degli investimenti inpubblicità televisiva la variazione attesa delle vendite è pari 46 unità diprodotto vendute per ogni 1000 $ investiti, qualsiasi sia l'entità degliinvestimenti in pubblicità radiofoniche.Possiamo fare a�damento su questa stima?

Tutte le variabili esplicative concorrono a spiegare la variabile Y , o solo unsottoinsieme delle variabili Xj è rilevante?

Quali tra le variabili utilizzate nell'ultimo esempio contribuiscee�ettivamente a spiegare le variazioni delle vendite?

Per rispondere a queste domande dobbiamo analizzare le stime ottenute intermini inferenziali.


Inferenza nel modello di regressione lineareData l'ipotesi di normalità delle stime OLS βj , se la deviazione standarddei termini di errore, σ, fosse nota si avrebbe che:

βj − βjσ · √cjj

∼ N(0, 1)

Dal momento che σ generalmente non è nota, la sostituiamo con il suostimatore corretto, S , per cui:

βj − βjS · √cjj

∼ tn−p−1

Per n su�cientemente grande si ha che


∼ N(0, 1)


Veri�ca d'ipotesi sui singoli parametri del modello

Supponiamo di voler sottoporre a veri�ca l'ipotesi che il parametro βj siauguale ad un certo valore βj , contro l'ipotesi alternativa che sia diverso(test bidirezionale).

La statistica test in questo caso è:


che, data l'ipotesi nulla, si distribuisce come una t-Student con n− p − 1gradi di libertà.


Esistenza della relazione tra Y e Xj

Nel modello di regressione lineare si è interessati a sottoporre a veri�cal'ipotesi nulla H0 : βj = 0, contro l'ipotesi alternativa, H1 : βj 6= 0.

L'ipotesi nulla equivale a dire che la variabile Xj non in�uenza lavariabile Y .

Se l'ipotesi nulla è vera, la statistica t è:

t =βj

s · √cjj∼ tn−p−1

La statistica t è anche detta t-value.


Fissato un livello di signi�catività α, si determina il valore soglia tα/2,tale che:

P(|T | > tα/2) = P(T < −tα/2) + P(T > tα/2) = α

Si ri�uta l'ipotesi nulla se |t| > tα/2.

In alternativa, si calcola il p-value:

P(|T | > t) = 2 · [1− F (t)]

dove F (t) è la funzione di ripartizione della v.c. t-Student.

Si ri�uta l'ipotesi nulla se il p-value è minore di α.

Se l'ipotesi nulla βj = 0 viene ri�utata, si dice che il parametro βj èsigni�cativamente diverso da 0, ovvero che la variabile è signi�cativa,al livello α.



Consideriamo i risultati della regressione delle vendite sugli investimenti inpubblicità sui TV e radio (nelle ultime due colonne ci sono i t-value e ip-value delle stime, rispettivamente):

Estimate Std. Error t value Pr(>|t|)

(Intercept) 2.921 0.294 9.919 0

TV 0.046 0.001 32.909 0

Radio 0.188 0.008 23.382 0

Dal momento che n = 200, possiamo considerare la distribuzione Normaleper il calcolo del valore soglia.

Se �ssiamo α = 0.01, il valore soglia è z0.005 = 2.576, per cuientrambe le variabili sono signi�cative.

E' su�ciente osservare che il p-value è praticamente pari a 0, perentrambe le stime dei coe�cienti delle due variabili.



Se aggiungiamo anche gli investimenti in pubblicità sui giornali abbiamo:


(Intercept) 2.939 0.312 9.422 0.00

TV 0.046 0.001 32.809 0.00

Radio 0.189 0.009 21.893 0.00

Newspaper -0.001 0.006 -0.177 0.86

In questo caso, la variabile Newspaper non è signi�cativa al livelloα = 0.01, dal momento che il suo p-value è molto elevato (comunquesuperiore al livello di signi�catività �ssato).

Oss.: i risultati per le altre due variabili restano praticamente

invariati dopo l'inserimento della nuova variabile.


Veri�ca d'ipotesi congiunta su più parametri

Per veri�care l'ipotesi che più parametri del modello sianocongiuntamente pari a 0, si impiega il test F , basato sulla v.c. F -Fisher.

Consideriamo il seguente modello (che chiameremo completo):

yi = β0 + β1xi1 + . . .+ βpxip + εi

Senza perdere in generalità, supponiamo di voler veri�care che leultime p − h variabili del modello (con h ≤ p) non siano utili perspiegare la relazione lineare con la Y , per cui possono essereeliminate dal modello.


Formalmente, questo corrisponde a sottoporre a veri�ca l'ipotesi nulla:

βh+1 = βh+2 . . . = βp = 0, per h < p

contro l'ipotesi alternativa che almeno uno dei parametri consideratisia diverso da 0.

Se l'ipotesi nulla è vera, il vero modello è:

yi = β0 + β1xi1 + . . .+ βhxih + εi

detto modello ridotto.


Sia RSS la somma dei quadrati dei residui del modello completo e RSS0quella del modello ridotto.

Dal momento che il modello completo ha un numero maggiore divariabili esplicative rispetto al modello ridotto, si ha che RSS ≤ RSS0.

Se la di�erenza RSS0 − RSS è grande, l'ipotesi nulla va ri�utataperché il contributo delle ultime p − h variabili alla capacitàesplicativa del modello non è trascurabile.

Viceversa se RSS0 − RSS è piccola: non ri�utiamo H0, per cui leultime p − h variabili sono ridondanti.


Per stabilire statisticamente se la di�erenza RSS0 − RSS siasu�cientemente grande da ri�utare l'ipotesi nulla, si utilizza la statisticatest F :

F =(RSS0 − RSS)/(p − h)

RSS/(n − p − 1)

che data l'ipotesi nulla si distribuisce come una v.c. F -Fisher, con p − h

e n − p − 1 gradi di libertà (Fp−h,n−p−1).

Stabilito il livello di signi�catività α, si determina il valore soglia Fα,tale che P(F > Fα)=α.

Si ri�uta l'ipotesi nulla se F > Fα (test unidirezionale).

Anche in questo caso si può osservare il p-value per valutare seri�utare l'ipotesi nulla.


Decisione basata sul p-value

Rifiuto H0

0 Fα F

Non rifiuto H0

0 F Fα

L'area in rosso rappresenta α, quella in blu il p-value.


Veri�ca della bontà del modello: F-statistic

Per h = 0, l'ipotesi nulla coincide con il caso in cui tutti i parametri del

modello, tranne l'intercetta, sono pari a 0.

β1 = β2 = . . . = βp ⇒ yi = β0 + εi

La statistica test (detta F-statistic) è:

F =R2/p

(1− R2)/(n − p − 1)∼ Fp,n−p−1

Il test diventa un giudizio complessivo sulla capacità esplicativa delmodello.

Nel seguito, quando parleremo di statistica F , o test F , faremosempre riferimento a quest'ultimo caso.


Esempio: E�cacia della pubblicità (ctd.)Tornando al modello in cui si mettono in relazione le vendite con gliinvestimenti in pubblicità su TV e radio, la statistica F è:

F =0.89719/2

0.10281/197= 859.578

e si distribuisce come una F2,197.

Vogliamo veri�care l'ipotesi nulla β1 = β2 = 0, per α = 0.01.

Dal momento che sulle tavole, i gradi di libertà per il denominatorearrivano �no a 120, approssimiamo n − p − 1 ad in�nito (∞).

Il valore soglia è F0.01;2;197 ≈ 4.61 (il valore reale è 4.71) per cuiri�utiamo l'ipotesi nulla.

Il p-value è praticamente pari a 0, precisamente

P(F > 859.578) = 4.8273619× 10−98

per cui è minore di qualsiasi livello di signi�catività comunemente

�ssato.R. Massari (Prof. P. D'Urso) Il modello di regressione lineare ©2016 44 / 101


Se aggiungiamo anche gli investimenti pubblicitari sui giornali avremo(ricordando che R2 = 0.89721):

F =0.89721/3

0.10279/196= 570.267

che si distribuisce come una F3,196.

Sempre per α = 0.01, il valore soglia è

F0.01;3;196 ≈ 3.78

per cui anche in questo caso ri�utiamo l'ipotesi nulla.


Tutti i risultati discussi sinora sono riportati di seguito (è l'output di R perla regressione lineare):

Call:

lm(formula = Sales ~ TV + Radio, data = dat)

Residuals:

Min 1Q Median 3Q Max

-8.7977 -0.8752 0.2422 1.1708 2.8328

Coefficients:


(Intercept) 2.92110 0.29449 9.919 <2e-16 ***

TV 0.04575 0.00139 32.909 <2e-16 ***

Radio 0.18799 0.00804 23.382 <2e-16 ***

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.681 on 197 degrees of freedom

Multiple R-squared: 0.8972, Adjusted R-squared: 0.8962

F-statistic: 859.6 on 2 and 197 DF, p-value: < 2.2e-16


Riportiamo per completezza l'output del modello in cui consideriamo anchegli investimenti in pubblicità sui giornali:

Call:

lm(formula = Sales ~ ., data = dat)

Residuals:

Min 1Q Median 3Q Max

-8.8277 -0.8908 0.2418 1.1893 2.8292

Coefficients:


(Intercept) 2.938889 0.311908 9.422 <2e-16 ***

TV 0.045765 0.001395 32.809 <2e-16 ***

Radio 0.188530 0.008611 21.893 <2e-16 ***

Newspaper -0.001037 0.005871 -0.177 0.86

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.686 on 196 degrees of freedom

Multiple R-squared: 0.8972, Adjusted R-squared: 0.8956

F-statistic: 570.3 on 3 and 196 DF, p-value: < 2.2e-16


Selezione delle variabili

All models are wrong. Some models are useful

George E. P. Box

Uno dei problemi più comuni è quello della scelta di quali e quantevariabili esplicative inserire nel modello.

Teoricamente, avendo a disposizione p variabili esplicative dovremmoconfrontare 2p modelli, ognuno contenente un sottoinsieme delle pvariabili, per scegliere il modello migliore in base ad uno o più criteri(R2, AIC, BIC, ecc,).

Nel nostro esempio, il dataset contiene 3 (potenziali) variabiliesplicative, per cui dovremmo confrontare 8 modelli (compreso ilmodello con la sola intercetta).

Se invece avessimo a disposizione 10 (potenziali) variabili esplicative,dovremmo confrontare 1024 modelli!!


Procedure per la selezione delle variabili esplicative

Esistono delle procedure (semi-)�automatiche� che rendono la selezionedelle variabili esplicative meno impegnativa.

1 Forward selection: a partire dal modello con la sola intercetta, siinserisce una variabile alla volta in maniera tale da minimizzare lasomma dei quadrati dei residui (RSS). Il processo si arresta in base aduna regola pre�ssata (ad esempio, se la riduzione di RSS è inferiore adun dato valore).

2 Backward selection: a partire dal modello con tutte le p variabiliesplicative, si elimina una variabile per volta partendo da quella con ilp-value più elevato. Il processo si arresta quando i p-value di tutte levariabili rimaste sono al di sotto di una certa soglia.

3 Approccio misto: si procede come per la forward selection, madurante il processo vengono eliminate le variabili i cui p-valueeccedono un pre�ssato valore.


Osservazione

Nei principali programmi per l'analisi dei dati (R, Stata, SAS, ecc.)esistono diverse funzioni che applicano uno dei tre metodi visti.

Uno dei problemi di questi approcci è che nessuno è ideale sotto ogniaspetto.

Inoltre rappresentano una sorta di black box , in cui abbiamo pochepossibilità di controllare la procedura.


Una possibile alternativa è quella di selezionare inizialmente una o piùvariabili esplicative di interesse (ad esempio, per sottoporre a veri�caun'ipotesi di lavoro, o una teoria).

Successivamente si possono inserire altre variabili (dette di controllo), perveri�care che l'e�etto delle variabili iniziali non venga vani�catodall'inserimento di queste ulteriori variabili.

Se, ad esempio, siamo interessati principalmente all'e�etto sullevendite degli investimenti in pubblicità sui giornali potremmoprocedere come descritto nella slide seguente.


Confronto tra modelli

Di seguito si riportano i tre modelli in cui inseriamo una variabileesplicativa per volta:

Dependent variable:

Sales

(1) (2) (3)

Newspaper 0.055∗∗∗ 0.044∗∗∗ -0.001(0.017) (0.010) (0.006)

TV 0.047∗∗∗ 0.046∗∗∗

(0.003) (0.001)

Radio 0.189∗∗∗

(0.009)

Constant 12.351∗∗∗ 5.775∗∗∗ 2.939∗∗∗

(0.621) (0.525) (0.312)

Observations 200 200 200

R2 0.052 0.646 0.897

Adjusted R2 0.047 0.642 0.896Residual Std. Error 5.092 (df = 198) 3.121 (df = 197) 1.686 (df = 196)F Statistic 10.887∗∗∗ (df = 1; 198) 179.619∗∗∗ (df = 2; 197) 570.271∗∗∗ (df = 3; 196)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01


Come mai quando aggiungiamo gli investimenti pubblicitari sulle radiol'e�etto delle pubblicità sui giornali sparisce?

Un indizio lo abbiamo dalla correlazione tra le variabili:

TV Radio Newspaper Sales

TV 1.000 0.055 0.057 0.782

Radio 0.055 1.000 0.354 0.576

Newspaper 0.057 0.354 1.000 0.228

Sales 0.782 0.576 0.228 1.000


Come si vede, gli investimenti pubblicitari sulle radio sono positivamente

correlati con quelli sui giornali.

Inoltre la correlazione tra vendite e investimenti in annunci radiofoniciè più elevata di quella tra vendite e investimenti in pubblicità suigiornali.

In altre parole, nelle città dove si investe molto in pubblicità sulle radiole vendite sono più elevate, ma anche gli investimenti pubblicitari suigiornali sono elevati.

Se non teniamo conto degli investimenti sulle radio, la variabile Newspaper

ingloba anche l'e�etto della variabile Radio.


Analisi dei residui

L'analisi dei residui ei = yi − yi permette di sottoporre a veri�ca leprincipali ipotesi fatte per la stima del modello:

1 linearità della relazione;

2 omoschedasticità dei residui (varianza costante);

3 Normalità dei residui;

4 presenza di dati anomali.

Tipicamente l'analisi dei residui viene e�ettuata con test speci�ci, maanche con una semplice analisi gra�ca.


Analisi dei residuiModello:

Sales = β0 + β1 · TV + β2 · Radio + ε

5 10 15 20 25

−10

−6

−2

24

Fitted values

Res

idua

ls

Residuals vs Fitted

131

6179

−3 −2 −1 0 1 2 3

−4

−2

02

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

131

6179

5 10 15 20 25

0.0

1.0

2.0

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location131

6179

0.000 0.010 0.020 0.030

−6

−4

−2

02

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance

Residuals vs Leverage

131

636


Descrizione dei gra�ci e dei risultati

1 Residuals vs Fitted : confronto tra valori stimati e residui.Se la curva rossa che interpola i dati ha un andamentoapprossimativamente lineare (e parallelo all'asse delle ascisse),l'ipotesi di linearità non è violata.Inoltre, se i punti al di sopra e al di sotto della curva si dispongono inmaniera casuale (senza nessun pattern evidente) anche l'ipotesi diomoschedasticità non è violata.

2 Normal Q-Q: confronto tra percentili teorici della distribuzioneNormale standardizzata e i percentili dei residui standardizzati.L'ipotesi di Normalità dei residui non è violata se i punti sidispongono approssimativamente lungo la diagonale del gra�co.


Descrizione dei gra�ci e dei risultati/2

3 Scale-Location: simile al primo gra�co, ma in questo caso si considerala radice quadrata dei residui standardizzati.L'interpretazione è simile a quella del primo gra�co.

4 Residuals vs Leverage: confronto tra il leverage di ciascunaosservazione e i residui standardizzati.L'indice di leverage considerato è la distanza di Cook che indical'in�uenza della singola osservazione sulla stima del modello. Più èelevato questo valore, maggiore è la possibilità che il dato siaanomalo.Accanto ai dati potenzialmente anomali viene indicata l'etichettadell'unità.Se alcune unità hanno valori dell'indice vicini o superiori a 0.5, vienemostrata una curva tratteggiata che indica tale distanza.


Commento generale

Per l'ipotesi di linearità servono ulteriori approfondimenti;

i residui sembrano mostrare un andamento ad U, non compatibile conle ipotesi del modello;

la distribuzione dei residui non sembra approssimare molto bene ladistribuzione Normale, specialmente per i valori nelle code;

si osserva la presenza di alcuni dati anomali.

Se i risultati non sono soddisfacenti, è opportuno aggiungere altre variabilie/o trasformarne alcune.


Sommario



3 Esercizi


Esempio (da Stock, Watson, 2007)

Consideriamo 420 distretti scolastici in California, sui quali sono stateosservate, tra le altre le seguenti variabili:

stratio: numero di studenti per insegnante (rapportostudenti-insegnanti, proxy della dimensione delle classi);

english: % di studenti che devono seguire un corso di Inglese(studenti non madrelingua);

score: punteggio medio degli studenti (rendimento medio);

lunch: % di studenti che hanno diritto alla mensa pubblica;

calworks: % di studenti che hanno diritto ad assistenza economica


Alcune statistiche sui dati

Statistic N Mean St. Dev. Min Max

stratio 420 19.640 1.892 14.000 25.800score 420 654.157 19.053 605.550 706.750english 420 15.768 18.286 0.000 85.540lunch 420 44.705 27.123 0.000 100.000calworks 420 13.246 11.455 0.000 78.994

Matrice di correlazione

stratio score english lunch calworks

stratio 1.000 -0.226 0.188 0.135 0.018

score -0.226 1.000 -0.644 -0.869 -0.627

english 0.188 -0.644 1.000 0.653 0.320

lunch 0.135 -0.869 0.653 1.000 0.739

calworks 0.018 -0.627 0.320 0.739 1.000


Relazione tra rendimento degli studenti e rapportostudenti-insegnanti

Siamo interessati in particolare alla relazione tra rendimento degli

studenti e il rapporto studenti-insegnanti (legato alla dimensione delleclassi).Studenti in classi meno numerose rendono di più?

630

660

690

14 16 18 20 22 24 26stratio

scor

e


Modello (1)

Consideriamo il modello di regressione lineare semplice in cui mettiamo inrelazione il punteggio medio degli studenti nei distretti con il rapportostudenti-insegnanti.


(Intercept) 698.9329 9.4675 73.8245 0

stratio -2.2798 0.4798 -4.7513 0

Per ogni punto percentuale in meno del rapporto studenti-insegnanti, ilpunteggio medio nei distretti aumenta di 2.3 punti, circa.

Poiché il p-value è praticamente pari a 0, la relazione è signi�cativa ancheper valori di α molto piccoli (ad esempio α = 0.001).


Il coe�ciente di determinazione è pari a 0.0512, per cui il coe�cientedi determinazione corretto è 0.049 (controllare per esercizio).

La statistica F , data l'ipotesi nulla β1 = 0, si distribuisce come unaF -Fisher con 1 e 418 gradi di libertà.Il valore della statistica è F = 22.5751 (controllare per esercizio).Il valore critico per α = 0.05, approssimando i gradi di libertà aldenominatore ad in�nito, è F0.05,1,418 ≈ 3.84, per cui possiamori�utare l'ipotesi nulla.

N.B.: osserviamo che in questo caso l'ipotesi nulla per il test su β1 e quellaper il test F coincidono.


Modello (2)

La relazione negativa tra rendimento e dimensione delle classi potrebbeessere dovuta al fatto che nelle classi più grandi c'è una maggiorepercentuale di studenti non madrelingua.

Aggiungiamo la variabile di controllo english.


(Intercept) 686.0322 7.4113 92.5656 0.000

stratio -1.1013 0.3803 -2.8960 0.004

english -0.6498 0.0393 -16.5159 0.000

Confrontando questo modello con il precedente, si osserva che la variabilestratio è sempre signi�cativa, e con lo stesso segno, ma il suo e�etto siè dimezzato.

In questo caso l'e�etto del rapporto studenti-insegnanti è valutato a paritàdi % di non madrelingua, mentre prima non si teneva conto di questavariabile.


Modello (2): Domande

Sapendo che R2 = 0.4264:

1 in termini di bontà di adattamento, questo modello è migliore delprecedente?

2 Qual è il valore della statistica F?

3 Per α = 0.05, possiamo ri�utare l'ipotesi nulla che β1 = β2 = 0?


Modello (2): Risposte

1 Il coe�ciente di determinazione corretto è R2 = 0.4237, per cuiquesto modello è migliore del primo.

2 F = 155.0137.

3 Il valore critico è F0.05,2,417 ≈ 3, per cui ri�utiamo l'ipotesi nulla.


Confronto tra i modelli (1) e (2)

Dependent variable:

score

(1) (2)

stratio -2.2798∗∗∗ -1.1013∗∗∗

(0.4798) (0.3803)

english -0.6498∗∗∗

(0.0393)

Constant 698.9329∗∗∗ 686.0322∗∗∗

(9.4675) (7.4113)

Observations 420 420

R2 0.0512 0.4264

Adjusted R2 0.0490 0.4237Residual Std. Error 18.5810 (df = 418) 14.4645 (df = 417)F Statistic 22.5751∗∗∗ (df = 1; 418) 155.0137∗∗∗ (df = 2; 417)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01


Modello (3a)

Aggiungiamo un'ulteriore variabile, lunch.


(Intercept) 700.1500 4.6857 149.4231 0e+00

stratio -0.9983 0.2388 -4.1813 0e+00

english -0.1216 0.0323 -3.7619 2e-04

lunch -0.5473 0.0216 -25.3414 0e+00

Domande:

1 Confrontare il modello con i precedenti.

2 Quali variabili sono signi�cative per α = 0.05?3 Sapendo che R2 = 0.7745:

a) Questo modello è migliore degli altri in termini di bontà di adattamento?b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0

può essere ri�utata, sempre per α = 0.05?


Modello (3b)

Sostituiamo la variabile lunch con calworks:


(Intercept) 697.9987 6.0242 115.8665 0

stratio -1.3080 0.3067 -4.2646 0

english -0.4876 0.0335 -14.5640 0

calworks -0.7900 0.0525 -15.0449 0

Domande:



a) Questo modello è migliore di tutti gli altri in termini di bontà diadattamento?

b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0può essere ri�utata, sempre per α = 0.1?


Modello (3c)

Sostituiamo la variabile lunch con calworks:


(Intercept) 700.3918 4.6980 149.0840 0.0000

stratio -1.0144 0.2397 -4.2311 0.0000

english -0.1298 0.0340 -3.8186 0.0002

lunch -0.5286 0.0322 -16.4218 0.0000

calworks -0.0479 0.0610 -0.7849 0.4330

Domande:



a) Questo modello è migliore di tutti gli altri in termini di bontà diadattamento?

b) L'ipotesi nulla che tutti i coe�cienti (tranne l'intercetta) sono uguali a 0può essere ri�utata, sempre per α = 0.01?


Confronto tra gli ultimi 3 modelli

Dependent variable:

score(3a) (3b) (3c)

(1) (2) (3)

stratio -0.9983∗∗∗ -1.3080∗∗∗ -1.0144∗∗∗

(0.2388) (0.3067) (0.2397)

english -0.1216∗∗∗ -0.4876∗∗∗ -0.1298∗∗∗

(0.0323) (0.0335) (0.0340)

lunch -0.5473∗∗∗ -0.5286∗∗∗

(0.0216) (0.0322)

calworks -0.7900∗∗∗ -0.0479(0.0525) (0.0610)

Constant 700.1500∗∗∗ 697.9987∗∗∗ 700.3918∗∗∗

(4.6857) (6.0242) (4.6980)


R2 0.7745 0.6285 0.7749


Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01


Analisi dei residui. Modello (3c)

620 630 640 650 660 670 680

−40

−20

020

Fitted values

Res

idua

ls

Residuals vs Fitted

180

367

77

−3 −2 −1 0 1 2 3

−2

02

4


Sta

ndar

dize

d re

sidu

als

Normal Q−Q

180

367

77

620 630 640 650 660 670 680

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location180367

77

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

−4

−2

02

4

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance 0.5

0.5


180

10

6

Commentare i gra�ci dell'analisi dei residui dell'ultimo modello.


Valori critici per il test F

Modello (3a): F3,416,0.05 ≈ 2.6.

Modello (3b): F3,416,0.1 ≈ 2.08.

Modello (3c): F4,415,0.01 ≈ 3.32.


Sommario



3 Esercizi


Esercizio 1

Date le seguenti variabili, rilevate su 32 siti di e-commerce:

overall: giudizio medio generale;

time: tempo medio di permanenza sul sito (in minuti);

value: spesa media (in euro);

crm: giudizio medio sulla cura del cliente;

design: giudizio medio sul design del sito;

easy: giudizio medio sulla facilità d'uso.

Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione la spesa media con alcune variabili esplicative.


Esercizio 1: Modello (1)


(Intercept) 5.4879 1.4070 3.9004 0.0005

time 0.3929 0.1738 2.2610 0.0314

overall 0.4746 0.1485 3.1969 0.0033

R2 = 0.2968




(Intercept) 4.7069 1.6807 2.8006 0.0091

time 0.3648 0.1776 2.0539 0.0494

overall 0.4912 0.1504 3.2664 0.0029

crm 0.1413 0.1646 0.8587 0.3978

R2 = 0.3149




(Intercept) 1.4763 1.8272 0.8079 0.4265

overall 0.3905 0.1396 2.7967 0.0096

time 0.3544 0.1596 2.2201 0.0353

crm 0.2283 0.1511 1.5110 0.1429

design 0.2642 0.1425 1.8538 0.0751

easy 0.4336 0.1436 3.0198 0.0056

R2 = 0.5021


Esercizio 1: Analisi dei residui. Modello (3)

6 8 10 12 14

−4

−2

02

4

Fitted values

Res

idua

ls

Residuals vs Fitted

22

1725

−2 −1 0 1 2

−2

−1

01

2


Sta

ndar

dize

d re

sidu

als

Normal Q−Q

22

17 25

6 8 10 12 14

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location22

1725

0.00 0.05 0.10 0.15 0.20 0.25 0.30

−2

−1

01

2

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance0.5

0.5


22

135


Esercizio 1: Domande

1 Quali sono le variabili esplicative nei tre modelli?

2 Veri�care la signi�catività di tutti i parametri singolarmente perα = 0.1, α = 0.05 e α = 0.01;

3 interpretare i parametri di tutti i modelli;

4 indicare quale modello è il migliore, in termini di bontà di

adattamento;

5 per ogni modello, veri�care la signi�catività di tutti i parametricongiuntamente per α = 0.01;

6 commentare i gra�ci dell'analisi dei residui dell'ultimo modello.


Valori critici per il test F (Esercizio 1)

Modello (1): F2,29,0.01 = 5.42.

Modello (2): F3,28,0.01 = 4.57.

Modello (3): F5,26,0.01 = 3.82.


Dependent variable:

value

(1) (2) (3)

time 0.3929∗∗ 0.3648∗∗ 0.3544∗∗

(0.1738) (0.1776) (0.1596)

overall 0.4746∗∗∗ 0.4912∗∗∗ 0.3905∗∗∗

(0.1485) (0.1504) (0.1396)

crm 0.1413 0.2283(0.1646) (0.1511)

design 0.2642∗

(0.1425)

easy 0.4336∗∗∗

(0.1436)

Constant 5.4879∗∗∗ 4.7069∗∗∗ 1.4763(1.4070) (1.6807) (1.8272)


R2 0.2968 0.3149 0.5021

Adjusted R2 0.2483 0.2415 0.4063Residual Std. Error 2.3882 (df = 29) 2.3991 (df = 28) 2.1225 (df = 26)F Statistic 6.1211∗∗∗ (df = 2; 29) 4.2896∗∗ (df = 3; 28) 5.2429∗∗∗ (df = 5; 26)

Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01


Esercizio 2

Su un campione di 350 clienti di una nota marca di prodotti per l'infanziasono state rilevate le seguenti variabili:

expend: spesa media annuale (x 100 euro);

age: età;

education: anni di studio;

income: reddito;

child: numero di �gli;

prom: numero di iniziative promozionali alle quali il cliente ha aderito;

time: da quanti mesi è cliente?

Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione la spesa media con alcune variabili esplicative.




(Intercept) 6.5622 1.2830 5.1147 0.0000

age -0.1796 0.0181 -9.9447 0.0000

education -0.1533 0.1155 -1.3275 0.1852

income 0.4948 0.0972 5.0926 0.0000

R2 = 0.2739




(Intercept) 4.5983 1.1321 4.0617 0.0001

age -0.2018 0.0159 -12.7248 0.0000

education -0.1976 0.1006 -1.9647 0.0502

income 0.4555 0.0847 5.3807 0.0000

child 1.3421 0.1270 10.5682 0.0000

R2 = 0.4515




(Intercept) 4.7621 1.4885 3.1992 0.0015

age -0.2021 0.0159 -12.6995 0.0000

education -0.1991 0.1010 -1.9716 0.0495

income 0.4563 0.0849 5.3750 0.0000

child 1.3444 0.1276 10.5403 0.0000

prom -0.0915 0.1888 -0.4845 0.6283

time -0.0011 0.0470 -0.0244 0.9806

R2 = 0.4518



−5 0 5

−10

05

10

Fitted values

Res

idua

ls

Residuals vs Fitted

30628 52

−3 −2 −1 0 1 2 3

−2

01

23


Sta

ndar

dize

d re

sidu

als

Normal Q−Q

3062852

−5 0 5

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location30628 52

0.00 0.01 0.02 0.03 0.04 0.05 0.06

−3

−1

12

3

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance


262

17223







adattamento;





Modello (1): F3,346,0.05 ≈ 2.6.

Modello (2): F4,345,0.05 ≈ 2.37.

Modello (3): F6,343,0.05 ≈ 2.1.


Dependent variable:

expend

(1) (2) (3)

age -0.1796∗∗∗ -0.2018∗∗∗ -0.2021∗∗∗

(0.0181) (0.0159) (0.0159)

education -0.1533 -0.1976∗ -0.1991∗∗

(0.1155) (0.1006) (0.1010)

income 0.4948∗∗∗ 0.4555∗∗∗ 0.4563∗∗∗

(0.0972) (0.0847) (0.0849)

child 1.3421∗∗∗ 1.3444∗∗∗

(0.1270) (0.1276)

prom -0.0915(0.1888)

time -0.0011(0.0470)

Constant 6.5622∗∗∗ 4.5983∗∗∗ 4.7621∗∗∗

(1.2830) (1.1321) (1.4885)


R2 0.2739 0.4515 0.4518


Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01


Esercizio 3

Su un campione di 27 stati sono state rilevate le seguenti variabili:

pop15: % di popolazione sotto i 15 anni;

pop75: % di popolazione sopra i 75 anni;

sr: risparmio aggregato;

dpi: PIL pro capite;

ddpi: tasso di crescita del PIL (in %).

Considerare i tre modelli proposti nelle slide seguenti in cui mettiamo inrelazione il risparmio aggregato con alcune variabili esplicative.




(Intercept) 37.8913 9.5563 3.9651 0.0006

pop15 -0.6513 0.1934 -3.3676 0.0026

pop75 -2.7638 1.3343 -2.0714 0.0492

R2 = 0.3968




(Intercept) 40.3690 9.6795 4.1706 0.0004

pop15 -0.7117 0.1978 -3.5973 0.0015

pop75 -2.0900 1.4328 -1.4587 0.1582

dpi -0.0018 0.0015 -1.2157 0.2364

R2 = 0.4332




(Intercept) 35.0522 10.4332 3.3597 0.0028

pop15 -0.6249 0.2069 -3.0203 0.0063

pop75 -1.9217 1.4204 -1.3530 0.1898

dpi -0.0013 0.0015 -0.8244 0.4186

ddpi 0.4239 0.3342 1.2683 0.2180

R2 = 0.4718



4 6 8 10 12 14 16

−5

05

Fitted values

Res

idua

ls

Residuals vs Fitted

Peru

Chile

Venezuela

−2 −1 0 1 2

−2

−1

01

2


Sta

ndar

dize

d re

sidu

als

Normal Q−Q

Peru

Chile

Venezuela

4 6 8 10 12 14 16

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−LocationPeru

ChileVenezuela

0.0 0.1 0.2 0.3 0.4 0.5

−2

−1

01

2

Leverage

Sta

ndar

dize

d re

sidu

als

Cook's distance1

0.5

0.5

1


JapanIreland

Peru







adattamento;





Modello (1): F2,24,0.1 = 2.54.

Modello (2): F3,23,0.1 = 2.34.

Modello (3): F4,22,0.1 = 2.22.


Dependent variable:

sr

(1) (2) (3)

pop15 -0.6513∗∗∗ -0.7117∗∗∗ -0.6249∗∗∗

(0.1934) (0.1978) (0.2069)

pop75 -2.7638∗∗ -2.0900 -1.9217(1.3343) (1.4328) (1.4204)

dpi -0.0018 -0.0013(0.0015) (0.0015)

ddpi 0.4239(0.3342)

Constant 37.8913∗∗∗ 40.3690∗∗∗ 35.0522∗∗∗

(9.5563) (9.6795) (10.4332)


R2 0.3968 0.4332 0.4718


Note: ∗p<0.1; ∗∗p<0.05; ∗∗∗p<0.01


Per saperne di più

S. Borra, A. Di Ciaccio �Statistica. Metodologia per le scienzeeconomiche e sociali� , McGraw-Hill

Capp. 16, 17 per il modello di regressione lineare semplice.Cap. 19 per il modello di regressione lineare multipla disponibile al link:http://www.ateneonline.it/borra2e/studenti/capitolo_19.pdf.

G. Cicchitelli �Statistica. Principi e metodi�, PearsonCap. 21.


http://www.ateneonline.it/borra2e/studenti/capitolo_19.pdf

Documents

Il modello di regressione lineare - uniroma1.it