30
Statistica Industriale Lez. 7 Regressione multipla L’obiettivo ` e costruire un modello probabilistico per spiegare la variabile y tramite pi` u di una variabile indipendente x 1 ,x 2 ,...,x k . Esempio: Per un efficiente progettazione degli inceneritori di rifiuti mu- nicipali ` e necessario che l’informazione relativa al contenuto di energia dei rifiuti sia disponibile. Abbiamo a disposizione 30 campioni di rifiuti di una certa regione per i quali abbiamo i valori delle variabili y contenuto di ener- gia (Kcal/kg), x 1 % di plastica sul peso, x 2 % di carta sul peso, x 3 % di altri rifiuti organici sul peso, x 4 % di umidit` a sul totale del campione esaminato. Il modello proposto potrebbe essere Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε, (1) Occorre capire quali variabili servono a spiegare la variabile di interesse (selezione delle variabili) e in che misura vi contribuisce. 1

Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Regressione multipla

L’obiettivo e costruire un modello probabilistico per spiegare la variabile y

tramite piu di una variabile indipendente x1, x2, . . . , xk.

Esempio: Per un efficiente progettazione degli inceneritori di rifiuti mu-nicipali e necessario che l’informazione relativa al contenuto di energia deirifiuti sia disponibile. Abbiamo a disposizione 30 campioni di rifiuti di unacerta regione per i quali abbiamo i valori delle variabili y contenuto di ener-gia (Kcal/kg), x1 % di plastica sul peso, x2 % di carta sul peso, x3 %di altri rifiuti organici sul peso, x4 % di umidita sul totale del campioneesaminato.

Il modello proposto potrebbe essere

Y = β0 + β1x1 + β2x2 + β3x3 + β4x4 + ε, (1)

Occorre capire quali variabili servono a spiegare la variabile di interesse(selezione delle variabili) e in che misura vi contribuisce.

1

Page 2: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Plastics

15 20 25 30

●●●

●●

●● ●

●●

●●●

●●

● ●

●● ●

●●

●● ●

●●

●● ●

●●

●●

44 48 52 56

●●●

●●

●● ●

●●

●●●

●●

●●

1418

22

●●●

●●

●●●

●●

●●●

●●

●●

1520

2530

●●

●● ●

●●●

●●

●●

● Paper

●●

●●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●● ●

●●●

●●

●●

●●

●●● ●

●●

● ●●

●●

●●

●●

●●●●

●●

●●●

●●

●●

Garbage●

●●

●●● ●

●●

●●●

●●

●●

3545●

●●

●● ●●

●●

● ●●

●●

●●

4448

5256

●● ●

●●

●●

●●

●●

●● ●

●●

●●

●●●

●●

●●

●●

● ●

●●●

●●

● ●

● ●●

●●

●●

●●

● ●

● ●●

●●

●●

Water

●●●

●●

●●

●●

●●

●● ●

●●

●●

14 18 22

●●

●●

●●●

● ● ●

●●

●●

●●

●●●

●● ●

● ●

35 45

●●

●●

●● ●

● ●●

●●

●●

●●

●●●

● ● ●

●●

1000 1400

1000

1400

Energy.content

2

Page 3: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Analisi della correlazione tra le variabili

Calcoliamo la matrice di correlazione tra le variabili in gioco. Per i dati

dell’esempio abbiamo:

Plastics Paper Garbage Water Energy.contentPlastics 1.00 −0.15 −0.09 −0.26 0.59

Paper −0.15 1.00 −0.63 −0.01 0.04Garbage −0.09 −0.63 1.00 0.07 −0.09

Water −0.26 −0.01 0.07 1.00 −0.90Energy.content 0.59 0.04 −0.09 −0.90 1.00

Come regola generale e bene che entrino nel modello le variabili mag-

giormente correlate con la variabile da spiegare e le meno incorrelate tra

loro.

In questo caso potremmo considerare un modello in cui entrino solo le

variabili Water e Plastics

3

Page 4: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Scatter Plot Matrix

Plastics

1414

1616

18

18

20

20

22

2224 24

●●●

●● ●

●●

●●●

●●

● ●

●● ●

●● ●

●●

●● ●

●●

●●

●●●

●● ●

●●

●●●

●●

●●

●●●

●●●

●●

●●●

●●

●●

●●

●● ●

●●●

●●

●●

●Paper

1515

20

20

25

2530

30

●●

●●●

●●●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●● ●

●●●

●●

●●

●●

●●● ●

●●

● ●●

●●

●●

●●●●

●●

●●●

●●

Garbage

3535

40

40

45

4550 50

●●

●●● ●

●●

●●●

●●

●●

●● ●●

●●

● ●●

●●

●● ●

●●

●●

●●

●● ●

●●

●●

●●●

●●

●●

● ●

●●●

●●

● ●

● ●●

●●

●●

● ●

● ●●

●●

●●

Water

4545

50

50

50

5055

55●

●●●

●●

●●

●●

●● ●

●●

●●

●●

●●

●●

● ● ●

●●

●●

●●

●●

●● ●

● ●

●●

●●

● ●

● ●●

●●

●●

●●

●●

● ● ●

●●

Energy.content

10001000

1200

1200

1400

14001600 1600

4

Page 5: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Consideriamo il modello generale

Y = β0 + β1x1 + . . . + βkxk + ε, (2)

Posto θ = (β0, β1, . . . , βk)′ se abbiamo n osservazioni possiamo riscrivere le

n equazioni (2) in forma matriciale

Y = Xθ + ε

dove Y = (Y1, . . . , Yn)′, X =

1 x11 . . . x1k1 x21 . . . x2k... . . . . . . ...1 xn1 . . . xnk

, ε = (ε1, . . . , εn)′. La stima

ottenuta coi minimi quadrati (OLS=Ordinary Least Squares) e data da

θ = (X′X)−1X′Y

dove Y = (y1, . . . , yn)′. In seguito p = k + 1 e il numero dei parametri.

La stima OLS si ottiene se solo se XX′ e invertibile, cioe se e solo se la

matrice X ha rango massimo p.

5

Page 6: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Le osservazioni y = (y1, . . . , yn)′ provengono dal modello

Yi = x′iβ + εi

• Yi variabile casuale dipendente

• x′i = [1, xi1, xi2, ..., xik] vettore dei regressori (deterministici o stocastici)

• β′ =[β0, β1,β2, ..., βk

]vettore dei parametri

• εi : componente stocastica di valore atteso nullo

FUNZIONE DI REGRESSIONE

E(Yi|xi) = x′iβ

6

Page 7: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Y = Xβ + ε

• X =

x′1

x′2

x′n

matrice n × p dei regressori

• Y =

Y1Y2

Yn

vettore delle variabili risposta

• ε =

ε1ε2..εn

vettore delle componenti stocastiche

7

Page 8: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE

CLASSICO

• A0: la funzione di regressione E(Y|X) = Xβ e correttamente specificata

• A1: ε e un vettore di n variabili casuali indipendenti

• A2: le componenti di ε sono variabili casuali di valore atteso nullo e

varianza σ2 (omoschedastiche)

• A3: le componenti di ε sono variabili casuali normali

• A4: X e una matrice di costanti note (regressori non stocastici)

• A5: le colonne di X sono linearmente indipendenti =: X′X e invertibile

8

Page 9: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

STIMA di β, σ2

Da Yi = x′iβ + εi e per le A1, A2, A3, A4 si ha che le Yi sono variabili

casuali indipendenti normali con valore atteso µi = x′iβ e varianza σ2.

La verosimiglianza e:

L(β, σ2) =n∏

i=1

1√2πσ2

exp{−

1

2σ2(yi − x

′iβ)2

}e la log verosimiglianza:

L(β, σ2) = −n

2ln(2πσ2)−

1

2σ2

∑i

(yi − x′iβ)2 =

= −n

2ln(2πσ2)−

1

2σ2 (y −Xβ)′ (y −Xβ)

se σ2 e noto massimizzare la log verosimiglianza equivale a minimizzare(CRITERIO DEI MINIMI QUADRATI):

Q(β) = (y −Xβ)′ (y −Xβ)

9

Page 10: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

RISULTATO FONDAMENTALE

Q(β) = (y −Xβ)′ (y −Xβ) ha un unico minimo in

b =(X′X

)−1X′y

E importante notare che:

y −Xb = y −X(X′X

)−1X′y =(In−M)y

dove M = X(X′X

)−1 X′ e una matrice n×n idempotente (M = MM). Quin-

di anche (In−M) e idempotente.

Ne consegue

SSE = Q(b) = (y −Xb)′ (y −Xb) =

= y′ (IT−M)y = y′y − y′My =

= y′y − y′X(X′X

)−1X′y = y′y − y′Xb

10

Page 11: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Ovvero piu semplicemente (ma non per i calcoli)

SSE = Q(b) =∑i

(yi − x′ib)2 =

∑i

y2i −

∑i

yix′ib

Verosimiglianza concentrata

Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza

concentrata:

L(σ2) = −n

2ln(2πσ2)−

1

2σ2Q(b)

che ha un massimo in σ2 = Q(b)n .

CONCLUDENDO: gli stimatori M.V. sono

σ2 =Q(b)

n

b=(X′X

)−1X′y

11

Page 12: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Esempio: Nel caso dell’esempio presentato le stime dei parametri delmodello con le quattro variabili sono contenute nella seguente tabella.

Estimate Std. Error t value Pr(>|t|)(Intercept) 2245.0933 177.8922 12.62 0.0000

Plastics 28.9224 2.8235 10.24 0.0000Paper 7.6429 2.3137 3.30 0.0029

Garbage 4.2969 1.9161 2.24 0.0340Water −37.3559 1.8342 −20.37 0.0000

La matrice di varianza e covarianza dei parametri e Σ(θ) = (X ′X)−1σ2.La stima di tale matrice la si ottiene stimando σ2 con s2 = SSE

n−p , dove

SSE =∑

(yi − yi)2.

ˆΣ(θ) = (X ′X)−1s2 =

c00 c01 . . . c0kc10 c11 . . . c1k... . . . . . . ...

ck0 ck1 . . . ckk

I termini sulla diagonale principale della matrice (X ′X)−1s2 sono la stimadi V ar(θ). Std.Error e la radice quadrata di questi termini.

12

Page 13: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Verifica di ipotesi per la significativita dei singoli parametri

Sotto le ipotesi che εi ∼ N(0, σ2) i.i.d. si deduce che lo stimatore dei

parametri θ e uno stimatore non distorto, cioe E(θ) = θ, la matrice di

varianza e covarianza e data da Σ(θ) la cui stima e data da Σ(θ), e inoltre

ogni stimatore βi e gaussiano.

Se si vuole quindi verificare l’ipotesi

H0 : βi = 0

contro l’alternativa

H1 : βi 6= 0

da questi fatti si deduce che la statistica ti = βi√cii

, sotto l’ipotesi nulla

βi = 0, e una t-Student con n− p g.d.l dove cii e l’elemento sulla diagonale

della matrice (X ′X)−1s2. Quindi, fissato un livello di fiducia α, si rifiuta

l’ipotesi H0 se |ti| > t1−α2 ,n−p.

13

Page 14: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Il p-value, questo sconosciuto

Quasi tutti i software statistici non ci dicono se accettare o rifiutare l’ipotesinulla, ma ci danno il p-value!

Cerchiamo di capire cosa e. Indichiamo solo per il momento con Ti lastatistica e con ti il valore calcolato sui dati. Allora

p-value = P (|Ti| > |ti|)

Quindi il p-value non e altro che la probabilita con cui la statistica (Ti)puo assumere valori piu elevati di quello osservato (ti).La regola di rifiutodell’ipotesi H0 e:

Rifiuto H0 se |ti| > t1−α2 ,n−p.

Il valore di t1−α2 ,n−p e ricavato da

P (|Ti| > t1−α2 ,n−p) = α

Si deduce che per α fissato noi rifiutiamo l’ipotesi nulla se il p-value eminore di α

14

Page 15: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Dalla tabella possiamo effettuare la verifica di ipotesi per la significativita di

ogni parametro singolarmente. I valori della statistica ti sono riportati nella

penultima colonna della tabella. Mentre i valori del p-value sono riportati

nell’ultima colonna.

Estimate Std. Error t value Pr(>|t|)(Intercept) 2245.0933 177.8922 12.62 0.0000

Plastics 28.9224 2.8235 10.24 0.0000Paper 7.6429 2.3137 3.30 0.0029

Garbage 4.2969 1.9161 2.24 0.0340Water −37.3559 1.8342 −20.37 0.0000

Supponiamo di avere fissato il l.d.s. α = 0.05. Tutti i parametri sono

significativamente diversi da zero.

Se invece α = 0.01, β1, β2 e β4 sono significativamente diversi da zero

mentre β3 non lo e. Per α = 0.001 solo β1 e β4 sono diversi da zero.

15

Page 16: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

test F per la significativita del modello

Per verificare la significativita dell’intero modello si utilizza il test F . Sivuole verificare l’ipotesi H0 : β1 = 0, . . . , βk = 0 contro l’alternativa chealmeno uno dei parametri sia diverso da zero. La devianza totale ammettesempre la scomposizione SST = SSE + SSR e sotto l’ipotesi che gli errorisiano N(0, σ2) vale che

SST =∑

(Yi − Y )2 ∼ σ2χ2n−1

SSE =∑

(Yi − Yi)2 ∼ σ2χ2

n−p

SSR =∑

(Yi − Yi)2 ∼ σ2χ2

p−1

La statistica

F =

∑(Yi − Y )2/(p − 1)∑(Yi − Yi)2/(n − p)

=SSR/(p − 1)

SSE/(n − p)

se e vera H0, si distribuisce come una F di Snedecor con p−1 e n− p g.d.l,e puo essere utilizzata per verificare la significativita del modello. Infattisi decide di rifiutare l’ipotesi nulla se F > c e per determinare c, fissato α

si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova ilvalore cα tale per cui P (F > cα) = α.

16

Page 17: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Df Sum Sq Df SSR F Pr(>F)Totale 29 689709.87Residui 25 24775.33 4 664934.53 167.74 0.0000

Il valore della statistica F4,25 e

F =SSR/(p − 1)

SSE/(n − p)=

664934.53/4

24775.33/25= 167.7

Il p-value < 2.2e-16. Quindi il modello e significativo.

L’indice di determinazione multiplo e dato da r2 = 1 − SSESST . Nel caso del

modello stimato vale r2 = 0.96.

Interessa poi sapere come l’aggiunta di piu variabili nel modello riesca aspiegare la variabilita totale della variabile da spiegare. Si calcola allora laSSR(1) per il modello con una sola variabile, la SSR(2) del modello condue variabili e cosı via. Allora la differenza SSR(2)−SSR(1) ha il significatodi quanta variabilita il secondo modello riesce a spiegare in piu rispetto alprimo. In generale

SSR(j)− SSR(j − 1)

SSE/(n − p)∼ F1,n−p, j = 2, . . . , p − 1

17

Page 18: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Tavola dell’ Analisi della Varianza (ANOVA)

Df Sum Sq Mean Sq F value Pr(>F)Plastics 1 239734.97 239734.97 241.91 0.0000Paper 1 11239.07 11239.07 11.34 0.0025Garbage 1 2887.82 2887.82 2.91 0.1002Water 1 411072.67 411072.67 414.80 0.0000Residuals 25 24775.33 991.01

Nella prima riga abbiamo la SSR per il modello con solo la prima variabile.Nella seconda abbiamo la differenza tra la SSR del modello con due variabilie il modello con una sola. La statistica F serve per verificare l’attendibilitadell’aggiunta di questa variabile al modello. Chiaramente ha importanzal’ordine con cui le variabili entrano nel modello.

Df Sum Sq Mean Sq F value Pr(>F)Water 1 560181.11 560181.11 565.26 0.0000Plastics 1 93926.58 93926.58 94.78 0.0000Paper 1 5843.14 5843.14 5.90 0.0227Garbage 1 4983.71 4983.71 5.03 0.0340Residuals 25 24775.33 991.01

18

Page 19: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

In questa tabella sono riportate le stime cambiando l’ordine delle variabili.

Estimate Std. Error t value Pr(>|t|)(Intercept) 2245.0933 177.8922 12.62 0.0000

Water −37.3559 1.8342 −20.37 0.0000Plastics 28.9224 2.8235 10.24 0.0000

Paper 7.6429 2.3137 3.30 0.0029Garbage 4.2969 1.9161 2.24 0.0340

Come indice di adattabilita si utilizza il coefficiente di correlazione multipla

r2 = 1−SSE

SST

Per bilanciare i costi dovuti all’utilizzo di tanti parametri rispetto ai gua-dagni in r2 si puo usare il coefficiente di correlazione multiplo corretto

r2 corretto = 1−(n − 1)

(n − p)

SSE

SST=

(n − 1)r2 − k

n − p

In questo esempio abbiamo

r2 = 0.9641, r2 corretto = 0.9583

19

Page 20: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Test F per il modello ridotto

Supponiamo di avere il modello completo

Y = β0 + β1x1 + β2x2 + . . . + βkxk + ε

Vogliamo verificare l’ipotesi

H0 : β1 = β2 = . . . = βq = 0, q < k

Se fosse vera l’ipotesi H0 il modello sarebbe

Y = β0 + βq+11xq+1 + βq+21xq+2 + . . . + βkxk + ε

Denotiamo con SSRr e SSEr le somme dei quadrati spiegati e residui del

modello ridotto. La statistica

(SSR − SSRr)/q

SSE/(n − p)=

(SSEr − SSE)/q

SSE/(n − p)

sotto l’ipotesi nulla si distribuisce come una F con q e n−p gradi di liberta.

20

Page 21: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Con i dati dell’esempio andiamo a considerare il modello ridotto solo con

le variabili Water e Plastics. L’ipotesi H0 pone i coefficienti delle variabili

Garbage e Paper uguali a zero (q = 2). I risultati della stima e dell’analisi

della varianza sono riassunti da queste tabelle.

Estimate Std. Error t value Pr(>|t|)(Intercept) 2647.1663 137.0094 19.32 0.0000

Water −37.4528 2.1127 −17.73 0.0000Plastics 26.4516 3.1341 8.44 0.0000

Df Sum Sq Mean Sq F value Pr(>F)Water 1 560181.11 560181.11 424.83 0.0000Plastics 1 93926.58 93926.58 71.23 0.0000Residuals 27 35602.18 1318.60

Da queste tabelle e da quelle del modello completo deduciamo:

SSEr = 35602.18, SSE = 24775.33

21

Page 22: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

La tabella dell’analisi della varianza per il modello ridotto e il modello

completo e

Df SSE Df Sum of Sq F Pr(>F)Ridotto 27 35602.18Completo 25 24775.33 2 10826.85 5.46 0.0108

La terza colonna contiene gli SSE del modello ridotto (con 27 g.d.l.) e

del modello completo (con 25 g.d.l.). La colonna Sum of Sq contiene la

differenza SSEr−SSE e la colonna Df i suoi gradi di libert`a. La statistica

F e data da

F =(SSEr − SSE)/q

SSE/(n − p)=

10826.85/2

24775.33/25= 5.46

Si tratta di una statistica F di Snedecor con 2 e 25 gradi di liberta. Il

p-value e pari a 0.0108. Quindi rifiutiamo l’ipotesi nulla con un livello di

significativita α = 0.05, le variabili Garbage e Paper non possono essere

omesse. A livello di significativita α = 0.01 la conclusione sarebbe di

accettare H0: le variabili Garbage e Paper possono essere omesse.

22

Page 23: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Esempio

L’articolo “Measurements of the Thermal Conductivity and Thermal Dif-

fusivity of Polymer Melts with the Short-Hot-Wire Method” (X. Zhang, W.

Hendro, et al., International Journal of Thermophysics, 2002:1077–1090)

riporta le misure della conducibilita termica (in W · m−1 · K−1) e della

diffusivita di alcuni polimeri a diverse temperature (in 1000◦C). La tabella

seguente presenta i risultati per la conducibilita termica del policarbonato.

Cond. Temp. Cond. Temp. Cond. Temp. Cond. Temp.0.236 0.028 0.259 0.107 0.254 0.159 0.249 0.2150.241 0.038 0.257 0.119 0.256 0.169 0.230 0.2250.244 0.061 0.257 0.130 0.251 0.181 0.230 0.2370.251 0.083 0.261 0.146 0.249 0.204 0.228 0.248

Denotata la conducibilita con y e la temperatura con x, troviamo il modello

che si adatta meglio a questi dati.

23

Page 24: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

1. Stimare i parametri del modello lineare y = β0 + β1x + ε. Per ogniparametro verificare l’ipotesi che il suo valore sia uguale a 0.

2. Stimare i parametri del modello quadratico y = β0 + β1x + β2x2 + ε.Per ogni parametro verificare l’ipotesi che sia uguale a 0.

3. Stimare i parametri del modello cubico y = β0 + β1x + β2x2 + β3x3 + ε.Per ogni parametro verificare l’ipotesi che sia uguale a 0.

4. Stimare i parametri del modello alla quarta potenza y = β0 + β1x +β2x2 + β3x3 + β4x4 + ε. Per ogni parametro verificare l’ipotesi che siauguale a 0.

5. Quale dei modelli nelle parti dalla (a) alla (d) e il piu appropriato?

6. Utilizzare il modello piu appropriato per stimare la conducibilita ad unatemperatura di 120◦C.

24

Page 25: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

● ●

● ●

● ●

0.05 0.10 0.15 0.20 0.25

0.23

00.

235

0.24

00.

245

0.25

00.

255

0.26

0

Temperature

Con

duct

ivity

25

Page 26: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

I risultati per la stima del modello lineare sono riportati nella seguente

tabella.

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2532 0.0065 38.82 0.0000

Temperature −0.0416 0.0403 −1.03 0.3197

La variabile Temperatura non e significativamente diversa da 0. Il valore

di r2 = 0.071 denota una bonta di adattamento praticamente nulla. La

variabili non sono legate da una relazione lineare.

26

Page 27: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

I risultati per la stima del modello quadratico sono riportati nella seguente

tabella.

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2200 0.0038 57.23 0.0000

Temperature 0.5893 0.0615 9.59 0.0000Temperature2 −2.2679 0.2155 −10.52 0.0000

I parametri di x e di x2 sono significativamente diversi da 0. r2 = 0.9024

mentre r2 corretto vale 0.8874. Il modello sembra adattarsi molto bene ai

dati.

Verifichiamo che l’introduzione del termine quadratico e significativa:

Df SSE Df Sum of Sq F Pr(>F)Lineare 14 0.00169Quadratico 13 0.00018 1 0.00151 110.75 0.0000

27

Page 28: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Passiamo al modello cubico. I risultati per la stima sono riportati nella

seguente tabella.

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2251 0.0069 32.65 0.0000

Temperature 0.4110 0.2058 2.00 0.0689Temperature2 −0.7465 1.6887 −0.44 0.6663Temperature3 −3.6728 4.0430 −0.91 0.3815

E plausibile che i coefficienti di x, x2 e x3 siano 0. r2 = 0.9087 mentre r2

corretto vale 0.8858. Il modello sembra lo stesso adattarsi molto bene ai

dati.

Df SSE Df Sum of Sq F Pr(>F)Quadratico 13 1.7719e-04Cubico 12 1.6579e-04 1 1.1401e-05 0.8252 0.3815

La variabile x3 puo essere omessa.

28

Page 29: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

Passiamo al modello con la potenza quarta. I risultati per la stima sono

riportati nella seguente tabella.

Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2315 0.0135 17.15 0.0000

Temperature 0.1091 0.5834 0.19 0.8551Temperature2 3.4544 7.7602 0.45 0.6648Temperature3 −26.0224 40.4496 −0.64 0.5332Temperature4 40.1571 72.2925 0.56 0.5897

E plausibile che i coefficienti di x, x2, x3 e x4 siano 0, ma la statisitca

F = 28.2 segnala che almeno una delle variabili del modello ha un qualche

legame con la variabile y. r2 = 0.9111 mentre r2 corretto vale 0.8788.

Il modello sembra lo stesso adattarsi molto bene ai dati. Il valore di r2

corretto e diminuito: non serve aggiungere questa variabile.

29

Page 30: Regressione multipla - UniBGStatistica Industriale Lez. 7 Regressione multipla L’obiettivo `e costruire un modello probabilistico per spiegare la variabile y tramite pi`u di una

Statistica Industriale Lez. 7

La seguente tavola della varianza conferma che l’aggiunta del termine cu-

bico e alla potenza quarta non apporta significativi miglioramenti nella

spiegazione della variabilita di y.

Df Sum Sq Mean Sq F value Pr(>F)Temperature 1 0.00013 0.00013 8.74823 0.01303Temperature2 1 0.00151 0.00151 102.96538 0.00000Temperature3 1 0.00001 0.00001 0.77769 0.39671Temperature4 1 0.00000 0.00000 0.30856 0.58968Residui 11 0.00016 0.00001

La stima per la conducibilita per un polimero con temperatura x = 120

e 0.2580149. L’intervallo di confidenza a livello di fiducia del 95% e

(0.2550702,0.2609596).

30