Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
Statistica Industriale Lez. 7
Regressione multipla
L’obiettivo e costruire un modello probabilistico per spiegare la variabile y
tramite piu di una variabile indipendente x1, x2, . . . , xk.
Esempio: Per un efficiente progettazione degli inceneritori di rifiuti mu-nicipali e necessario che l’informazione relativa al contenuto di energia deirifiuti sia disponibile. Abbiamo a disposizione 30 campioni di rifiuti di unacerta regione per i quali abbiamo i valori delle variabili y contenuto di ener-gia (Kcal/kg), x1 % di plastica sul peso, x2 % di carta sul peso, x3 %di altri rifiuti organici sul peso, x4 % di umidita sul totale del campioneesaminato.
Il modello proposto potrebbe essere
Y = β0 + β1x1 + β2x2 + β3x3 + β4x4 + ε, (1)
Occorre capire quali variabili servono a spiegare la variabile di interesse(selezione delle variabili) e in che misura vi contribuisce.
1
Statistica Industriale Lez. 7
Plastics
15 20 25 30
●●●
●
●
●
●
●
●●
●
●● ●
●●
●
●
●
●●●
●
●
●
●
●●
● ●
●● ●
●
●
●
●
●
●●
●
●● ●
●●
●
●
●
●● ●
●
●
●
●
●●
●●
44 48 52 56
●●●
●
●
●
●
●
●●
●
●● ●
●●
●
●
●
●●●
●
●
●
●
●●
●●
1418
22
●●●
●
●
●
●
●
●●
●
●●●
●●
●
●
●
●●●
●
●
●
●
●●
●●
1520
2530
●
●●
●● ●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
● Paper
●
●●
●●●
●
●
●
●
●
●
●
●●●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●● ●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●●
●
●
● ●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●●
●●
●
●
●●●
●●
●
●●
●
Garbage●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●●
●
●
●●●
●●
●
●●
●
3545●
●
●
●
●
●
●
●
●●
●
●
●
●● ●●
●●
●
●
● ●●
●●
●
●●
●
4448
5256
●
●● ●
●●
●
●
●
●
●●
●
●●
●
●
●
●●
●● ●
●
●
●
●●
●●
●
●●●
●●
●
●
●
●
●●
●
●●
●
●
●
● ●
●●●
●
●
●
●●
● ●
●
● ●●
●●
●
●
●
●
●●
●
●●
●
●
●
● ●
● ●●
●
●
●
●●
●●
Water
●
●●●
●●
●
●
●
●
●●
●
●●
●
●
●
●●
●● ●
●
●
●
●●
●●
14 18 22
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
● ● ●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
●● ●
●
●
● ●
35 45
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●● ●
●
● ●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●●●
●
● ● ●
●
●
●●
1000 1400
1000
1400
Energy.content
2
Statistica Industriale Lez. 7
Analisi della correlazione tra le variabili
Calcoliamo la matrice di correlazione tra le variabili in gioco. Per i dati
dell’esempio abbiamo:
Plastics Paper Garbage Water Energy.contentPlastics 1.00 −0.15 −0.09 −0.26 0.59
Paper −0.15 1.00 −0.63 −0.01 0.04Garbage −0.09 −0.63 1.00 0.07 −0.09
Water −0.26 −0.01 0.07 1.00 −0.90Energy.content 0.59 0.04 −0.09 −0.90 1.00
Come regola generale e bene che entrino nel modello le variabili mag-
giormente correlate con la variabile da spiegare e le meno incorrelate tra
loro.
In questo caso potremmo considerare un modello in cui entrino solo le
variabili Water e Plastics
3
Statistica Industriale Lez. 7
Scatter Plot Matrix
Plastics
1414
1616
18
18
20
20
22
2224 24
●●●
●
●
●
●
●
●
●
●
●● ●
●●
●
●
●
●●●
●
●
●
●
●●
● ●
●● ●
●
●
●
●
●
●
●
●
●● ●
●●
●
●
●
●● ●
●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●● ●
●●
●
●
●
●●●
●
●
●
●
●●
●●
●●●
●
●
●
●
●
●
●
●
●●●
●●
●
●
●
●●●
●
●
●
●
●●
●●
●
●●
●● ●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●Paper
1515
20
20
25
2530
30
●
●●
●●●
●
●
●
●
●
●
●
●●●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●●
●● ●
●
●
●
●
●
●
●
●●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●●
●
●
● ●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●●●
●●
●
●
●●●
●
●
●
●●
●
Garbage
3535
40
40
45
4550 50
●
●
●
●
●
●
●
●
●●
●
●
●
●●● ●
●●
●
●
●●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●● ●●
●●
●
●
● ●●
●
●
●
●●
●
●
●● ●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●● ●
●
●
●
●●
●●
●
●●●
●●
●
●
●
●
●
●
●
●●
●
●
●
● ●
●●●
●
●
●
●●
● ●
●
● ●●
●●
●
●
●
●
●
●
●
●●
●
●
●
● ●
● ●●
●
●
●
●●
●●
Water
4545
50
50
50
5055
55●
●●●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●● ●
●
●
●
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ● ●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
●● ●
●
●
● ●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
● ●
●
● ●●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●
● ● ●
●
●
●●
Energy.content
10001000
1200
1200
1400
14001600 1600
4
Statistica Industriale Lez. 7
Consideriamo il modello generale
Y = β0 + β1x1 + . . . + βkxk + ε, (2)
Posto θ = (β0, β1, . . . , βk)′ se abbiamo n osservazioni possiamo riscrivere le
n equazioni (2) in forma matriciale
Y = Xθ + ε
dove Y = (Y1, . . . , Yn)′, X =
1 x11 . . . x1k1 x21 . . . x2k... . . . . . . ...1 xn1 . . . xnk
, ε = (ε1, . . . , εn)′. La stima
ottenuta coi minimi quadrati (OLS=Ordinary Least Squares) e data da
θ = (X′X)−1X′Y
dove Y = (y1, . . . , yn)′. In seguito p = k + 1 e il numero dei parametri.
La stima OLS si ottiene se solo se XX′ e invertibile, cioe se e solo se la
matrice X ha rango massimo p.
5
Statistica Industriale Lez. 7
Le osservazioni y = (y1, . . . , yn)′ provengono dal modello
Yi = x′iβ + εi
• Yi variabile casuale dipendente
• x′i = [1, xi1, xi2, ..., xik] vettore dei regressori (deterministici o stocastici)
• β′ =[β0, β1,β2, ..., βk
]vettore dei parametri
• εi : componente stocastica di valore atteso nullo
FUNZIONE DI REGRESSIONE
E(Yi|xi) = x′iβ
6
Statistica Industriale Lez. 7
Y = Xβ + ε
• X =
x′1
x′2
x′n
matrice n × p dei regressori
• Y =
Y1Y2
Yn
vettore delle variabili risposta
• ε =
ε1ε2..εn
vettore delle componenti stocastiche
7
Statistica Industriale Lez. 7
ASSUNZIONI DEL MODELLO DI REGRESSIONE LINEARE
CLASSICO
• A0: la funzione di regressione E(Y|X) = Xβ e correttamente specificata
• A1: ε e un vettore di n variabili casuali indipendenti
• A2: le componenti di ε sono variabili casuali di valore atteso nullo e
varianza σ2 (omoschedastiche)
• A3: le componenti di ε sono variabili casuali normali
• A4: X e una matrice di costanti note (regressori non stocastici)
• A5: le colonne di X sono linearmente indipendenti =: X′X e invertibile
8
Statistica Industriale Lez. 7
STIMA di β, σ2
Da Yi = x′iβ + εi e per le A1, A2, A3, A4 si ha che le Yi sono variabili
casuali indipendenti normali con valore atteso µi = x′iβ e varianza σ2.
La verosimiglianza e:
L(β, σ2) =n∏
i=1
1√2πσ2
exp{−
1
2σ2(yi − x
′iβ)2
}e la log verosimiglianza:
L(β, σ2) = −n
2ln(2πσ2)−
1
2σ2
∑i
(yi − x′iβ)2 =
= −n
2ln(2πσ2)−
1
2σ2 (y −Xβ)′ (y −Xβ)
se σ2 e noto massimizzare la log verosimiglianza equivale a minimizzare(CRITERIO DEI MINIMI QUADRATI):
Q(β) = (y −Xβ)′ (y −Xβ)
9
Statistica Industriale Lez. 7
RISULTATO FONDAMENTALE
Q(β) = (y −Xβ)′ (y −Xβ) ha un unico minimo in
b =(X′X
)−1X′y
E importante notare che:
y −Xb = y −X(X′X
)−1X′y =(In−M)y
dove M = X(X′X
)−1 X′ e una matrice n×n idempotente (M = MM). Quin-
di anche (In−M) e idempotente.
Ne consegue
SSE = Q(b) = (y −Xb)′ (y −Xb) =
= y′ (IT−M)y = y′y − y′My =
= y′y − y′X(X′X
)−1X′y = y′y − y′Xb
10
Statistica Industriale Lez. 7
Ovvero piu semplicemente (ma non per i calcoli)
SSE = Q(b) =∑i
(yi − x′ib)2 =
∑i
y2i −
∑i
yix′ib
Verosimiglianza concentrata
Sostituendo b a β nella log verosimiglianza si ottiene la log verosimiglianza
concentrata:
L(σ2) = −n
2ln(2πσ2)−
1
2σ2Q(b)
che ha un massimo in σ2 = Q(b)n .
CONCLUDENDO: gli stimatori M.V. sono
σ2 =Q(b)
n
b=(X′X
)−1X′y
11
Statistica Industriale Lez. 7
Esempio: Nel caso dell’esempio presentato le stime dei parametri delmodello con le quattro variabili sono contenute nella seguente tabella.
Estimate Std. Error t value Pr(>|t|)(Intercept) 2245.0933 177.8922 12.62 0.0000
Plastics 28.9224 2.8235 10.24 0.0000Paper 7.6429 2.3137 3.30 0.0029
Garbage 4.2969 1.9161 2.24 0.0340Water −37.3559 1.8342 −20.37 0.0000
La matrice di varianza e covarianza dei parametri e Σ(θ) = (X ′X)−1σ2.La stima di tale matrice la si ottiene stimando σ2 con s2 = SSE
n−p , dove
SSE =∑
(yi − yi)2.
ˆΣ(θ) = (X ′X)−1s2 =
c00 c01 . . . c0kc10 c11 . . . c1k... . . . . . . ...
ck0 ck1 . . . ckk
I termini sulla diagonale principale della matrice (X ′X)−1s2 sono la stimadi V ar(θ). Std.Error e la radice quadrata di questi termini.
12
Statistica Industriale Lez. 7
Verifica di ipotesi per la significativita dei singoli parametri
Sotto le ipotesi che εi ∼ N(0, σ2) i.i.d. si deduce che lo stimatore dei
parametri θ e uno stimatore non distorto, cioe E(θ) = θ, la matrice di
varianza e covarianza e data da Σ(θ) la cui stima e data da Σ(θ), e inoltre
ogni stimatore βi e gaussiano.
Se si vuole quindi verificare l’ipotesi
H0 : βi = 0
contro l’alternativa
H1 : βi 6= 0
da questi fatti si deduce che la statistica ti = βi√cii
, sotto l’ipotesi nulla
βi = 0, e una t-Student con n− p g.d.l dove cii e l’elemento sulla diagonale
della matrice (X ′X)−1s2. Quindi, fissato un livello di fiducia α, si rifiuta
l’ipotesi H0 se |ti| > t1−α2 ,n−p.
13
Statistica Industriale Lez. 7
Il p-value, questo sconosciuto
Quasi tutti i software statistici non ci dicono se accettare o rifiutare l’ipotesinulla, ma ci danno il p-value!
Cerchiamo di capire cosa e. Indichiamo solo per il momento con Ti lastatistica e con ti il valore calcolato sui dati. Allora
p-value = P (|Ti| > |ti|)
Quindi il p-value non e altro che la probabilita con cui la statistica (Ti)puo assumere valori piu elevati di quello osservato (ti).La regola di rifiutodell’ipotesi H0 e:
Rifiuto H0 se |ti| > t1−α2 ,n−p.
Il valore di t1−α2 ,n−p e ricavato da
P (|Ti| > t1−α2 ,n−p) = α
Si deduce che per α fissato noi rifiutiamo l’ipotesi nulla se il p-value eminore di α
14
Statistica Industriale Lez. 7
Dalla tabella possiamo effettuare la verifica di ipotesi per la significativita di
ogni parametro singolarmente. I valori della statistica ti sono riportati nella
penultima colonna della tabella. Mentre i valori del p-value sono riportati
nell’ultima colonna.
Estimate Std. Error t value Pr(>|t|)(Intercept) 2245.0933 177.8922 12.62 0.0000
Plastics 28.9224 2.8235 10.24 0.0000Paper 7.6429 2.3137 3.30 0.0029
Garbage 4.2969 1.9161 2.24 0.0340Water −37.3559 1.8342 −20.37 0.0000
Supponiamo di avere fissato il l.d.s. α = 0.05. Tutti i parametri sono
significativamente diversi da zero.
Se invece α = 0.01, β1, β2 e β4 sono significativamente diversi da zero
mentre β3 non lo e. Per α = 0.001 solo β1 e β4 sono diversi da zero.
15
Statistica Industriale Lez. 7
test F per la significativita del modello
Per verificare la significativita dell’intero modello si utilizza il test F . Sivuole verificare l’ipotesi H0 : β1 = 0, . . . , βk = 0 contro l’alternativa chealmeno uno dei parametri sia diverso da zero. La devianza totale ammettesempre la scomposizione SST = SSE + SSR e sotto l’ipotesi che gli errorisiano N(0, σ2) vale che
SST =∑
(Yi − Y )2 ∼ σ2χ2n−1
SSE =∑
(Yi − Yi)2 ∼ σ2χ2
n−p
SSR =∑
(Yi − Yi)2 ∼ σ2χ2
p−1
La statistica
F =
∑(Yi − Y )2/(p − 1)∑(Yi − Yi)2/(n − p)
=SSR/(p − 1)
SSE/(n − p)
se e vera H0, si distribuisce come una F di Snedecor con p−1 e n− p g.d.l,e puo essere utilizzata per verificare la significativita del modello. Infattisi decide di rifiutare l’ipotesi nulla se F > c e per determinare c, fissato α
si pone P (F > c) = α. Quindi dalle tavole della distribuzione F si trova ilvalore cα tale per cui P (F > cα) = α.
16
Statistica Industriale Lez. 7
Df Sum Sq Df SSR F Pr(>F)Totale 29 689709.87Residui 25 24775.33 4 664934.53 167.74 0.0000
Il valore della statistica F4,25 e
F =SSR/(p − 1)
SSE/(n − p)=
664934.53/4
24775.33/25= 167.7
Il p-value < 2.2e-16. Quindi il modello e significativo.
L’indice di determinazione multiplo e dato da r2 = 1 − SSESST . Nel caso del
modello stimato vale r2 = 0.96.
Interessa poi sapere come l’aggiunta di piu variabili nel modello riesca aspiegare la variabilita totale della variabile da spiegare. Si calcola allora laSSR(1) per il modello con una sola variabile, la SSR(2) del modello condue variabili e cosı via. Allora la differenza SSR(2)−SSR(1) ha il significatodi quanta variabilita il secondo modello riesce a spiegare in piu rispetto alprimo. In generale
SSR(j)− SSR(j − 1)
SSE/(n − p)∼ F1,n−p, j = 2, . . . , p − 1
17
Statistica Industriale Lez. 7
Tavola dell’ Analisi della Varianza (ANOVA)
Df Sum Sq Mean Sq F value Pr(>F)Plastics 1 239734.97 239734.97 241.91 0.0000Paper 1 11239.07 11239.07 11.34 0.0025Garbage 1 2887.82 2887.82 2.91 0.1002Water 1 411072.67 411072.67 414.80 0.0000Residuals 25 24775.33 991.01
Nella prima riga abbiamo la SSR per il modello con solo la prima variabile.Nella seconda abbiamo la differenza tra la SSR del modello con due variabilie il modello con una sola. La statistica F serve per verificare l’attendibilitadell’aggiunta di questa variabile al modello. Chiaramente ha importanzal’ordine con cui le variabili entrano nel modello.
Df Sum Sq Mean Sq F value Pr(>F)Water 1 560181.11 560181.11 565.26 0.0000Plastics 1 93926.58 93926.58 94.78 0.0000Paper 1 5843.14 5843.14 5.90 0.0227Garbage 1 4983.71 4983.71 5.03 0.0340Residuals 25 24775.33 991.01
18
Statistica Industriale Lez. 7
In questa tabella sono riportate le stime cambiando l’ordine delle variabili.
Estimate Std. Error t value Pr(>|t|)(Intercept) 2245.0933 177.8922 12.62 0.0000
Water −37.3559 1.8342 −20.37 0.0000Plastics 28.9224 2.8235 10.24 0.0000
Paper 7.6429 2.3137 3.30 0.0029Garbage 4.2969 1.9161 2.24 0.0340
Come indice di adattabilita si utilizza il coefficiente di correlazione multipla
r2 = 1−SSE
SST
Per bilanciare i costi dovuti all’utilizzo di tanti parametri rispetto ai gua-dagni in r2 si puo usare il coefficiente di correlazione multiplo corretto
r2 corretto = 1−(n − 1)
(n − p)
SSE
SST=
(n − 1)r2 − k
n − p
In questo esempio abbiamo
r2 = 0.9641, r2 corretto = 0.9583
19
Statistica Industriale Lez. 7
Test F per il modello ridotto
Supponiamo di avere il modello completo
Y = β0 + β1x1 + β2x2 + . . . + βkxk + ε
Vogliamo verificare l’ipotesi
H0 : β1 = β2 = . . . = βq = 0, q < k
Se fosse vera l’ipotesi H0 il modello sarebbe
Y = β0 + βq+11xq+1 + βq+21xq+2 + . . . + βkxk + ε
Denotiamo con SSRr e SSEr le somme dei quadrati spiegati e residui del
modello ridotto. La statistica
(SSR − SSRr)/q
SSE/(n − p)=
(SSEr − SSE)/q
SSE/(n − p)
sotto l’ipotesi nulla si distribuisce come una F con q e n−p gradi di liberta.
20
Statistica Industriale Lez. 7
Con i dati dell’esempio andiamo a considerare il modello ridotto solo con
le variabili Water e Plastics. L’ipotesi H0 pone i coefficienti delle variabili
Garbage e Paper uguali a zero (q = 2). I risultati della stima e dell’analisi
della varianza sono riassunti da queste tabelle.
Estimate Std. Error t value Pr(>|t|)(Intercept) 2647.1663 137.0094 19.32 0.0000
Water −37.4528 2.1127 −17.73 0.0000Plastics 26.4516 3.1341 8.44 0.0000
Df Sum Sq Mean Sq F value Pr(>F)Water 1 560181.11 560181.11 424.83 0.0000Plastics 1 93926.58 93926.58 71.23 0.0000Residuals 27 35602.18 1318.60
Da queste tabelle e da quelle del modello completo deduciamo:
SSEr = 35602.18, SSE = 24775.33
21
Statistica Industriale Lez. 7
La tabella dell’analisi della varianza per il modello ridotto e il modello
completo e
Df SSE Df Sum of Sq F Pr(>F)Ridotto 27 35602.18Completo 25 24775.33 2 10826.85 5.46 0.0108
La terza colonna contiene gli SSE del modello ridotto (con 27 g.d.l.) e
del modello completo (con 25 g.d.l.). La colonna Sum of Sq contiene la
differenza SSEr−SSE e la colonna Df i suoi gradi di libert`a. La statistica
F e data da
F =(SSEr − SSE)/q
SSE/(n − p)=
10826.85/2
24775.33/25= 5.46
Si tratta di una statistica F di Snedecor con 2 e 25 gradi di liberta. Il
p-value e pari a 0.0108. Quindi rifiutiamo l’ipotesi nulla con un livello di
significativita α = 0.05, le variabili Garbage e Paper non possono essere
omesse. A livello di significativita α = 0.01 la conclusione sarebbe di
accettare H0: le variabili Garbage e Paper possono essere omesse.
22
Esempio
L’articolo “Measurements of the Thermal Conductivity and Thermal Dif-
fusivity of Polymer Melts with the Short-Hot-Wire Method” (X. Zhang, W.
Hendro, et al., International Journal of Thermophysics, 2002:1077–1090)
riporta le misure della conducibilita termica (in W · m−1 · K−1) e della
diffusivita di alcuni polimeri a diverse temperature (in 1000◦C). La tabella
seguente presenta i risultati per la conducibilita termica del policarbonato.
Cond. Temp. Cond. Temp. Cond. Temp. Cond. Temp.0.236 0.028 0.259 0.107 0.254 0.159 0.249 0.2150.241 0.038 0.257 0.119 0.256 0.169 0.230 0.2250.244 0.061 0.257 0.130 0.251 0.181 0.230 0.2370.251 0.083 0.261 0.146 0.249 0.204 0.228 0.248
Denotata la conducibilita con y e la temperatura con x, troviamo il modello
che si adatta meglio a questi dati.
23
1. Stimare i parametri del modello lineare y = β0 + β1x + ε. Per ogniparametro verificare l’ipotesi che il suo valore sia uguale a 0.
2. Stimare i parametri del modello quadratico y = β0 + β1x + β2x2 + ε.Per ogni parametro verificare l’ipotesi che sia uguale a 0.
3. Stimare i parametri del modello cubico y = β0 + β1x + β2x2 + β3x3 + ε.Per ogni parametro verificare l’ipotesi che sia uguale a 0.
4. Stimare i parametri del modello alla quarta potenza y = β0 + β1x +β2x2 + β3x3 + β4x4 + ε. Per ogni parametro verificare l’ipotesi che siauguale a 0.
5. Quale dei modelli nelle parti dalla (a) alla (d) e il piu appropriato?
6. Utilizzare il modello piu appropriato per stimare la conducibilita ad unatemperatura di 120◦C.
24
Statistica Industriale Lez. 7
●
●
●
●
●
● ●
●
●
●
●
● ●
● ●
●
0.05 0.10 0.15 0.20 0.25
0.23
00.
235
0.24
00.
245
0.25
00.
255
0.26
0
Temperature
Con
duct
ivity
25
Statistica Industriale Lez. 7
I risultati per la stima del modello lineare sono riportati nella seguente
tabella.
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2532 0.0065 38.82 0.0000
Temperature −0.0416 0.0403 −1.03 0.3197
La variabile Temperatura non e significativamente diversa da 0. Il valore
di r2 = 0.071 denota una bonta di adattamento praticamente nulla. La
variabili non sono legate da una relazione lineare.
26
Statistica Industriale Lez. 7
I risultati per la stima del modello quadratico sono riportati nella seguente
tabella.
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2200 0.0038 57.23 0.0000
Temperature 0.5893 0.0615 9.59 0.0000Temperature2 −2.2679 0.2155 −10.52 0.0000
I parametri di x e di x2 sono significativamente diversi da 0. r2 = 0.9024
mentre r2 corretto vale 0.8874. Il modello sembra adattarsi molto bene ai
dati.
Verifichiamo che l’introduzione del termine quadratico e significativa:
Df SSE Df Sum of Sq F Pr(>F)Lineare 14 0.00169Quadratico 13 0.00018 1 0.00151 110.75 0.0000
27
Statistica Industriale Lez. 7
Passiamo al modello cubico. I risultati per la stima sono riportati nella
seguente tabella.
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2251 0.0069 32.65 0.0000
Temperature 0.4110 0.2058 2.00 0.0689Temperature2 −0.7465 1.6887 −0.44 0.6663Temperature3 −3.6728 4.0430 −0.91 0.3815
E plausibile che i coefficienti di x, x2 e x3 siano 0. r2 = 0.9087 mentre r2
corretto vale 0.8858. Il modello sembra lo stesso adattarsi molto bene ai
dati.
Df SSE Df Sum of Sq F Pr(>F)Quadratico 13 1.7719e-04Cubico 12 1.6579e-04 1 1.1401e-05 0.8252 0.3815
La variabile x3 puo essere omessa.
28
Statistica Industriale Lez. 7
Passiamo al modello con la potenza quarta. I risultati per la stima sono
riportati nella seguente tabella.
Estimate Std. Error t value Pr(>|t|)(Intercept) 0.2315 0.0135 17.15 0.0000
Temperature 0.1091 0.5834 0.19 0.8551Temperature2 3.4544 7.7602 0.45 0.6648Temperature3 −26.0224 40.4496 −0.64 0.5332Temperature4 40.1571 72.2925 0.56 0.5897
E plausibile che i coefficienti di x, x2, x3 e x4 siano 0, ma la statisitca
F = 28.2 segnala che almeno una delle variabili del modello ha un qualche
legame con la variabile y. r2 = 0.9111 mentre r2 corretto vale 0.8788.
Il modello sembra lo stesso adattarsi molto bene ai dati. Il valore di r2
corretto e diminuito: non serve aggiungere questa variabile.
29
Statistica Industriale Lez. 7
La seguente tavola della varianza conferma che l’aggiunta del termine cu-
bico e alla potenza quarta non apporta significativi miglioramenti nella
spiegazione della variabilita di y.
Df Sum Sq Mean Sq F value Pr(>F)Temperature 1 0.00013 0.00013 8.74823 0.01303Temperature2 1 0.00151 0.00151 102.96538 0.00000Temperature3 1 0.00001 0.00001 0.77769 0.39671Temperature4 1 0.00000 0.00000 0.30856 0.58968Residui 11 0.00016 0.00001
La stima per la conducibilita per un polimero con temperatura x = 120
e 0.2580149. L’intervallo di confidenza a livello di fiducia del 95% e
(0.2550702,0.2609596).
30