31
Quan_reg2 1 常常常常常常常常常常常 • 常常常常常常常常常常常常常常常 常常常常常常常常常 (heteroskedastici ty 常 常常常 • 常常常常常常常常常常常常 常常常常常常常常常 (autocorrelation) 常常 常常常常常常常常常常常常 • 常常常常常常常常常常常常常常常常常常常 常常常常常常常常 • 常常常常常常常常常常常 WLS 常常常常常常常常常常常 AR(1) 常常 常常常 常常常常常常

第四章 進階迴歸分析

Embed Size (px)

DESCRIPTION

第四章 進階迴歸分析. 常見涉及誤差變異之問題 若誤差項不符合變異數相同的假說,則可能產生異值變異 (heteroskedasticity )的問題 若誤差項不符合獨立的假設,則可能產生自我相關 (autocorrelation) 的問題,即誤差項與前期的誤差相關 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定 如何修正? 對異值變異採用 WLS 法,對自我相關資料採用 AR(1) 模式. 殘差圖. 以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為 殘差圖 。. - PowerPoint PPT Presentation

Citation preview

Page 1: 第四章  進階迴歸分析

Quan_reg2 1

常見涉及誤差變異之問題• 若誤差項不符合變異數相同的假說,則可能產生異值變異 (het

eroskedasticity )的問題• 若誤差項不符合獨立的假設,則可能產生自我相關 (autocorrela

tion) 的問題,即誤差項與前期的誤差相關• 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定• 如何修正? 對異值變異採用 WLS 法,對自我相關資料採用 AR(1) 模式

第四章 進階迴歸分析

Page 2: 第四章  進階迴歸分析

Quan_reg2 2

殘差圖種類 :

• t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。• 對 Y 、對 X 的殘差圖。

以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為殘差圖。

MSE

ee ii *t 化殘差:

t- 化殘差 ( Student residual) :以√ MSE 為標準差,將 ei 標準化得到的值,在常態情況下其值應介於 -3 與 3 之間

ˆe iii yy 殘差:

殘差圖

Page 3: 第四章  進階迴歸分析

Quan_reg2 3

社區相館例之殘差常態機率圖 ( 符合迴歸假設 )

社區相館例之殘差圖 :

95%在此範圍

Page 4: 第四章  進階迴歸分析

Quan_reg2 4

1. 非直線模式 對 X 殘差圖呈曲線

2. 變異數非固定值 對 X 殘差圖呈梯形

3. 離群值存在 對 X 殘差圖 , 及殘差盒 形圖出現離群值

殘差圖分析

偏離情況 殘差圖形狀 範例

5. 誤差項非常態性 殘差的常態機率圖 偏離直線

4. 誤差項的不獨立 殘差順序圖分群呈現 ( 如:時間序列資料 ) fig4

fig3

fig2

fig1

fig5

Page 5: 第四章  進階迴歸分析

Quan_reg2 5

fig1

fig2

資料散佈圖 殘差圖ei = 0

Page 6: 第四章  進階迴歸分析

Quan_reg2 6

fig4

fig3殘差圖資料散佈圖

Page 7: 第四章  進階迴歸分析

Quan_reg2 7

殘差圖

殘差機率圖

fig5

資料散佈圖

Page 8: 第四章  進階迴歸分析

Quan_reg2 8

第一節 GLS 與 OLS• Yt = β0+ β1X 1t +…….+ βkX kt +εt

εt ~ NID( 0, σ2)

• 廣義的變異數矩陣:

NN

N

N

.........

............

...

...

)var( 22212

11211

• 根據上列變異數矩陣得到的最小平方估計量稱為廣義最小平方法 (generalized least square method), 簡稱為 GLS

Cov(εi, εj)

Var(εi)

Page 9: 第四章  進階迴歸分析

Quan_reg2 9

• 獨立時變異數矩陣: σij =0, for i ≠ j

• 同值時變異數: σii2 = σ2

• 假設誤差項是獨立且同變異數時,

Iσ)var( 2

• 之前在假設 ε是獨立且同變異數之下的最小平方估計量稱為一般最小平方法 (ordirnary least square method), 簡稱為 OLS

Page 10: 第四章  進階迴歸分析

Quan_reg2 10

第二節 異值變異• 迴歸分析時,資料違背同變異性,稱為異值變異 (Heteroskedasticity)

• 觀察對 x 之殘差圖呈現喇叭形時,可能有異值變異,即標準差與 x 相關

• 也可以由下列三種檢定法檢定資料是否存在異值變異:– White test

– Breusch-Pagan/Godfrey test

– Goldfeld-Quandt test

Page 11: 第四章  進階迴歸分析

Quan_reg2 11

White test

• 原理說明:– 誤差項可能會跟 X 或 X 平方相關– 所以利用誤差項變異數和以上相關的變數進行迴歸分析,若判定係數 (R2) 很高時,表示具有異值變異。

• White 證明 nR2 服從自由度 q 的卡方分配,q=(k-1)(k+2)/2

• 以卡方檢定執行

Page 12: 第四章  進階迴歸分析

Quan_reg2 12

Test of First and SecondMoment Specification

DF Chi-Square Pr > ChiSq

5 4.87 0.4316

SAS tipSAS tipAnalysis → Regression → Linear

Statistics → Diagnostics → ˇHeteroscedasticity test

社區相館例之 White test 報表 :

Test of First and SecondMoment Specification

DF Chi-Square Pr > ChiSq2 11.99 0.0025

年齡血壓關係例之 White test 報表 :

未違背同值變異

違背同值變異

Page 13: 第四章  進階迴歸分析

Quan_reg2 13

異值變異迴歸式的估計方法

• 加權最小平方法( WLS )• 說明: Yt = β0+ β1X 1t +εt , var(εt)= Ztσ2

Zt是 Xt,或是 Xt 的函數• 變異數與 Zt成正比,則以 1/Zt為權重

註:權重的觀念是:對變化小的個案,加權重,對變化大的個案,加權輕,這將使迴歸式的估計較精確。

Page 14: 第四章  進階迴歸分析

Quan_reg2 14

原理 :求得βi ,使下式達到最小的方法稱為加權最小平方法 (WLS)

21,1110 )....( ptptttw XXYwQ

矩陣解 :

Normal Equation: (X’WX) bw = X’WY

估計量 : bw = (X’WX)-1 X’WY

共變異矩陣 : σ{bw} = (X’WX)-1 X’WY

Nw

w

w

...00

............

0...0

0...0

2

1

W

Page 15: 第四章  進階迴歸分析

Quan_reg2 15

實作 :

1. 先以不加權最小平方配適迴歸模式。2. 由殘差圖判斷誤差變異數隨何變數正變,可能是下列情況 之一。然後決定 wt 值。

/1 ,

/1 ,

/1 ,

1122

21

21

22

1122

tttt

tttt

tttt

XwX

XwX

XwX

也可能是分段增加或減少3. 以 wt 加權得到 WLS 迴歸模式。4. 進一步測試模式適合性及其它。

喇叭形梯形狹形

SAS tipSAS tip 將 wt 資料輸入為 relative weight 變數

Page 16: 第四章  進階迴歸分析

Quan_reg2 16

Root MSE 0.18918 R-Square

0.5005

Dependent Mean

74.87714

Adj R-Sq 0.4908

Coeff Var 0.25266   Parameter Estimates

Variable

Label

DF ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept

Intercept

1 55.83104

2.78093

20.08

<.0001

age age 1 0.58883

0.08158

7.22 <.0001Test of First and Second

Moment Specification

DF Chi-Square Pr > ChiSq2 2.52 0.2838

Root MSE 8.14575 R-Square

0.4077

Dependent Mean

79.11111

Adj R-Sq 0.3963

Coeff Var 10.29659

  Parameter Estimates

Variable

Label DF ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept

Intercept

1 56.15693

3.99367

14.06 <.0001

age age 1 0.58003 0.09695

5.98 <.0001

Test of First and SecondMoment Specification

DF Chi-Square

Pr > ChiSq

2 11.99 0.0025

(OLS 法 報表 ) (WLS 法 報表 , X-2 為加權 )

Page 17: 第四章  進階迴歸分析

Quan_reg2 17

第三節 自我相關• 探討誤差項之間的相關性不為零的情形 σij ≠ 0, for i ≠ j

• 就是變異數矩陣中,非對角線元素不為零的狀況

NN

N

N

.........

............

...

...

)var( 22212

11211

Page 18: 第四章  進階迴歸分析

Quan_reg2 18

使用迴歸來分析時間序列資料時,誤差項可能依時間先後有相關性,此稱為自相關現象 (autocorrelation) ,此種資料違背獨立性的情況,會表現在殘差圖上,需修正模式。

【例】 X :產品年銷售量 (salec) , Y :某公司的年銷售量

R2=0.999

( 此圖顯示殘差明顯違背獨立性假設 )

Page 19: 第四章  進階迴歸分析

Quan_reg2 19

Lag 為 s 之自相關係數• 迴歸模式的自我相關 (autocorrelation) 是指誤差項前後期彼此相關

• 定義:– 自相關共變異數:

– s 階自相關係數:

),cov(s stt

0s )var(

),cov(),(

s

t

sttsttcor

注意: ss ρρ

Page 20: 第四章  進階迴歸分析

Quan_reg2 20

資料的自相關現象對迴歸分析結果產生下列現象:1. 係數的估計量仍為不偏,但無法達到最小變異數。2. MSE 低估真實的誤差變異數。3. s.e.{bk} 低估係數之標準差。

4. t-test , F-test ,及 confidence interval 無法再直接應用。

Page 21: 第四章  進階迴歸分析

Quan_reg2 21

一階自相關• first-order autocorrelation :連續二資料間的相關性, 即

εt 與 εt-1 間之相關性• 與位置無關, ρ1 = cor(εt , εt-1 ) for all t

• 如何檢測出一階自相關? 1. 觀察殘差圖 2. Durbin-Watson 檢定 (εt 與 εt-1 間相關,將反應在 et 與 et-1 間 )

Page 22: 第四章  進階迴歸分析

Quan_reg2 22

2

1

2

21)(

D

t

n

t

n

ttt

e

ee

ttt YYe ˆ

Durbin-Watson 統計量:

自相關的檢定 -- Durbin-Watson Test

註: 1 、 D 2(1-r≒ 1) , 0 D 4≦ ≦

2 、 SAS 之 regression / linear 或 Time series/

Reg. w. Autoregressive error 提供 D-W

值 3 、檢定法則:依據 n, p, α 查出 dL,α 及 dU,α

Page 23: 第四章  進階迴歸分析

Quan_reg2 23

ρ1>0 ρ1=0 ρ1<0

不確定區

正的自相關檢定 H0 : ρ1= 0 , H1 : ρ1> 0

決策

1. D < dL,α 時,拒絕 H0

2. D > dU,α 時,不拒絕 H0

3. dL,α <D < dU,α 時,無法定論, ( 需要更多資料 )

n 15 20 25 30 35 40 45 50 60

dL.05 1.08 1.2 1.29 1.35 1.4 1.44 1.48 1.5 1.55

dU.05 1.36 1.41 1.45 1.49 1.52 1.54 1.57 1.59 1.62

0 dL dU 2 4-dU 4-dL 4

臨界值

Page 24: 第四章  進階迴歸分析

Quan_reg2 24

負的自相關檢定 H0 : ρ1= 0 , H1 : ρ1<0

1. (4-D) < dL,α 時,拒絕 H0

2. (4-D) > dU,α 時,不拒絕 H0

3. dL,α < (4-D) < dU,α 時,無法定論, ( 需要更多資料 )

決策

注意: r1 >0 , 0< D < 2 , r1 < 0 , 2< D < 4

r1 =ρ1-hat

Page 25: 第四章  進階迴歸分析

Quan_reg2 25

【例】 X :產品年銷售量 (salec) Y :某公司的年銷售量 (salei)

殘差圖X-Y 分散圖

Page 26: 第四章  進階迴歸分析

Quan_reg2 26

SAS/EG / regression/ linear 報表

Durbin-Watson D 3.050

Number of Observations 20

1st Order Autocorrelation -0.531

Parameter Estimates

Variable Label DF ParameterEstimate

StandardError

t Value Pr > |t|

Intercept Intercept 1 8.42066 1.14606 7.35 <.0001

saleC saleC 1 5.66585 0.04643 122.02 <.0001

Root MSE 0.48788 R-Square 0.9988

Dependent Mean 147.62500 Adj R-Sq 0.9987

Coeff Var 0.33048    

D=3.05 > 4-dL, 有負自相關現象,雖然 R2 值很高,得到的迴歸訊息是不正確的,需要修正模式。

(dL=1.2. dU=1.36)

Page 27: 第四章  進階迴歸分析

Quan_reg2 27

ρ 為一階自相關係數,代表自相關程度之大小。

AR(1) Model :Yt = β0 + β1 xt + εt , t= 1,2,…, n

εt = ρ εt-1 + u t , |ρ|<1, u t ~NID(0,σ2)

Analyze → Time series → Reg. w Autoregressive Errors

如何修正含自相關現象的迴歸模式?有多種方法,最常用的是 AR(1) errors model, 即,假設迴歸式中的誤差項是一 AR(1) model.

SAS tipSAS tip

First-order autocorrelative reg. model

Page 28: 第四章  進階迴歸分析

Quan_reg2 28

共變異矩陣:

2

2

1

2

1

121

2

2 where ,

...

............

..

......

}{

n

n

nnn

註 : 1 、期望值 =0

2 、 ρ愈大,影響愈遠。

3 、若設 εt = ρ1εt-1 + ρ2εt-2 + u t , 視為二階自相關模式

AR(2) model

),ρ(}ε,{ε ,}{εσ

0,}E{ε

2

2

2

2

ρ1σ

1ttρ1σ

t2

t

Page 29: 第四章  進階迴歸分析

Quan_reg2 29

Ordinary Least Squares Estimates

SSE 4.28442909 DFE 18

MSE 0.23802 Root MSE 0.48788

SBC 31.9341066 AIC 29.942642

Regress R-Square 0.9988 Total R-Square 0.9988

Durbin-Watson 3.0689  

Variable DF Estimate

Standard Error

t Value ApproxPr > |t|

Variable Label

Intercept 1 8.4207 1.1461 7.35 <.0001  

saleC 1 5.6659 0.0464 122.02 <.0001 saleC

【例】 X :產品年銷售量 (saleC) Y :某公司的年銷售量 (salei)

執行 Time series / Reg. w Autoregressive Errors 報表

Page 30: 第四章  進階迴歸分析

Quan_reg2 30

Preliminary MSE 0.1514

Yule-Walker Estimates

SSE 2.9310717 DFE 17

MSE 0.17242 Root MSE 0.41523

SBC 27.6847347 AIC 24.6975379

Regress R-Square 0.9994 Total R-Square 0.9992

Durbin-Watson 2.2424    

以 OLS 分析結果標準誤 AIC R2 D-W

0.488 29.9 0.9988 3.069

以 AR(1) 模式分析結果.415 24.7 .9994 2.24

Page 31: 第四章  進階迴歸分析

Quan_reg2 31

AR(1) 迴歸估計式: yt = 8.974 + 5.643 xt + εt , εt = -0.542 εt-1

Variable DF Estimate Standard Error t Value ApproxPr > |t|

Intercept 1 8.9739 0.8424 10.65 <.0001

saleC 1 5.6431 0.0342 164.96 <.0001

Estimates of Autoregressive Parameters

Lag Coefficient Standard Error t Value

1 0.541657 0.203875 2.66