Upload
haviva-ross
View
229
Download
1
Embed Size (px)
DESCRIPTION
第四章 進階迴歸分析. 常見涉及誤差變異之問題 若誤差項不符合變異數相同的假說,則可能產生異值變異 (heteroskedasticity )的問題 若誤差項不符合獨立的假設,則可能產生自我相關 (autocorrelation) 的問題,即誤差項與前期的誤差相關 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定 如何修正? 對異值變異採用 WLS 法,對自我相關資料採用 AR(1) 模式. 殘差圖. 以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為 殘差圖 。. - PowerPoint PPT Presentation
Citation preview
Quan_reg2 1
常見涉及誤差變異之問題• 若誤差項不符合變異數相同的假說,則可能產生異值變異 (het
eroskedasticity )的問題• 若誤差項不符合獨立的假設,則可能產生自我相關 (autocorrela
tion) 的問題,即誤差項與前期的誤差相關• 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定• 如何修正? 對異值變異採用 WLS 法,對自我相關資料採用 AR(1) 模式
第四章 進階迴歸分析
Quan_reg2 2
殘差圖種類 :
• t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。• 對 Y 、對 X 的殘差圖。
以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為殘差圖。
MSE
ee ii *t 化殘差:
t- 化殘差 ( Student residual) :以√ MSE 為標準差,將 ei 標準化得到的值,在常態情況下其值應介於 -3 與 3 之間
ˆe iii yy 殘差:
殘差圖
Quan_reg2 3
社區相館例之殘差常態機率圖 ( 符合迴歸假設 )
社區相館例之殘差圖 :
95%在此範圍
Quan_reg2 4
1. 非直線模式 對 X 殘差圖呈曲線
2. 變異數非固定值 對 X 殘差圖呈梯形
3. 離群值存在 對 X 殘差圖 , 及殘差盒 形圖出現離群值
殘差圖分析
偏離情況 殘差圖形狀 範例
5. 誤差項非常態性 殘差的常態機率圖 偏離直線
4. 誤差項的不獨立 殘差順序圖分群呈現 ( 如:時間序列資料 ) fig4
fig3
fig2
fig1
fig5
Quan_reg2 5
fig1
fig2
資料散佈圖 殘差圖ei = 0
Quan_reg2 6
fig4
fig3殘差圖資料散佈圖
Quan_reg2 7
殘差圖
殘差機率圖
fig5
資料散佈圖
Quan_reg2 8
第一節 GLS 與 OLS• Yt = β0+ β1X 1t +…….+ βkX kt +εt
εt ~ NID( 0, σ2)
• 廣義的變異數矩陣:
NN
N
N
.........
............
...
...
)var( 22212
11211
• 根據上列變異數矩陣得到的最小平方估計量稱為廣義最小平方法 (generalized least square method), 簡稱為 GLS
Cov(εi, εj)
Var(εi)
Quan_reg2 9
• 獨立時變異數矩陣: σij =0, for i ≠ j
• 同值時變異數: σii2 = σ2
• 假設誤差項是獨立且同變異數時,
Iσ)var( 2
• 之前在假設 ε是獨立且同變異數之下的最小平方估計量稱為一般最小平方法 (ordirnary least square method), 簡稱為 OLS
Quan_reg2 10
第二節 異值變異• 迴歸分析時,資料違背同變異性,稱為異值變異 (Heteroskedasticity)
• 觀察對 x 之殘差圖呈現喇叭形時,可能有異值變異,即標準差與 x 相關
• 也可以由下列三種檢定法檢定資料是否存在異值變異:– White test
– Breusch-Pagan/Godfrey test
– Goldfeld-Quandt test
Quan_reg2 11
White test
• 原理說明:– 誤差項可能會跟 X 或 X 平方相關– 所以利用誤差項變異數和以上相關的變數進行迴歸分析,若判定係數 (R2) 很高時,表示具有異值變異。
• White 證明 nR2 服從自由度 q 的卡方分配,q=(k-1)(k+2)/2
• 以卡方檢定執行
Quan_reg2 12
Test of First and SecondMoment Specification
DF Chi-Square Pr > ChiSq
5 4.87 0.4316
SAS tipSAS tipAnalysis → Regression → Linear
Statistics → Diagnostics → ˇHeteroscedasticity test
社區相館例之 White test 報表 :
Test of First and SecondMoment Specification
DF Chi-Square Pr > ChiSq2 11.99 0.0025
年齡血壓關係例之 White test 報表 :
未違背同值變異
違背同值變異
Quan_reg2 13
異值變異迴歸式的估計方法
• 加權最小平方法( WLS )• 說明: Yt = β0+ β1X 1t +εt , var(εt)= Ztσ2
Zt是 Xt,或是 Xt 的函數• 變異數與 Zt成正比,則以 1/Zt為權重
註:權重的觀念是:對變化小的個案,加權重,對變化大的個案,加權輕,這將使迴歸式的估計較精確。
Quan_reg2 14
原理 :求得βi ,使下式達到最小的方法稱為加權最小平方法 (WLS)
21,1110 )....( ptptttw XXYwQ
矩陣解 :
Normal Equation: (X’WX) bw = X’WY
估計量 : bw = (X’WX)-1 X’WY
共變異矩陣 : σ{bw} = (X’WX)-1 X’WY
Nw
w
w
...00
............
0...0
0...0
2
1
W
Quan_reg2 15
實作 :
1. 先以不加權最小平方配適迴歸模式。2. 由殘差圖判斷誤差變異數隨何變數正變,可能是下列情況 之一。然後決定 wt 值。
/1 ,
/1 ,
/1 ,
1122
21
21
22
1122
tttt
tttt
tttt
XwX
XwX
XwX
也可能是分段增加或減少3. 以 wt 加權得到 WLS 迴歸模式。4. 進一步測試模式適合性及其它。
喇叭形梯形狹形
SAS tipSAS tip 將 wt 資料輸入為 relative weight 變數
Quan_reg2 16
Root MSE 0.18918 R-Square
0.5005
Dependent Mean
74.87714
Adj R-Sq 0.4908
Coeff Var 0.25266 Parameter Estimates
Variable
Label
DF ParameterEstimate
StandardError
t Value
Pr > |t|
Intercept
Intercept
1 55.83104
2.78093
20.08
<.0001
age age 1 0.58883
0.08158
7.22 <.0001Test of First and Second
Moment Specification
DF Chi-Square Pr > ChiSq2 2.52 0.2838
Root MSE 8.14575 R-Square
0.4077
Dependent Mean
79.11111
Adj R-Sq 0.3963
Coeff Var 10.29659
Parameter Estimates
Variable
Label DF ParameterEstimate
StandardError
t Value
Pr > |t|
Intercept
Intercept
1 56.15693
3.99367
14.06 <.0001
age age 1 0.58003 0.09695
5.98 <.0001
Test of First and SecondMoment Specification
DF Chi-Square
Pr > ChiSq
2 11.99 0.0025
(OLS 法 報表 ) (WLS 法 報表 , X-2 為加權 )
Quan_reg2 17
第三節 自我相關• 探討誤差項之間的相關性不為零的情形 σij ≠ 0, for i ≠ j
• 就是變異數矩陣中,非對角線元素不為零的狀況
NN
N
N
.........
............
...
...
)var( 22212
11211
Quan_reg2 18
使用迴歸來分析時間序列資料時,誤差項可能依時間先後有相關性,此稱為自相關現象 (autocorrelation) ,此種資料違背獨立性的情況,會表現在殘差圖上,需修正模式。
【例】 X :產品年銷售量 (salec) , Y :某公司的年銷售量
R2=0.999
( 此圖顯示殘差明顯違背獨立性假設 )
Quan_reg2 19
Lag 為 s 之自相關係數• 迴歸模式的自我相關 (autocorrelation) 是指誤差項前後期彼此相關
• 定義:– 自相關共變異數:
– s 階自相關係數:
),cov(s stt
0s )var(
),cov(),(
s
t
sttsttcor
注意: ss ρρ
Quan_reg2 20
資料的自相關現象對迴歸分析結果產生下列現象:1. 係數的估計量仍為不偏,但無法達到最小變異數。2. MSE 低估真實的誤差變異數。3. s.e.{bk} 低估係數之標準差。
4. t-test , F-test ,及 confidence interval 無法再直接應用。
Quan_reg2 21
一階自相關• first-order autocorrelation :連續二資料間的相關性, 即
εt 與 εt-1 間之相關性• 與位置無關, ρ1 = cor(εt , εt-1 ) for all t
• 如何檢測出一階自相關? 1. 觀察殘差圖 2. Durbin-Watson 檢定 (εt 與 εt-1 間相關,將反應在 et 與 et-1 間 )
Quan_reg2 22
2
1
2
21)(
D
t
n
t
n
ttt
e
ee
ttt YYe ˆ
Durbin-Watson 統計量:
自相關的檢定 -- Durbin-Watson Test
註: 1 、 D 2(1-r≒ 1) , 0 D 4≦ ≦
2 、 SAS 之 regression / linear 或 Time series/
Reg. w. Autoregressive error 提供 D-W
值 3 、檢定法則:依據 n, p, α 查出 dL,α 及 dU,α
Quan_reg2 23
ρ1>0 ρ1=0 ρ1<0
不確定區
正的自相關檢定 H0 : ρ1= 0 , H1 : ρ1> 0
決策
1. D < dL,α 時,拒絕 H0
2. D > dU,α 時,不拒絕 H0
3. dL,α <D < dU,α 時,無法定論, ( 需要更多資料 )
n 15 20 25 30 35 40 45 50 60
dL.05 1.08 1.2 1.29 1.35 1.4 1.44 1.48 1.5 1.55
dU.05 1.36 1.41 1.45 1.49 1.52 1.54 1.57 1.59 1.62
0 dL dU 2 4-dU 4-dL 4
臨界值
Quan_reg2 24
負的自相關檢定 H0 : ρ1= 0 , H1 : ρ1<0
1. (4-D) < dL,α 時,拒絕 H0
2. (4-D) > dU,α 時,不拒絕 H0
3. dL,α < (4-D) < dU,α 時,無法定論, ( 需要更多資料 )
決策
注意: r1 >0 , 0< D < 2 , r1 < 0 , 2< D < 4
r1 =ρ1-hat
Quan_reg2 25
【例】 X :產品年銷售量 (salec) Y :某公司的年銷售量 (salei)
殘差圖X-Y 分散圖
Quan_reg2 26
SAS/EG / regression/ linear 報表
Durbin-Watson D 3.050
Number of Observations 20
1st Order Autocorrelation -0.531
Parameter Estimates
Variable Label DF ParameterEstimate
StandardError
t Value Pr > |t|
Intercept Intercept 1 8.42066 1.14606 7.35 <.0001
saleC saleC 1 5.66585 0.04643 122.02 <.0001
Root MSE 0.48788 R-Square 0.9988
Dependent Mean 147.62500 Adj R-Sq 0.9987
Coeff Var 0.33048
D=3.05 > 4-dL, 有負自相關現象,雖然 R2 值很高,得到的迴歸訊息是不正確的,需要修正模式。
(dL=1.2. dU=1.36)
Quan_reg2 27
ρ 為一階自相關係數,代表自相關程度之大小。
AR(1) Model :Yt = β0 + β1 xt + εt , t= 1,2,…, n
εt = ρ εt-1 + u t , |ρ|<1, u t ~NID(0,σ2)
Analyze → Time series → Reg. w Autoregressive Errors
如何修正含自相關現象的迴歸模式?有多種方法,最常用的是 AR(1) errors model, 即,假設迴歸式中的誤差項是一 AR(1) model.
SAS tipSAS tip
First-order autocorrelative reg. model
Quan_reg2 28
共變異矩陣:
2
2
1
2
1
121
2
2 where ,
...
............
..
......
}{
n
n
nnn
註 : 1 、期望值 =0
2 、 ρ愈大,影響愈遠。
3 、若設 εt = ρ1εt-1 + ρ2εt-2 + u t , 視為二階自相關模式
AR(2) model
),ρ(}ε,{ε ,}{εσ
0,}E{ε
2
2
2
2
ρ1σ
1ttρ1σ
t2
t
Quan_reg2 29
Ordinary Least Squares Estimates
SSE 4.28442909 DFE 18
MSE 0.23802 Root MSE 0.48788
SBC 31.9341066 AIC 29.942642
Regress R-Square 0.9988 Total R-Square 0.9988
Durbin-Watson 3.0689
Variable DF Estimate
Standard Error
t Value ApproxPr > |t|
Variable Label
Intercept 1 8.4207 1.1461 7.35 <.0001
saleC 1 5.6659 0.0464 122.02 <.0001 saleC
【例】 X :產品年銷售量 (saleC) Y :某公司的年銷售量 (salei)
執行 Time series / Reg. w Autoregressive Errors 報表
Quan_reg2 30
Preliminary MSE 0.1514
Yule-Walker Estimates
SSE 2.9310717 DFE 17
MSE 0.17242 Root MSE 0.41523
SBC 27.6847347 AIC 24.6975379
Regress R-Square 0.9994 Total R-Square 0.9992
Durbin-Watson 2.2424
以 OLS 分析結果標準誤 AIC R2 D-W
0.488 29.9 0.9988 3.069
以 AR(1) 模式分析結果.415 24.7 .9994 2.24
Quan_reg2 31
AR(1) 迴歸估計式: yt = 8.974 + 5.643 xt + εt , εt = -0.542 εt-1
Variable DF Estimate Standard Error t Value ApproxPr > |t|
Intercept 1 8.9739 0.8424 10.65 <.0001
saleC 1 5.6431 0.0342 164.96 <.0001
Estimates of Autoregressive Parameters
Lag Coefficient Standard Error t Value
1 0.541657 0.203875 2.66