Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
計量経済学 講義第 24 回 回帰モデルの診断と選択 Part 2
2017 年 12 ⽉ 22 ⽇(⾦)1 限担当教員: 唐渡 広志研究室: 経済学研究棟4階432号室email: [email protected]: http://www3.u-toyama.ac.jp/kkarato/
1
講義の目的
誤差項の分散が不均⼀である場合や,系列相関を持つ場合についての検定⽅法と修正⽅法を学びます。
keywords:プルーシュ=ペイガン検定,ホワイト検定,分散不均⼀⼀致標準誤差,重み付き最⼩2乗法,1階の⾃⼰回帰モデル,ダービン=ワトソン検定
教科書: pp. 313 – 348(第 7 章)
2
【復習】分散不均一性
3
22iii uEuV 仮定 iii) が満たされず
4
1
3
2
22
21
nuE
uE
uE
例. 分散が不均⼀
46.6
ˆ
ˆ
2
2222
22
xx
iiii
ji ijjijiii
ii
SXX
w
uuEwwuEwV
uEwE
仮定 i), ii), iv) は満たされているものとする
仮定 i), ii), ii), iv) が満たされていれば
xxS
V2
ˆ
いない。式を正しく計算できては
から推定するが(残差分散)をデータ仮説検定では
)46.6(ˆ
ˆ2
2
→ 正しい標準誤差が計算できないので t検定ができない
(不偏性はある)
(分散が異なる)
例. 分散不均一が疑われる散布図
0 2 4 6 8 10
2040
6080
X
y
4
説明変数の値が⼤きくなると,被説明変数のばらつきも⼤きくなる
誤差項の分散の⼤きさが説明変数の⼤きさと関連している可能性
分散不均一の検定 (1)
5
分散不均⼀︓誤差の2乗の期待値(誤差項の分散 2)が観測値ごとに異なっている。
22iii uEuV
グラフによる確認
例. 残差の2乗が説明変数 Xの変動と関係性を持つ。
X
2u
Xが⼤きくなると、残差の2乗値も⼤きくなる
でない
均一分散である
01
0
::HH
H
仮説の設定
残差のばらつきが⼤きくなる
分散不均一の検定 (2):ブルーシュ=ペイガン検定
6
Breusch-Pagan Test (ブルーシュ=ペイガン検定)
残差の2乗値を説明変数に回帰したときの当てはまり具合(決定係数)を利⽤して,分散不均⼀の有無を検証する⽅法
1
例. 説明変数が X2, X3 の 2つ,サンプルサイズが n = 100 のケース
推定をiiii uXXY 33221 を計算2ˆ iu
2
iiii vXXu 332212ˆ
【補助回帰式】帰無仮説を検証する式残差の2乗を定数項と説明変数に回帰
を計算補助回帰式の決定係数 2R
均一分散である帰無仮説 :
0: 320 H
乗は一定になる残差の
でならば
2
ˆ0 12
32 iu
分散不均一の検定 (3) :ブルーシュ=ペイガン検定
7
4 乗分布にしたがうのカイの数補助回帰式の説明変数は自由度 222nR
有意⽔準 5% でのカイ2乗分布の上側臨界値を求める
99.5205.0,2 Excel関数 = CHIINV(0.05,2)
5
分散均一である
を棄却しないならば
分散不均一である
を棄却するならば
022
05.0,2
022
05.0,2
99.5
99.5
HnR
HnR
Breusch-Pagan 検定統計量 (BP検定統計量)を計算3
決定係数)(サンプルサイズ検定統計量 2: nR
【検定の基本】検定統計量が臨界値よりも⼤きい値のときH0を棄却する
臨界値を求める関数
カイ2乗分布 (1)
8
)(: chiカイ
カイ2乗分布 (chi-squared distribution)とは
0 5 10 15 20
0.00
0.05
0.10
0.15
0.20
自由度 m = 3
x
f(x)
0 10 20 30 40
0.00
0.02
0.04
0.06
0.08
自由度 m = 10
x
f(x)
カイ2乗分布の確率密度関数
布によって形が変わる分自由度 m
ガンマ関数
0,2 2
1 22
xexxfmm
xm
標準正規分布にしたがう確率変数の2乗和に関する分布
カイ2乗分布 (2)
9
例. ⾃由度2 のカイ2乗分布
有意⽔準0.05(5%)
22,0.05 = 5.99
有意⽔準5%臨界値
棄却域
表7.6 カイ2乗分布 (p.329)下側確率
10
下側確率
⾃由度m
p = 0.005 0.01 0.025 0.05 0.1 0.5 0.9 0.95 0.975 0.99 0.995
1 0.00004 0.00016 0.00098 0.0039 0.0158 0.455 2.710 3.84 5.02 6.63 7.882 0.01003 0.02010 0.0506 0.1026 0.211 1.386 4.61 5.99 7.38 9.21 10.6 3 0.07172 0.1148 0.2158 0.352 0.584 2.37 6.25 7.81 9.35 11.3 12.8 4 0.2070 0.2971 0.484 0.711 1.06 3.36 7.78 9.49 11.1 13.3 14.9 ・・・
2Pr mAp
例. ⾃由度2 のカイ2乗分布
0.95
5.99
例 7.6(表7.7のデータ):BP検定
11
iiii uXXY 33221
世帯人員
世帯年収
エンゲル係数
::
:
3
2
i
i
i
XXY1 を計算
2ˆ iu
2 iiii vXXu 332212ˆ
を計算補助回帰式の決定係数 2R
169527.0,10 2 Rn69527.1:BP 2 nR統計量3
4
99.5205.0,2 Excel関数 = CHIINV(0.05,2)
⾃由度2,有意⽔準5%のカイ2乗分布上側臨界値
5
言えない。分散不均一であるとは
い。帰無仮説を棄却できな
よりも小さいのでは臨界値検定統計量 99.569527.1 205.0,2
2 nR
均一分散0: 320 H
分散不均一の検定 (4) :ホワイト検定
12
iiii uXXY 33221
る)つの説明変数を利用す(全部で
考える乗項や交差項も含めて
証するためにと説明変数の関係を検
52
ˆ 2iu
ii
i
i
i
i
XXX
X
XX
32
23
22
3
2
回帰モデル
ホワイト検定
均一分散0: 654320 H
iiiiiiii vXXXXXXu 326235
22433221
2ˆH0モデル
を計算補助回帰式の決定係数 2R
乗分布にしたがうのカイ自由度 25~2nR検定 ⾃由度は補助回帰式で利⽤した変数の数
検定の基本的な流れはBP検定と同じ
例 7.6(表7.7のデータ):ホワイト検定
13
iiii uXXY 332211 を計算2ˆ iu
2
を計算補助回帰式の決定係数 2R
268631.0,10 2 Rn686307.2: 2 nR統計量ホワイト3
4
1.11205.0,5 Excel関数 = CHIINV(0.05,5)
⾃由度 5,有意⽔準5%のカイ2乗分布上側臨界値
5
言えない。分散不均一であるとは
い。帰無仮説を棄却できな
よりも小さいのでは臨界値検定統計量 1.11686307.2 205.0,5
2 nR
iiiiiiii vXXXXXXu 326235
22433221
2ˆ
均一分散0: 654320 H
練習問題 (1) 表7.16 (例題42,pp.344-345)
14
検定を行いなさい。および乗推定し,を最小
のみを対数変換したさらに,左辺
証しなさい。分散不均一について検
検定を実行しおよびして乗推定し,残差を利用を最小
のデータを利用して表
WhiteBPuXXY
Y
WhiteBPuXXY
iiii
i
iiii
2ln
2
16.7
33221
33221
重み付き最小2乗法 (1) (pp.332-334)
15
階級ごとに集計されたデータの平均値を⽤いるとき,平均をとるときの集計数によって分散が不均⼀になることがある。
3.491
7.1141
1
11
1
1
11
1
N
YY
N
XX
N
ii
N
ii
階級 階級番号j 総⽀出 ⾷費 集計世帯数
〜200万円 1 114.7 49.3 241200〜250 2 180.6 66.1 344250〜300 3 187.9 68.6 519300〜350 4 210.3 76.1 705350〜400 5 227.4 78.4 713
・・・
・・・
・・・
・・・
・・・
jX jY jNijij YX
ij食費を総支出を
の階級に属する世帯
,
表7.8
重み付き最小2乗法 (2) (pp.332-334)
16
世帯レベル(集計前)の回帰式 ijijij uXY
年収階級別(集計後)の回帰式 30.7jjj uXY
jN
uu
jN
iij
j
1
集計後の回帰式の誤差項
ばが満たされているなら標準的仮定 0,,0: 2 lmijijij uuEuVuE
2
2
,0 jjj jNuVuE
集計後の回帰式の誤差項は集計数 N (j)に
よって分散が異なる[明確な分散不均⼀]
重み付き最小2乗法 (3) (pp.332-334)
17
2 jj uNV
の分散はを乗じたに集計された誤差項 jj ujNjNu
分散均⼀化の作業
を乗じるとの両辺に jNuXY jjj 30.7
jjj ujNXjNjNYjN
この推定モデルの誤差項は均⼀分散になるので,以下のように新しい変数を定義して
j
jjjj
XjNX
jNX
ujNuYjNY
*2
*1
**
**2
*1
*jj uXXY を推定する。Yj
*をX1*とX2
*に回帰する。定数項はなし。
重み付き最小2乗法 (4) (pp.332-334)
18
表7.8 のデータの重み付き最⼩2乗法による推定結果
*2
*1
* 216.0119.28ˆ XXY j
33.4398.19
216.0119.28ˆjj XY
元の集計モデル(7.30)に戻す
jXjNX *2 jNX *
1 jj YjNY *
定数項なし
【復習】系列相関
19
仮定 iv) が満たされず 0,Cov ijjiji uuEuu
仮定 i), ii), iii) は満たされているものとする
48.6
ˆ
2
22
ji ijijji
xx
ji ijjijiii
wwS
uuEwwuEwV
系列 (serial)︓⼀定の順序にしたがって並べられた状態のこと。時系列データ (time series data)︓時間の順序にしたがって並べられたデータ。系列相関 (serial correlation) ︓主に時系列データにおいて誤差項が互いに相関している状態のこと
いない。式を正しく計算できては
から推定するが(残差分散)をデータ仮説検定では
)48.6(ˆˆ
2
2
(不偏性はある)
分散が異なる
→ 正しい t検定ができない
xxS
V2
ˆ
)iv
いれば
が満たされて仮定
系列相関が生じる理由
時系列データ︓過去からの持続的・傾向的な動き(トレンド)や循環的(サイクル)な動きがデータに含まれてしまう。過去に⽣じた誤差が将来の誤差にも影響してしまう。
20
1階の自己回帰モデル AR(1) Model
21
1,,,2,11 niuu iii
0,,0 22
jiii EEE誤差項(イプシロン):確率
数(ロー):自己回帰係
系列相関が明⽰的な誤差項
誤差が反転の値になる可能性正の値のとき,今期は負負前期が正
の場合:
誤差が増幅の値になる可能性負の値のとき,今期も正負前期が正
の場合:
0
0
る。の相関係数を示していとは自己回帰係数 ji uu
AR (1) の乱数誤差の動き
22
-5.000-4.000-3.000-2.000-1.0000.0001.0002.0003.0004.0005.000
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
ui (=0.9)
-5.000-4.000-3.000-2.000-1.0000.0001.0002.0003.0004.0005.000
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
ui (=0.05)
-6.000
-4.000
-2.000
0.000
2.000
4.000
6.000
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97
ui (=−0.9)
1,0~,100 Nn i
標準偏差 1.643 標準偏差 2.364
標準偏差 1.051
1階の自己回帰モデルの期待値,分散,共分散
23
2
2
1
2
22
1
0
1,Cov
1
0
ii
ii
N
jji
ji
uu
uEuV
EuE
2
2
2
2
1
1
1
1,Cov
ii
ii
uVuVuu
相関係数
分散均⼀
系列相関がある 仮定 iv) は崩れる
期待値はゼロ
ダービン=ワトソン統計量 (1)
24
えない系列相関がないとは言
系列相関がない
】【系列相関の仮説検定
0:0:
0
0
HH
検定統計量(ダービン=ワトソン統計量; DW)
統計量分布の,説明変数の数サンプルサイズ DWmn
u
uuDW n
ii
n
iii
~ˆ
ˆˆ
1
2
2
21
負の系列相関系列相関なし正の系列相関
ˆ12DWDW の関係:と表7.9 系列相関とDW統計量 (p.337)
0ˆ1 42 DW
0ˆ 2DW
1ˆ0 20 DW
DWDW = 2のとき,系列相関なし・2 < DW < 4 のとき負の系列相関の疑い・0 < DW < 2 のとき正の系列相関の疑いDWが 2 に近いかどうかが重要
0 1 2 3 4
ダービン=ワトソン統計量 (2) 臨界値
25
n m = 1 m =2 m = 3DL DU DL DU DL DU
15 1.08 1.36 0.95 1.54 0.82 1.7516 1.10 1.37 0.98 1.54 0.86 1.7317 1.13 1.38 1.02 1.54 0.90 1.7118 1.16 1.39 1.05 1.53 0.93 1.6919 1.18 1.40 1.08 1.53 0.97 1.6820 1.20 1.41 1.10 1.54 1.00 1.6821 1.22 1.42 1.13 1.54 1.03 1.6722 1.24 1.43 1.15 1.54 1.05 1.66
DW 統計量の分布は説明変数の数mだけでなく,その内容にも依存している。そのためはっきりとした形はわからないが,分布の下限 (DL) と上限 (DU) はわかっている。
DW 統計量の分布は 2 を中⼼とする分布で,0 から 4 までの値をとる。
有意⽔準5 % の下限DLと上限 DU (表7.10, p.338)
m = 1, n = 15DW 統計量の分布
真の臨界値 ? 真の臨界値 ?
2 < DW < 4 のとき負の系列相関の疑い
0 < DW < 2 のとき正の系列相関の疑い
08.1LD 36.1UD64.24 UD
92.24 LD
N. E. Savin and Kenneth J. White (1977) “The Durbin-Watson Test for Serial Correlation with Extreme Sample Sizes or Many Regressors”
ダービン=ワトソン統計量 (3) 棄却域と判定
26
DW 統計量0
08.1LD
36.1UD
64.24 UD
92.24 LD 4
正の系列相関 負の系列相関系列相関なしを棄却0:0 H を棄却しない0:0 H を棄却0:0 H
判定不能 判定不能
表7.12 消費と所得 (n=39, m=1)
27
残差を出力」にチェックを入れて「回帰分析」で「残差
乗推定を最小
2iii uXY
ii XY48.17134.5
66.046.5ˆ 推定結果
を計算
n
ii
n
iii
u
uuDW
1
2
2
21
ˆ
ˆˆ
iu 1ˆ iu
1期ずらす
21ˆˆ ii uu
38.15813.2599526.357
DW
2乗和を求めるには sumsq関数を利⽤する。
例7.8 表7.12 消費と所得(続き)
28
n m = 1DL DU
・・・39 1.43 1.54・・・
54.1,43.110.7
1,39,0:0
UL DDDW
mnH分布の下限と上限はより表
を検定
DW 統計量
43.1LD 54.1
UD
46.24 UD
57.24 LD
DW
0 1 2 3 4
といえる。で正の系列相関がある有意水準
を棄却する。の領域に入るのでは
%50:038.1 0
HDDWDW L
38.1DW
正の系列相関 負の系列相関
コクラン=オーカット法
29
AR(1)モデルの推定
iiii
iii
iii
iii
iii
iii
iii
XYXuXY
XYuu
ARXYu
uXY
uXYi
11
11
1
111
111
111
1)37.7(
:1
推定モデルは
モデルに代入すると
を乗じると両辺に
期の回帰式
iii uu 1
38.711 iiiii XXYY
(7.38)の推定⼿順
を求める。残差
を推定して
i
iii
uuXY
ˆ:]1[
を得る。の推定値
を推定
モデルを利用して
ˆˆˆ:
1ˆ:]2[
1 iii
i
uuARu
を推定として 38.7
ˆ
ˆ:]3[
1*
1*
iii
iii
XXX
YYY
38.7**iii XY
表7.12 消費と所得 (n=39, m=1)
30
を利用する39,,2 i
の推定結果を利用iii uXY :]1[
を推定iii uu 1ˆˆ:]2[
「ラベル」のチェックをはずす 「定数に0を使⽤」にチェック
係数 標準誤差 t P-値切⽚ 0 #N/A #N/A #N/AX 値 1 0.286784 0.165299 1.734938 0.091076
286784.0ˆ
iu 1ˆ iu
年~年~ 19971960ˆ19981961ˆ 1
*
iii YYY
配列コピーを利⽤して計算
** 655.0110.4ˆii XY
コクラン=オーカット法適用後のDW
31
** 655.0110.4ˆii XY
74.1
1597.2379534.412
ˆ
ˆˆ
1
2
2
21
n
ii
n
iii
u
uuDW
いえない。で系列相関があるとは有意水準
を棄却しない。の領域に入るのでは
%50:474.1 0
HDDWDDW UU
コクラン=オーカット法によって系列相関は消滅