Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
東京⼤学 北川源四郎
時系列解析(4)
1.情報量規準AIC(続)2.AICによるモデル選択(例)3.回帰モデルと最⼩⼆乗法
− 配布⽤ −
東京⼤学 数理・情報教育研究センター北川源四郎
時系列解析 1
東京⼤学 北川源四郎 2
記号と準備(復習)
( )( | )
g xf x
*
0)|(log
)|(logmax)|(log*
*
YfE
YfEYfE
Y
YY
2
( ) log ( | ) log ( | )
( ) ( | )T
TI E f Y f Y
J E f Y
真のモデルパラメトリックモデル
「真」の値
最尤推定値
1 1
1
ˆlog ( | ) max log ( | )
ˆlog ( | ) 0
n n
i ii i
n
i
f x f x
f Y
I():Fisher情報行列,J():Expected Hessian
0 0( ) ( | ) , g x f x
0
0 0 0 0
ˆ
ˆ( ) (0, ( ( (-1 -1) ) ) )n
nn N J I J
0 0 0
0 0 0
1 110 0 0 0
110 0
ˆ ˆ( ) ( )( )
ˆ ˆ( ) ( )( )
( ) ( ) ( ) ( )
( ) ( )
tr
tr
tr
T
T
n
n
E J
J E
J J I J
I J
が存在しない場合でも
東京⼤学 北川源四郎 3
バイアスの評価
321
0
00
0
))(ˆ|(log)|(log
)|(log)|(log
)|(log))(ˆ|(log
))(ˆ|(log))(ˆ|(log
1
11
1
DDDXYfEYfE
YfEXf
XfXXf
XYfEXXfD
YY
Y
Y
n
nn
n
対数尤度 平均対数尤度
*
log ( | ( ))f X X
E f Y XG log ( | ( ))
D
D1
D2
D3
対数尤度
平均対数尤度
東京⼤学 北川源四郎
20 0 0
10 0 02
10 0 0 02
ˆlog ( | ( ))ˆlog ( | ) log ( | )( )
ˆ ˆ( ) log ( | )( )
ˆ ˆlog ( | ) ( ) ( )( )
Y
Y YT
Y
TY
E f Y XE f Y E f Y
E f Y
E f Y J
4
13 0
11 0
2 0 0
1ˆlog ( | ) log ( | ( ))2
1ˆlog ( | ( )) log ( | )2
1 log ( | ) log ( | ) 0
tr
X X Y Y
X X
X X Y
E D E E f Y E f Y X tr IJn
E D E f X X f X IJn
E D E f X E f Yn
00
D1, D2, D3 の評価
))(ˆ|(log XYfEY
東京⼤学 北川源四郎 5
情報量規準
11 2 3( ) [ ] [ ] [ ] ( ) ( )trb G E D E D E D I G J G
1ˆ2 log ( | ) 2 { ( ) ( ) }TIC trf x I G J G
竹内 (1976),Stone(1977)
ˆ2 log ( | ) 2 ( )IC f x b G
竹内(1976)
ˆ2 log ( | ( )) 2AIC f X X k
10 0( ) { ( ) ( ) } { }tr tr kb G I J I k
0 0 0( ) ( | ) ( ) ( ) such that g x f x I J
k: パラメータ数 (の次元)
東京⼤学 北川源四郎 6
AICc 有限修正
GIC 統計的汎函数で定義される任意の推定量
EIC Bootstrap法によるバイアス推定
ABIC ベイズ型情報量規準
** * * *1 ˆ ˆ( ) log ( | ( )) log ( | ( ))
Xb G E f X X f X X
n
(1) log ( | )( ) ( ; ) ( ) tr f xb G T x G dG x
2)1()(
pn
pnGb
2max log ( | ) ( | ) 2ABIC f x d q
その他の情報量規準
東京⼤学 北川源四郎 7
参考書
• 坂元慶⾏, ⽯⿊真⽊夫, 北川源四郎(1983). 「情報量統計学」, 共⽴出版,情報科学講座 A.5.4
• Y.Sakamoto, M.Ishiguro and G.Kitagawa (1986) Akaike Information Criterion Statistics,D.Reidel, Dordrecht.
• Burnham, K. P., & Anderson, D. R. (2003). Model selection and multimodelinference: a practical information-theoretic approach. Springer.
• ⼩⻄貞則,北川源四郎(2004)「情報量規準」,朝倉書店,予測と発⾒の科学2• ⽵内・下平・伊藤・久保川(2004):モデル選択,統計科学のフロンティア,岩
波書店• ⾚池弘次・⽢利俊⼀・北川源四郎・樺島祥介・下平英寿,編者 室⽥⼀雄・⼟
⾕隆(2007)「⾚池情報量規準AIC−モデリング・予測・知識発⾒」共⽴出版• S. Konishi and G. Kitagawa (2008). Information Criteria and Statistical
Modeling,Springer Verlag
(詳細はKonishi‐Kitagawa(2008))
東京⼤学 北川源四郎 8
関連論⽂リスト
• Akaike, H. (1973), “Information theory and an extension of the maximum likelihood principle.” Proc. 2nd International Symposium on Information Theory , B. N. Petrov and F. Csaki eds., Akademiai Kiado, Budapest, 267-281.
• Akaike, H. (1974), “A new look at the statistical model identification.” IEEE Trans. Automat. Contrl., AC-19, No. 6, 716-723.
• 竹内啓, (1976). 情報統計量の分布とモデルの適切さの規準,< 特集>
情報量規準. 数理科学, 14(3), 12-18.
• Konishi and Kitagawa (1996), “Generalized Information Criteria in Model Selection”, Biometrika, Vol. 83, No.4, 875-890.
• Ishiguro, Sakamoto and Kitagawa (1997), “Bootstrapping Log Likelihood and EIC, an Extension of AIC”, Annals of the Institute of Statistical Mathematics, Vol. 49, No. 3, 411-434.
(詳細はKonishi‐Kitagawa(2008))
東京⼤学 北川源四郎 The University of Tokyo 9
ヒストグラムのBin Size の決定
Bin Size log‐LK AIC
28 ‐189.19 432.38
14 ‐197.72 421.43
7 ‐209.52 431.03)1(2log)2(
ˆ
log),,(
!!!}){|}({
1
11
11
1
kj
nnC
nn
p
pnCpp
ppnn
npnP
k
j
jjk
jj
j
k
jjk
nk
n
kjj
k
AIC
Histogram of galaxy data
k = 28 k = 7k = 14
Galaxy data (Roeder (1990))0 5 2 0 0 0 0 0 2 0 4 18 13 6
11 9 6 1 2 0 0 0 0 0 2 0 1 0
k = 7k = 14
Best Too small
東京⼤学 北川源四郎 The University of Tokyo 10
モデル選択例:分布の形状の選択
22
121
212
21
2
1
2
22
2
)(log)(log)log()(loglog)(
),,|(log),,(
),,|(
n
N
n
n
N
n
b
ybbbbN
byfb
yCbyf
b Log-L AIC
0.60 0.801 0.030 ‐58.84 121.69
0.75 0.506 0.431 ‐51.40 106.79
1.00 0.189 1.380 ‐47.87 99.73
1.50 0.185 4.152 ‐47.07 98.14
2.00 0.201 8.395 ‐47.43 98.86
2.50 0.214 13.87 ‐47.82 99.63
3.00 0.222 20.21 ‐48.12 100.25
0.166 8.545 ‐49.83 103.66
b=1.5
Pearsonʼs family of distributionsSelect the shape parameter b
b=0.75
b=3.0
b=
2 1 1 12 2( ) / ( ) ( )bC b b
東京⼤学 北川源四郎
2350
2360
2370
2380
2390
-1 -0.8-0.6-0.4 -0.2 0 0.2 0.4 0.6 0.8 1
数理⼿法 VII (時系列解析) 11
Box‐Cox 変換のパラメータ決定
dydh
yhfdydhyg
yyyhz
zz
n
nnn
log2'
))(()(
0log0)1()(
1
AICAIC
for for
-1.0 -0.5 -0.3 0.0 0.3 0.5 1.0
log-L 1030.8 482.4 -261.7 -70.8 -405.0 -628.9 -1191.9
AIC -2057.6 -960.8 -519.5 145.5 814.1 1261.7 2387.9
AICʼ 2365.1 2356.2 2355.3 2356.9 2362.0 2367.4 2387.9
Original WHARD data (US BLS) Best Box-Cox transformation (=0.1)
AIC vs.
best
Jacobian of the transformation
東京⼤学 北川源四郎
plot(sunspot,ylim=c(0,200))y <- log( sunspot )plot(y)
log y(n)
y(n)
太陽⿊点数データ
数理⼿法VII(時系列解析) 12
logn ny x
東京⼤学 北川源四郎
lambda aic' LL' aic LL mean variance1.00 2360.26 ‐1178.13 2360.26 ‐1178.13 4.909502e+01 1.575552e+030.90 2335.22 ‐1165.61 2174.47 ‐1085.24 3.545844e+01 7.049401e+020.80 2313.48 ‐1154.74 1991.98 ‐993.99 2.591126e+01 3.199262e+020.70 2295.33 ‐1145.66 1813.07 ‐904.54 1.917397e+01 1.474669e+020.60 2281.11 ‐1138.56 1638.11 ‐817.05 1.437922e+01 6.914276e+010.50 2271.26 ‐1133.63 1467.50 ‐731.75 1.093610e+01 3.303737e+010.40 2266.32 ‐1131.16 1301.81 ‐648.91 8.439901e+00 1.612487e+010.30 2267.05 ‐1131.52 1141.79 ‐568.90 6.611858e+00 8.065706e+000.20 2274.59 ‐1135.29 988.58 ‐492.29 5.258840e+00 4.155209e+000.10 2290.79 ‐1143.40 844.03 ‐420.01 4.246205e+00 2.222464e+000.00 2318.78 ‐1157.39 711.27 ‐353.63 3.479466e+00 1.250918e+00‐0.10 2363.66 ‐1179.83 595.39 ‐295.70 2.891856e+00 7.574966e‐01‐0.20 2432.86 ‐1214.43 503.84 ‐249.92 2.435839e+00 5.096385e‐01‐0.30 2534.61 ‐1265.31 444.85 ‐220.42 2.077302e+00 3.947690e‐01‐0.40 2673.75 ‐1334.88 423.23 ‐209.62 1.791544e+00 3.595107e‐01‐0.50 2848.16 ‐1422.08 436.89 ‐216.45 1.560501e+00 3.814048e‐01‐0.60 3050.32 ‐1523.16 478.30 ‐237.15 1.370809e+00 4.562814e‐01‐0.70 3271.90 ‐1633.95 539.12 ‐267.56 1.212437e+00 5.937308e‐01‐0.80 3506.54 ‐1751.27 613.01 ‐304.51 1.077716e+00 8.175441e‐01‐0.90 3750.16 ‐1873.08 695.88 ‐345.94 9.606427e‐01 1.170321e+00‐1.00 4000.25 ‐1998.13 785.23 ‐390.61 8.563591e‐01 1.722986e+00lambda = 0.40 AIC' minimum = 2266.32
data(Sunspot) # Sun spot number data boxcox(Sunspot)
東京⼤学 北川源四郎 数理⼿法VII(時系列解析) 13
AICʼによる変換パラメータの選択
東京⼤学 北川源四郎
data(Sunspot) # Sun spot number data boxcox(Sunspot)
東京⼤学 北川源四郎 数理⼿法VII(時系列解析) 14
0.3
東京⼤学 北川源四郎
多項式回帰(例)
-0.2
0
0.2
0.4
0.6
0.8
0.00 0.20 0.40 0.60 0.80 1.00x
時系列解析 15
i x (i ) y (i )1 0.00 0.1252 0.05 0.1563 0.10 0.1934 0.15 -0.0325 0.20 -0.0756 0.25 -0.0647 0.30 0.0068 0.35 -0.1359 0.40 0.10510 0.45 0.13111 0.50 0.15412 0.55 0.11413 0.60 -0.09414 0.65 0.21515 0.70 0.03516 0.75 0.32717 0.80 0.06118 0.85 0.38319 0.90 0.35720 0.95 0.60521 1.00 0.499
y: ⽬的変数 x: 説明変数y
東京⼤学 北川源四郎
多項式回帰モデル
( )i i iy f x 2
0 1( ) , ~ (0, )mm if x a a x a x N
mimiiii xaxaaNy 10
2 ),,(~
時系列解析 16
0ay)|( xyf
x
y
0ay
2210 xaxaay
)|( xyf
x
y
2210 xaxaay
東京⼤学 北川源四郎
モデル選択
次数 パラメータ数 残差分散 AIC-1 1 0.05889 2.120 2 0.03427 -7.251 3 0.01669 -20.352 4 0.00866 -32.133 5 0.00839 -30.804 6 0.00800 -29.795 7 0.00798 -27.86
時系列解析 17
東京⼤学 北川源四郎
-80
-70
-60
-50
-40
0 1 2 3 4 5 6 7 8 9
18
モデル選択例:多項式回帰の次数
)2(2ˆlog)12(logAIC2
)ˆ2log(2
)ˆ(
21)2log(
2)(
),,,,(
),0(~,
2
2
2
1 02
2
210
210
pnn
nn
yyn
Nxxy
p
n
i
p
jjiji
p
pp
小西・北川 (2004) p60
0.0005
0.00075
0.001
0.00125
0.0015
-1 0 1 2 3 4 5 6 7 8 9
s…2
AICp
p
p
残差分散は単調減少
東京⼤学 北川源四郎
Estimated Regression Curves
-0.2
0
0.2
0.4
0.6
0.8
0.0 0.2 0.4 0.6 0.8 1.0
時系列解析 19
東京⼤学 北川源四郎
シミュレーション
‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1
‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1
時系列解析 20
東京⼤学 北川源四郎
制約モデル
例えば回帰式の最⼩値が 0 となることを知っていたら
iii bxay )( 2
0.00875ˆ,3035.0ˆ,1515.1ˆ 2 ba2ˆ21(log 2 1 log 0.00875) 2 3 33.92 32.13AIC
‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1‐0.2
0
0.2
0.4
0.6
0.8
0 0.2 0.4 0.6 0.8 1
時系列解析 21
東京⼤学 北川源四郎
data(TemperData) # Highest Temperature Data of Tokyolsqr(TemperData)
polreg(TemperData,7)
三⾓関数回帰モデル
多項式回帰モデル
2( ) ~ (0, )i i i iy f x N
1 1( ) sin( ) cos( )
m
j jj j
f x a b jwn c jwn
0 1( ) mmf x a a x a x
東京⼤学 北川源四郎
data(Whard) # Wholesale hardware datay <‐ log10(Whard)polreg(y, 14)
Whardデータ(多項式回帰)
東京⼤学 北川源四郎
重回帰モデル
都市名 気温 緯度 経度 標高
y x1 x2 x3稚内 -8.0 45.42 141.68 2.8旭川 -13.6 43.77 142.37 111.9札幌 -9.5 43.05 141.33 17.2青森 -5.4 40.82 140.78 3.0盛岡 -6.7 39.70 141.17 155.2仙台 -3.2 38.27 140.90 38.9金沢 -0.1 36.55 136.65 26.1長野 -5.5 36.67 138.20 418.2高山 -7.6 36.15 137.25 560.2
軽井沢 -10.0 36.33 138.55 999.1名古屋 -0.9 35.17 136.97 51.1飯田 -4.7 35.52 137.83 481.8東京 -0.4 25.68 139.77 5.3鳥取 0.5 35.48 134.23 7.1京都 -0.6 25.02 135.73 41.4広島 0.2 34.37 132.43 29.3福岡 1.5 33.58 130.38 2.5
鹿児島 2.0 31.57 130.55 4.3高知 0.1 33.55 133.53 1.9那覇 13.5 26.23 127.68 34.9
時系列解析 24
東京⼤学 北川源四郎 The University of Tokyo 25
Variable Selection for a Regression Model
None154.9
x1119.7
x3151.9
x2128.3
x1, x2119.7
x1, x388.9
x2, x3122.4
x1, x2 , x390.8
‐3.0
‐35.2
‐0.0
‐5.9
‐8.6
‐63.0
1.9
‐28.9
‐31.6‐29.5
‐26.6
‐30.8
)2(2ˆlog)12(log),,(AIC
21)2log(
2),,,,(
),0(~,
2321
2
1
3
102
223210
23322110
knnxxx
xxaaynaaaa
Nxaxaxaay
nnn
n
i jjnjnjn
nnnnnn
yn: Temperature, x1n: Latitude, x2n: Longitude, x3n: Altitude
)490.1,0(~,010.0208.1490.40 31
Nxxy
n
nnnn
Selected model
Select variables among x1, x2, x3 appropriate to predict yn
Changes of AIClongitude
latit
ude
東京⼤学 北川源四郎
Householder法
:U 任意の直交変換2 2 2 2( )N N N N
y Za U y Za Uy UZa
22 minmin UZaUyaa
11 1 1, 1
, 1
1, 1
|
0
m m
mm m m
m m
s s s
X z y UX S s s
s
1m
時系列解析 26
(ベクトルの⻑さを変えない)
N
東京⼤学 北川源四郎
最⼩⼆乗法(Householder法)
1, 1 11 11
1
2 21, 1 11
1, 1
1, 1 11 1 1
2 21, 1
, 1
|| ||
0 0
|| ||
m
NmN
mm
m m
m m m
m m mm m
s s s
a
Uy UZa s s
as
s s s a
s
s s a
時系列解析 27
東京⼤学 北川源四郎
最⼩⼆乗解
1,
1,11111
mm
m
mmm
m
s
s
a
a
s
ss
, 1
, 1 , 1 1 ,
21, 12
ˆ
ˆ ˆˆ 1, ,1
ˆ
m mm
mm
i m i i i i m mi
ii
m mm
sa
ss s a s a
a i ms
sn
時系列解析 28
東京⼤学 北川源四郎
AICによる次数選択
mk 1,...,for
時系列解析 29
2
2
ˆ ˆ( ) log 22 2
ˆ2 ( ) 2( )ˆ(log 2 1) 2( 1)
AIC
m
m
m
N N
N m
パ ラ メ ー タ 数11 1 1 1, 1
, 1
, 1
1, 1
0
k m m
kk km k m
mm m m
m m
s s s s
s s s
s s
s
1,
1,11111
mk
m
kkk
k
s
s
a
a
s
ss
2 2 21, 1 1, 1
2
1ˆ
ˆ(log 2 1) 2( 1)AICk k m m m
k k
s sn
N k
東京⼤学 北川源四郎
Householder変換
a
Uab
ba w
)(2 awwa T
TwwIU 2
IwwwwwwIwwIwwIUU
TTT
TTTT
44)2)(2(
時系列解析 30
東京⼤学 北川源四郎
Householder変換
babaw
bba
bababaa
bababa
babaa
aba
babaa
awwIUa
T
T
T
2
22
2
2
))(()(
)()())((
2))(()2(
bUaUba such that 22
時系列解析 31
東京⼤学 北川源四郎
Householder変換
1)1(
11 ax
)2()2(3
)2(3
)2(33
)2(2
)2(23
)2(22
)1(1
)1(13
)1(12
)1(11
12
00
000
nmn
m
m
m
xx
xxxxxxxxx
XUU
時系列解析 32
0
0 , ,
)1(11
1
11
11
11
1
21
22221
11211
x
b
x
xx
a
xxx
xxxxxx
X
nmnn
m
m
)1()1(2
)1(2
)1(22
)1(1
)1(12
)1(11
1
0
0
mmn
m
m
xx
xxxxx
XU