Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
10
モデル選択法
10.1よいモデルとは
統計的モデル
7章において、いくつかの説明変数から目的変数を
予測する方法として多重回帰モデルを扱った。
それらの説明変数のなかからどの説明変数を
用いた方がよいかの問題が生じる。
10.1よいモデルとは
今、 Z の値とともに変化する Uに関して、次のような 11個の
観測地が与えられている例で考えてみよう。
表 10.1 xとUについての観測地
2.00 2.50 3.00 3.50 4.00 4.500 5.00 5.50 6.00 6.50
-4.10 -1.49 -3.66 -1.92 -1.42 2.60 5.54 7.66 11.41 16.23
これらの観測値を (X1,Y1), (X2, Y2),・・., (仇?仇)と表す。
今、n= 11である.
このデータに対して、直線回帰モデ、ルを当てはめたモデ、ルを考える.
10.1よいモデルとは
直線回帰モデル
M1 : Yi ==グo+ sIXi +εh t =1γ ・・川
誤差項ε1ぅ・・・ うらは互いに独立で、?
それぞれ?正規分布 N(O,σ2)に従っている.
グ0,グ1,σ2は未知パラメ ータ.
10.1よいモデルとは
直線回帰モデル
M1 : Yi ==グo+ sIXi +の
またう次のモデルを考える.
|2次曲線回帰モデ、ノレ |
M2: Yiニグo+ sIXi + s2X; +。|3次曲線回帰モデ、ル |
M3: Yi ==グo+ sIXi + s2X; + s3Xt +ε4
10.1よいモデルとは
モデル M1の説明変数 :x
モデル M2の説明変数 :x, X2
モデル M3の説明変数 :x, X2, X3
どのモデルが最適であろうか。
10.1よいモデルとは
モデルのよさの重要な側面として 当てはまりがよい
ことが挙げられる。
モデル M1では直線を当てはめるが、最小 2乗法
によって求められる。
|(Yl -sO -sIXl)2 + ... + (Yn -sO -sIXn)2 I を最小にするような (sO,sl)の値 (bo,b1) , そのときの平方和である残差平方和srを求める.
10.1よいモデルとは
このとき、最小 2乗法によって求められた直線は
y == bo + b1xとして与えられる。
当てはまりの程度はう
そのときの残差平方和の値で測られる.、 ノ
10.1よいモデルとは
このとき,Jk[1, Jk[2, Jk[3は次のようになる.
y == -13.482 + 3.961x,
y == -0.5770 -3.6861x + 0.9559x2,
ν== -5.13312 + 0.60868x -0.22751x2 + 0.09862x3
また?残差平方和は次のようになる.
si == 58.59 > s~ == 9.59 > s~ == 8.65
10.1よいモデルとは。
凶
ー
, ,,
。。ー
。, , ,
> 凶
。
Q'
。/-' ,
e
. -.ーや・一ー
'!'-l。
2 3 4 5 6
•
これより?モデル M3ヲM2,Mlの順に当てはまりが
よいことになる O
10.1よいモデルとは
一方?モデルのよさを測る別な尺度として?
モデ、ルの複雑度がある。
モデルが単純
解釈も簡単
予測に際して安定している
10.1よいモデルとは
モデル lげたの複雑さを測る簡単な尺度として?
モデ、ルに含まれる未知パラメータの数dkを用いる。
モデル M1の未知ノミラメータ :sOぅsl,σ2
モデル M2の未知ノ々ラメータ :sO, slぅs2ぅσ2
モデ、ル M3の未知ノミラメータ:sOぅslぅ s2,s3,σ2
d1二 3< d2二 4< d3二 5
10.1よいモデルとは
よいモデルを特定しようと考えると…
山まりをよ く 山ド~知的問
簡単なモデノレにしよう 当てはまりが悪くなる
という ジレンマに陥る…
両者をうまく取り入れた基準についてみていこう!!
10.2モテ、ル選択基準
統計的モデリングと予測
真の分布
予推 調リ疋rムー, モ
現在のデータ| 》 ー ー 守
ア ‘ ノレ
予調1
》
|将来のデータ
評価
10.2モテ、ル選択基準
未知の確率分布関数G(x)に従って観測された η 個の
データをね=={X!,X2γ ・.,Xn} とする。データを発生
するこの確率分布関数 G(X)を以下では真のモデルまたは
真の分布と呼ぶことにする。
これに対してわれわれが想定したモデルを F(x)とする。
確率分布関数 G(x)およびF(x)がそれぞれ密度関数g(x)
および f(x)をもっ場合は連続モデル(連続分布モデ、ル)
という O
10.2モテ、ル選択基準
一方、g(x)および f(x)が有限または加算無限個の離散点
{XlぅX2γ ・.,Xk,...}に対して、次のように
事象 {ω;X(ω)=的}の確率
gi二 g(Xi)三 Pr({ω;X(ω)二 Xi}),
点二 f(Xi)-Pr( {ω; X(ω)二Xi})う t二1,2, .
で表される場合は、離散モデ、ル(離散分布モデ、ル)という O
10.2モテ、ル選択基準
モデルが p次元のパラメータ(未知)
θ=(Oh---うBp)'
によって規定される場合には、 f(xlθ)と表される。
データから未知のパラメータ θを最尤法によりある
推定量 Oを求めることによって 1つのモデ、ル
f(xI8) Iが得られる。
このモデ、ノレの良さ、悪さをどう評価するか・
10.2モテ、ル選択基準
モデ、ノレf(x)のよさを?
真のモデ、ルg(x)との確率分布としての近さ
によって評価するものとする。
Akaike(1973)は、この近さを測る尺度として、次の
カノレバックーライブラー情報量 (K-L情報量と呼ぶ)
を用いることを提案した。
10.2モテ、ル選択基準
K-L情報量は情報理論のエントロピーの概念から導かれる。
確率変数zを観測したとき、 zが持っていた情報量を
-logg(x)
と定義する。 g(x)はzが従う真の分布である。
このとき情報量の期待値
Eg(a)[-logg(x)] = J -logg(x)g(x)dx
であり、エントロピーと呼ばれる。
10.2モテ、ル選択基準
ここで、 Eg(a)は確率密度関数g(x)に関する期待値を
表す。すなわち、
Eg(a) [口]== J口xg(x)dx
である。 しかし、 真の分布g(x)は未知であるので、実際に
用いることはできない。そこで情報量を-logf(x)に置き
換える。すなわち、情報量の期待値は
Eg(a) [-log f(x)] == J -log f(x )g(x )dx
となる。
10.2モテ、ル選択基準2つの情報量期待値のズレは
Eg(a) [ -logf(x)] -Eg(a)[-logg(x)]
=/戸ρトい一log 仰削)+刊l馴 z刈刈巾)リ山}g伊
fL_g(X) 二 Ilog :~-=~ g(x)dx J --0 f(x)
二 Eg(♂)[叶21=l(g; f)
となり、この量を|K-L情報量|と呼んでいる。
10.2モデル選択基準
K-L情報量は次のような性質がある。
(i)I(g; f)三O
(ii)I(g; f) == 0φ g(x) == f(x)
この性質から、
K-L情報量の値が小さいほど、モデ、ル f(x)はg(x)の近い
と考えることができる。
つまり、分布聞の何らかの近さを計る尺度である。
10.2モテ、ル選択基準
将来真のモデルからランダムに採られたデータ Y 二 U
の従う分布 g(y)を、構築したモデルj(yIO)で予測した
ときの平均的なよさ(悪さ)を評価したい。
この 2つの分布聞の近さを測るのに用いるのが、
K-L情報量である。
r. g(Y) 1 !(g(y); j(ν10)) = Eg(y) Ilog I'~ーァ|
L ~ j(YIO)J
= Eg(y) [log g(Y)] -Eg(ν) [log j(YIO)]
ここで、 Oは得られたデータ Xn= {Xl, • . . ,Xn}から
推定されたものである。
10.2モテ、ル選択基準
これは、想定したモデルfで将来のデータ yを予測
したときの平均的なズレを示している。
第 1項は真のモデ、ルgにのみ依存する定数である。
よって、平均対数尤度と呼ばれる第 2項である
Eg(ν) [log f(YIθ)]
を考えることになる。
10.2モテ、ル選択基準
想定したモデルfで将来のデータ Uを予測したときの
リスク(危険度)を
RA ~ (-2) x Eg(an)Eg(y) [log f(ylθ)]
と定義する。
注意 Xn とUは独立である。
(-2 )倍なのでリスクが最小になるようなモデ、ノレを選~o
10.2モテ、ル選択基準
RAには未知の量である Uが含まれているので、直接計算
することができない。
そこで、RAの適当な推定量を構成する必要があるO
RA = (-2) x Eg(an)Eg(y) [log f(yIO)]
= (-2) x Eg(an)Eg{ν) [log f(xη|θ) + log f(yIO) -log f(xη|θ)]
I()L_f(xnlO) 1 = Eg(an) [-21og f(xnIO)] + Eg(an)Eg(ν)|2log |
L ~ f(ylθ) J
= Eg(an)[-21ogf(xnIO)] + BA
10.2モテ、ル選択基準
BA=Eι弘以仰(伊仇川忽仇川n川λ)
は RAを一210gf(切Xr川bバ10的)で推定したときのパイアスと考えられるo
ここでで、、RAの推定量の構成法として
KA =-22241ogf(Zαle) + EA
が考えられる。第 1項は対数尤度である。
10.2モテ、ル選択基準
赤池は BAが想定しているモデルfが真のモデ、ルgを
含んでいるときに、漸近的に
BA -→2 x (独立パラメータ数),(n→∞)
となることを提案した。このときのリスクの推定量 RA
が AICである。すなわち、
AIC二一2x(対数尤度)+2x (独立パラメータ数)
と表現される。
10.2モテ、ル選択基準
AIC基準
η個のデータ Yl,• •• ,Ynの真の確率密度を g(Yl,・・・ ,Yn)とする。
候補のモデ、ルM は、ν=(Yl,'" ,Yn)'に想定される確率分布族が
M: yの確率密度関数は f(ν;θ), 8εθ
として与えられているとする。
(θ:未知パラメータ,それらが属する空間 θは既知)
このとき
AIC二 -2logf(υ;θ) + 2d として定義される。
(O : (}の最尤推定値 ,d :モデノレに含まれる独立パラメータ数)
10.2モテ、ル選択基準
各モデ、ルに対して AICの値を求め、その値が
最小になるモデ、ルを最良のモデ、ルと考える。
10.2モテ、ル選択基準
Cp基準
これは基準化予測誤差の 2乗和の推定量と して定義される。
モデル Mkに対するこの基準は
で定義される。
1-- - - ------,ー ~2~ ーーーーー一一一 -1
i q,k=芸+2(dk-1) i
ここに、 δ2はσ2の推定量で、通常最大モデ、ルのもとでの
不偏推定量が用いられる。
10.3適合度モデ、ルの選択
適合度の問題をモデル選択の方法により考える。
さいころの適合度検定問題
いま、 6個の互いに排反な事象 A1γ ・・,A6があって、
それらの確率、および出現頻度が
次のように与えられているとしよう。
事象 A1 A2 • • A6 計
確率 Pl P2 • • • P6 1
出現頻度 nl η2 • • • n6 η
10.3適合度モデ、ルの選択
このとき、 η 回の独立実験において Alがnl回?.
A6がn6回起る確率、すなわち尤度は
となる。
L ==L(Pl,...,p6;nl,'・・ ?η6)
η! p~l ・・・ p;6
l! . . . n6! r 1 r 0 .. .
10.3適合度モデ、ルの選択
関心のあるモデル として、
さいころにゆがみが無いとするモデル
1 1 M1: Pl = 6 '・・? PK= 5
さいころにゆがみがあるとするモデル
M2: Plγ ・・ ?れはそれらの和が 1である正数
を考える。
モデル M2は、 Pl,• ・ ・ , P6 に対して特定な値あるいは特定な
構造を想定しないモテ、ルで、あって、無構造モテ、ルともよばれる。
10.3適合度モデ、ルの選択AIC基準は
|AL-210gL十 2x伽パラメー矧)
と表されるD
ここに、 Lは考えているモデルのもとでの尤度 Lの最大値である。
それぞれのモデルにおける AIC基準は
~ ,1 1 、
AIC1 = -21ogL(~ " ・ け一 ) 、6' '6 ノ
AIC2二一210gL(Pll .・・ J6;nu・・ ・,n6) + 2 (6 -1)
となる。 ここで、ふはPiの最尤推定量で次のよう に与えられる口
^ nl ^ nk Pl二一-, ... ,Pk二一一η η
10.3適合度モデ、ルの選択今、 120回さいころを投げたとき、出現回数が次のように与えたとする。
さいころの目
出現回数
1234561計
17 22 21 14 22 24 I 120
モデル M1に対する AIC基準
AIC1 士 一2ベやか(←←い
1口山7ηl吋+山;ト+山;ト+14凶 10
+山g;+M吋)= 26.00
10.3適合度モデ、ルの選択
モデル M2に対する AIC基準
( _ 17 22 21 14 -21 171og-__ + 221og-_-_ + 211og-_-_ + 1410g ¥ ----0 120 . ----0 120 . ----0 120 ・ 0120AIC2 二
24¥ + 2210g一+2410g "1-n~ I +2 x (6-1)
120 . U 120 J
= 32.33
AIC1く AIC2よりこのさいころはゆがみが無い と判定される。
10.3適合度モデルの選択独立性の検定問題
2つの事象 AとBがあり、これらの事象の生起によって
定まる確率、および η 回の独立試行による観測値が次の
ように与えられているとする。
確率 観測値
B BC 計 B BC 言十
20 P12 Pl・ A
曾 n12 nl・
P22 P2・A C η22 Iη2
P.l P.2 1 計 In.l ¥n.2 I η
AnBが起きる確率 η 回の試行で AnBが起きた回数
10.3適合度モデ、ルの選択
このとき、η 回の独立試行の結果、上記のような結果が得られる
確率である尤度は
となる。
L ニ L(pu,p山 P21,P22;nU, n山口21,n22), η! 日目白日
1111PitlpIFP221p232 nu !n12 !n21 !n22・
M1 : AとBは独立であるとするモデル
M2 :独立でないとするモデル
10.3適合度モデ、ルの選択
モデル M1はパラメータ p,q (0く pく 1ぅOく qく 1)を用いて
M1 P11 = pq P12 = p( 1 -q)
P21 = (1 -p) q P22 = (1 -p) (1 -q)
モデル M2はいわゆる無構造モデ、ルで、あって、パラメータ
仏 b,c, d (α>0うb> 0, c > 0、d>Oを用いて
M2 P11二仏 P12二 b,P21二 C,P22二 d
α+b+c+d=l
10.3適合度モデ、ルの選択このとき、それぞれのモデルにおける AIC基準は
AIC1二 一 2L(ムq;nll,n12,n21,n22)+ 2 x 2
AIC2 = -21og L(a, b,と,d;口11,n払 n21,n22) + 2 x 3
として与えられる o
。7d:モデル M1のもとでの p,qの最尤推定量
ムb,と,d :モデル M2のもとでの α,bヲ c、dの最尤推定量
ー一η
1一n
n一
η一
一一一一
AP晶
〈
α
n.l q=一一?
n
b = n12 n
〈 n21C二 一 一 一 う
n d-竺2-
n
10.3適合度モデ、ルの選択この結果を次のような予防注射と病気のデータに
適用してみよう。
予防注射¥病気 かかった かからなかった 計
受けた 5 45 50
受けなかった 20 80 100
言十 25 125 150
M1 :予防注射と病気に関連性がないとするモデル
M2 :予防注射と病気に関連性があるとするモデル
10.3適合度モデ、ルの選択
M1に対するAIC基準は
(____ 50 25 ___ 100 ____ 125¥ AIC1 = -21 5010g一一+2510g -.-"-A + 10010g ~ :~ + 12510g ~:~ I ¥ ----0 150 . ----0 150 . -----0 150 . -----0 150)
+2x2
一 益斗よ2
M2に対する AIC基準は
( _ 5 45 20 80¥ AIC2 = -21 510g -. :A + 4510g -. -"-A + 20 log -.-..--A + 80 log -.-"'-A ) ¥ ---0150 . ----0150 . ----0150 . ----0150)
+2x3
= 329.54
10.3適合度モデ、ルの選択
AIC1: 330.12 > AIC2: 329.54より、
2つのモデ、ルの適切についての差は僅かであるが、
予防注射と病気に関連性があると判定される。