10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。確率変数. z. を観測したとき、 ... 赤池は . B

1

10

モデル選択法

10.1よいモデルとは

統計的モデル

7章において、いくつかの説明変数から目的変数を

予測する方法として多重回帰モデルを扱った。

それらの説明変数のなかからどの説明変数を

用いた方がよいかの問題が生じる。


今、 Z の値とともに変化する Uに関して、次のような 11個の

観測地が与えられている例で考えてみよう。

表 10.1 xとUについての観測地

2.00 2.50 3.00 3.50 4.00 4.500 5.00 5.50 6.00 6.50

-4.10 -1.49 -3.66 -1.92 -1.42 2.60 5.54 7.66 11.41 16.23

これらの観測値を (X1，Y1)， (X2， Y2)，・・.， (仇?仇)と表す。

今、n= 11である.

このデータに対して、直線回帰モデ、ルを当てはめたモデ、ルを考える.


直線回帰モデル

M1 : Yi ==グo+ sIXi +εh t =1γ ・・川

誤差項ε1ぅ・・・うらは互いに独立で、?

それぞれ?正規分布 N(O，σ2)に従っている.

グ0，グ1，σ2は未知パラメータ.


直線回帰モデル

M1 : Yi ==グo+ sIXi +の

またう次のモデルを考える.

|2次曲線回帰モデ、ノレ |

M2: Yiニグo+ sIXi + s2X; +。|3次曲線回帰モデ、ル |

M3: Yi ==グo+ sIXi + s2X; + s3Xt +ε4


モデル M1の説明変数 :x

モデル M2の説明変数 :x， X2

モデル M3の説明変数 :x， X2， X3

どのモデルが最適であろうか。


モデルのよさの重要な側面として当てはまりがよい

ことが挙げられる。

モデル M1では直線を当てはめるが、最小 2乗法

によって求められる。

|(Yl -sO -sIXl)2 + ... + (Yn -sO -sIXn)2 I を最小にするような (sO，sl)の値 (bo，b1) ，そのときの平方和である残差平方和srを求める.


このとき、最小 2乗法によって求められた直線は

y == bo + b1xとして与えられる。

当てはまりの程度はう

そのときの残差平方和の値で測られる.、ノ


このとき，Jk[1， Jk[2， Jk[3は次のようになる.

y == -13.482 + 3.961x，

y == -0.5770 -3.6861x + 0.9559x2，

ν== -5.13312 + 0.60868x -0.22751x2 + 0.09862x3

また?残差平方和は次のようになる.

si == 58.59 > s~ == 9.59 > s~ == 8.65

10.1よいモデルとは。

凶

ー

，，，

。。ー

。，，，

> 凶

。

Q'

。/-' ，

e

. -.ーや・一ー

'!'-l。

2 3 4 5 6

•

これより?モデル M3ヲM2，Mlの順に当てはまりが

よいことになる O


一方?モデルのよさを測る別な尺度として?

モデ、ルの複雑度がある。

モデルが単純

解釈も簡単

予測に際して安定している


モデル lげたの複雑さを測る簡単な尺度として?

モデ、ルに含まれる未知パラメータの数dkを用いる。

モデル M1の未知ノミラメータ :sOぅsl，σ2

モデル M2の未知ノ々ラメータ :sO， slぅs2ぅσ2

モデ、ル M3の未知ノミラメータ:sOぅslぅ s2，s3，σ2

d1二 3< d2二 4< d3二 5


よいモデルを特定しようと考えると…

山まりをよく山ド~知的問

簡単なモデノレにしよう当てはまりが悪くなる

というジレンマに陥る…

両者をうまく取り入れた基準についてみていこう!!

10.2モテ、ル選択基準

統計的モデリングと予測

真の分布

予推調リ疋rムー，モ

現在のデータ| 》ーー守

ア ‘ ノレ

予調1

》

|将来のデータ

評価


未知の確率分布関数G(x)に従って観測された η 個の

データをね=={X!，X2γ ・.，Xn} とする。データを発生

するこの確率分布関数 G(X)を以下では真のモデルまたは

真の分布と呼ぶことにする。

これに対してわれわれが想定したモデルを F(x)とする。

確率分布関数 G(x)およびF(x)がそれぞれ密度関数g(x)

および f(x)をもっ場合は連続モデル(連続分布モデ、ル)

という O


一方、g(x)および f(x)が有限または加算無限個の離散点

{XlぅX2γ ・.，Xk，...}に対して、次のように

事象 {ω;X(ω)=的}の確率

gi二 g(Xi)三 Pr({ω;X(ω)二 Xi})，

点二 f(Xi)-Pr( {ω; X(ω)二Xi})う t二1，2， .

で表される場合は、離散モデ、ル(離散分布モデ、ル)という O


モデルが p次元のパラメータ(未知)

θ=(Oh---うBp)'

によって規定される場合には、 f(xlθ)と表される。

データから未知のパラメータ θを最尤法によりある

推定量 Oを求めることによって 1つのモデ、ル

f(xI8) Iが得られる。

このモデ、ノレの良さ、悪さをどう評価するか・


モデ、ノレf(x)のよさを?

真のモデ、ルg(x)との確率分布としての近さ

によって評価するものとする。

Akaike(1973)は、この近さを測る尺度として、次の

カノレバックーライブラー情報量 (K-L情報量と呼ぶ)

を用いることを提案した。


K-L情報量は情報理論のエントロピーの概念から導かれる。

確率変数zを観測したとき、 zが持っていた情報量を

-logg(x)

と定義する。 g(x)はzが従う真の分布である。

このとき情報量の期待値

Eg(a)[-logg(x)] = J -logg(x)g(x)dx

であり、エントロピーと呼ばれる。


ここで、 Eg(a)は確率密度関数g(x)に関する期待値を

表す。すなわち、

Eg(a) [口]== J口xg(x)dx

である。しかし、真の分布g(x)は未知であるので、実際に

用いることはできない。そこで情報量を-logf(x)に置き

換える。すなわち、情報量の期待値は

Eg(a) [-log f(x)] == J -log f(x )g(x )dx

となる。

10.2モテ、ル選択基準2つの情報量期待値のズレは

Eg(a) [ -logf(x)] -Eg(a)[-logg(x)]

=/戸ρトい一log 仰削)+刊l馴 z刈刈巾)リ山}g伊

fL_g(X) 二 Ilog :~-=~ g(x)dx J --0 f(x)

二 Eg(♂)[叶21=l(g; f)

となり、この量を|K-L情報量|と呼んでいる。

10.2モデル選択基準

K-L情報量は次のような性質がある。

(i)I(g; f)三O

(ii)I(g; f) == 0φ g(x) == f(x)

この性質から、

K-L情報量の値が小さいほど、モデ、ル f(x)はg(x)の近い

と考えることができる。

つまり、分布聞の何らかの近さを計る尺度である。


将来真のモデルからランダムに採られたデータ Y 二 U

の従う分布 g(y)を、構築したモデルj(yIO)で予測した

ときの平均的なよさ(悪さ)を評価したい。

この 2つの分布聞の近さを測るのに用いるのが、

K-L情報量である。

r. g(Y) 1 !(g(y); j(ν10)) = Eg(y) Ilog I'~ーァ|

L ~ j(YIO)J

= Eg(y) [log g(Y)] -Eg(ν) [log j(YIO)]

ここで、 Oは得られたデータ Xn= {Xl， • . . ，Xn}から

推定されたものである。


これは、想定したモデルfで将来のデータ yを予測

したときの平均的なズレを示している。

第 1項は真のモデ、ルgにのみ依存する定数である。

よって、平均対数尤度と呼ばれる第 2項である

Eg(ν) [log f(YIθ)]

を考えることになる。


想定したモデルfで将来のデータ Uを予測したときの

リスク(危険度)を

RA ~ (-2) x Eg(an)Eg(y) [log f(ylθ)]

と定義する。

注意 Xn とUは独立である。

(-2 )倍なのでリスクが最小になるようなモデ、ノレを選~o


RAには未知の量である Uが含まれているので、直接計算

することができない。

そこで、RAの適当な推定量を構成する必要があるO

RA = (-2) x Eg(an)Eg(y) [log f(yIO)]

= (-2) x Eg(an)Eg{ν) [log f(xη|θ) + log f(yIO) -log f(xη|θ)]

I()L_f(xnlO) 1 = Eg(an) [-21og f(xnIO)] + Eg(an)Eg(ν)|2log |

L ~ f(ylθ) J

= Eg(an)[-21ogf(xnIO)] + BA


BA=Eι弘以仰(伊仇川忽仇川n川λ)

は RAを一210gf(切Xr川bバ10的)で推定したときのパイアスと考えられるo

ここでで、、RAの推定量の構成法として

KA =-22241ogf(Zαle) + EA

が考えられる。第 1項は対数尤度である。


赤池は BAが想定しているモデルfが真のモデ、ルgを

含んでいるときに、漸近的に

BA -→2 x (独立パラメータ数)，(n→∞)

となることを提案した。このときのリスクの推定量 RA

が AICである。すなわち、

AIC二一2x(対数尤度)+2x (独立パラメータ数)

と表現される。


AIC基準

η個のデータ Yl，• •• ，Ynの真の確率密度を g(Yl，・・・，Yn)とする。

候補のモデ、ルM は、ν=(Yl，'" ，Yn)'に想定される確率分布族が

M: yの確率密度関数は f(ν;θ)， 8εθ

として与えられているとする。

(θ:未知パラメータ，それらが属する空間 θは既知)

このとき

AIC二 -2logf(υ;θ) + 2d として定義される。

(O : (}の最尤推定値，d :モデノレに含まれる独立パラメータ数)


各モデ、ルに対して AICの値を求め、その値が

最小になるモデ、ルを最良のモデ、ルと考える。


Cp基準

これは基準化予測誤差の 2乗和の推定量として定義される。

モデル Mkに対するこの基準は

で定義される。

1-- - - ------，ー ~2~ ーーーーー一一一 -1

i q，k=芸+2(dk-1) i

ここに、 δ2はσ2の推定量で、通常最大モデ、ルのもとでの

不偏推定量が用いられる。

10.3適合度モデ、ルの選択

適合度の問題をモデル選択の方法により考える。

さいころの適合度検定問題

いま、 6個の互いに排反な事象 A1γ ・・，A6があって、

それらの確率、および出現頻度が

次のように与えられているとしよう。

事象 A1 A2 • • A6 計

確率 Pl P2 • • • P6 1

出現頻度 nl η2 • • • n6 η


このとき、 η 回の独立実験において Alがnl回?.

A6がn6回起る確率、すなわち尤度は

となる。

L ==L(Pl，...，p6;nl，'・・ ?η6)

η! p~l ・・・ p;6

l! . . . n6! r 1 r 0 .. .


関心のあるモデルとして、

さいころにゆがみが無いとするモデル

1 1 M1: Pl = 6 '・・? PK= 5

さいころにゆがみがあるとするモデル

M2: Plγ ・・ ?れはそれらの和が 1である正数

を考える。

モデル M2は、 Pl，• ・・， P6 に対して特定な値あるいは特定な

構造を想定しないモテ、ルで、あって、無構造モテ、ルともよばれる。

10.3適合度モデ、ルの選択AIC基準は

|AL-210gL十 2x伽パラメー矧)

と表されるD

ここに、 Lは考えているモデルのもとでの尤度 Lの最大値である。

それぞれのモデルにおける AIC基準は

~ ，1 1 、

AIC1 = -21ogL(~ " ・け一 ) 、6' '6 ノ

AIC2二一210gL(Pll .・・ J6;nu・・・，n6) + 2 (6 -1)

となる。ここで、ふはPiの最尤推定量で次のように与えられる口

^ nl ^ nk Pl二一-， ... ，Pk二一一η η

10.3適合度モデ、ルの選択今、 120回さいころを投げたとき、出現回数が次のように与えたとする。

さいころの目

出現回数

1234561計

17 22 21 14 22 24 I 120

モデル M1に対する AIC基準

AIC1 士一2ベやか(←←い

1口山7ηl吋+山;ト+山;ト+14凶 10

+山g;+M吋)= 26.00


モデル M2に対する AIC基準

( _ 17 22 21 14 -21 171og-__ + 221og-_-_ + 211og-_-_ + 1410g ¥ ----0 120 . ----0 120 . ----0 120 ・ 0120AIC2 二

24¥ + 2210g一+2410g "1-n~ I +2 x (6-1)

120 . U 120 J

= 32.33

AIC1く AIC2よりこのさいころはゆがみが無いと判定される。

10.3適合度モデルの選択独立性の検定問題

2つの事象 AとBがあり、これらの事象の生起によって

定まる確率、および η 回の独立試行による観測値が次の

ように与えられているとする。

確率観測値

B BC 計 B BC 言十

20 P12 Pl・ A

曾 n12 nl・

P22 P2・A C η22 Iη2

P.l P.2 1 計 In.l ¥n.2 I η

AnBが起きる確率 η 回の試行で AnBが起きた回数


このとき、η 回の独立試行の結果、上記のような結果が得られる

確率である尤度は

となる。

L ニ L(pu，p山 P21，P22;nU， n山口21，n22)， η! 日目白日

1111PitlpIFP221p232 nu !n12 !n21 !n22・

M1 : AとBは独立であるとするモデル

M2 :独立でないとするモデル


モデル M1はパラメータ p，q (0く pく 1ぅOく qく 1)を用いて

M1 P11 = pq P12 = p( 1 -q)

P21 = (1 -p) q P22 = (1 -p) (1 -q)

モデル M2はいわゆる無構造モデ、ルで、あって、パラメータ

仏 b，c， d (α>0うb> 0， c > 0、d>Oを用いて

M2 P11二仏 P12二 b，P21二 C，P22二 d

α+b+c+d=l

10.3適合度モデ、ルの選択このとき、それぞれのモデルにおける AIC基準は

AIC1二一 2L(ムq;nll，n12，n21，n22)+ 2 x 2

AIC2 = -21og L(a， b，と，d;口11，n払 n21，n22) + 2 x 3

として与えられる o

。7d:モデル M1のもとでの p，qの最尤推定量

ムb，と，d :モデル M2のもとでの α，bヲ c、dの最尤推定量

ー一η

1一n

n一

η一

一一一一

AP晶

〈

α

n.l q=一一?

n

b = n12 n

〈 n21C二一一一う

n d-竺2-

n

10.3適合度モデ、ルの選択この結果を次のような予防注射と病気のデータに

適用してみよう。

予防注射¥病気かかったかからなかった計

受けた 5 45 50

受けなかった 20 80 100

言十 25 125 150

M1 :予防注射と病気に関連性がないとするモデル

M2 :予防注射と病気に関連性があるとするモデル


M1に対するAIC基準は

(____ 50 25 ___ 100 ____ 125¥ AIC1 = -21 5010g一一+2510g -.-"-A + 10010g ~ :~ + 12510g ~:~ I ¥ ----0 150 . ----0 150 . -----0 150 . -----0 150)

+2x2

一益斗よ2

M2に対する AIC基準は

( _ 5 45 20 80¥ AIC2 = -21 510g -. :A + 4510g -. -"-A + 20 log -.-..--A + 80 log -.-"'-A ) ¥ ---0150 . ----0150 . ----0150 . ----0150)

+2x3

= 329.54


AIC1: 330.12 > AIC2: 329.54より、

2つのモデ、ルの適切についての差は僅かであるが、

予防注射と病気に関連性があると判定される。

Documents

10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。確率変数. z. を観測したとき、 ... 赤池は . B