44
1 10 モデル選択法

10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

1

10

モデル選択法

Page 2: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

統計的モデル

7章において、いくつかの説明変数から目的変数を

予測する方法として多重回帰モデルを扱った。

それらの説明変数のなかからどの説明変数を

用いた方がよいかの問題が生じる。

Page 3: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

今、 Z の値とともに変化する Uに関して、次のような 11個の

観測地が与えられている例で考えてみよう。

表 10.1 xとUについての観測地

2.00 2.50 3.00 3.50 4.00 4.500 5.00 5.50 6.00 6.50

-4.10 -1.49 -3.66 -1.92 -1.42 2.60 5.54 7.66 11.41 16.23

これらの観測値を (X1,Y1), (X2, Y2),・・., (仇?仇)と表す。

今、n= 11である.

このデータに対して、直線回帰モデ、ルを当てはめたモデ、ルを考える.

Page 4: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

直線回帰モデル

M1 : Yi ==グo+ sIXi +εh t =1γ ・・川

誤差項ε1ぅ・・・ うらは互いに独立で、?

それぞれ?正規分布 N(O,σ2)に従っている.

グ0,グ1,σ2は未知パラメ ータ.

Page 5: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

直線回帰モデル

M1 : Yi ==グo+ sIXi +の

またう次のモデルを考える.

|2次曲線回帰モデ、ノレ |

M2: Yiニグo+ sIXi + s2X; +。|3次曲線回帰モデ、ル |

M3: Yi ==グo+ sIXi + s2X; + s3Xt +ε4

Page 6: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

モデル M1の説明変数 :x

モデル M2の説明変数 :x, X2

モデル M3の説明変数 :x, X2, X3

どのモデルが最適であろうか。

Page 7: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

モデルのよさの重要な側面として 当てはまりがよい

ことが挙げられる。

モデル M1では直線を当てはめるが、最小 2乗法

によって求められる。

|(Yl -sO -sIXl)2 + ... + (Yn -sO -sIXn)2 I を最小にするような (sO,sl)の値 (bo,b1) , そのときの平方和である残差平方和srを求める.

Page 8: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

このとき、最小 2乗法によって求められた直線は

y == bo + b1xとして与えられる。

当てはまりの程度はう

そのときの残差平方和の値で測られる.、 ノ

Page 9: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

このとき,Jk[1, Jk[2, Jk[3は次のようになる.

y == -13.482 + 3.961x,

y == -0.5770 -3.6861x + 0.9559x2,

ν== -5.13312 + 0.60868x -0.22751x2 + 0.09862x3

また?残差平方和は次のようになる.

si == 58.59 > s~ == 9.59 > s~ == 8.65

Page 10: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは。

, ,,

。。ー

。, , ,

> 凶

Q'

。/-' ,

e

. -.ーや・一ー

'!'-l。

2 3 4 5 6

これより?モデル M3ヲM2,Mlの順に当てはまりが

よいことになる O

Page 11: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

一方?モデルのよさを測る別な尺度として?

モデ、ルの複雑度がある。

モデルが単純

解釈も簡単

予測に際して安定している

Page 12: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

モデル lげたの複雑さを測る簡単な尺度として?

モデ、ルに含まれる未知パラメータの数dkを用いる。

モデル M1の未知ノミラメータ :sOぅsl,σ2

モデル M2の未知ノ々ラメータ :sO, slぅs2ぅσ2

モデ、ル M3の未知ノミラメータ:sOぅslぅ s2,s3,σ2

d1二 3< d2二 4< d3二 5

Page 13: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.1よいモデルとは

よいモデルを特定しようと考えると…

山まりをよ く 山ド~知的問

簡単なモデノレにしよう 当てはまりが悪くなる

という ジレンマに陥る…

両者をうまく取り入れた基準についてみていこう!!

Page 14: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

統計的モデリングと予測

真の分布

予推 調リ疋rムー, モ

現在のデータ| 》 ー ー 守

ア ‘ ノレ

予調1

|将来のデータ

評価

Page 15: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

未知の確率分布関数G(x)に従って観測された η 個の

データをね=={X!,X2γ ・.,Xn} とする。データを発生

するこの確率分布関数 G(X)を以下では真のモデルまたは

真の分布と呼ぶことにする。

これに対してわれわれが想定したモデルを F(x)とする。

確率分布関数 G(x)およびF(x)がそれぞれ密度関数g(x)

および f(x)をもっ場合は連続モデル(連続分布モデ、ル)

という O

Page 16: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

一方、g(x)および f(x)が有限または加算無限個の離散点

{XlぅX2γ ・.,Xk,...}に対して、次のように

事象 {ω;X(ω)=的}の確率

gi二 g(Xi)三 Pr({ω;X(ω)二 Xi}),

点二 f(Xi)-Pr( {ω; X(ω)二Xi})う t二1,2, .

で表される場合は、離散モデ、ル(離散分布モデ、ル)という O

Page 17: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

モデルが p次元のパラメータ(未知)

θ=(Oh---うBp)'

によって規定される場合には、 f(xlθ)と表される。

データから未知のパラメータ θを最尤法によりある

推定量 Oを求めることによって 1つのモデ、ル

f(xI8) Iが得られる。

このモデ、ノレの良さ、悪さをどう評価するか・

Page 18: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

モデ、ノレf(x)のよさを?

真のモデ、ルg(x)との確率分布としての近さ

によって評価するものとする。

Akaike(1973)は、この近さを測る尺度として、次の

カノレバックーライブラー情報量 (K-L情報量と呼ぶ)

を用いることを提案した。

Page 19: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

K-L情報量は情報理論のエントロピーの概念から導かれる。

確率変数zを観測したとき、 zが持っていた情報量を

-logg(x)

と定義する。 g(x)はzが従う真の分布である。

このとき情報量の期待値

Eg(a)[-logg(x)] = J -logg(x)g(x)dx

であり、エントロピーと呼ばれる。

Page 20: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

ここで、 Eg(a)は確率密度関数g(x)に関する期待値を

表す。すなわち、

Eg(a) [口]== J口xg(x)dx

である。 しかし、 真の分布g(x)は未知であるので、実際に

用いることはできない。そこで情報量を-logf(x)に置き

換える。すなわち、情報量の期待値は

Eg(a) [-log f(x)] == J -log f(x )g(x )dx

となる。

Page 21: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準2つの情報量期待値のズレは

Eg(a) [ -logf(x)] -Eg(a)[-logg(x)]

=/戸ρトい一log 仰削)+刊l馴 z刈刈巾)リ山}g伊

fL_g(X) 二 Ilog :~-=~ g(x)dx J --0 f(x)

二 Eg(♂)[叶21=l(g; f)

となり、この量を|K-L情報量|と呼んでいる。

Page 22: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モデル選択基準

K-L情報量は次のような性質がある。

(i)I(g; f)三O

(ii)I(g; f) == 0φ g(x) == f(x)

この性質から、

K-L情報量の値が小さいほど、モデ、ル f(x)はg(x)の近い

と考えることができる。

つまり、分布聞の何らかの近さを計る尺度である。

Page 23: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

将来真のモデルからランダムに採られたデータ Y 二 U

の従う分布 g(y)を、構築したモデルj(yIO)で予測した

ときの平均的なよさ(悪さ)を評価したい。

この 2つの分布聞の近さを測るのに用いるのが、

K-L情報量である。

r. g(Y) 1 !(g(y); j(ν10)) = Eg(y) Ilog I'~ーァ|

L ~ j(YIO)J

= Eg(y) [log g(Y)] -Eg(ν) [log j(YIO)]

ここで、 Oは得られたデータ Xn= {Xl, • . . ,Xn}から

推定されたものである。

Page 24: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

これは、想定したモデルfで将来のデータ yを予測

したときの平均的なズレを示している。

第 1項は真のモデ、ルgにのみ依存する定数である。

よって、平均対数尤度と呼ばれる第 2項である

Eg(ν) [log f(YIθ)]

を考えることになる。

Page 25: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

想定したモデルfで将来のデータ Uを予測したときの

リスク(危険度)を

RA ~ (-2) x Eg(an)Eg(y) [log f(ylθ)]

と定義する。

注意 Xn とUは独立である。

(-2 )倍なのでリスクが最小になるようなモデ、ノレを選~o

Page 26: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

RAには未知の量である Uが含まれているので、直接計算

することができない。

そこで、RAの適当な推定量を構成する必要があるO

RA = (-2) x Eg(an)Eg(y) [log f(yIO)]

= (-2) x Eg(an)Eg{ν) [log f(xη|θ) + log f(yIO) -log f(xη|θ)]

I()L_f(xnlO) 1 = Eg(an) [-21og f(xnIO)] + Eg(an)Eg(ν)|2log |

L ~ f(ylθ) J

= Eg(an)[-21ogf(xnIO)] + BA

Page 27: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

BA=Eι弘以仰(伊仇川忽仇川n川λ)

は RAを一210gf(切Xr川bバ10的)で推定したときのパイアスと考えられるo

ここでで、、RAの推定量の構成法として

KA =-22241ogf(Zαle) + EA

が考えられる。第 1項は対数尤度である。

Page 28: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

赤池は BAが想定しているモデルfが真のモデ、ルgを

含んでいるときに、漸近的に

BA -→2 x (独立パラメータ数),(n→∞)

となることを提案した。このときのリスクの推定量 RA

が AICである。すなわち、

AIC二一2x(対数尤度)+2x (独立パラメータ数)

と表現される。

Page 29: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

AIC基準

η個のデータ Yl,• •• ,Ynの真の確率密度を g(Yl,・・・ ,Yn)とする。

候補のモデ、ルM は、ν=(Yl,'" ,Yn)'に想定される確率分布族が

M: yの確率密度関数は f(ν;θ), 8εθ

として与えられているとする。

(θ:未知パラメータ,それらが属する空間 θは既知)

このとき

AIC二 -2logf(υ;θ) + 2d として定義される。

(O : (}の最尤推定値 ,d :モデノレに含まれる独立パラメータ数)

Page 30: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

各モデ、ルに対して AICの値を求め、その値が

最小になるモデ、ルを最良のモデ、ルと考える。

Page 31: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.2モテ、ル選択基準

Cp基準

これは基準化予測誤差の 2乗和の推定量と して定義される。

モデル Mkに対するこの基準は

で定義される。

1-- - - ------,ー ~2~ ーーーーー一一一 -1

i q,k=芸+2(dk-1) i

ここに、 δ2はσ2の推定量で、通常最大モデ、ルのもとでの

不偏推定量が用いられる。

Page 32: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

適合度の問題をモデル選択の方法により考える。

さいころの適合度検定問題

いま、 6個の互いに排反な事象 A1γ ・・,A6があって、

それらの確率、および出現頻度が

次のように与えられているとしよう。

事象 A1 A2 • • A6 計

確率 Pl P2 • • • P6 1

出現頻度 nl η2 • • • n6 η

Page 33: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

このとき、 η 回の独立実験において Alがnl回?.

A6がn6回起る確率、すなわち尤度は

となる。

L ==L(Pl,...,p6;nl,'・・ ?η6)

η! p~l ・・・ p;6

l! . . . n6! r 1 r 0 .. .

Page 34: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

関心のあるモデル として、

さいころにゆがみが無いとするモデル

1 1 M1: Pl = 6 '・・? PK= 5

さいころにゆがみがあるとするモデル

M2: Plγ ・・ ?れはそれらの和が 1である正数

を考える。

モデル M2は、 Pl,• ・ ・ , P6 に対して特定な値あるいは特定な

構造を想定しないモテ、ルで、あって、無構造モテ、ルともよばれる。

Page 35: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択AIC基準は

|AL-210gL十 2x伽パラメー矧)

と表されるD

ここに、 Lは考えているモデルのもとでの尤度 Lの最大値である。

それぞれのモデルにおける AIC基準は

~ ,1 1 、

AIC1 = -21ogL(~ " ・ け一 ) 、6' '6 ノ

AIC2二一210gL(Pll .・・ J6;nu・・ ・,n6) + 2 (6 -1)

となる。 ここで、ふはPiの最尤推定量で次のよう に与えられる口

^ nl ^ nk Pl二一-, ... ,Pk二一一η η

Page 36: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択今、 120回さいころを投げたとき、出現回数が次のように与えたとする。

さいころの目

出現回数

1234561計

17 22 21 14 22 24 I 120

モデル M1に対する AIC基準

AIC1 士 一2ベやか(←←い

1口山7ηl吋+山;ト+山;ト+14凶 10

+山g;+M吋)= 26.00

Page 37: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

モデル M2に対する AIC基準

( _ 17 22 21 14 -21 171og-__ + 221og-_-_ + 211og-_-_ + 1410g ¥ ----0 120 . ----0 120 . ----0 120 ・ 0120AIC2 二

24¥ + 2210g一+2410g "1-n~ I +2 x (6-1)

120 . U 120 J

= 32.33

AIC1く AIC2よりこのさいころはゆがみが無い と判定される。

Page 38: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデルの選択独立性の検定問題

2つの事象 AとBがあり、これらの事象の生起によって

定まる確率、および η 回の独立試行による観測値が次の

ように与えられているとする。

確率 観測値

B BC 計 B BC 言十

20 P12 Pl・ A

曾 n12 nl・

P22 P2・A C η22 Iη2

P.l P.2 1 計 In.l ¥n.2 I η

AnBが起きる確率 η 回の試行で AnBが起きた回数

Page 39: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

このとき、η 回の独立試行の結果、上記のような結果が得られる

確率である尤度は

となる。

L ニ L(pu,p山 P21,P22;nU, n山口21,n22), η! 日目白日

1111PitlpIFP221p232 nu !n12 !n21 !n22・

M1 : AとBは独立であるとするモデル

M2 :独立でないとするモデル

Page 40: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

モデル M1はパラメータ p,q (0く pく 1ぅOく qく 1)を用いて

M1 P11 = pq P12 = p( 1 -q)

P21 = (1 -p) q P22 = (1 -p) (1 -q)

モデル M2はいわゆる無構造モデ、ルで、あって、パラメータ

仏 b,c, d (α>0うb> 0, c > 0、d>Oを用いて

M2 P11二仏 P12二 b,P21二 C,P22二 d

α+b+c+d=l

Page 41: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択このとき、それぞれのモデルにおける AIC基準は

AIC1二 一 2L(ムq;nll,n12,n21,n22)+ 2 x 2

AIC2 = -21og L(a, b,と,d;口11,n払 n21,n22) + 2 x 3

として与えられる o

。7d:モデル M1のもとでの p,qの最尤推定量

ムb,と,d :モデル M2のもとでの α,bヲ c、dの最尤推定量

ー一η

1一n

n一

η一

一一一一

AP晶

α

n.l q=一一?

n

b = n12 n

〈 n21C二 一 一 一 う

n d-竺2-

n

Page 42: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択この結果を次のような予防注射と病気のデータに

適用してみよう。

予防注射¥病気 かかった かからなかった 計

受けた 5 45 50

受けなかった 20 80 100

言十 25 125 150

M1 :予防注射と病気に関連性がないとするモデル

M2 :予防注射と病気に関連性があるとするモデル

Page 43: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

M1に対するAIC基準は

(____ 50 25 ___ 100 ____ 125¥ AIC1 = -21 5010g一一+2510g -.-"-A + 10010g ~ :~ + 12510g ~:~ I ¥ ----0 150 . ----0 150 . -----0 150 . -----0 150)

+2x2

一 益斗よ2

M2に対する AIC基準は

( _ 5 45 20 80¥ AIC2 = -21 510g -. :A + 4510g -. -"-A + 20 log -.-..--A + 80 log -.-"'-A ) ¥ ---0150 . ----0150 . ----0150 . ----0150)

+2x3

= 329.54

Page 44: 10 モデル選択法 - statistics.co.jp · 情報量は情報理論のエントロピーの概念から導かれる。 確率変数. z. を観測したとき、 ... 赤池は . B

10.3適合度モデ、ルの選択

AIC1: 330.12 > AIC2: 329.54より、

2つのモデ、ルの適切についての差は僅かであるが、

予防注射と病気に関連性があると判定される。