Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
バイオインフォマティクス特論2 モデル選択
2-1. ベイズ式のモデル比較藤 博幸
これまでの話モデル推定:⼀つのモデルの中で推定
複数のモデルを考えなければいけないケース異なるモデルは、競合する理論や仮説
どのモデルがより確からしいか?
モデル⽐較 (model compariosn)
モデル⽐較は頻度主義でも⾏われるが、ここではベイズ主義でのアプローチを紹介する頻度主義では、モデル選択には尤度やそれをパラメータ数などで補正したAICやBICが使われる。機械学習で使われるMDLはBICと等価
2-1 ベイズ式のモデル比較2-1-1. 周辺尤度2-1-2. ベイズファクター2-1-3. 事後モデル確率2-1-4. ベイズのアプローチの利点2-1-5. ベイズのアプローチにとっての難問2-1-6. サベージ=ディッキー法
2-1-1. 周辺尤度「ベイズ統計で実践モデリング」 第7章 ベイズ式のモデル⽐較7.1 周辺尤度
ベイズの法則 → 周辺尤度
パラメータθが関⼼のある特定のモデルℳ1に依存する観測データD
𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 = 𝑝 𝜃 𝐷,ℳ1 =𝑝 𝐷 𝜃,ℳ1 𝑝(𝜃|ℳ1)
𝑝(𝐷|ℳ1)=尤度×事前分布周辺尤度
周辺尤度 𝑝 𝐷 ℳ1 は、証拠(evidence)とも呼ばれるモデルℳ1から⾒た観測データDの確率
周辺尤度の計算(パラメータが離散値をとる場合)
𝑝 𝐷 ℳ1 =3𝑝(𝐷|𝜃4 ,ℳ1)𝑝(𝜃4 |ℳ1)5
467
コイントスθ1=表、θ2=裏、
モデルℳ1:𝑝(𝜃7|ℳ1)=0.5, 𝑝(𝜃8|ℳ1)=0.5 モデルℳ2:𝑝(𝜃7|ℳ2)=0.8, 𝑝(𝜃8|ℳ2)=0.2
観測データDはn回のコイントス、表はm回
尤度= :!<! :=< !
𝑝(𝜃7 |ℳ1)<𝑝(𝜃8 |ℳ1):=<
尤度= :!<! :=< !
𝑝(𝜃7 |ℳ2)<𝑝(𝜃8 |ℳ2):=<
周辺尤度の計算(パラメータが連続値をとる場合)
𝑝 𝐷 ℳ1 = >𝑝(𝐷|𝜃, ℳ1)𝑝(𝜃|ℳ1)d𝜃
周辺尤度の計算(離散パラメータの計算例)
モデルℳ𝑥 𝜃7=-1, 𝜃8=0, 𝜃A=1
事前確率 𝑝(𝜃7|ℳ𝑥)=0.6, 𝑝(𝜃8|ℳ𝑥)=0.3, 𝑝(𝜃7|ℳ𝑥)=0.1尤度 𝑝(𝐷|𝜃7,ℳ𝑥)=0.001, 𝑝(𝐷|𝜃8,ℳ𝑥)=0.002, 𝑝(𝐷|𝜃A,ℳ𝑥)=0.003
𝑝(𝐷|ℳ𝑥)= 𝑝(𝐷|𝜃7,ℳ𝑥) 𝑝 𝜃7 ℳ𝑥 + 𝑝(𝐷|𝜃8,ℳ𝑥) 𝑝 𝜃8 ℳ𝑥 +𝑝(𝐷|𝜃A,ℳ𝑥) 𝑝 𝜃A ℳ𝑥=0.6×0.001+0.3×0.002+0.1×0.003=0.0015
2-1-2. ベイズ式のモデル比較「ベイズ統計で実践モデリング」 第7章 ベイズ式のモデル⽐較7.2 ベイズファクター
周辺尤度: 絶対的な証拠の測度
モデル選択では相対的な証拠、すなわちあるモデルと他のモデルの⽐較に興味がある
ベイズファクター (Bayes factor) : この⽐較を実現するもの
𝐵𝐹12 =𝑝(𝐷|ℳ1)𝑝(𝐷|ℳ2)
データがモデルℳ2よりも、モデルℳ1を⽀持する程度
「ベイズ統計で実践モデリング」 p.92
データ 10問中9問正解M1: 当て推量モデル 正答率=0.5M2: ⾮当て推量モデル 正答率≠0.5 𝑝 𝜃 ℳ2 ~𝑈𝑛𝑖𝑓𝑜𝑟𝑚 0,1 = 𝐵𝑒𝑡𝑎(1,1)
𝑝 𝐷 ℳ1 =10!9! 1! 0.5
9 0.5
𝑝(𝐷|ℳ2)=∫ 7Q!R!7!
𝜃 9 1− 𝜃 𝐵𝑒𝑡𝑎 𝜃, 1,1 𝑑𝜃7Q
m1 <- gamma(11)/gamma(10)*(0.5)^100.009765625
s <- function(x) {gamma(11)/gamma(10)*(x^9)*(1-x)*dbeta(x,1,1)
}m2 <- integrate(s, lower=0, upper=1)str(m2)m1/m2$value
0.107となる。観測データは、M2の方がM1より1/0.107=9.3倍ありえそう
2-1-3. 事後モデル確率「ベイズ統計で実践モデリング」 第7章 ベイズ式のモデル⽐較7.3 事後モデル確率
ベイズファクター:観測データに対して2つのモデルを⽐較
相対的なモデルの良さを⽐較にするには、モデルの適切性も同時に⽐較する必要がある
M1: ニュートリノは光より速く移動できるM2: ニュートリノは光より速く移動できない
ベイズファクターがM1を強く⽀持するとしても、M1がM2よりもありそうには思えないモデルの先⾒的な適切さを確率(事前確率)として導⼊
U(ℳ7|V)U(ℳ8|V)
=U(V|ℳ7)U(V|ℳ8)
U(ℳ7)U(ℳ8)
事後モデル確率
ベイズファクター
モデルの事前確率に周辺尤度を乗じることで、モデルの事後確率を計算し、その⽐をとった形
モデルの適切さを事前に客観的に評価評価は難しい難しいからといって、事前の適切さを完全に無視することの⾔い訳にはならない
⼀⽅、ほとんどのベイズ主義の統計学者はベイズファクターを得た段階で満⾜している
事前オッズが1の場合(2つのモデルが事前には無情報である)
ℳ1とℳ2が排他的である場合U(ℳ7|V)U(ℳ8|V)
=U(V|ℳ7)U(V|ℳ8)
U(ℳ7)U(ℳ8)
次のように変形できるU(ℳ7|V)7=U(ℳ7|V)
=BF12
すると、
𝑝 ℳ1 𝐷 =BF12
1 + BF12
注意
これまで推定で出てきていた事前分布は、あるモデルのもとでのパラメータの事前分布
例えば、先に出した正答率θは、⼀様事前分布に従うというのは⾮当て推量モデルのもとでのパラメータθへの事前分布
事後モデル確率で問題としているのは、モデル⾃体の事前分布
2-1-4. ベイズのアプローチの利点「ベイズ統計で実践モデリング」 第7章 ベイズ式のモデル⽐較7.4 ベイズのアプローチの利点
1. 帰無仮説を⽀持する証拠
ベイズファクターは帰無仮説を⽀持する証拠を得るために使える。
頻度主義アプローチでのp-値は帰無仮説を棄却する形
ベイス主義統計学では、モデルは等価に扱われ、それらを⽀持する証拠を定量化できる
2. データが⼊ってくるために証拠の⼤きさをモニターできる証拠(ベイズファクター)が決定的でない場合、研究者はデータ収取を続け、ある論点が証明、あるいは反証されたところで収集を⽌めることができる
頻度主義統計学には、データ収集の停⽌の規範はない
2-1-5. ベイズのアプローチにとっての難点「ベイズ統計で実践モデリング」 第7章 ベイズ式のモデル⽐較7.5 ベイズのアプローチにとっての難点
1. 概念的な難点ベイズ式の仮説検定は、モデルパラメータの事前分布の敏感
精度の低い事前分布は、良い予測結果をもたらさない
(1)主観的設計を⼯夫(2)客観的事前分布を⽤いる(3)ベイズファクターの洗練された⼿法を⽤いる(4)感度分析により事前分布への依存性を検討
2. 計算上の難点周辺尤度やベイズファクターの計算が難しい
単純なモデルを除くと、多くの場合計算の単純化は困難
(1)ベイズの公式の周辺尤度と事後分布を⼊れ替える
𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 = 𝑝 𝜃 𝐷,ℳ1 =𝑝 𝐷 𝜃,ℳ1 𝑝(𝜃|ℳ1)
𝑝(𝐷|ℳ1) =尤度×事前分布周辺尤度
𝑝(𝐷|ℳ1) =𝑝 𝐷 𝜃,ℳ1 𝑝(𝜃|ℳ1)
𝑝 𝜃 𝐷,ℳ1
事後分布が解析的に求められる場合でも、MCMCを介して得られる場合でも使える。パラメータの任意の値について成り⽴つ
(2) 事前分布からのサンプリングに基づく⽅法
事前分布からパラメータをサンプリング
サンプルされた値に基づき尤度を計算
得られた尤度の平均を使う
(3) 超次元MCMC (transdimensional MCMC)
MCMCのサンプリングルーチンに”モデル指⽰”変数を導⼊
2つの競合するモデルの場合、モデル指⽰変数zは2つの値をとるサンプラーがモデルℳ1にいる時にはz=1,モデルℳ2にいる時にはz=2をとる。
ベイズファクターはz=1の時と、z=2の時の相対頻度として計算される。(周辺尤度を求めることなしに計算できる)
Jagsでもtransdimensional MCMCはできるらしいが、付随ソフトが必要
2-1-6. サベージ=ディッキー法「ベイズ統計で実践モデリング」 第7章 ベイズ式のモデル⽐較7.6 サベージ=ディッキー法
ベイズファクターを計算する別の⽅法。実装が直接的。ただし、ネストした(nested)モデルにしか使えない
例えば
帰無仮説 𝐻0:𝜙 = 𝜙0対⽴仮説 𝐻1:𝜙 ≠ 𝜙0
対⽴仮説において𝜙 = 𝜙0とおくことで帰無仮説が得られる
⼆項分布の例10問中9問正解した場合、あて推量がなされたか否か𝐻0: 𝜃 = 0.5 帰無モデル:当て推量𝐻1: 𝜃 ≠ 0.5 対立モデル 𝜃~𝐵𝑒𝑡𝑎 1,1 一様分布
サベージ=ディッキーの密度⽐モデルH1だけを考える。ベイズファクターは、関⼼のある点における事後分布の⾼さを、θの事前分布の⾼さで割ることで得られる。(証明なし)
𝐵𝐹01 =𝑃(𝜃0|𝐷, 𝐻1)𝑃(𝜃0|𝐻1)
共役事前分布ベータ分布が事前分布 Beta(1,1)⼆項分布が尤度の時、 (10!/9!)θ9(1-θ)事後分布もベータ分布になる。
Beta(9+1, 1+1)=Beta(10,2)
Rでθ=0.5の時の事後分布の⾼さを求める
dbeta(0.5,10,2)[1] 0.1074219分母は一様分布で1なので、これがベイズファクターになる
𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝑥 𝑁, 𝜃 𝐵𝑒𝑡𝑎(𝜃|𝛼,𝛽)= a!b! a=b !
𝜃b 1− 𝜃 a=b c defc d c f
𝜃d=7 1− 𝜃 f=7
= c a=7c b=7 c a=b=7
c defc d c f
𝜃bed=7 1 − 𝜃 a=bef=7
∝ 𝜃bed=7 1− 𝜃 a=bef=7
規格化定数をΓ 𝑁 + 𝛼 + 𝛽
Γ 𝑥 + 𝛼 Γ 𝑁 − 𝑥 + 𝛽とおくとベータ分布になるすなわちパラメータは、 𝑥 + 𝛼と𝑁− 𝑥 + 𝛽となる
注意ベイズファクターの利⽤は、ベイズ主義統計学者の間でも否定的な意⾒があり、事後分布を使った評価が勧める意⾒もある