View
1
Download
0
Category
Preview:
Citation preview
1
ベイズ統計入門 (14)
目標 相転移
東京工業大学
渡辺澄夫
旅の地図
(1) ベイズ統計の定義(2) 密度と条件つき密度(3) 混合正規分布+ギブスサンプラー(4) 神経回路網+ランジュバン方程式(5) 真とモデルの関係(6) 正則モデルの漸近理論(7) AIC と BIC (8) ハイパーパラメータ最適化(9) 一般モデルの漸近理論(10) 一般モデルの漸近理論(11) 一般モデルの選択(12) 条件つき独立 高次元(13) 階層ベイズ(14) 相転移(15) まとめ
3
1 潜在変数の問題
データ発生過程の例
変数 x ∈ R2, y∈{0,1}
確率 a でy=1
(1-a) でy=0
x
上の過程を n 回独立に繰り返して Xn を得る。Y は観測できない場合を考える。(a,b,c) はわかるだろうか.また各 x に対する y を知ることはできるだろうか
中心 b
中心 c
パラメータ 0 ≦ a ≦ 1 , b, c ∈ R2
潜在変数を持つモデルの例
(2次元正規分布) N(x) = (1/2π) exp( - ||x||2/2)
p(x,0|a,b,c) = (1-a)N(x-b)
p(x,1|a,b,c) = aN(x-c)このとき
p(x|a,b,c) = (1-a)N(x-b) + aN(x-c)
モデル p(x,y|a,b,c) = [(1-a)N(x-b)]1-y×[ a N(x-c) ]y
n=30 の場合
6
ベイズ推測
∝ ϕ(a,b,c) Π p(Xi,Yi|a,b,c)n
i=1p(Yi,a,b,c|Xi)
(2) ϕ(a,b,c) を (a,b,c) の事前分布とするとき (Yi,a,b,c) の分布は
(3) マルコフ連鎖モンテカルロ法によって { (Yi,a,b,c)} をサンプリング
このとき (a,b,c) は事後分布からのサンプリング
{Yi} はベイズ推測された分布からのサンプリング
p(x|a,b,c) を平均したものがベイズ予測分布
(1) { Xi ; i=1,2,…,n } が観測して得られる
7
現実的な状況ではもっとたくさんの混合
データを発生した分布はモデルの中にはない.しかしながら,モデル候補の中からデータに対して相応しいと思われるモデルが使われるだろう.そのとき「真の分布はモデルで実現できるようなできないような状況であり」「事後分布は正規分布で近似できるようなできないような状況であるだろう」
モデルの複雑さ
n
選ばれる可能性の高いモデル
真の分布はモデルで実現できないように見える事後分布は正規分布に近い
真の分布はモデルで実現できるように見える事後分布は正規分布から遠い
漸近理論
モデル評価
8
真 q(x) モデル p(x|w)
n : 小 n : 大
非正則にみえる 正則にみえる
実現可能にみえる 実現可能でないようにみえる
誤差は主に統計揺らぎ 誤差は主に関数近似誤差
バイアスとバリアンス
9
現実的な状況では
統計モデルから見ると真の分布はサンプルの揺らぎの中にあって、n に応じた解像度でしか知ることはできない。統計モデリングにおいては様々なモデルや事前分布の候補を考える必要があるので、非正則な場合や実現できない場合の理論も必要になる。
モデルの複雑さ
n
統計モデリングで検討されるところ
実現不可能正則
実現可能非正則
汎化損失最小のモデル
10
2 正則な場合
11
正則な場合
a0=0.5,b0=(-2,-2), c0=(2,2)
真のパラメータが
この場合は q(x)=p(x|a,b,c)となるのは a=0.5, b=(-2,-2),c=(2,2) のときだけ( b と c は入れ替え可能).
実現可能かつ正則
モデル p(x|a,b,c) = (1-a)N(x-b) + a N(x-c)事前分布 ϕ(a,b,c) = Dirichlet(a|0.3) N(b,102) N(c,102)
真 q(x) = p(x|a0,b0,c0)
正則な場合
log(n=5)
n ×(Gn-L(w0))
log(n=1280)
AIC
ISCV
GWAIC
DIC
n の対数目盛り
潜在変数の推定 n=30
ふたつの山がはっきりと区別できる場合にはどんな
情報量規準を使っても大丈夫.潜在変数の推定も良好にできる.
14
3 非正則な場合
15
非正則ケース
コンポーネントが一個のとき
この場合 q(x)=p(x|a,b,c)となるのはa=0, b=(0,0), c=freea=1, c=free, c=(0,0,)a=free, b=c=(0,0).
実現可能だが正則ではない
a0=0.5,b0=c0=(0,0)
非正則ケース
log(n=5) log(n=1280)
AIC
ISCVG WAIC
DIC
n ×(Gn-L(w0))
n の対数目盛り
潜在変数の推定 n=30
山がひとつのときには、潜在変数はどちらかひとつになりやすい潜在変数の推測は意味がないが事後分布には影響する.
18
4 データに依存する場合
19
微妙な場合(1)
一個のコンポーネントが小さい場合
この場合 q(x)=p(x|a,b,c)となるのはa=0.01, b=(2,2), c=(-2,-2)
あるいはa=0.99, b=(-2,-2), c=(2,2)
正則かどうかは微妙
◎外れ値の発見などの問題でよく現れるケース
a0=0.99,b0=(-2,-2), c0=(2,2)
グラフだと見えないが 0.01 だけある
微妙ケース(1)
log(n=5) log(n=1280)
AIC
ISCV
G
WAIC
DIC
n ×(Gn-L(w0))
n の対数目盛り
ISCVは分散が大きい
データを固定したときのMCMC標準偏差
log(n=5) log(n=1280)AIC
ISCV
G
WAIC
DIC
n ×(標準偏差)
n の対数目盛り
潜在変数の推定結果 n=300
n が小さいときは山がひとつのときと同じになる. n が大きくなる
と山が二つのときと同じになる.しかし潜在変数の推定は良好。
23
微妙なケース(2)
二つのコンポーントが重なっている場合
a=0.5,b=(-0.5,-0.5),c=(0.5,0.5)
このとき q(x)=p(x|a,b,c)となるのは a=0.5, b=(-0.5,-0.5), c=(0.5,0.5) ( b と c は入れ替え可能).
モデリングの際に複数の山を使ったほうがいいかどうかわからないので情報量規準で比較したくなるケース
ほぼ重なるふた山のとき
log(n=5) log(n=1280)
AIC
ISCVG
WAIC
DIC
n ×(Gn-L(w0))
n の対数目盛り
25
相転移
事後 ≠ 正規
相転移点上
事後=正規
「構造の発見」が起こる前後で事後分布が大きく変化する.
ISCV と WAIC はどちら側でも相転移上でも使える。
事後分布は大きく変わる
潜在変数の推定結果 n=10
潜在変数の推定結果 n=100
潜在変数の推定結果 n=1000
相転移点上では潜在変数の推測は不安定である.非常に大きな n になって初めて潜在変数の推測ができる.
29
5 ハイパーパラメータによる相転移
ハイパーパラメータ α
汎化損失ーエントロピー
漸近理論
相転移の例
事後分布が正規分布で近似できない場合にはハイパーパラメータの変化が相転移を引き起こすことがある。
x∈R2, n=100. 統計モデル ( w=(a1,a2,b1,b2) )p(x|w)=a1N2(x,b1)+a2N2(x,b2)真の分布 p(x|0.5,0.5,0,0) a の事前分布 ディリクレ分布φ(a|α)∝(a1 (1-a1) a2 (1-a2)) α-1
b の事前分布 裾広の正規分布
ハイパーパラメータ α の値を変えると実対数閾値が変わる
λ(α) = α/2 (α<2)2 (α≧2)
事後分布の形が α=2の前後で急激に変わる(相転移)。汎化損失ーエントロピーは λ(α)/2n。
ハイパーパラメータ最適化の問題(2)
事後分布が正規分布で近似できない場合を考える。
(1) ハイパーパラメータを変えると実対数閾値が変わる場合がある。この場合には汎化損失は 1/n のオーダーで変わる。
(2) ハイパーパラメータを変えると実対数閾値が微分可能でない点があることがある。相転移点という。相転移点の前後では事後分布の形が急激に変わる。前ページの例では、α<2では、ひとつのコンポーネントでの学習が行われているのに対して、α≧2では、ふたつのコンポーネントが用いられるようになる。
(3) 相転移がある場合でも汎化損失はCVとWAICで推測することができるが、汎化損失の揺らぎは(CVとWAICの揺らぎも)相転移の付近では大きくなる。相転移点の近くは安定した統計的推測に適さないように思われる。事後分布の形状もMCMC法での近似がより難しくなることが多い。
(4) 2個の混合からなる混合正規分布のように簡単な問題であれば相転移の構造は解明されているが、多数の隠れユニットを持つ神経回路網のように複雑な対象では実対数閾値も相転移の構造もまだ解明されていない。
32
まとめ
◎ データから潜在変数を推測する問題を考えた
◎ 周辺化したモデルは一般に正則性を持たないが汎化損失を推測することは可能である.
◎ ISCV, AIC, DIC, WAIC を比較した.ISCV, WAIC は,どの条件下でも利用可能
◎ モデリングにおいて判断が分かれる点(相転移点)では、潜在変数の推測も不安定になる.
◎ 潜在変数の推測がどのくらい正確かを知ることはできるだろうか.
Recommended