32
1 ベイズ統計入門 (14) 目標 相転移 東京工業大学 渡辺澄夫

ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

1

ベイズ統計入門 (14)

目標 相転移

東京工業大学

渡辺澄夫

Page 2: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

旅の地図

(1) ベイズ統計の定義(2) 密度と条件つき密度(3) 混合正規分布+ギブスサンプラー(4) 神経回路網+ランジュバン方程式(5) 真とモデルの関係(6) 正則モデルの漸近理論(7) AIC と BIC (8) ハイパーパラメータ最適化(9) 一般モデルの漸近理論(10) 一般モデルの漸近理論(11) 一般モデルの選択(12) 条件つき独立 高次元(13) 階層ベイズ(14) 相転移(15) まとめ

Page 3: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

3

1 潜在変数の問題

Page 4: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

データ発生過程の例

変数 x ∈ R2, y∈{0,1}

確率 a でy=1

(1-a) でy=0

x

上の過程を n 回独立に繰り返して Xn を得る。Y は観測できない場合を考える。(a,b,c) はわかるだろうか.また各 x に対する y を知ることはできるだろうか

中心 b

中心 c

パラメータ 0 ≦ a ≦ 1 , b, c ∈ R2

Page 5: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

潜在変数を持つモデルの例

(2次元正規分布) N(x) = (1/2π) exp( - ||x||2/2)

p(x,0|a,b,c) = (1-a)N(x-b)

p(x,1|a,b,c) = aN(x-c)このとき

p(x|a,b,c) = (1-a)N(x-b) + aN(x-c)

モデル p(x,y|a,b,c) = [(1-a)N(x-b)]1-y×[ a N(x-c) ]y

n=30 の場合

Page 6: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

6

ベイズ推測

∝ ϕ(a,b,c) Π p(Xi,Yi|a,b,c)n

i=1p(Yi,a,b,c|Xi)

(2) ϕ(a,b,c) を (a,b,c) の事前分布とするとき (Yi,a,b,c) の分布は

(3) マルコフ連鎖モンテカルロ法によって { (Yi,a,b,c)} をサンプリング

このとき (a,b,c) は事後分布からのサンプリング

{Yi} はベイズ推測された分布からのサンプリング

p(x|a,b,c) を平均したものがベイズ予測分布

(1) { Xi ; i=1,2,…,n } が観測して得られる

Page 7: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

7

現実的な状況ではもっとたくさんの混合

データを発生した分布はモデルの中にはない.しかしながら,モデル候補の中からデータに対して相応しいと思われるモデルが使われるだろう.そのとき「真の分布はモデルで実現できるようなできないような状況であり」「事後分布は正規分布で近似できるようなできないような状況であるだろう」

モデルの複雑さ

n

選ばれる可能性の高いモデル

真の分布はモデルで実現できないように見える事後分布は正規分布に近い

真の分布はモデルで実現できるように見える事後分布は正規分布から遠い

漸近理論

モデル評価

Page 8: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

8

真 q(x) モデル p(x|w)

n : 小 n : 大

非正則にみえる 正則にみえる

実現可能にみえる 実現可能でないようにみえる

誤差は主に統計揺らぎ 誤差は主に関数近似誤差

バイアスとバリアンス

Page 9: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

9

現実的な状況では

統計モデルから見ると真の分布はサンプルの揺らぎの中にあって、n に応じた解像度でしか知ることはできない。統計モデリングにおいては様々なモデルや事前分布の候補を考える必要があるので、非正則な場合や実現できない場合の理論も必要になる。

モデルの複雑さ

n

統計モデリングで検討されるところ

実現不可能正則

実現可能非正則

汎化損失最小のモデル

Page 10: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

10

2 正則な場合

Page 11: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

11

正則な場合

a0=0.5,b0=(-2,-2), c0=(2,2)

真のパラメータが

この場合は q(x)=p(x|a,b,c)となるのは a=0.5, b=(-2,-2),c=(2,2) のときだけ( b と c は入れ替え可能).

実現可能かつ正則

モデル p(x|a,b,c) = (1-a)N(x-b) + a N(x-c)事前分布 ϕ(a,b,c) = Dirichlet(a|0.3) N(b,102) N(c,102)

真 q(x) = p(x|a0,b0,c0)

Page 12: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

正則な場合

log(n=5)

n ×(Gn-L(w0))

log(n=1280)

AIC

ISCV

GWAIC

DIC

n の対数目盛り

Page 13: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

潜在変数の推定 n=30

ふたつの山がはっきりと区別できる場合にはどんな

情報量規準を使っても大丈夫.潜在変数の推定も良好にできる.

Page 14: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

14

3 非正則な場合

Page 15: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

15

非正則ケース

コンポーネントが一個のとき

この場合 q(x)=p(x|a,b,c)となるのはa=0, b=(0,0), c=freea=1, c=free, c=(0,0,)a=free, b=c=(0,0).

実現可能だが正則ではない

a0=0.5,b0=c0=(0,0)

Page 16: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

非正則ケース

log(n=5) log(n=1280)

AIC

ISCVG WAIC

DIC

n ×(Gn-L(w0))

n の対数目盛り

Page 17: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

潜在変数の推定 n=30

山がひとつのときには、潜在変数はどちらかひとつになりやすい潜在変数の推測は意味がないが事後分布には影響する.

Page 18: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

18

4 データに依存する場合

Page 19: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

19

微妙な場合(1)

一個のコンポーネントが小さい場合

この場合 q(x)=p(x|a,b,c)となるのはa=0.01, b=(2,2), c=(-2,-2)

あるいはa=0.99, b=(-2,-2), c=(2,2)

正則かどうかは微妙

◎外れ値の発見などの問題でよく現れるケース

a0=0.99,b0=(-2,-2), c0=(2,2)

グラフだと見えないが 0.01 だけある

Page 20: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

微妙ケース(1)

log(n=5) log(n=1280)

AIC

ISCV

WAIC

DIC

n ×(Gn-L(w0))

n の対数目盛り

ISCVは分散が大きい

Page 21: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

データを固定したときのMCMC標準偏差

log(n=5) log(n=1280)AIC

ISCV

WAIC

DIC

n ×(標準偏差)

n の対数目盛り

Page 22: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

潜在変数の推定結果 n=300

n が小さいときは山がひとつのときと同じになる. n が大きくなる

と山が二つのときと同じになる.しかし潜在変数の推定は良好。

Page 23: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

23

微妙なケース(2)

二つのコンポーントが重なっている場合

a=0.5,b=(-0.5,-0.5),c=(0.5,0.5)

このとき q(x)=p(x|a,b,c)となるのは a=0.5, b=(-0.5,-0.5), c=(0.5,0.5) ( b と c は入れ替え可能).

モデリングの際に複数の山を使ったほうがいいかどうかわからないので情報量規準で比較したくなるケース

Page 24: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

ほぼ重なるふた山のとき

log(n=5) log(n=1280)

AIC

ISCVG

WAIC

DIC

n ×(Gn-L(w0))

n の対数目盛り

Page 25: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

25

相転移

事後 ≠ 正規

相転移点上

事後=正規

「構造の発見」が起こる前後で事後分布が大きく変化する.

ISCV と WAIC はどちら側でも相転移上でも使える。

事後分布は大きく変わる

Page 26: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

潜在変数の推定結果 n=10

Page 27: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

潜在変数の推定結果 n=100

Page 28: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

潜在変数の推定結果 n=1000

相転移点上では潜在変数の推測は不安定である.非常に大きな n になって初めて潜在変数の推測ができる.

Page 29: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

29

5 ハイパーパラメータによる相転移

Page 30: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

ハイパーパラメータ α

汎化損失ーエントロピー

漸近理論

相転移の例

事後分布が正規分布で近似できない場合にはハイパーパラメータの変化が相転移を引き起こすことがある。

x∈R2, n=100. 統計モデル ( w=(a1,a2,b1,b2) )p(x|w)=a1N2(x,b1)+a2N2(x,b2)真の分布 p(x|0.5,0.5,0,0) a の事前分布 ディリクレ分布φ(a|α)∝(a1 (1-a1) a2 (1-a2)) α-1

b の事前分布 裾広の正規分布

ハイパーパラメータ α の値を変えると実対数閾値が変わる

λ(α) = α/2 (α<2)2 (α≧2)

事後分布の形が α=2の前後で急激に変わる(相転移)。汎化損失ーエントロピーは λ(α)/2n。

Page 31: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

ハイパーパラメータ最適化の問題(2)

事後分布が正規分布で近似できない場合を考える。

(1) ハイパーパラメータを変えると実対数閾値が変わる場合がある。この場合には汎化損失は 1/n のオーダーで変わる。

(2) ハイパーパラメータを変えると実対数閾値が微分可能でない点があることがある。相転移点という。相転移点の前後では事後分布の形が急激に変わる。前ページの例では、α<2では、ひとつのコンポーネントでの学習が行われているのに対して、α≧2では、ふたつのコンポーネントが用いられるようになる。

(3) 相転移がある場合でも汎化損失はCVとWAICで推測することができるが、汎化損失の揺らぎは(CVとWAICの揺らぎも)相転移の付近では大きくなる。相転移点の近くは安定した統計的推測に適さないように思われる。事後分布の形状もMCMC法での近似がより難しくなることが多い。

(4) 2個の混合からなる混合正規分布のように簡単な問題であれば相転移の構造は解明されているが、多数の隠れユニットを持つ神経回路網のように複雑な対象では実対数閾値も相転移の構造もまだ解明されていない。

Page 32: ベイズ統計入門 (14)watanabe- · iscv, aic, dic, waic . を比較した.iscv, waic は, どの条件下でも利用可能. モデリングにおいて判断が分かれる点(相転移点)

32

まとめ

◎ データから潜在変数を推測する問題を考えた

◎ 周辺化したモデルは一般に正則性を持たないが汎化損失を推測することは可能である.

◎ ISCV, AIC, DIC, WAIC を比較した.ISCV, WAIC は,どの条件下でも利用可能

◎ モデリングにおいて判断が分かれる点(相転移点)では、潜在変数の推測も不安定になる.

◎ 潜在変数の推測がどのくらい正確かを知ることはできるだろうか.