74
ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学 数理情報学 談話会 20191126日(火) 17:00-18:00 この講演では東京大学鈴木大慈先生の お世話になりました。御礼申し上げます。

ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

ガウス近似できない事後分布の漸近挙動について

渡辺澄夫

東京工業大学

東京大学 数理情報学 談話会2019年11月26日(火) 17:00-18:00

この講演では東京大学鈴木大慈先生のお世話になりました。御礼申し上げます。

Page 2: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

もくじ

1 「学習」の数学

2 道に迷う

3 代数解析学

4 代数幾何学

5 実世界へ

Page 3: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

1 「学習」の数学

数学

Page 4: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

「学習理論」 とは

先生

学習さん

先生と同じになるには

りんご,みかん,ぶどう,でしょう

Page 5: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

先生 学習さん

{ 学習 } で成り立つ法則を知りたい

学習

「学習」の数学

Page 6: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

先生 学習さん

y

O

q(y|x)

x

y

O

p(y|x,w)

x

パラメータ w の

Page 7: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

先生 ← 学習さん

q(y|x) ← p(y|x,w)

q(x) q(y|x) ← q(x) p(y|x,w)

q(x) ← p(x|w)

(x,y) を改めて1個の x と思うことにすると

Page 8: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

りんご

鬼練習:

1000個・・・りんご

根性

・・・

練習:

1000000個 ・・・

学習の過程

Page 9: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

「学習後の状態」 は ρ(w)

ϕ(w) p(X1|w) p(X2|w) ・・・ p(Xn|w)ρ(w) ∝

データ X1, X2, ・・・, Xn を学習した後の w の状態を

と定義する(事後分布という。ϕ(w) は事前分布)。

Page 10: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

「予測」を ρ(w) の平均で定義した・・・

p(x|w) ρ(w) dwp*(x) =

学習後には 予測を

によって行う。

Page 11: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

11

「予測がどのくらい正しいか」 を測りたい

学習していないもの

りんご!!

汎化誤差我子を谷へ

絶壁登る

真 と 予測の差を

何で測る?

りんご!

Page 12: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

12

カルバック・ライブラ擬距離=相対エントロピー

K(w) = ∫ q(x) log ( q(x) / p (x|w) ) dx

G = ∫ q(x) log ( q(x) / p*(x) ) dx

真 と モデル の差

「真 と 予測 の差=汎化誤差」 を知りたい

Page 13: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

13

よみがえる伝説 I 相対エントロピー

Boltzmann

情報の量と同じです。(1950頃)

ShannonFisher

2階微分は推定精度です。(1925頃)

系が平衡状態へ近づく速さを相対エントロピーで測りましょう(19世紀)。

Page 14: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

未知の q(x) データ

汎化誤差 G

予測 p*(x)

事後分布

ρ(w)

学習とは

Page 15: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

15

学習曲線とは

データの個数 n

E[G]Q 「学習曲線を定めている

ものは何だろうか」に答えるための数学を見つけたい。

Page 16: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

16

1 まとめ

「学習」の数学を求めて 旅に出た。

Page 17: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

2 道に迷う

Page 18: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

18

正則ケースでは学習曲線が解明されていた

wx y

正則ケースとは:

(x,y) の組が無限個あるとき

w ∈Rd がひとつ w0 に定まり

K(w)のヘッセ行列が正定値 データの数 n

d2n

E[G]

Page 19: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

19

正則ケースは事後分布がガウス関数で近似できる

事後分布≒ガウス関数

Rd→ exp( - n (w-w0)2 )

事後分布 ρ(w)

∝ exp( - n K(w) )

Page 20: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

しかし 現代の学習モデルでは

○ (x,y) の組が増えても

w はひとつに収束しない。

○ 正則ケースは実験と

合わない。

〇 「わからない」は論文

になりにくい。

参考文献 [1][2]X

w

Page 21: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

隠れマルコフモデル

混合正規分布

確率文法ベイズネット

階層モデル

X Y

ZW

U

V S T

行列分解

構造を持つ学習モデルはみな同じ

Page 22: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

学習モデル と パラメータ集合

参考文献 [3]

Page 23: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

パラメータ集合の意味

特異点を含む解析的集合

Page 24: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

事後分布はガウス分布にならない

ρ(a,b)=exp( -n b 2 (b-a3)2 )

Page 25: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

25

ガウス近似できないときは未解決だった

具体的な計算だからがんばれば できるはず・・・

甘い見通し

Page 26: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

26

できる場合から やってみた

モデル: Y = a tanh(bX) + c tanh(dX) 真: Y = 0

X

Ya b

c db = b’ d

c = a b’ { (b’-1) c’ d – 1 }

により E[G] = 2/3n +o(1/n) がわかる。

奇妙な変数変換

Page 27: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

27

計算しても 計算しても 計算しても・・・

「一般化すれば いいだけだ」

計算式は 果てしなく複雑に・・・

現実の学習モデルは

複雑な 特異点 を持っているX

Ya c

d f

b

e

Page 28: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

28

2 まとめ

「学習理論を 作ることはできない」

⇒ 研究がなかったのは 不可能だから。

⇒ 諦めて 帰ろう ・・・。

⇒ ・・・ さようなら 学習理論 ・・・。

・・・ 絶望 そして 長い時間が流れていった ・・・。

Page 29: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

絶望・・・・・ え?

3 代数解析学

Page 30: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

ベルンシュタイン・佐藤のb関数

任意の多項式 f(x)∈R[x1,x2,…,xN] に対してある微分作用素 D と1変数多項式 b(z) が存在して 任意の z∈C について

D f(x)z+1 = b(z) f(x)z

佐藤(1970) Bernstein(1971) が独立に発見。 参考文献[4][5]

Page 31: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

31

b関数は代数的な世界に住んでいます。

存在はD加群を用いて証明されます。 佐藤先生

Bernstein

よみがえる伝説 II b関数の住むところ

Page 32: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

b関数の性質

☆ 最も次数が低く最高次の係数が1の b(z) はユニークである。

☆ 任意の解析関数 f(x) に対しても成立(Bjork) [6]。

☆ b(z) の零点は負の有理数(柏原先生) [7]。

☆ b(z) を見つけるアルゴリズム(大阿久先生) [8]。

Page 33: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

なぜ b関数が 学習理論なのか

例: K(a,b,c)= (a2+b2+c2) のとき

(∂a2+∂b

2+∂c2) Kz+1 = 4(z+1)(z+3/2) Kz

「KL情報量 ⇒b関数の零点⇒学習曲線」 だから。

⇒ 学習曲線は E[G] = 3/2n +o(1/n).

Page 34: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

学習理論でもゼータ関数を考えることにした

ゼータ関数を次式で定義

ζ(z) = ∫ K(w)z φ(w) dwRe(z)>0 で解析的である。D の共役作用素を D* とすると

ζ(z) = ∫ K(w)z+1 D*φ(w) dw.1 b(z)

Re(z)>-1 まで解析接続できた。

Page 35: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

解析接続 Im(z)

Re(z)-λO

これを繰り返すと ζ(z) は複素平面全体に有理型関数としてユニークに解析接続できる。極は b(z) の零点。

Page 36: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

ゼータから事後分布がわかる

Z(n) = ∫ exp(-nK(w)) φ(w) dw.

ゼータを 逆メリン変換してから ラプラス変換すると

ゼータの原点に最も近い極(-λ)位数 m とすればn→ ∞ で

Z(n) ∝ n –λ (log n)m-1 .

Page 37: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

学習曲線は Z(n) から計算できて

学習曲線が解明できた。

E[G] = λ/n +o(1/n). 定数 λ のことを 実対数閾値 という(双有理不変量)。

参考文献 [9]

Page 38: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

未来への問題(1)

多項式列の b 関数列は法則を持ちますか?

無限極限 k →∞ での漸近特性は?

Dk fk (x)z+1 = bk (z) fk (x)z

Page 39: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

3 まとめ

学習曲線はゼータの最大極で定まる。

Page 40: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

双有理不変量

b関数 ゼータ関数

D加群 可解モデル

特異点解消定理

経験過程

4代数幾何学

Page 41: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

41

学習理論は実世界で使えるのか

関数 K(w) は真の分布を

必要としている

実世界では真の分布は不明・・・。

まだまだじゃ ぐぬぬ

Page 42: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

42

実世界を希求する

実世界を知るためには

真の分布が不明でも成り立つ恒等式が必要か・・・。

もっと数学を

Page 43: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

よみがえる伝説 III ゼータ関数の解析接続

広中の定理を用いればできます。(1970)

Gel’fand Atiyah

最初に問題を見つけた先生

f(x)zは複素平面全体に

有理型に解析接続できるはず・・・ (1954)

参考文献 [10]

Page 44: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

よみがえる伝説 IV b関数の有理性

「b関数の零点はすべて有理数」は広中の定理に基づいて証明できます(1976)。

柏原先生

参考文献 [7]

Page 45: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

45

代数幾何学へ

b関数は特異点解消定理とつながっているのか・・・。

行くしかない

Page 46: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

R

Rd

各局所座標で正規交差

∃w=g(u)

K(g(u))= u12k1 u2

2k2 ・・ ud2kd

∃多様体 M

∀ K(w) ≧0

パラメータ集合

特異点解消定理(広中の定理1964)

Page 47: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

特異点解消の例

x4-x2y+y3=0

y

xO

x=uy=uw

x=sty=t

BO(V)

u3(u-w+w3)=0

s

t3(s4t-s2+1)=0

tO

例外直線

BO(V)

u

w

O

例外直線

V

Page 48: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

広中の定理

代数多様体の特異点は、特異点集合に含まれる非特異集合のブローアップの有限回の合成により正規交差にできる。

参考文献 [11]

Page 49: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

49

R

学習理論つくりやすい

学習理論つくりにくい

学習理論は双有理同値

双有理写像

u12k1 u2

2k2 ・・ ud2kdK(w)

Page 50: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

対数尤度関数の標準形

L(w) = ー Σ log p(Xi|w)

L(w)-L(w0) = nK(g(u)) - nK(g(u)) ξn(u)

n

i=1

対数尤度関数は元空間では扱いにくかった。

特異点解消した空間では well-defined な関数 ξn(u) が存在して

Page 51: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

繰り込み可能になった。

⇒ 確率過程 ξ(u) について関数空間上の部分積分を適用する

と次ページの定理が得られる。

L(w)-L(w0) ⇒ nK(g(u)) - nK(g(u)) ξ(u)

確率過程 ξn(u) は正規確率過程 ξ(u) に分布収束する。

⇒ 変数 u の空間では 「 n →∞で増大する項」 と 「揺らぐ項」

を分離できた (繰り込み可能になった)。

Page 52: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

汎化と学習の普遍的な関係式

定理. 事後分布がガウス近似できなくても

E[G] = E[ T ] + E[ V ]

G 汎化損失

T 学習損失

V 事後分布の揺らぎ

参考文献 [12]

Page 53: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

数学と実世界がつながった

E[G] = E[ T ] + E[ V ]

実世界では G を直接に知ることはできないが

T と V は計算できる。

証明に必要となる 数学は透明になり 結果には現れない。

Page 54: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

54

w=g(u)

未来への問題(2)

正規確率過程 ξ(u)正規確率過程 ξ(g-1(w))

w上の正規確率過程 ξ(g-1(w)) は特異点上 well-defined ではないが、ξ(g-1(w)) から特異点の数学的情報が取り出せないだろうか。

Page 55: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

4 まとめ

特異点解消定理から

学習の恒等式が得られた。

Page 56: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

5 実世界へ

海を越えて・・・

Page 57: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

学習曲線と相転移

X Y

ZW

U

V S T

Page 58: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

Special Thanks 学習と相転移の解明(敬称略)

山崎啓介 混合正規分布[21]隠れマルコフ[22]トーリック改変[23]

青柳美輝 縮小ランク回帰[24]ヴァンデアモンド[25]

永田賢二 レプリカ交換率[26]山田耕史 擬正則モデル[27]林 直輝 非負値行列[28]佐藤件一郎 混合ポアソン[29]

渡辺一帆 変分ベイズ[30]中島伸一 変分汎化誤差[31]星野 力 文脈自由文法[32]西山 悠 再帰確率伝播[33]梶 大介 相転移図[34]松田 健 重みつきBU[35]藤原香織 検定統計量[36]中村文士 一般ディリクレ[37]幸島匡宏 行列分解転移[38]

Page 59: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

59

データから 実世界に挑む

実世界を解析する困難に挑戦する・・・

実世界のデータ

Page 60: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

10 0 20 30 100

学習時に間違えた数

60 100 30 50 80

テスト時に間違えた数

何を見てモデルを決めるのか(A)☆ 汎化 G を最小にするモデルを選ぼう(赤池先生,1974)

Page 61: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

61

正則なケース(A)赤池情報量規準(1974 [13]) AIC= T+d/n とおくと

E[G] = E[ AIC]

データが独立で モデルが正則なら AIC はクロスバリ

デーションと漸近等価である (1977,Stone [14])。

AICは極めて多くのモデリングをサポート。

Page 62: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

62

現代のモデルでも(A)広く使える情報量規準(2010 [12]) WAIC=T+V とおくと

E[G] = E[ WAIC ]

データが独立なら 正則でなくても WAIC はクロスバリ

デーションと漸近等価である [15]。

数年前から 広く使われるようになってきました。

Page 63: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

何を見てモデルを決めるのか(B)

☆ 自由エネルギーの小さいモデルを選ぼう (Good,1950頃)

F= - log ∫ϕ(w) p(X1|w) p(X2|w)・・・ p(Xn|w) dw

自由エネルギー ⇔ n 個分の汎化誤差

Page 64: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

64

正則なケース(B)

ベイズ情報量規準(1978, Schwarz [16])

BIC = nT+(d/2) log n とおくと F = BIC + Op(1)

Page 65: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

65

現代のモデルでも(B)

特異BIC(2017, Drton他 [17]) sBIC=nT+λ* log n は

F = sBIC +Op(log log n)

広く使える WBIC = Ew1/ log n[L(w)] (2013 [18] ) は

F = WBIC +Op((log n)1/2)

Page 66: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

66

未来への問題(3)

一般 E[G] = E[ T + V ]

もっと深く広い法則があるのでは?

ガウス近似 E[G] = E[ T ] + d/n

Page 67: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

数学 実世界

まとめ数学と実世界は透明な法則でつながれている

Page 68: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

結論

数学を探す旅を紹介しました。

Page 69: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

参考文献

Page 70: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

参考文献

[2] Hagiwara, K., Toda, N., & Usui, S. (1993) On the problem of applying AIC to determine the structure of a layered feed-forward neural network. Proc. Of IJCNN Nagoya Japan, 3, 2263–2266.

[1] Hartigan J. A. (1985). A failure of likelihood asymptotics for normal mixtures. In Proc. of the Barkeley Conference in Honor of J. Neyman and J. Kiefer, Vol. 2, pp. 807–810,.

[3] Watanabe,S. (2009), Algebraic geometry and statistical learning theory, Cambridge University Press,

[4] Sato, M., & Shintani, T. (1974). On zeta functions associated with prehomogeneous vector space. Annals of mathematics, 100, 131–170.

[5] Bernstein, I. N. (1972). The analytic continuation of generalized functions with respect to a parameter. Functional Anal. Appl., 6, 26–40.

[6] Bj ¨ork, J. E. (1979). Rings of differential operators. Amsterdam: North-Holland.

[7] Kashiwara, M. (1976). B-functions and holonomic systems. Inventions Math., 38,33–53.

[8] Oaku,T. (1997). Algorithms for the b-function and D-modules associated with a polynomial. Journal of Pure Applied Algebra, 117:495-518.

[9] Watanabe,S. (2001). Algebraic analysis for nonidentifiable learning machines, Neural computation, 13, 899–933.

Page 71: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

参考文献

[10] Atiyah, M. F. (1970). Resolution of singularities and division of distributions. Comm. Pure and Appl. Math., 13, 145–150.

[11] Hironaka, H. (1964). Resolution of singularities of an algebraic variety over afield of characteristic zero. Annals of Mathematics, 79, 109–326.

[12] Watanabe,S. (2010) Equations of states in singular statistical estimation. Neural Networks. 23(1):20-34.

[13] Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. on Automatic Control, 19, 716–723.

[14] Stone,H. (1997) An asymptotic equivalence of choice of model by cross-validation and Akaike’s criterion. Journal of the Royal Statistical Society. 39(B):44-47.

[15] Watanabe,S.(2010) Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory. Journal of Machine Learning Research, 11:3571–3591.

[16] Schwarz,G. (1978) Estimating the dimension of a model. The Annals of Statistics, 6(2):461–464.

[17] Drton, M. Plummer, M. (2017) A Bayesian information criterion for singular models“. Journal of the Royal Statistical Society Series B. 79: 323-380.

[18] Watanabe,S. (2013) A widely applicable Bayesian information criterion. Journal of Machine Learning Research 14 (2013) 867-897.

Page 72: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

参考文献

[21] Yamazaki,K. et.al. (2003) Singularities in mixture models and upper bounds of stochastic complexity. International Journal of Neural Networks, 16 (7), pp.1029-1038.

[22] Yamazaki,K. et.al. (2005) Algebraic geometry and stochastic complexity of hidden Markov models. Neurocomputing, 69,pp.62-84.

[23] Yamazaki,K. Aoyagi,M. et.al.(2010) Asymptotic Analysis of Bayesian Generalization Error with Newton Diagram. Neural Networks, 23 (1), pp.35-43.

[24] Aoyagi, M. et.al. (2005) Stochastic complexities of reduced rank regression in Bayesian estimation. Neural Networks, 18 (7) ,pp.924-933.

[25] Aoyagi,M.(2010) A Bayesian Learning Coefficient of Generalization Error and Vandermonde Matrix-Type Singularities. Communications in Statistics - Theory and Methods, 39 (15), 2667 – 2687.

[26] Nagata.K. et.al. (2008) Exchange Monte Carlo Sampling From Bayesian Posterior for Singular Learning Machines," IEEE Transactions on Neural Networks, Vol.19 (7) pp.1253-1266.

[27] Yamada,K. et.al. (2012) Statistical Learning Theory of Quasi-Regular Cases," IEICE Transactions, Vol.E95-A, No.12, pp.2479-2487.

[28] Hayashi, N. et.al. (2017) Upper Bound of Bayesian Generalization Error in Non-Negative Matrix Factorization. Vol.266, 29 pp.21-28.

[29] Sato,K. et.al. (2017) Real Log Canonical Threshold and Bayesian Generalization Error of Mixture of Poisson Distributions. IEICE Technical Report. 117, IBISML2017-90, pp. 1-6.

Page 73: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

参考文献

[30] Watanabe,K..et.al. Stochastic complexities of gaussian mixtures in variational Bayesian approximation. Journal of Machine Learning Research, 7, pp.625-644, 2006.

[31] Nakajima, S. et.al. Variational Bayes Solution of Linear Neural Networks and Its Generalization Performance.’’NeuralComputation, vol.19, no.4, pp.1112-1153, 2007.

[32] Hosino,T. Watanabe, K. et.al. (2006) Free Energy of Stochastic Context Free Grammar on Variational Bayes. Proc. of ICONIP, Vol.1, pp.407-416, 2006. (October 3-6,2006, Honkong, China).

[33] Nishiyama,Y. et.al.(2009) Accuracy of Loopy Belief Propagation in Gaussian Models. Neural Networks, 22 (4) pp.385-394.

[34] 藤原,他 (2008) 特異モデルにおけるベイズ検定と時系列解析への応用. 電子情報通信学会論文誌D, Volume J91-D, (4), pp.889-896, 2008.

[35] Kaji,D. Watanabe, K. et.al. (2010) Phase transition of variational Bayes learning in Bernoulli mixtute. Australian Journal of Intelligent Information Processing Systems, 11(4) ,pp.35-41.

[36] 松田, 他 (2010) 重みつきブローアップの混合多項分布への応用. 電子情報通信学会誌A, Vol.J93-A,,(4),pp.300-308.

[37] 中村,他 (2014) 一般ディリクレ分布を用いた混合正規分布の変分自由エネルギーの漸近挙動について. 電子情報通信学会論文誌D, Vol.J97-D, No.5, pp.1001-1013, 2014.

[38] Kohjima.K. et.al. (2017) Phase Transition Structure of Variational Bayesian Nonnegative Matrix Factorization. Artificial Neural Networks and Machine Learning - ICANN, Vol.2, Lecture Notes in Computer Science, Springer, pp.146-154.

Page 74: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会

関連リンク

統計学で「主義」が心配なかたに

ベイズ統計の基礎

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes000.pdf

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho-gakushu6.html

ベイズ統計の数理

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho-gakushu7.html

著者の関連ページを紹介します。