ガウス近似できない事後分布の...

Preview:

Citation preview

ガウス近似できない事後分布の漸近挙動について

渡辺澄夫

東京工業大学

東京大学 数理情報学 談話会2019年11月26日(火) 17:00-18:00

この講演では東京大学鈴木大慈先生のお世話になりました。御礼申し上げます。

もくじ

1 「学習」の数学

2 道に迷う

3 代数解析学

4 代数幾何学

5 実世界へ

1 「学習」の数学

数学

「学習理論」 とは

先生

学習さん

先生と同じになるには

りんご,みかん,ぶどう,でしょう

先生 学習さん

{ 学習 } で成り立つ法則を知りたい

学習

「学習」の数学

先生 学習さん

y

O

q(y|x)

x

y

O

p(y|x,w)

x

パラメータ w の

先生 ← 学習さん

q(y|x) ← p(y|x,w)

q(x) q(y|x) ← q(x) p(y|x,w)

q(x) ← p(x|w)

(x,y) を改めて1個の x と思うことにすると

りんご

鬼練習:

1000個・・・りんご

根性

・・・

練習:

1000000個 ・・・

学習の過程

「学習後の状態」 は ρ(w)

ϕ(w) p(X1|w) p(X2|w) ・・・ p(Xn|w)ρ(w) ∝

データ X1, X2, ・・・, Xn を学習した後の w の状態を

と定義する(事後分布という。ϕ(w) は事前分布)。

「予測」を ρ(w) の平均で定義した・・・

p(x|w) ρ(w) dwp*(x) =

学習後には 予測を

によって行う。

11

「予測がどのくらい正しいか」 を測りたい

学習していないもの

りんご!!

汎化誤差我子を谷へ

絶壁登る

真 と 予測の差を

何で測る?

りんご!

12

カルバック・ライブラ擬距離=相対エントロピー

K(w) = ∫ q(x) log ( q(x) / p (x|w) ) dx

G = ∫ q(x) log ( q(x) / p*(x) ) dx

真 と モデル の差

「真 と 予測 の差=汎化誤差」 を知りたい

13

よみがえる伝説 I 相対エントロピー

Boltzmann

情報の量と同じです。(1950頃)

ShannonFisher

2階微分は推定精度です。(1925頃)

系が平衡状態へ近づく速さを相対エントロピーで測りましょう(19世紀)。

未知の q(x) データ

汎化誤差 G

予測 p*(x)

事後分布

ρ(w)

学習とは

15

学習曲線とは

データの個数 n

E[G]Q 「学習曲線を定めている

ものは何だろうか」に答えるための数学を見つけたい。

16

1 まとめ

「学習」の数学を求めて 旅に出た。

2 道に迷う

18

正則ケースでは学習曲線が解明されていた

wx y

正則ケースとは:

(x,y) の組が無限個あるとき

w ∈Rd がひとつ w0 に定まり

K(w)のヘッセ行列が正定値 データの数 n

d2n

E[G]

19

正則ケースは事後分布がガウス関数で近似できる

事後分布≒ガウス関数

Rd→ exp( - n (w-w0)2 )

事後分布 ρ(w)

∝ exp( - n K(w) )

しかし 現代の学習モデルでは

○ (x,y) の組が増えても

w はひとつに収束しない。

○ 正則ケースは実験と

合わない。

〇 「わからない」は論文

になりにくい。

参考文献 [1][2]X

w

隠れマルコフモデル

混合正規分布

確率文法ベイズネット

階層モデル

X Y

ZW

U

V S T

行列分解

構造を持つ学習モデルはみな同じ

学習モデル と パラメータ集合

参考文献 [3]

パラメータ集合の意味

特異点を含む解析的集合

事後分布はガウス分布にならない

ρ(a,b)=exp( -n b 2 (b-a3)2 )

25

ガウス近似できないときは未解決だった

具体的な計算だからがんばれば できるはず・・・

甘い見通し

26

できる場合から やってみた

モデル: Y = a tanh(bX) + c tanh(dX) 真: Y = 0

X

Ya b

c db = b’ d

c = a b’ { (b’-1) c’ d – 1 }

により E[G] = 2/3n +o(1/n) がわかる。

奇妙な変数変換

27

計算しても 計算しても 計算しても・・・

「一般化すれば いいだけだ」

計算式は 果てしなく複雑に・・・

現実の学習モデルは

複雑な 特異点 を持っているX

Ya c

d f

b

e

28

2 まとめ

「学習理論を 作ることはできない」

⇒ 研究がなかったのは 不可能だから。

⇒ 諦めて 帰ろう ・・・。

⇒ ・・・ さようなら 学習理論 ・・・。

・・・ 絶望 そして 長い時間が流れていった ・・・。

絶望・・・・・ え?

3 代数解析学

ベルンシュタイン・佐藤のb関数

任意の多項式 f(x)∈R[x1,x2,…,xN] に対してある微分作用素 D と1変数多項式 b(z) が存在して 任意の z∈C について

D f(x)z+1 = b(z) f(x)z

佐藤(1970) Bernstein(1971) が独立に発見。 参考文献[4][5]

31

b関数は代数的な世界に住んでいます。

存在はD加群を用いて証明されます。 佐藤先生

Bernstein

よみがえる伝説 II b関数の住むところ

b関数の性質

☆ 最も次数が低く最高次の係数が1の b(z) はユニークである。

☆ 任意の解析関数 f(x) に対しても成立(Bjork) [6]。

☆ b(z) の零点は負の有理数(柏原先生) [7]。

☆ b(z) を見つけるアルゴリズム(大阿久先生) [8]。

なぜ b関数が 学習理論なのか

例: K(a,b,c)= (a2+b2+c2) のとき

(∂a2+∂b

2+∂c2) Kz+1 = 4(z+1)(z+3/2) Kz

「KL情報量 ⇒b関数の零点⇒学習曲線」 だから。

⇒ 学習曲線は E[G] = 3/2n +o(1/n).

学習理論でもゼータ関数を考えることにした

ゼータ関数を次式で定義

ζ(z) = ∫ K(w)z φ(w) dwRe(z)>0 で解析的である。D の共役作用素を D* とすると

ζ(z) = ∫ K(w)z+1 D*φ(w) dw.1 b(z)

Re(z)>-1 まで解析接続できた。

解析接続 Im(z)

Re(z)-λO

これを繰り返すと ζ(z) は複素平面全体に有理型関数としてユニークに解析接続できる。極は b(z) の零点。

ゼータから事後分布がわかる

Z(n) = ∫ exp(-nK(w)) φ(w) dw.

ゼータを 逆メリン変換してから ラプラス変換すると

ゼータの原点に最も近い極(-λ)位数 m とすればn→ ∞ で

Z(n) ∝ n –λ (log n)m-1 .

学習曲線は Z(n) から計算できて

学習曲線が解明できた。

E[G] = λ/n +o(1/n). 定数 λ のことを 実対数閾値 という(双有理不変量)。

参考文献 [9]

未来への問題(1)

多項式列の b 関数列は法則を持ちますか?

無限極限 k →∞ での漸近特性は?

Dk fk (x)z+1 = bk (z) fk (x)z

3 まとめ

学習曲線はゼータの最大極で定まる。

双有理不変量

b関数 ゼータ関数

D加群 可解モデル

特異点解消定理

経験過程

4代数幾何学

41

学習理論は実世界で使えるのか

関数 K(w) は真の分布を

必要としている

実世界では真の分布は不明・・・。

まだまだじゃ ぐぬぬ

42

実世界を希求する

実世界を知るためには

真の分布が不明でも成り立つ恒等式が必要か・・・。

もっと数学を

よみがえる伝説 III ゼータ関数の解析接続

広中の定理を用いればできます。(1970)

Gel’fand Atiyah

最初に問題を見つけた先生

f(x)zは複素平面全体に

有理型に解析接続できるはず・・・ (1954)

参考文献 [10]

よみがえる伝説 IV b関数の有理性

「b関数の零点はすべて有理数」は広中の定理に基づいて証明できます(1976)。

柏原先生

参考文献 [7]

45

代数幾何学へ

b関数は特異点解消定理とつながっているのか・・・。

行くしかない

R

Rd

各局所座標で正規交差

∃w=g(u)

K(g(u))= u12k1 u2

2k2 ・・ ud2kd

∃多様体 M

∀ K(w) ≧0

パラメータ集合

特異点解消定理(広中の定理1964)

特異点解消の例

x4-x2y+y3=0

y

xO

x=uy=uw

x=sty=t

BO(V)

u3(u-w+w3)=0

s

t3(s4t-s2+1)=0

tO

例外直線

BO(V)

u

w

O

例外直線

V

広中の定理

代数多様体の特異点は、特異点集合に含まれる非特異集合のブローアップの有限回の合成により正規交差にできる。

参考文献 [11]

49

R

学習理論つくりやすい

学習理論つくりにくい

学習理論は双有理同値

双有理写像

u12k1 u2

2k2 ・・ ud2kdK(w)

対数尤度関数の標準形

L(w) = ー Σ log p(Xi|w)

L(w)-L(w0) = nK(g(u)) - nK(g(u)) ξn(u)

n

i=1

対数尤度関数は元空間では扱いにくかった。

特異点解消した空間では well-defined な関数 ξn(u) が存在して

繰り込み可能になった。

⇒ 確率過程 ξ(u) について関数空間上の部分積分を適用する

と次ページの定理が得られる。

L(w)-L(w0) ⇒ nK(g(u)) - nK(g(u)) ξ(u)

確率過程 ξn(u) は正規確率過程 ξ(u) に分布収束する。

⇒ 変数 u の空間では 「 n →∞で増大する項」 と 「揺らぐ項」

を分離できた (繰り込み可能になった)。

汎化と学習の普遍的な関係式

定理. 事後分布がガウス近似できなくても

E[G] = E[ T ] + E[ V ]

G 汎化損失

T 学習損失

V 事後分布の揺らぎ

参考文献 [12]

数学と実世界がつながった

E[G] = E[ T ] + E[ V ]

実世界では G を直接に知ることはできないが

T と V は計算できる。

証明に必要となる 数学は透明になり 結果には現れない。

54

w=g(u)

未来への問題(2)

正規確率過程 ξ(u)正規確率過程 ξ(g-1(w))

w上の正規確率過程 ξ(g-1(w)) は特異点上 well-defined ではないが、ξ(g-1(w)) から特異点の数学的情報が取り出せないだろうか。

4 まとめ

特異点解消定理から

学習の恒等式が得られた。

5 実世界へ

海を越えて・・・

学習曲線と相転移

X Y

ZW

U

V S T

Special Thanks 学習と相転移の解明(敬称略)

山崎啓介 混合正規分布[21]隠れマルコフ[22]トーリック改変[23]

青柳美輝 縮小ランク回帰[24]ヴァンデアモンド[25]

永田賢二 レプリカ交換率[26]山田耕史 擬正則モデル[27]林 直輝 非負値行列[28]佐藤件一郎 混合ポアソン[29]

渡辺一帆 変分ベイズ[30]中島伸一 変分汎化誤差[31]星野 力 文脈自由文法[32]西山 悠 再帰確率伝播[33]梶 大介 相転移図[34]松田 健 重みつきBU[35]藤原香織 検定統計量[36]中村文士 一般ディリクレ[37]幸島匡宏 行列分解転移[38]

59

データから 実世界に挑む

実世界を解析する困難に挑戦する・・・

実世界のデータ

10 0 20 30 100

学習時に間違えた数

60 100 30 50 80

テスト時に間違えた数

何を見てモデルを決めるのか(A)☆ 汎化 G を最小にするモデルを選ぼう(赤池先生,1974)

61

正則なケース(A)赤池情報量規準(1974 [13]) AIC= T+d/n とおくと

E[G] = E[ AIC]

データが独立で モデルが正則なら AIC はクロスバリ

デーションと漸近等価である (1977,Stone [14])。

AICは極めて多くのモデリングをサポート。

62

現代のモデルでも(A)広く使える情報量規準(2010 [12]) WAIC=T+V とおくと

E[G] = E[ WAIC ]

データが独立なら 正則でなくても WAIC はクロスバリ

デーションと漸近等価である [15]。

数年前から 広く使われるようになってきました。

何を見てモデルを決めるのか(B)

☆ 自由エネルギーの小さいモデルを選ぼう (Good,1950頃)

F= - log ∫ϕ(w) p(X1|w) p(X2|w)・・・ p(Xn|w) dw

自由エネルギー ⇔ n 個分の汎化誤差

64

正則なケース(B)

ベイズ情報量規準(1978, Schwarz [16])

BIC = nT+(d/2) log n とおくと F = BIC + Op(1)

65

現代のモデルでも(B)

特異BIC(2017, Drton他 [17]) sBIC=nT+λ* log n は

F = sBIC +Op(log log n)

広く使える WBIC = Ew1/ log n[L(w)] (2013 [18] ) は

F = WBIC +Op((log n)1/2)

66

未来への問題(3)

一般 E[G] = E[ T + V ]

もっと深く広い法則があるのでは?

ガウス近似 E[G] = E[ T ] + d/n

数学 実世界

まとめ数学と実世界は透明な法則でつながれている

結論

数学を探す旅を紹介しました。

参考文献

参考文献

[2] Hagiwara, K., Toda, N., & Usui, S. (1993) On the problem of applying AIC to determine the structure of a layered feed-forward neural network. Proc. Of IJCNN Nagoya Japan, 3, 2263–2266.

[1] Hartigan J. A. (1985). A failure of likelihood asymptotics for normal mixtures. In Proc. of the Barkeley Conference in Honor of J. Neyman and J. Kiefer, Vol. 2, pp. 807–810,.

[3] Watanabe,S. (2009), Algebraic geometry and statistical learning theory, Cambridge University Press,

[4] Sato, M., & Shintani, T. (1974). On zeta functions associated with prehomogeneous vector space. Annals of mathematics, 100, 131–170.

[5] Bernstein, I. N. (1972). The analytic continuation of generalized functions with respect to a parameter. Functional Anal. Appl., 6, 26–40.

[6] Bj ¨ork, J. E. (1979). Rings of differential operators. Amsterdam: North-Holland.

[7] Kashiwara, M. (1976). B-functions and holonomic systems. Inventions Math., 38,33–53.

[8] Oaku,T. (1997). Algorithms for the b-function and D-modules associated with a polynomial. Journal of Pure Applied Algebra, 117:495-518.

[9] Watanabe,S. (2001). Algebraic analysis for nonidentifiable learning machines, Neural computation, 13, 899–933.

参考文献

[10] Atiyah, M. F. (1970). Resolution of singularities and division of distributions. Comm. Pure and Appl. Math., 13, 145–150.

[11] Hironaka, H. (1964). Resolution of singularities of an algebraic variety over afield of characteristic zero. Annals of Mathematics, 79, 109–326.

[12] Watanabe,S. (2010) Equations of states in singular statistical estimation. Neural Networks. 23(1):20-34.

[13] Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. on Automatic Control, 19, 716–723.

[14] Stone,H. (1997) An asymptotic equivalence of choice of model by cross-validation and Akaike’s criterion. Journal of the Royal Statistical Society. 39(B):44-47.

[15] Watanabe,S.(2010) Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory. Journal of Machine Learning Research, 11:3571–3591.

[16] Schwarz,G. (1978) Estimating the dimension of a model. The Annals of Statistics, 6(2):461–464.

[17] Drton, M. Plummer, M. (2017) A Bayesian information criterion for singular models“. Journal of the Royal Statistical Society Series B. 79: 323-380.

[18] Watanabe,S. (2013) A widely applicable Bayesian information criterion. Journal of Machine Learning Research 14 (2013) 867-897.

参考文献

[21] Yamazaki,K. et.al. (2003) Singularities in mixture models and upper bounds of stochastic complexity. International Journal of Neural Networks, 16 (7), pp.1029-1038.

[22] Yamazaki,K. et.al. (2005) Algebraic geometry and stochastic complexity of hidden Markov models. Neurocomputing, 69,pp.62-84.

[23] Yamazaki,K. Aoyagi,M. et.al.(2010) Asymptotic Analysis of Bayesian Generalization Error with Newton Diagram. Neural Networks, 23 (1), pp.35-43.

[24] Aoyagi, M. et.al. (2005) Stochastic complexities of reduced rank regression in Bayesian estimation. Neural Networks, 18 (7) ,pp.924-933.

[25] Aoyagi,M.(2010) A Bayesian Learning Coefficient of Generalization Error and Vandermonde Matrix-Type Singularities. Communications in Statistics - Theory and Methods, 39 (15), 2667 – 2687.

[26] Nagata.K. et.al. (2008) Exchange Monte Carlo Sampling From Bayesian Posterior for Singular Learning Machines," IEEE Transactions on Neural Networks, Vol.19 (7) pp.1253-1266.

[27] Yamada,K. et.al. (2012) Statistical Learning Theory of Quasi-Regular Cases," IEICE Transactions, Vol.E95-A, No.12, pp.2479-2487.

[28] Hayashi, N. et.al. (2017) Upper Bound of Bayesian Generalization Error in Non-Negative Matrix Factorization. Vol.266, 29 pp.21-28.

[29] Sato,K. et.al. (2017) Real Log Canonical Threshold and Bayesian Generalization Error of Mixture of Poisson Distributions. IEICE Technical Report. 117, IBISML2017-90, pp. 1-6.

参考文献

[30] Watanabe,K..et.al. Stochastic complexities of gaussian mixtures in variational Bayesian approximation. Journal of Machine Learning Research, 7, pp.625-644, 2006.

[31] Nakajima, S. et.al. Variational Bayes Solution of Linear Neural Networks and Its Generalization Performance.’’NeuralComputation, vol.19, no.4, pp.1112-1153, 2007.

[32] Hosino,T. Watanabe, K. et.al. (2006) Free Energy of Stochastic Context Free Grammar on Variational Bayes. Proc. of ICONIP, Vol.1, pp.407-416, 2006. (October 3-6,2006, Honkong, China).

[33] Nishiyama,Y. et.al.(2009) Accuracy of Loopy Belief Propagation in Gaussian Models. Neural Networks, 22 (4) pp.385-394.

[34] 藤原,他 (2008) 特異モデルにおけるベイズ検定と時系列解析への応用. 電子情報通信学会論文誌D, Volume J91-D, (4), pp.889-896, 2008.

[35] Kaji,D. Watanabe, K. et.al. (2010) Phase transition of variational Bayes learning in Bernoulli mixtute. Australian Journal of Intelligent Information Processing Systems, 11(4) ,pp.35-41.

[36] 松田, 他 (2010) 重みつきブローアップの混合多項分布への応用. 電子情報通信学会誌A, Vol.J93-A,,(4),pp.300-308.

[37] 中村,他 (2014) 一般ディリクレ分布を用いた混合正規分布の変分自由エネルギーの漸近挙動について. 電子情報通信学会論文誌D, Vol.J97-D, No.5, pp.1001-1013, 2014.

[38] Kohjima.K. et.al. (2017) Phase Transition Structure of Variational Bayesian Nonnegative Matrix Factorization. Artificial Neural Networks and Machine Learning - ICANN, Vol.2, Lecture Notes in Computer Science, Springer, pp.146-154.

関連リンク

統計学で「主義」が心配なかたに

ベイズ統計の基礎

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes000.pdf

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho-gakushu6.html

ベイズ統計の数理

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho-gakushu7.html

著者の関連ページを紹介します。

Recommended