25
A Complete Recipe for Stochastic Gradient MCMC (NIPS 2015) Yi-An Ma, Tianqi Chen, and Emily B. Fox (Washington University) Gunosy Inc. 2017.04.25 @mathetake

2017_04 25_論文紹介

Embed Size (px)

Citation preview

Page 1: 2017_04 25_論文紹介

A Complete Recipe for Stochastic Gradient MCMC(NIPS 2015)

Yi-An Ma, Tianqi Chen, and Emily B. Fox(Washington University)

Gunosy Inc.2017.04.25

@mathetake

Page 2: 2017_04 25_論文紹介

2©Gunosy Inc.

自己紹介

● マスタケ - 修士(数学)

● Twitter : @MATHETAKE

● Blog : http://mathetake.hatenablog.com/

● 学生時代の専門○ ピュアマス

■ 微分幾何学■ 複素幾何学■ シンプレクティック幾何学

● 円周上のL^2関数の成すヒルベルト空間上のヒルベルトシュミット作用素全体の成すヒルベルト空間上でハミルトン力学を(ry してました

※機械学習・統計一切関係なし

● 所属○ 株式会社Gunosy  開発本部 データ分析部

Page 3: 2017_04 25_論文紹介

3©Gunosy Inc.

What’s about

Stochastic Gradient MCMCを含む

全てのMCMCアルゴリズムが

ある一般的な形の確率微分方程式

で記述出来ることを証明*

自分だけのMCMCの設計が可能に

*純粋数学的には怪しい

Page 4: 2017_04 25_論文紹介

4©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 5: 2017_04 25_論文紹介

5©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 6: 2017_04 25_論文紹介

6©Gunosy Inc.

MCMCのキホンのキ

■ MCMC = Markov chain Monte Carlo

■ 一般の確率分布からサンプリングするためのアルゴリズム”群”

– 理論的には目的の分布を不変分布とする、エルゴード性を満たすマルコフ過程を構成。 ⇒ マルコフ過程の極限の分布が目的の分布に収束

– そのマルコフ過程(確率変数の列)からサンプリングしていくアルゴリズムの総称。

是非Gunosyデータ分析ブログの僕の記事を御覧ください ↓ 初歩の初歩から書いてます

【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで

http://data.gunosy.io/entry/mcmc-sgld-edward

Page 7: 2017_04 25_論文紹介

7©Gunosy Inc.

MCMCのキホンのキ ーモチベーションー

正規化定数が分からないような分布からサンプリングしたい

ex.)複雑な確率モデルの事後分布- Bayesian NN

???

Page 8: 2017_04 25_論文紹介

8©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 9: 2017_04 25_論文紹介

9©Gunosy Inc.

問題設定

= ー ( 事後分布の対数 + 正規化定数の対数 )

←計算可能サンプリングしたい→

ポテンシャル関数

Page 10: 2017_04 25_論文紹介

10©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 11: 2017_04 25_論文紹介

11©Gunosy Inc.

‘Not’ Stochastic Gradient な MCMCの例

■ Hamiltonian Monte Carlo– NUTSというアルゴリズムに拡張されStanに実装され話題

– θと独立な補助的なパラメータz(運動量)を導入– 次の形の関数をHamiltonianとするような力学をシミュレーション&運動量の

初期化を繰り返す。

– それによりexp(-H(z))に比例する確率分布からサンプリングを実現。– 補助パラメータを無視することでexp(-U(θ))に比例する確率分布からサンプリ

ング。

※以下rといったら補助パラメータの事とし、zで組(θ, r)を表す。

Page 12: 2017_04 25_論文紹介

12©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 13: 2017_04 25_論文紹介

13©Gunosy Inc.

HMCのシミュレーションphaseとSGMCMCのお気持ち

Computationally expensive.HMCに限らず既存のMCMCアルゴリズムは

サンプル数が多いとキツイ。

ビッグデータにスケールさせたい!!!!

Computationally Expensiveな元凶は対数尤度の勾配計算

サンプルの一部を i.i.d.に持ってきて計算してしまえ (Stochastic Gradient)

サンプリングを記述するダイナミクスが確率的に。。。。(理論解析が難しい)

みんな大好き確率微分方程式の登場

Page 14: 2017_04 25_論文紹介

14©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 15: 2017_04 25_論文紹介

15©Gunosy Inc.

確率微分方程式と伊藤の拡散過程

● 確率微分方程式 ・・・ 確率的発展を記述する微分方程式

○ アインシュタインによるブラウン運動に関する論文が起源

■ のちに最も偉大な数学者の一人である伊藤清(日本人!!)らにより数学的に

基礎付けがなされる

● 拡散過程 ・・・ 次の形で与えられる確率微分方程式を満たす確率過程

f:パラメータ空間上の実数値関数,  D:半定値行列

W:ウィーナー過程:以下を満たす確率過程(数学的に存在)

・各時間で標準正規分布

・2つの時点での値の差(確率変数)の期待値0

・2つの時点での値の差(確率変数)の分散がその時間の差の絶対値

○ランダムネスを表す項○SGによるノイズを表現出来る

Page 16: 2017_04 25_論文紹介

16©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 17: 2017_04 25_論文紹介

17©Gunosy Inc.

論文の主結果 -1-

f(z)、D(z)が次で与えられる拡散過程を満たすマルコフ過程は目的の分布を不変分

布に持つ。

ここで、Q(z)は歪対称行列関数。また,

(1)Dが常に正定値 または  (2) マルコフ過程がエルゴード的

である時、不変分布はただ1つ存在(=目的の分布のみ)。

証明のアイディア:伊藤の公式から導出される、密度関数の時間発展を記述するFokker-Plank方程式を用いる。

Page 18: 2017_04 25_論文紹介

18©Gunosy Inc.

論文の主結果 -2-

目的の分布を不変にし、かつ不変分布が一意に存在するような拡散過程に対して、Q(z)が存在して

を満たす。

証明のアイディア:フーリエ変換

Page 19: 2017_04 25_論文紹介

19©Gunosy Inc.

論文の主結果 つまり…

- 正定値行列値関数 D(z)- 歪対称行列値関数 Q(z)

を設計し、方程式

によりfを定義することで

自分だけのMCMCアルゴリズムが作れる

だけでなく、確率微分方程式の言葉で統一的にMCMCを記述できる。

Page 20: 2017_04 25_論文紹介

20©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 21: 2017_04 25_論文紹介

21©Gunosy Inc.

拡散方程式のシミュレーションとSGMCMC

○ step size (ε_t) を用意し離散化

○ 次の更新式でシミュレーションする

Computationally expensive.

Stochastic Gradient MCMC

Stochastic Gradientに置き換える

Page 22: 2017_04 25_論文紹介

22©Gunosy Inc.

拡散方程式のシミュレーションとSGMCMC

U(θ)を確率的にミニバッチにして計算(unbiased estimator)し

中心極限定理を使って次のように仮定する:

さらにV(θ)の推定量B_tが存在すると仮定して次の更新式を得る

ステップサイズを0に収束させることで元のシミュレーションとの誤差はゼロに

Page 23: 2017_04 25_論文紹介

23©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例: HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

Page 24: 2017_04 25_論文紹介

24©Gunosy Inc.

■ Example) Stochastic Gradient HMC

● Stochastic Gradient Hamiltonian Monte Carlo [Chen+ 2014]○ 通常のHMCを単純にSGに → 目標の分布 != 不変分布

○ 摩擦項を導入 → 目標の分布 = 不変分布

○ Q,Dを以下で定義

○ 更新式

Page 25: 2017_04 25_論文紹介

25©Gunosy Inc.

■ 参考文献とライブラリ

1. A Complete Recipe for Stochastic Gradient MCMC          https://arxiv.org/abs/1506.04696

2. Stochastic Gradient Hamiltonian Monte Carlo            https://arxiv.org/abs/1402.4102

3. High-Order Stochastic Gradient Thermostats for Bayesian Learning of Deep Models

https://arxiv.org/abs/1512.07662

4. PFN大野さんのスライド        https://www.slideshare.net/KentaOono/stochastic-gradient-mcmc

5. 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで    

http://data.gunosy.io/entry/mcmc-sgld-edward

参考文献

ライブラリ

1. Edward A library for probabilistic modeling, inference, and criticism http://edwardlib.org/