Download pdf - 読書会「トピックモデルによる統計的潜在意味解析」第8回 3.6節 Dirichlet分布のパラメータ推定

1

読書会「トピックモデルによる統計的潜在意味解析」第8回3.6節 Dirichlet分布のパラメータ推定

日時： 2016/01/28 19:30～

場所：株式会社 ALBERT

発表者： @aoki_kenji

目次

2

• 3.6.1節対称／非対称Dirichlet分布の性質

• 3.6.2節変分ベイズ法におけるDirichlet分布のパラメータ推定

• 3.6.3節固定点反復法

• 3.6.4節ニュートン・ラフソン法

• 3.6.5節逐次学習－確率的ニュートン・ラフソン法

• 3.6.6節周辺化ギブスサンプリング／変分ベイズ法の場合

以前の節との対応関係

3

学習アルゴリズム以前に

出てきた節3.6節での対応箇所

Dirichlet分布のパラメータ推定方法

ギブスサンプリング 3.2.3節

変分ベイズ法3.3.5節3.3.6節

3.6.3節3.6.4節

固定点反復法ニュートン・ラフソン法

確率的変分ベイズ法 3.4.3節 3.6.5節確率的ニュートン・ラフソン法

周辺化ギブスサンプリング

3.2.4節3.6.6節

固定点反復法（近似的な）経験ベイズ法

周辺化変分ベイズ法 3.3.8節

粒子フィルタ 3.5.2節

目次

4







Dirichlet分布のパラメータ推定の重要性

5

◎LDAの確率分布（P.52 (3.27)式）より

𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 =

𝑑,𝑖

𝑝 𝑤𝑑,𝑖 𝑧𝑑,𝑖 , 𝝓 𝑝 𝑧𝑑,𝑖 𝜽𝑑

𝑑

𝑝 𝜽𝑑 𝜶

𝑘

𝑝 𝝓𝑘 𝜷

𝜶：各ドキュメントにおける各トピックの出現確率（の確率分布）を調整

𝜷：各トピックにおける各単語の出現確率（の確率分布）を調整

𝜶の各要素が同じ値をもつ対称Dirichlet分布よりも、異なる値を持つ非対称Dirichlet分布の方が望ましい性質が多々あることが知られている

一方𝜷に関しては、対称Dirichlet分布と非対称Dirichlet分布では、それほど差がないことが知られている

Dirichlet分布のパラメータ

Dirichlet分布のパラメータ推定の重要性

6

◎対称Dirichlet分布と非対称Dirichlet分布の比較（P.111より抜粋）

𝜶が非対称の場合、内容語と非内容語の分離ができる

一方、𝜷は対称の方がよりはっきりと分離ができる

目次

7







変分ベイズ法の学習アルゴリズム（復習）

8

𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷

=

𝑘

log𝛤 𝑣 𝛽𝑣 𝑣𝛤 𝛽𝑣

− log𝛤 𝑣 𝜉𝑘,𝑣

𝜙

𝑣𝛤 𝜉𝑘,𝑣𝜙

+

𝑘

𝑣

𝐸𝑞 𝒛 𝑛𝑘,𝑣 + 𝛽𝑣 − 𝜉𝑘,𝑣𝜙

𝐸𝑞 𝝓𝑘 𝝃𝑘

𝜙 log𝜙𝑘,𝑣

+

𝑑

log𝛤 𝑘 𝛼𝑘 𝑘 𝛤 𝛼𝑘

− log𝛤 𝑘 𝜉𝑑,𝑘

𝜃

𝑘 𝛤 𝜉𝑑,𝑘𝜃

+

𝑑

𝑘

𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘 − 𝜉𝑑,𝑘𝜃 𝐸

𝑞 𝜽𝑑 𝝃𝑑𝜃 log 𝜃𝑑,𝑘

+

𝑑

𝑖

𝑘

𝑞 𝑧𝑑,𝑖 = 𝑘 log 𝑞 𝑧𝑑,𝑖 = 𝑘

◎変分下限（事後分布にDirichlet分布を仮定）（P.82 (3.102)式より）

以下の変分下限を次頁のアルゴリズムで最大化する

変分ベイズ法の学習アルゴリズム（復習）

9

◎変分ベイズ法の擬似アルゴリズム（P.80より抜粋）

ココの話

変分ベイズ法での𝜶,𝜷の推定

10

𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷 を𝜶,𝜷に関して最大化すればよい

以下を満たす𝜶,𝜷を見つければよい

𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷

𝜕𝜶= 𝟎,


𝜕𝜷= 𝟎

ここでは固定点反復法とニュートン・ラフソン法を紹介する

目次

11







固定点反復法とは

12

𝑥 = 𝑓 𝑥

を満たす𝑥を

𝑥 𝑠+1 = 𝑓 𝑥 𝑠 , 𝑠 = 1,2,⋯

の反復計算で求めるアルゴリズム

例えば以下のような方程式を解きたいときに使う𝑔 𝑥 = 𝑥 − 𝑓 𝑥 = 0

ここでは


𝜕𝜶= 𝟎,


𝜕𝜷= 𝟎

が解きたい（偏微分）方程式

偏微分方程式の導出

13

テキストPP.114～115ではガンマ関数の不等式を利用して導出しているが、ここでは直接導出する

Dirichlet分布とディガンマ関数の関係式（P.71 (3.74)式）

𝐸𝑝 𝜽 𝜶 log 𝜃𝑘 = 𝛹 𝛼𝑘 −𝛹

𝑘

𝛼𝑘

を使うと


𝜕𝛼𝑘

=

𝑑

𝛹

𝑘

𝛼𝑘 −𝛹 𝛼𝑘 +𝛹 𝜉𝑑,𝑘𝜃 −𝛹

𝑘

𝜉𝑑,𝑘𝜃 = 0


14

したがって、もし

𝛼𝑘 = 𝑑 𝛹 𝜉𝑑,𝑘

𝜃 −𝛹 𝛼𝑘

𝑑 𝛹 𝑘 𝜉𝑑,𝑘𝜃 −𝛹 𝑘 𝛼𝑘

𝛼𝑘

を満たす𝛼𝑘 ≠ 0が見つかれば


𝜕𝛼𝑘= 0

が解けることになる → 固定点反復法


15

𝜉𝑑,𝑘𝜃 の更新式（P.76 (3.89)式）

𝜉𝑑,𝑘𝜃 = 𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘

を𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷 に代入後に


𝜕𝛼𝑘= 0

を解こうとすると、反復計算式は

𝛼𝑘 = 𝑑 𝛹 𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘 −𝛹 𝛼𝑘

𝑑 𝛹 𝑘𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘 −𝛹 𝑘 𝛼𝑘𝛼𝑘

となる → P.114 (3.191)式

この場合、𝛼𝑘の更新時に𝜉𝑑,𝑘𝜃 も更新することになる


16

𝛽𝑣に関しても導出手順は全く同じ（P.115 (3.192)～(3.194)式）

ただし𝛽 = 𝛽1 = ⋯ = 𝛽𝑉

として、𝛽を推定した方がよい場合もある（この場合も導出手順はほとんど同じ）

目次

17







ニュートン・ラフソン法とは

18

𝜕𝐹 𝜶

𝜕𝜶= 𝟎

を満たす𝜶を

𝜶 = 𝜶 −𝑯−1 𝜶 𝒈 𝜶

𝒈 𝜶 =𝜕𝐹 𝜶

𝜕𝜶𝜶= 𝜶

𝑯 𝜶 =𝜕2𝐹 𝜶

𝜕𝜶𝜕𝜶′𝜶= 𝜶

の反復計算で求めるアルゴリズム（P.116 (3.198)～(3.200)式）

ここでは


𝜕𝜶= 𝟎,


𝜕𝜷= 𝟎

が解きたい（偏微分）方程式


19

ニュートン・ラフソン法の問題点としてヘッセ行列𝑯 𝜶

の逆行列演算の計算量の問題がある

しかし、LDAの場合はトリガンマ関数𝛹 1 𝑥 を用いることで、解析的に逆行列演算が可能である（PP.117 (3.201)式）

𝑯 𝜶 𝑘′𝑘 =𝜕2𝐹 𝜶

𝜕𝛼𝑘′𝜕𝛼𝑘= 𝑀 𝛹 1

𝑘

𝛼𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼𝑘

ただし、

𝛹 1 𝑥 =𝑑𝛹 𝑥

𝑑𝑥=𝑑 log 𝛤 𝑥

𝑑𝑥2


20

𝑯−1 𝜶 と𝒈 𝜶 の具体的な導出については省略する

（PP.117 (3.202)～(3.209)式を参照）

𝛽𝑣に関しても導出手順は全く同じ

固定点反復法では必ずしも停留点に収束するとは限らないが、𝛼𝑘 , 𝛽𝑣は常に正の値となる（P.114 (3.191)式を使った場合）

一方、ニュートン・ラフソン法の場合、𝛼𝑘 , 𝛽𝑣が負の値になる可能性がある

→ 固定点反復法がお勧めとのこと

目次

21







確率的変分ベイズ法の学習アルゴリズム（復習）

22

◎確率的変分ベイズ法の擬似アルゴリズム（P.99より抜粋）

ココの話

𝑀個の文書全てではなく一つの文書𝑑に関する情報のみを使ってパラメータを更新

ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法

23

ニュートン・ラフソン法の反復計算の中で全文書の情報を用いているのはどこか？

𝜶 = 𝜶 −𝑯−1 𝜶 𝒈 𝜶

𝒈 𝜶 =𝜕𝐹 𝜶

𝜕𝜶𝜶= 𝜶

𝑯 𝜶 =𝜕2𝐹 𝜶

𝜕𝜶𝜕𝜶′𝜶= 𝜶

ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法

24

𝑯 𝜶 はP.117 (3.201)式

𝑯 𝜶 𝑘′𝑘 =𝜕2𝐹 𝜶

𝜕𝛼𝑘′𝜕𝛼𝑘= 𝑀 𝛹 1

𝑘

𝛼𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼𝑘

より𝜶にしか依存しない

𝒈 𝜶 はP.116 (3.196)式

𝑔 𝛼𝑘 = 𝑀 𝛹

𝑘

𝛼𝑘 −𝛹 𝛼𝑘 +

𝑑

𝛹 𝜉𝑑,𝑘𝜃 −𝛹

𝑘

𝜉𝑑,𝑘𝜃

より第二項がそれに該当する

→ 第二項を確率的最適化の考えにしたがって以下のように変更する（P.119 (3.212)～(3.213)式）

𝑔 𝛼𝑘 = 𝑀 𝛹

𝑘

𝛼𝑘 −𝛹 𝛼𝑘 +𝑀 𝛹 𝜉𝑑,𝑘𝜃 −𝛹

𝑘

𝜉𝑑,𝑘𝜃

𝜶 = 𝜶 − 𝜈𝑠𝑯−1 𝜶 𝒈 𝜶

目次

25







周辺化ギブスサンプリングの学習アルゴリズム（復習）

26

◎周辺化ギブスサンプリングの擬似アルゴリズム（P.57より抜粋）

ココの話

Dirichlet分布のパラメータ推定の方針

27

𝜶,𝜷にさらに事前分布を仮定する？

→ Dirichlet分布のパラメータに対して共役な確率分布を設定できない

ここでは、よく用いられる方法として点推定による方法を紹介する

Dirichlet分布のパラメータ推定のための目的関数

28

以下の周辺尤度を𝜶,𝜷に対して最大化する

𝑝 𝒘, 𝒛 𝜶, 𝜷 = 𝑝 𝒘, 𝒛, 𝜽,𝝓 𝜶,𝜷 𝑑𝜽𝑑𝝓

PP.120～121 (3.214)～(3.215)式を経てP.121 (3.216)式が得られる

𝑝 𝒘, 𝒛 𝑠 𝜶,𝜷

=

𝑘

log𝛤 𝑣𝛽𝑣 𝑣𝛤 𝛽𝑣

− log𝛤 𝑣 𝑛𝑘,𝑣

𝑠+ 𝛽𝑣

𝑣𝛤 𝑛𝑘,𝑣𝑠+ 𝛽𝑣

+

𝑑

log𝛤 𝑘 𝛼𝑘 𝑘𝛤 𝛼𝑘

− log𝛤 𝑘 𝑛𝑑,𝑘

𝑠+ 𝛼𝑘

𝑘𝛤 𝑛𝑑,𝑘𝑠+ 𝛼𝑘

ただし、

𝑛𝑘,𝑣𝑠=

𝑑

𝑖

𝛿 𝑧𝑑,𝑖𝑠= 𝑘,𝑤𝑑,𝑖 = 𝑣 , 𝑛𝑑,𝑘

𝑠=

𝑖

𝛿 𝑧𝑑,𝑖𝑠= 𝑘

例えば、固定点反復法で周辺尤度を最大化する𝜶,𝜷を𝜶 𝑠 , 𝜷 𝑠 とする

（近似的な）経験ベイズ法による推定

29

目的関数として𝑝 𝒘 𝜶,𝜷 の下限（P.122 (3.218)式）

𝑝 𝒘 𝜶,𝜷

≥

𝑘

log𝛤 𝑣𝛽𝑣 𝑣𝛤 𝛽𝑣

− log𝛤 𝑣𝐸𝑞 𝒛 𝑛𝑘,𝑣 + 𝛽𝑣

𝑣𝛤 𝐸𝑞 𝒛 𝑛𝑘,𝑣 + 𝛽𝑣

+

𝑑

log𝛤 𝑘 𝛼𝑘 𝑘𝛤 𝛼𝑘

− log𝛤 𝑘𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘

𝑘 𝛤 𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘

を設定するやり方もある

ただし、

𝐸𝑞 𝒛 𝑛𝑑,𝑘 =

𝑖

𝑞 𝑧𝑑,𝑖 = 𝑘 , 𝐸𝑞 𝒛 𝑛𝑘,𝑣 =

𝑑

𝑖

𝑞 𝑧𝑑,𝑖 = 𝑘 𝛿 𝑤𝑑,𝑖 = 𝑣

𝑞 𝒛 として

• 周辺化ギブスサンプリングによって得られたサンプル分布

• 周辺化変分ベイズ法で推定された𝑞 𝑧𝑑,𝑖

を用いればよい

Download pdf - 読書会 「トピックモデルによる統計的潜在意味解析」 第8回 3.6節 Dirichlet分布のパラメータ推定

Download pdf - 読書会「トピックモデルによる統計的潜在意味解析」第8回 3.6節 Dirichlet分布のパラメータ推定