1
読書会 「トピックモデルによる統計的潜在意味解析」第8回3.6節 Dirichlet分布のパラメータ推定
日時: 2016/01/28 19:30~
場所: 株式会社 ALBERT
発表者: @aoki_kenji
目次
2
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布のパラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐次学習-確率的ニュートン・ラフソン法
• 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
以前の節との対応関係
3
学習アルゴリズム以前に
出てきた節3.6節での対応箇所
Dirichlet分布のパラメータ推定方法
ギブスサンプリング 3.2.3節
変分ベイズ法3.3.5節3.3.6節
3.6.3節3.6.4節
固定点反復法ニュートン・ラフソン法
確率的変分ベイズ法 3.4.3節 3.6.5節 確率的ニュートン・ラフソン法
周辺化ギブスサンプリング
3.2.4節3.6.6節
固定点反復法(近似的な)経験ベイズ法
周辺化変分ベイズ法 3.3.8節
粒子フィルタ 3.5.2節
目次
4
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布のパラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐次学習-確率的ニュートン・ラフソン法
• 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
Dirichlet分布のパラメータ推定の重要性
5
◎LDAの確率分布(P.52 (3.27)式)より
𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 =
𝑑,𝑖
𝑝 𝑤𝑑,𝑖 𝑧𝑑,𝑖 , 𝝓 𝑝 𝑧𝑑,𝑖 𝜽𝑑
𝑑
𝑝 𝜽𝑑 𝜶
𝑘
𝑝 𝝓𝑘 𝜷
𝜶: 各ドキュメントにおける各トピックの出現確率(の確率分布)を調整
𝜷: 各トピックにおける各単語の出現確率(の確率分布)を調整
𝜶の各要素が同じ値をもつ対称Dirichlet分布よりも、異なる値を持つ非対称Dirichlet分布の方が望ましい性質が多々あることが知られている
一方𝜷に関しては、対称Dirichlet分布と非対称Dirichlet分布では、それほど差がないことが知られている
Dirichlet分布のパラメータ
Dirichlet分布のパラメータ推定の重要性
6
◎対称Dirichlet分布と非対称Dirichlet分布の比較(P.111より抜粋)
𝜶が非対称の場合、内容語と非内容語の分離ができる
一方、𝜷は対称の方がよりはっきりと分離ができる
目次
7
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布のパラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐次学習-確率的ニュートン・ラフソン法
• 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
変分ベイズ法の学習アルゴリズム(復習)
8
𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
=
𝑘
log𝛤 𝑣 𝛽𝑣 𝑣𝛤 𝛽𝑣
− log𝛤 𝑣 𝜉𝑘,𝑣
𝜙
𝑣𝛤 𝜉𝑘,𝑣𝜙
+
𝑘
𝑣
𝐸𝑞 𝒛 𝑛𝑘,𝑣 + 𝛽𝑣 − 𝜉𝑘,𝑣𝜙
𝐸𝑞 𝝓𝑘 𝝃𝑘
𝜙 log𝜙𝑘,𝑣
+
𝑑
log𝛤 𝑘 𝛼𝑘 𝑘 𝛤 𝛼𝑘
− log𝛤 𝑘 𝜉𝑑,𝑘
𝜃
𝑘 𝛤 𝜉𝑑,𝑘𝜃
+
𝑑
𝑘
𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘 − 𝜉𝑑,𝑘𝜃 𝐸
𝑞 𝜽𝑑 𝝃𝑑𝜃 log 𝜃𝑑,𝑘
+
𝑑
𝑖
𝑘
𝑞 𝑧𝑑,𝑖 = 𝑘 log 𝑞 𝑧𝑑,𝑖 = 𝑘
◎変分下限(事後分布にDirichlet分布を仮定)(P.82 (3.102)式より)
以下の変分下限を次頁のアルゴリズムで最大化する
変分ベイズ法での𝜶,𝜷の推定
10
𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷 を𝜶,𝜷に関して最大化すればよい
以下を満たす𝜶,𝜷を見つければよい
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝜶= 𝟎,
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝜷= 𝟎
ここでは固定点反復法とニュートン・ラフソン法を紹介する
目次
11
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布のパラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐次学習-確率的ニュートン・ラフソン法
• 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
固定点反復法とは
12
𝑥 = 𝑓 𝑥
を満たす𝑥を
𝑥 𝑠+1 = 𝑓 𝑥 𝑠 , 𝑠 = 1,2,⋯
の反復計算で求めるアルゴリズム
例えば以下のような方程式を解きたいときに使う𝑔 𝑥 = 𝑥 − 𝑓 𝑥 = 0
ここでは
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝜶= 𝟎,
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝜷= 𝟎
が解きたい(偏微分)方程式
偏微分方程式の導出
13
テキストPP.114~115ではガンマ関数の不等式を利用して導出しているが、ここでは直接導出する
Dirichlet分布とディガンマ関数の関係式(P.71 (3.74)式)
𝐸𝑝 𝜽 𝜶 log 𝜃𝑘 = 𝛹 𝛼𝑘 −𝛹
𝑘
𝛼𝑘
を使うと
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝛼𝑘
=
𝑑
𝛹
𝑘
𝛼𝑘 −𝛹 𝛼𝑘 +𝛹 𝜉𝑑,𝑘𝜃 −𝛹
𝑘
𝜉𝑑,𝑘𝜃 = 0
偏微分方程式の導出
14
したがって、もし
𝛼𝑘 = 𝑑 𝛹 𝜉𝑑,𝑘
𝜃 −𝛹 𝛼𝑘
𝑑 𝛹 𝑘 𝜉𝑑,𝑘𝜃 −𝛹 𝑘 𝛼𝑘
𝛼𝑘
を満たす𝛼𝑘 ≠ 0が見つかれば
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝛼𝑘= 0
が解けることになる → 固定点反復法
偏微分方程式の導出
15
𝜉𝑑,𝑘𝜃 の更新式(P.76 (3.89)式)
𝜉𝑑,𝑘𝜃 = 𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘
を𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷 に代入後に
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝛼𝑘= 0
を解こうとすると、反復計算式は
𝛼𝑘 = 𝑑 𝛹 𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘 −𝛹 𝛼𝑘
𝑑 𝛹 𝑘𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘 −𝛹 𝑘 𝛼𝑘𝛼𝑘
となる → P.114 (3.191)式
この場合、𝛼𝑘の更新時に𝜉𝑑,𝑘𝜃 も更新することになる
偏微分方程式の導出
16
𝛽𝑣に関しても導出手順は全く同じ(P.115 (3.192)~(3.194)式)
ただし𝛽 = 𝛽1 = ⋯ = 𝛽𝑉
として、𝛽を推定した方がよい場合もある(この場合も導出手順はほとんど同じ)
目次
17
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布のパラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐次学習-確率的ニュートン・ラフソン法
• 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
ニュートン・ラフソン法とは
18
𝜕𝐹 𝜶
𝜕𝜶= 𝟎
を満たす𝜶を
𝜶 = 𝜶 −𝑯−1 𝜶 𝒈 𝜶
𝒈 𝜶 =𝜕𝐹 𝜶
𝜕𝜶𝜶= 𝜶
𝑯 𝜶 =𝜕2𝐹 𝜶
𝜕𝜶𝜕𝜶′𝜶= 𝜶
の反復計算で求めるアルゴリズム(P.116 (3.198)~(3.200)式)
ここでは
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝜶= 𝟎,
𝜕𝐹 𝑞 𝒛, 𝜽,𝝓 𝝃𝜃 , 𝝃𝜙, 𝜶, 𝜷
𝜕𝜷= 𝟎
が解きたい(偏微分)方程式
偏微分方程式の導出
19
ニュートン・ラフソン法の問題点としてヘッセ行列𝑯 𝜶
の逆行列演算の計算量の問題がある
しかし、LDAの場合はトリガンマ関数𝛹 1 𝑥 を用いることで、解析的に逆行列演算が可能である(PP.117 (3.201)式)
𝑯 𝜶 𝑘′𝑘 =𝜕2𝐹 𝜶
𝜕𝛼𝑘′𝜕𝛼𝑘= 𝑀 𝛹 1
𝑘
𝛼𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼𝑘
ただし、
𝛹 1 𝑥 =𝑑𝛹 𝑥
𝑑𝑥=𝑑 log 𝛤 𝑥
𝑑𝑥2
偏微分方程式の導出
20
𝑯−1 𝜶 と𝒈 𝜶 の具体的な導出については省略する
(PP.117 (3.202)~(3.209)式を参照)
𝛽𝑣に関しても導出手順は全く同じ
固定点反復法では必ずしも停留点に収束するとは限らないが、𝛼𝑘 , 𝛽𝑣は常に正の値となる(P.114 (3.191)式を使った場合)
一方、ニュートン・ラフソン法の場合、𝛼𝑘 , 𝛽𝑣が負の値になる可能性がある
→ 固定点反復法がお勧めとのこと
目次
21
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布のパラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐次学習-確率的ニュートン・ラフソン法
• 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法
23
ニュートン・ラフソン法の反復計算の中で全文書の情報を用いているのはどこか?
𝜶 = 𝜶 −𝑯−1 𝜶 𝒈 𝜶
𝒈 𝜶 =𝜕𝐹 𝜶
𝜕𝜶𝜶= 𝜶
𝑯 𝜶 =𝜕2𝐹 𝜶
𝜕𝜶𝜕𝜶′𝜶= 𝜶
ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法
24
𝑯 𝜶 はP.117 (3.201)式
𝑯 𝜶 𝑘′𝑘 =𝜕2𝐹 𝜶
𝜕𝛼𝑘′𝜕𝛼𝑘= 𝑀 𝛹 1
𝑘
𝛼𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼𝑘
より𝜶にしか依存しない
𝒈 𝜶 はP.116 (3.196)式
𝑔 𝛼𝑘 = 𝑀 𝛹
𝑘
𝛼𝑘 −𝛹 𝛼𝑘 +
𝑑
𝛹 𝜉𝑑,𝑘𝜃 −𝛹
𝑘
𝜉𝑑,𝑘𝜃
より第二項がそれに該当する
→ 第二項を確率的最適化の考えにしたがって以下のように変更する(P.119 (3.212)~(3.213)式)
𝑔 𝛼𝑘 = 𝑀 𝛹
𝑘
𝛼𝑘 −𝛹 𝛼𝑘 +𝑀 𝛹 𝜉𝑑,𝑘𝜃 −𝛹
𝑘
𝜉𝑑,𝑘𝜃
𝜶 = 𝜶 − 𝜈𝑠𝑯−1 𝜶 𝒈 𝜶
目次
25
• 3.6.1節 対称/非対称Dirichlet分布の性質
• 3.6.2節 変分ベイズ法におけるDirichlet分布のパラメータ推定
• 3.6.3節 固定点反復法
• 3.6.4節 ニュートン・ラフソン法
• 3.6.5節 逐次学習-確率的ニュートン・ラフソン法
• 3.6.6節 周辺化ギブスサンプリング/変分ベイズ法の場合
Dirichlet分布のパラメータ推定の方針
27
𝜶,𝜷にさらに事前分布を仮定する?
→ Dirichlet分布のパラメータに対して共役な確率分布を設定できない
ここでは、よく用いられる方法として点推定による方法を紹介する
Dirichlet分布のパラメータ推定のための目的関数
28
以下の周辺尤度を𝜶,𝜷に対して最大化する
𝑝 𝒘, 𝒛 𝜶, 𝜷 = 𝑝 𝒘, 𝒛, 𝜽,𝝓 𝜶,𝜷 𝑑𝜽𝑑𝝓
PP.120~121 (3.214)~(3.215)式を経てP.121 (3.216)式が得られる
𝑝 𝒘, 𝒛 𝑠 𝜶,𝜷
=
𝑘
log𝛤 𝑣𝛽𝑣 𝑣𝛤 𝛽𝑣
− log𝛤 𝑣 𝑛𝑘,𝑣
𝑠+ 𝛽𝑣
𝑣𝛤 𝑛𝑘,𝑣𝑠+ 𝛽𝑣
+
𝑑
log𝛤 𝑘 𝛼𝑘 𝑘𝛤 𝛼𝑘
− log𝛤 𝑘 𝑛𝑑,𝑘
𝑠+ 𝛼𝑘
𝑘𝛤 𝑛𝑑,𝑘𝑠+ 𝛼𝑘
ただし、
𝑛𝑘,𝑣𝑠=
𝑑
𝑖
𝛿 𝑧𝑑,𝑖𝑠= 𝑘,𝑤𝑑,𝑖 = 𝑣 , 𝑛𝑑,𝑘
𝑠=
𝑖
𝛿 𝑧𝑑,𝑖𝑠= 𝑘
例えば、固定点反復法で周辺尤度を最大化する𝜶,𝜷を𝜶 𝑠 , 𝜷 𝑠 とする
(近似的な)経験ベイズ法による推定
29
目的関数として𝑝 𝒘 𝜶,𝜷 の下限(P.122 (3.218)式)
𝑝 𝒘 𝜶,𝜷
≥
𝑘
log𝛤 𝑣𝛽𝑣 𝑣𝛤 𝛽𝑣
− log𝛤 𝑣𝐸𝑞 𝒛 𝑛𝑘,𝑣 + 𝛽𝑣
𝑣𝛤 𝐸𝑞 𝒛 𝑛𝑘,𝑣 + 𝛽𝑣
+
𝑑
log𝛤 𝑘 𝛼𝑘 𝑘𝛤 𝛼𝑘
− log𝛤 𝑘𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘
𝑘 𝛤 𝐸𝑞 𝒛 𝑛𝑑,𝑘 + 𝛼𝑘
を設定するやり方もある
ただし、
𝐸𝑞 𝒛 𝑛𝑑,𝑘 =
𝑖
𝑞 𝑧𝑑,𝑖 = 𝑘 , 𝐸𝑞 𝒛 𝑛𝑘,𝑣 =
𝑑
𝑖
𝑞 𝑧𝑑,𝑖 = 𝑘 𝛿 𝑤𝑑,𝑖 = 𝑣
𝑞 𝒛 として
• 周辺化ギブスサンプリングによって得られたサンプル分布
• 周辺化変分ベイズ法で推定された𝑞 𝑧𝑑,𝑖
を用いればよい