View
1.570
Download
0
Category
Preview:
Citation preview
PRML § 10.2.2 - § 10.2.5 p. 1
「パターン認識と機械学習」 読書会「パターン認識と機械学習」 読書会
第第1010章 近似推論法章 近似推論法
§ 10.2 § 10.2 例:変分混合ガウス分布 例:変分混合ガウス分布
§ 10.2.2 § 10.2.2 ~ ~ § 10.2.5§ 10.2.5
PRML § 10.2.2 - § 10.2.5 p. 2
§ 10.2.2 - § 10.2.5 の構成• § 10.2.2 変分下限
- 混合ガウス分布モデルについて、下限の式を展開する- 下限を最大化して変分ベイズ法の再推定式を求める(演習)
• § 10.2.3 予測分布- 新しい観測値の予測分布に興味があることが多い- 真の事後分布を変分近似で置き換え、予測分布を近似する
• § 10.2.4 混合要素数の決定- 混合要素数 K が異なるモデルを比較する時は多峰性を考慮- 混合比をパラメータとして下限を最大化し、K を自動決定
• § 10.2.5 導出された分解- 変分事後分布を分解する仮定と、真の同時分布のもつ
条件付き独立性の相互作用から導出される分解- 有向分離にもとづくグラフィカルなテストで見つけられる
PRML § 10.2.2 - § 10.2.5 p. 3
§ 10.2.2 変分下限• 再推定の反復において、下限の値は決して減少しない
- パラメータの収束判定に、下限の値を観察することが有用- 解の数式とソフトウェア実装が正しいか、チェックできる
• 混合ガウス分布の変分ベイズ法での、下限を求める
- 1 行目は変分ベイズ法での下限の定義
• 離散変数 Z は和をとり、連続変数 π, μ, Λ は積分する- 3 行目は混合ガウス分布のモデルと q の近似に基づく分解- 分布 q の上付き添字 * と、期待値 E の下付き添字は省略
PRML § 10.2.2 - § 10.2.5 p. 4
混合ガウス分布:変分下限の各項(1)• 変分下限の各項を展開する
- D は x の次元。C(α) は (B.23)、B(W, ν) は (B.79) で定義
PRML § 10.2.2 - § 10.2.5 p. 5
混合ガウス分布:変分下限の各項(2)• 変分下限の各項を展開する
- H[q(Λk)] はウィシャート分布のエントロピー- 分布 q の対数の期待値を含む項は、
-∫q(Z) ln q(Z) dZ という形をしており単にそれらの分布の負のエントロピーを表す
- 理解を容易にするよう別々の項として記述されており、足し合わせてこれらの項を簡単にしたりまとめたりできる
PRML § 10.2.2 - § 10.2.5 p. 6
変分下限の各項を展開する準備(1)• 混合ガウス分布の式 (10.37)-(10.41) から p を分解
- パラメータの事前分布に共役事前分布を用いることで、
事後分布の関数形が既知になり、計算が容易になる (2章)- 混合比 π の事前分布にはディリクレ分布を用いる
- 混合要素の事前分布にはガウス-ウィシャート分布を用いる
• 上巻の 2 章と付録に関連内容が多くあるので必読
PRML § 10.2.2 - § 10.2.5 p. 7
変分下限の各項を展開する準備(2)• 変分近似の式 (10.42) と計算の結果から q を分解
- 混合ガウス分布の変分ベイズ法において、実際に計算可能な解を得る上で必要な唯一の仮定 (10.42)
- さらなる分解 (10.55)
は、(10.9) を用いて実際に式を展開して、式 (10.54)
を導くか、後述するグラフィカルなテストで確認できる
PRML § 10.2.2 - § 10.2.5 p. 8
演習 10.16 (10.71)(10.72) を確かめる (1)• これらの分解から実際に下限の項を求める
- (10.38) 式 の対数をとって、期待値を計算する
PRML § 10.2.2 - § 10.2.5 p. 9
演習 10.16 (10.71)(10.72) を確かめる (2)• 期待値
の各項の計算は (10.64)(10.65) (演習10.14)
• 結果として次の式が得られる
PRML § 10.2.2 - § 10.2.5 p. 10
演習 10.16 (10.71)(10.72) を確かめる (3)• 混合要素の変分事後分布と、
そのパラメータの定義を求める 演習 10.13 の結果に、観測データの負担率から計算できる統計量を代入する
PRML § 10.2.2 - § 10.2.5 p. 11
演習 10.16 (10.71)(10.72) を確かめる (4)• p(Z|π) に対応する変分下限の項について
- 式 (10.37) の対数の期待値をとる- ディリクレ分布の標準的な性質(付録B)から
式 (10.66) から得られるので、ここでもそれを使えばよい
PRML § 10.2.2 - § 10.2.5 p. 12
混合ガウス分布の変分ベイズの再推定式• 変分下限を用いることで、10.2.1 節で得られた
変分ベイズ法の再推定式を、別の方法で求められる- モデルが共役事前分布を持っているため、
変分事後分布の関数形は既知である- Z は離散分布、π はディリクレ分布、
(μk, Λk) はガウス-ウィシャート分布であることを利用する
• これらの分布の一般的な式を用いて、変分下限をそれらのパラメータの関数の形式で求める- 展開過程の詳細は演習問題
PRML § 10.2.2 - § 10.2.5 p. 13
§ 10.2.3 予測分布• ベイズ混合ガウスモデルを適用する際には、
新しい観測値 の予測分布に興味があることが多い• この観測値には対応する潜在変数 があり、
予測分布は以下で与えられる
- p(π,μ,Λ|X) はパラメータの(未知の)真の事後分布• (10.37)(10.38) を用いて についての和を計算する
x
z
z
PRML § 10.2.2 - § 10.2.5 p. 14
混合ガウス分布の予測分布(1)• 前項の式
の、残った積分を厳密に実行することは不可能• 真の事後分布 p(π,μ,Λ|X) を変分近似 q(π)q(μ,Λ) で
置き換えて、真の予測分布を以下のように近似する
- q(π)q(μ,Λ) = q(π) ΠjK q(μj, Λj) を利用する- j ≠ k である変数 {μj, Λj} について、周辺化により全て暗黙のうちに積分消去されている
PRML § 10.2.2 - § 10.2.5 p. 15
混合ガウス分布の予測分布(2)• 前項の式
は解析的に計算でき、混合スチューデントt分布となる
- k 番目の混合要素の平均は mk であり、精度は
- データ集合のサイズ N が大きいとき、予測分布は混合ガウス分布に近づく
PRML § 10.2.2 - § 10.2.5 p. 16
§ 10.2.4 混合要素数の決定• 変分下限を用いることで、
混合モデルの混合要素数 K の事後分布を求められる- 「§ 10.1.4 モデル比較」において、m を K として考える
• しかし、観測された変数の確率密度が全く同じになる別の設定、すなわち混合要素のラベルだけが異なるものが存在する- 一つの観測値 x についての、K = 2 の混合ガウス分布で、
次の 2 つのパラメータ設定は、同じ p(x) を与える• π1=a, π2=b, μ1=c, μ2=d, σ1=e, σ2=f• π1=b, π2=a, μ1=d, μ2=c, σ1=f, σ2=e
• 一般に、K 個の混合要素を持つ混合モデルの場合、K! 個の等価なパラメータ設定が存在する
PRML § 10.2.2 - § 10.2.5 p. 17
混合要素数 K の異なるモデルと多峰性との関係• 最尤推定の場合
- 初期値に依存する特定の解を見つける(K は別に求める)• ベイズ的な方法
- 全ての可能なパラメータ設定について周辺化を行う• 真の事後分布が多峰性の場合の、変分ベイズ法の推論
- 特定の K の値のモデルについて考える範囲では問題ない• KL(q∥p) の最小化では、混合要素は一つの峰だけを近似• 予測分布でも、同値な峰は同値な予測分布を持つ
• 異なる K のモデルを比べる場合は、多峰性を考慮に入れる必要がある- モデル比較やモデル平均では、異なる K のモデルを比べる- 簡単な近似的な方法は、項 ln K! を下限に加えること
PRML § 10.2.2 - § 10.2.5 p. 18
Old Faithful 間欠泉データについての適用結果• Old Faithful 間欠泉データに適用した、修正項 ln K!
を含めた下限の、混合要素数 K についてのプロット
• 最尤推定では尤度関数が K に従って単調増加するため適切なモデルの複雑さを決めるのには使えない!
• ベイズ推論(3章)では、モデルの複雑さとデータへのフィッティングのトレードオフが自動的に行われる
• K = 2 に明らかなピークがある• 各 K の値について、100 通りの
ランダムな初期値を用いて学習し、結果を「+」で示している
• 各点の水平位置にノイズを加えてある• 局所最適解もあるが、稀である• Y 軸の式については(10.36)を参照
PRML § 10.2.2 - § 10.2.5 p. 19
適切な K の値を決めるもう一つの方法• 前述のように ln K! を下限に加える方法では、様々な K のモデルについて学習結果の比較が必要- 計算に時間がかかる- 下限の値だけを見て、異なる K について比較できることは、
最尤推定に比べれば利点と言える• 適切な K の値を決めるもう一つの方法
- 完全にベイズ的な方法のように π の確率分布を考えず、パラメータとみなして下限を最大化し、再推定式を
として点推定を行う (Corduneanu and Bishop, 2001)
PRML § 10.2.2 - § 10.2.5 p. 20
関連度自動決定• 関連度自動決定
- 前項の π の最大化を、残りのパラメータによる変分事後分布 q の更新と交互に行う
- 最適化の過程で、データをあまり説明しない混合要素は、混合係数が 0 に近づき、実質的にモデルから除去される
- データと混合要素との関連度が自動決定されているので、Automatic Relevance Determination (=ARD) と言う
• K の初期値を比較的大きくし一度だけ学習を実行する- 不要な混合要素はモデルから自動的に除かれる- 前項の方法に比べて計算する回数は少ない
• 超パラメータを最適化してスパースな学習が行える- § 7.2.2 の関連ベクトルマシンの項に詳しい議論がある
PRML § 10.2.2 - § 10.2.5 p. 21
§ 10.2.5 導出された分解• 混合ガウス分布の変分ベイズ法の更新式を導く過程で
変分事後分布を q(Z)q(π, μ, Λ) に分解できると仮定• しかし実際には、各因子の最適解はさらに分解される
- 各観測値 (の添字) n について znk の和が 1 になるので、k についてこれ以上は分解できないことに注意する
• 「導出された分解」(induced factorization)- 変分事後分布を分解する仮定と、
真の同時分布のもつ条件付き独立性の、相互作用から導出されるので、こう呼ぶ
- 図 10.5 の有向グラフが、真の分布の条件付き独立性を表す
PRML § 10.2.2 - § 10.2.5 p. 22
導出された分解を考慮する理由• 変分ベイズ法の数値解を求める実装を行う際には、
こうした導出された分解を考慮することが重要である• ガウス分布の精度行列(共分散の逆行列)を例に考える
- 求める最適な分布の精度行列が常に対角行列ならば、各確率変数は独立であり、各変数について分解できる
- この場合、精度行列を完全な形で保っておくことは、対角成分だけを保存しておくことに比べて、メモリの使用量も計算量も、極めて非効率的である
PRML § 10.2.2 - § 10.2.5 p. 23
導出された分解を有向分離により見つける (1)• 導出された分解は、有向分離 (§ 8.2.2, pp.90-91)
に基づくグラフィカルなテストで簡単に見つけられる- 潜在変数を 3 つの別々なグループ A, B ,C に分け、
C と残りの項が分解されると仮定する - 一般的な結果
および確率の乗法定理を用いると、q(A, B)の最適解は
• EC[ln p(X,C)] は A, B に依存せず正規化定数に含まれる
PRML § 10.2.2 - § 10.2.5 p. 24
導出された分解を有向分離により見つける (2)• 前項の解が A と B に分解できるか、言い換えれば
q*(A, B) = q*(A)q*(B) となるかどうかを確かめる• ln p(A,B|X,C) = ln p(A|X,C) + ln p(B|X,C)
となる場合だけ、つまり条件付き独立の関係
が満たされる時だけ、上記の分解が成立する
• この関係が本当に成り立っているかを確認するには、A と B の全ての要素について、グラフィカルモデル上で有向分離基準を適用する
PRML § 10.2.2 - § 10.2.5 p. 25
ベイズ混合ガウス分布モデルについて確認する• パラメータの変分事後分布 q(π, μ, Λ) が、
さらに q(π) と q(μ, Λ) に分けられることを混合ガウス分布のグラフィカルモデルで確認する
• したがって、 が成立する
- C={zn}, A={π}, B={μ, Λ} として、A と B をつなぎうる全ての経路が遮断されているかどうかを確認する
- 経路の各構成要素(3ノード)を見ていく- π→zn→xn の経路(全ての n)を見れば
C について head-to-tail であるというp.91 の条件 (a) を zn が満たすので、経路が遮断されていることがわかる
Recommended