論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth

論文紹介Advances in Learning Bayesian Networks of Bounded Treewidth

楠本充

Preferred Networks, Inc.

2015/01/20

発表論文

Advances in Learning Bayesian Networks of Bounded Treewidth

S. Nie, D. Maua, C. de Campos, Q. Ji.

概要

木幅制約付きベイジアンネットワークの学習手法の提案

10~100変数くらいのデータセットで実験 → 高速、高精度

2

問題設定 & 背景

3

復習：ベイジアンネットワークとは何だったのか

ベイジアンネットワークとは

確率変数間の条件付き独立関係を有向無閉路グラフ(DAG)によって表現したもの

(グラフィカルモデルの一種)

グラフの頂点が変数に対応する

ある変数の確率値はその親の変数に依存する

例えば右の例なら同時確率が以下で表せる：

P(C,S,R,W) = P(C)P(R|C)P(S|C)P(W|S,R)

4

http://www.ra.cs.uni-

tuebingen.de/software/JCell/images/docbook/bayesianGraph

.png

ベイジアンネットワークの学習

考えたい問題

データとして、観測された変数の組が与えられるので、(生成過程がベイジアン

ネットワークであると仮定した上で)元のネットワークを予測したい

これは様々な指標 (最小記述長、BDeu等) による最適化問題として定義できて

一般に以下の形で書ける

5

C S R W

?

頂点 i の親集合

頂点 i のスコア関数n 頂点 DAG 全体

頂点集合

ベイジアンネットワークの学習 (cont.)

ここで

各スコア関数 si は前処理段階で計算しておくことで O(1) 時間で計算できるも

のとする

ただし親集合 πi としてありうるもの 2n-1 通り全部考えると多すぎなので

一部分だけ(たとえば |πi|≤3 のものだけとか)を考えることにする

6


頂点 i のスコア関数n 頂点 DAG 全体

頂点集合

既存研究

困難性

残念ながらこの最適化問題は NP 困難 (近似でも[1,18,19,21,38])

– i.e., 変数の個数 n が増えると(理論的にはP≠NP予想の下で)指数時間必要になる

高速なヒューリスティックはあるが良い解が得られる保証が無い

問題の緩和？

木幅が小さいものだけ考えて問題を緩和 [11,33]

木幅を制限するとモデルの表現力が落ちる；計算速度とのトレードオフ

– 実データだとそんなに表現力が落ちないという報告はある [23, 37, 7]

既存手法では木幅が大きいときの計算時間が指数的だった [32]

7

C S R W

?

提案手法

提案手法

木幅が大きい時でも高速なベイジアンネットワーク推定手法の提案

厳密手法 : MILP(整数 & 線形計画法) による定式化

近似手法：ランダムサンプリングによる手法

8

C S R W

?

木幅とは何か

9

無向グラフの木幅

木幅 = (無向グラフの)木っぽさを表す指標

以下あまり直感的でない定義

Chordal グラフ: 無向グラフで、どんな長さ4以上のサイクルにもそのサイクル内

でより小さなサイクルがあるようなもの

(無向グラフの)木幅: (グラフに辺を足して Chordal グラフにするときにできる最

大クリークの大きさで取りうるもののうち最も小さいもの) - 1

10

木幅 1

木幅 2

木幅 3

木幅とは何か (cont.)

(DAGの)モラルグラフ: 無向グラフで、共通の子をもつ頂点同士を枝で結びかつ

既存の枝の向きをなくしたもの

(DAGの)木幅: モラルグラフの木幅

11

木幅5

木幅1 木幅3?

Part 1 : 厳密手法

12

木幅制限の MILP による定式化

この問題を MILP (整数&線形計画問題) として定式化することを考える

次の2種類の制約が必要になる

「木幅≤w」を表す制約

「DAG」を表す制約

13


頂点 i のスコア関数n 頂点の DAG で木幅≤w なもの全体頂点集合

木幅制限の MILP による定式化 (cont.)

「木幅≤w」を表す制約

「あるグラフが Chordal ⇔ elimination order を付けられる」という性質を

利用

推定したいグラフではなく、推定したいグラフを Chordal にしたものの

elimination order を変数とする制約を入れる

「DAG」を表す制約

DAG であるならばトポロジカル順序を付けられる

トポロジカル順序と枝の有無を表す変数を導入し、トポロジカル順序が守られ

ているかどうかを制約にいれる

これらをまとめると論文中の式(6a)-(6k)のように定式化できる

14

論文中の式(6a)-(6k)

15

実験結果

16

提案手法(CPLEX利用)

既存手法(動的計画法)

途中で打ち切ったらしい(% はそのときの最適解までの誤差)

Part 2 : 近似手法

17

DAGのサンプリング

ここで近似的に解く手法を考えよう (ノリが唐突… MILP だと遅かったから？)

提案手法(近似)

反復法で解を改善していくタイプの手法 (雰囲気はさっきのMILPの手法に基づく)

18

k-tree (極大な木幅 k のグラフ)

をランダムサンプリングする

(既存手法[32]) その k-tree がモラルグラフの superset であるような最適な DAG を計算(遅い)

何回か反復する

代替手法：DAG のトポロジカル順序をランダムサンプリングして一番良いやつを取る

実験結果

19

既存手法代替手法

まとめ

2種類(厳密・近似)のベイジアンネットワークの学習アルゴリズムの提案

– MILP による定式化

– ランダムサンプリングによる近似手法 (精度証明のようなものは無い)

同年に似た研究が2つ出てきて被ってしまったらしい。競争が激しい分野なのか

個人の感想

直感的には木幅が増えるほど探索範囲が広がって問題が難しくなりそうだけど

ソルバ上では高速になっているのは何故なのか

– 既存のソルバ使う系の手法との本質的な差はどこなのか

近似手法が結構単純そうなのにうまくいくのは面白い

木幅の計算はNP困難なので難しいということが繰り返し書かれていたが

100頂点くらいなら適当なヒューリスティックで求まるんでは? [要出典]

20

Technology

論文紹介 Advances in Learning Bayesian Networks of Bounded Treewidth