PRML復々習レーン#12 前回までのあらすじ

PRML復々習レーン#12 前回までのあらすじ

2013-07-21

Yoshihiko Suhara

@sleepy_yoshi

v.1.0

前回のおさらい

• 復々習レーンの復習を10分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容

• 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください

• 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため

ポイントだよ

2

ポイント小僧の向きに意味はありません

ポイントだよ

前回の範囲 • 7章疎な解を持つカーネルマシン

– 7.1 最大マージン分類器 • 7.1.1 重なりのあるクラス分布 • 7.1.2 ロジスティック回帰との関係 • 7.1.3 多クラスSVM • 7.1.4 回帰のためのSVM • 7.1.5 計算論的学習理論

– 7.2 関連ベクトルマシン • 7.2.1 回帰問題に対するRVM • 7.2.2 疎性の解析 • 7.2.3 分類問題に対するRVM

• 8章グラフィカルモデル – 8.1 ベイジアンネットワーク

• 8.1.1 例：多項式曲線フィッティング • 8.1.2 生成モデル • 8.1.3 離散変数 • 8.1.4 線形ガウスモデル

3

7章疎な解を持つカーネルマシン

4

7.1.5 計算論的学習理論

PAC学習 ≒ 統計的検定訓練データとモデルの複雑さ (VC次元) で

汎化誤差を評価

• PAC学習 (だいたい確率的に正しい)

• モデルの表現力が高い≒同じ汎化誤差達成に必要な訓練データたくさん

• マージン最大化は実効VC次元を押さえることで仮説空間の大きさを絞り込むため，高い汎化誤差を達成 – 正確には悪い汎化誤差を生み出すのを防いでいる

ポイントだよ

5

7.2 関連ベクトルマシン

出力が確率であり，SVMよりも疎な解が出せる最強のカーネルマシン，それがRVM

• RVMのPros & Cons – Pros

• 出力が確率 – SVMの出力は確率ではない (確率的に扱うことも可能)

• パラメータ探索が不要 (i.e., SVMにおけるCパラメータ) • SVMよりもスパースな解

– Cons • 目的関数が非凸．学習に時間がかかる

– パラメータ探索が不要だから全体としては速いよ

ポイントだよ

6

7.2.1 回帰問題に対するRVM

RVMは基本的にベイズ線形回帰予測分布の分散とカーネルに対する重みの

分散の事前分布をデータから決定するのが違い

• 予測分布は 𝑝 𝑡 𝒙,𝒘, 𝛽 = 𝒩 𝑡 𝑦 𝒙 , 𝛽−1 – ここで 𝑦 𝑥 = 𝑤𝑛𝑘(𝒙, 𝒙𝑛)

𝑁𝑛=1 + 𝑏

• 各データ点に対応する重みパラメータ𝑤𝑖は平均0，精度𝛼𝑖の事前分布𝒩 𝑤𝑖 0, 𝛼𝑖

−1 を仮定 – 𝛼𝑖 → ∞ のとき，対応するデータ点は予測に影響を与えない

• ゼロでない重みを持つ基底関数に対応するデータを関連ベクトルと呼ぶ

ポイントだよ

7

𝛽もデータから自動決定 = サポートベクタ回帰における𝜖許容誤差の調整が不要

7.2.2 疎性の解析

疎になる (ry

• 左の図は𝛼𝑖有限の場合に尤度最大化

• 右の図は𝛼𝑖を無限大にするのが尤度最大化

ポイントだよ

8

7.2.3 分類問題に対するRVM

RVMによる関連ベクトルと SVMによるサポートベクトルの違い

• SVM超平面付近に集中 • RVM必ずしも超平面付近ではない

ポイントだよ

9

8章グラフィカルモデル

10

8章グラフィカルモデル

確率変数間の関係を有向グラフや無向グラフで表現することで複雑な確率モデルの設計・学習を容易に行える

• グラフィカルモデルの利点 – 確率モデルの視覚化が容易 – グラフ構造を調べることで条件付き独立性などがわかる – 推論や学習における計算をグラフ上の操作として表現可能

• グラフィカルモデルの分類 – 有向グラフ

• ベイジアンネットワーク (有向グラフィカルモデル)

– 無向グラフ • マルコフ確率場 (無向グラフィカルモデル) • 因子グラフ

ポイントだよ

11

8.1 ベイジアンネットワーク

確率変数間の関係を有向グラフで表現することで同時分布を条件付き確率の積に分解できる

• 同時確率の分解方法は一意ではない 𝑝 𝑎, 𝑏, 𝑐 = 𝑝 𝑐 𝑎, 𝑏 𝑝 𝑏 𝑎 𝑝(𝑎) 𝑝 𝑎, 𝑏, 𝑐 = 𝑝 𝑏 𝑎, 𝑐 𝑝 𝑎 𝑐 𝑝(𝑐)

• 確率変数の依存関係を有向グラフで表現

𝑝 𝒙 = 𝑝 𝑥𝑘 pa𝑘

𝐾

𝑘=1

ポイントだよ

12

8.1.1 例：多項式曲線フィッティング

確率変数は塗りつぶさない円観測変数は影付き円，決定的パラメータは小さい黒丸

• ベイズ多項式回帰をグラフィカルモデルで表現

ポイントだよ

13

決定的パラメータ

観測変数確率変数

この枠に囲まれたノードが 𝑁個存在することを表現

8.1.2 生成モデル

観測データの確率分布をモデル化すれば新しいデータの生成が可能

• たとえば有向グラフの先祖からサンプリングを行う伝承サンプリングなどがある

ポイントだよ

14

8.1.3 離散変数

依存関係やパラメータ共有を利用することで確率変数の組み合わせパラメータを減らすことができる

• 𝐾個の状態を取る離散確率変数が𝑀個ある場合 – 全結合グラフにおいて

• 任意の同時分布は𝐾𝑀 − 1個のパラメータが必要

– 全ての確率変数が独立だと仮定すると • 𝑀(𝐾 − 1)個のパラメータですむ

– 鎖状に連結したグラフにおいて • 𝐾 − 1 + 𝑀 − 1 𝐾 𝐾 − 1

• 条件付き分布にパラメトリックな分布を利用する – e.g., ロジスティックシグモイドでモデル化

𝑝 𝑦 = 1 𝑥1, … , 𝑥𝑀 = 𝜎 𝑤0 + 𝑤𝑖𝑥𝑖

𝑀

𝑖=1

ポイントだよ

15

8.1.4 線形ガウスモデル

超 (ハイパー) パラメータの事前分布を導入する階層ベイズモデルの一例

• ガウス分布の平均の事前分布はガウス分布，その平均の事前分布もガウス分布 – それらの同時分布もガウス分布なので，ベイズ的取扱いが可能

• 超パラメータに対して事前分布 (超事前分布) を導入するモデルを階層ベイズモデルと呼ぶ

ポイントだよ

16

ガウス! ガウス! ガウス!

つづくさぁ今日も一日がんばるぞ

17

Documents

PRML復々習レーン#12 前回までのあらすじ