PRML復々習レーン#9 前回までのあらすじ

PRML復々習レーン#9 前回までのあらすじ

2013-03-10

Yoshihiko Suhara

@sleepy_yoshi

v.1.0

前回のおさらい

• 復々習レーンの復習を15分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容

• 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください

• 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため

ポイントだよ

2

今回からポイント小僧の向きが変わります

ポイントだよ

前回の範囲 5章 • 5.1 フィードフォワードネットワーク関数 • 5.2 ネットワーク訓練 • 5.3 誤差逆伝播 • 5.4 ヘッセ行列

– 5.4.1 対角近似 – 5.4.2外積による近似 – 5.4.3 ヘッセ行列の逆行列 – 5.4.4 有限幅の差分による近似 – 5.4.5 ヘッセ行列の厳密な評価 – 5.4.6 ヘッセ行列の積の高速な計算

• 5.5 ニューラルネットワークの正則化 – 5.5.1 無矛盾なガウス事前分布 – 5.5.2 早期終了 – 5.5.3 不変性 – 5.5.4 接線伝播法 – 5.5.5 変換されたデータを用いた訓練 – 5.5.6 たたみ込みニューラルネットワーク – 5.5.7 ソフト重み共有

• 5.6 混合密度ネットワーク • 5.7 ベイズニューラルネットワーク

– 5.7.1 パラメータの事後分布 – 5.7.2 超パラメータの最適化 – 5.7.3 クラス分類のためのベイズニューラルネットワーク

3

量が多いのでいつもより適当に

5.4 ヘッセ行列

4

5.4 ヘッセ行列

誤差関数のパラメータによる2階微分を要素とする行列をヘッセ行列と呼ぶ

• 誤差逆伝播では1階微分に基づく勾配法を用いてパラメータの最適化を行ってきた

• ヘッセ行列を用いることにより，より効率的に最適化を行うことができる

ポイントだよ

5

でもどうやって? ということに答えるのが本節

5.4.1 対角近似

対角行列でヘッセ行列を近似する

• 欲しいのはヘッセ行列の逆行列 – じゃあヘッセ行列が対角行列だったら逆行列求めるの楽

• 誤差逆伝播法を用いて求めることができる (5.81)

• ただし，ヘッセ行列は通常非対角であるため，この近似は注意が必要

ポイントだよ

6

5.4.2 外積による近似

二乗誤差最小化の場合，外積によって（＝ヤコビ行列の積で）近似できる

• Levenberg-Marquardt近似 –ガウス・ニュートン近似とも呼ばれる

–二乗誤差の場合，解の近くでは誤差が1階微分の積に近似できる (後述)

• これを利用してヘッセ行列を求める

ポイントだよ

7

補足: ガウス・ニュートン近似の導出

• 誤差関数𝐸(𝒙) =1

2 𝒆𝑘

2𝑘 を𝑥𝑖で微分

𝜕𝐸

𝜕𝑥𝑖= 𝒆𝑘

𝜕𝒆𝑘

𝜕𝑥𝑖𝑘

• さらに𝑥𝑗で微分 𝜕𝐸

𝜕𝑥𝑖𝜕𝑥𝑗=

𝜕𝒆𝑘

𝜕𝑥𝑖

𝜕𝒆𝑘

𝜕𝑥𝑗+𝒆𝑘

𝜕2𝒆𝑘

𝜕𝑥𝑖𝜕𝑥𝑗𝑘

• 𝒙が解に近いと 𝒆𝑘 ≈ 0 ∀𝑘 より

𝜕𝐸

𝜕𝑥𝑖𝜕𝑥𝑗≈

𝜕𝒆𝑘

𝜕𝑥𝑖

𝜕𝒆𝑘

𝜕𝑥𝑗𝑘

8

5.4.3 ヘッセ行列の逆行列

外積による近似を用いると，ヘッセ行列の逆行列を効率的に求められる

• 最初の𝐿個のデータを用いてヘッセ行列の逆行列を求める – 𝐿 + 1からの寄与分に対して，それまでの値を利用して逆行列を更新する (5.89式)

• 準ニュートン法のアルゴリズムも同じようにヘッセ行列の逆行列の近似を徐々に構築する

ポイントだよ

9

5.4.4 有限幅の差分による近似

有限幅の差分による近似を用いて 2階微分を求める

• パラメータに摂動を与えて，差分に基づいてヘッセ行列を求める (5.91式)

ポイントだよ

10

5.4.5 ヘッセ行列の厳密な評価

ヘッセ行列を近似ではなく，厳密に求める

• 多層ニューラルネットの場合，重みパラメータが層ごとに用意されているため，層をまたいだ2階微分が必要 – 三層ニューラルネットの場合は5.93式，5.94式，5.95式

• 層を飛び越えた結合を含める場合も容易に計算できる (演習5.23)

ポイントだよ

11

5.4.6 ヘッセ行列の高速な計算

𝒗𝑇𝑯を効率的に計算する方法

• 必要なのは𝑯そのものではなく𝑯と何かの積

• 𝒗𝑇𝑯を効率的に計算する方法 (5.110式，5.111式)

– 順向き伝播＋逆向き伝播の計算をそのまま利用可能

ポイントだよ

12

5.5 ニューラルネットワークの正則化

13

5.5 ニューラルネットワークの正則化

過学習を避けて汎化性能を向上する

• 1. 隠れユニットの数を調整する

• 2. 重みパラメータに対して正則化項を導入する．たとえば 𝐸 𝒘 = 𝐸 𝒘 + 𝜆𝒘𝑇𝒘

• 3. 訓練の早期終了

ポイントだよ

14

5.5.1 無矛盾なガウス事前分布

スケーリング不変に無矛盾な正則化項を導出する

• 多層ニューラルネットワークでは，線形変換されたデータに対して，パラメータを線形変換することで同じ出力を得る – 無矛盾なネットワーク

• (5.112)式の正則化項は無矛盾でないため，無矛盾な正則化項を導出する – (5.121式)

ポイントだよ

15

5.5.2 早期終了

ネットワーク訓練を早期終了することでネットワークの複雑さを制御する

• 学習を早期終了することで正則化と同様の効果を得る

ポイントだよ

16

訓練誤差検証用誤差

5.5.3 不変性

入力変数がある変換を受けても予測が変化しない不変性を持たせる

• 不変性 – 入力変数がある変換を受けても予測が変化しないこと

• モデルに不変性を持たせる4つのアプローチ – 1. 求められる不変性に応じて訓練パターンを変換して複製を作成する

• 5.5.5 変換されたデータを用いた訓練

– 2. 正則化項を誤差関数に加える • 5.5.4 接線伝播法

– 3. ある変換の下で不変であるような特徴抽出を行う – 4. モデルに不変性を構築する性質を持たせる

• 5.5.6 たたみ込みニューラルネットワーク

ポイントだよ

17

5.5.4 接線伝播法

変換に基づく誤差を許容する正則化関数を導入することにより，不変性を持たせる

• 変換に基づく誤差を許容する正則化関数を導入することにより，不変性を持たせる (5.128式) – 正則化関数は，各パターンベクトルの近傍において，変換の下で不変であればゼロとなる

• 回転や平行移動など，変換が複数のパラメータに支配されるなら，それぞれに対応する正則化関数の和で表現

ポイントだよ

18

5.5.5 変換されたデータを用いた訓練

もとの入力パターンを変換して訓練集合を拡大する

• 訓練データに対する変換に基づく学習が，接線伝播法と関係があることを解説

• 特に，入力データに対して乱数ノイズ付加という場合の正則化項はティホノフ正則化と呼ばれる – 汎化性能を向上させる効果があるらしい

ポイントだよ

19

5.5.6 たたみ込みニューラルネットワーク

入力の変換に対して不変性を持つニューラルネットワーク

• 入力の変換に対して不変性を持つモデル – (i) 局所的受容野 – (ii) 重み共有 – (iii) 部分サンプリング

ポイントだよ

20

入力画像たたみ込み層部分サンプリング層

...

出力層は完全結合

5.5.7 ソフト重み共有

一定のグループに属する重みを等しくすることにより，ネットワークの複雑さを制限する

• 重みが等しいという制限を，ソフト重み共有という正則化項の導入に置き換える

• 混合ガウス分布による正則化項により導出

Ω 𝑤 = − ln 𝜋𝑗𝒩 𝑤𝑖 𝜇𝑗 , 𝜎𝑗2

𝑀

𝑗=1𝑖

ポイントだよ

21

5.6 混合密度ネットワーク

22

5.6 混合密度ネットワーク

出力分布が多峰性を持ちうる問題におけるニューラルネットワークの利用

• 順問題 vs. 逆問題

• 混合密度ネットワーク

𝑝 𝑡 𝒙 = 𝜋𝑘𝒩(𝑡|𝜇𝑘 𝒙 , 𝜎𝑘2 𝒙 )

𝐾

𝑘=1

ポイントだよ

23

角度→位置 (順問題) 位置→角度 (逆問題)

通常のネットワーク混合密度ネットワーク

5.7 ベイズニューラルネットワーク

24

5.7 ベイズニューラルネットワーク

最尤推定→MAP推定と来たら，ベイズ推定

• PRMLにおける様式美．導出が複雑になるため，幾人も挫折する – 別に知らなくてもいいし

• そして実用面でもそこまで使えるわけではないのでなおさらモチベーションが上がら（ｒｙ

ポイントだよ

25

5.7.1 パラメータの事後分布

パラメータの事後分布に対してラプラス近似を用いて予測分布を得る

• 尤度関数 𝒩 𝑡𝑛 𝑦 𝒙𝑛, 𝒘 , 𝛽−1 が𝒘に非線形に依存するため，パラメータの事後分布がガウス分布にならない

• ラプラス近似を用いて予測分布𝑝(𝑡|𝒙, 𝑫)を得る

ポイントだよ

26

5.7.1 超パラメータ最適化

事前分布の超パラメータ𝛼，事後分布の超パラメータ𝛽を選ぶ

• 以下の式で推定できる

𝛼 =𝛾

𝒘𝑀𝐴𝑃𝑇 𝒘𝑀𝐴𝑃

，𝛽 =1

𝑁−𝛾 𝑦 𝒙𝑛, 𝒘𝑀𝐴𝑃 − 𝑡𝑛

2𝑁𝑛=1

• ただし，事後分布に依存しているため，超パラメータの推定と事後分布の推定を交互に行う必要がある

ポイントだよ

27

5.7.3 クラス分類のためのベイズニューラルネットワーク

クラス分類についてもベイズの枠組みで扱う

• ベイズロジスティック回帰と同じ方法で導出 – ガウス分布のたたみ込み近似など

ポイントだよ

28 MAP推定ベイズ推定

あんまりいけていない

つづくさぁ今日も一日がんばるぞ

29

Technology

PRML復々習レーン#9 前回までのあらすじ