分かりやすいパターン認識第8章学習アルゴリズムの一般化

分かりやすいパターン認識第 8章学習アルゴリズムの一般化

yokkuns: 里　洋平

パターン認識勉強会

2010/06/29

yokkuns: 里　洋平 (パターン認識勉強会) 分かりやすいパターン認識第 8 章学習アルゴリズムの一般化 2010/06/29 1 / 26

AGENDA

本章の目的

期待損失最小化学習

種々の損失

平均二乗誤差最小基準

0-1損失基準連続損失基準

確率的降下法

AGENDA

本章の目的

種々の損失

確率的降下法

本章の目的

損失関数を導入し、期待損失最小化の枠組みでアルゴリズムを考察

本章は、以下の二つを明らかにするための準備

これまで述べてきた学習アルゴリズムの相互関係

ベイズ決定則との関係

AGENDA

本章の目的

種々の損失

確率的降下法

平均損失

L(ω j|x) = Eωi|x{l(ω j|ωi)|x} (1)

c∑i=1

l(ω j|ωi)P(ωi|x) (2)

入力 xに対して、あるクラスを出力することを定めた決定規則をψ(x)で表すと、式 (2)は、次式のように書き換えられる

L(ψ(x)|x) = Eωi|x{l(ψ(x))|x} (3)

c∑i=1

l(ψ(x)|ωi)P(ωi|x) (4)

したがって、全ての可能な入力 xに対する損失 L(ψ)は、

L(ψ) = Ex{L(ψ(x)|x)} = E

x,ωi{l(ψ(x)|ωi)} (5)

∫L(ψ(x)|x)P(x)dx (6)

c∑i=1

∫l(ψ(x)|ωi)P(ωi|x)p(x)dx (7)

c∑i=1

P(ωi)∫

l(ψ(x)|ωi)p(x|ωi)dx (8)

上式の L(ψ)は期待損失と呼ばれ、L(ψ)を最小化する決定則を学習パターンから求める手続きを期待損失最小化学習と呼ぶ

AGENDA

本章の目的

種々の損失

確率的降下法

決定規則 ψが xに対し c次元ベクトル

y = ψ(x) = (y1, ..., yi, ..., yc)t (9)

を出力し、

yk > y j (∀ j , k) (10)

であれば、パターン xをクラス ωkと識別することとする。

入力パターン xと、その所属クラスωiを示す c次元の教師ベクトルt iとがペアで与えられる教師あり学習では、xに対し識別結果であるy(= ψ(x))が出来るだけ t iに一致するように ψを決定することになる

損失関数として二乗誤差

l(ψ(x)|ωi) = ||ψ(x) − t i||2 (11)

を用いると、式 (8)は以下のようになる。

L(ψ) =c∑

P(ωi)∫||ψ(x) − t i||2 p(x|ωi)dx (12)

上式は平均二乗誤差（MSE）を表している。

式 (12)を最小化する決定規則 ψを平均二乗誤差最小基準に基づく決定、あるいは単に最小二乗法に基づく決定と呼ぶ

ψを任意の非線形関数とすると最小二乗法に基づく決定はベイズ決定と密接な関係がある。

0-1損失基準

最も単純かつ自然な損失関数として、以下を考える

l(ω j|ωi) ={

0 if j = i1 otherwise

クラスωiのパターンを誤識別したときに損失 1を与え、それ以外は損失 0を与える。

2値の評価誤差は 0-1損失基準による学習とみなせる。

このとき、式 (2)は

L(ω j|x) =∑i, j

P(ωi|x) = 1 − P(ω j|x) (14)

0-1損失基準

L(ψ)の最小化は L(ψ(x)|x)の最小化と等価であるから、以下の決定規則が導かれる。

ψ(x) = ωk if P(ωk|x) = maxi{P(ωi|x)} (15)

0-1損失基準による決定則と呼ばれ、これはベイズ決定則にほかならない

”期待損失最小化 ≡事後確率最大化”の関係が成立するこのとき得られる損失をベイズリスクと呼ぶ

連続損失基準

識別結果だけでなく、誤り度合いを示す誤分類尺度を考慮した連続損失基準が提案されている

0-1損失基準では、識別結果が”正しい”か”誤り”かの 2値で判断

クラスωiに対する識別関数を gi(x; θ)とする. 識別関数法による決定規則では、c次元ベクトル

ψ(x; θ) = (g1(x; θ), g2(x; θ), ..., gc(x; θ)) (16)

に対し、最大の要素のインデックスが xのクラスとなる.

maxi{gi(x; θ)} = gk(x; θ) =⇒ x ∈ ωk (17)

甘利の提案

x ∈ ωiのパターンに対する誤分類尺度として、以下を提案

di(x) =∑j∈Si

(g j(x; θ) − gi(x; θ)) (18)

Si : ωi の識別関数の値より大きな識別関数のクラスインデックスの

集合

Si = { j|gi(x; θ) > gi(x; θ)} (19)

mi : Si の要素数

Juang & katagiriの提案

式（18）は、パラメータに対して連続である保証が無いため、最小化の手法として勾配型のアルゴリズムとの親和性がよくない

そこで、Juangと katagiriは、以下の誤分類尺度を提案

di(x) = −gi(x; θ) +

c − 1

∑j,i

gi(x; θ)η

η : 正定数ηが大きくなれるにつれ、右辺第 2項は gi(x; θ), ∀ j , i中最も値の大きなものが支配的となる

η → ∞のとき

di(x; θ) = −gi(x; θ) + gk(x; θ) (21)

gk(x; θ) = maxj,i{g j(x; θ)} (22)

損失の例

誤分類尺度を導入することにより、xの識別の良さ、悪さの度合いが得られ、損失に反映させることが出来る

損失として、次式に示す関数が提案されている

l(ψ(x)|ωi) =1

1 + exp(−ξdi)(23)

di(x) →大 : 損失→ 1di(x) →小 : 損失→ 0di(x) →0近辺 : 損失→ 1

クラス境界付近に位置し暮らすラベルがベイズ決定と異なる学習パ

ターンにも適切な損失が与えられ、0-1損失より滑らかな識別境界が得られる

滑らかさの度合いは問題に対して適切に設計する必要がある

AGENDA

本章の目的

種々の損失

確率的降下法

本節では、ψがパラメータ θを用いて ψ(x; θ)で表されているとき、期待損失最小化を実現するための ψの設計法、すなわち θの推定法について述べる

損失 L

損失 l(ψ(x; θ)|ωi)を、簡単のため、li(x; θ)と書く。

L(θ) = Ex,ωi{li(x; θ)} (24)

c∑i=1

∫li(x; θ)P(ωi|x)p(x)dx (25)

最適な θは、∂L/∂θ = 0の解として得られるが、nこのパターンのみが与えられる実際の応用では、p(x)や P(ωi|x)が道のため、直接計算することは出来ない。

そこで、nこのパターン x1, ..., xnで定義される経験損失の最小化を

考える

経験損失の最小化 1

式（25）の p(x)を経験分布で近似

p(x) =1n

n∑p=1

δ(x − xp) (26)

P(ωi|x)を、与えられたクラスラベルに基づき、以下のように置く

P(ωi|x) ={

1 if x ∈ ωi

0 otherwise(27)

経験損失 Le(θ)は、

Le(θ) =1n

c∑i=1

n∑p=1

∫li(x; θ)1(x ∈ ωi)δ(x − xp)dx (28)

n∑p=1

c∑i=1

li(xp; θ)1(xp ∈ ωi) (29)

1(x ∈ ωi)は、以下のような関数

1(x ∈ ωi) =

{1 if x ∈ ωi

0 otherwise(30)

liが微分可能と仮定すると、Leの θに関する微分は、

∂θ=

n∑p=1

c∑i=1

∂li(xp; θ)

∂θ1(xp ∈ ωi) (31)

Le(θ)を最小にする θは、∂Le/∂θ = 0が統計的に解けない場合でも、最急降下法により逐次推定できる。

θ(t + 1) = θ(t) − ρ(t)∂Le

∂θ(32)

= θ(t) − ρ(t)1n

n∑p=1

c∑i=1

∇li(xp; θ(t))1(xp ∈ ωi) (33)

∇li(xp; θ(t))は、

∇li(xp; θ(t))def=

∂li(xp; θ)

∣∣∣∣∣∣θ=θ(t)

とする

確率的降下法

パターンが逐次的に与えられる元での適応的学習

パラメータ θの修正 δθが Leの減少方向へ修正されるのではなく、

Leに関する期待値 E{Le}の減少方向に修正される以下のステップ

1 θ(0)を適当に定める t ← 0（初期化）

2 適当な収束条件を満たすまで以下を反復

θ(t + 1) = θ(t) − ρ(t)Cc∑

∇li(x(t); θ(t))1(x(t) ∈ ωi) (35)

t ← t + 1 (36)

ρ(t)が以下の条件を満たすとき、θは Leの局所最小値を与える θに収束することが保証される

∞∑t=0

ρ(t) = ∞,∞∑

ρ(t)2 < ∞ (37)

確率的降下法と確率的近似法

確率的降下法は、確率的近似法を期待損失最小化学習の枠組みで定

式化したものと解釈できる。

確率的近似法の基本的な考え方は、Robbins-Monro(RM)アルゴリズムに集約される

RMアルゴリズム

ωの関数 f (ω), h(ω)があったとし、 f (ω) = 0の根を求める場合を考える。

(ω, h(ω))の対集合が与えられ、以下が成り立つと仮定

E{h(ω)} = f (ω) (38)

また、h(ω)の値は求まるが、 f (ω)の値は未知とするf (ω)は、h(ω)の回帰関数と呼ばれ、RMアルゴリズムに従えば、f (ω) = 0の根は、以下の反復により推定され、式（37）を満たせばアルゴリズムの収束性が保証される

ω(t + 1) = ω(t) − ρ(t)h(ω(t)) (39)

RMアルゴリズムでは、 f (ω)の値が分からなくても、h(ω)の値さえわかれば f (ω) = 0の根を求めることが出来る

分かりやすいパターン認識第8章学習アルゴリズムの一般化

Documents

アルゴリズムの応用例：物体の認識と画像検索...アルゴリズムの応用例：物体の認識と画像検索徳山豪（東北大学） e-サイエンスに向けた革新的アルゴリズム基盤

付録 1 専門用語説明 - JST · カーネル法. パターン認識. において使われる手法のひとつで、判別などのアルゴリズムに組み合わせて

混合整数計画によるパターン認識のモデル化と学習アルゴリズム · 第2 章では、混合整数計画問題のアナログ解法を示し、パターン認識システムの定式化

パターン認識 04 混合正規分布

Kashiwa.R#1 画像解析とパターン認識における R の利用

続わかりやすいパターン認識11章(11.1 - 11.4)

顔認識アルゴリズム：Constrained local model を調べてみた

パターン認識論 - Tohoku University Official English ...aito/patternrec/slides.pdf · パターン認識のポイント特徴量（特徴ベクトル）の選択生データからどういう特徴を選ぶか

音声認識・合成aito/soundmedia/spoken...3 音声認識の基本的な考え方発音ごとに特有のパターンがある ⇒このパターンを捕らえれば認識が可能

パターン認識における主成分分析顔画像認識を例として · 画像認識を例にして主成分分析の方法が画像パターン認識のためにどのような改良を行われて

第二部化学多変量解析／パターン認識（ケモメトリックス ...第二部化学多変量解析／パターン認識（ケモメトリックス（Chemometrics））関連

パターン認識第01章-判別能力の評価

サポートベクターマシンによるパターン認識

パターン認識第9章学習ベクトル量子化

続・わかりやすいパターン認識勉強会 4章前半

遺伝的アルゴリズムを用いた特徴選択によるパターン認識

パターンとシンボル画像の処理と認識・理解 · 3次元画像計測・認識 "画像生成（シンボル→パターン）! コンピュータグラフィックス

特別チュートリアル「パターン認識とメディア理解のフロンティア」ディスカッションペーパー

京都産業大学 - kyoto-su.ac.jp · ファジィニューラルネットワークを進化的アルゴリズムで学習させるコンピュータにパターン認識を行

分かりやすいパターン認識第8章 学習アルゴリズムの一般化

分かりやすいパターン認識第8章学習アルゴリズムの一般化