Minimum Classification Error | 最小分類誤り学習法

同志社大学情報システム応用

Minimum Classification Error vs.

Maximum Margin:

How Should We Penalize Unseen Samples?

2 – C 班1G121007 福井翔貴1G121042 中野敬介1G121062 田村俊

同志社大学情報システム応用 2

目次 1.概要

2.MCE の新しい手法A) MCEB) LGM-MCEC) KMCE

3.評価実験

4.まとめ

5.質疑応答


概要


1. 概要

パターン認識における分類器設計の究極の目標

原理的に分類誤り確率が最小となる状態の達成

MCE 学習法によるアプローチ

4


MCE


2-A–1. クラス分類タスクの設定

・分類決定則：

入力パターンを個のクラスの一つに分類

識別関数

が最大となる時のを返す

識別関数の最大値を取るクラスに属する

6


2-A-2. 誤分類測度

・誤分類測度：クラスに属する入力に対する認識の良さ

𝜓→∞

𝑑𝑦 (𝑥 ; 𝛬 )=−𝑔𝑦 (𝑥 ; 𝛬 )+max𝑗 , 𝑗 ≠ 𝑦

𝑔 𝑗(𝑥 ; 𝛬)

クラスに属すると，識別関数は最大値に

⇒ 正しく認識　ならば誤って認識

7


2-A-2. 誤分類測度

8

具体例クラス猫

クラス犬

クラス蛇

𝑔猫 (𝑥 ; 𝛬 )=100

𝑔犬 (𝑥 ; 𝛬 )=60

𝑔蛇 (𝑥 ; 𝛬)=0

入力データ x・足が 4 本・毛で覆われている・ニャーと鳴く


2-A-3. 平滑化分類誤り数損失

・平滑化分類誤り数損失：誤認識に伴う誤りの損失 ( リスク )

＝ミスの大きさ

微分が容易に求まるシグモイド関数

=5 のシグモイド関数

微分が容易

9



・経験的平均損失： MCE 学習法の最小化目標関数

全ての学習標本に対する損失の和 / 標本数＝データ点の平均損失

あるデータ点が誤った分類をされた時の損失

平均損失を小さく → 分類精度向上

最小化を目指す10



図 . 誤分類尺度上の平滑化分類誤り数損失

誤分類正分類

幾何マージン

自信を持って正解！

自信ないけど正解だった

自信あったのに間違った…

11


2-A-4. MCE 学習法の欠点

• 識別関数のスケール変換により，誤分類測度値が変化しても境界線に変化がない

• 誤分類測度は判断の確かさを表すには不十分である（幾何マージンを直接扱えない）

12


図解

境界付近に現れるデータの分類が困難

幾何マージン M

クラス A

クラス B

13


図解

マージンが出来るだけ大きくなるよう境界線を決定

幾何マージン M

クラス A

クラス B

14


LGM-MCE


2-B-1. 大幾何マージン MCE 学習

MCE 学習法の欠点を補う手法

幾何マージンを求める　→　合理的な誤分類測度

幾何マージンを増大　　→　学習耐性を向上

Large Geometric Margin - MCE

16


2-B-2. 幾何マージン

・新しい誤分類測度：をに置き換えると， M を幾何マージンとして表すことができる（直接的に扱える）

幾何マージン

誤分類測度 / ユークリッド・ノルム

・幾何マージン：誤分類測度の正負反転を正規化

17


2-B-3. LGM-MCE 学習法の欠点

• パターン分布が複雑な場合，単純な識別関数では分類精度が悪い

• そんな状況下で LGM-MCE 学習法を適用するには，識別関数を複雑にしないといけない

18


KMCE


2-C-1. KMCE 学習法

Kernel - MCE

カーネルの概念を導入（陰の）高次元空間への写像によりパターンを変換し，その上で分類を行う

高次元空間では，分布のクラス分離性が向上するので，単純な識別関数でも高い認識率が得られる

20


2-C-2. カーネルに基づく識別関数

・識別関数：

カーネル

プロトタイプ

学習によって調整されるパラメータ

・内積による表現：特徴変換𝜙 (∙) を適当に定める

（）

21


2-C-3. 高次元空間における幾何マージン

ℋ

𝑟ℋ

𝜙 ( ∙ )

・幾何マージン：

22


2-C-4. KMCE 学習法での経験的平均損失

・経験的平均損失：の正負反転を誤分類測度として，(j=1…J) に対して MCE 学習を行う

分類誤り数損失

23


2-C-5. KMCE 学習法の特徴

• 高次元空間写像が陽に現れないので，現実的な最適化演算・分類処理が行える

• 単純な識別関数でも，複雑な分類パターンに対応することができる

24


評価実験


3. MCE 学習法の評価実験

26

Size K-Means FM-MCE LGM-MCE

6 44.9 70.1 69.2

18 59.8 73.8 74.3

30 65.0 75.2 77.1

42 66.8 75.7 77.1

・ Glass Identification データセット（ UCI Machine Learning Repository提供）

- それぞれのクラスの標本数にバラつきあり

結果： MCE 法が優位

表 . GI データセットでの実験結果

Size: プロトタイプの合計数



Size K-Means FM-MCE LGM-MCE KMCE

26 49.7 73.1 75.4 77.8

78 55.7 78.0 80.6 79.6

130 62.2 78.0 82.1 80.9

260 69.7 78.7 81.2 82.1

390 - - - 82.6

520 - - - 82.8

・ Letter Recognition データセット（ UCI Machine Learning Repository提供）

- それぞれのクラスの標本数にバラつきほぼなし

結果： MCE 法が優位表 . LR データセットでの実験結果

Size: プロトタイプの合計数



サポートベクターマシン（ SVM ）との比較

GI データセットに対して：　 MCE が優位LR データセットに対して：　同等のパフォーマンス

しかし SVM は…・多量のプロトタイプが必要・スケーラビリティに悩まされる


まとめ


4. まとめ

• MCE は広範囲の判別関数形に適用可能

• 効率的に小型のクラスモデルを用いて高い分類精度を達成


質疑応答


MCE の問題点

過学習の問題

• 識別関数のパラメータ集合が学習資料に特化

• 学習資料と分布形状の異なる評価用資料に対しては認識性能が低下

• 損失関数の傾きを調整することで過学習を抑え，汎化能力を向上させる方法

• 識別関数の入力と出力の変化量を汎化能力の指標とし，これを利用する方法

Technology

Minimum Classification Error | 最小分類誤り学習法