Upload
naoya-nakamura
View
1.105
Download
6
Embed Size (px)
Citation preview
PRML 復々習レーン7.1.1-7.1.2
@risuoku
1
重なりのあるクラス分布
• 誤分類を許す
• 汎化能力は十分優れている(状況による)
2
スラック変数とソフトマージン
⇒ソフトマージンへの緩和
3
スラック変数とソフトマージン
⇒ソフトマージンへの緩和正分類・マージンの外側もしくは上
4
スラック変数とソフトマージン
⇒ソフトマージンへの緩和正分類・マージンの内側
5
スラック変数とソフトマージン
⇒ソフトマージンへの緩和誤分類
6
ソフトマージンSVMの最適化
7
色々と変形すると、結局(7.32)-(7.34)が必要になる
※変形の手順
― (7.21)を最小化するためのラグランジュ関数が(7.22)― KKT条件が(7.23)-(7.28)― 停留条件を変形すると(7.29)-(7.31)― これらを組み合わせることで(7.32)-(7.34)を得る
8
訓練した結果の解釈
9
ν-SVM
• 式(7.38)-式(7.41)
• ソフトマージンSVMと等価
• パラメータνが、訓練データ全体に占めるマージン誤差の割合の上限orサポートベクトルの割合の下限と解釈できる
10
SVMの訓練
• パラメータを学習する段階ではサポートベクトルだけでなく、全ての訓練データが必要
• 実用上は、SVMの二次計画法を効率的に解くアルゴリズムが必要
– チャンキング(Vapnik, 1982)
– 分解法(Osuna et al., 1996)
– 逐次最小問題最適化法(SMO)(Platt, 1999)
11
Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines (Platt, 1998) より引用
• 基本的に、どの手法も小さい部分問題を順に解く• 部分問題の選び方が手法ごとに異なる• 最近はSMOが主流
12
逐次最小問題最適化法(SMO)
• 一度に解く部分問題の変数の数が2個
• 分解法の特別な場合(分解法では、変数の個数を何かの値に決めておく)
• 計算効率が良い
• Working Set Selection(WSS) ⇒ libsvmのドキュメント参照
13
その他の話題
• 次元の呪い
– カーネル関数は、特徴ベクトルの内積
– 入力より大きな次元を扱えるように見えるが、そうではない
• 確率の計算
– SVMを大きな確率的な予測システムの一部として用いる場合、出力値として確率が必要
– 訓練済みのロジスティックシグモイド関数をSVMの出力に適用(Platt, 2000)
14
ヒンジ形誤差関数
15
ロジスティックシグモイド関数による誤差関数
16
全ての訓練データの尤度:
“尤度最大”⇔”負の対数尤度最小”
正則化項を加えると、(7.47)(7.48)を得る
17
ロジスティック回帰との関係
• ヒンジ形⇒損失ゼロ• シグモイド関数⇒多
少の損失あり
18