59
1 福水健次 統計数理研究所/総合研究大学院大学 大阪大学大学院基礎工学研究科・集中講義 2014 September カーネル法入門 2.さまざまなカーネル法

カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

1

福水健次

統計数理研究所/総合研究大学院大学

大阪大学大学院基礎工学研究科・集中講義

2014 September

カーネル法入門2.さまざまなカーネル法

Page 2: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

2

カーネル法のいくつかの例を通して,カーネル法の考え方を理解する,

• カーネルPCA• カーネルCCA• カーネルリッジ回帰• サポートベクターマシンの初歩

Page 3: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネルPCA

3

Page 4: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

再掲: カーネルPCAのアルゴリズム

– 中心化Gram行列 の計算

– の固有分解

– 第p主成分方向 ∑ Φ ∑ Φ

– X(i)の第p主成分

4

N

iTiiiX uuK

1

~

021 N 固有値

単位固有ベクトルNuuu ,,, 21

N

bbiji

ijX XXkN

XXkK1

)()()()( ),(1),(~

N

babaN

aja XXk

NXXk

N 1,)()(

21)()( ),(1),(1

Page 5: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネルPCAの例

Wine データ (UCI repository)

3種類のイタリアワインに関する,13 次元の化学測定値

178 データ.クラスの情報はカーネルPCAには用いていない

5-5 0 5

-4

-3

-2

-1

0

1

2

3

4

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6Linear PCA Kernel PCA (Gaussian kernel)

( = 3)

5

Page 6: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

6

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6 = 4

-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

Kernel PCA (Gaussian)

-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

= 5

= 2

22exp),( yxyxkG

Page 7: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

応用:ノイズ削減– カーネルPCA をノイズ削減に応用:

主成分 = 有益な情報, その他の方向 = ノイズ

7

Surface of clean images

Page 8: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネルPCAの適用

• : d個の主成分方向が張るd次元部分空間

• Gx: x の Vd への正射影 = ノイズ除去された特徴ベクトル.

• 原像問題: を近似する特徴ベクトルΦ を与える原像 を求める.

2arg min ( )ˆ xx

x x G

-25 -20 -15 -10 -5 0 5 10 15 20

-20

0

20-10

-8

-6

-4

-2

0

2

4

6

8

10 (x)

Gx

8

Gx は の像に入っているとは限らない.

Page 9: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

USPSデータ

9

Noise reduced images(linear PCA)

Noisy images

Noise reduced images (kernel PCA, Gaussian kernel)

Original data (NOT used for PCA)

(Generated by Matlab stprtool by V. Franc)

Page 10: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネルPCAの特徴

– 非線形な次元削減: 非線形特徴を捉えることが可能.

– 識別などさらなる解析の前処理として用いることも多い(次元削減/特徴抽出)

– 結果はカーネル(あるいはパラメータ)に大きく依存する.線形PCAのように,軸に対する解釈を与えることは容易ではない.

– カーネル/パラメータをどのように決めるか?• Cross-validationの適用はそのままではうまくいかない.

• 前処理として用いる場合は,最終的な結果のよさをcross-vaildationなどで測れる場合がある.

10

Page 11: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネル正準相関分析

11

Page 12: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

正準相関分析– 正準相関分析 Canonical correlation analysis (CCA, Hotelling 1936)

2つの多次元の変数の線形相関を見る方法.• Data , , … , ,• : m-次元, : ℓ-次元

と の相関が最大になるように,ベクトル , を求める.

,][][

],[max],[max,, YbXa

YbXaYbXaTT

TT

ba

TT

ba VarVarCovCorr

X Ya

aTX bTYb

12

Page 13: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

CCAの解法

– 一般化固有問題に還元される:

[演習問題: これを導出せよ. (ヒント. Lagrange乗数法を用いよ.)]

– 解:

max,

subject to 1.

/ , /

( ) は / /の最大特異値に対する

左(右) 単位固有ベクトル.

13

Page 14: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネル正準相関分析– カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002)

• 線形相関だけでなく,依存性/関連性が調べられる.

• データ: , , … , , 任意の確率変数( とは限らない)

• カーネル , を決め,特徴ベクトルにCCA を施す., … , ↦ Φ ,… , , Φ ∈ ,, … , ↦ Φ ,… ,Φ ∈ .

X Yf

x(X) )(Xfx y(Y)

yg)(Yg

max∈ , ∈

Cov ,Var Var

max∈ , ∈

∑ ,Φ ⟨Φ , ⟩

∑ ,Φ ∑ ,Φ

II-14

Page 15: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– ∑ Φ , ∑ Φ としてよい.

max ∈ , ∈

– 正則化が必要: 自明な解,

(推定量は一致性を持つ. Fukumizu et al JMLR 2007)

– 解: 一般化固有値問題

(kernel PCAと同じ)

max∈ , ∈

∑ ,Φ ⟨Φ , ⟩

∑ ,Φ ∑ ,Φ

15

, : 中心化Gram行列

Page 16: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

KCCAの応用

– テキストからの画像検索の問題(Hardoon, et al. 2004).

• Xi: 画像, Yi: 対応するテキスト (同じウエブページから採取).

• KCCAによって,d 個のベクトル f1,…,fd と g1,…,gd を取る.これらは,X と Y が最も依存するような特徴空間の部分空間を張る.

• 新しい単語 に対し,最も内積の値が大きくなる画像を結果として返す.

Xi Yx(Xi)x

y(Y)yg

)(,

)(,1

Yg

Yg

yd

y

)(,

)(,1

ixd

ix

Xf

Xf

“at phoenix sky harbor on july 6, 1997. 757-2s7, n907wa, ...”

16

f

Page 17: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– 例:• 画像: ガウスカーネル

• テキスト: Bag-of-words カーネル (単語の頻度).

Text -- “height: 6-11, weight: 235 lbs, position: forward, born: september 18, 1968, split, croatia college: none”

検索された画像の結果(トップ5)

17

Page 18: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

脳信号への応用

18

Page 19: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネルリッジ回帰

19

Page 20: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

リッジ回帰, , … , , : ( ∈ , ∈ )

リッジ回帰: 線形回帰 2ノルムによる正則化

min | |

– 解 (2次関数の最適化):

– リッジ回帰は, が特異な (または特異に近い) 場合によく用いられる. -- 共線性への対処

(定数項は簡単のため省略して書く)

, ⋮ ∈ , ⋮ ∈

ここで

20

Page 21: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネルリッジ回帰– , , … , , : 任意の変数, ∈ .– リッジ回帰のカーネル化: に対するカーネル を用いる

min∈

| , Φ |

min∈

| |

equivalently,

Ridge regression on

Nonlinear ridge regr.

21

Page 22: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– 解は特徴ベクトルの線形和の形

∑ Φ とおく.( ∈ Φ , : 直交補空間の成分)

このとき,目的関数 = ∑ , Φ ∑ , Φ )

第1項は に依存しない. 第2項は 0のとき最小.

– 目的関数:

– 解: ̂

,)(1

n

jjj Xcf

22

,⋮,

Page 23: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

正則化– 最小化問題

min∑

は,誤差0が可能.しかし,無数に解を

持ち得る.

– 正則化

min∈

∑ | |

• 関数が滑らかになりやすい罰則項がよく用いられる.

• 滑らかさとRKHSノルムとの関係はChapter 3 を参照.

23

Page 24: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

比較実験

カーネルリッジ回帰 vs 局所線形回帰1/ 1.5 | | , ~ 0, , ~ 0, 0.1

= 100, 500 runs

カーネルリッジ回帰

Gaussカーネル

局所線形回帰Epanechnikovカーネル*

(R ‘locfit’)

バンド幅はともにCross-vaildationで選択.

*Epanechnikovカーネル = 1 | | 24

1 10 1000

0.002

0.004

0.006

0.008

0.01

0.012

Dimension of X

Mea

n sq

uare

err

ors

Kernel methodLocal linear

Page 25: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

局所線形回帰 (e.g., Fan and Gijbels 1996)

– : 平滑化カーネル / Parzen ウィンドー ( 0, 1, 正定値性は仮定しない)

– 局所線形回帰

is estimated by

• 各 に対して最適化問題を解く.最適化は重み付最小2乗誤差問題として陽に解ける.

• 推定量の統計的性質は詳しく調べられている. • が1次元の時,局所線形回帰はよい結果を与える.

一般に局所多項式回帰は理論的な最適性を有している.

• しかし,高次元データ(5,6次元以上)に弱いことが知られている.

min,

25

Page 26: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– Epanechnikovカーネル

26

34 1 ,

Page 27: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

Nonparametric regression: theoretical comparison

27

Kernel ridge regression

– Convergence rate (Eberts & Steinwart 2011)

If is Gaussian, and ∈ ,(under some technical assumptions) for any > 0,

– Note: is the optimal rate for a linear estimator. (Stone 1982).

– Local polynomial fitting attains this rate if the degree of polynomial is sufficient.

| ≔

| | → ∞

* : Sobolev spaceoforder .

Page 28: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

Support Vector Machine

28

Page 29: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

2値識別問題

– 訓練データ

– 線形識別

線形関数

目的関数

29

)()(1

)2()2(1

)1()1(1

Nm

N

m

m

XX

XX

XX

X

Input data

N

NY

YY

Y }1{

)(

)2(

)1(

Class label

)sgn()(, bxwxh Tbw

)()(, )( iibw YXh for all (or most) i.

Page 30: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

マージン最大化

仮定: 線形識別可能.ある , があって

sgn ∀ .

一般に解は一意ではなく無数にある(連続濃度). どのように決めるか?

マージン最大化規準:マージンを最大にする線形識別関数を選択する.

– マージン = 方向で測った時の2つのクラスの距離.– 識別境界は,2つのクラスまでの距離の中間.

30

Page 31: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

31

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

8

w

support vectors

Hyperplanewith largest margin

Hyperplanewith small margin

Page 32: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

8

– マージンの測り方

スケールを固定するため以下のように正規化する

min 1 for the closest point with 1,min 1 for the closest point with 1.

このとき,

マージン

[演習問題: これを示せ]

w

32

1

1

Page 33: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– マージン最大化識別器:

max subject to 1 1 1 1

以下と同値

• 2次計画(QP): 線形不等式制約のもとでの2次関数の最小化.凸最適化.局所解がない!

• QP ソルバーは多くのソフトウエアパッケージで提供されている.

33

min, subject to 1 ∀ .

線形サポートベクターマシン (ハードマージン)

Page 34: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

34

Quadratic Program(convex program)

Non-convex function

global minimumlocal minimum

Page 35: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

ソフトマージンSVM– 線形識別可能という仮定は非現実的

緩和

ハードな制約: 1

ソフトな制約: 1 , 0.

• 最適化はやはりQP.• は ハイパーパラメータ.ユーザが決定する必要がある.

35

マージン最大化線形識別器 (ソフトマージン)

min, , ∑ subj. to 1 ∀ ,

0.

Page 36: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

36

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

8 1

1

Page 37: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

SVMのカーネル化

線形SVMのカーネル化– , , … , , :訓練データ

• : 集合 の元.(任意の型,ベクトルでなくてもよい)• ∈ 1, 1 : 2値

– : 上の正定値カーネル. : の定めるRKHS.– Φ ⋅, : 特徴ベクトル.

– 特徴空間上の線形識別器:

sgn , Φ

37

)sgn()( bxwxf T c.f.

Page 38: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– SVMの目的関数

min, ,

∑ subj. to 1

0.

– Representer定理(後述)

最適な は以下の形で探せば十分

⋅,

Note: ∑ , , ∑ , .

38

Page 39: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

SVM (カーネル版)

– 最適化はやはりQP.– 双対問題のほうが容易に解ける(Chap. 5).– ハイパーパラメータ とカーネルのパラメータは,cross-validationで

選択する場合が多い.

39

min, , ∑ , ∑

subj. to ∑ , 1 0.

Page 40: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

SVMと正則化– ソフトマージンSVM は次の正則化問題と同値 ( 1/ ):

min,

1

where max , 0 .

40

z0

max(z,0)

Page 41: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– 証明

SVMの最適化問題

min, ∑ subj. to 1 ,

0.⟺

min, ∑ subj. to max 1 , 0 .

min, ∑ 1

min ∑ 1 ( 1/ )

41

Page 42: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

正則化– 不良設定問題:

min

が広い関数クラスから選ばれると

多くの が誤差0を与える,

– 正則化

min

解が一意になる.

滑らかな関数のノルムが小さくなるように正則化することが多い.

42

Page 43: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

SVMのデモ

多くのソフトウエアが公開されている.

LibSVM etc

– JavaScriptの例

http://mine-weblog.blogspot.jp/2012/09/svm-demo.html

43

Page 44: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

応用: 手書き数字認識– MNIST: 手書き数字データベース

• 28 x 28 ピクセルの2値画像.• 60000 訓練データ

• 10000 テストデータ

44

Methods Error ratesK-NN 5.010PCA + Quad 3.3RBF network 3.6LeNet 4 1.1LeNet 5 0.95SVM Poly 4 1.1RS-SVM Poly 5 1.0

Y. LeCun et al. (2001) in Intelligent Signal Processing.

Page 45: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

交差検証法Cross-validation– クロスバリデーション (CV): 未知データに対する識別/予測の誤差

を推定する手法.

– K-fold CV• データを(ランダムに) 個に分割する.

• For 1, … ,– 第 グループをテストデータに残し,他のデータで学習.

– 第 グループに対するテスト誤差を測る.

• 個の誤差を平均.

– Leave-one-out CV (LOOCV)• . 1, … , に対し,第 データ以外で学習し,第 データに対する誤差を測る.

• 個の誤差を平均.

45

Page 46: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

46

Page 47: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

SVMのまとめ

マージン最大化ベイズ最適ではないが, 他のよい点を持っている.

カーネル法非線形識別器への発展が容易.

2次計画:最適化問題は標準的なQP. ソフトウエアパッケージが利用可.

スパース表現:識別器は,少数のサポートベクターにより表現される(Chap.4で説明)

正則化ソフトマージンSVMの目的関数は正則化として表現できる.

47

Page 48: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

Representer定理

48

Page 49: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

Representer定理– カーネル法での最適化問題

• カーネルリッジ回帰

min∈

• SVM

min∈

∑ 1

• カーネルPCA

min∈

∑ ∑ Ω

– 解は

∑ ⋅,の形をとることをすでに見た。

49

Ω 0, if ∈ 0,1∞, if 1

Page 50: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

一般的定式化– , … , ⊂ Ω ; , … , ⊂ Ω : データ

– : Ω 上の正定値カーネル, : の定めるRKHS– , … , : 固定の関数(定数部分など)

– Ψ : 0,∞ → ∪ ∞ : 正則化のための単調増加関数

一般的最適化問題

min∈ , ∈

∑ ; , Ψ

定理2.1 (Representer 定理)

上の仮定のもと,最小化問題の解は

∑ ⋅,の形で十分である.さらに Ψが狭義の増加関数の場合,この形に限られる.

Representer定理により,関数空間での最適化が有限次元(データ数)の最適化に還元される. 50

Page 51: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– 証明

: Span ⋅, , … , ⋅, , をその直交補空間として,

と直交分解する.この分解にしたがって, ∈ を

と分解すると, , ⋅, 0 により,目的関数 の値は を

に置き換えても変化しない.

一方, より,

Ψ Ψが成り立つ.

したがって, の元によって解が与えられる.

51

Page 52: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネルの選択– カーネル法の結果の良否は,用いるカーネルに強く依存する.

• カーネルの選択: ガウス,ラプラス,多項式?

• パラメータの選択: e.g. exp のバンド幅

– 問題の性質に適したカーネルを用いる

周波数特性,構造化データ,etc

– 教師あり学習 (SVM, カーネルリッジ回帰, etc)• Cross-validationが有効 (計算量が許せば)

– 教師なし学習 (カーネルPCAなど)

• 標準的方法はない.

• 関連する教師あり学習を作成すれば,cross-validationが使える.

52

Page 53: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

– カーネルの学習

• Multiple Kernel Learning 複数のカーネルの凸結合(線形結合)を考え,その係数も最適化する

, , ⋯ ,

53

Page 54: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

まとめ

54

Page 55: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

カーネル法の一般的性質– 効率的計算による非線形特徴の抽出

元の空間が高次元でも,計算量が増大しない特別な特徴写像を用いる

– カーネルトリック

正定値カーネルを特徴写像に用いることより,特徴ベクトルの内積が容易に計算できる.

– Representer定理

殆どのカーネル法は,解が特徴ベクトルの線形和の形で表現可能.従って,データ数の個数のパラメータ最適化問題に変換される.

– グラム行列による計算

カーネルトリックとRepresenter定理により,必要な計算はグラム行列の処理に還元される.従って,データ数に依存する計算量となる.

– 非ベクトルデータ

カーネル法は,正定値カーネルが定義されれば,任意の集合に対して適用できる.構造化データ解析(Chap. 5) 55

Page 56: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

その他のカーネル法– カーネルK-means クラスタリング

特徴空間でK-meansクラスタリングを行う.

– カーネル Partial Least Square非線形回帰であるPLSのカーネル化

– カーネルロジスティック回帰

ロジスティック回帰のカーネル化

– サポートベクター回帰

回帰問題へのSVMの拡張

– 1-クラスサポートベクターマシン

密度関数のレベル集合の推定へのSVMの拡張

etc. 56

Page 57: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

References福水 「カーネル法入門」 3章 朝倉書店 2010Schölkopf, B., A. Smola, and K-R. Müller. (1998) Nonlinear component analysis as a

kernel eigenvalue problem. Neural Computation, 10:1299–1319.Akaho. (2000) Kernel Canonical Correlation Analysis. Proc. 3rd Workshop on Induction-

based Information Sciences (IBIS2000). (in Japanese)Bach, F.R. and M.I. Jordan. (2002) Kernel independent component analysis. Journal of

Machine Learning Research, 3:1–48.Melzer, T., M. Reiter, and H. Bischof. (2001) Nonlinear feature extraction using

generalized canonical correlation analysis. Proc. Intern. Conf. .Artificial Neural Networks (ICANN 2001), 353–360.

Fukumizu, K., F. R. Bach and A. Gretton (2007). Statistical Consistency of Kernel Canonical Correlation Analysis. Journal of Machine Learning Research 8, 361-383.

Hardoon, D.R., S. Szedmak, and J. Shawe-Taylor. (2004) Canonical correlation analysis: An overview with application to learning methods. Neural Computation, 16:2639–2664.

Fan, J. and I. Gijbels. Local Polynomial Modelling and Its Applications. Chapman Hall/CRC, 1996.

57

Page 58: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

Boser, B.E., I.M. Guyon, and V.N. Vapnik. A training algorithm for optimal margin classifiers. In D. Haussler, editor, Fifth Annual ACM Workshop on Computational Learning Theory, pages 144–152, Pittsburgh, PA, 1992. ACM Press.

Boser, B.E., I.M. Guyon, and V.N. Vapnik. A training algorithm for optimal margin classifiers. In D. Haussler, editor, Fifth Annual ACM Workshop on Computational Learning Theory, pages 144–152, Pittsburgh, PA, 1992. ACM Press.

Vapnik, V.N. The Nature of Statistical Learning Theory. Springer 1995.Cristianini, N., J. Shawe-Taylor. An Introduction to Support Vector Machines.

Cambridge Univ. Press. 2000

Dhillon, I. S., Y. Guan, and B. Kulis. (2004) Kernel k-means, spectral clustering and normalized cuts. Proc. 10th ACM SIGKDD Intern. Conf. Knowledge Discovery and Data Mining (KDD), 551–556.

Mika, S., G. Rätsch, J. Weston, B. Schölkopf, and K.-R. Müller. (1999) Fisher discriminant analysis with kernels. In Y.-H. Hu, J. Larsen, E. Wilson, and S. Douglas, edits, Neural Networks for Signal Processing, volume IX, 41–48. IEEE.

Rosipal, R. and L.J. Trejo. (2001) Kernel partial least squares regression in reproducing kernel Hilbert space. Journal of Machine Learning Research, 2: 97–123.

58

Page 59: カーネル法入門 - ism.ac.jpfukumizu/OsakaU2014/OsakaU_2methods.pdf · カーネル正準相関分析 – カーネルCCA (Akaho 2000, Melzer et al. 2002, Bach et al 2002) •

Roth, V. (2001) Probabilistic discriminative kernel classifiers for multi-class problems. In Pattern Recognition: Proc. 23rd DAGM Symposium, 246–253. Springer.

Crammer, K. and Y. Singer. On the algorithmic implementation of multiclass kernel-based vector machines. Journal of Machine Learning Research, 2:265–292, 2001.

Schölkopf, B., J.C. Platt, J. Shawe-Taylor, R.C. Williamson, and A.J.Smola. (2001) Estimating the support of a high-dimensional distribution. Neural Computation, 13(7):1443–1471.

59