20140329 tokyo r lt 「カーネルとsvm」

Preview:

Citation preview

2014年3月29日Tokyo.R LT

「カーネルとSVM」@tetsuroito

2014年3月29日土曜日

自己紹介名前           バックボーン伊藤 徹郎       経済・ファイナンスtwitter ID R歴@tetsuroito 2年くらい

所属株式会社ALBERT データ分析部最近辛いこと色々な納期

2014年3月29日土曜日

なんで今更SVM?

・数年前まで機械学習の花形を謳歌してた

・ランダムフォレストの出現により影が薄く

・Deeplearningに由来するニューラルネットワーク 復権により、さらに影が薄く

2014年3月29日土曜日

SVMはこんな状態?from ターミネーター2 ラストシーンより

そんなSVMに今一度、光を当てたいと思った!2014年3月29日土曜日

本日のLTメニュー

1、カーネル法について

2、SVM(サポートベクターマシーン)

2014年3月29日土曜日

カーネル法?

このおじさんではありません

2014年3月29日土曜日

カーネル法

ムーアの法則よろしく、多種多様なデータの蓄積が可能となった現代

多くの特徴量を持たせた複雑で高次元データを解析したいニーズが増大

複雑なデータA,Bという集合があった時、それらの間の関係をk(A,B)という実数値関数によって要約し、すべてを数値の世界に落とし込んで処理する 法。

2014年3月29日土曜日

例えば

上記のような分類問題は図の黒線のような境界を求める線形判別問題

2014年3月29日土曜日

線形判別問題の限界

線形判別問題では上記の問題は解けません2014年3月29日土曜日

カーネルで高次元に飛ばす

2次元→3次元に飛ばすことで線形判別が可能に2014年3月29日土曜日

カーネルの種類

線形カーネル

多項式カーネル※lは実数、pは自然数

RBFカーネル(ガウシアンカーネル)

シグモイドカーネル

2014年3月29日土曜日

SVMとは?教師あり学習を用いる識別手法の1つパターン認識や回帰分析に適用できる

機械学習の中で精度が高かった‥

アルゴリズム自体はシンプルだが、ブラックボックスと言われていることも‥

けっこう計算量が多い(次元の呪い)

2014年3月29日土曜日

SVMとは?t = +1

t = -1

ある2クラスのデータ

これを識別する境界を求めたい

上記の場合だと、色々な境界線を引く事ができちゃう

2014年3月29日土曜日

SVMとは?

識別境界

マージン

t = +1

t = -1

識別境界から再近傍サンプルまでのマージン(距離)を最大化させるような識別境界を求める

2014年3月29日土曜日

RでカーネルSVMをやるkernlabパッケージ内のksvm関数を使用

ksvm(formula,data,kernel=”rbfdot”,kpar=list(sigma=0.1)type=,cross=2)

Formula:式の設定

data:対象データ

kernel:カーネルの指定

(デフォルトはガウシアン:rbfdot)

kpar:カーネルのパラメータ

type:分類と回帰の指定

cross:クロスバリデーション

2014年3月29日土曜日

こんな感じのアウトプットlibrary(MASS)のPima.trというデータセットの分類

過学習に注意してパラメータチュー二ング!2014年3月29日土曜日

SVM

2014年3月29日土曜日

おわり!

ご清聴ありがとうございました

2014年3月29日土曜日

Recommended