21
FRaC: A Feature-Modeling Appraoch for Semi-Supervised and Unsupervised Anomaly Detection. Anomaly Detection Using an Ensemble of Feature Models. FRaC: F eature R egression a nd C lassification 20130318 Statistical Method Journal

20130318 統計手法勉強会 外れ値検出 FRaC

  • Upload
    medku

  • View
    449

  • Download
    5

Embed Size (px)

Citation preview

Page 1: 20130318 統計手法勉強会 外れ値検出 FRaC

FRaC: A Feature-Modeling Appraoch for Semi-Supervised and Unsupervised Anomaly Detection.Anomaly Detection Using an Ensemble of Feature Models.

FRaC: Feature Regression and Classification

20130318

Statistical Method Journal

Page 2: 20130318 統計手法勉強会 外れ値検出 FRaC

Result

UCI machine learning repositoryRにも数多く収録されているデータセットの図書館 irisR has many data set from this library such as data(iris).

FRaCを用いた学習が一番いい性能である場合が多かった。The number of the situations where FRaC was the best performance method.

Page 3: 20130318 統計手法勉強会 外れ値検出 FRaC

機械学習 Machine learning

手元のデータ(訓練データ)からパターンを抽出し、新たなデータ(テストデータ)の回帰・分類をすること。

To extract patterns from existed data (train) and perform regression or classification of new data (test).

Page 4: 20130318 統計手法勉強会 外れ値検出 FRaC

教師 (あり / 半あり / なし) 学習Supervised / Semi-supervised / Unsupervised ML

教師あり学習 Supervised ML真偽のラベルがわかるtrainで学習するLearning from train data whose labels T/F are known.

半教師あり学習 Semi-supervised ML真偽の片方のラベルだけがあるtrainで学習するLearning from train data whose labels are either only T/F.

教師なし学習 Unsupervised ML真偽のラベルがわからないtrainで学習するLearning from train data whose labels T/F are unknown.

Anomaly detection

Page 5: 20130318 統計手法勉強会 外れ値検出 FRaC

手法 algorithm

距離 distance-basedSVM Support Vector MachineK-nearest neighborK-means clustering

密度 density-basedLOF Local Outlier Factor

他 etcPCA Principal Component AnalysisDecision tree Random Forest

特徴 feature model approachCFA Cross-Feature AnalysisFRaC Feature Regression and Classification

オススメ!! Recommend!!

Page 6: 20130318 統計手法勉強会 外れ値検出 FRaC

Example data set

n Dimension vector → one anomaly score[1,] 69.613 129.070 52.111 → a1[2,] 70.670 128.161 52.446 → a2[3,] 72.303 128.450 52.853 → a3…

Page 7: 20130318 統計手法勉強会 外れ値検出 FRaC

SVM Support Vector Machine

超平面を引き、各点との距離を最大化する。

Make hyperplane to maximize distance from each data point.

Page 8: 20130318 統計手法勉強会 外れ値検出 FRaC

SVM Support Vector Machine

kernlab, e1071

教師なし学習なら、超平面をひいたときに最も離れている点をスコア化する(と思う)。

On unsupervised ML, we quantify the distance from the hyperplane as anomaly score.

Page 9: 20130318 統計手法勉強会 外れ値検出 FRaC

SVM classification

何も考えずに分類したとするとこうなる。たぶん半分がT/Fと勝手に設定されている。

If we classify the test data as default settings, result is like this. The half of data are T/F.

Kernel? Tuning?

Page 10: 20130318 統計手法勉強会 外れ値検出 FRaC

K-nearest neighbor

FNN

ある点に近いk個の点との距離を考える。

Compute the distance from k points around a certain point.

Page 11: 20130318 統計手法勉強会 外れ値検出 FRaC

K-means clustering

kmeans

K個のクラスターを作る。似ているものを集めるので、厳密には外れ値検出ではない。

Make k clusters. Clustering is a method gathering looking-same samples. This is not anomaly detection.

Page 12: 20130318 統計手法勉強会 外れ値検出 FRaC

主成分分析 PCA Principal Component Analysis

prcomp

もとの変数を相関のない別の変数にする手続き。

an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of linearly uncorrelated variables.

Page 13: 20130318 統計手法勉強会 外れ値検出 FRaC

決定木 decision tree

分岐した図。

maps observations about an item to conclusions about the item's target value.

Page 14: 20130318 統計手法勉強会 外れ値検出 FRaC

Random Forest

randomForest

決定木をたくさん作る分類器

A classifier to make many decision trees.

Page 15: 20130318 統計手法勉強会 外れ値検出 FRaC

LOF Local Outlier Factor

Rlof

ある点のまわりMinPts個の点の密度を計算する。

Compute the density of MinPts points around a certain point.

MinPts = 3

Page 16: 20130318 統計手法勉強会 外れ値検出 FRaC

LOF Local Outlier Factor

MinPts = 3

1 付近は同一集団Nomal data are around 1.

Anomaly scoreが大きいと外れ値しかし閾値はわからないAnomal data has large anomaly score but threshold is unknown.

Page 17: 20130318 統計手法勉強会 外れ値検出 FRaC

Feature model approach

色々な外れ値検出法から算出されるanomaly scoreを利用する(?)

Combine many anomaly scores computed from other anomaly detection analysis (?).

CFA Cross-Feature Analysis (?)

FRaC Feature Regression and Classification

Page 18: 20130318 統計手法勉強会 外れ値検出 FRaC

n Dimension vector → one anomaly score[1,] 69.613 129.070 52.111 → a1[2,] 70.670 128.161 52.446 → a2[3,] 72.303 128.450 52.853 → a3…

尺度でも連続値でもいいNominal or continuous

i 番目を他のデータで予測するPrdict ith data from the others

p番目の予測モデルでの特徴(?) predictor of type

実データと予測との誤差 The total error of a test set

Page 19: 20130318 統計手法勉強会 外れ値検出 FRaC

nominal

continuous

Anomaly score

Page 20: 20130318 統計手法勉強会 外れ値検出 FRaC

FRaC

色々な手法をパクるのが一番精度がいい(黒)

Decision tree, SVM, decision stump

Page 21: 20130318 統計手法勉強会 外れ値検出 FRaC

SVM

LOF

KNN