Upload
naotaka-yamada
View
2.164
Download
2
Embed Size (px)
DESCRIPTION
高次元での外れ値検出は、次元の呪いにより距離ベースでの手法では性能が悪化する。 これに替わる手法としてAngle-Based Outlier Detectionがある。 今回の紹介論文ではこの手法の高速な近似解を与えるアルゴリズムを提案している。
Citation preview
A Near-linear Time Approximation for Angle-based Outlier Detection in High-dimensional Data [KDD’12]
by N. Pham & R. Pagh Univ. of Copenhagen
発表者:数理情報学専攻 修士2年 山田直敬1
発表の流れ
1. Outlier Detection in High-dimensional data
2. Angle-based Outlier Detection (ABOD)
3. A Near Linear Time Approximation for ABOD
- 高次元では次元の呪いによる性能悪化が発生する
- 距離や密度による手法よりも高次元でロバストな手法
- ABOD の計算量は O(dn3). 近似でこれを大幅に高速化 本論文の contribution
2
1. Outlier Detection in High dimensional data
3
次元の呪い図:次元数増加に伴う距離の同質化 [2]
横軸 : マハラノビス距離の値縦軸:観測頻度
次元数 : 順に2, 4,20, 50
・高次元化が進むと,距離の近接性が意味を成さなくなる .・実際 となる . [1]
・データは非常にスパース . ほとんどの点が外れ値になる . 4
高次元データに対する外れ値検出手法図 : 外れ値検知の代表的な手法 ( 出典 : 第一回授業の配布資料 )
● 次元の呪いにより , 距離や k- 近傍を用いる手法は性能悪化● 次元についてスケールしない計算を含む ( 凸包 , LOF etc...)
→ 次元の呪い & 計算の非効率化 を回避する手法が必要 アプローチ:ロバストな距離関数を定義 or 射影 5
2.Angle-based Outlier Detection
6
Angle-Based Outlier Detection
by Kriegel+ ’08 [1]
発想・角度は高次元においてマハラノビス距離よりもロバスト e.g. コサイン類似度は文書に対しても良く用いられる .
・外れ値では他の二点間との角度がどれも似ている
出典 : [3]
図 : 外れ値、正常値、境界点での角度の分布
縦軸 : 角度 (rad)
Outlier Factor を角度の分散としてモデル化7
Angle-Based Outlier Detection(cont.)
・角度の分散を outlier factor としてモデル化する .
・点 p においては
と書ける .
・ ABOD 値が小さければ外れ値として検出する .
*
・一点の ABOD を求めるために nC2 回角度を評価している .
8
ABOD vs. LOF (Local Outlier Factor)・人工データによる実験 . 5 つの混合ガウス +10 個の outlier
・ precision recall ともに ABOD が上回る .
出典 : [1]9
ABOD の欠点・全ての点で ABOD を求めるための計算量は O(dn3).
・データ数 n の増加に対してスケールしない .
出典 : [1] より見やすく編集10
3.A Near Linear Approximation forAngle-based Outlier Detection[main part]
11
概要
• ABOD の高速化 .• 角度の分散を直接計算するかわりに不偏推定量
で評価する . – 不偏推定量 : 期待値が真の値と一致するような統
計量– 今回の設定では推定量の分散も小さいことが示さ
れた .
• random projection, AMS sketch を利用 .• 並列化も容易 . 計算量は” near linear”– O(tn(d + log n + s1s2))
– t : random proj. の回数 , s : sketch の回数 12
Angle-based Outlier Factor・先程同様 , 点 p での角度を分散を外れ値のスコアに用いる .
定義 : Given: d 次元 Euclid 空間上の点集合 S (|S |=n ) と点 p ∈S.異なる適当な 2 点 a,b ∈ S \{p } に対して , ベクトル a-p, b-p がなす角を Oapb とする . このとき Oapb の分散をスコアとする .
但し ,
mean of angle
である .
13
用いる手法
• Random Hyperplane Projection–ランダムな超平面でデータを2分割する .–MOA1 の不偏推定量を求める .
• AMS Sketch–モーメント統計量の近似を行う .–MOA2 を近似する
14
Random Hyperplane Projection 1/2
・ t 個のランダムベクトル をとる .
・これらの各成分は独立に標準正規分布 に従う .
・それぞれの ri を法線に持つ超平面でデータを分割する .
ri
p
15
Random Hyperplane Projection 1/2
・ t 個のランダムベクトル をとる .
・これらの各成分は独立に標準正規分布 に従う .
・それぞれの ri を法線に持つ超平面でデータを分割する .
ri
p
16
Random Hyperplane Projection 1/2
・ t 個のランダムベクトル をとる .
・これらの各成分は独立に標準正規分布 に従う .
・それぞれの ri を法線に持つ超平面にデータを分割する
ri
p
a
b
17
この状況で角度を考えてみる
Random Hyperplane Projection 2/2
ri
p
a
b
・各 i =1,...,t で ランダムベクトル ri , 適当な二点 a,b について確率変数 Xapb
(i) を次のように定義する .
・ X が 1 となるのは
かつ
a-p, b-p が超平面で分離されているとき のみ
・それが起こる確率は , 任意の i,a,b,p に対して
=18
AMS Sketch 1/2
・高次元ベクトルとランダムビットの内積 (Sketch) は 2次のモーメント統計量を近似する性質を持つ .
・高次元ベクトル w = ( ) に対して
各座標で独立 * なランダムビットベクトル
を取り内積を取ったもの を
AMS Sketch という .
・ とすると
ここで、 が成り立つ
.
19
AMS Sketch 2/2
・ベクトルの外積 uv に対する Sketch も次のように与えられる .
2 つのランダムビット を用いて
とする . すなわち , u,v のそれぞれの AMS スケッチの外積が外積 uv のスケッチである .
・ とすると :フロベニウスノルム 2
このとき が成立 .
20
ABOD の近似・ Random Hyperplane Projection における関係
= を利用 .
・ の推定量 F1 は ,
Lp 超平面の下 (左 )側の点Rp 超平面の上 (右 )側の点
超平面を跨ぐ回数
21
ABOD の近似
ri
p
a
b・ |Lp||Rp| は超平面を跨ぐ回数
・ t 回の平均をとることでより精度が高まる .
・ F1(p) は MOA1(p) の不偏推定量・しかも分散も小さいことが示されている . (Chernoff bound)
・ L,R は sort で得る . F1 を求める計算量は O(t n (d+log n) )22
ABOD の近似
・ MOA 2の不偏推定量 F2 を求める .
詳細はフクザツなので割愛
・分散が 3/4 と F1 のように小さくはない → 何度か繰り返して平均をとることで精度を上げる .
・任意の精度 ε> 0 を高確率 1-δ で達成するためには s1= 32π4/ε2 , s2 = O(log(1/δ)) として s1s2 回 F2 を計算する必要がある .
・ AMS は O(n). ここの計算量は O( tn s1s2 ) 23
ABOD の近似 擬似コード
・計算量 O( tn(d + log n + s1s2)) 特に O( t n s1s2 ) が支配的・ t =O(log n) で十分 . t 回の projection は独立 . 並列化可能 .
・ s1s2 も精度次第→ 並列化込みで near linear を実現 !
24
人工データによる実験
1000
5000
※ABOD の実験と同じ人工データ25
実データによる実験
・どれも 100 次元程度・緑の FastVOA が提案手法 , 青 , 赤がナイーブな解
・ ABOD で PR が良いデータで FastVOA で劣化・ ABOD がダメなデータにはそこそこの性能
26
実データによる実験
・ CPU time ではかなり高速化を実現している (t=100)27
まとめ 感想
・高次元において距離ベースでの外れ値検出が困難である という問題へのアプローチ・比較的ロバストな Angle-based Outlier detection に注目 計算量を near linear に改善・手法がクール ( random projection, AMS sketch)・不偏推定量を使っている . & 精度の保証が理論的に示されていて良い .
・実験結果 precision-recall はいまひとつ…・必要な精度を決めるノウハウが別途必要そう (ε,δ) etc...
28
References [ 年代順 ]
1. H.P. Kriegel, M.Schubert, & A. Zimek. Angle-based outlier detection in high-dimensional data. In KDD 2008.
2. H.P. Kriegel, M. Schubert, & A. Zimek. Outlier detection techniques. In tutorial at KDD 2010.
3. N. Pham & R. Pagh. A Near-linear Time Approximation Algorithm for Angle-based Outlier Detection in High-dimensional Data. In KDD 2012.
29