Angle-Based Outlier Detection周辺の論文紹介

A Near-linear Time Approximation for Angle-based Outlier Detection in High-dimensional Data [KDD’12]

by N. Pham & R. Pagh Univ. of Copenhagen

発表者：数理情報学専攻修士２年山田直敬1

発表の流れ

1. Outlier Detection in High-dimensional data

2. Angle-based Outlier Detection (ABOD)

3. A Near Linear Time Approximation for ABOD

- 高次元では次元の呪いによる性能悪化が発生する

- 距離や密度による手法よりも高次元でロバストな手法

- ABOD の計算量は O(dn3). 近似でこれを大幅に高速化本論文の contribution

2

1. Outlier Detection in High dimensional data

3

次元の呪い図：次元数増加に伴う距離の同質化 [2]

横軸 : マハラノビス距離の値縦軸：観測頻度

次元数 : 順に2, 4,20, 50

・高次元化が進むと，距離の近接性が意味を成さなくなる .・実際となる . [1]

・データは非常にスパース . ほとんどの点が外れ値になる . 4

高次元データに対する外れ値検出手法図 : 外れ値検知の代表的な手法 ( 出典 : 第一回授業の配布資料 )

● 次元の呪いにより , 距離や k- 近傍を用いる手法は性能悪化● 次元についてスケールしない計算を含む ( 凸包 , LOF etc...)

→ 次元の呪い＆計算の非効率化を回避する手法が必要アプローチ：ロバストな距離関数を定義 or 射影 5

2.Angle-based Outlier Detection

6

Angle-Based Outlier Detection

by Kriegel+ ’08 [1]

発想・角度は高次元においてマハラノビス距離よりもロバスト e.g. コサイン類似度は文書に対しても良く用いられる .

・外れ値では他の二点間との角度がどれも似ている

出典 : [3]

図 : 外れ値、正常値、境界点での角度の分布

縦軸 : 角度 (rad)

Outlier Factor を角度の分散としてモデル化7

Angle-Based Outlier Detection(cont.)

・角度の分散を outlier factor としてモデル化する .

・点 p においては

と書ける .

・ ABOD 値が小さければ外れ値として検出する .

*

・一点の ABOD を求めるために nC2 回角度を評価している .

8

ABOD vs. LOF (Local Outlier Factor)・人工データによる実験 . 5 つの混合ガウス +10 個の outlier

・ precision recall ともに ABOD が上回る .

出典 : [1]9

ABOD の欠点・全ての点で ABOD を求めるための計算量は O(dn3).

・データ数 n の増加に対してスケールしない .

出典 : [1] より見やすく編集10

3.A Near Linear Approximation forAngle-based Outlier Detection[main part]

11

概要

• ABOD の高速化 .• 角度の分散を直接計算するかわりに不偏推定量

で評価する . – 不偏推定量 : 期待値が真の値と一致するような統

計量– 今回の設定では推定量の分散も小さいことが示さ

れた .

• random projection, AMS sketch を利用 .• 並列化も容易 . 計算量は” near linear”– O(tn(d + log n + s1s2))

– t : random proj. の回数 , s : sketch の回数 12

Angle-based Outlier Factor・先程同様 , 点 p での角度を分散を外れ値のスコアに用いる .

定義 : Given: d 次元 Euclid 空間上の点集合 S (|S |=n ) と点 p ∈S.異なる適当な 2 点 a,b ∈ S \{p } に対して , ベクトル a-p, b-p がなす角を Oapb とする . このとき Oapb の分散をスコアとする .

但し ,

mean of angle

である .

13

用いる手法

• Random Hyperplane Projection–ランダムな超平面でデータを２分割する .–MOA1 の不偏推定量を求める .

• AMS Sketch–モーメント統計量の近似を行う .–MOA2 を近似する

14

Random Hyperplane Projection 1/2

・ t 個のランダムベクトルをとる .

・これらの各成分は独立に標準正規分布に従う .

・それぞれの ri を法線に持つ超平面でデータを分割する .

ri

p

15




・それぞれの ri を法線に持つ超平面でデータを分割する .

ri

p

16




・それぞれの ri を法線に持つ超平面にデータを分割する

ri

p

a

b

17

この状況で角度を考えてみる


ri

p

a

b

・各 i =1,...,t でランダムベクトル ri , 適当な二点 a,b について確率変数 Xapb

(i) を次のように定義する .

・ X が 1 となるのは

かつ

a-p, b-p が超平面で分離されているときのみ

・それが起こる確率は , 任意の i,a,b,p に対して

＝18

AMS Sketch 1/2

・高次元ベクトルとランダムビットの内積 (Sketch) は２次のモーメント統計量を近似する性質を持つ .

・高次元ベクトル w = ( ) に対して

各座標で独立 * なランダムビットベクトル

を取り内積を取ったものを

AMS Sketch という .

・とすると

ここで、が成り立つ

.

19

AMS Sketch 2/2

・ベクトルの外積 uv に対する Sketch も次のように与えられる .

2 つのランダムビットを用いて

とする . すなわち , u,v のそれぞれの AMS スケッチの外積が外積 uv のスケッチである .

・とすると :フロベニウスノルム 2

このときが成立 .

20

ABOD の近似・ Random Hyperplane Projection における関係

＝を利用 .

・の推定量 F1 は ,

Lp 超平面の下 (左 )側の点Rp 超平面の上 (右 )側の点

超平面を跨ぐ回数

21

ABOD の近似

ri

p

a

b・ |Lp||Rp| は超平面を跨ぐ回数

・ t 回の平均をとることでより精度が高まる .

・ F1(p) は MOA1(p) の不偏推定量・しかも分散も小さいことが示されている . (Chernoff bound)

・ L,R は sort で得る . F1 を求める計算量は O(t n (d+log n) )22

ABOD の近似

・ MOA ２の不偏推定量 F2 を求める .

詳細はフクザツなので割愛

・分散が 3/4 と F1 のように小さくはない → 何度か繰り返して平均をとることで精度を上げる .

・任意の精度 ε> 0 を高確率 1-δ で達成するためには s1= 32π4/ε2 , s2 = O(log(1/δ)) として s1s2 回 F2 を計算する必要がある .

・ AMS は O(n). ここの計算量は O( tn s1s2 ) 23

ABOD の近似擬似コード

・計算量 O( tn(d + log n + s1s2)) 特に O( t n s1s2 ) が支配的・ t =O(log n) で十分 . t 回の projection は独立 . 並列化可能 .

・ s1s2 も精度次第→ 並列化込みで near linear を実現 !

24

人工データによる実験

1000

5000

※ABOD の実験と同じ人工データ25

実データによる実験

・どれも 100 次元程度・緑の FastVOA が提案手法 , 青 , 赤がナイーブな解

・ ABOD で PR が良いデータで FastVOA で劣化・ ABOD がダメなデータにはそこそこの性能

26

実データによる実験

・ CPU time ではかなり高速化を実現している (t=100)27

まとめ感想

・高次元において距離ベースでの外れ値検出が困難であるという問題へのアプローチ・比較的ロバストな Angle-based Outlier detection に注目計算量を near linear に改善・手法がクール ( random projection, AMS sketch)・不偏推定量を使っている . & 精度の保証が理論的に示されていて良い .

・実験結果 precision-recall はいまひとつ…・必要な精度を決めるノウハウが別途必要そう (ε,δ) etc...

28

References [ 年代順 ]

1. H.P. Kriegel, M.Schubert, & A. Zimek. Angle-based outlier detection in high-dimensional data. In KDD 2008.

2. H.P. Kriegel, M. Schubert, & A. Zimek. Outlier detection techniques. In tutorial at KDD 2010.

3. N. Pham & R. Pagh. A Near-linear Time Approximation Algorithm for Angle-based Outlier Detection in High-dimensional Data. In KDD 2012.

29

Technology

Angle-Based Outlier Detection周辺の論文紹介