8
DEIM Forum 2018 F6-4 1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 西川武一郎 株式会社東芝 研究開発センター システム技術ラボラトリー 212-8582 川崎市幸区小向東芝町 1 E-mail: [email protected] あらまし IoTの活用に向けて,時系列データにおけるクラス分類の研究が進められている.特に近年,分類器を 学習しながら shapelets と呼ばれる分類に有効な波形パターンを同時に発見する方法が研究され,分類性能が良く説明 性もある方法として注目を集めている.しかし,従来方法では各クラスのサンプルが学習時に必要となり,正常デー タに比べて異常データが少ない異常検知など,学習時に少数派クラスのサンプルを殆ど収集できない場合に性能が低 下する.本研究では,多数派クラスのサンプルのみを学習に用いて1クラス分類器とその shapelets を学習する方法 を提案する.提案方法では,1クラスサポートベクトルマシンに基づく非線形な分類器と shapelets の形状を同時に 勾配法により効率的に学習する.実験評価により,説明性と偏りのあるクラス分類への有効性を確認した. キーワード 時系列データ,Shapelet,1クラスサポートベクトルマシン 1. はじめに 医療や災害などで IoT の活用が求められており,時系列デー タを機械学習により分類するクラス分類の研究が進められてい る.特に,分類器を学習することで分類に有効な波形パターン である時系列 shapelet(以下 shapelet)を発見する研究に注目 が集まっている [1, 2].これらの方法は,分類に有効な特徴は 時系列全体ではなく少数の部分時系列に表れるというアイデア に基づき,時系列全体を近似する代わりに shapelets を発見す る.学習時に分類器と shapelets を生成することで,テスト時 にはそれらを用いてクラスを素早く予測できる.近年,説明性 があるとともに高い分類性能を達成している [2, 3, 4]Shapelets に基づくクラス分類の研究は,時系列セットを構 成する部分時系列をランキングしクラス分類に有効な部分時 系列を shapelets として繰り返し抽出するという探索ベースの 方法から始まった [1].これらの方法では学習にかかる計算量 が大きい.また,時系列データにノイズがのっているとノイズ がのった shapelets がそのまま発見されてしまう.近年,探索 ベースの問題を克服するため shapelets を学習する方法が提案 された [2].この学習ベースの方法では,大まかに生成された初 shapelets から勾配法を用いて分類器と同時に shapelets 形状を学習する.これにより,学習時の計算量を削減するとと もに分類性能も向上する.また,時系列データのノイズにロバ ストな shapelets を学習できる [3]一方,クラス間のサンプル数に偏りがある場合への対応が産 業や学術におけるクラス分類の重要な課題の 1 つになっている [5, 6].例えば,異常検知では異常の発生は稀であるがそれを見 逃さないことが要求される.また,学習時に発生している既知 の異常ではなく学習時にはなかった未知の異常を検知すること が重要な課題である.このような偏りのあるクラス分類に対応 するアプローチとして,多数派クラスと少数派クラスの両方の サンプルを用いるのではなく,多数派クラスのサンプルのみか ら分類器を学習する 1 クラス分類があり,1 クラスサポートベ 学習時の時系列データ テスト時の時系列データ 未知の部分時系列 1 従来方法:Shapelets とのベストマッチによるアプローチ クトルマシン(1 クラス SVM)がその代表的な方法として知 られている [7]しかしながら,shapelets の従来方法ではこのような課題 を考慮しておらずそれを扱うことは難しい.従来方法では, shapelets が時系列データと最も類似(マッチ)する箇所の距 離を用いて特徴ベクトルを計算するが,このようなベストマッ チなアプローチは分類に有効な部分時系列が学習時に得られな い場合には適さない.これを図 1 の例を用いて説明する.多数 派クラスの各サンプルは水平線と上に凸な曲線の 2 つの部分時 系列からなる時系列データである.多数派クラスにはない赤枠 で囲ったような未知の部分時系列を含むサンプルが,少数派ク ラスからテスト時に初めて観測されたとする.この場合,ベス トマッチなアプローチでは shapelets が赤枠の部分にマッチン グしない.その結果,その違いは特徴ベクトルに反映されず無 視されてしまう. 異常検知の例では,異常な時系列データには正常な時系列 データには見られない部分時系列の組み合わせが現れると考え られる.異常を表す部分時系列が学習時には得られずテスト時 に初めて得られた場合,従来方法のベストマッチなアプローチ では,図 1 の例と同様に shapelets がその部分時系列にマッチ ングせずその違いを検知できない. 本研究では,多数派クラスのサンプルのみから 1 クラス分類 器と shapelets を同時に学習する方法を提案する.提案方法で は,1 クラス SVM に基づく非線形な分類器と shapelets の学習 1 つの最適化問題として定式化し,劣勾配と確率的勾配降下

1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

DEIM Forum 2018 F6-4

1クラス分類に基づく時系列データの波形パターン学習

山口 晃広† 西川武一郎†

† 株式会社東芝 研究開発センター システム技術ラボラトリー 〒 212-8582 川崎市幸区小向東芝町 1

E-mail: †[email protected]

あらまし IoTの活用に向けて,時系列データにおけるクラス分類の研究が進められている.特に近年,分類器を

学習しながら shapeletsと呼ばれる分類に有効な波形パターンを同時に発見する方法が研究され,分類性能が良く説明

性もある方法として注目を集めている.しかし,従来方法では各クラスのサンプルが学習時に必要となり,正常デー

タに比べて異常データが少ない異常検知など,学習時に少数派クラスのサンプルを殆ど収集できない場合に性能が低

下する.本研究では,多数派クラスのサンプルのみを学習に用いて1クラス分類器とその shapeletsを学習する方法

を提案する.提案方法では,1クラスサポートベクトルマシンに基づく非線形な分類器と shapeletsの形状を同時に

勾配法により効率的に学習する.実験評価により,説明性と偏りのあるクラス分類への有効性を確認した.

キーワード 時系列データ,Shapelet,1クラスサポートベクトルマシン

1. は じ め に

医療や災害などで IoTの活用が求められており,時系列デー

タを機械学習により分類するクラス分類の研究が進められてい

る.特に,分類器を学習することで分類に有効な波形パターン

である時系列 shapelet(以下 shapelet)を発見する研究に注目

が集まっている [1, 2].これらの方法は,分類に有効な特徴は

時系列全体ではなく少数の部分時系列に表れるというアイデア

に基づき,時系列全体を近似する代わりに shapeletsを発見す

る.学習時に分類器と shapeletsを生成することで,テスト時

にはそれらを用いてクラスを素早く予測できる.近年,説明性

があるとともに高い分類性能を達成している [2, 3, 4].

Shapeletsに基づくクラス分類の研究は,時系列セットを構

成する部分時系列をランキングしクラス分類に有効な部分時

系列を shapeletsとして繰り返し抽出するという探索ベースの

方法から始まった [1].これらの方法では学習にかかる計算量

が大きい.また,時系列データにノイズがのっているとノイズ

がのった shapeletsがそのまま発見されてしまう.近年,探索

ベースの問題を克服するため shapeletsを学習する方法が提案

された [2].この学習ベースの方法では,大まかに生成された初

期 shapelets から勾配法を用いて分類器と同時に shapeletsの

形状を学習する.これにより,学習時の計算量を削減するとと

もに分類性能も向上する.また,時系列データのノイズにロバ

ストな shapeletsを学習できる [3].

一方,クラス間のサンプル数に偏りがある場合への対応が産

業や学術におけるクラス分類の重要な課題の 1つになっている

[5, 6].例えば,異常検知では異常の発生は稀であるがそれを見

逃さないことが要求される.また,学習時に発生している既知

の異常ではなく学習時にはなかった未知の異常を検知すること

が重要な課題である.このような偏りのあるクラス分類に対応

するアプローチとして,多数派クラスと少数派クラスの両方の

サンプルを用いるのではなく,多数派クラスのサンプルのみか

ら分類器を学習する 1クラス分類があり,1クラスサポートベ

学習時の時系列データ

��������

テスト時の時系列データ

未知の部分時系列

�� ��

図 1 従来方法:Shapelets とのベストマッチによるアプローチ

クトルマシン(1 クラス SVM)がその代表的な方法として知

られている [7].

しかしながら,shapelets の従来方法ではこのような課題

を考慮しておらずそれを扱うことは難しい.従来方法では,

shapelets が時系列データと最も類似(マッチ)する箇所の距

離を用いて特徴ベクトルを計算するが,このようなベストマッ

チなアプローチは分類に有効な部分時系列が学習時に得られな

い場合には適さない.これを図 1の例を用いて説明する.多数

派クラスの各サンプルは水平線と上に凸な曲線の 2つの部分時

系列からなる時系列データである.多数派クラスにはない赤枠

で囲ったような未知の部分時系列を含むサンプルが,少数派ク

ラスからテスト時に初めて観測されたとする.この場合,ベス

トマッチなアプローチでは shapeletsが赤枠の部分にマッチン

グしない.その結果,その違いは特徴ベクトルに反映されず無

視されてしまう.

異常検知の例では,異常な時系列データには正常な時系列

データには見られない部分時系列の組み合わせが現れると考え

られる.異常を表す部分時系列が学習時には得られずテスト時

に初めて得られた場合,従来方法のベストマッチなアプローチ

では,図 1の例と同様に shapeletsがその部分時系列にマッチ

ングせずその違いを検知できない.

本研究では,多数派クラスのサンプルのみから 1クラス分類

器と shapeletsを同時に学習する方法を提案する.提案方法で

は,1クラス SVMに基づく非線形な分類器と shapeletsの学習

を 1つの最適化問題として定式化し,劣勾配と確率的勾配降下

Page 2: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

学習時の時系列�������

��� ��

テスト時の時系列データ

未知の部分時系列

����

��� ���

図 2 提案方法:Shapelets で近似した許容誤差によるアプローチ

法を用いてそれらを同時に学習する.また,提案方法では図 2

のように shapeletsの組み合わせで多数派クラスの時系列デー

タ全体を覆うように近似した際の許容誤差を用いて特徴ベクト

ルを定義する.これにより,図 2の赤枠で囲ったような学習時

には得られなかったクラス間の違いを表す部分時系列がテスト

時に初めて得られても,許容誤差の範囲からその部分時系列が

外れることでその違いを検知できる.そのため,従来のベスト

マッチによるアプローチの問題点を克服できる.

本研究の主な貢献は以下のとおりである.

• (a)–(c)による 1クラス shapelets学習法を提案する.(a)

1クラスのみの時系列セットから 1クラス SVMに基づく

非線形な分類器と shapelets を学習する.(b) 劣微分と確

率的勾配降下法による学習で計算量を削減する.(c) 許容

誤差に基づく 1クラス分類に適した特徴ベクトルを用いる.

• 人工データと実データを用いた実験により,提案方法が説

明性を持ちながら偏りのあるクラス分類に対して [2]と比

べて分類性能を向上することを確認する.

2. 関 連 手 法

2. 1 Shapeletsの学習

Shapeletsはクラスラベルを予測する部分時系列として最初

に提案された [1].[1]では,決定木を学習しながら分類に有効

な部分時系列を繰り返し探索することで shapeletsを発見する.

このような探索ベースの方法では,学習に計算時間がかかるた

め,計算結果の再利用や探索空間の枝刈り,GPU ハードウェ

アに基づく最適化など,高速化に向けた研究が行われている

[8, 9, 10].また,クラスラベルが学習時に与えられないクラス

分類(i.e., 教師無しクラスタリング)に向けた shapeletsも研

究されている [11].

近年,部分時系列から shapeletsを網羅的に探す探索ベース

の方法に代わり,shapeletsを学習する方法が提案され,学習時

の計算量を減らしながら分類性能も向上した [2].[2]では,ロ

ジスティック回帰による分類器と shapeletsを勾配法により同

時に学習する.また,より高速化に重点を置いて shapeletsを

学習する方法 [4]や,教師無しクラスタリングに向けた方法 [3]

も提案されている.それらの分類器はいずれも線形である.こ

のような学習ベースの方法では,部分時系列にノイズがのって

いる場合にもノイズを取り除いた説明性のある shapeletsが得

られる [3].

しかし,これまでの従来方法では,各クラスのサンプル数に偏

りがある場合を考慮していない.また,図 1のように shapelets

とベストマッチしない部分時系列に分類に有効な特徴が現れる

場合には適さない.

2. 2 1クラス分類

医療診断,侵入検知,リスクマネジメントなどの分野のク

ラス分類では,多数派クラスと少数派クラスのサンプル数に

100:1, 1,000:1, 10,000:1やそれ以上といった偏りがある場合へ

の対応が重要である [5, 6].偏りのあるクラス分類では,サン

プル数の少ないクラスが無視されてしまう問題がある.その問

題を解決するため,各クラスのサンプル数に偏りがなくなるよ

うにサンプル数を調整するサンプリングに基づく方法や,少数

派クラスのサンプルを間違えた場合にペナルティを重くするコ

スト関数の修正に基づく方法,多数派クラスのサンプルのみか

ら多数派クラスと少数派クラスの分類器を学習する 1クラス分

類に基づく方法などが研究されている [5].

1クラス分類は,学習時に少数派クラスのサンプルが殆ど得ら

れない場合やクラス間のサンプル数の偏りが大きい場合(少数

派クラスのサンプル数が 3%以下の場合)に有効である [12].1

クラス分類の代表的な方法である 1クラス SVM [7]は,マージ

ンを最大化する分類器であるサポートベクトルマシン(SVM)

を 1クラス分類に適応した方法であり,SVMと同様にカーネ

ル関数を用いて特徴ベクトルを高次元にマッピングする.この

カーネルトリックにより非線形な分類器を効率的に学習できる.

しかし,1クラス分類の殆どの従来方法は時系列データを対象

としていない.近年,多変量時系列セットに対する 1クラス分

類方法 [13]が提案されたが,分類器のみを学習し分類に有効な

波形パターンを得られない.

Shapeletsは説明性のあるクラス分類として注目を集めてい

る.しかしながら,1クラス分類の従来研究において分類に有

効な波形パターンを学習する研究は,我々の知る限りこれまで

になかった.

3. 事 前 準 備

3. 1 1クラス SVM

1クラス SVMでは,I ′ 個の多数派クラスの学習データに対

して特徴ベクトル X′i を関数 ϕ(X′

i) により高次元空間に写像

し,その高次元特徴空間上で原点から最大のマージンになるよ

うな超平面 w で多数派クラスと少数派クラスの領域を分離す

る.SVMを学習するアルゴリズムである Pegasosの定式化に

従うと,式 1の最適化問題として表現できる [14].

minimizew

λ

2||w||2 + 1

I ′

I′∑i=1

hi (1)

hi = max{0, 1−wTϕ(X′

i)}

ここで,λはメタパラメータであり,ロス関数にはヒンジロス

hi を用いる.

リプレゼンターの定理により,式 1の最適解は I ′ 次元の係

数ベクトル a′ を用いて w =∑I′

i=1 a′iϕ(X

′i)のように一次結合

で表現される.そのため,式 1を双対問題に変換することなく

主問題のまま式 2のようにカーネル関数を用いて書き直すこと

Page 3: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

図 3 具体例を用いた提案方法の学習過程

ができる.

minimizea′

λ

2

I′∑i,i′=1

a′i′a

′iK(X′

i′ ,X′i) +

1

I ′

I′∑i=1

hi (2)

hi = max

0, 1−I′∑

i′=1

a′i′K(X′

i′ ,X′i)

ここで,Kはカーネル関数である.a′

i |= 0の場合にX′i と a′

i

がサポートベクトルとその寄与率となる.

Pegasosは,確率的劣勾配法により式 1や式 2の最適化問題

を高速に解くアルゴリズムであり,分類性能も良いことが知ら

れている [14].

3. 2 問 題 設 定

本研究では,多数派クラスのサンプルからなる時系列セット

T ∈ RI×Q から 1クラス分類器とその分類に有効な shapelets

S ∈ RK×L を学習する.ここで,I は学習に用いる時系列デー

タ数で,Q は各時系列データの長さ,K は shapelets の個数,

Lは各 shapeletの長さであり,それらは学習時に与えられる.

i番目の時系列データ Ti の j 番目の値を Ti,j と記述し,k 番

目の shapelet Sk の l 番目の値を Sk,l と記述する.各時系列

データに対して長さ Lの部分時系列は J := Q−L+1個ある.

Ti における j 番目の部分時系列 (Ti,j ,Ti,j+1, · · · ,Ti,j+L−1)

と Sk との距離を式 3のユークリッド距離で測る.

Di,k,j =1

L

L∑l=1

(Ti,j+l−1 − Sk,l)2 (3)

本研究における shapeletsの学習とは,1クラス分類に有効で

ノイズにロバストな Sを決めることである.

テスト時にある時系列データの特徴ベクトル xが与えられた

とき,判別関数 f は 1クラス SVMに基づき式 4で表される.

式 4の値が高くなるほど多数派クラスに属しやすい.

f(x) =

I∑i=1

aiK(Xi,x) (4)

ここで,Xi は Ti の特徴ベクトル,Kはカーネル関数,aは I

次元のベクトルである.本研究における分類器の学習とはモデ

ルパラメータ aを決めることである.

4. 提 案 方 法

本節では,まず提案方法の基本的なアイデアを説明するため,

具体例を用いて shapeletsと 1クラス分類器の学習過程を説明

する.次に,shapelets による時系列データの近似方法を述べ

て,その近似による許容誤差を用いて特徴ベクトルを定義する.

その後,目的関数を定式化し,それを最適化するための勾配を

求める.最後に,その勾配を用いて学習するアルゴリズムを示

し,そのアルゴリズムの計算量をまとめる.

4. 1 具体例による基本アイデア

図 3に示すように,提案方法では Tを近似する shapelets S

と 1クラス SVMに基づくモデルパラメータ aを勾配法により

同時に学習する.1クラス SVMに関連する勾配はカーネル関

数を経由して定式化することで,カーネルトリックによる非線

形な分類器を学習できる.Sと aの学習には,劣微分による勾

配の定式化と Ti をランダムに選択して勾配を求める確率的勾

配降下法を用いることで計算量を削減する.Ti の特徴ベクト

ル Xi は,K 次元ベクトルであり,Ti の部分時系列に最も類

似する S1,S2, · · · ,SK を当てはめて近似したときの許容誤差

に基づく.

図 3の例では,(K,L) = (2, 5)のもとで Sと aを学習する

Page 4: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

過程を表している.Tは,水平な部分時系列と上に凸なピーク

を持つ部分時系列からなり正規分布に従ったノイズを付加した

人工データである.少数派クラスの時系列データでは,Tに比

べて上に凸なピークが緩やかである.図 3の上段,中断,下段

は,それぞれ 1回,20回,500回だけ勾配法による更新を繰り

返した結果である.左列は Sの成長過程を表している.中列は

少数派クラスと多数派クラスのテスト時のある時系列データを

S で近似した結果である.T を S で近似したときの許容誤差

の最大範囲を三角印で描いた(注1).加えて,少数派クラスの時

系列データに対しては許容範囲から最も外れた shapelet とそ

の区間を赤色の垂直線で描いた.右列は radial basis function

(RBF)カーネルを用いた 1 クラス SVM の特徴空間である.

等高線は式 4の値に対応する.テスト時における多数派クラス

と少数派クラスの特徴ベクトルをそれぞれ丸印とバツ印で描い

た.Sの成長とともに許容誤差の最大範囲や特徴ベクトルは更

新されている.

1回目の繰返し(i.e., 図 3の上段)では,Sは Tを適切に近

似できず,少数派クラスだけでなく多数派クラスの時系列デー

タに対しても許容誤差が大きい.また,特徴空間上では 2クラ

ス間の特徴べクトルをまだ分離できていない.20回目の繰返し

(i.e., 図 3の中段)では,Sは Tを構成する水平な部分時系列

と上に凸なピークを持つ部分時系列に近づく.その結果,Sに

よる許容誤差の最大範囲は狭まる.同時に,特徴空間上では 2

クラス間の特徴ベクトルを分離できるようになる.500回目の

繰返し(i.e., 図 3の下段)では,本アルゴリズムは収束に近づ

く.SはTを構成する水平な部分時系列と上に凸なピークを持

つ部分時系列に殆ど一致し,Sによる許容誤差の最大範囲は更

に狭まる.同時に,特徴空間上で 2クラス間の特徴ベクトルは

更に分離される.これにより,shapelets Sと 1クラス分類器

のモデルパラメータ aにおける学習が完了する.

4. 2 Shapelets近似の許容誤差による特徴ベクトル

粗く説明すると,図 2のように Ti 全体を shapeletsで覆う

ように近似する.その近似では,オーバーラップを許して Ti

上の位置をスライドしながら,Ti の部分時系列と最も類似す

る shapelets Sk1 ,Sk2 , · · · ,SkNiとその位置 j1, j2, · · · , jNi を

見つける.ここで,Ni は Ti 上をスライドした回数であり Ti

を近似するのに用いた shapeletsの数である.n = 1, 2, · · · , Ni

に対して,(kn, jn)は式 5で表現される.

(kn, jn)=

arg mink=1,2,··· ,K, j=0

{Di,k,j} (n = 1)

arg mink=1,2,··· ,K, jn−1<j<=jn−1+L

{Di,k,j} (1<n<Ni)

arg mink=1,2,··· ,K, j=Q−L+1

{Di,k,j} (n = Ni)

(5)

式 5による (kn, jn)の集合を式 6のように Pi とする.

Pi = {(kn, jn)}Nin=1 (6)

(kn, jn) ∈ Pi は n = 1から jn = Q− L+ 1になるまで nを 1

(注1):Ti の特徴ベクトルを Xi とすると,各 Sk に対して許容誤差の最大範

囲を max1<=i<=I{Xi,k} で測る.特徴ベクトルは 4. 2 節で定義する.

ずつ増やして計算される.nを 1つ増やすと,jn は Q−L+ 1

を越えない範囲で 1からLの間で増える.Niは jn = Q−L+1

を満たす nとして決まる.

図 2 の例を用いて,式 5 の計算方法を説明する.Q = 27

の学習時の時系列データ T1 と (K,L) = (2, 5) の shapelets

S を与えられて,(kn, jn) ∈ P1 は以下のように計算され

る: (k1, j1) = (2, 1), (k2, j2) = (1, 6), (k3, j3) = (2, 11),

(k4, j4) = (2, 13), (k5, j5) = (1, 18), (k6, j6) = (2, 23).

j6 = Q−L+1であるため,この計算は終わる.その結果,T1

は 6個の shapeletsで近似される (i.e., N1 = 6).

Ti の特徴ベクトルXi は,Ti を Sで近似したときの許容誤

差に基づく.Sk が Ti の近似に用いられる場合,k は式 5 の

{kn}Nin=1 に含まれる.その場合,許容誤差はその近似でフィッ

トした Ti の部分時系列らと Sk との最大距離として定義され

る.それ以外の場合,Sk は Ti の近似に一度も用いられない.

これは,Sk を使うよりも他の shapeletsが Ti をより良く近似

していることを意味する.その場合,Sk が Ti にベストマッチ

する部分時系列を近似したと考える.その結果,shapelets の

従来方法と同様に,許容誤差は Sk と Ti の部分時系列らとの

最小距離に置き換えられる.まとめると,各場合における許容

誤差は式 7で表され,これがTi のK 次元特徴ベクトルXi と

なる.

Xi,k =

max(k,j)∈PiDi,k,j (k ∈ {kn}Ni

n=1)

minj=1,2,··· ,J Di,k,j (k /∈ {kn}Nin=1)

, (7)

i = 1, 2, · · · , I, k = 1, 2, · · · ,K, Pi = {(kn, jn)}Nin=1

図 2の例では,S1 と S2 が学習時の時系列データに 2回と 4回

それぞれフィットしている.そのため,k = 1, 2の両方で式 7

の最初のケースが用いられる.

4. 3 目 的 関 数

1クラス SVMのモデルパラメータ aと shapelets Sを同時に

最適化する目的関数 FS,a を式 8で定式化する.1クラス SVM

の最適化は Pegasos [14]の定式化と同じであり,FS,aの第 1項

と第 2項は式 2の定式化と等しい.SVMのロス関数にはヒン

ジロス hiを用いる.FS,aの第 3項では,各時系列データTiの

部分時系列を近似する shapeletsをその部分時系列に近づける.

minimizeS,a

FS,a (8)

FS,a =λ1

2

I∑i,i′=1

ai′aiK(Xi′ ,Xi) +1

I

I∑i=1

hi − λ2

I∑i=1

bi

Ni,

hi = max

{0, 1−

I∑i′=1

ai′K(Xi′ ,Xi)

},

bi =∑

(kn,jn)∈Pi, hi=0

e−γDi,kn,jn

ここで,λ1, λ2, γ はメタパラメータである.

4. 4 Shapeletsの更新

式 8の最適化問題を勾配法で解くために,目的関数 FS,a に

おける shapelets Sの勾配を計算する.その勾配の逆方向に S

Page 5: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

を更新することで,式 8を最適解に近づける.目的関数におけ

る Sk,l の勾配は,微分公式の chain ルールを用いて式 9 のよ

うに表せる.

∂FS,a

∂Sk,l=λ1

2

I∑i,i′=1

ai′ai∂K(Xi′ ,Xi)

∂Xi

∂Xi

∂Sk,l+

1

I

I∑i=1

∂hi

∂Xi

∂Xi

∂Sk,l− λ2

I∑i=1

1

Ni

∂bi

∂Sk,l(9)

以降では,カーネル関数として式 10 の RBF カーネルを想定

し,chainルールで分解した式 9の各勾配を計算する.

K(Xi′ ,Xi) = e−γ||Xi−Xi′ ||2

, (10)

式 11は,式 10をXi で微分することで求まる.

∂K(Xi′ ,Xi)

∂Xi= −2γ(Xi −Xi′)e

−γ||Xi−Xi′ ||2

(11)

式 12は,式 7の劣微分と式 3の微分とから求まる.

∂Xi

∂Sk,l=

J∑j=1

∂Xi

∂Di,k,j

∂Di,k,j

∂Sk,l=

2 (Sk,l −Ti,j′+l−1)

L, (12)

j′ =

arg maxj=1,2,··· ,J

{Di,k,j | (k, j) ∈ Pi} (k ∈ {kn}Nin=1)

arg minj=1,2,··· ,J

{Di,k,j} (k /∈ {kn}Nin=1)

,

Pi = {(kn, jn)}Nin=1

式 13は,式 8中の hi の劣微分と式 10の微分とから求まる.

∂hi

∂Xi=

2γ∑I

i′=1 ai′(Xi −Xi′)e−γ||Xi−Xi′ ||

2

(hi > 0)

zero vector of length K (hi = 0)

(13)

式 14は,式 8中の bi の劣微分から求まる.

∂bi

∂Sk,l=

− 2γ

L

∑(k,j)∈Pi

(Sk,l −Ti,j+l−1)e−γDi,k,j (hi = 0)

0 (hi > 0)

(14)

4. 5 1クラス分類器の更新

式 8 の最適解を勾配法で求めるために,4. 4 節と同様に目

的関数 FS,a におけるモデルパラメータ a の勾配を計算する.

式 8の目的関数において,第 1項と第 2項のみが aに依存し

第 3項は aに依存しない.式 8の目的関数の第 1項と第 2項

は Pegasos [14]の定式化である式 2と等しいため,本勾配の計

算は Pegasosの計算と一致する.提案アルゴリズムに Pegasos

をどのように組み込むかは 4. 6節で説明する.

4. 6 アルゴリズム

Shapelets Sと 1クラス分類器のモデルパラメータ aを学習

するアルゴリズムを Algorithm 1に示す.1行目では,Sと a

を初期化する.Sの初期化では,[2, 3]と同様のアプローチで次

のように行う.まず,Tから長さ Lの部分時系列の集合を取り

出し k-means++クラスタリング [15]を用いてK 個のクラスタ

Algorithm 1 Shapeletsと 1クラス分類器の学習アルゴリズムRequire: Majority class training time-series instances: T ∈

RI×Q, Number and length of shapelets: (K,L), Number of

iterations: M , Parameters: λ1, λ2, γ

Ensure: Shapelets: S ∈ RK×L, Model parameters: a ∈ RI

1: Initialize S and set a = 0.

2: for m = 1, 2, · · · ,M do

3: Choose i ∈ {1, 2, · · · , I} uniformly at random.

4: Calculate feature vector Xi of Ti based on S.

5: for k = 1, 2, · · · ,K do

6: for l = 1, 2, · · · , L do

7: Sk,l ← Sk,l − 12λ1

∂FS,a

∂Sk,l

8: end for

9: end for

10: if 1λ1m

∑Ii′=1 ai′K(Xi′ ,Xi) < 1 then

11: ai ← ai + 1

12: end if

13: end for

14: a← 1λ1M

a

15: return S,a

を求める.次に,そのK 個の centroidsを初期の shapeletsと

する.2–13行目が,確率的勾配降下法の繰り返し処理である.

ランダムに抽出したTi に対して,4行目で特徴ベクトルXi を

式 7より計算する.7行目では,Ti に対して 4. 4節で述べたよ

うに ∂FS,a/∂Sk,l を計算し,∂FS,a/∂Sk,l と逆の方向に Sを更

新する.10–14行目でカーネルを用いた 1クラス SVMに基づ

く分類器のモデルパラメータ aを更新する.4. 5節の議論から,

その処理は [14]における Kernelized Pegasos Algorithmと同

一である.

4. 7 アルゴリズムの計算量

[2]では,shapeletsを部分時系列から網羅的に見つける探索

ベースの方法から,shapeletsを学習する方法へ変更した.この

変更により,[2] の計算量は,[1] の O(I2Q3) から O(IQ2M ′)

まで削減された(注2).ここで,M ′ は勾配法の繰り返し回数で

ある.しかし,[2] では最小関数を滑らかな関数で近似してか

ら微分するため,計算量に Q2 が含まれていた.また,[2]では

Tからシーケンシャルに Ti を選んで勾配を計算するため,計

算量に I が含まれていた.

一方,提案方法の計算量は,分類器が非線形であるにも関わ

らず O(IQM)である.計算量に Q2 が含まれない理由は,最

小関数の微分を劣微分で計算するからである.計算量に I を含

む理由は,[14]のアルゴリズムにより非線形な分類器を学習す

るため,Algorithm 1の 10行目の i′ のループを計算すること

と, ∂FS,a/∂Sk,l の計算で式 9及び式 13の i′ のループを計算

することによる.しかし,確率的勾配降下法により Ti をラン

ダムに選ぶため,計算量に I2 を含まない.これにより,提案方

法の繰り返しの回数M は [2]のM ′ よりも多く必要となる可能

性がある.しかし,我々は様々な実験データにおいてM = 500

という少ない繰り返し回数で十分な分類性能を得た.

(注2):[2] と同様に,K と L は小さい数なので計算量から省略する.

Page 6: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

5. 実 験 評 価

5. 1 分類性能指標

本研究では,多数派クラスと少数派クラスのサンプル数に偏

りのあるクラス分類に適した Area Under Curve(AUC)と F

値を評価指標に用いる [6].AUCとは,ROC曲線の下側面積

であり,判別関数の値でサンプルをソートしたとき正しく分離

されるサンプルの割合である.F値とは,適合率 pと再現率 r

の調和平均 2prp+rである.ここで,適合率とは多数派クラスと予

測したサンプルのうち実際に多数派クラスであるものの割合で

あり,再現率とは実際に多数派クラスのサンプルのうち多数派

クラスであると予測されたものの割合である.

各データセットに対して,学習データ,テストデータ,検

証データの 3 つに分割し,3-fold の交差検証を用いて評価す

る(注3).各検証データにおいて,メタパラメータには AUCが

最大となる場合を最適なパラメータ値として選ぶ.各データ

セットの分類性能には,3-fold の交差検証を 10 回繰り返した

評価指標の平均値を用いて評価する.

5. 2 データセット

データセットには,人工データと実データを用いる.各デー

タセットを 2クラスに分けて実験する.

人工データとして,(a) 0 に値を持つ水平線と (b) 1 に値を

持つ水平線の 2つの部分時系列から構成される時系列データを

用意する.(a) には,平均 0 で標準偏差 0.5の正規分布に従っ

たランダムなノイズを付加する.クラス I とクラス II の時系

列データを次のように生成する.クラス Iの時系列データには

(b)の一部に平均 0で標準偏差 0.5の正規分布に従ったランダ

ムなノイズを付加するが,クラス IIの時系列データには (b)に

ノイズを付加しない.各時系列データの長さは 100である.提

案方法はクラス IIの学習データのみを用いるが,両方のクラス

でそれぞれ 30個のサンプルを生成する.

実データとして, UCR time series archive [16]からダウン

ロードした時系列セットを用いる.本実験では,サンプル数が

最小のクラスを少数派クラスとし,残りのクラスを多数派クラ

スとする.学習データにおいては,多数派クラスと少数派クラ

スのサンプル数の比率が 100:1に近づくように少数派クラスの

サンプルを間引く.

5. 3 比 較 方 法

比較方法には,shapelets を学習するクラス分類方法である

LTS [2]を用いる.各クラスのサンプルとそのラベルが学習時

に偏りなく十分に与えられれば,LTSは高いクラス分類性能を

達成することが知られている [2, 4].

提案方法と LTSで,勾配法の繰返し回数M と shapeletsの長

さLと個数Kを共通のメタパラメータの設定とする.M = 500

に設定する.Lは時系列の長さの 10%に設定する.人工データ

では時系列データを構成する要素が 2個と事前に分かっている

ためK = 2に設定する.UCR time-seriesではK ∈ {5, 20, 80}

(注3):学習データ,テストデータ,検証データのサンプル数の比率が 1:1:1 に

なるように各データセットを 3 つに分割し,それらをお互いに入れ替える.

図 4 ベストマッチによるアプローチでは分類の難しい人工データに

おけるノイズにロバストな shapelets の学習

表 1 偏りのあるクラス分類の性能比較(左:AUC/右:F 値)

データセット 提案方法 LTS

ECG5000 0.99 / 1.00 0.98 / 0.99

ECGFiveDays 0.98 / 0.90 0.58 / 0.71

DiatomSizeReduction 1.00 / 1.00 0.89 / 0.95

DistalPhalanxOutlineCorrect 0.78 / 0.82 0.75 / 0.75

MiddlePhalanxOutlineAgeGroup 0.93 / 0.95 0.90 / 0.90

MiddlePhalanxTW 0.95 / 0.96 0.91 / 0.96

ProximalPhalanxOutlineAgeGroup 0.96 / 0.96 0.93 / 0.62

ProximalPhalanxOutlineCorrect 0.73 / 0.81 0.74 / 0.56

Haptics 0.84 / 0.89 0.80 / 0.88

Earthquakes 0.82 / 0.91 0.78 / 0.90

Lighting2 0.79 / 0.74 0.79 / 0.70

の範囲から検証用データで選ぶ.提案方法の残りのメタパラ

メータでは,λ1 = 0.1, λ2 = 0.5に固定し γ ∈ {0.1, 1, 10, 100}の範囲から検証用データで選ぶ.LTSの残りのメタパラメータ

では,η = 0.01に固定し,λW ∈ {0.01, 0.1, 1}の範囲から検証用データで選ぶ.

5. 4 人工データによる評価

まず,提案方法により学習した図 4(左)の shapeletsは,ノ

イズにロバストであることが分かる.図 4(右)は,クラス Iの

テストデータに許容誤差の最大範囲(青三角印)と,そこから

最も外れた shapelet(太い赤水平線)とその区間(赤垂直線)

をそれぞれ示す.0に値を持つ水平線の部分時系列のノイズは

大きく,その許容誤差の最大範囲は大きい.それにも関わらず,

対応する shapeletにはノイズが殆ど含まれていない.

次に,図 4(右)から,提案方法が分類に有効な箇所を許容

誤差の最大範囲から最も外れた箇所(赤枠)として発見できる

ことが分かる.クラス II の学習データのみを用いる提案方法

による分類性能は AUC 1.00 であり F 値 0.97 である.一方,

両方のクラスの学習データがラベル付きで均等に十分に与えら

れたにも関わらず,LTSの分類性能は AUC 0.70 であり F値

0.67である.これは,LTSでは赤枠で囲った分類に有効な箇所

に shapelets がフィットしにくく特徴ベクトルに違いが現れに

くいためである.これにより,クラス間に偏りがない場合でも

提案方法の許容誤差に基づく特徴ベクトルが有効なケースを確

認した.

5. 5 偏りのあるクラス分類の性能比較

表 1は,実データセットのテストデータにおける分類性能の

Page 7: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

図 5 1 クラス shapelets 学習による ECG の t-wave の発見

結果を表す.各方法に対して左側の値が AUCであり右側の値

が F値である.LTSでは偏りのあるクラス分類を考慮していな

い.それをデータレベルで解消するため,少数派クラスのサン

プルをオーバーサンプリングする方法として良く知られている

SMOTE [17]を適用した.提案方法では多数派クラスのサンプ

ルのみを用いて学習した.殆どのデータセットに対して提案方

法の性能は LTS よりも高い.これにより,サンプル数に偏り

のあるクラス分類において,提案方法の優位性を確認した.

5. 6 ECGによる説明性の評価

ECG Five Days は,1 人の患者の 2 日間に渡る心電図の時

系列セットである.同じクラスの時系列データ間にはドリフト

があり,時系列データ全体を目視してもクラスを分類するこ

とは難しい.提案方法ではクラス 1 のサンプルのみを用いて

shapeletsを学習した.図 5は,クラス 2のテストデータに対

して許容誤差の最大範囲(青三角印)と,そこから最も外れた

shapelet(赤曲線)とその区間(赤垂直線)をそれぞれ示す.そ

の部分は,医学的に 2クラス間の重要な違いとして知られてい

る t-wave に一致している.Shapelets の従来方法 [10] では偏

りのない 2クラスのラベル付きサンプルを用いて学習しこの部

分を発見したが,提案方法では 1クラスのサンプルのみを用い

て学習し同様に t-waveを発見した.

6. お わ り に

本研究では,1クラスのみの学習データから,1クラス分類

器と shapeletsを同時に学習する方法を提案した.その分類器

は,1クラス SVMに基づきカーネルトリックにより非線形な識

別境界に対応する.分類器と shapeletsの学習では,劣勾配を

用いた確率的勾配降下法により,非線形な分類器を扱うにも関

わらず LTS [2]よりも計算量を削減する.人工データとサンプ

ル数に偏りのある実データとを用いた評価の結果,ノイズにロ

バストな shapeletsを学習し,LTSと比較して分類性能が向上

することを示した.また,ECGの実データを用いた評価では,

shapeletsを発見する従来方法 [10]が 2クラス両方のラベル付

き学習データを用いて分類に有効な箇所を発見したが,提案方

法では 1クラスの学習データのみからその箇所を発見できた.

文 献

[1] Ye, L. and Keogh, E.: Time Series Shapelets: A New

Primitive for Data Mining, Proceedings of the 15th

ACM SIGKDD International Conference on Knowl-

edge Discovery and Data Mining, KDD ’09, ACM, pp.

947–956 (2009).

[2] Grabocka, J., Schilling, N., Wistuba, M. and Schmidt-

Thieme, L.: Learning Time-series Shapelets, Proceed-

ings of the 20th ACM SIGKDD International Confer-

ence on Knowledge Discovery and Data Mining, KDD

’14, ACM, pp. 392–401 (2014).

[3] Zhang, Q., Wu, J., Yang, H., Tian, Y. and Zhang,

C.: Unsupervised Feature Learning from Time Series,

Proceedings of the Twenty-Fifth International Joint

Conference on Artificial Intelligence, IJCAI’16, AAAI

Press, pp. 2322–2328 (2016).

[4] Hou, L., Kwok, J. T. and Zurada, J. M.: Efficient

Learning of Timeseries Shapelets, Proceedings of the

Thirtieth AAAI Conference on Artificial Intelligence,

AAAI’16, AAAI Press, pp. 1209–1215 (2016).

[5] Chawla, N. V., Japkowicz, N. and Kotcz, A.: Editorial:

Special Issue on Learning from Imbalanced Data Sets,

SIGKDD Explor. Newsl., Vol. 6, No. 1, pp. 1–6 (2004).

[6] He, H. and Garcia, E. A.: Learning from Imbalanced

Data, IEEE Trans. on Knowl. and Data Eng., Vol. 21,

No. 9, pp. 1263–1284 (2009).

[7] Scholkopf, B., Platt, J. C., Shawe-Taylor, J. C., Smola,

A. J. and Williamson, R. C.: Estimating the Support

of a High-Dimensional Distribution, Neural Comput.,

Vol. 13, No. 7, pp. 1443–1471 (2001).

[8] Mueen, A., Keogh, E. and Young, N.: Logical-

shapelets: An Expressive Primitive for Time Series

Classification, Proceedings of the 17th ACM SIGKDD

International Conference on Knowledge Discovery and

Data Mining, KDD ’11, ACM, pp. 1154–1162 (2011).

[9] Chang, K.-W., Deka, B., mei W. Hwu, W. and Roth,

D.: Efficient Pattern-Based Time Series Classification

on GPU., Proceedings of the Fifth International Con-

ference on Data Mining, ICDM ’05, IEEE Computer

Society, pp. 131–140 (2012).

[10] Keogh, E. J. and Rakthanmanon, T.: Fast Shapelets:

A Scalable Algorithm for Discovering Time Series

Shapelets, Proceedings of the 13th SIAM International

Conference on Data Mining, pp. 668–676 (2013).

[11] Zakaria, J., Mueen, A. and Keogh, E.: Clustering

Time Series Using Unsupervised-Shapelets, Proceed-

ings of the 12th International Conference on Data Min-

ing, ICDM ’12, IEEE Computer Society, pp. 785–794

(2012).

Page 8: 1クラス分類に基づく時系列データの波形パターン …1クラス分類に基づく時系列データの波形パターン学習 山口 晃広 y西川武一郎 y 株式会社東芝研究開発センターシステム技術ラボラトリー

[12] Raskutti, B. and Kowalczyk, A.: Extreme Re-

balancing for SVMs: A Case Study, SIGKDD Explor.

Newsl., Vol. 6, No. 1, pp. 60–69 (2004).

[13] Song, Y., Wen, Z., Lin, C.-Y. and Davis, R.: One-class

Conditional Random Fields for Sequential Anomaly

Detection, Proceedings of the Twenty-Third Interna-

tional Joint Conference on Artificial Intelligence, IJ-

CAI ’13, AAAI Press, pp. 1685–1691 (2013).

[14] Shalev-Shwartz, S., Singer, Y., Srebro, N. and Cotter,

A.: Pegasos: Primal Estimated Sub-gradient Solver for

SVM,Math. Program., Vol. 127, No. 1, pp. 3–30 (2011).

[15] Arthur, D. and Vassilvitskii, S.: K-means++: The Ad-

vantages of Careful Seeding, Proceedings of the Eigh-

teenth Annual ACM-SIAM Symposium on Discrete Al-

gorithms, SODA ’07, Society for Industrial and Applied

Mathematics, pp. 1027–1035 (2007).

[16] Chen, Y., Keogh, E., Hu, B., Begum, N., Bagnall,

A., Mueen, A. and Batista, G.: The UCR Time Se-

ries Classification Archive (2015). www.cs.ucr.edu/

~eamonn/time_series_data/.

[17] Chawla, N. V., Bowyer, K. W., Hall, L. O. and

Kegelmeyer, W. P.: SMOTE: Synthetic Minority Over-

sampling Technique, J. Artif. Int. Res., Vol. 16, No. 1,

pp. 321–357 (2002).