8
DEWS2008 E1-3 †† †† 229–8558 5–10–1 †† 229–8558 5–10–1 E-mail: †{r-fukuda,oono,hiro}@ina-lab.it.aoyama.ac.jp あらまし イミ キーワード マイ ラフマイ Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDA , Hiroyuki OONO †† , and Hiroshige INAZUMI †† Graduate school of Science and Engineering, Aoyama Gakuin University Fuchinobe 5–10–1, Sagamihara-shi, Kanagawa, 229–8558 Japan †† College of Science and Engineering, Aoyama Gakuin University Fuchinobe 5–10–1, Sagamihara-shi, Kanagawa, 229–8558 Japan E-mail: †{r-fukuda,oono,hiro}@ina-lab.it.aoyama.ac.jp Abstract If particular time scales such as years, months, and weeks can show the feature of sequential data, we can find useful knowledge from their hierarchical relations and their correlations. To do this, we have proposed to following methods. First we select periods of time that are important for data, and convert the data into ordered trees based on a hierarchical ex- pression of the periods. Then we extract frequent subtrees from the trees. These subtrees represent specific sequential patterns. In this paper, we propose to visualize from these patterns in a manner that we can discover which periods are valuable in the data. Key words Data Mining Sequential Data Graph Mining Visualization 1. はじめに [1]

Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

DEWS2008 E1-3

縮約木抽出法を利用した時間単位の階層関係に基づく系列データ分析システム

福田 遼平† 大野 博之†† 稲積 宏誠††

†青山学院大学大学院理工学研究科理工学専攻 〒 229–8558神奈川県相模原市淵野辺 5–10–1

††青山学院大学理工学部情報テクノロジー学科 〒 229–8558神奈川県相模原市淵野辺 5–10–1

E-mail: †{r-fukuda,oono,hiro}@ina-lab.it.aoyama.ac.jp

あらまし 年・月・週あるいは特定のタイミングの時間単位がデータの特徴を表していると予測される場合,それぞ

れの時間単位の階層関係とそれらの相互関係から有用な知識を発見できる場合がある.我々はこれを実現するために,

系列データを時間単位ごとに集計し,順序木で階層表現したあとに複数データに共通する特徴を抽出する方法として,

部分木抽出手法を用いた.本稿では,抽出された部分木を用いてグループ分析を行うために,部分木を元のデータの

説明能力に基づいてクラスタリングを行い,部分木集合として系列の特徴を分析する方法と,得られた特徴を説明す

るための可視化手法について提案する.本稿で提案する可視化手法を含めた分析ツールでは,系列をらせん状に配置

した平面図に,部分木が示す期間を塗りつぶしすことにより,注目するべき連続的,周期的な情報を提示し,時間単

位の切り替えや部分木情報をもちいて検証を行えるものとなった.

キーワード データマイニング,系列データ,グラフマイニング,視覚化

Sequential Data Analysis Sytem based on Time-Scale Hierarchy using

Frequent Subtree Mining

Ryohei FUKUDA†, Hiroyuki OONO††, and Hiroshige INAZUMI††

† Graduate school of Science and Engineering, Aoyama Gakuin University Fuchinobe 5–10–1, Sagamihara-shi,

Kanagawa, 229–8558 Japan

†† College of Science and Engineering, Aoyama Gakuin University Fuchinobe 5–10–1, Sagamihara-shi, Kanagawa,

229–8558 Japan

E-mail: †{r-fukuda,oono,hiro}@ina-lab.it.aoyama.ac.jp

Abstract If particular time scales such as years, months, and weeks can show the feature of sequential data, we can find

useful knowledge from their hierarchical relations and their correlations. To do this, we have proposed to following methods.

First we select periods of time that are important for data, and convert the data into ordered trees based on a hierarchical ex-

pression of the periods. Then we extract frequent subtrees from the trees. These subtrees represent specific sequential patterns.

In this paper, we propose to visualize from these patterns in a manner that we can discover which periods are valuable in the

data.

Key words Data Mining,Sequential Data,Graph Mining,Visualization

1. は じ め に

従来から,時系列データからの知識発見については多くの研

究が行われている.また,その中で,系列データを対象とし,

そこから頻出する部分系列を抽出するという問題 [1] について

も,近年盛んに研究されている.

複数の系列データから共通する特徴や傾向を探す場合,細部

は完全に一致していなくても,ある期間に注目して情報をまと

めた場合には共通する傾向が存在する場合がある.系列データ

の分析手法の多くは,連続した情報の推移に主眼をおいている

ことが多い.しかしながら,必ずしも連続した期間ではなく,

広義の周期性のように,ある特定の条件を満たす断続的な期間

についての特徴が注目されることもある.また,階層関係が成

り立つことが多い.ただし,これは単純な周期発見に限定され

るわけではない.例えば,ある期間は,時間的に連続性があり,

別の期間は,週単位である.また,週の前半と週の後半という

Page 2: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

特徴がある組み合わせで生じるなど,複数の周期性が期間ごと

に組み合わされるようなことを想定している.

そこで,注目すべき時間単位にデータを整理し,時間単位の

階層表現に基づき再配置することで,同一の系列データに対し

てさまざまな分析が可能となることが予想される.このような

視点から,クレジットカード利用履歴データを用いて,あるア

クションを起こす顧客を識別するための部分パターン抽出方法

が提案されている [2].そこでは,各観測期間の情報を木構造で

コード化し,その階層的な関係を部分パターンとし,それを用

いた知識発見に展開している.

我々は,このような取り組みをグラフマイニングの応用分野

と位置づけ,特に木構造におけるグラフマイニング技術に注目

してきた [3] [4].まず,問題に応じて期間ごとに階層的に特徴

づけが行えるようなカテゴリカル属性,あるいはなんらかの処

理によってカテゴリカル属性に変換できるような系列データに

注目した取り組みを行った [5].すなわち,各系列データを時

間単位の階層関係に基づいて木構造表現し,それらに共通して

包含される部分木を抽出し,それを直接活用するための手法の

開発である.ここでの部分木とは,その親子関係あるいは先祖

関係のいずれかが対象とする木に共通に含まれているものと定

義する.先祖関係を許容する部分木は,その最上位の時間単位

と最下位の時間単位の間の部分についての関係は特定していな

いため,その期間内は,ワイルドカードを含む共通パターンと

みなすことができる.したがって,この取り組みは,ワイルド

カードを含む頻出系列パターンの抽出を可能とするものである.

ただし,一般にこのような部分木は大量に抽出されるため,

それらをどのように活用するかということが重要な課題となる.

これについて我々は,抽出された部分木をクラス分類の観点か

ら類似する部分木集合ごとに分割する手法を提案し,その部分

木集合を利用したクラス分類法を提案した [6] [7].ただし,そ

こで得られた結果は,部分木あるいは部分木集合の組み合わせ

によるルール表現であるため,系列パターンとして理解するの

は,必ずしも容易ではない.

そこで,本稿では,部分木で表現された系列パターンの理解,

解釈を容易に行うことのできる表現方法を吟味し,視覚化手法

を提案する.さらに,従来提案している分析方法と,この可視

化による総合的な分析システムとしての提案を行う.まず,時

間単位の階層関係に基づく木構造表現の概要と,対象とする系

列データを木構造化する手順,部分木を用いたクラス分類手法

の概要を示す.次に,部分木で表現される系列パターンの視覚

化を含めた分析システムの概要と,分析例を示す.

2. 系列データの木構造表現と部分木抽出 [6] [7]

本稿で対象とする系列データは不定期な事象の生起にもとづ

く系列データである.データには元々,同じ単位で時間情報が

記録されているが,これに加えて年,季節,月などのラベル付

けをすることができる.また,他のデータとは,同一時間単位

上での比較や,異なる時間単位での共通性,あるいは相違性を

見つけ出すことができるものである.

本手法では,同じデータがもつ,さまざまな時間単位に注目

し,時間単位ごとの情報を階層的に表現するが,このような時

間単位は,上位階層が下位時間単位を包含していることが前提

である.例えば 4月-9月,10月-3月という 6ヶ月単位の前・後

期という学期の下位に 3月-5月,6月-8月,9月-11月,12月-2

月という 3ヶ月単位の季節を設定することはできない.このよ

うな場合には,異なる木構造表現を行い,別の分析を行う必要

がある.

2. 1 系列データの木構造化

本稿で扱う木構造は,元のデータの情報を最下位に配置し,

上位ノードはそのデータが示す期間情報を記載している.

系列データの木構造化は以下の手順で行う.

(1) 注目する時間単位の決定

注目する時間単位は問題背景と仮説に基づき,分析者が決定す

る.例えば平日・休日,月の前半・後半などによる違いがデータ

に表れていると考えられる場合,これらの時間単位に注目する.

(2) 時間単位情報の抽出

系列データを注目した時間単位ごとに分割し,その時間単位情

報をノードラベルとして保持する.

(3) 時間単位の階層表現に基づく木構造化

階層表現に基づいて,ラベルづけされた時間単位をノードとし

て木構造表現する.このように木構造化した結果,元の時系列

データは,葉ノードにおいて時間の最小単位に基づく元データ

の情報が示され,上位ノードでは,より大きな時間単位で集約

された情報が示されることになる.さらに,この木表現は,同

一階層の兄弟関係ごとに時間関係が保持された順序木で表現さ

れることになる.ただし,同一階層で複数の表現が存在する場

合(例えば平日・休日と,週の前半・後半など)には,同一の

問題に対して異なる木構造表現を作成する.

2. 2 部分木抽出

木構造で表した系列データからの共通部分木抽出には TreeM-

iner [3]を用いる.TreeMinerは複数の順序木に含まれる,頻出

部分木を抽出するアルゴリズムであり,頻度 (サポート値)を自

由に選択できること,また,親子関係だけでなく先祖関係を含

めた広義の親子関係に基づいて部分木の抽出を行うことができ

る.すなわち TreeMinerにおいて,木 sが木 tに含まれるとは,

i) sの全てのノードが tに存在する

ii) sにおいてノード nx がノード ny の親であれば,sの全て

の親子関係 b(nx, ny)は,tにおいて親子関係あるいは先祖関係

を満足する

と定義し,このとき木 sは木 tの部分木としている.

このように定義することで親子関係からだけでなく,先祖関

係のみの一致も許した柔軟な部分木を探し出すことができる.

本稿では以降,木の包含についてはこの定義を用い,得られる

頻出木を単に部分木と呼ぶこととする.

2. 3 部分木の利用

抽出された部分木を用いて,有用な系列パターンとしての特

徴を探すために,まず,部分木の集約を考える.なぜならば,

抽出される部分木は通常多数存在し,どの部分木をどのように

活用すれば良いかを示す必要があるからである.したがって,

まず,対象とする系列データを何とおりかの系列パターンで説

Page 3: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

明するという前提に立って,部分木をクラスタリングすること

を考える.次に,クラスタリングされた部分木集合をひとつの

系列パターンとみなし,その系列パターンをあらためて各系列

データの属性項目としたクラス分類への適用方法を示す.

M 個の木構造で表現された系列データの事例から N個の部

分木が抽出されたとする.また,各事例は,クラス aとクラス

a のいずれかに属しているものである.部分木 S{s1, · · · , sN}が元のデータを変換した木構造 T{t1, · · · , tM}のそれぞれに対して,保有される状況を表す行列 X を各クラスごとに作成す

る.xij を木 tj が部分木 si を含んでいるか否かを表す行列の

成分とする.クラス aとなる事例数をMa とすると,行列 Xa

は以下のように表すことができる.

Xa =

x1,1 . . . x1,Ma

.... . .

...

xN,1 . . . xN,Ma

, xij =

{0 if si /∈ tj

1 if si ∈ tj

また,クラス aとなる事例数をMa として,行列Xa を同様

に定義するものとする.

ここで,各部分木 si のクラス a における特徴ベクトルを

(xi1, xi2, · · · , xiMa)として,このベクトル間の距離に基づいて

類似度を定義する.その結果,類似度の大きな部分木集合はほ

ぼ同じ系列データに共通するパターンを表しているとみなすこ

とができる.したがって,クラスタリングはこの類似度に基づ

いて実現される.さらに,クラス分類における属性とする場合

には,クラス aとクラス aのそれぞれで定義される特徴ベクト

ル (xi1, xi2, · · · , xiMa , x′i1, x′i2, · · · , x′iMa

) を用いて類似度を定

義することになる.ここでは,その計算方法の詳細は省略する.

この類似度を用いて各クラスごとに部分木集合のクラスタリ

ングを行う.今回は群平均法で階層的クラスタリングを行い,

クラスタ数は任意に決定するものとする.

クラスタリングされた部分木集合は,そのグループの特徴を

表す一つの系列パターンとみなすことができる.それぞれの事

例は,ここで求められた系列パターンの組み合わせを保持して

いるとみなすことができる.したがって,部分木集合である系

列パターンをどのように表現するかが重要となる.たとえば,

クラスタリング結果の部分木集合を,直接各事例の属性項目と

するのは困難である.なぜならば,クラスタ中の部分木すべて

を保持している事例もあれば,その一部のみを保持している事

例も混在するからである.

そこで,クラスタを構成する部分木集合の中で,自らの部分

木がクラスタ中に存在しない極小構造となっている部分木をそ

の系列パターンを表現する部分木とみなすことにする.これを

基礎構造とし,それ以外の部分木を派生構造とする.属性項目

としては,基礎構造となる部分木集合のみを用いて,対象事例

集合の分析をおこない,派生構造を考察に加えるように用いる

ことで以下の分析を行う.

 

グループ内の分析  

対象とするグループの事例が,どのような系列パターンの組み

合わせから構成されているかを分析する.また,クラスタサイ

ズから,そのバランスを把握する.

グループ間の比較  

基礎構造を属性項目として決定木分析を行い,プロダクション

ルールを分類ルールとして,グループ間の比較を行う.

3. 視覚化と分析ツール

クラスタリング結果である部分木集合や,その基礎構造およ

び,クラス分類ルールとしての基礎構造の組み合わせは,系列

パターンの特徴として理解するのは非常に困難である.なぜな

らば,部分木が示す情報を読み取るためには,データの木構造

化の際に定義した知識と,親子関係を飛び越えることによって

生じるワイルドカードノードを考慮したパターンが示す情報に

ついて把握する必要があるからである.そのため,時間単位の

階層表現に対して柔軟に対応することのできるインタフェース

が必要となる.

そこで,分析者が木構造化や部分木に関しての予備知識をあ

まり必要とせず,複数部分木の組み合わせで表現される情報に

関して,どのポイントに注目するべきであるかをわかりやすく

提供することを主眼とする視覚化ツールと,それを備えた分析

ツールを設計する.

3. 1 表示モデル

本稿で提案する系列データの視覚化モデルは,らせん状の表

現方法 [8] に基づくものである.らせんモデルとは,系列デー

タをらせん上に配置し,半径によらず一周の間隔を同一とする

ことによって,周期的な情報を放射線状に配置し,継続的な情

報は同心円状に配置するものである.そこで,一周の間隔を可

変にすることで,対象とするデータがどのような周期性をもっ

ているかを発見することが可能となる.原論文においては,こ

のらせんをユーザが自由に調整することによって,ユーザ自身

が系列上の特徴を発見することを目的としたシステムである.

一方,本稿で提案する視覚化モデルは,与えられた時間単位

に基づいてらせん状の表現を同心円を複数重ねることで代用し,

基準とする時間単位ごとに表示環境を可変とする.また,本モ

デルの目的が系列データの分布そのものではなく,系列パター

ンの表示である点,らせんモデルを用いて特徴を発見するので

はなく,すでに獲得されている特徴をわかりやすく表示する点

も,同心円の重ね合わせを用いた理由である.その結果,系列

データは帯状の領域に記述され,基準周期として定義されてい

る時間単位ごとに区切り,伸縮させながら同心円を内側から外

側に向けて重ね合わせることによって,系列全体が表現される

ことになる.

このような表示モデルを利用することによって,どの時間単

位による周期性が,どの時点で強く見られるのかについて,放

射線状に表れる特徴を見ることによって判別可能となり,基準

周期を変えることによってそれらの組み合わせについても表現

することが可能となる.視覚化ツールとしては,円 1周分の時

間単位,放射状の時間単位,円周の区切りの時間単位は,任意

に変更できるように設計した.また,これらの情報がユーザか

ら設定されると,全データに対しての円の数,軸の数,円の区

切りの位置を計算して表示することも可能としている.

Page 4: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

図 1 部分木情報の表示

本ツール上では各事例の系列データは,該当する最下位の時

間単位を表す領域内にランダムにプロットされる.もし,デー

タにラベルが付されている場合には,表示するラベル情報を設

定することができる.また,各系列データに対して,その頻度

に応じて該当する時間単位の領域内を塗りつぶすことで濃度変

化を表現することも可能にした.

3. 2 部分木情報の描画

系列パターンである部分木情報の描画では,葉ノードまでの

パスを最小単位とし,各パスごとに示されている期間の範囲を

すべて塗りつぶす.このとき,複数の部分木情報を表示する場

合にも同様の方法で重ね合わせていく.このようにすることで,

複数の部分木が示す期間情報の大枠をとらえることをねらいと

している.

また,入力される部分木情報からだけでは,ワイルドカード

部分の期間の情報を見逃してしまうため,その期間を補足する

必要がある.ワイルドカードは本来,「その部分の情報は特定さ

れない」ことを示しているが,本稿で提案する木構造表現に基

づく場合,その情報が示す系列上の範囲は限定されている.例

えば曜日,週,月で階層化されている図 1(a)左側の部分木を描

画する場合,まず,週の階層にワイルドカードが置かれる.次

に,上位ノードの指す範囲から,「1月」の期間内であること,

週を示す階層上左側のノード情報として「2週目」があること

から,右側のノードの情報は 3週目以降と特定される.もし,

1月が 4週までで終わる場合,図 1(a)右側のように「1月の 3

週目,または 4週目」と補完される.これを用いることによっ

て,図 1(b)のように対応する期間が塗りつぶされる.

このほか,実行環境では描画された情報の詳細を調べるため

に,部分木の構造がわかる形で表形式の表示も提供しており,

部分木情報を描画情報からとらえた後に,部分木の詳細な情報

を確認することもできる.

3. 3 グループ分析の結果表示

グループの特徴を把握するために,グループごとの特徴表示

と,グループ比較の結果得られた分類ルールの表示を行う.後

述する分析例の表示画面を図 2に示す.ここでは,時間単位を

年,学期,学期の位置 (序盤・中盤・終盤),週,曜日として階

層化されている.

「グループ」には,そのグループを特徴づける系列パターン

の組み合わせが対応付けられ,「部分木 ID」で系列パターンを

示す基礎構造の ID を示し,「部分木 (表形式)」で,その木構造

を表形式で表している.「描画」は,これらで指定されたグルー

プ内の特定クラスタを,一周を「学期の位置」とし,「曜日」単

位で表示されている.また,「打点」をチェックすることで,そ

の系列パターンをもつ事例をプロットすることができる.また,

「表示項目」によりデータに付されているラベルごとの表示を

可能としている.

グループごとの特徴表示では,各クラスタについて,その

基礎構造の情報と,その情報を満たす事例のデータを描画す

る.分類ルールの表示では,各分類ルールごとに,その情報と,

ルールを満たす事例のデータを描画する.各ルールは,あるク

ラスタの基礎構造をすべて含む,あるいは含まないという組み

合わせで構成されている.そのうち,基礎構造をすべて含むク

ラスタの基礎構造をすべて取り出して表示する.

いずれの表示においても,まず,部分木が示す範囲を描画す

ると同時に,葉ノードに記載されている項目と一致する情報を,

実データから探してプロットする.このようにすることで,実

データの分布から,注目するべき期間と項目を大まかに把握す

ることをねらいとしている.詳細な分析は,その後すべての項

目の表示,表形式による部分木情報の参照,他の分類ルールと

の比較から行う.

4. 分 析 例

本稿で提案する手法を,本学において 13項目のテストに合

格することが義務付けられている IT 講習会合格履歴データに

対して適用する.

4. 1 分析データ

IT 講習会合格履歴データは,5種類のテスト項目からなり,

それぞれ 4種類の基本操作 (B),3種類の文書作成 (W),3種類

の表計算 (E),2種類のプレゼンテーション (P),総合 (M) に分

けられる.また,受検順序は指定されおらず,1日で何科目も

受検可能であり,全項目を合格することで単位を取得する仕組

みとなっている.その結果,学生個々の合格履歴データからは,

その取り組みのペースや受検順序の違い,また最終合格者(単

位取得者)と不合格者の特徴の違い,所属学部や学科による取

り組みの違いなどの発見が期待される.さらに,これを用いて

指導方針や運営の改善に役立てていくことなどが考えられる.

なお,このデータは合格履歴のみからなり,不合格の履歴は記

載されていない.合格履歴例を表 1に示す.そこで,受講生が

学期・週・曜日などの期間において受検姿勢が違うことを仮定

し,次のように階層表現する.

ルート: 学生 ID

学期レベル: 期 ID(前期,夏期,後期)

週レベル: 週 ID(序盤: 4週,中盤: 4週,終盤: 4週)

Page 5: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

図 2 実 行 画 面

表 1 学生の合格履歴例

認定日 合格項目

5/10(火) B

5/17(火) B

5/18(水) B

5/23(月) B

5/31(火) W

5/31(火) W

6/28(火) W

6/28(火) E

6/28(火) E

6/28(火) P

7/4(月) P

7/5(火) E

11/22(火) M

曜日レベル: 曜日 ID(月火,水,木金)

受検項目: B,W,E,P,M

これをもとにして木構造表現された系列データの例を図 3に

示す.

4. 2 単位取得者の特徴

全学生の履歴のうち,最終的に単位を取得した学生 (3533名)

を 1グループとして,グループの特徴を分析した.まず,対象

とする学生の木構造表現をした後にグループ内で 25%以上に頻

出する部分木 (2643個)を抽出し,すべての部分木から 50クラ

図 3 受講生 1人の合格状況を表す木構造

スタを生成した.図 4は各クラスタの,基礎構造が示す系列パ

ターンをもつ学生数を表したものである.この中には,例えば

「P項目を月火のどちらかに受検した」などの単純な分析結果を

示すものも含まれている.しかし,中には IT 講習会特有の傾向

を示す系列パターンも存在する.その中の二つについて述べる.

まず,全体の 24%(855人)の単位取得者にあてはまる特徴で

あるクラスタ 29に注目する.クラスタ 29の示す基礎構造を表

2に示し,その表示例を図 5に示す.図 5は,一周を学期,表

示単位を (序盤,中盤,終盤)としており,各系列データ中の B,

Wのみがプロットされている.多くの学生が前期中,特に中盤

までに基本操作と文書作成項目を集中して受検していることが

わかる.さらに,全項目を対象として,学生の受検状況を図 6

Page 6: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

図 4 各クラスタの特徴をもつ学生の数

図 5 クラスタ 29 :特徴表示 (項目 B,W)

に,B,W以外の項目を対象としてプロットした特徴表示を図

7に示す.ここからわかるように,クラスタ 29の学生の多くが

必ずしも前期集中型ではないことが,前期中に少なくとも基礎

的な項目はクリアし,通年をかけて終了していることが予想さ

れる.

次に,全体の 24%(852人)の単位取得者にあてはまる特徴で

あるクラスタ 33について注目する.クラスタ 33が示す基礎構

造を表 3に示し,その表示例を図 8に示す.図 8は,一周を週,

表示単位を曜日で表しており,後期中の序盤,中盤の受検,あ

るいは木金曜日の連続受検が示されていることがわかる.一方,

クラスタ 33に属する学生の受検状況を図 9に示す.ここから

もわかるとおり,クラスタ 33の学生は後期に集中受検するタ

イプであり,系列パターンがよくその特性を表していることが

わかる.また,ここで得られた特徴のように,上位期間内 (後

期)において,ある下位期間 (木金)の情報が一定の自由度を保

ちつつも周期的に繰り返される傾向を抽出すること,あるいは

他の情報と組み合わさりながらも発見できること,それらの情

報を視覚的に発見できることが,本稿で提案する分析手法の利

点である.

表 2 クラスタ 29の基礎構造

部分木 ID 学期 週 曜日 項目

1 前期 学期中盤 * *

L * * W

2 前期 * * B

` * * B

` * * B

` * * B

L 学期中盤 * *

図 6 クラスタ 29 :学生の受検状況

図 7 クラスタ 29 :特徴表示 (項目 E,P,M)

表 3 クラスタ 33の部分木情報

部分木 ID 学期 週 曜日 項目

1 後期 学期序盤 * *

2 後期 * 木金 *

` * 木金 *

L 学期中盤 * *

3 後期 * 木金 *

` * 木金 *

L * 木金 *

図 8 クラスタ 33 :特徴表示

図 9 クラスタ 33 :学生の受検状況

4. 3 クラス間の特徴抽出

グループ間の分析として,A 学科 (80名)B学科 (75名)の 2

つの学科に注目して,その違いを分析する.両学科からサポー

ト 35%(4527個) で部分木を抽出し,A 学科により多く支持さ

Page 7: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

図 10 決定木分析結果

れる部分木から 75クラスタ,B学科により多く支持される部分

木から 100クラスタ生成した.決定木分析はWeka [9]上の J4.8

を用いて行い,その結果を図 10に示す.ここから 7つの分類

ルールが得られた.ここでは,A 学科の特徴と B学科の特徴を

示す分類ルールを一つずつ選び,それらを分析した結果につい

て説明する.

分類ルールを示すクラスタ A1,B1の基礎構造を表 4に示す.

表から,A 学科の学生の特徴の一つとして,前期中の中盤での

受検,学期序盤での文書作成項目合格などが読み取れる.また,

学期中盤での受検曜日,合格項目については表計算以外は特定

していないことがわかる.これらを組み合わせて評価すると,

前期序盤,中盤での合格や,その合格項目に共通点があるとい

える.また,B学科の特徴の一つとしては,前期中のプレゼン

テーション項目の合格や,週後半の受検を少なくとも 2回以上

行っていることなどがわかる.

次にこの情報を可視化ツールを用いた結果について説明す

る.クラスタ A1,B1について,1周を週で表現し,曜日単位

で表示したものを図 11,図 12に,1週を学期で表現し,学期

(序盤,中盤,終盤)単位で表示したものも図 13,図 14に示す.

また,表示項目としては図 11,図 13が B,W,E,図 12,図

14が B,W,Pとなっている.ここから両学科はいずれも前期

集中型であるといえる.ただし,両学科では次の点で違いがあ

ることがわかった.図 11と図 12により,A 学科では曜日に偏

りがないが,B学科では木金に集中していることがわかる.ま

た,図 13と図 14より,A 学科の学生が前期の中盤までに集中

して受検していることが示されているが,B学科では比較的前

期中まんべんなく受検していることがわかる.なお,図で示さ

れている項目以外に関しても,この傾向はほぼ同様であること

がわかっている.これらの情報から,A 学科では曜日を問わず

前期中に受検した結果,前期中盤までにほぼすべての項目を合

格し,B学科では特定の曜日に集中して受けているため,同じ

前期型でも比較的遅めに目標を達成したことが予想される.

表 4 クラスタ内の基礎構造

クラスタ ID 部分木 ID 学期 週 曜日 項目

A1 A1-1 前期 学期序盤 * W

A1-2 前期 学期中盤 * E

A1-3 前期 * * W

` 学期中盤 * *

L 学期中盤 * *

A1-4 前期 * * W

` * 木金 *

L 学期中盤 * *

A1-5 前期 * * W

` * 月火 *

L 学期中盤 * *

A1-6 前期 * * W

` * * W

L 学期中盤 * *

A1-7 前期 * * B

` * * B

` * * B

` * * B

` * 月火 *

L 学期中盤 * *

B1 B1-1 前期 * 木金 *

` 学期序盤 * *

L * * P

B1-2 前期 * 木金 *

` * 木金 *

L * * P

B1-3 前期 * 木金 *

` * * W

L * * P

B1-4 前期 * 木金 B

L * * P

B1-5 前期 * * B

` * 木金 *

` * * P

L * * P

B1-6 前期 * * B

` * * B

` * * B

` * * B

` * 木金 *

L * * P

5. ま と め

本稿では,時間情報を含むカテゴリカル属性のデータを,時

間単位ごとの階層関係を用いて表現し,頻出部分木抽出法を用

いて,共通する系列パターンを部分木として抽出した.このよ

うにして得られる情報は,いくつかの時間単位の組み合わせに

よる,周期的あるいは連続的な情報となる.さらに,抽出され

た特徴である部分木集合をクラスタリングし,生成されたクラ

スタ内の基礎構造を定義した後に,その有無によるグループ分

析を行った.そして,特徴を示す系列パターンの表示とその検

証を容易に行うための視覚化ツールの開発を行った.

Page 8: Sequential Data Analysis Sytem based on Time …de/DEWS/DEWS2008/proceedings/...Sequential Data Analysis Sytem based on Time-Scale Hierarchy using Frequent Subtree Mining Ryohei FUKUDAy,

図 11 クラスタ A1: 特徴の表示 (項目 B,W,E)

図 12 クラスタ B1:特徴の表示 (項目 B,W,P)

図 13 クラスタ A1: 特徴の表示 (項目 B,W,E)

本稿で提案した可視化手法は,データを連続的,周期的に分

析できる配置方法に対して,部分木により多く表れる期間,あ

るいはより具体的な期間を強調するように設計した.このよう

にすることで,どのデータ項目,時間単位に注目すれば有用な

特徴を発見できるかを,分析者が時間単位を切り替えることに

よって分析することが可能となった.

今後は,部分木の情報や,分類ルールの情報をより反映した

視覚化を工夫することなどが必要であると考えられる.

文 献[1] R.Agrawal and R.Srikant, “Mining Sequential Patterns,”In Proceed-

ings of The 11th International Conference on Data Engineering,pp.3-14 ,1995.

[2] 中原孝信,森田裕之 “ターゲット顧客を識別するためのクレジット購買履歴データを用いたパターン分析,” オペレーションズ・リサーチ,Vol51,No.2,pp.89-96,2006.

図 14 クラスタ B1:特徴の表示 (項目 B,W,P)

[3] M.J.Zaki, “Efficiently mining frequent trees in a forest,”In Proceed-ings of the 8th International Conference on knowledge Discovery andData Mining,pp.71-80,2002.

[4] 浅井達哉,有村博紀 “半構造データマイニングにおけるパターン発見技法,” 電子情報通信学会,Vol.J87-D1,No.2,2004,pp.79-96.

[5] 福田遼平,大野博之,稲積宏誠 “階層化が可能な時系列データからの特徴抽出,” 第 20回人工知能学会全国大会,2006.

[6] 福田遼平,大野博之,稲積宏誠 “時系列上の階層関係に注目した特徴抽出手法の検討,” 第 18回データ工学ワークショップ(DEWS2007),2007.

[7] 福田遼平,大野博之,稲積宏誠 “時間の階層構造と頻出部分木抽出を用いた系列データ分析,” 電子情報通信学会 AI 研究会 ,AI2007-9,pp.45-50,2007.

[8] John V.C. and Joseph A.K., “Interactive Visualization of Serial Peri-odic Data,”In Proceedings of Symposium on User Interface Softwareand Technology 1998 (UIST’98) ,pp.29-38,1998.

[9] Weka 3 - Data Mining with Open Source Machine Learning Softwarein Java,http://www.cs.waikato.ac.nz/ml/weka/