View
0
Download
0
Category
Preview:
Citation preview
1
クラスター分析
浅見泰司東京大学大学院工学系研究科 教授
増山篤(2002)作成のパワーポイントを元にしている。
©Yasushi Asami 1
参考文献Romesburg, H.C. 著/西田英郎・佐藤嗣二訳 (1992) 『クラスター分析』内田老鶴圃(東京)奥野忠一, 久米均, 芳賀敏郎, 吉澤正 (1981) 『多変量解析法』日科技連(東京)水野欽司 (1996)『多変量データ解析講義』朝倉書店(東京)Adriaans, P. and Zantinge, D. 著/山本 英子・梅村 恭司 訳(1998) 「データマイニング」,共立出版(東京)Anderberg, M.R.著/西田英郎・佐藤嗣二・江藤香・寺尾裕・宮井正彌訳(1988)『クラスター分析とその応用』内田老鶴圃(東京)宮本定明(1999)『クラスター分析入門:ファジィクラスタリングの理論と応用』森北出版(東京)
1.クラスター分析とは?
似ている物同士をまとめる手法 → 分類分類の基本
似ている物を一緒にする本、動植物、料理の分類価値観(VALS=Value of Life Style, LOV=List of Values)
2つの分類(教師つきと教師なし)教師つき: 分類例がある教師なし: 分類例がない
分類の仕方n個の観測値をm個の群に分類する方法の数第2種スターリング数Sn,m=Σk=0
m (-1)m-k mCk kn
例えば、S25,5=2,436,684,971,110,751
似ているかどうか・・・類似度の指標・距離
最も簡単な方法
似ている物から順にまとめていく方法(通常のクラスター分析手法はこれ・・・階層的クラスター分析)
クラスター分析の重要性
分類は整理・学問の基礎様々な科学分野で必要
数学・・・同値類→集合の概念生物学・・・霊長目ヒト科ホモサピエンス社会学・・・アソシエーションとコミュニティ法学・・・公法と私法都市計画学・・・土地利用分類
都市構造が把握しやすくなる
分類→分析対象の持つ構造の本質を失うことなく情報を圧縮(できることになっている・・・)
クラスター分析の発展
コンピュータ・インターネットの普及によって膨大な情報、データが日夜生産されている
→膨大なデータからパターンを探り出すことは重要
探索的データ分析
データマイニング
クラスター分析は,この一種とも位置づけられる
2
クラスター分析の種類
クラスター分析と言ってもいろいろな手法が存在
• 階層的クラスター分析
• 非階層的クラスター分析
階層的クラスター分析
階層的クラスター分析のイメージ
系統立って,階層的に
非階層的クラスター分析
非階層的クラスター分析のイメージ
とにかく似ているものを集めて,グループを作ればいい
類似度・距離
いずれにしても,クラスター分析を行うためには,何らかの基準をもって,二つのサンプルが「似ている」とか「似ていない」とか言う必要がある
類似度、あるいは、距離(非類似度)
類似度が大きいものは似ている
距離が小さいものも似ている
距離の定義
n 個のサンプルおのおのについて、 p 種類の特性が測られたとする
i番目のサンプルの特徴を表すベクトルを(xi1,xi2,….,xip)
とする。
尺度の分類
名義尺度(nominal scale): 区別だけ(血液型、ID番号)
順序尺度(ordinal scale): 大きさは重要でなく、順序のみが重要(大中小)
間隔尺度(interval scale): 差の値が重要(℃)
比率尺度(ratio scale): 0も意味がある間隔尺度(m)
尺度に応じて様々な距離の定義がある
3
距離の定義
(1) ユークリッド距離
(2) 標準化ユークリッド距離
上のユークリッド距離を標準偏差で基準化
kjkikij xxd 2)(
距離の定義
(3) Karl Pearson距離(scaled Euclidean距離)skk=k番目の変数の標本分散
(4) Minkowski距離m=1ならばcity-block距離、m=2ならばユークリッド距離
kkkjkikij sxxd /)( 2
mp
k
mjkikij xxd /1
1)||(
その他の距離• マンハッタン距離,マハラノビス汎距離など
• GDM距離(順序尺度の距離)(Walesiak, 1993)• iとkが近いと分子の第2項は大きな正の値になる
• 他の値と比較してどれだけ近いかを見ていることになる
Walesiak, M. (1993) "Statystyczna analizawielowymiarowa w badaniach marketingowych[Multivariate Statistical Analysis in Marketing Research]" Wroclaw University of Economics, Research Papers no.654.
http://keii.ue.wroc.pl/pracownicy/mw/2010_Walesiak_Dudek_Springer.PDF
類似度の定義
(1) 相関係数
ピアソンの積率相関係数と同じ
その他の距離
マンハッタン距離,マハラノビス汎距離など
i ii i
i ii
yyxx
yyxxr
22 )()(
))((),( yx
少し変わった類似度の定義
ベクトル間の角度
cosθ=xTy/(|x||y|)xとyが同じ方向(類似度)ならば最大値1
関連係数
2分化した表での頻度による係数など
Yuleの関連係数=(ad-bc)/(ad+bc)四分点相関係数=(ad-bc)/[(a+b)(c+d)(a+c)(b+d)]1/2
1 01 a b0 c d
クラスター間の距離
「ある個体と別の個体が似ているか似ていないか」ばかりでなく,「あるクラスターと別のクラスターが似ているか似ていないか」ということも重要
なぜなら,もし二つのクラスターが似ている(近い)のであれば,それらをまとめて一つのクラスターと考える方が自然だから
4
重心間距離
二つのクラスターをCg, Chとする
二つのクラスターの重心間の距離
最近距離
異なるクラスターに属する二つの個体間の距離の最小値
最遠距離
異なるクラスターに属する二つの個体間の距離の最大値
(群間)平均距離
すべての個体のペアについて距離を求め,その平均を取る
個体の扱い
このようにクラスター間の距離を定義することで,クラスターと一個の個体との距離を考えることもできる
(一個の個体のみからなるクラスターと考えればよい)
階層的クラスター分析の手順
Step 1 あらゆるクラスター,個体の間で距離を測り,もっとも近いもの同士のペアを見つける
Step 3 すべての個体が一つのクラスターにまとめられたかどうか調べる.もし,そうならば終了する.そうでなければStep 1へ戻る
Step 2 発見されたペアをまとめ,一つのクラスターにする
5
2.階層的クラスター分析の実例
今,x, yという二つの属性項目について観測値が得られている5つのサンプルがあるものとしよう
サンプル名 x yA 1 1B 0 2C 2 5D 4 1E 5 3
データマトリックス
階層的クラスター分析の実例
x, yの張る空間でサンプルA~Eは左図のような位置を占める
AとBは近い(似ている)AとEは遠い(似てない)
階層的クラスター分析の実例
個体間の類似度として,ユークリッド距離を用い,クラスター間の類似度として重心間距離を用いることにしよう
AC間の距離= 22 14
=4.123....
階層的クラスター分析の実例
A B C D E
A 1.414 4.123 3.000 4.472B 1.414 3.606 4.123 5.099C 4.123 3.606 4.472 3.606D 3.000 4.123 4.472 2.236E 4.472 5.099 3.606 2.236
すべてのサンプルのペアについて,距離を求め,表にまとめると以下のようになる
距離行列
階層的クラスター分析の実例
A B C D E
A 1.414 4.123 3.000 4.472B 1.414 3.606 4.123 5.099C 4.123 3.606 4.472 3.606D 3.000 4.123 4.472 2.236E 4.472 5.099 3.606 2.236
最小値
AとBをまとめ,一つのクラスターにする
階層的クラスター分析の実例
左図のようにAとBがまとめられたクラスターが形成される
6
階層的クラスター分析の実例
{A,B} C D E
{A,B} 3.808 3.536 4.743C 3.808 4.472 3.606D 3.536 4.472 2.236E 4.743 3.606 2.236
最小値
再び,距離行列を求めてやると...
今度は,DとEを併合
階層的クラスター分析の実例
その結果,下の図のような結果になる
{A,B}とCと{D,E}の三種類に分類
階層的クラスター分析の実例
以下,同様にして...
{A,B,C}と{D,E}の2分類
階層的クラスター分析の実例
最終的には...
すべて同じカテゴリーへと分類
終了
階層的クラスター分析の実例
このように順次クラスターを形成していく過程を左の図のように,表現できる
樹形図(デンドログラム)
3.階層的クラスター分析法
クラスターとクラスターを併合するときの基準として何を用いるかによって,階層的クラスター分析法にもいくつかの種類がある
(1) 重心法(Centroid method)
先の例題のように,重心間の距離を用いて,クラスターをまとめていく方法
7
階層的クラスター分析法
(2)最短距離法,単連結法
(single linkage clustering method, nearest neighbor clustering method)
クラスターを併合するときの基準として,最近距離を用いる
階層的クラスター分析法
(3) 最長距離法,完全連結法
(complete linkage clustering method, furthest neighbor clustering method)
クラスターを併合するときの基準として,最遠距離を用いる
階層的クラスター分析法
(4) 群間平均法,平均連結法
(unweighted pair-group method using arithmetic average, average linkage between the merged groups)
クラスター間の距離として,群間平均距離を用いる
階層的クラスター分析法
(5) Ward’s clustering method
二つのクラスターを併合したとき,群内平方和の増加量が最小となる二つのクラスターを一緒にする
ちょっと分かりにくいので,次のスライドから具体例で説明
階層的クラスター分析法
下の図のような場合,Ward法によれば,{A,B}とCと{D,E}のうち,どの二つがまとめられるか?
階層的クラスター分析法
{A,B}内の群内平方和={(1-0.5)2+(1-1.5)2}+{(0-0.5)2+(2-1.5)2}=1
AとBがつくるクラスターの重心は,(0.5, 1.5)
Aに関して Bに関して
8
階層的クラスター分析法
仮に{A,B}とCを一緒にし,{A,B,C}とすると,この重心は
(1, 8/3)
{A,B,C}内の群内平方和={(1-1)2+(1-8/3)2}+{(0-1)2+(2-8/3)2} +{(2-1)2+(5-8/3)2}=96/9≒10.67
階層的クラスター分析法
したがって,{A,B}とCを併合したときの群内平方和の増加量は,
10.67 - 1= 9.67
階層的クラスター分析法
同様に,{A,B}と{D,E}を併合した場合の群内平方和の増加量は...
同様に,Cと{D,E}を併合した場合の群内平方和の増加量は...
16.25
10.17
階層的クラスター分析法
もう一度まとめると...
{A,B}& C →9.67
{A,B}& {D,E} → 16.25
C& {D,E} → 10.17
最小値
という訳で,{A, B} と C をまとめ,一つのクラスターにする
階層的クラスター分析法
いくつかある階層的クラスター分析法の中で,どれを用いるのが良いのか?
(1) それを用いる研究分野において適切と思われるものを用いる
(2) SLINK clustering method(最近隣距離を
用いる)よりは,Ward 法が良い場合が多い
階層的クラスター分析法
SLINK法では,(その手法の性質上)左の図のようないびつな形(鎖状)のクラスターが形成される可能性がある
一方,Ward 法は,クラスター形状に配慮し,大体「丸い」クラスターが形成されるようになる
9
4.樹形図の切断
階層的クラスター分析によって作成される樹形図も,それ自体は分類結果ではない
樹形図を適当な高さで切断してやることで,個々のサンプルがあるカテゴリーへと分類されていく
樹形図の切断
例1) 先ほどの樹形図を高さ3.5で切断
5つの個体(サンプル)は,{A,B,C}というグループと{D,E}というグループのどちらかに二分される
樹形図の切断
例2) 先ほどの樹形図を高さ3で切断
{A,B}とCと{D,E}の三分類
樹形図の切断
では,どこの高さで切るべきなのか?
(1) クラスター分析を利用している分野の先験的知識を利用する
「距離がこれこれ以上離れているものは質的に異なるとみなすことができる」
樹形図の切断
(2) 適切な分類数がデータだけからも読みとれそうな場合もあるので,それを見抜く (メノコ)
左のように個体の属性値(ベクトル)が分布していれば,3分類すべきだと考える
樹形図の切断
このことを樹形図で見ると...
この高さ以下では,クラスター数は3(以上)
この高さ以下では,クラスター数は4以上
この長さがかなり長い
この下の樹形図はゴチャゴチャ
10
樹形図の切断
樹形図を眺め,次のクラスターの併合までが「かなり長い」ところを探し出し,その区間の適当なところで(どこでもよい)で樹形図を切断するという方策が考えられる
しかし,上のような方法はいかにも分析者の主観にかなり影響されそう.もう少し客観的な方法はないのか?
樹形図の切断
適切そうな分類数のための指標
BealeのF値
Pseudo T2 TestCubic Clustering Criterion (CCC)統計量
Sarle (1983)による。CCC>3が目安。
BealeのF値(Beale’s Pseudo F statistic)2つのクラスター結果C1とC2(クラスター数はそ
れぞれc1,c2でc1>c2)があったとする。W1、W2をそれぞれのクラスター内のクラスター平均からの偏差平方和とすると、ビールのF値は、
F*=(W2-W1)(n-c1)k1/W1[(n-c2)k2-(n-c1)k1]で定義される。ただし、
n=全個体数、k1=c1-2/p、k2=c2
-2/p、p=変数の数
F*>FcritならばC1を採択。 FcritはF(k2(n-c2)-k1(n-c1),k1(n-c1))のF分布の(例えば)5%点。
5.非階層的クラスター分析
階層的クラスター分析のように,階層的関係にはこだわらず,集団をいくつかの群に分割することを試みるという方法
非階層的クラスター分析
非階層的クラスター分析
非階層的クラスター分析は大体以下の手順にしたがって行われる
Step 1 分析者の方で,いくつのクラスターに分類するかを決める.この分割数を
ここでは,m とする
個体群に対して,初期状態として,
適当な m 分割を与える.
Step 2
非階層的クラスター分析
Step 3 何らかの意味で,前の分割よりも,分割を改善するような方向を探し出し,分割をやり直す
Step 4 改善される程度が十分小さいかどうかを判定する.もし,十分小さいならば,この手続きを終了する.そうでなければ,Step 3へ戻る
11
非階層的クラスター分析
なぜ,非階層的クラスター分析が必要なのか?
階層的クラスター分析では,距離行列が必要とされる
個体数を nとすると,この距離行列におのサイズは, n2となる.対角要素と上三角部分を無視しても,そのサイズは n(n -1)/2 となり,いずれにせよ,nの二乗に比例して,コンピューターのメモリを喰うことになる
非階層的クラスター分析
したがって,データサイズが大きくなると,コンピュータのメモリがパンクして,分析が行えないことがある
非階層的クラスター分析
そんなにやたらデカいデータをクラスタリングするような必要性があるのか?
例) 人工衛星画像の解析
Landsatのデータ
この中に数十万個のラスターが存在している
非階層的クラスター分析
各マス目(ラスター)には,いくつかの波長帯の電磁波をどれだけ強く反射したか,ということがデータとして記録されている
都市域,森林,水面などなど地表面の物理的状況の違いに応じて,電磁波の反射の強さ(分光反射特性)は異なる
逆に,データに対し,適切なクラスタリングを行うことで,人工衛星データから地表面の物理的状況を知ることができる
非階層的クラスター分析
非階層的クラスター分析によって土地被覆分類を行った結果
色によって分類カテゴリーが異なる
6.非階層的クラスター分析の計算法
「k-平均(k-means)法」 の場合
Step 2
分類数 kを決めるStep 1
属性空間においての k 個の適当な点
(分類中心)を取る
Step 3 各サンプルを最も近い分類中心に割り当てる.これによって,(暫定的に)k個のクラスターが生成される
次のスライドへ
12
非階層的クラスター分析の計算法
各クラスターの重心を求め,それを新たな分類中心へと更新する
Step 4
Step 5 更新前の分類中心と更新後の分類中心のずれを求める.もし,ずれが十分小さいならば,終了する.そうでなければ,更新された分類中心を用いて,Step 3へ戻る.
非階層的クラスター分析の計算法
二つの属性値を持つ8つのサンプルA~Hがあったとする
これを k 平均法
によって3つのカテゴリーへ分類しよう
x yA 1 0B 0 1C 1 1D 5 1E 4 2F 3 5G 4 6H 4 5
非階層的クラスター分析の計算法
最初の分類中心として (2,3), (4,0), (6,4) の3点を取る
この平面上での距離としてユークリッド距離を用いる
非階層的クラスター分析の計算法
各サンプルを最近隣の分類中心に割り当てると,左図の通り
非階層的クラスター分析の計算法
先ほどの(仮)分類結果を使い,新たに分類中心を求めると左図の通り
これを使って,新たにクラスターを作り直すと...
非階層的クラスター分析の計算法
左図のように,{A,B,C}, {D,E}, {F,G,H} の三つのクラスターができる
以後,分類中心を更新しても,このクラスター構成は変わらないので,分析終わり
13
©Yasushi Asami 73
演習編
クラスター分析を行うことのできるソフト
「College Analysis Ver.6.3」
http://www.heisei-u.ac.jp/ba/fukui/analysis.html
©Yasushi Asami 74
使い方
「ファイル」→「新規作成」
「シート数」を 1 とし、「行数」、「列数」を指定
Excel 上のデータを、凡例を含めてコピーしたものを「編集」→「全貼付け」
「分析」→「多変量解析等」→「分類手法」→「クラスター分析」を選択
「変数選択」で分析対象とする変数を選択(「all」で全変数が選択可能)
「距離測定法」、「クラスター構成法」を指定して、「距離行列」、「クラスター構成」、「デンドログラム」をそれぞれ実行
©Yasushi Asami 75
浅見分レポート課題
課題: 分類すると面白そうな都道府県別のデータを入手し、クラスター分析を行い、都道府県を分類してその結果を考察せよ。ただし、複数のクラスター構成法を行い、分類結果が構成法によって、どのように変わるのかを試すこと。
提出: 10月17日までに、9階901号室(不在ならば、902号室)へ。紙媒体での提出が困難な場合は、asami@csis.u-tokyo.ac.jpへメールでpdfファイルを送付のこと。
©Yasushi Asami 76
Recommended