View
0
Download
0
Category
Preview:
Citation preview
クラスタリングクラスタリング
クラスタリングとはクラスタリングとは
デ デ• データ間に距離を定義し、距離が近いデータ同士をグループ(クラスター)にまとめる作業
• 塩基配列のクラスタリング塩基配列のクラスタリング
– 何度も同じ遺伝子の配列が部分的に読まれデータベースに登録される
– マッチ率等により距離を定義
– 例: UniGene(NIH/NCBI) EST配列をクラスタリング例 ( / ) 配列をクラ タリングヒト 5,112,666配列 ⇒ 53,032 クラスター
クラスタリングのアルゴリズムクラスタリングのアルゴリズム
階層的クラスタリング• 階層的クラスタリング– ボトムアップ型
– トップダウン型
• k‐クラスタリング(k個のグループへ分類)k クラスタリング(k個のグル プ 分類)– k‐means 法
ゴンザレスの最遠点選択法– ゴンザレスの最遠点選択法
• 高次元空間の点を2、3次元へ埋め込みグル プを視覚化する方法ループを視覚化する方法
階層的クラスタリング階層的クラスタリング
Dendrogram
5 79
高さが類似度を
6 8
1 2 3 4 5 6 7 8 9
類似度を表現
1 2
3
4
類似 類似していない
各ノードで部分木の左右を交換しても構わない
階層的クラスタリング ー ボトムアップ型
近いクラスター同士を融合するプロセスを繰り返すクラスタ (点の集合)C C 間の距離に結果が依存クラスター(点の集合)Ci , Cj 間の距離に結果が依存
距離の例: ,:),( yxyxd rrrr離 間のユークリッド距 距離の例:
},|),(max{),(
},|),(min{),(,),(
max
min
jiji
jiji
CyCxyxdCCD
CyCxyxdCCDyy
∈∈=
∈∈=rrrr
rrrr
jj
9 95
6
7
8
95
6
7
8
9
1
3
4 1
3
4
min
max1 2 4 1 2 4
階層的クラスタリング ー ボトムアップ型
近いクラスター同士を融合するプロセスを繰り返すクラスタ (点の集合)C C 間の距離に結果が依存クラスター(点の集合)Ci , Cj 間の距離に結果が依存
距離の例: ,:),( yxyxd rrrr離 間のユークリッド距 距離の例:
},|),(max{),(
},|),(min{),(,),(
max
min
jiji
jiji
CyCxyxdCCD
CyCxyxdCCDyy
∈∈=
∈∈=rrrr
rrrr
jj
99max
56
7
8
95
6
7
8
9
min
1
3
41
3
4
min
1 2 41 2 4
階層的クラスタリング: トップダウン型
5 7 95 7 9
3
6 8
3
6 8
1 2
3
4 1 2
3
4
95
6
7
8
9
1
3
41 2 41 2 3 4 5 6 7 8 9
階層的クラスタリング: トップダウン分割型の例S-plus で使われている diana 法 L. Kaufman, P. Rousseuw. "Finding Groups in Data- An Introduction to Cluster Analysis. " Wiley Series in Probability and Mathematical Sciences, 1990.y y y ,
5 7 95 7 9
5 7 9 ),(avg jidSj∈
),(avg jidSj∈ ),(avg jidSj∈
56 8
56 8
56 8
)( jid ),(avg jidSj∉
1 2
3
4 1 2
3
4 1 2
3
4
),(avg jidSj∉ ),(avg jidSj∉
S={9}, i=7 S={9}, i=8 S={9}, i=6
するか?に追加すべき点は存在
はクラスターの候補は点全体の集合
SSV
)(avg)(avg)( avg についてとき、を距離の平均値とする
jidjidSiVSVi
−≡−∈
),(
),(avg),(avg),(
から遠い」と解釈に最も近く「はを最大にする SVSiSiV
jidjidSiV SjSj
−
−≡ ∈∉
階層的クラスタリング: diana法初期化 S= {} のとき 他の点から一番離れている点を選らぶ
9 95
6
7
8
95
65
6
7
8
95
6
1
3
1
3 ),(avg jidSj∉
),(avg jidSj∉
1 2 4 S={}, i=9 のとき 1 2 4 S={}, i=6 のとき
)()()( jidjidSiV
),(
),(avg),(avg),(
から遠い」と解釈に最も近く「はを最大にする SVSiSiV
jidjidSiV SjSj
−
−≡ ∈∉
階層的クラスタリング: トップダウン分割型
7 9 7 9 7 9 ),(avg jidSj∈ ),(avg jidSj∈
56
7
85
6
7
85
6
7
8
1 2
3
4 1 2
3
4 1 2
3
4 ),(avg jidSj∉
),(avg jidSj∉
1 2 4 1 2 4 1 2 4
S={9}, i=7 S={7,9}, i=8 S={7,8,9}, i=6
とするをを最大にする
繰り返しステップ:
に初期化空集合を初期化ステップ:
)(
{}
hSViSiV
S
−∈
{ }, { , }, { , , },
べるために近い要素があるか調他にも
に追加し、に近いのではならば
終了判定:
とする。をを最大にする
0),(
),(
SSShShV
hSViSiV
>
∈
56
7
8
9
6
終了。に近くなく、追加せずはならば
実行。 繰り返しステップを
べるため、に近い要素があるか調他にも
0),( ShShV
S
≤3Splinter Group
を分離。返し以上のステップを繰り
から分離。と呼び、」を「
GroupSplinter GroupSplinter VS1 2 4
階層的クラスタリング: トップダウン分割型
56
56
56
56 Splinter Group
3 3
1 2 4 1 2 4
とするをを最大にする
繰り返しステップ:
に初期化空集合を初期化ステップ:
)(
{}
hSViSiV
S
−∈
べるために近い要素があるか調他にも
に追加し、に近いのではならば
終了判定:
とする。をを最大にする
0),(
),(
SSShShV
hSViSiV
>
∈
終了。に近くなく、追加せずはならば
実行。 繰り返しステップを
べるため、に近い要素があるか調他にも
0),( ShShV
S
≤1 2
3
4
を分離。返し以上のステップを繰り
から分離。と呼び、」を「
GroupSplinter GroupSplinter VS2 4
問題
クラスタリングの結果に自由度があり、複数クラ タリングの結果に自由度があり、複数の妥当な候補がありうる例を考えよ
クラスターの評価
:iS 直径の評価クラスター
{ }( ) ( ) 2
12
2121 ,|max)(:
∑
∈− ii
i
SxxxxSdiameterS
rrrr=
直径の評価クラ タ
( ) ( ) 2,,1
21 ,, ∑=
=di id xxx
LL
1)( ∑=i
i
xSc
Sr
離の分散の評価:重心からの距
2)(1)var(
)(
∑
∑∈
−=
i
ii
Sxii
ScxS
S r
r )()var( ∑∈ iSx
ii
i ScxS
Sr
問題
直径が同一で、重心からの距離の分散が大きく異なるクラスターの例 (S1 と S2) を考えよく異なるクラスタ の例 (S1 と S2) を考えよ
diameter(S1) = diameter(S2), var(S1) >> var(S2)diameter(S1) diameter(S2), var(S1) var(S2)
k - クラスタリング
を覆いを、内の点集合次元ユークリッド空間 d SSRd ( )
に分解すること。(クラスターと呼ぶ)
個の部分集合、互いに交わらない かつ
k
k
SSSkSSSS
,,, 21
21
L
L∪∪∪=
k21
56
7
8
9
3
1 2 4 3-クラスタリング
k - クラスタリング誤差二乗平均によるクラスターの評価
クラスタリングをの },,{ 1 SSkS k− K
誤差二乗平均によるクラスタ の評価
各クラスターの重心は1)( yS
Sc i ∑=•r
重心間の距離の分散が属するクラスターのと、の各点 xxS
S Syi i∈
•
r
rr
重心間 距離 分散が属するクラ タと、各点
)(1},,1{
2ScxS
S
ki Sxi
i
∑ ∑= ∈
−K
r
r
と呼ぶ誤差二乗平均を )( error squaredmean
k - クラスタリング
誤差二乗平均を最小化する k クラスタリングを計算する誤差二乗平均を最小化する k-クラスタリングを計算する問題はNP困難(現実的な時間で解けない)
できるだけ小さくすると言われているアルゴリズムとしてk-means 法がある
k-means 法の様々な変形が広く使われている
法−meansk
と表現タ をを代表点とするクラスの点
、集合をクラスターの代表点の
STT
r
1
.
の初期集合とする個の点を選択しから(初期化)
と表現ターをを代表点とするクラスの点 y
TkS
SyT rr
2
..1
を空集合にリセットについて各代表点(再クラスタリング)
の初期集合とする個の点を選択し、から(初期化)
∈ STy
TkS
r
( ) . min
..2
追加にをを計算し、の点に最も近いの各点
を空集合にリセットについて各代表点(再クラスタリング)
∈−=−
∈
yTz
y
SxzxyxyTxS
STyr
r
r
rrrrrrr
( ) 1
.3 から重心は代表点に登録された点全体の(代表点を再計算) y yS rr
( ) . 1 . 更新にを重心各代表点ある ずれている可能性が ∑∈
=∈ySuy
y uS
ScTyr
rr
rrr
. .4 プ2と3を繰返すなくなるまで、ステッ誤差二乗平均が改善し
2 4
k-means 法による 2-クラスタリング
2 4 2 4
3
75
15
左
2 4
3
75
1
6
9
8
9
左下へ6
9
8
T={5,9}S5 = {1,2,3,4,5,6,7} 99
初期の選択
9 S5 {1,2,3,4,5,6,7}S9 = {8,9}
2 4
71
2 4
71
次ページ
3
75
6 8
1 a
b
3
75
6 8
1 a
b
9
b
9
bT={5,9} ⇒ T={a,b}S5 の重心は a S9 の重心は b
Sa = {1,2,3,4,5}Sb = {6,7,8,9}
重心を再計算 再クラスタリング
2 4
71 c
2 4
713
75
6 8
1 c
d
3
75
6 8
1 c
d
9 T={c,d}Sc = {1,2,3,4,5}Sd = {6,7,8,9}
9T={a,b} ⇒ T={c,d} Sa の重心は cS の重心は d
重心を再計算 再クラスタリング
Sb の重心は d
誤差二乗平均は収束クラスターに変化なし
k - クラスタリング クラスターの評価に直径を使う場合
と定義
に対してクラスタリングの
==
=−
kiSdiameterCqSSSCkS k
}1|)(max{)(},,,{ 21
L
L
と定義== kiSdiameterCq i },,1|)(max{)( L
?効率的に計算できるか
をクラスタリングを最小化する − CkCq )(
クラスタリングがとなるに対して与えられた −≤ kBCqB )(する問題はNP完全存在するか否かを決定
クラスタリングがとなるに対して与えられた ≤ kBCqB )(
近似的解法
{ } とおくクラスタリングのは kSCCqopt −= |)(min
を生成するクラスタリングとなる CkoptCq −•≤ 2)(
るアルゴリズムが存在す
を生成するクラスタリングとなる CkoptCq −•≤ 2)(
h i iif hG l ’ heuristicspoint farthest sGonzalez’
TcSST
•
•r
1 に追加を選択しから1点
初期化の集合とし、空集合でのクラスターの代表点を
xneighborTTSxkj
−∈
=•rr
K
)(.1,,2
と記述の点をに最も近い
プを実行について以下のステッ各
TScxneighborx
g
∈r
rr
2)(
)(
点表点との距離が最大の属するクラスターの代
ターに属すると定義を代表点とするクラスは
と記述点をに最も近
{ }T
TSc j −∈
point)(farthest
.2
に追加を
点表点との距離が最大の属するクラスタ の代
{ }TSxxneighborxcneighborc jj −∈−=−rrrrr |)(max)(
79
79
5
6
7
8
5
6
7
8
1 2
3
4 1 2
3
4S ={1,2,3,4,5,6,7,8,9}T={1}
T={1,9}neighbor(3) = 1neighbor(6) = 1
2 4 2 4{ }neighbor(8) = 9
79
79
5
6
7
8
5
6
7
8
1 2
3
4 1 2
3
4
T={1,5,9}neighbor(3) = 1neighbor(6) = 5neighbor(8) = 9
T={1,5,9}neighbor(3) = 1neighbor(6) = 51 2 4 2 4neighbor(8) 9neighbor(8) = 7
5
6
79
3
6 8
1 2
3
41 2 3 4 5 6 7 8 9
T={1,5,9}neighbor(3) = 4neighbor(6) = 5neighbor(6) 5neighbor(8) = 7
問題問題
においてheuristicspointfarthestsGonzalez’
れが生成される例をつく
クラスタリングとなる
において
CkoptCq −•= 2)(heuristicspoint farthest sGonzalez
れが生成される例をつく
点間の距離をできるだけ保存して高次元を低次元に埋め込みクラスターを視覚化する
Multi-dimensional Scaling
Latent Semantic Indexing
Self-Organizing Maps (SOM)
Multi dimensional ScalingMulti‐dimensional Scaling
高次元における2点 i,j 間の距離 di,j
点 i を低次元への写像した結果 f(i)
点間の距離をできるだけ保つ写像 f が望ましい
∑ −ji jijfif dd
,2
,)(),( )(最小化したい指標
∑ ji jid,
2,
最小化したい指標
解答例解答例
クラスタリングの結果に自由度があり、複数のクラ タリング 結果 自由度 あり、複数候補がありうる例を考えよ
円周に等間隔に並んだ点列のクラスタリング円周に等間隔に並んだ点列のクラスタリング
12 8
3 73
4 61 2 3 4 5 6 7 8 2 3 4 5 6 7 8 1
45
6
解答例
直径が同一で、重心からの距離の分散が大きく異なるクラスターの例を考えよく異なるクラスタ の例を考えよ
diameter(S1) = diameter(S2), var(S1) >> var(S2)diameter(S1) diameter(S2), var(S1) var(S2)
S1 S2
解答例解答例
直線上に置かれた4点の 2 クラスタリング直線上に置かれた4点の 2-クラスタリング
0 1+ε 2 3ε>0 は限りなく 0 に近い数
0 1+ε 2 3
1番目に選択 2番目に選択
近似解q(C)=2
最適解最適解q(C)=1+ε
付録 Gonzalez’s farthest point heuristics の証明
クラ タリ グをが生成する定理
付録 Gonzalez s farthest point heuristics の証明
)(2)( )(heuristicspoint farthest sGonzalez’
optGopt
G
CqCqCkCqCk
⋅≤−
−
とすればクラスタリングをが最小の
クラスタリングをが生成する定理
{ }jcccT rK
rr= −,,, 121 のとき、補題
j
j
ccneighbor
cTrr
r∪
)(
}{
以上離れている
の任意の2点は
jj ccneighbor −
)(
ま
以上離れている
ihjj ccccneighbor
jihrrrr
−≤−
≤<≤
)(
1 についてつまり
jj
r crの場合 )( 23 ccneighbor rr
=
1c 3c
2cr
313223)( ccccccneighbor rrrrrr−≤−= なので
213132 cccccc rrrrrr−≤−でより先に選択されたのが
r 3crの場合 )( 13 ccneighbor rr=
1c
2cr
323113)( ccccccneighbor rrrrrr−≤−= なので
213132 cccccc rrrrrr−≤−でより先に選択されたのが
{ } についてのとき、補題 j jihcccT rK
rr≤<≤= − 1 ,,, 121
以上の任意の2点間距離はつまり、 jjj
ihjj
ccneighborcT
ccccneighbor
rrr
rrrr
−∪
−≤−
)(}{
)(
j 般の場合を証明に関する帰納法. 一
以任意 点間距離り、 jjj g )(}{
jj cneighborcTji
jrr
=• )( なのでに近いのはの中で最ものとき、
般 場合を証明に関する帰納法
jhjj ccccneighbor rrrr−≤−)(
)( jcneighbor rhcr
代表点
jcr 代表点以外の点
ji < のとき:
jcccT
jrrr
⎭⎬⎫
⎩⎨⎧=
−•
221
2
を考える。つまり
態、一つ前のステップの状個の代表点を選択した
jj
j
acneighborc
cccTrrr
K⎭⎬⎩⎨
−−
−
11
221
)(
,,,
定す ば 帰納法 仮
を代表点の属するクラスターのこの時点での
を考える。つまり
ihj ccca rrrr−≤− −1定よりとすれば、帰納法の仮
ar br
c jrの属するこの時点で
br
クラスターの代表点を
jcr1−jcr
個代表点を選択後に のとき、つまり121 1 ,,, − −⎭⎬⎫
⎩⎨⎧=• j jcccT r
Krr
ば十分 となることを示せ 1)( −−≤− jjj caccneighbor rrrr
ar br
ar br
のとき1)( −= jj ccneighbor rr
a ba b
jcr1jcrjcr1jcr j1−jj1−j
1−jcr れたのでが代表点として選択さ jj cc rr−1 のがより近い代表点
1−−≤− jj cacb rrrr
jjj cbccneighbor rrrr−≤−)(
のでクラスターに移動した
ターを移動しないときのとき、つまりクラスbcneighbor j
rr=)(
ar br
ar br
a ba b
jcr1−jcrjcr1−jcr j1jj1j
11 )( −− −≤− jjjj caccneighborc rrrrrれたのでが代表点として選択さ
)(2)()( heuristicspoint farthest sGonzalez’ G
CqCqCkCqCk
≤
−
とすればクラスタリングをが最小の
クラスタリングをが生成する定理
)(2)()( optGopt CqCqCkCq ⋅≤− とすればクラスタリングをが最小の
{ }ccTkGonzalez =• 個の代表点をの方法で選んだrr{ }
i hbDc
ccTk
k
k
)(,
,, Gonzalez
1
1
•
=•
+
とおく
点を実行して得られる代表ステップ2をもう一度
個の代表点をの方法で選んだ
rr
rK
cneighborcD kk )( 11 −= ++ とおく
DCqD G 2)( .2 ≤• よって以下各クラスターの直径は
≥D
icr D2≤直径ステップ2での代表点の選び方から各クラスターの任意の元と
≥D代表点との距離は最大でも D
{ } 1 1k DcTk ∪+• +
(補題より)
以上はの任意の2点間の距離個の代表点r
opt kC• かは個のクラスターのどれの最適なクラスタリング
{ } )( 1 1 optk
opt
CqDcTk ≤∪+ + のうち2点を含むので個の代表点
個最r
)(2)(2)( optGG CqCqDCq ⋅≤≤• より、
Recommended