31
多多多多多多多 10 多多多多多多多多 12 多多多 多多 多多

多変量解析ゼミ 第10回

Embed Size (px)

DESCRIPTION

多変量解析ゼミ 第10回. 第12章クラスター分析 発表者 直江 宗紀. クラスター分析. クラスター分析とは 大量のデータの中に存在するクラスター ( 集落 ) をデータ同士の距離によって分類していく、 分析方法 扱う対象は分析目的により、サンプルの場合、変数の場合と場合によって変わるが分析は可能 分析で用いられる方法は大別すると「階層的方法」と「非階層的方法」がある. 分析の流れ. 大雑把な分析の流れ 個々の対象間の距離を測る 「近い」と判断できる対象間の距離、及び「クラスター」と判断する距離を決め、測った対象間の距離との比較、併合を行う - PowerPoint PPT Presentation

Citation preview

Page 1: 多変量解析ゼミ 第10回

多変量解析ゼミ 第10回

第12章クラスター分析発表者直江 宗紀

Page 2: 多変量解析ゼミ 第10回

クラスター分析

クラスター分析とは 大量のデータの中に存在するクラスター (集落 )をデータ同士の距離によって分類していく、 分析方法

扱う対象は分析目的により、サンプルの場合、変数の場合と場合によって変わるが分析は可能

分析で用いられる方法は大別すると「階層的方法」と「非階層的方法」がある

Page 3: 多変量解析ゼミ 第10回

分析の流れ

大雑把な分析の流れ 個々の対象間の距離を測る 「近い」と判断できる対象間の距離、及び「クラスター」と判断する距離を決め、測った対象間の距離との比較、併合を行う

適当な距離でグループ分けできたクラスターに含まれる対象を調べ、グループの特徴を把握する

Page 4: 多変量解析ゼミ 第10回

デンドログラム

デンドログラム (樹形図 )とは クラスター分析において対象間の距離を樹形図においてグラフ化された物

計算手法によって対象間の距離、配置は変わる(よってデンドログラムの形が変わる)

Page 5: 多変量解析ゼミ 第10回

デンドログラムの例

図1 デンドログラム図例(左図はデンドログラム例に用いたデータプロット図)

Page 6: 多変量解析ゼミ 第10回

最短距離法

最短距離法とは 階層的手法の一つ 最も近い対象間の距離を、 クラスター間の距離として 比較、併合を行う方法

欠点:鎖効果が起こりやすい

鎖効果とは、ある一つのクラスターに対象が1つずつ順に吸収されてクラスター形成がされる状態

図2 鎖効果が起こってしまっているデンドログラム

1つでも近い対象があればクラスターに統合されるため、鎖効果が起こりやすい

Page 7: 多変量解析ゼミ 第10回

様々な距離計算方法

クラスター分析では 分析する際、対象間の距離を計算する必要がある クラスター分析で用いる「距離」は以下の物がある ユークリッド距離 (Euclidean distance) 重み付きユークリッド距離 (Standardized Euclidean distan

ce) マハラノビス距離 (Mahalanobis distance) ミンコフスキー距離 (Minkowsky distance)

本解説では、最短距離法の距離計算にユークリッド距離を用いることとする

Page 8: 多変量解析ゼミ 第10回

ユークリッド距離

ユークリッド距離の計算方法 変数が2個の場合 (要素 i番から要素 j番までの時 )

・・・(1)

変数が p個の場合の一般式

・・・(2)

222

211 )()( jijiij xxxxd

p

kjkikij xxd

1

2)(

Page 9: 多変量解析ゼミ 第10回

最短距離法による分析(1)

変数2個の場合の分析 実際の分析の流れを示すため、以下の例題を用意

例題:国語と英語の成績

生徒No.

国語 x1 英語 x2

1 5 1

2 4 2

3 1 5

4 5 4

5 5 5

表1 5段階評価の国語、英語成績表

図3 表1データのプロット図(Rを用いて描画 )

Page 10: 多変量解析ゼミ 第10回

最短距離法による分析(2)

対象間の距離を計算 ユークリッド距離で計算

生徒 No. 1 2 3 4

1        2 1.41      3 5.66 4.24    4 3.00 2.24 4.12  5 4.00 3.16 4.00 1.00

表2 対象間のユークリッド距離(1)

Page 11: 多変量解析ゼミ 第10回

最短距離法による分析(3)

クラスター形成 一番値の小さい要素を探し、初期クラスタとする 表2より No.4と No.5が一番小さい→クラスターC1( 4,5)とする

この時クラスターと各対象の距離も一番短い方を選ぶ

生徒 No. 1 2 3

1      2 1.41    3 5.66 4.24  

C1(4,5) 3.00 2.24 4.00

表3 対象間のユークリッド距離(2)

Page 12: 多変量解析ゼミ 第10回

最短距離法による分析(4)

クラスター形成 遂次一番小さい値を選択してクラスター形成 2番目に No.1,No.2の距離が短いためクラスター C2(1,2)形成 3番目に C1,C2の距離が短いためクラスター C3(1,2,4,5)形成

生徒 No. C2 3

C2(1,2)    3 4.24  

C1(4,5) 2.24 4.00

生徒 No. C3

C3(1,2,4,5)

 

3 4.24

表4 対象間のユークリッド距離(3)表5 対象間のユークリッド距離(4)

Page 13: 多変量解析ゼミ 第10回

最短距離法による分析(5)

デンドログラムを作成 先程のクラスター形成時に選択した最短距離値を元にデンドログラムを作成する

クラスター評価 任意の距離で区切ることによりデンドログラムからクラスタの分類が出来る

ただし解析者の意図により任意で区切る距離、グループの意味が変わる

図4 例題のデンドログラム(Rを用いて作成 )

Page 14: 多変量解析ゼミ 第10回

最短距離法による分析(6)

変数がp個の場合の分析 ほとんど変数が2個の場合と変わらない ユークリッド距離変数p個の場合の距離計算を行う

表2と同様に対象間距離表を作成 最短距離値を遂次抜き取りクラスター形成 デンドログラムの作成 デンドログラムからデータの評価

Page 15: 多変量解析ゼミ 第10回

最短距離法による分析(7)

生徒 No. 国語 x1 英語 x2 数学 x3 理科 x4

1 86 79 67 68

2 71 75 78 84

3 42 43 39 44

4 62 58 98 95

5 96 97 61 63

6 39 33 45 50

7 50 53 64 72

8 78 66 52 47

9 51 44 76 72

10 89 92 93 91

解析例題:試験成績表6 試験成績データ

Page 16: 多変量解析ゼミ 第10回

最短距離法による分析(7)

生徒No.

1 2 3 4 5 6 7 8 9

1                  

224.8

6                

367.7

6 70.6

1              

452.0

3 29.8

5 81.9

0            

522.0

2 42.8

8 81.7

1 71.2

0          

671.6

4 70.9

4 13.4

5 77.3

8 88.1

5        

744.6

9 35.5

7 39.6

6 43.0

6 64.3

6 36.9

6      

829.9

8 46.6

4 44.7

5 68.8

5 40.2

7 51.6

5 41.5

0    

950.4

7 38.8

5 47.2

8 36.4

7 71.6

9 41.3

5 15.0

3 49.1

3  

1037.1

9 29.7

8 98.6

7 43.8

9 43.3

8 99.8

3 65.1

5 66.4

4 66.3

2

表7 表1のデータの対象間ユークリッド距離

Page 17: 多変量解析ゼミ 第10回

最短距離法による分析(8)

図5 表7から得られるデンドログラム(Rを用いて描画)

Page 18: 多変量解析ゼミ 第10回

他の階層的手法

階層的手法として用いられる代表的な手法 最短距離法( nearest neighbor method)

最も近い対象間の距離をクラスター間の距離とする 最長距離法( furthest neighbor method)

最も遠い対象間の距離をクラスター間の距離とする 群平均法( group average method)

すべての対象間距離の平均をクラスター間の距離とする 重心法( centroid method)

各クラスターの代表点を重心とし、重心間の距離をクラスター間の距離とする

Page 19: 多変量解析ゼミ 第10回

ウォード法(1)

ウォード法 (ward’s method)とは 階層的手法の1つ 他の階層的手法よりクラスター内の集まりが良く、鎖効果が起こりにくく、そのため良いクラスター分析結果が得られやすい

クラスター形成は、クラスター内の平方和を最も小さくするという基準によって形成

図6 良いクラスター分析の結果を示すデンドログラム例

Page 20: 多変量解析ゼミ 第10回

ウォード法(2)

変数が2個の場合のウォード法 ウォード法で用いる距離は平方和距離

・・・(3)

上記式で求めた距離表を元にクラスターを結合クラスター内平方和の増加分が最小のものを統合していく

2

1

2.

2. ))()((

kkjkkikij xxxxS

Page 21: 多変量解析ゼミ 第10回

ウォード法(3)

表1の例題を元に計算 No.1と No.2の生徒のクラスター内平方和

上記のようにして計算していく平均値は計算する同変数の対象要素同士の平均値

00.1

)5.12()5.11()5.44()5.45(

12

222212

S

S

Page 22: 多変量解析ゼミ 第10回

ウォード法(4)

右図はウォード法による計算により作成できた距離表

クラスター形成 平方和の増加が最小である、 No.4,No.5をクラスターとして統合する

この際クラスターと対象間の距離が変化するため計算をしなおす必要がある

生徒No.

1 2 3 4

1        2 1.00      

316.00

9.00    

4 4.50 2.50 8.50  5 8.00 5.00 8.00 0.50

表8 対象間のウォード法による距離(1)

Page 23: 多変量解析ゼミ 第10回

ウォード法(5)

クラスター統合後の距離算出 統合したクラスターと元のクラスターの平方和を算出

例としてクラスター C1(4,5)と要素1の距離算出 結合後の平方和 S145は

平方和増加分 ΔS145は

67.8)33.35()33.34()33.31(

)00.55()00.55()00.55(222

222145

S

17.850.0067.8451145145 SSSS

Page 24: 多変量解析ゼミ 第10回

ウォード法(6)

同様にして計算して距離の計算を算出する 下表はクラスターC1と各対象間の距離値に直した表

生徒No.

1 2 3

1      2 1.00    3 16.00 9.00  

C1 8.17 4.83 10.83

表9 対象間のウォード法による距離(2)

Page 25: 多変量解析ゼミ 第10回

ウォード法(7)

他のクラスターについて 同様にして平方和の増加分が最小の物を選ぶ 下表は最終段階までの計算結果

生徒 No. C2 3

C2    3 16.33  

C1 9.25 10.83

生徒 No. C3

C3  3 14.45

表10 対象間のウォード法による距離(3)表11 対象間のウォード法による距離(4)

Page 26: 多変量解析ゼミ 第10回

ウォード法(7) 以上の結果から得られるデンドログラム

図7 表1例題のウォード法から得られたデンドログラム(Rを用いて作成)

Page 27: 多変量解析ゼミ 第10回

ウォード法(8)

変数がp個の場合のウォード法 考え方は変数が2個の時と変わらない 一般式は以下の通り

・・・(4)

・・・(5)

・・・(6)

ln

i

p

kkllikl xxS

1 1

2. )(

mn

i

p

kkmmikm xxS

1 1

2. )(

lmmllm SSSS

Page 28: 多変量解析ゼミ 第10回

ウォード法(9)

式(4)~(6)をまとめると 以下の式が成り立つ

・・・(7)

これらの式を用いて例題の表6を解析する

p

kkmkl

ml

milm xx

nn

nnS

1

2.. )(

Page 29: 多変量解析ゼミ 第10回

ウォード法(10)

生徒No.

1 2 3 4 5 6 7 8 9

1                  2 309                3 3365 2493              

44229

.54786

.53353

.5           

52253

.52011

.57153

.52535          

62405

.51971

.5689.

51986 3885        

71812

.52007

.5540.

52924 2661 683      

8513.

5619.

52001

.51387 1072 2112 861    

92158

.52303

.5730.

52969 3186 762 1026 1207  

10462.

5705.

53706

.51774 515 4038 1918 1324 1623

表12 表6のウォード法における距離

Page 30: 多変量解析ゼミ 第10回

ウォード法(11) 表12からクラスター統合をして得られるデンドログラム

図8 例題表6のデンドログラム(ウォード法)

Page 31: 多変量解析ゼミ 第10回

最後に

本発表に関し、以下の解析ソフトを利用した Lucent Technology R Microsoft Excel

R 統計計算、グラフィックスのための言語・環境 GNUプロジェクトの一つ オープンソースのため、無料で提供されている Official Site URL http://www.r-project.org/