31
1 Cluster Analysis ( 군군 군군 )

Cluster Analysis ( 군집 분석 )

Embed Size (px)

DESCRIPTION

Cluster Analysis ( 군집 분석 ). Cluster Analysis 란. (1) Primary Objective : 사전에 고려된 변수들에 기초를 두고 , 다양한 특성을 지닌 대상들을 상대적으로 동질적인 집단으로 분류하는 것 (2) Basic Principle - PowerPoint PPT Presentation

Citation preview

Page 1: Cluster Analysis ( 군집 분석 )

1

Cluster Analysis( 군집 분석 )

Page 2: Cluster Analysis ( 군집 분석 )

2

Cluster Analysis 란

(1) Primary Objective

: 사전에 고려된 변수들에 기초를 두고 , 다양한 특성을 지닌 대상들을

상대적으로 동질적인 집단으로 분류하는 것

(2) Basic Principle

: High internal (Within-cluster) homogeneity

and high external (between-cluster) heterogeneity

군집내의 소비자들은 서로 유사하고 한 군집의 소비자는 다른 군집

의 소비자와 서로 다르게 군집을 선택한다 .

Page 3: Cluster Analysis ( 군집 분석 )

3

(3) Application

ⅰ) Market Segmentation /Benefit Segmentation ⅱ) 구매행동 이해 : 동질구매집단 분류를 통한 특성 파악 ⅲ) 신제품 기회요인 도출 : brand 와 Product 를 clustering ⅳ) Test market 선정 ⅴ) Data 축소

(4) Cluster Vs. Factor Analysis cluster : 대상 분류 Factor : 변수 (variable) 분류

(5) Cluster Vs. Discriminant Analysis - Object Classification Cluster : Cluster 나 Group 에 대한 사전 정보 ( 분류기준 ) 가 없는 경우 ( 독립 관계 분석 ) Discriminant : Cluster 나 Group 에 대한 사전 정보가 있는 경우 ( 종속 관계 분석 )

Page 4: Cluster Analysis ( 군집 분석 )

4

Cluster Analysis 방법

Formulating the problem

Selecting a Distance Measure

Selecting a Clustering Procedure

Deciding on the Number of Clusters

Interpreting and Profiling Clusters

Assessing the Validity of Clustering

Page 5: Cluster Analysis ( 군집 분석 )

5

▣ Basic Concept

● An Ideal Clustering Situation ● A Practical Clustering Situation

●●

Variable 2 Variable 2

Vari

ab

le 1

Vari

ab

le 1

Page 6: Cluster Analysis ( 군집 분석 )

6

(1) Formulating the Problem

: clustering 의 기초가 되는 변수 선정

ⅰ) 군집되는 대상의 특성 분류

ⅱ) Cluster Analysis 의 목적과 연결

(2) Similarity Measure

: Distance Measure 가 주로 이용됨

( 주어진 질문에 대해 대답 간 차이의 제곱의 합으로 계산 )

① Euclidean distance

r

dijE = ∑ (Xik - Xjk)2 (k=1,.....r)

k=1

Xik : k 차원에서 대상 i 의 좌표

Xjk : k 차원에서 대상 j 의 좌표

Page 7: Cluster Analysis ( 군집 분석 )

7

② Squared Euclidean distance

Dij = ∑(Xik - Xjk)2

i=1

An example of Euclidean distance between two objects measured on two variables – X and Y.

Y

X

(X1-Y1) (X1-Y1)

(X2-Y2)

(Y2-Y1)

Object 1

Distance =

(X2-X1) + (Y2-Y1)

22

Normalized distance function

: Raw data 를 Normalization (Mean=0, Variance=1) 하여

scale 상의 차이로 발생된 bias 를 해결한 Euclidean distance

Page 8: Cluster Analysis ( 군집 분석 )

8

③ City-block distance (Manhattan distance) r dij

c = ∑ Xik - Xjk

i=1

[ 문제점 ] ⅰ) 변수간에 correlation 이 없다는 가정 ⅱ) Characteristic 을 측정하는 단위 (Scales) 이 상이성이 가능 -------------------------------------------------------------- Object Purchase Commercial Distance Citi-block Probability(%) Viewing Time(min) (min) (second) -------------------------------------------------------------- A 60 3.0 AB 25.25 61 B 65 3.5 AC 10.00 153 C 64 4.0 BC 4.25 40 --------------------------------------------------------------

Page 9: Cluster Analysis ( 군집 분석 )

9

④ Mahalanobis distance

ⅰ) Standard Deviation 으로 scaling 해서 data 표준화

ⅱ) intercorrelation 을 조정하기 위해서 within-group

variance-covariance 합산하는 접근 방식

ⅲ) 변수간에 서로 correlated 되었을 때 가장 적합

⑤ Minkowski distance

dijM = [∑(Xik - Xjk)p]1/r

Page 10: Cluster Analysis ( 군집 분석 )

10

(3) Clustering Algorithms Clustering

Procedures

Nonhierarchical

Hierarchical

Hierarchical

Divisive

SequentialThreshold

ParallelThreshold

OptimizingPartitioningLinkage

MethodsVarianceMethods

CentroidMethods

Ward’sMethod

SingleLinkage

CompleteLinkage

AverageLinkage

Page 11: Cluster Analysis ( 군집 분석 )

11

1) 계층적 군집방법 (Hierarchical Cluster Procedure)

① Agglomerative Procedure

: 한 개의 대상에서 출발하여 , 주위의 대상이나 cluster 를 군집화하여

최종적으로 1 개의 cluster 로 만드는 방법

ⅰ) Single Linkage : minimum distance rule

군집이나 대상간의 최소거리로 군집화

ⅱ) Complete Linkage : maximum distance rule

ⅲ) Average Linkage

ⅳ) Ward's Method : W

● Within-cluster variance minimization rule

● Within-cluster distance 의 전체 sum of square 의 증가가 최소가

되게 cluster

ⅴ) Centroid Method

● 대상이나 cluster 의 Centroid(mean) 간의 거리 최소화

● 단점 : Metric data 에만 적용 가능

Page 12: Cluster Analysis ( 군집 분석 )

12

② Decisive Method : 큰 한 개의 cluster 로 부터 분리시켜 가는 방법

Dendrogram illustrating hierarchical clustering.

1 2 3 4 5 6 7

01

02

03

04

05

06

07

08

O

bserv

ati

on

nu

mb

er

Page 13: Cluster Analysis ( 군집 분석 )

13

[Single Linkage : 단일기준 결합 방식 ]

A

D

BC

1.5

1.55

1.4

1.2

1.3

A

D

BC

[Complete Linkage : 완전기준 결합방식 ]

A

D

BC

A

D

BC

1.51.55

Page 14: Cluster Analysis ( 군집 분석 )

14

[Average Linkage : 평균기준 결합방식 ]

A

D

BC

1.45

1.425

A

D

BC

Page 15: Cluster Analysis ( 군집 분석 )

15

[Ward Method]

● ●

●●

● ●

●●

[Centroid Method]

Page 16: Cluster Analysis ( 군집 분석 )

16

2) 비계층적 군집방법 (Nonhierarchical Clustering Procedures)

= k-means clustering

ⅰ) Sequential threshold procedure

① 하나의 cluster center 를 선택하고 미리 산정된 거리 내에 있는

모든 대상을 그 cluster 안에 포함시킨다 .

② 두 번째 cluster center 를 선택하고 미리 산정된 거리 내에 있는

모든 대상을 그 cluster 안에 포함시킨다 .

ⅱ) parallel threshold Procedure

① 초기에 여러 개의 cluster center 를 선정하여 가장 가까운 center

로 대상을 포함시킨다

② threshold 거리는 조절될 수 있다

ⅲ) Optimizing Partitioning Method

: 전체적인 optimizing criterion (e.g.,within-cluster distance 의

평균 ) 에 따라 나중에 대상을 cluster 별로 재편입 시킬 수 있다

Page 17: Cluster Analysis ( 군집 분석 )

17

▣ Nonhierarchical Clustering 의 단점

① 사전에 cluster 수를 결정해야 한다

② Cluster Center 선정이 임의적이다

③ 결과가 data 의 순서에 의존적이다

▣ Nonhierarchical Clustering 의 장점

① center 선정에 있어서 nonrandorn

② Clustering 속도가 빠르다

Page 18: Cluster Analysis ( 군집 분석 )

18

3) 군집방법 선택 : Hierarchical Vs. Nonhierarchical

ⅰ) Hierarchical + Ward's Method + average linkage

⇒ 처음에 잘못 clustering 되면 지속적으로 영향을 미친다

ⅱ) Hierarchical + Nonhierarchical

① Hierarchical procedure 을 사용하여 최초 clustering 결과도출

(Ward Method + average linkage)

② 얻어진 cluster 숫자와 cluster centroid 를 optimizing

partitioning method 의 input 으로 사용

Page 19: Cluster Analysis ( 군집 분석 )

19

(4) Cluster 숫자 결정

ⅰ) 이론적 , 개념적 , 실제적 목적 고려

ⅱ) cluster 간의 거리로 판단

ⅲ) Nonhierarchical clustering 에서

Within Group Variance ---------------------------- 을 도식화시켜 b/w Group Variance

꺾이는 부분을 찾아내어 cluster 숫자로 사용

ⅳ) cluster 내에 case 의 숫자로 판단

(one case 를 가진 cluster 는 바람직하지 않음 )

Page 20: Cluster Analysis ( 군집 분석 )

20

(5) Cluster 해석

ⅰ) 보통 cluster centroid 로 해석

ⅱ) Discriminant analysis 이용

(6) Validation

ⅰ) 여러 가지 distance measure 를 사용한 결과 비교

ⅱ) 여러 가지 Algorithm 을 사용한 결과 비교

ⅲ) data 를 임의로 둘로 나누어 각각의 cluster centroids 비교

ⅳ) 일부 data 를 임의로 빼고 나머지에 대한 결과를 비교

ⅴ) Nonhierarchical Clustering 은 자료의 순서에 의존적이므로

자료의 순서를 바꾸어 여러번 clustering 하고 가장 안정적인 결과선택

Page 21: Cluster Analysis ( 군집 분석 )

21

Examples

(1) Example 1

■ 목적 : 신형 자동차를 출시하기 위해서 기존 시장의 15 차종에 대한 특성 파악 ■ 자동차 분류기준 ( 사전조사결과 ) : 외형크기와 배기량 ■ 외형 크기와 배기량은 표준화

자 동 차 종류 표준화된 승용차 속성의 평가 점수

외형적 크기 엔진 배기량

ABCDEFGHIJKLMNO

2.50 2.25 3.00 2.50 0.25 0.50 0.25-0.25-0.25 0.25-2.00-1.50-2.50-2.00-2.50

2.50 2.00 2.00 1.75 1.00 0.50 0.25 0.50-0.25-0.50-1.50-1.75-2.00-2.25-2.50

Page 22: Cluster Analysis ( 군집 분석 )

22

■ 승용차 특성을 2 차원 도식화

[ 그림 18-4]승용차 특성의 2 차원 도표

X2 ( 엔진배기량 )

X1 ( 외향적 크기 )

KL

M

N

O

A

BD

C

JI

H

E

FG

Page 23: Cluster Analysis ( 군집 분석 )

23

[ 그림 18-5]단일결합방식에 의한 결과

■ SPSS 의 Quick Cluster → Classification cluster center 를 계산하여 각 cluster 의 평균을 계산하여 다시 입력자료로 사용하는 방법

A D B C E G J F H I K N M O L

6

8

12

5

7

11

3

4

2 1

910

13

14

Page 24: Cluster Analysis ( 군집 분석 )

24

[ 그림 18-6]완전결합방식에 의한 결과

■ SPSS 의 Quick Cluster → Classification cluster center 를 계산하여 각 cluster 의 평균을 계산하여 다시 입력자료로 사용하는 방법

A D B C E G J F H I K N M O L

5

7

10

6

6

11

3

4

2 1

9

12

13

14

Page 25: Cluster Analysis ( 군집 분석 )

25

(2) Example 2

■ 목적 : 회사 특성의 중요성 평가에 따른 고객 분류

(Stage 1) Partitioning

Step 1 : Hierarchical cluster Analysis

1) Similarity measure : Squared Euclidean distances

2) Algorithm : Ward's method

⇒ within-cluster difference 를 최소화

3) cluster 수 결정

: Two cluster 가 최선안으로 결정

Page 26: Cluster Analysis ( 군집 분석 )

26

TABLE 7.2 Analysis of AgglomerationCoefficient for Hierarchical ClusterAnalysis

Number of]

Clusters

Percentage Change in

Agglomeration Coefficient to Next

Level10987654321

8.98.59.29.39.3

12.117.017.661.9

-

Page 27: Cluster Analysis ( 군집 분석 )

27

Step 2 : Nonhierarchical Cluster Analysis → hierarchical procedure 결과를 Fine-tune

⇒ Hierarchical procedure 의 결과 확인

Results of Nonhierarchical Cluster Analysis with Initial Seed Points from Hierarchical Results

Mean Values*

Cluster X1 X2 X3 X4 X5 X6 X7 Cluster Size

Classification cluster centers

12

4.402.43

1.393.22

8.706.74

5.095.69

2.942.87

2.652.87

5.918.10

Final cluster centers

12

4.382.57

1.583.21

8.906.80

4.925.60

2.962.87

2.522.82

5.908.13

5248

Page 28: Cluster Analysis ( 군집 분석 )

28

Variables Cluster M.S. Df Error M.S df F Ratio Probability

Significance Testing of Differences Between Cluster Centers

X1X2X3X4X5X6X7

Delivery speedPrice levelPrice flexibilityManufacturer’s imageOverall serviceSales force’s imageProduct quality

81.563166.4571

109.637211.3023

.18832.1233

123.3719

1111111

.9298

.7661

.82331.1778.5682.5786

1.2797

98.098.098.098.098.098.098.0

.000

.000

.000

.003

.566

.058

.000

87.717286.7526

133.17509.5959.3314

3.669796.4042

* X1 = Delivery speed : X2 = Price level : X3 = Price flexibility : X4 = Manufacturer’s image : X5 = Overall service : X6 = Sales force’s image : X7 = Product quality.

Page 29: Cluster Analysis ( 군집 분석 )

29

Group Means and Significance Level for Two-Group Nonhierarchical Cluster Solution

Variables

Stage Two : Interpretation

4.4601.5768.9004.9262.9922.5105.904

2.5703.1526.8885.5702.8402.8208.038

Cluster

1 2 F Ratio Significance

X1X2X3X4X5X6X7

Delivery speedPrice levelPrice flexibilityManufacturer’s imageOverall serviceSales force’s imageProduct quality

105.0076.61

111.308.731.024.17

82.68

.0000

.0000

.0000

.0039

.3141

.0438

.0000

Stage Three : Profiling

Other variables of interestX9 Usage levelX10 Satisfaction level

49.885.16

42.324.38

21.31226.545

.0000

.0000

Page 30: Cluster Analysis ( 군집 분석 )

30

Stage Two : Interpretation

- Table 7.4 참조

- X5 는 두 그룹 사이에 차이가 없는 것으로 평가됨

- Cluster 1 focuses ⅰ) delivery speed ⅱ) price flexibility

Cluster 2 focuses ⅰ) price ⅱ) manufacturer's image

ⅲ) sales force image ⅳ) product quality

Stage Three : Validation

- Table 7.5 참조 ( 결과의 consistency 확인 )

⇒ 무작위로 선택한 subset 으로 clustering 하여 비교

Page 31: Cluster Analysis ( 군집 분석 )

31

TABLE 7.5 Results of Nonhierarchical Cluster Analysis with Randomly Selected Initial Seed Points

Mean Values*Cluster X1 X2 X3 X4 X5 X6 X7 Cluster Size

Classification cluster centers12

4.951.76

1.142.70

9.036.87

6.555.50

3.211.97

3.792.70

5.098.45

Final cluster centers12

4.472.63

1.573.10

8.936.94

4.995.49

2.992.84

2.572.75

5.788.07

4852

Variables Cluster M.S. Df Error M.S df F Value Probability

X1X2X3X4X5X6X7

Delivery speedPrice levelPrice flexibilityManufacturer’s imageOverall serviceSales force’s imageProduct quality

84.333958.683798.51646.2640.5883.7477

131.1200

1111111

.9016

.8454

.93671.2292.5641.5927

1.2007

98.098.098.098.098.098.098.0

.000

.000

.000

.026

.310

.264

.000

93.541569.4175

105.17005.09581.04281.2616

109.2055

* X1 = Delivery speed : X2 = Price level : X3 = Price flexibility : X4 = Manufacturer’s image : X5 = Overall service : X6 = Sales force’s image : X7 = Product quality.

Significance Testing of Differences Between Cluster Centers