33
LOGO

12 งานนำสนอ cluster analysis

Embed Size (px)

DESCRIPTION

การวิเคราะห์จัดกลุ่ม(Cluster Analysis)เป็นการวิเคราะห์เพื่อศึกษาว่าบุคคล (Cases) หรือสิ่งต่างๆ (Objects) จะสามารถนำมาจัดกลุ่มกันตามความเหมือน (Similarity) หรือความแตกต่าง (Dissimilarity or Distance) ของตัวแปร (Variables) ได้กี่กลุ่ม อย่างไรบ้างบุคคลหรือสิ่งที่มีความคล้ายคลึงกันในตัวแปร ที่นำมาวิเคราะห์จะถูกจัดอยู่ในกลุ่ม (Cluster) เดียวกัน ส่วนบุคคลหรือสิ่งที่แตกต่างกันในตัวแปรจะถูกจัดอยู่คนละกลุ่มกันมีหลายเทคนิคการวิเคราะห์ จัดกลุ่มโดยพยายามให้สิ่งที่อยู่ในกลุ่มเดียวกันมีความคล้ายคลึงกันมากที่สุด (Minimize Intra-Cluster Distances) และพยายามให้แต่ละกลุ่มมีความแตกต่างกันมากที่สุด (Maximize Inter-Cluster Distances)กำหนดตัวแปรที่ใช้ในการจัดกลุ่มตัวแปรต้องมีความสำคัญและมีความหมายผลการวิเคราะห์จะดีหรือไม่ขึ้นอยู่กับตัวแปรที่ใช้จัดกลุ่ม ตัวแปรใดที่ไม่เกี่ยวข้องควรตัดออกแล้ววิเคราะห์ใหม่เลือกมาตรวัดระยะห่าง (Similarity or Distance)การเลือกมาตรวัดที่ต่างกัน มีผลทำให้ผลวิเคราะห์แตกต่างกันได้ ดังนั้นจึงควรลองใช้หลายมาตรวัดและเปรียบเทียบผลถ้าตัวแปรมีมาตรวัดคะแนนต่างกัน ควรแปลงเป็นคะแนนมาตรฐานก่อนการวิเคราะห์เลือกวิธีการจัดกลุ่มHierarchical Clustering , Partitional Clustering or K-Means Clustering , Two-Step Clusteringตัดสินใจว่าจะจัดกลุ่มกี่กลุ่ม แปลความหมายของกลุ่มที่จัดทดสอบความเที่ยงตรงของกลุ่ม วิเคราะห์ Profile ของกลุ่ม

Citation preview

Page 1: 12 งานนำสนอ cluster analysis

LOGO

Page 2: 12 งานนำสนอ cluster analysis

การจด Case (หมายถง คน สตว สงของ หรอ องคกร ฯลฯ) หรอเปนการจดตวแปรออกเปนกลมยอย ๆ ตงแต 2 กลมขนไป Case ทอยในกลมเดยวกนจะมลกษณะทเหมอนกนหรอคลายกน สวน Case ทอยตางกลมกนจะมลกษณะทแตกตางกน

ตวแปรทอยในกลมเดยวกนจะมความสมพนธกนมากกวาตวแปรทอยตางกลมกน

ตวแปรทอยตางกลมกนจะมความสมพนธกนนอยหรอไมมความสมพนธกนเลย

Page 3: 12 งานนำสนอ cluster analysis

www.themegallery.com Company Logo

ชอ รายได(1,000 บาท)

อาย(ป)

A 5 25 B 6 26 C 15 34 D 16 35 E 25 40 F 30 39

ตวอยางท 1 ถาตองการแบงกลมคน 6 คน คอ นาย A,B,C,D,E,F โดยพจารณาจากอายและรายไดโดยมขอมลดงแสดงในตารางท 1

Page 4: 12 งานนำสนอ cluster analysis

แสดงการวเคราะหกลมอายและรายได

Page 5: 12 งานนำสนอ cluster analysis

จากตวอยางซงเปนกราฟ 2 มต คออายและรายได หรอ 2 ตวแปร เปาหมาย คอ จะแบง 6 คน(n =6) เปนกลมยอย โดยใหคนทอยในกลมยอยเดยวกนมอายและรายไดเทากนหรอใกลเคยงกนสวนคนทอยตางกลมกนจะมอายและรายไดแตกตางกน จากการพลอตกราฟอายรายไดในตารางท 1 ท าใหตดสนใจไดวา ควรจะเปน 3 กลม กลมท 1 : ประกอบดวยนาย A และ B ซงมอายนอยและรายไดต า กลมท 2 : ประกอบดวยนาย C และ D ซงมอายกลางคน (34-35 ป)และรายไดปานกลาง กลมท 3 : ประกอบดวยนาย E และ F ซงมอายกลางคน (39-40 ป) และรายไดมาก

Page 6: 12 งานนำสนอ cluster analysis

วตถประสงคของการวเคราะหจดกลม Cluster Analysis

การวเคราะหกลมเปนเทคนคทใชในการจดกลมโดยไมทราบมากอนวาควรมกกลม แตจะแบงตามคาของตวแปรทน ามาใชในการแบง โดยใหหนวยทอยในกลมเดยวกน มความคลายกนในตวแปรทศกษา แตหนวยทอยตางกลมกนจะมความตางกน ดงเชนในตวอยางท 1 คนทอยในกลมเดยวกนมอายและรายไดใกลเคยงกน ส าหรบวตถประสงคของการแบงกลมหรอจดกลมจะขนกบสาขาทจะน าไปประยกตใช

Page 7: 12 งานนำสนอ cluster analysis

การน าเทคนคการวเคราะหกลมไปใชในงานดานตาง ๆ จะพบวาการเลอกตวแปรทน ามาใชในการจดกลมนนมความส าคญมาก ถาผวจยเลอกตวแปรทไมไดท าใหคนทอยตางกลมกนม ความแตกตางกนแลว จะท าใหไมสามารถจดกลมไดถกตอง เชน ดานการตลาด ซงเปนการจดกลมพนทหรอจงหวด ผวจยจะตองศกษาวา ตวแปรใดบางทมอทธพลทท าใหกลมตาง ๆ เชน จ านวนประชากร รายไดเฉลย อาชพ สภาวะเศรษฐกจ

Page 8: 12 งานนำสนอ cluster analysis

สชาต ประสทธรฐสนธ(2540) ไดกลาวถงวตถประสงคของ เทคนควธ Cluster Analysis วา เทคนค Cluster Analysis มวตถประสงคทส าคญอย 2 ประการ คอ การจดกลมหนวยวเคราะห การจดกลมตวแปร ซงมความสอดคลองกบ กลยา วานชย บญชา (2548) และสามารถกลาวโดยรวมคอ เพอจดกลม Case ซงจะเปนประโยชนในงานดานตาง ๆ เ ชน การตลาด การแพทย การปกครอง ฯลฯ

Page 9: 12 งานนำสนอ cluster analysis

ขอตกลงเบองตนเกยวกบการวเคราะหจดกลม Cluster Analysis

1. ไมทราบจ านวนกลมมากอนวามกกลม

2. ไมทราบมากอนวาหนวยหรอคนใดจะอยกลมใด

3. หนวยหรอคนใดคนหนงจะตองอยกลมใดกลมหนงเพยงกลมเดยว

4. ตวแปรทใชในการแบงมมากกวา 1 ตวและตวแปรอาจจะเปนตวแปรทมคาไดเพยง 1 คาหรอตวแปรเชงคณภาพหรอตวแปรเชงปรมาณ

Page 10: 12 งานนำสนอ cluster analysis
Page 11: 12 งานนำสนอ cluster analysis

การวดความหาง

ส าหรบการวเคราะหจดกลมหนวยวเคราะหผวจย อาจใชขอมลทระบหนวยวเคราะหและตวแปรตามทจดเกบมาไดเลย

• สงส าคญทสดของการวเคราะหการจดกลมคอ ตวแปรทใช หากผวจยไมไดเกบขอมลเกยวกบตวแปรทส าคญ ๆ •ผลทไดกจะไมดหรอท าใหไขวเขวได

ความคดเกยวกบความคลายของหนวยศกษา เปนเทคนคของการวเคราะหทางสถตหลายวธ โดยทวไปการวดความคลายจะพจารณาจากความหางระหวางวตถ หรอพจารณาจากความคลายกน

ความตองการทางดานขอมล

แนวคดพนฐาน

ความคลายกนของหนวย

วธการวดความหางสามารถวดไดหลายวธ วธการหนงทนยม วดกนมากกคอ วธทเรยกวา ระยะหางเชงยคลดยกก าลงสอง (Squared Euclidean distance)คอ ผลรวมของผลตางยกก าลงสองของทกตวแปร

4

1

2

3

Page 12: 12 งานนำสนอ cluster analysis

1

เทคนค Cluster Analysis แบงเปนหลายประเภทหรอเทคนคยอย โดยเทคนคทใชกนมากม 2 เทคนค คอ

Hierarchical Cluster Analysis

2 K-Means Cluster Analysis

Page 13: 12 งานนำสนอ cluster analysis

เปนเทคนคทนยมใชกนมากในการแบงกลม Case หรอแบงกลมตวแปร โดยมเงอนไขดงน

ในกรณทใชในการแบง Case นน จ านวน Case ตองไมมากนก (จ านวน Case ควรต ากวา 200 ถาตงแต 200 ขนไปใช K-Means Cluster) และจ านวนตวแปรตองไมมาก

ไมจ าเปนตองทราบจ านวนกลมมากอน

ไมจ าเปนเปนตองทราบวาตวแปรใดหรอ Case ใดอยกลมใดกอน

1

2

3

Page 14: 12 งานนำสนอ cluster analysis

ขนตอนของเทคนค Hierarchical Cluster ส าหรบการแบงกลม Case

1

2

3

ขนท 1 เลอกตวแปรหรอปจจยทคาดวามอทธพลทท าให Case ตางกน ตวแปรจะท าใหสามารถแบงกลม Case ไดชดเจน ขนตอนนเปนขนตอนทส าคญ

ขนท 2ทเลอกวธการวดระยะหางระหวาง Case แตละค หรอเลอกวธการค านวณเพอวดคา ความคลายของ Case แตละค

เลอกหลกเกณฑในการรวมกลม หรอรวม Cluster

Page 15: 12 งานนำสนอ cluster analysis

การวดความคลาย (Similarity Measure)

การวดความคลายกนของ Case ทละค ในกรณทเปนการจดกลม Case สวนการจดกลมตวแปร การวดความคลายจะเปนการวดความคลายของตวแปรแตละค คอ การหาคาสมประสทธสหสมพนธเมอตองการจดกลม Case จะตองหาความคลายของ Case ถง C ค เมอมขอมล Case = n แตถาตองการจดกลมตวแปรจะตองหาความสมพนธของตวแปรทละครวมถง C ค เมอมตวแปร k ตว การวดความคลายของ Case แตละคอาจจะวดดวยระยะหาง (Distance) หรอวดดวยคาความคลาย (Similarity) แตการวดความสมพนธของตวแปรจะวดดวยคาสมประสทธสหสมพนธเพยรสน (Pearson correlation)

Page 16: 12 งานนำสนอ cluster analysis

ส าหรบวธการค านวณระยะหาง หรอคาความคลายของ Case แตละค จะแตกตางกนเมอชนดของขอมลตางกน ซงชนดของขอมลหรอตวแปรทสามารถใชเทคนค Hierarchical Cluster ได ม 3 ประเภท คอ 1. ขอมลเปนสเกลอนตรภาค (Interval scale) หรอสเกลอตราสวน (Ratio scale) 2. ขอมลทอยในรปความถ (Count Data) 3. ขอมลอยในรป Binary นนคอ มได 2 คา คอ 0 กบ 1 หรอกลาวไดวา ขอมลทน ามาใชในเทคนค Hierarchical จะเปนขอมลชนดตวเลข หรอเปนเชงปรมาณ (Interval หรอ Ratio scale) หรอขอมลอยในรปความถ หรอ Binary

การวดความคลาย (Similarity Measure)(ตอ)

Page 17: 12 งานนำสนอ cluster analysis

หลกการการรวมกลม (Methods for Combining Cluster)

ขนท1 ขนท2 ขนท3,4

ในแตละขนอาจจะรวม Case ใหมเขาไปในกลมทมอยแลว หรอรวม Case ใหม 2 Case เปนกลมใหม ท าเชนน ไปเรอย ๆ จนกระทงได ทก Case อยในกลมเดยวกน นนคอ สดทายมเพยง 1 กลม

พจารณาวาควรจะรวม Case ท 3 เขาอยในกลมเดยวกบ 2 Case แรก หรอควรจะรวม 2 Case ใหมเขาอยในกลมใหมอกกลมหนง โดยพจารณาจากคาระยะหางหรอคาความคลาย

รวม Case 2 Case ใหอยในกลมเดยวกน หรอ Cluster เดยวกน โดย พจารณาจากคาระยะหางหรอคาความคลาย

ส าหรบหลกการในการรวมกลมของเทคนค Hierarchical Cluster นนมหลายวธ วธทนยมกนมาก คอ Agglomerative Hierarchical Cluster Analysis หรอในโปรแกรม SPSS เรยกวา Agglomerative Schedule ซงหลกการเกณฑของ Agglomerative schedule จะท าการรวมกลม Cluster อยางเปนขนตอนดงน

Page 18: 12 งานนำสนอ cluster analysis

หลกเกณฑในการรวมกลม

1. Between – groups Linkage หรอเรยกวาวธ Average Linkage Between Groups หรอเรยกกวา UPGMA (Unweightede Pair-Group Method Using Arithmetic Average)

Page 19: 12 งานนำสนอ cluster analysis

พจารณาวา ควรรวม cluster ท i และ j ไวดวยกนหรอรวม cluster ท i และ k หรอควรจะรวม cluster ท j และ k ไวดวยกน โดยพจารณาระหางเฉลยระหวาง cluster เชน d = ระยะหางเฉลย ของ cluster ท i และ j d = ระยะหางเฉลย ของ cluster ท i และ j d = ระยะหางเฉลย ของ cluster ท i และ j เลอกรวม cluster ทมระยะหางเฉลยต าสด เชน จากตวอยางนไดคาระหวาง d ต าสด กจะรวม cluster I และ k เขาดวยกน

Page 20: 12 งานนำสนอ cluster analysis

2. Within-group Linkage Technique หรอเรยกวา Average Linkage Within Groups Method วธนจะรวม Cluster เขาดวยกนถาระยะหางเฉลยระหวางทก Case ใน Cluster นน ๆ มคานอยทสด

Page 21: 12 งานนำสนอ cluster analysis

3. Nearest Neighbor หรอเรยกวา Single Linkage ในทน d ระยะหางทสนทสดของ cluster i และ j d ระยะหางทสนทสดของ cluster i และ k d ระยะหางทสนทสดของ cluster j และ k หาคาต าสด d , d และ d , d ถาไดวา d ต าสดกจะรวม cluster k และ j เขาดวยกน

Page 22: 12 งานนำสนอ cluster analysis

4. Furthest Neighbor Technique หรอเรยกวา Complete Linkage d ระยะหางทยาวทสดของ cluster i และ j d ระยะหางทยาวทสดของ cluster i และ k d ระยะหางทยาวทสดของ cluster k และ j แลวเปรยบเทยบคา d ,d ,d เลอกคาต าสด ถาไดวา d ต าสด กรวม cluster i และ k เขาดวยกน

Page 23: 12 งานนำสนอ cluster analysis

5. Centroid Clustering เปนการรวม cluster 2 cluster เขาดวยกน โดยพจารณาจากระยะหางของจดกลางของ cluster 2 cluster โดยท d ระยะหางจดกลางของ cluster ท i และ cluster ท j d ระยะหางจดกลางของ cluster ท i และ cluster ท k d ระยะหางจดกลางของ cluster ท j และ cluster ท k แลวเลอกคาระยะหางทต าสด เชน ถาได d ต าสด กจะรวม cluster k และ j เขาดวยกน

Page 24: 12 งานนำสนอ cluster analysis

6. Median Clustering วธนจะรวม Cluster 2 Cluster เขาดวยกน โดยใหแตละ Cluster ส าคญเทากน(ใหน าหนกเทากน) ในขณะทวธของ Centroid Clustering จะใหความส าคญแก Cluster มขนาดใหญมากกวา Cluster ทมขนาดเลก (ใหน าหนกไมเทากน) Median Clustering จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Clustering จะใชคา Median เปนคากลางของ Centroid ถาระยะหาง ระหวางคา Median ของ Cluster คใดต าจะรวม Cluster คนนเขาดวยกน

Page 25: 12 งานนำสนอ cluster analysis

7. Ward’s Method หลกการของวธนจะพจารณาจากคา Sum of the squared within-cluster distance โดยจะรวม Cluster ทท าใหคา Sum of square within-cluster distance เพมขนนอยทสด โดยคา Square within-cluster distance คอคา Square Euclidean distance ของแตละ Case กบ Cluster Mean

Page 26: 12 งานนำสนอ cluster analysis

K-Means Cluster Analysis

หลกการของเทคนค K-Means Clustering

เปนเทคนคการจ าแนก Case ออกเปนกลมยอย จะใชเมอมจ านวน Case มาก โดยจะตองก าหนดจ านวนกลมหรอจ านวน Cluster ทตองการ เชน ก าหนดใหม k กลม เทคนค K-Means จะมการท างานหลาย ๆ รอบ (Iteration) โดยในแตละรอบจะมการรวม Cases ใหไปอยในกลมใดกลมหนง โดยเลอกกลมท Case นนมระยะหางจากคากลางของกลมนอยทสด แลวค านวณคากลางของกลมใหม จะท าเชนนจนกระทงคากลางของกลมไมเปลยนแปลง หรอครบจ านวนรอบทก าหนดไว

Page 27: 12 งานนำสนอ cluster analysis

K-Means Cluster Analysis(ตอ)

ตวแปรทใชในเทคนค K-Means Clustering จะตองเปนตวแปรเชงปรมาณ คอ เปนสเกลอนตรภาค(Interval Scale) หรอสเกลอตราสวน(Ration Scale) โดยไมสามารถใชกบขอมลทอยในรปความถ หรอ Binary เหมอนเทคนค Hierarchical

Page 28: 12 งานนำสนอ cluster analysis

K-Means Cluster Analysis(ตอ)

ขนตอนการวเคราะหของวธ K-Means

การวเคราะหจ าแนกกลมดวยเทคนควธ K-Means Clustering สามารถสรป ขนตอนของการวเคราะหได 4 ขนตอนดงน

ขนท 1 จดกลมขอมลเปน k กลม ซงมการแบงไดหลายวธดงน - แบงอยางสม - แบงดวยผศกษาเอง ขนท 2 ค านวณหาจดกงกลางกลมของแตละกลม เชน จดกลางกลมของกลมท C

Page 29: 12 งานนำสนอ cluster analysis

K-Means Cluster Analysis(ตอ)

ขนท 3 มวธการพจารณา 2 แบบ โดยจะค านวณ แบบท 1 ค านวณหาระยะหางจากแตละหนวยไปยงจดกลางกลมของทกกลมและจะพจารณายายหนวยไปยงกลมทมระยะหางต าสด แบบท 2 ค านวณระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลมทหนวยนนอย โดยให ESSZ(Error Sum Square) เทากบระยะหางก าลงสองของแตละหนวยไปยงจดกลางกลม โดยท C ( i ) หมายถง กลมของหนวยท i ESS = ผลบวกของระยะหางจากแตละหนวยในกลมไปยงจดกลางกลมรวมทกกลม กลมใดทมคา ESS ต า แสดงวาหนวยทอยในกลมนนมความคลายคลงกน

Page 30: 12 งานนำสนอ cluster analysis

K-Means Cluster Analysis(ตอ)

ขนท 4 การพจารณายายกลม จะใชเกณฑการยายตามคาทค านวณไดในขนท 3 แบบท 1 จะท าการยายหนวยท i ไปยงกลมทท าใหระยะหางจากหนวยท i ไปยงจดกลางกลมมคาต าสด แบบท 2 จะท าการยายหนวยท i ไปยงกลมทท าใหคา ESS มคาต าสดถาขนท 4 ไมมการยายกลมอกแลว แสดงวากลมทแบงไดนนเหมาะสมแลว แตถาในนนท 4 มการยายกลม กลมทมหนวยยายเขาหรอยายออกจะตองท าการค านวณหาจดกลางกลมใหมนนคอตองกลบไปท าขนท 2

Page 31: 12 งานนำสนอ cluster analysis

ขอแตกตางระหวางเทคนค Hierarchical กบวธ K-Means

1. เทคนค K-Means ใชเมอมจ านวน Case หรอจ านวนขอมลมาก โดยทวไป นยมใชเมอ n ≥ 200 เพราะเมอ n มาก เทคนค K-Means 2. เทคนค K-Means นน ผใชจะตองก าหนดจ านวนกลมทแนนอนไว ลวงหนากรณทผวเคราะหยงไมแนใจวาควรมกกลมจงจะเหมาะสม 3. เทคนค Hierarchical นน ผวเคราะหจะ Standardized ขอมลหรอไมกได แตโดยวธ K-Means จะตองท าการ Standardized ขอมลกอนเสมอ 3. วธ K-Means จะหาระยะหางโดยวธ Euclidean Distance โดยอตโนมตขณะท Hierarchical ผวเคราะหมสทธทจะเลอกวธการค านวณระยะหาง หรอความคลายได

K-Means Cluster Analysis(ตอ)

Page 32: 12 งานนำสนอ cluster analysis

ขอแตกตางระหวางการจ าแนกกลมดวยเทคนค Cluster Analysis และเทคนค Discriminant Analysis

Cluster Analysis Discriminant Analysis

1. ไมจ าเปนตองทราบกอนวามกกลม 1. ตองทราบมากอนวามกกลม โดยผวจยเปน ผจดกลมเอง และก าหนดเองวาจะมกกลม

2. ไมทราบมากอนวา Case ใดอยกลมไหน 2. ทราบมากอนวา Case ใดอยกลมไหนเนองจากผวจยเปนผจดกลมมากอน

3. ไมมสมการแสดงความสมพนธ 3. มสมการแสดงความสมพนธ

Page 33: 12 งานนำสนอ cluster analysis

ขนตอนการใช SPSS ในการจดกลม Case