5a IB Analisis Cluster

Preview:

DESCRIPTION

materi perkuliahan

Citation preview

1

ANALISIS CLUSTER

2

DEFINISI

Untuk mengidentifikasi sekelompok obyek (case atau variabel) yang memiliki kemiripan karakteristik tertentu yang dapat dipisahkan dari kelompok obyek lainnya.

Jumlah kelompok yang dapat diidentifikasi tergantung pada jumlah dan variasi data obyek.

3

TUJUAN

Mengelompokkan sekumpulan obyek (case atau variabel) ke dalam beberapa kelompok (cluster) yang memiliki karakteristik tertentu dan dapat dibedakan satu sama lain untuk analisis dan interpretasi lebih lanjut sesuai dengan tujuan penelitian yang dilakukan.

4

PRINSIP DASAR

Pengelompokkan/pemisahan dilakukan berdasarkan similarity (kesamaan) antar obyek.

Similarity (kesamaan) diperoleh dengan meminimalkan jarak antar obyek dalam kelompok (within cluster) dan memaksimalkan jarak antar kelompok (between cluster).

Pengukuran jarak (distance-type measure) digunakan untuk data-data yang bersifat metrik, sementara pengukuran kesesuaian (matching-type measure) digunakan untuk data-data yang bersifat kualitatif.

5

INPUT DATA

Data yang menjadi input untuk proses cluster dapat berupa data nominal, ordinal, interval, maupun rasio.

Apabila data bersifat campuran, maka kita memperlakukan seluruh data sebagai data rasio.

Bila data berbentuk nominal atau ordinal saja, maka perhitungan kemiripan (similarity) tidak menggunakan jarak tetapi menggunakan metoda yang lain (misalnya matching-type measures)

Sebaiknya set data obyek memiliki variabel dengan tipe yang sejenis, tidak bercampur antara tipe yang satu dengan yang lainnya.

6

TAHAPAN PEMBENTUKAN CLUSTER

Tahap-tahap pembentukan cluster secara umum sebagai berikut :

STEP 1 : Terdapat data mentah berupa matriks dengan n obyek dan p variabel (sebaiknya jumlah obyek > jumlah variabel).

STEP 2 : Mentransformasikan matriks data mentah (n x p) menjadi matriks jarak antar obyek (n x n) dengan menggunakan metode penghitungan jarak.

7

TAHAPAN PEMBENTUKAN CLUSTER (Lanjutan……)

STEP 3 : Pembentukan cluster dilakukan dengan menggunakan metoda tertentu (hierarchical clusters atau mutually exclusive clusters).

STEP 4 : Mendiskripsikan profil cluster yang terbentuk.

8

DIAGRAM PEMBENTUKAN CLUSTER (Lanjutan…)

Pengambilan p pengukuran variabelpada obyek

Pembentukan matriks data mentahberukuran n x p

Pembentukan matriks similaritasBerukuran n x n

Pemilihan algoritma pengelompokan

Cluster

Interpretasi dan deskripsi

9

METODA PERHITUNGAN JARAK

Asumsikan data mentah yang telah diperoleh dari n obyek atau individu. Tiap obyek diwakili oleh sebuah vektor observasi x

, =

(x1, x2, ….., xp) pada p variabel. Untuk selanjutnya notasi x,

i = (xi1, xi2,….,xip) menunjukkan pengukuran pada obyek atau individu ke-i

Terdapat jenis ukuran jarak untuk tipe data interval, frekuensi dan biner.

1. Interval

Beberapa pengukuran jarak biasanya menggunakan jarak Minkowski yang didefinisikan :

10

METODE PENGHITUNGAN JARAK (Lanjutan…..)

dij menunjukkan jarak antara dua obyek i dan j. Jika r = 2, maka diperoleh jarak euclidean yang dirumuskan sebagai berikut :

Jarak euclidian yang dikuadratkan akan menjadi square euclidian distance.

Jika r = 1, akan diperoleh jarak absolut atau jarak city-block yang dirumuskan sebagai berikut :

rp

k

r

jkikij XXd

1

1

2

1

1

2

p

kjkikij XXd

11

METODE PERHITUNGAN JARAK (Lanjutan…….)

Penggunaan jarak city-block menghasilkan perhitungan jarak dua obyek sama tanpa memperhatikan apakah obyek tersebut berbeda dua satuan, misalnya pada dua variabel, atau berbeda satu satuan pada variabel pertama dan tiga satuan pada variabel yang keempat, dst. (tentunya dengan asumsi bahwa skala antar variabel sama).

Kekurangan dari metode jarak euclidean adalah bahwa hasil perhitungan dapat terdistorsi akibat perubahan atau perbedaan skala perhitungan.

p

kjkikij XXd

1

12

METODE PERHITUNGAN JARAK (Lanjutan…..)

2. Frekuensi Metoda pengukuran jarak yang biasa digunakan adalah chi-

square Metoda lainnya adalah phi-square.

3. BinerMetoda pengukuran jarak untuk data biner antara lain adalah square euclidian distance, euclidian distance, size difference, pattern difference,variance shape, Lance and Williams serta Present and Absent.

13

METODA PEMBENTUKAN CLUSTER

Secara garis besar, terdapat dua metoda pembentukan cluster, yakni :

Metoda hirarki (hierarchical methods)

Metoda partisi (partitioning methods)

Perbedaan antara kedua metoda tersebut adalah dalam pengalokasian obyek ke dalam cluster.

Pada metode hirarki, jika suatu obyek dikelompokkan ke dalam suatu cluster, maka obyek tersebut akan tetap berada di dalam cluster tersebut, sehingga ketika obyek tadi akan dikelompokkan dengan obyek lain, clusternya akan ikut dikelompokkan pula.

14

METODA PEMBENTUKAN CLUSTER (Lanjutan….)

Pada metoda partisi, posisi obyek di dalam suatu cluster tidaklah tetap. Artinya meskipun suatu obyek telah masuk ke dalam suatu cluster, obyek tersebut dapat mengalami realokasi (pengelompokan kembali) ke dalam cluster lain apabila ternyata karakteristik awal pengelompokkan tidak akurat.

METODA HIRARKI Metoda hirarki adalah teknik pengelompokan yang membentuk konstruksi hirarki atau berdasarkan tingkatan tertentu seperti struktur pohon, sehingga proses pengelompokan dilakukan secara bertingkat dan bertahap.

15

METODA PEMBENTUKKAN CLUSTER (Lanjutan…..)

Metoda hirarki terbagi lagi menjadi dua, yakni :A. Metoda aglomeratif ( agglomerative methods)B. Metoda divisif (divisive methods)

A. METODA AGLOMERASI Pada metoda aglomerasi, mula-mula setiap obyek membentuk

cluster masing-masing. Kemudian dua obyek dengan jarak terdekat bergabung menjadi

satu cluster. Selanjutnya obyek lain akan bergabung dengan cluster yang

ada atau obyek lain, membentuk cluster baru dengan tetap memperhitungkan jarak kedekatan antar obyek.

16

METODE PEMBENTUKAN CLUSTER (Lanjutan…)

Proses berlangsung terus sampai akhirnya terbentuk satu cluster yang terdiri atas semua obyek.

Beberapa prinsip kemiripan (similarity) antara obyek dalam bentuk jarak (distance) yang digunakan adalah :

1. Single Linkage (Nearest Neighbor Method) Prinsip yang digunakan adalah aturan jarak minimum dalam

pembentukan cluster.2. Complete Linkage (Furthest Neighbor Method) Metoda ini merupakan kebalikan pendekatan yang digunakan

pada single linkage. Prinsip yang digunakan adalah aturan jarak terjauh antar obyek.

17

METODA PEMBENTUKAN CLUSTER (Lanjutan….)

3. Average Linkage Between Group Method (UPGMA = Unweighted Pair-Group Method using Arithmetic Averages)

Jarak antara dua cluster yang digunakan pada metoda ini merupakan jarak rata-rata antara semua pasangan obyek yang mungkin dari dua buah cluster.

4. Average Linkage Within –Group Method. Merupakan variasi UPGMA. Perbedaannya terletak pada cara

pembentukan cluster sehingga rata-rata jarak antar cluster adalah yang terkecil.

Sebagaimana UPGMA, metoda ini memperhitungkan rata-rata jarak semua pasangan obyek yang terdapat dalam dua cluster.

18

METODA PEMBENTUKAN CLUSTER (Lanjutan….)

5. Ward’s Error Sum of Squares Method Ward mengajukan suatu metoda pembentukan cluster yang

didasari oleh hilangnya informasi akibat penggabungan obyek antar cluster.

6. Centroid Method Metoda ini mendefinisikan jarak antara dua buah cluster sebagai

jarak antara rataan tiap cluster (centroid) terhadap variabel.

7. Median Method Metoda ini mirip dengan centroid method. Perbedaannya

terletak pada perhitungan centroid-nya yang tidak menggunakan bobot. Artinya bahwa perhitungan rataan tiap cluster tidak memperhitungkan ukuran suatu cluster.

19

METODA PEMBENTUKAN CLUSTER (Lanjutan…..)

B. METODA DIVISIF Metoda divisif (divisive methods) merupakan kebalikan dari

agglomerative method. Langkah awalnya dilakukan dengan membagi n obyek menjadi

dua cluster. Lalu, tiap cluster tersebut dibagi atas dua kelompok lagi, dan seterusnya sehingga akan terdapat n buah cluster yang berisikan hanya satu obyek atau n buah cluster yang diinginkan.

20

METODA PEMBENTUKAN CLUSTER (Lanjutan…..)

II. METODA PARTISI Berbeda dengan metoda hirarki, prosedur non-hirarki dimulai

dengan memilih sejumlah nilai cluster sesuai dengan jumlah yang diinginkan kemudian obyek digabungkan ke dalam cluster-cluster tersebut.

Prosedur analisis cluster k-means digunakan untuk mengelompokkan sejumlah kasus yang besar (>200 kasus) dengan lebih efisien.

Metoda ini berdasarkan nearest centroid sorting yaitu pengelompokan berdasarkan jarak terkecil antara kasus dan pusat dari cluster.

21

INTERPRETASI

Pada tahap ini hasil pengelompokan berupa cluster-cluster diinterpretasikan sesuai nilai karakteristik yang terkandung dalam obyek-obyeknya.

Biasanya interpretasi berdasarkan nilai rata-rata dari karakteristik obyek dalam cluster.

Pada tahap ini yang perlu diperhatikan ialah karakteristik apa yang membedakan masing-masing cluster tersebut.

Interpretasi dapat dilakukan dari grafik dendogram maupun analisis koefisien aglomerasi. Dendogram merupakan suatu diagram pohon yang menggambarkan penggabungan atau pemisahan obyek menjadi cluster dalam tiap tahap pemrosesan.

22

INTERPRETASI (Lanjutan……)

sedangkan jarak antar pengelompokan merupakan interpretasi dari beberapa nilai kedekatan penggabungan obyek ke dalam cluster.

Cluster yang telah terbentuk diuji dengan membandingkan hasil yang diperoleh dengan algoritma yang berbeda. Misalnya dengan membandingkan hasil yang diperoleh melalui metoda hirarki dengan hasil dari metoda non-hirarki. Apabila terdapat perbedaan hasil yang cukup signifikan maka cluster yang terbentuk masih belum dapat dikatakan valid karena tidak dapat diterapkan secara umum.

23

Contoh :Data hasil survei dari sebuah penelitian mengenai produk minuman “beer” dari beberapa perusahaan. Atribut data yang disurvei meliputi nama produk, kadar kalori, kadar sodium, kadar alkohol, serta harga satuan produk.

24

Data Dasarnama produk kadar kal kad sod kad alkh harga sat B/W 144 15 4.7 .43SCHIL 151 19 4.9 .43LOWEN 157 15 4.9 .48KBOURG 170 7 5.2 .73HEIN 152 11 5.0 .77OLD MIL 145 23 4.6 .03AUSBIR 175 24 5.5 .40STROHS 149 27 4.7 .42MILLER 99 10 4.3 .43B/W LIGHT 113 8 3.7 .44COORS 140 18 4.6 .44COORS LIGHT 102 15 4.1 .46MICH LIGT 135 11 4.2 .50BECKS 150 19 4.7 .76KIRIN 149 6 5.0 .79PAB EX 68 15 2.3 .38HAMMS 136 19 4.4 .43HEILMAN 144 24 4.9 .43OLYMPIA 72 6 2.9 .46SCHIL LIGHT 97 7 4.2 .47

25

Entri data dalam SPSS

26

Proses Perhitungan

27

Proses Perhitungan

Klik save

28

Proses Perhitungan

Klik options…

29

Proses Perhitungan

30

Hasil Perhitungan

Initial Cluster Centers

68 175

15 24

2.3 5.5

.38 .40

CALORIES

SODIUM

ALCOHOL

COST

1 2

Cluster

Iteration Historya

24.352 26.177

.000 .000

Iteration1

2

1 2

Change in ClusterCenters

Convergence achieved due to no or small distancechange. The maximum distance by which any centerhas changed is .000. The current iteration is 2. Theminimum distance between initial centers is 107.426.

a.

Cluster yang pertama kali

terbentuk

K-mean cluster akan menguji hasil dengan

iterasi

31

Hasil Perhitungan (lanjutan)

Final Cluster Centers

92 150

10 17

3.6 4.8

.44 .50

CALORIES

SODIUM

ALCOHOL

COST

1 2

Cluster

Hasil Akhir nilai cluster

32

Hasil Perhitungan (lanjutan)ANOVA

14105.610 1 182.733 18 77.193 .000

196.117 1 34.824 18 5.632 .029

6.290 1 .260 18 24.206 .000

.017 1 .030 18 .545 .470

CALORIES

SODIUM

ALCOHOL

COST

Mean Square df

Cluster

Mean Square df

Error

F Sig.

The F tests should be used only for descriptive purposes because the clusters have been chosento maximize the differences among cases in different clusters. The observed significance levelsare not corrected for this and thus cannot be interpreted as tests of the hypothesis that the clustermeans are equal.

•Sig>0,05 tdk ada perbedaan antara cluster 1 dan 2•Sig<0,05 kebalikannya

Yang berpengaruh hanya variabel:Calories, Sodium dan Alcohol

•Semakin besar F semakin besar perbedaan cluster 1 dan cluster 2

33

Hasil Perhitungan (lanjutan)

Number of Cases in each Cluster

6.000

14.000

20.000

.000

1

2

Cluster

Valid

Missing

Jumlah masing-masing cluster

34

Hasil Perhitungan (lanjutan)

Final Cluster Centers

92 150

10 17

3.6 4.8

.44 .50

CALORIES

SODIUM

ALCOHOL

COST

1 2

ClusterCalories:

membedakan produk yang

masuk di cluster 1 dan 2.

kandungan di cluster 2 lebih

besar dari pada di cluster 1

35

Hasil Pengelompokkan AkhirKel cluster

22222222112122212211

nama produk kadar kal kad sod kad alkh harga sat

B/W 144 15 4.7 .43SCHIL 151 19 4.9 .43LOWEN 157 15 4.9 .48KBOURG 170 7 5.2 .73HEIN 152 11 5.0 .77OLD MIL 145 23 4.6 .03AUSBIR 175 24 5.5 .40STROHS 149 27 4.7 .42MILLER 99 10 4.3 .43B/W LIGHT 113 8 3.7 .44COORS 140 18 4.6 .44COORS LIGHT 102 15 4.1 .46MICH LIGT 135 11 4.2 .50BECKS 150 19 4.7 .76KIRIN 149 6 5.0 .79PAB EX 68 15 2.3 .38HAMMS 136 19 4.4 .43HEILMAN 144 24 4.9 .43OLYMPIA 72 6 2.9 .46SCHIL LIGHT 97 7 4.2 .47

Recommended