Modul Praktikum 3 - Cluster

UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0

MATERI PRAKTIKUM

Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013

PRAKTIKUM 1ANALISA K-MEANS CLUSTER

Definisi ClusterAnalisa Cluster adalah pengorganisasian kumpulan pola ke dalam kelompok-kelompok (Cluster) berdasar atas kesamaanya. Pola-pola dalam suatu Cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam Cluster yang lainnya. Metodologi Clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.

Tujuan Praktikum Cluster1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan

menerapkan analisis Cluster2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari analisis Cluster

dalam data mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap pengelompokan, serta mengaplikasikannya dalam kasus yang dihadapi.

Konsep ClusterAnalisis Cluster merupakan salah satu teknik multivariat yang digunakan dalam data

mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu: 1. Tujuan Analisis Cluster2. Desain Penelitian dalam Analisis Cluster3. Asumsi-asumsi dalam Analisis Cluster4. Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit) 5. Interpretasi terhadap Cluster.6. Proses Validasi dan Pembuatan Profil (profiling) Cluster

Penerapan analisis Cluster di dalam pemasaran adalah sebagai berikut : 1. Identifikasi obyek (Recognition) :

Dalam bidang image Processing , Computer Vision atau robot vision


MATERI PRAKTIKUM


2. Decission Support System dan data mining Membuat segmen pasar (segmenting the market). Memahami perilaku pembeli. Mengenali peluang produk baru

METODE NON HIRARKI

Gambar 2. Algoritma Analisa Kluster

prosedur non hirarkikal (K-means Clustering) adalah analisis statistik yang berguna untuk

mengelompokan sejumlah objek ke dalam jumlah kelompok yang sudah ditetapkan di mana

karakteristik objek hanya dikelompokan berdasarkan variabel tertentu akan tetapi karakteristik

latar belakang objek belum diketahui dengan pasti. Analisis ini sangat efektif dan efisien jika


MATERI PRAKTIKUM


digunakan untuk mengelompokkan objek yang berjumlah besar. berdasarkan pengalaman, K-

Mean Cluster ini digunakan untuk objek yang berjumlah lebih dari 100.

Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai

dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan dan kemudian

obyek digabungkan ke dalam cluster-cluster tersebut.

1) Sequential Threshold Procedure

Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar yang

akan dijadikan nilai awal cluster, kemudian semua obyek yang ada didalam jarak terdekat

dengan cluster ini akan bergabung lalu dipilih cluster kedua dan semua obyek yang mempunyai

kemiripan dimasukkan dalam cluster ini. Demikian seterusnya hingga terbentuk beberapa cluster

dengan keseluruhan obyek didalamnya.

2) Parallel Threshold Prosedure

Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan pemilihan

terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan penggabungan obyek

ke dalamnya secara bersamaan.

3) Optimizing

Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada

penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan krteria optimasi.


MATERI PRAKTIKUM


Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu:

1. Pilih sebuah Distance MeasureMetode untuk mengukur kesamaan obyek antara lain :

1) Euclidean Distance

Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari

segitiga ABC.

D (i , j )=√ A2+¿B2=√∑ (X i−Y i)2=¿√(X1 i−X1 j)

2+( X2i−X2 j)2¿¿

2) Squared Euclidean Distance

Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j.

D ( i , j )=A2+B2=∑( X i−Y i)2=¿( X1 i−X1 j)

2+(X2 i−X2 j)2¿

3) Chebychev

D(X,Y)¿max i|X i−Y i|4) City Block Distance

D(X,Y)¿∑|X i−Y i|

D(I,j) ¿|A|+|B|=∑|X i−Y i|=|X 1i−X1 j|+|X2 i−X2 j|

2. Pilih Clustering Algorithma yang akan dipakaiUntuk procedures dari clustering terdapat dua procedurea. Hierarchical Procedures, dimana pada prosedur ini jumlah cluster belum diketahui

- Agglomerative ( dimulai dari n cluster untuk mendapatkan sebuah cluster)- Divisive ( dimulai dari sebuah cluster, kemudian mendapatkan n cluster

b. Non Hierarchical Procedure- K-Means Clustering

Dimana pada praktikum ini menggunakan analisis K-means clustering dalam penyelesaian masalah.

3. Tentukan jumlah Cluster yang akan dibentukDidalam k-means clustering, jumlah cluster telah ditentukan terlebih dahulu.


MATERI PRAKTIKUM


4. Analisis Validasia. Proses validasi solusi cluster

Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster

dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini

membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak dapat

dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan objek untuk

analisis cluster ganda.

b. Pembuatan Profil ( profiling) solusi cluster

Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster

tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik

yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu

cluster khusus.


MATERI PRAKTIKUM


Contoh Kasus

sebuah pemebelanjaan melakukan risetuntuk mengetahui apa saja yang mendorong konsumen berbelanja di swalayan tersebut. Variabel-variabel pertanyaan yaitu: lokasi took, harga produk, kebersihan, pelayanan kasir, fasilitas dan keindahaan interior. Untuk itu setiap responden diberi 6 pertanyaan dan didapat 20 responden sebagai sampel. Data yang diproleh sebagai berikut:

Responden

Lokasi Toko

Harga Produk

Kebersihan

Pelayanan Kasir

Fasilitas

Keindahan Interior

1 6 4 7 3 2 32 2 3 1 4 5 43 7 2 6 4 1 34 4 6 4 5 3 65 1 3 2 2 6 46 6 4 6 3 3 47 5 3 6 3 3 48 7 3 7 4 1 49 2 4 3 3 6 310 3 5 3 6 4 611 1 3 2 3 5 312 5 4 5 4 2 413 2 2 1 5 4 414 4 6 4 6 4 715 6 5 4 2 1 416 3 5 4 6 4 717 4 4 7 2 2 518 3 7 2 6 4 319 4 6 3 7 2 720 2 3 2 4 7 2

Langkah-langkah SPSS:

Masukkan seluruh variabel dan data,seperti gambar berikut ini


MATERI PRAKTIKUM


Pertama-tama melakukan standarisasi nilai/data yang akan dianalisis (dengan Z Score)

1. Klik Analyze>Descriptive Statistics>Descriptives2. Pindahkan variabel dikolom kiri ke kolom Variabel (s)3. Aktifkan Save Standardized as Variables4. Klik OK

Descriptive Statistics

N Minimum Maximum Mean Std. Deviation

Lokasi_toko 20 1.00 7.00 3.8500 1.89945

Harga_produk 20 2.00 7.00 4.1000 1.41049

Kebersihan 20 1.00 7.00 3.9500 2.01246

Pelayanan_kasir 20 2.00 7.00 4.1000 1.51831

Fasilitas 20 1.00 7.00 3.4500 1.76143

Keindahan_interior 20 2.00 7.00 4.3500 1.49649

Valid N (listwise) 20


MATERI PRAKTIKUM


Tabel Descriptive Statistics akan digunakan untuk membantu menganalisis pengelompokan

cluster nantinya.

Pastikan tampilan pada data view telah berubah sperti gambar berikut ini:

Perhatikan pada variabel data asli akan muncul 6 variabel dengan awalan “Z”

Langkah analisis selanjutnya:

1. Pada Analyze>Classify>K-Means Cluster2. Pindahkan Variabel yang berawalan “Z” ke kolom Variabel(s)3. Tentukan jumlahCluster dengan mngisikan angka 3 pada Number of Cluster4. Pilih Save dan aktifkan Cluster Membership dan Distance from Cluster center, kemudian

Continue5. Pilih Option, aktifkan Initial Cluster center dan Anova Table6. Tekan OK

Hasil Output SPSS


MATERI PRAKTIKUM


Initial Cluster Centers

Cluster

1 2 3

Zscore(Lokasi_toko) .07897 -1.50044 1.65838

Zscore(Harga_produk) 1.34705 -.77987 -1.48885

Zscore(Kebersihan) -.47206 -.96896 1.01865

Zscore(Pelayanan_kasir) 1.91002 -1.38312 -.06586

Zscore(Fasilitas) -.82320 1.44769 -1.39092

Zscore(Keindahan_interior) 1.77081 -.23388 -.90211

Tabel Initial Cluster Centers menunjukkan hasil proses sementara pengelompokan data yang di lakukan. Karena proses ini baru awal maka perlu dilakukan proses selanjutnya.

Iteration Historya

Iteration Change in Cluster Centers

1 2 3

dimension0

1 1.310 1.177 1.637

2 .000 .000 .000

a. Convergence achieved due to no or small

change in cluster centers. The maximum

absolute coordinate change for any center

is .000. The current iteration is 2. The minimum

distance between initial centers is 4.912.

Pada tabel Iteration History, metode K-means Clsuter akan menguji dan realoksi cluster yang ada. Proses tersebut dinamakan Iteration yang membuat perubahan pada initial cluster (Change in Cluster). Proses ini pengelompokan diulang dengan ketepatan yang lebih akurat.


MATERI PRAKTIKUM


Cluster Membership

Responden

QCL_1 QCL_2

1 3 0.829832 2 0.767953 3 1.637424 1 0.841055 2 1.176916 3 0.713927 3 0.879738 3 1.209229 2 1.0526910 1 0.7255111 2 0.6071912 3 0.9042313 2 1.61387


MATERI PRAKTIKUM


Responden

QCL_1 QCL_2

14 1 0.8485915 3 1.6607416 1 1.0272317 3 1.5118318 1 2.3003919 1 1.3100420 2 1.2904

Terlihat dari gambar diatas menunjukkan tiap responden mask kedalam masing-masing cluster yang dibentuk. Seperti responden 1 masuk cluster 3, nilai distance sebesar 0,830. Namun ini baru awal hasil perlu dianalisis hasil selanjutnya.

Final Cluster Centers

Cluster

1 2 3

Zscore(Lokasi_toko) -.18426 -1.14946 1.00029

Zscore(Harga_produk) 1.22889 -.77987 -.33676

Zscore(Kebersihan) -.30642 -1.05178 1.01865

Zscore(Pelayanan_kasir) 1.25139 -.39518 -.64216

Zscore(Fasilitas) .02839 1.16383 -.89416

Zscore(Keindahan_interior) 1.10258 -.67937 -.31741

Tabel Final Cluster Centers menunjukkan hasil analisisnya untuk masing-masing variabel dab cluster yang dibentuk.

Pedoman untuk menafsirkan tabel hasil analisis, dengan ketentuan:

1. Jika hasil perhitungan ditemukan negative berarti cluster yang bersangkutan ada dibawah rata-rata total


MATERI PRAKTIKUM


2. Jika hasil perhitungan ditemukan positif berarti cluster yang bersangkutan ada di atas rata-rata total.

Contoh peerhitungan untuk angka score variabel 1 lokasi took pda cluster 1,2,dan 3

Rumus : X=μ+z . σ

Dimana: X = Rata-rata sampel/ data/ variabel dalam kluster tertentu

μ= Rata-rata populasi

z= Standar yang dibuat oleh SPSS

σ= Standar Deviasi

Variabel 1 cluster 1

X=μ+z . σ

= Rata-rata variabel 1-(0,18426 x standar deviasi rat-rata variabel 1)

= 3,85 – (0,18426 x 1,899)

= 3,50009


X=μ+z . σ

= 3,85 – (1,14946 x 1,899)

= 1,667175


X=μ+z . σ

= 3,85 + (1,00029 x 1,899)

= 5,7405481


MATERI PRAKTIKUM


Demikian seterusnya untuk variabel yang lainnya.

Penafsiran untuk variabel 1 (lokasi took) adalah :

1. Cluster 1 nilai rata-rata 3,5001 lebih kecil dari rata-rata populasi ( <3,85) hal ini berarti responden-responden tidak menyukai lokasi toko tersebut.

2. Cluster 2 nilai rata-rata 1,6677175 lebih kecil dari rata-rata populasu (<3,85) hal ini berarti responden tidak menyukai lokasi tersebut.

3. Cluster 3 nilai rata-rata 5,7405481 lebih besar dari rata-rata populasi (>3,85) hal ini berarti responden menyukai lokasi took tersebut.

Namun secara cepat hasilnya dapat diproleh, perhatikan nilai tiap variabel (tanda – dan + ). Dengan memperhatikan tanda tersebut dapat diproleh tiap variabel masuk ke dalam cluster mana?. Sesuai dengan pedoman penafsiran tabel hasil analisis di atas. Variabel 1 masuk cluster 3, variabel 2 masuk cluster 1, variabel 3 masuk cluster 3, variabel 4 masuk cluster 1, variabel 5 masuk cluster 2 dan variabel 6 masuk cluster 1.

Demikian juga untuk variabel yang lainnya.

ANOVA

Cluster Error

F Sig.Mean Square df Mean Square df

Zscore(Lokasi_toko) 8.068 2 .168 17 47.888 .000

Zscore(Harga_produk) 6.809 2 .317 17 21.505 .000

Zscore(Kebersihan) 7.751 2 .206 17 37.670 .000

Zscore(Pelayanan_kasir) 6.816 2 .316 17 21.585 .000

Zscore(Fasilitas) 7.264 2 .263 17 27.614 .000

Zscore(Keindahan_interior) 5.435 2 .478 17 11.363 .001

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the

differences among cases in different clusters. The observed significance levels are not corrected for this and thus

cannot be interpreted as tests of the hypothesis that the cluster means are equal.


MATERI PRAKTIKUM


Ini menggunakan uji F dan signifikansi yang telah terdapat pada tabel anova. Untuk mempermudah kita menggunakan p=value signifikansi. Uji hipotesinya adalah :

Ho = Ketiga cluster tidak ada perbedaan signifikan

Ha = Ketiga cluster ada perbedaan signifikan

Criteria uji:

Tolaj hipotesis nol Ho jika nilai p-value (<0,05) dan terima Ha. Pada variabel 1 nilai p-value signifikansi sebesar 0,000 maka tolak Ho dan terima Ha. Kesimpulannya ketiga cluster pada variabel 1 ( lokasi took) ada perbedaan yang signifikan. Secara keseluruhan dari variabel 1-6 ialah ketiga cluster untuk masing-masing variabel mempunyai perbedaan yang signifikan karena p-value signifikansi (<0,05).

Number of Cases in each

Cluster

Cluster 1 6.000

2 6.000

3 8.000

Valid 20.000

Missing .000

Tabel Number of caases in each Cluster menunjukkan jumlah respon yang masuk ke dalam tiap cluster. Cluster 1 ( 6 responden), cluster 2 (6 responden) dan cluster 3 (8 responden).

Hasil analisis secara keseluruhan dapat dilihat pada tabel di bawah ini.

No Variabel Nilai F Signif. Ket. Cluster1 Lokasi toko 47,888 0,000 Signifikan 32 Harga produk 21,505 0,000 Signifikan 13 Pelayanan kasir 21,585 0,000 Signifikan 34 Kebersihan 37,670 0,000 Signifikan 15 Fasilitas 27,614 0,000 Signifikan 26 Keindahan interior 11,363 0,000 Signifikan 1


MATERI PRAKTIKUM


Documents

Modul Praktikum 3 - Cluster