Upload
editrusnita
View
115
Download
5
Embed Size (px)
DESCRIPTION
modul praktikum PSIT - universitas islam indonesia
Citation preview
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
PRAKTIKUM 1ANALISA K-MEANS CLUSTER
Definisi ClusterAnalisa Cluster adalah pengorganisasian kumpulan pola ke dalam kelompok-kelompok (Cluster) berdasar atas kesamaanya. Pola-pola dalam suatu Cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam Cluster yang lainnya. Metodologi Clustering lebih cocok digunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya.
Tujuan Praktikum Cluster1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam melakukan dan
menerapkan analisis Cluster2. Mahasiswa dapat mengetahui dan memahami arti dan garis besar dari analisis Cluster
dalam data mining, mulai dari pengambilan data, pengolahan data sampai dengan tahap pengelompokan, serta mengaplikasikannya dalam kasus yang dihadapi.
Konsep ClusterAnalisis Cluster merupakan salah satu teknik multivariat yang digunakan dalam data
mining yang bertujuan untuk mengidentifikasi sekelompok obyek yang mempunyai kemiripan karakteristik tertentu yang dapat dipisahkan dengan kelompok obyek lainnya, sehingga obyek yang berada dalam kelompok yang sama relatif lebih homogen (sama) daripada obyek yang berada pada kelompok yang berbeda. Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu: 1. Tujuan Analisis Cluster2. Desain Penelitian dalam Analisis Cluster3. Asumsi-asumsi dalam Analisis Cluster4. Proses Mendapatkan Cluster dan Menilai kelayakan secara keseluruhan (overall fit) 5. Interpretasi terhadap Cluster.6. Proses Validasi dan Pembuatan Profil (profiling) Cluster
Penerapan analisis Cluster di dalam pemasaran adalah sebagai berikut : 1. Identifikasi obyek (Recognition) :
Dalam bidang image Processing , Computer Vision atau robot vision
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
2. Decission Support System dan data mining Membuat segmen pasar (segmenting the market). Memahami perilaku pembeli. Mengenali peluang produk baru
METODE NON HIRARKI
Gambar 2. Algoritma Analisa Kluster
prosedur non hirarkikal (K-means Clustering) adalah analisis statistik yang berguna untuk
mengelompokan sejumlah objek ke dalam jumlah kelompok yang sudah ditetapkan di mana
karakteristik objek hanya dikelompokan berdasarkan variabel tertentu akan tetapi karakteristik
latar belakang objek belum diketahui dengan pasti. Analisis ini sangat efektif dan efisien jika
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
digunakan untuk mengelompokkan objek yang berjumlah besar. berdasarkan pengalaman, K-
Mean Cluster ini digunakan untuk objek yang berjumlah lebih dari 100.
Berbeda dengan metode hirarkikal, prosedur non hirarkikal (K-means Clustering) dimulai
dengan memilih sejumlah nilai cluster awal sesuai dengan jumlah yang diinginkan dan kemudian
obyek digabungkan ke dalam cluster-cluster tersebut.
1) Sequential Threshold Procedure
Metode ini melakukan pengelompokan dengan terlebih dahulu memilih satu obyek dasar yang
akan dijadikan nilai awal cluster, kemudian semua obyek yang ada didalam jarak terdekat
dengan cluster ini akan bergabung lalu dipilih cluster kedua dan semua obyek yang mempunyai
kemiripan dimasukkan dalam cluster ini. Demikian seterusnya hingga terbentuk beberapa cluster
dengan keseluruhan obyek didalamnya.
2) Parallel Threshold Prosedure
Secara prinsip sama dengan prosedur sequential threshold, hanya saja dilakukan pemilihan
terhadap beberapa obyek awal cluster sekaligus dan kemudian melakukan penggabungan obyek
ke dalamnya secara bersamaan.
3) Optimizing
Merupakan pengembangan dari kedua metode diatas dengan melakukan optimasi pada
penempatan obyek yang ditukar untuk cluster lainnya dengan pertimbangan krteria optimasi.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Ada beberapa tahapan dalam malekukan Analisis Cluster, diantaranya yaitu:
1. Pilih sebuah Distance MeasureMetode untuk mengukur kesamaan obyek antara lain :
1) Euclidean Distance
Jarak euclidean antara dua titik i dan j merupakan sisi miring (sisi terpanjang) dari
segitiga ABC.
D (i , j )=√ A2+¿B2=√∑ (X i−Y i)2=¿√(X1 i−X1 j)
2+( X2i−X2 j)2¿¿
2) Squared Euclidean Distance
Merupakan pengukuran kuadrat jarak euclidean antara dua titik i dan j.
D ( i , j )=A2+B2=∑( X i−Y i)2=¿( X1 i−X1 j)
2+(X2 i−X2 j)2¿
3) Chebychev
D(X,Y)¿max i|X i−Y i|4) City Block Distance
D(X,Y)¿∑|X i−Y i|
D(I,j) ¿|A|+|B|=∑|X i−Y i|=|X 1i−X1 j|+|X2 i−X2 j|
2. Pilih Clustering Algorithma yang akan dipakaiUntuk procedures dari clustering terdapat dua procedurea. Hierarchical Procedures, dimana pada prosedur ini jumlah cluster belum diketahui
- Agglomerative ( dimulai dari n cluster untuk mendapatkan sebuah cluster)- Divisive ( dimulai dari sebuah cluster, kemudian mendapatkan n cluster
b. Non Hierarchical Procedure- K-Means Clustering
Dimana pada praktikum ini menggunakan analisis K-means clustering dalam penyelesaian masalah.
3. Tentukan jumlah Cluster yang akan dibentukDidalam k-means clustering, jumlah cluster telah ditentukan terlebih dahulu.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
4. Analisis Validasia. Proses validasi solusi cluster
Proses validasi bertujuan menjamin bahwa solusi yang dihasilkan dari analisis cluster
dapat mewakili populasi dan dapat digeneralisasi untuk objek lain. Pendekatan ini
membandingkan solusi cluster dan menilai korespondensi hasil. Terkadang tidak dapat
dipraktekkan karena adanya kendala waktu dan biaya atau ketidaktersediaan objek untuk
analisis cluster ganda.
b. Pembuatan Profil ( profiling) solusi cluster
Tahap ini menggambarkan karakteristik tiap cluster untuk menjelaskan cluster-cluster
tersebut dapat dapat berbeda pada dimensi yang relevan. Titik beratnta pada karakteristik
yang secara signifikan berbeda antar clustre dan memprediksi anggota dalam suatu
cluster khusus.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Contoh Kasus
sebuah pemebelanjaan melakukan risetuntuk mengetahui apa saja yang mendorong konsumen berbelanja di swalayan tersebut. Variabel-variabel pertanyaan yaitu: lokasi took, harga produk, kebersihan, pelayanan kasir, fasilitas dan keindahaan interior. Untuk itu setiap responden diberi 6 pertanyaan dan didapat 20 responden sebagai sampel. Data yang diproleh sebagai berikut:
Responden
Lokasi Toko
Harga Produk
Kebersihan
Pelayanan Kasir
Fasilitas
Keindahan Interior
1 6 4 7 3 2 32 2 3 1 4 5 43 7 2 6 4 1 34 4 6 4 5 3 65 1 3 2 2 6 46 6 4 6 3 3 47 5 3 6 3 3 48 7 3 7 4 1 49 2 4 3 3 6 310 3 5 3 6 4 611 1 3 2 3 5 312 5 4 5 4 2 413 2 2 1 5 4 414 4 6 4 6 4 715 6 5 4 2 1 416 3 5 4 6 4 717 4 4 7 2 2 518 3 7 2 6 4 319 4 6 3 7 2 720 2 3 2 4 7 2
Langkah-langkah SPSS:
Masukkan seluruh variabel dan data,seperti gambar berikut ini
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Pertama-tama melakukan standarisasi nilai/data yang akan dianalisis (dengan Z Score)
1. Klik Analyze>Descriptive Statistics>Descriptives2. Pindahkan variabel dikolom kiri ke kolom Variabel (s)3. Aktifkan Save Standardized as Variables4. Klik OK
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
Lokasi_toko 20 1.00 7.00 3.8500 1.89945
Harga_produk 20 2.00 7.00 4.1000 1.41049
Kebersihan 20 1.00 7.00 3.9500 2.01246
Pelayanan_kasir 20 2.00 7.00 4.1000 1.51831
Fasilitas 20 1.00 7.00 3.4500 1.76143
Keindahan_interior 20 2.00 7.00 4.3500 1.49649
Valid N (listwise) 20
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Tabel Descriptive Statistics akan digunakan untuk membantu menganalisis pengelompokan
cluster nantinya.
Pastikan tampilan pada data view telah berubah sperti gambar berikut ini:
Perhatikan pada variabel data asli akan muncul 6 variabel dengan awalan “Z”
Langkah analisis selanjutnya:
1. Pada Analyze>Classify>K-Means Cluster2. Pindahkan Variabel yang berawalan “Z” ke kolom Variabel(s)3. Tentukan jumlahCluster dengan mngisikan angka 3 pada Number of Cluster4. Pilih Save dan aktifkan Cluster Membership dan Distance from Cluster center, kemudian
Continue5. Pilih Option, aktifkan Initial Cluster center dan Anova Table6. Tekan OK
Hasil Output SPSS
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Initial Cluster Centers
Cluster
1 2 3
Zscore(Lokasi_toko) .07897 -1.50044 1.65838
Zscore(Harga_produk) 1.34705 -.77987 -1.48885
Zscore(Kebersihan) -.47206 -.96896 1.01865
Zscore(Pelayanan_kasir) 1.91002 -1.38312 -.06586
Zscore(Fasilitas) -.82320 1.44769 -1.39092
Zscore(Keindahan_interior) 1.77081 -.23388 -.90211
Tabel Initial Cluster Centers menunjukkan hasil proses sementara pengelompokan data yang di lakukan. Karena proses ini baru awal maka perlu dilakukan proses selanjutnya.
Iteration Historya
Iteration Change in Cluster Centers
1 2 3
dimension0
1 1.310 1.177 1.637
2 .000 .000 .000
a. Convergence achieved due to no or small
change in cluster centers. The maximum
absolute coordinate change for any center
is .000. The current iteration is 2. The minimum
distance between initial centers is 4.912.
Pada tabel Iteration History, metode K-means Clsuter akan menguji dan realoksi cluster yang ada. Proses tersebut dinamakan Iteration yang membuat perubahan pada initial cluster (Change in Cluster). Proses ini pengelompokan diulang dengan ketepatan yang lebih akurat.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Cluster Membership
Responden
QCL_1 QCL_2
1 3 0.829832 2 0.767953 3 1.637424 1 0.841055 2 1.176916 3 0.713927 3 0.879738 3 1.209229 2 1.0526910 1 0.7255111 2 0.6071912 3 0.9042313 2 1.61387
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Responden
QCL_1 QCL_2
14 1 0.8485915 3 1.6607416 1 1.0272317 3 1.5118318 1 2.3003919 1 1.3100420 2 1.2904
Terlihat dari gambar diatas menunjukkan tiap responden mask kedalam masing-masing cluster yang dibentuk. Seperti responden 1 masuk cluster 3, nilai distance sebesar 0,830. Namun ini baru awal hasil perlu dianalisis hasil selanjutnya.
Final Cluster Centers
Cluster
1 2 3
Zscore(Lokasi_toko) -.18426 -1.14946 1.00029
Zscore(Harga_produk) 1.22889 -.77987 -.33676
Zscore(Kebersihan) -.30642 -1.05178 1.01865
Zscore(Pelayanan_kasir) 1.25139 -.39518 -.64216
Zscore(Fasilitas) .02839 1.16383 -.89416
Zscore(Keindahan_interior) 1.10258 -.67937 -.31741
Tabel Final Cluster Centers menunjukkan hasil analisisnya untuk masing-masing variabel dab cluster yang dibentuk.
Pedoman untuk menafsirkan tabel hasil analisis, dengan ketentuan:
1. Jika hasil perhitungan ditemukan negative berarti cluster yang bersangkutan ada dibawah rata-rata total
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
2. Jika hasil perhitungan ditemukan positif berarti cluster yang bersangkutan ada di atas rata-rata total.
Contoh peerhitungan untuk angka score variabel 1 lokasi took pda cluster 1,2,dan 3
Rumus : X=μ+z . σ
Dimana: X = Rata-rata sampel/ data/ variabel dalam kluster tertentu
μ= Rata-rata populasi
z= Standar yang dibuat oleh SPSS
σ= Standar Deviasi
Variabel 1 cluster 1
X=μ+z . σ
= Rata-rata variabel 1-(0,18426 x standar deviasi rat-rata variabel 1)
= 3,85 – (0,18426 x 1,899)
= 3,50009
Variabel 1 cluster 2
X=μ+z . σ
= 3,85 – (1,14946 x 1,899)
= 1,667175
Variabel 1 cluster 3
X=μ+z . σ
= 3,85 + (1,00029 x 1,899)
= 5,7405481
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Demikian seterusnya untuk variabel yang lainnya.
Penafsiran untuk variabel 1 (lokasi took) adalah :
1. Cluster 1 nilai rata-rata 3,5001 lebih kecil dari rata-rata populasi ( <3,85) hal ini berarti responden-responden tidak menyukai lokasi toko tersebut.
2. Cluster 2 nilai rata-rata 1,6677175 lebih kecil dari rata-rata populasu (<3,85) hal ini berarti responden tidak menyukai lokasi tersebut.
3. Cluster 3 nilai rata-rata 5,7405481 lebih besar dari rata-rata populasi (>3,85) hal ini berarti responden menyukai lokasi took tersebut.
Namun secara cepat hasilnya dapat diproleh, perhatikan nilai tiap variabel (tanda – dan + ). Dengan memperhatikan tanda tersebut dapat diproleh tiap variabel masuk ke dalam cluster mana?. Sesuai dengan pedoman penafsiran tabel hasil analisis di atas. Variabel 1 masuk cluster 3, variabel 2 masuk cluster 1, variabel 3 masuk cluster 3, variabel 4 masuk cluster 1, variabel 5 masuk cluster 2 dan variabel 6 masuk cluster 1.
Demikian juga untuk variabel yang lainnya.
ANOVA
Cluster Error
F Sig.Mean Square df Mean Square df
Zscore(Lokasi_toko) 8.068 2 .168 17 47.888 .000
Zscore(Harga_produk) 6.809 2 .317 17 21.505 .000
Zscore(Kebersihan) 7.751 2 .206 17 37.670 .000
Zscore(Pelayanan_kasir) 6.816 2 .316 17 21.585 .000
Zscore(Fasilitas) 7.264 2 .263 17 27.614 .000
Zscore(Keindahan_interior) 5.435 2 .478 17 11.363 .001
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximize the
differences among cases in different clusters. The observed significance levels are not corrected for this and thus
cannot be interpreted as tests of the hypothesis that the cluster means are equal.
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013
Ini menggunakan uji F dan signifikansi yang telah terdapat pada tabel anova. Untuk mempermudah kita menggunakan p=value signifikansi. Uji hipotesinya adalah :
Ho = Ketiga cluster tidak ada perbedaan signifikan
Ha = Ketiga cluster ada perbedaan signifikan
Criteria uji:
Tolaj hipotesis nol Ho jika nilai p-value (<0,05) dan terima Ha. Pada variabel 1 nilai p-value signifikansi sebesar 0,000 maka tolak Ho dan terima Ha. Kesimpulannya ketiga cluster pada variabel 1 ( lokasi took) ada perbedaan yang signifikan. Secara keseluruhan dari variabel 1-6 ialah ketiga cluster untuk masing-masing variabel mempunyai perbedaan yang signifikan karena p-value signifikansi (<0,05).
Number of Cases in each
Cluster
Cluster 1 6.000
2 6.000
3 8.000
Valid 20.000
Missing .000
Tabel Number of caases in each Cluster menunjukkan jumlah respon yang masuk ke dalam tiap cluster. Cluster 1 ( 6 responden), cluster 2 (6 responden) dan cluster 3 (8 responden).
Hasil analisis secara keseluruhan dapat dilihat pada tabel di bawah ini.
No Variabel Nilai F Signif. Ket. Cluster1 Lokasi toko 47,888 0,000 Signifikan 32 Harga produk 21,505 0,000 Signifikan 13 Pelayanan kasir 21,585 0,000 Signifikan 34 Kebersihan 37,670 0,000 Signifikan 15 Fasilitas 27,614 0,000 Signifikan 26 Keindahan interior 11,363 0,000 Signifikan 1
UNIVERSITAS ISLAM INDONESIA FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas : TeknologiIndustri Pertemuanke : 1Jurusan/Program Studi : TeknikIndustri Modulke : 1Kode Mata Kuliah : - JumlahHalaman :-Nama Mata Kuliah : PSIT 2 Mulai berlaku : 2013