Upload
bernardpranavasta
View
9
Download
0
Embed Size (px)
DESCRIPTION
sasas
Citation preview
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 1/34
Model Datamining
Dr. Sri Kusumadewi, S.Si., MT .
Materi Kuliah [10]:
(Sistem Pendukung Keputusan)
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 2/34
POKOK BAHASAN
Definisi
Kategori Model
Naïve Bayesian
k-Nearest Neighbor
Clustering
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 3/34
Definisi
“Mining”: proses atau usaha untukmendapatkan sedikit barang berharga darisejumlah besar material dasar yang telah
ada.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 4/34
Definisi
Beberapa faktor dalam pendefinisian datamining:
data mining adalah proses otomatis
terhadap data yang dikumpulkan di masalalu
objek dari data mining adalah data yangberjumlah besar atau kompleks
tujuan dari data mining adalah menemukanhubungan-hubungan atau pola-pola yangmungkin memberikan indikasi yangbermanfaat.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 5/34
Definisi
Definisi data mining
Data mining adalah serangkaian prosesuntuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yangselama ini tidak diketahui secara manual.
Data mining adalah analisa otomatis daridata yang berjumlah besar atau kompleksdengan tujuan untuk menemukan pola ataukecenderungan yang penting yang biasanyatidak disadari keberadaannya
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 6/34
Kategori dalam Data mining
Classification
Clustering
Statistical Learning
Association Analysis Link Mining
Bagging and Boosting
Sequential Patterns Integrated Mining
Rough Sets
Graph Mining
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 7/34
Classification
Klasifikasi adalah suatu proses pengelom-pokan data dengan didasarkan pada ciri-ciri tertentu ke dalam kelas-kelas yang
telah ditentukan pula. Dua metode yang cukup dikenal dalam
klasifikasi, antara lain:
Naive Bayes
K Nearest Neighbours (kNN)
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 8/34
Naïve Bayesian Classification
Teorema Bayes:
P(C|X) = P(X|C)·P(C) / P(X)
P(X) bernilai konstan utk semua klas
P(C) merupakan frek relatif sample klas C
Dicari P(C|X) bernilai maksimum, samahalnya dengan P(X|C)·P(C) juga bernilai
maksimum Masalah: menghitung P(X|C) tidak
mungkin!
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 9/34
Naïve Bayesian Classification
Apabila diberikan k atribut yang salingbebas (independence), nilai probabilitasdapat diberikan sebagai berikut.
P( x 1,…, x k|C) = P( x 1|C) x … x P( x k|C)
Jika atribut ke-i bersifat diskret, makaP( x i|C) diestimasi sebagai frekwensi relatif dari sampel yang memiliki nilai x i sebagaiatribut ke i dalam kelas C.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 10/34
Naïve Bayesian Classification
Namun jika atribut ke-i bersifat kontinu,maka P( x i|C) diestimasi dengan fungsidensitas Gauss.
dengan = mean, dan = deviasi standar.
2
2
2
x
e2
1)x(f
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 11/34
Naïve Bayesian Classification
Contoh:
Untuk menetapkan suatu daerah akan dipilihsebagai lokasi untuk mendirikan perumahan,
telah dihimpun 10 aturan. Ada 4 atribut yang digunakan, yaitu:
harga tanah per meter persegi (C1),
jarak daerah tersebut dari pusat kota (C2),
ada atau tidaknya angkutan umum di daerahtersebut (C3), dan
keputusan untuk memilih daerah tersebut sebagailokasi perumahan (C4).
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 12/34
Naïve Bayesian Classification
Tabel Aturan
Aturan ke-Harga tanah
(C1)
Jarak dari
pusat kota
(C2)
Ada angkutan
umum
(C3)
Dipilih untuk
perumahan
(C4)
1 Murah Dekat Tidak Ya2 Sedang Dekat Tidak Ya
3 Mahal Dekat Tidak Ya
4 Mahal Jauh Tidak Tidak
5 Mahal Sedang Tidak Tidak
6 Sedang Jauh Ada Tidak
7 Murah Jauh Ada Tidak
8 Murah Sedang Tidak Ya
9 Mahal Jauh Ada Tidak
10 Sedang Sedang Ada Ya
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 13/34
Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atributHarga Tanah (C1)
Harga
tanah
Jumlah kejadian
“Dipilih” Probabilitas
Ya Tidak Ya Tidak
Murah 2 1 2/5 1/5
Sedang 2 1 2/5 1/5
Mahal 1 3 1/5 3/5
Jumlah 5 5 1 1
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 14/34
Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atributJarak dari pusat kota (C2)
Harga
tanah
Jumlah kejadian
“Dipilih” Probabilitas
Ya Tidak Ya Tidak
Dekat 3 0 3/5 0
Sedang 2 1 2/5 1/5
Jauh 0 4 0 4/5
Jumlah 5 5 1 1
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 15/34
Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut Adaangkutan umum (C3)
Harga
tanah
Jumlah kejadian
“Dipilih” Probabilitas
Ya Tidak Ya Tidak
Ada 1 3 1/5 3/5
Tidak 4 2 4/5 2/5
Jumlah 5 5 1 1
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 16/34
Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atributDipilih untuk perumahan (C4)
Harga
tanah
Jumlah kejadian
“Dipilih” Probabilitas
Ya Tidak Ya Tidak
Jumlah 5 5 1/2 1/2
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 17/34
Naïve Bayesian Classification
Berdasarkan data tersebut, apabila diketahuisuatu daerah dengan harga tanah MAHAL, jarakdari pusat kota SEDANG, dan ADA angkutanumum, maka dapat dihitung:
Likelihood Ya =
1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008
Likelihood Tidak =3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 18/34
Naïve Bayesian Classification
Nilai probabilitas dapat dihitung denganmelakukan normalisasi terhadap likelihoodtersebut sehingga jumlah nilai yang diperoleh = 1.
Probabilitas Ya =
Probabilitas Tidak =
.182,0036,0008,0
008,0
.818,0036,0008,0
036,0
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 19/34
Naïve Bayesian Classification
Modifikasi data
Aturan ke-Harga tanah
(C1)
Jarak dari
pusat kota
(C2)
Ada angkutan
umum
(C3)
Dipilih untuk
perumahan
(C4)
1 100 2 Tidak Ya2 200 1 Tidak Ya
3 500 3 Tidak Ya
4 600 20 Tidak Tidak
5 550 8 Tidak Tidak
6 250 25 Ada Tidak
7 75 15 Ada Tidak
8 80 10 Tidak Ya
9 700 18 Ada Tidak
10 180 8 Ada Ya
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 20/34
Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atributHarga Tanah (C1)
Ya Tidak
1 100 600
2 200 550
3 500 250
4 80 755 180 700
Mean () Deviasi standar ()
212
168,8787
435
261,9637
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 21/34
Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atributJarak dari pusat kota (C2)
Ya Tidak
1 2 20
2 1 8
3 3 25
4 10 155 8 18
Mean () Deviasi standar ()
4,8
3,9623
17,2
6,3008
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 22/34
Naïve Bayesian Classification
Berdasarkan hasil penghitungan tersebut, apabiladiberikan C1 = 300, C2 = 17, C3 = Tidak, maka:
.0021,0e
)8787,168(2
1)ya|3001C(f
2
2
)8787,168(2
212300
.0013,0e)261.9637(2
1)tidak |3001C(f
2
2
)261.9637(2
435300
.0009,0e)3.9623(2
1)ya|172C(f 2
2
)3.9623(2
8,417
.0633,0e)6,3008(2
1)tidak |172C(f
2
2
)6,3008(2
2,1717
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 23/34
Naïve Bayesian Classification
Sehingga:
Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10
= 0,000000756.
Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10
= 0,000016458.
Nilai probabilitas dapat dihitung denganmelakukan normalisasi terhadap likelihoodtersebut sehingga jumlah nilai yang diperoleh = 1.
Probabilitas Ya =
Probabilitas Tidak =
.0439,080,0000164560,00000075
60,00000075
.9561,080,0000164560,00000075
80,00001645
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 24/34
K-Nearest Neighbor - 1
Konsep dasar dari K-NN adalah mencari jarak terdekat antara data yang akandievaluasi dengan K tetangga terdekatnya
dalam data pelatihan. Penghitungan jarak dilakukan dengan
konsep Euclidean.
Jumlah kelas yang paling banyak dengan jarak terdekat tersebut akan menjadikelas dimana data evaluasi tersebutberada.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 25/34
K-Nearest Neighbor - 2
Algoritma Tentukan parameter K = jumlah tetangga
terdekat.
Hitung jarak antara data yang akan dievaluasidengan semua data pelatihan.
Urutkan jarak yang terbentuk (urut naik) dantentukan jarak terdekat sampai urutan ke-K.
Pasangkan kelas (C) yang bersesuaian.
Cari jumlah kelas terbanyak dari tetanggaterdekat tersebut, dan tetapkan kelas tersebutsebagai kelas data yang dievaluasi.
Contoh…
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 26/34
Clustering
Clustering adalah proses pengelompokan objekyang didasarkan pada kesamaan antar objek.
Tidak seperti proses klasifikasi yang bersifatsupervised learning, pada clustering prosespengelompokan dilakukan atas dasarunsupervised learning.
Pada proses klasifikasi, akan ditentukan lokasidari suatu kejadian pada klas tertentu daribeberapa klas yang telah teridentifikasisebelumnya.
Sedangkan pada proses clustering, prosespengelompokan kejadian dalam klas akandilakukan secara alami tanpa mengidentifikasiklas-klas sebelumnya.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 27/34
Clustering
Suatu metode clustering dikatakan baik apabilametode tersebut dapat menghasilkan cluster-cluster dengan kualitas yang sangat baik.
Metode tersebut akan menghasilkan cluster-cluster dengan objek-objek yang memiliki tingkat
kesamaan yang cukup tinggi dalam suatu cluster,dan memiliki tingkat ketidaksamaan yang cukuptinggi juga apabila objek-objek tersebut terletakpada cluster yang berbeda.
Untuk mendapatkan kualitas yang baik, metode
clustering sangat tergantung pada ukurankesamaan yang akan digunakan dankemampuannya untuk menemukan beberapapola yang tersembunyi.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 28/34
K-Means
Konsep dasar dari K-Means adalahpencarian pusat cluster secara iteratif.
Pusat cluster ditetapkan berdasarkan
jarak setiap data ke pusat cluster. Proses clustering dimulai dengan
mengidentifikasi data yang akan dicluster,xij (i=1,...,n; j=1,...,m) dengan n adalah
jumlah data yang akan dicluster dan madalah jumlah variabel.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 29/34
K-Means
Pada awal iterasi, pusat setiap cluster ditetapkansecara bebas (sembarang), ckj (k=1,...,K; j=1,...,m).
Kemudian dihitung jarak antara setiap data
dengan setiap pusat cluster.
Untuk melakukan penghitungan jarak data ke-i(Xi) pada pusat cluster ke-k (Ck), diberi nama(dik), dapat digunakan formula Euclidean, yaitu:
m
1 j
2
kjijik cxd
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 30/34
K-Means
Suatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya.
Selanjutnya, kelompokkan data-data yangmenjadi anggota pada setiap cluster.
Nilai pusat cluster yang baru dapat dihitungdengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster
tersebut, dengan rumus:
k kecluster xy; p
y
c ijhj
p
1h
hj
kj
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 31/34
K-Means
Algoritma: Tentukan jumlah cluster (K), tetapkan pusat cluster
sembarang.
Hitung jarak setiap data ke pusat cluster.
Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek.
Hitung pusat cluster.
Ulangi langkah 2 - 4 hingga sudah tidak ada lagi datayang berpindah ke cluster yang lain.
Contoh…
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 32/34
Penentuan Jumlah Cluster
Salah satu masalah yang dihadapi pada prosesclustering adalah pemilihan jumlah cluster yangoptimal.
Kauffman dan Rousseeuw (1990)
memperkenalkan suatu metode untukmenentukan jumlah cluster yang optimal, metodeini disebut dengan silhouette measure.
Misalkan kita sebut A sebagai cluster dimana dataXi berada, hitung ai sebagai rata-rata jarak Xi ke
semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster
selain A.
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 33/34
Penentuan Jumlah Cluster Hitung rata-rata jarak antara Xi dengan data yang
menjadi anggota dari C, sebut sebagai d(Xi, C).
Cari rata-rata jarak terkecil dari semua cluster,
sebut sebagai bi, bi = min(d(Xi,C)) dengan CA.
Silhoutte dari Xi, sebut sebagai si dapat dipandangsebagai berikut (Chih-Ping, 2005):
ii
i
i
ii
ii
i
i
i
ba,1
a
b
ba,0
ba,
b
a1
s
7/14/2019 Pertemuan 8
http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 34/34
Penentuan Jumlah Cluster
Rata-rata si untuk semua data untuk kcluster tersebut disebut sebagai rata-ratasilhouette ke-k, .
Nilai rata-rata silhouette terbesar pada
jumlah cluster (katakanlah: k) menunjukkanbahwa k merupakan jumlah cluster yangoptimal.
k s~