34
Model Datamining Dr. Sri Kusumadewi, S.Si., MT . Materi Kuliah [10]: (Sistem Pendukung Keputusan)

Pertemuan 8

Embed Size (px)

DESCRIPTION

sasas

Citation preview

Page 1: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 1/34

Model Datamining 

Dr. Sri Kusumadewi, S.Si., MT .

Materi Kuliah [10]:

(Sistem Pendukung Keputusan)

Page 2: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 2/34

POKOK BAHASAN

Definisi 

Kategori Model 

Naïve Bayesian 

k-Nearest Neighbor  

Clustering 

Page 3: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 3/34

Definisi

 “Mining”: proses atau usaha untukmendapatkan sedikit barang berharga darisejumlah besar material dasar yang telah

ada.

Page 4: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 4/34

Definisi

Beberapa faktor dalam pendefinisian datamining:

data mining adalah proses otomatis

terhadap data yang dikumpulkan di masalalu

objek dari data mining adalah data yangberjumlah besar atau kompleks

tujuan dari data mining adalah menemukanhubungan-hubungan atau pola-pola yangmungkin memberikan indikasi yangbermanfaat.

Page 5: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 5/34

Definisi

Definisi data mining

Data mining adalah serangkaian prosesuntuk menggali nilai tambah dari suatu

kumpulan data berupa pengetahuan yangselama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis daridata yang berjumlah besar atau kompleksdengan tujuan untuk menemukan pola ataukecenderungan yang penting yang biasanyatidak disadari keberadaannya

Page 6: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 6/34

Kategori dalam Data mining 

Classification 

Clustering

Statistical Learning

Association Analysis Link Mining

Bagging and Boosting

Sequential Patterns Integrated Mining

Rough Sets

Graph Mining

Page 7: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 7/34

Classification

Klasifikasi adalah suatu proses pengelom-pokan data dengan didasarkan pada ciri-ciri tertentu ke dalam kelas-kelas yang

telah ditentukan pula. Dua metode yang cukup dikenal dalam

klasifikasi, antara lain:

Naive Bayes

K Nearest Neighbours (kNN)

Page 8: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 8/34

Naïve Bayesian Classification

Teorema Bayes:

P(C|X) = P(X|C)·P(C) / P(X)

P(X) bernilai konstan utk semua klas

P(C) merupakan frek relatif sample klas C

Dicari P(C|X) bernilai maksimum, samahalnya dengan P(X|C)·P(C) juga bernilai

maksimum Masalah: menghitung P(X|C) tidak

mungkin!

Page 9: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 9/34

Naïve Bayesian Classification

Apabila diberikan k atribut yang salingbebas (independence), nilai probabilitasdapat diberikan sebagai berikut.

P( x 1,…, x k|C) = P( x 1|C) x … x P( x k|C)

Jika atribut ke-i bersifat diskret, makaP( x i|C) diestimasi sebagai frekwensi relatif dari sampel yang memiliki nilai x i sebagaiatribut ke i dalam kelas C.

Page 10: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 10/34

Naïve Bayesian Classification

Namun jika atribut ke-i bersifat kontinu,maka P( x i|C) diestimasi dengan fungsidensitas Gauss.

dengan = mean, dan = deviasi standar.

2

2

2

x

e2

1)x(f 

Page 11: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 11/34

Naïve Bayesian Classification

Contoh:

Untuk menetapkan suatu daerah akan dipilihsebagai lokasi untuk mendirikan perumahan,

telah dihimpun 10 aturan. Ada 4 atribut yang digunakan, yaitu:

harga tanah per meter persegi (C1),

 jarak daerah tersebut dari pusat kota (C2),

ada atau tidaknya angkutan umum di daerahtersebut (C3), dan

keputusan untuk memilih daerah tersebut sebagailokasi perumahan (C4).

Page 12: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 12/34

Naïve Bayesian Classification

Tabel Aturan

Aturan ke-Harga tanah

(C1)

Jarak dari

pusat kota

(C2)

Ada angkutan

umum

(C3)

Dipilih untuk

perumahan

(C4)

1 Murah Dekat Tidak Ya2 Sedang Dekat Tidak Ya

3 Mahal Dekat Tidak Ya

4 Mahal Jauh Tidak Tidak

5 Mahal Sedang Tidak Tidak

6 Sedang Jauh Ada Tidak

7 Murah Jauh Ada Tidak

8 Murah Sedang Tidak Ya

9 Mahal Jauh Ada Tidak

10 Sedang Sedang Ada Ya

Page 13: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 13/34

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atributHarga Tanah (C1)

Harga

tanah

Jumlah kejadian

“Dipilih” Probabilitas

Ya Tidak Ya Tidak

Murah 2 1 2/5 1/5

Sedang 2 1 2/5 1/5

Mahal 1 3 1/5 3/5

Jumlah  5   5   1  1 

Page 14: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 14/34

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atributJarak dari pusat kota (C2)

Harga

tanah

Jumlah kejadian

“Dipilih” Probabilitas

Ya Tidak Ya Tidak

Dekat 3 0 3/5 0

Sedang 2 1 2/5 1/5

Jauh 0 4 0 4/5

Jumlah  5   5   1  1 

Page 15: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 15/34

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atribut Adaangkutan umum (C3)

Harga

tanah

Jumlah kejadian

“Dipilih” Probabilitas

Ya Tidak Ya Tidak

 Ada 1 3 1/5 3/5

Tidak 4 2 4/5 2/5

Jumlah  5   5   1  1 

Page 16: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 16/34

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atributDipilih untuk perumahan (C4)

Harga

tanah

Jumlah kejadian

“Dipilih” Probabilitas

Ya Tidak Ya Tidak

Jumlah  5   5   1/2   1/2  

Page 17: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 17/34

Naïve Bayesian Classification

Berdasarkan data tersebut, apabila diketahuisuatu daerah dengan harga tanah MAHAL, jarakdari pusat kota SEDANG, dan ADA angkutanumum, maka dapat dihitung:

Likelihood Ya =

1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008

Likelihood Tidak =3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036

Page 18: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 18/34

Naïve Bayesian Classification

Nilai probabilitas dapat dihitung denganmelakukan normalisasi terhadap likelihoodtersebut sehingga jumlah nilai yang diperoleh = 1.

Probabilitas Ya =

Probabilitas Tidak =

.182,0036,0008,0

008,0

.818,0036,0008,0

036,0

Page 19: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 19/34

Naïve Bayesian Classification

Modifikasi data

Aturan ke-Harga tanah

(C1)

Jarak dari

pusat kota

(C2)

Ada angkutan

umum

(C3)

Dipilih untuk

perumahan

(C4)

1 100 2 Tidak Ya2 200 1 Tidak Ya

3 500 3 Tidak Ya

4 600 20 Tidak Tidak

5 550 8 Tidak Tidak

6 250 25 Ada Tidak

7 75 15 Ada Tidak

8 80 10 Tidak Ya

9 700 18 Ada Tidak

10 180 8 Ada Ya

Page 20: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 20/34

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atributHarga Tanah (C1)

Ya Tidak

1 100 600

2 200 550

3 500 250

4 80 755 180 700

Mean () Deviasi standar () 

212

168,8787

435

261,9637

Page 21: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 21/34

Naïve Bayesian Classification

Probabilitas kemunculan setiap nilai untuk atributJarak dari pusat kota (C2)

Ya Tidak

1 2 20

2 1 8

3 3 25

4 10 155 8 18

Mean () Deviasi standar () 

4,8

3,9623

17,2

6,3008

Page 22: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 22/34

Naïve Bayesian Classification

Berdasarkan hasil penghitungan tersebut, apabiladiberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

.0021,0e

)8787,168(2

1)ya|3001C(f 

2

2

)8787,168(2

212300

.0013,0e)261.9637(2

1)tidak |3001C(f 

2

2

)261.9637(2

435300

.0009,0e)3.9623(2

1)ya|172C(f 2

2

)3.9623(2

8,417

.0633,0e)6,3008(2

1)tidak |172C(f 

2

2

)6,3008(2

2,1717

Page 23: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 23/34

Naïve Bayesian Classification

Sehingga:

Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10

= 0,000000756.

Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10

= 0,000016458.

Nilai probabilitas dapat dihitung denganmelakukan normalisasi terhadap likelihoodtersebut sehingga jumlah nilai yang diperoleh = 1.

Probabilitas Ya =

Probabilitas Tidak =

.0439,080,0000164560,00000075

60,00000075

.9561,080,0000164560,00000075

80,00001645

Page 24: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 24/34

K-Nearest Neighbor - 1

Konsep dasar dari K-NN adalah mencari jarak terdekat antara data yang akandievaluasi dengan K tetangga terdekatnya

dalam data pelatihan. Penghitungan jarak dilakukan dengan

konsep Euclidean.

Jumlah kelas yang paling banyak dengan jarak terdekat tersebut akan menjadikelas dimana data evaluasi tersebutberada.

Page 25: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 25/34

K-Nearest Neighbor - 2

Algoritma Tentukan parameter K = jumlah tetangga

terdekat.

Hitung jarak antara data yang akan dievaluasidengan semua data pelatihan.

Urutkan jarak yang terbentuk (urut naik) dantentukan jarak terdekat sampai urutan ke-K.

Pasangkan kelas (C) yang bersesuaian.

Cari jumlah kelas terbanyak dari tetanggaterdekat tersebut, dan tetapkan kelas tersebutsebagai kelas data yang dievaluasi.

Contoh… 

Page 26: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 26/34

Clustering 

Clustering adalah proses pengelompokan objekyang didasarkan pada kesamaan antar objek.

Tidak seperti proses klasifikasi yang bersifatsupervised learning, pada clustering prosespengelompokan dilakukan atas dasarunsupervised learning.

Pada proses klasifikasi, akan ditentukan lokasidari suatu kejadian pada klas tertentu daribeberapa klas yang telah teridentifikasisebelumnya.

Sedangkan pada proses clustering, prosespengelompokan kejadian dalam klas akandilakukan secara alami tanpa mengidentifikasiklas-klas sebelumnya.

Page 27: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 27/34

Clustering 

Suatu metode clustering dikatakan baik apabilametode tersebut dapat menghasilkan cluster-cluster dengan kualitas yang sangat baik.

Metode tersebut akan menghasilkan cluster-cluster dengan objek-objek yang memiliki tingkat

kesamaan yang cukup tinggi dalam suatu cluster,dan memiliki tingkat ketidaksamaan yang cukuptinggi juga apabila objek-objek tersebut terletakpada cluster yang berbeda.

Untuk mendapatkan kualitas yang baik, metode

clustering sangat tergantung pada ukurankesamaan yang akan digunakan dankemampuannya untuk menemukan beberapapola yang tersembunyi.

Page 28: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 28/34

K-Means

Konsep dasar dari K-Means adalahpencarian pusat cluster secara iteratif.

Pusat cluster ditetapkan berdasarkan

 jarak setiap data ke pusat cluster. Proses clustering dimulai dengan

mengidentifikasi data yang akan dicluster,xij (i=1,...,n; j=1,...,m) dengan n adalah

 jumlah data yang akan dicluster dan madalah jumlah variabel.

Page 29: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 29/34

K-Means

Pada awal iterasi, pusat setiap cluster ditetapkansecara bebas (sembarang), ckj (k=1,...,K; j=1,...,m).

Kemudian dihitung jarak antara setiap data

dengan setiap pusat cluster.

Untuk melakukan penghitungan jarak data ke-i(Xi) pada pusat cluster ke-k (Ck), diberi nama(dik), dapat digunakan formula Euclidean, yaitu:

m

1 j

2

kjijik  cxd

Page 30: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 30/34

K-Means

Suatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya.

Selanjutnya, kelompokkan data-data yangmenjadi anggota pada setiap cluster.

Nilai pusat cluster yang baru dapat dihitungdengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster

tersebut, dengan rumus:

k kecluster xy; p

y

c ijhj

 p

1h

hj

kj

Page 31: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 31/34

K-Means

Algoritma: Tentukan jumlah cluster (K), tetapkan pusat cluster

sembarang. 

Hitung jarak setiap data ke pusat cluster. 

Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek. 

Hitung pusat cluster.

Ulangi langkah 2 - 4 hingga sudah tidak ada lagi datayang berpindah ke cluster yang lain. 

Contoh… 

Page 32: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 32/34

Penentuan Jumlah Cluster

Salah satu masalah yang dihadapi pada prosesclustering adalah pemilihan jumlah cluster yangoptimal.

Kauffman dan Rousseeuw (1990)

memperkenalkan suatu metode untukmenentukan jumlah cluster yang optimal, metodeini disebut dengan silhouette measure.

Misalkan kita sebut A sebagai cluster dimana dataXi berada, hitung ai sebagai rata-rata jarak Xi ke

semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster

selain A.

Page 33: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 33/34

Penentuan Jumlah Cluster Hitung rata-rata jarak antara Xi dengan data yang

menjadi anggota dari C, sebut sebagai d(Xi, C).

Cari rata-rata jarak terkecil dari semua cluster,

sebut sebagai bi, bi = min(d(Xi,C)) dengan CA. 

Silhoutte dari Xi, sebut sebagai si dapat dipandangsebagai berikut (Chih-Ping, 2005):

ii

i

i

ii

ii

i

i

i

 ba,1

a

 b

 ba,0

 ba,

 b

a1

s

Page 34: Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 34/34

Penentuan Jumlah Cluster

Rata-rata si untuk semua data untuk kcluster tersebut disebut sebagai rata-ratasilhouette ke-k, .

Nilai rata-rata silhouette terbesar pada

 jumlah cluster (katakanlah: k) menunjukkanbahwa k merupakan jumlah cluster yangoptimal.

k s~