Pertemuan 8

7/14/2019 Pertemuan 8

http://slidepdf.com/reader/full/pertemuan-8-56327a0409bfd 1/34

Model Datamining

Dr. Sri Kusumadewi, S.Si., MT .

Materi Kuliah [10]:

(Sistem Pendukung Keputusan)



POKOK BAHASAN

Definisi

Kategori Model

Naïve Bayesian

k-Nearest Neighbor

Clustering



Definisi

“Mining”: proses atau usaha untukmendapatkan sedikit barang berharga darisejumlah besar material dasar yang telah

ada.



Definisi

Beberapa faktor dalam pendefinisian datamining:

data mining adalah proses otomatis

terhadap data yang dikumpulkan di masalalu

objek dari data mining adalah data yangberjumlah besar atau kompleks

tujuan dari data mining adalah menemukanhubungan-hubungan atau pola-pola yangmungkin memberikan indikasi yangbermanfaat.



Definisi

Definisi data mining

Data mining adalah serangkaian prosesuntuk menggali nilai tambah dari suatu

kumpulan data berupa pengetahuan yangselama ini tidak diketahui secara manual.

Data mining adalah analisa otomatis daridata yang berjumlah besar atau kompleksdengan tujuan untuk menemukan pola ataukecenderungan yang penting yang biasanyatidak disadari keberadaannya



Kategori dalam Data mining

Classification

Clustering

Statistical Learning

Association Analysis Link Mining

Bagging and Boosting

Sequential Patterns Integrated Mining

Rough Sets

Graph Mining



Classification

Klasifikasi adalah suatu proses pengelom-pokan data dengan didasarkan pada ciri-ciri tertentu ke dalam kelas-kelas yang

telah ditentukan pula. Dua metode yang cukup dikenal dalam

klasifikasi, antara lain:

Naive Bayes

K Nearest Neighbours (kNN)



Naïve Bayesian Classification

Teorema Bayes:

P(C|X) = P(X|C)·P(C) / P(X)

P(X) bernilai konstan utk semua klas

P(C) merupakan frek relatif sample klas C

Dicari P(C|X) bernilai maksimum, samahalnya dengan P(X|C)·P(C) juga bernilai

maksimum Masalah: menghitung P(X|C) tidak

mungkin!




Apabila diberikan k atribut yang salingbebas (independence), nilai probabilitasdapat diberikan sebagai berikut.

P( x 1,…, x k|C) = P( x 1|C) x … x P( x k|C)

Jika atribut ke-i bersifat diskret, makaP( x i|C) diestimasi sebagai frekwensi relatif dari sampel yang memiliki nilai x i sebagaiatribut ke i dalam kelas C.




Namun jika atribut ke-i bersifat kontinu,maka P( x i|C) diestimasi dengan fungsidensitas Gauss.

dengan = mean, dan = deviasi standar.

2

2

2

x

e2

1)x(f




Contoh:

Untuk menetapkan suatu daerah akan dipilihsebagai lokasi untuk mendirikan perumahan,

telah dihimpun 10 aturan. Ada 4 atribut yang digunakan, yaitu:

harga tanah per meter persegi (C1),

jarak daerah tersebut dari pusat kota (C2),

ada atau tidaknya angkutan umum di daerahtersebut (C3), dan

keputusan untuk memilih daerah tersebut sebagailokasi perumahan (C4).




Tabel Aturan

Aturan ke-Harga tanah

(C1)

Jarak dari

pusat kota

(C2)

Ada angkutan

umum

(C3)

Dipilih untuk

perumahan

(C4)

1 Murah Dekat Tidak Ya2 Sedang Dekat Tidak Ya

3 Mahal Dekat Tidak Ya

4 Mahal Jauh Tidak Tidak

5 Mahal Sedang Tidak Tidak

6 Sedang Jauh Ada Tidak

7 Murah Jauh Ada Tidak

8 Murah Sedang Tidak Ya

9 Mahal Jauh Ada Tidak

10 Sedang Sedang Ada Ya




Probabilitas kemunculan setiap nilai untuk atributHarga Tanah (C1)

Harga

tanah

Jumlah kejadian

“Dipilih” Probabilitas

Ya Tidak Ya Tidak

Murah 2 1 2/5 1/5

Sedang 2 1 2/5 1/5

Mahal 1 3 1/5 3/5

Jumlah 5 5 1 1




Probabilitas kemunculan setiap nilai untuk atributJarak dari pusat kota (C2)

Harga

tanah

Jumlah kejadian


Ya Tidak Ya Tidak

Dekat 3 0 3/5 0

Sedang 2 1 2/5 1/5

Jauh 0 4 0 4/5

Jumlah 5 5 1 1




Probabilitas kemunculan setiap nilai untuk atribut Adaangkutan umum (C3)

Harga

tanah

Jumlah kejadian


Ya Tidak Ya Tidak

Ada 1 3 1/5 3/5

Tidak 4 2 4/5 2/5

Jumlah 5 5 1 1




Probabilitas kemunculan setiap nilai untuk atributDipilih untuk perumahan (C4)

Harga

tanah

Jumlah kejadian


Ya Tidak Ya Tidak

Jumlah 5 5 1/2 1/2




Berdasarkan data tersebut, apabila diketahuisuatu daerah dengan harga tanah MAHAL, jarakdari pusat kota SEDANG, dan ADA angkutanumum, maka dapat dihitung:

Likelihood Ya =

1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008

Likelihood Tidak =3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036




Nilai probabilitas dapat dihitung denganmelakukan normalisasi terhadap likelihoodtersebut sehingga jumlah nilai yang diperoleh = 1.

Probabilitas Ya =

Probabilitas Tidak =

.182,0036,0008,0

008,0

.818,0036,0008,0

036,0




Modifikasi data

Aturan ke-Harga tanah

(C1)

Jarak dari

pusat kota

(C2)

Ada angkutan

umum

(C3)

Dipilih untuk

perumahan

(C4)

1 100 2 Tidak Ya2 200 1 Tidak Ya

3 500 3 Tidak Ya

4 600 20 Tidak Tidak

5 550 8 Tidak Tidak

6 250 25 Ada Tidak

7 75 15 Ada Tidak

8 80 10 Tidak Ya

9 700 18 Ada Tidak

10 180 8 Ada Ya




Probabilitas kemunculan setiap nilai untuk atributHarga Tanah (C1)

Ya Tidak

1 100 600

2 200 550

3 500 250

4 80 755 180 700

Mean () Deviasi standar ()

212

168,8787

435

261,9637




Probabilitas kemunculan setiap nilai untuk atributJarak dari pusat kota (C2)

Ya Tidak

1 2 20

2 1 8

3 3 25

4 10 155 8 18

Mean () Deviasi standar ()

4,8

3,9623

17,2

6,3008




Berdasarkan hasil penghitungan tersebut, apabiladiberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

.0021,0e

)8787,168(2

1)ya|3001C(f

2

2

)8787,168(2

212300

.0013,0e)261.9637(2

1)tidak |3001C(f

2

2

)261.9637(2

435300

.0009,0e)3.9623(2

1)ya|172C(f 2

2

)3.9623(2

8,417

.0633,0e)6,3008(2

1)tidak |172C(f

2

2

)6,3008(2

2,1717




Sehingga:

Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10

= 0,000000756.

Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10

= 0,000016458.

Nilai probabilitas dapat dihitung denganmelakukan normalisasi terhadap likelihoodtersebut sehingga jumlah nilai yang diperoleh = 1.

Probabilitas Ya =

Probabilitas Tidak =

.0439,080,0000164560,00000075

60,00000075

.9561,080,0000164560,00000075

80,00001645



K-Nearest Neighbor - 1

Konsep dasar dari K-NN adalah mencari jarak terdekat antara data yang akandievaluasi dengan K tetangga terdekatnya

dalam data pelatihan. Penghitungan jarak dilakukan dengan

konsep Euclidean.

Jumlah kelas yang paling banyak dengan jarak terdekat tersebut akan menjadikelas dimana data evaluasi tersebutberada.



K-Nearest Neighbor - 2

Algoritma Tentukan parameter K = jumlah tetangga

terdekat.

Hitung jarak antara data yang akan dievaluasidengan semua data pelatihan.

Urutkan jarak yang terbentuk (urut naik) dantentukan jarak terdekat sampai urutan ke-K.

Pasangkan kelas (C) yang bersesuaian.

Cari jumlah kelas terbanyak dari tetanggaterdekat tersebut, dan tetapkan kelas tersebutsebagai kelas data yang dievaluasi.

Contoh…

http://localhost/var/www/apps/conversion/tmp/scratch_1/Kasus%20KNN.doc

http://localhost/var/www/apps/conversion/tmp/scratch_1/Contoh%20K%20Nearest%20Neigbors.doc

http://localhost/var/www/apps/conversion/tmp/scratch_1/Contoh%20K%20Nearest%20Neigbors.doc

http://localhost/var/www/apps/conversion/tmp/scratch_1/Kasus%20KNN.doc



Clustering

Clustering adalah proses pengelompokan objekyang didasarkan pada kesamaan antar objek.

Tidak seperti proses klasifikasi yang bersifatsupervised learning, pada clustering prosespengelompokan dilakukan atas dasarunsupervised learning.

Pada proses klasifikasi, akan ditentukan lokasidari suatu kejadian pada klas tertentu daribeberapa klas yang telah teridentifikasisebelumnya.

Sedangkan pada proses clustering, prosespengelompokan kejadian dalam klas akandilakukan secara alami tanpa mengidentifikasiklas-klas sebelumnya.



Clustering

Suatu metode clustering dikatakan baik apabilametode tersebut dapat menghasilkan cluster-cluster dengan kualitas yang sangat baik.

Metode tersebut akan menghasilkan cluster-cluster dengan objek-objek yang memiliki tingkat

kesamaan yang cukup tinggi dalam suatu cluster,dan memiliki tingkat ketidaksamaan yang cukuptinggi juga apabila objek-objek tersebut terletakpada cluster yang berbeda.

Untuk mendapatkan kualitas yang baik, metode

clustering sangat tergantung pada ukurankesamaan yang akan digunakan dankemampuannya untuk menemukan beberapapola yang tersembunyi.



K-Means

Konsep dasar dari K-Means adalahpencarian pusat cluster secara iteratif.

Pusat cluster ditetapkan berdasarkan

jarak setiap data ke pusat cluster. Proses clustering dimulai dengan

mengidentifikasi data yang akan dicluster,xij (i=1,...,n; j=1,...,m) dengan n adalah

jumlah data yang akan dicluster dan madalah jumlah variabel.



K-Means

Pada awal iterasi, pusat setiap cluster ditetapkansecara bebas (sembarang), ckj (k=1,...,K; j=1,...,m).

Kemudian dihitung jarak antara setiap data

dengan setiap pusat cluster.

Untuk melakukan penghitungan jarak data ke-i(Xi) pada pusat cluster ke-k (Ck), diberi nama(dik), dapat digunakan formula Euclidean, yaitu:

m

1 j

2

kjijik cxd



K-Means

Suatu data akan menjadi anggota dari cluster ke-J apabila jarak data tersebut ke pusat cluster ke-J bernilai paling kecil jika dibandingkan dengan jarak ke pusat cluster lainnya.

Selanjutnya, kelompokkan data-data yangmenjadi anggota pada setiap cluster.

Nilai pusat cluster yang baru dapat dihitungdengan cara mencari nilai rata-rata dari data-data yang menjadi anggota pada cluster

tersebut, dengan rumus:

k kecluster xy; p

y

c ijhj

p

1h

hj

kj



K-Means

Algoritma: Tentukan jumlah cluster (K), tetapkan pusat cluster

sembarang.

Hitung jarak setiap data ke pusat cluster.

Kelompokkan data ke dalam cluster yang dengan jarak yang paling pendek.

Hitung pusat cluster.

Ulangi langkah 2 - 4 hingga sudah tidak ada lagi datayang berpindah ke cluster yang lain.

Contoh…

http://localhost/var/www/apps/conversion/tmp/scratch_1/Contoh%20KMeans.doc

http://localhost/var/www/apps/conversion/tmp/scratch_1/Contoh%20KMeans.doc



Penentuan Jumlah Cluster

Salah satu masalah yang dihadapi pada prosesclustering adalah pemilihan jumlah cluster yangoptimal.

Kauffman dan Rousseeuw (1990)

memperkenalkan suatu metode untukmenentukan jumlah cluster yang optimal, metodeini disebut dengan silhouette measure.

Misalkan kita sebut A sebagai cluster dimana dataXi berada, hitung ai sebagai rata-rata jarak Xi ke

semua data yang menjadi anggota A. Anggaplah bahwa C adalah sembarang cluster

selain A.



Penentuan Jumlah Cluster Hitung rata-rata jarak antara Xi dengan data yang

menjadi anggota dari C, sebut sebagai d(Xi, C).

Cari rata-rata jarak terkecil dari semua cluster,

sebut sebagai bi, bi = min(d(Xi,C)) dengan CA.

Silhoutte dari Xi, sebut sebagai si dapat dipandangsebagai berikut (Chih-Ping, 2005):

ii

i

i

ii

ii

i

i

i

ba,1

a

b

ba,0

ba,

b

a1

s



Penentuan Jumlah Cluster

Rata-rata si untuk semua data untuk kcluster tersebut disebut sebagai rata-ratasilhouette ke-k, .

Nilai rata-rata silhouette terbesar pada

jumlah cluster (katakanlah: k) menunjukkanbahwa k merupakan jumlah cluster yangoptimal.

k s~

Documents

Pertemuan 8