68
DATA MINING Kode Matakuliah : SCAA 3806 Semester, SKS : V, 2 Oleh : Drs. Ignatius Suraya, M.Cs JURUSAN MATEMATIKA FAKULTAS SAINS TERAPAN INSTITUT SAINS & TEKNOLOGI AKPRIND YOGYAKARTA 2011

Diktat Datamining

Embed Size (px)

Citation preview

Page 1: Diktat Datamining

- 0 -

Diktat Matakuliah Datamining

DATA MINING

Kode Matakuliah : SCAA 3806 Semester, SKS : V, 2

Oleh : Drs. Ignatius Suraya, M.Cs

JURUSAN MATEMATIKA

FAKULTAS SAINS TERAPAN INSTITUT SAINS & TEKNOLOGI AKPRIND

YOGYAKARTA 2011

Page 2: Diktat Datamining

- 1 -

Diktat Matakuliah Datamining

I. PENGANTAR 1.1. Pengertian Data Mining

Data Mining sering juga disebut knowledge discovery in database (KDD),sebagai

salah satu cabang ilmu computer yang relative baru mempunyai potensi pengembangan yang

sangat besar. Karena data menyangkut langsung pada sebuah system aplikasi. Data Mining

sendiri merupakan sebuah proses ekstraksi informasi atau pola yang penting atau menarik dari

data yang ada di database yang besar.

Istilah data mining memiliki padanan, seperti knowledge discovery ataupun pattern

recognition.

Kedua istilah tersebut sebenarnya memiliki ketepatannya masing-masing, istilah knowledge

discovery atau penemuan pengetahuan tepat digunakan karena tujuan utama dari data mining

memang untuk mendapatkan pengetahuan yang masih tersembunyi di dalam bongkahan data.

Istlah pattern recognition atau pengenalan pola pun tepat untuk digunakan karena

pengetahuan yang hendak digali memang berbentuk pola-pola yang mungkin juga masih perlu

digali dari dalam bongkahan data yang tengah dihadapi. Jadi apakah sebenarnya data mining

itu ?. Banyak definisi untuk istilah ini dan belum ada yang dibakukan atau disepakati semua

pihak. Namun istilah ini mempunyai hakikat (notion) sebagai disiplin ilmu yang tujuan

utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau

informasi yang kita miliki. Kegiatan inilah yang menjadi garapan atau perhatian utama dari

disiplin ilmu data mining.

1.2. Fungsi-fungsi Dalam Data Mining

Fungsi dan subkegiatan yang ada di dalam Bab ini

Fungsi :

Page 3: Diktat Datamining

- 2 -

Diktat Matakuliah Datamining

Menurut Larose (2005) terdapat enam fungsi dalam data mining yaitu

1. Fungsi deskripsi (description)

2. Fungsi estimasi (estimation)

3. Fungsi prediksi (prediction)

4. Fungsi klasifikasi (classification)

5. Fungsi pengelompokan

6. Fungsi asosiasi (association)

Menurut Berry dan Browne (2006)

1. Fungsi minor (Fungsi deskripsi, Fungsi estimasi dan Fungsi prediksi)

2. Fungsi mayor (Fungsi klasifikasi, Fungsi pengelompokan dan Fungsi asosiasi)

Page 4: Diktat Datamining

- 3 -

Diktat Matakuliah Datamining

II. FUNGSI MINOR UNTUK FUNGSI DESKRIPSI Sebagai gambaran kasus akan diberikan data berat badan para siswa di daerah

pedesaan yang orang tuanya kurang memperhatikan gizi anak diambil 10 anak secara acak

dan berat badan para siswa di daerah perkotaan yang orang tuanya sangat memperhatikan

memperhatikan gizi anak diambil 10 anak secara acak

Tabel 2.1. Data berat badan 10 siswa di pedesaan dan di perkotaan

Nomor Siswa

Berat badan (di pedesaan)

Berat badan (di perkotaan)

1 32,2 kg 38,8 kg 2 35,0 kg 39,5kg 3 30,8 kg 41,1 kg 4 31,4 kg 34,8 kg 5 30,8 kg 44,2 kg 6 31,5 kg 41,1 kg 7 31,5 kg 43,7 kg 8 33,7 kg 41,3 kg 9 33,0 kg 35,0 kg 10 32,7 kg 44,9 kg

Ketika diberi sekumpulan data terkadang agak sukar bagi kita untuk menangkap arti kum-

pulan data tersebut. Sekumpulan angka-angka tersebut perlu dirangkum sedemikian rupa

agar dapat "berbicara" sehingga kita memiliki gambaran mengenai kumpulan data tersebut.

Lebih jauh bayangkan seandainya peneliti memutuskan untuk melibatkan 10.000 siswa.

Peneliti tersebut melibatkan begitu banyak orang agar hasil penelitiannya lebih dapat

dipercaya. Akibatnya kita justru akan dihadapkan pada 10.000 angka! Menelusuri deretan

angka sebanyak itu dengan mata manusia tentu tidak akan membawa manfaat apa pun.

Oleh karena itu kita memerlukan suatu cara untuk menggambarkan sekumpulan data

secara ringkas. Cara tersebut dinamakan deskripsi yang merupakan fungsi minor pertama

dari data mining dan akan dibahas pada bab ini.

Subbab selanjutnya akan membahas berbagai cara untuk mendeskripsikan data. Di dalam

pembahasan tersebut juga akan diberikan penjelasan mengenai istilah-istilah yang digu-

nakan dalam fungsi deskripsi serta input dan output fungsi ini. Selanjutnya

pengetahuan yang dihasilkan oleh fungsi deskripsi ini akan diinterpretasikan maknanya.

Berbagai Cara Deskripsi Dan Pengetahuan Yang Dihasilkan

Banyak cara dapat digunakan untuk memberikan gambaran secara ringkas

bagi sekumpulan data yang besar jumlahnya dan banyak macamnya. Artinya terdapat

Page 5: Diktat Datamining

- 4 -

Diktat Matakuliah Datamining

banyak cara untuk memberikan deskripsi terhadap sekumpulan data. Subbab ini akan

membahas tiga cara yaitu deskripsi grafis, deskripsi lokasi, dan deskripsi keragaman.

2.1. Deskripsi Grafis

Bagai petikan lirik sebuah lagu "A Picture Paints a Thousand Words", pada

dasarnya sebuah gambar memang lebih mudah dicerna oleh mata kita dari pada deretan

kata atau deretan angka. Cara deskripsi grafis merupakan cara untuk mendeskripsikan

data dalam bentuk gambar yang sesungguhnya. Dua gambar yang umum digunakan

dalam deskripsi grafis adalah diagram titik (dot diagram) dan histogram.

A. Diagram Titik

Pada diagram jenis ini, setiap data digambarkan sebagai sebuah titik (dot).

Mengambil data Tabel 2.1, setiap data berat badan Kelas di Pedesaan digambarkan sebagai

titik penuh sementara Kelas di Perkotaan berupa titik berongga.

Pengetahuan apakah yang diperoleh? Kita dapat melihat data Kelas di Pedesaan

(titik penuh) banyak berkumpul di sekitar 30 -35 kg. Sementara Kelas di Perkotaan

(titik berongga) cenderung berkumpul di atas 35 kg namun nilainya lebih beragam

dengan sebaran yang lebih luas.

B. Histogram

Unt uk me ma ha mi d e nga n mu da h c a ra de s k r i p s i g r a f i s mengguna-

kan histogram perhatikan ilustrasi berikut. Misalnya kita diberi data berat badan

dari Kelas di pedesaan yang telah disajikan pada Tabel 2.1. namun kali ini data

tersebut diperluas hingga ada 30 siswa seperti yang tampak pada Tabel 2.2.

Nomor Siswa

Berat badan (di pedesaan)

NomorSiswa

Berat badan (di pedesaan)

NomorSiswa

Berat badan (di pedesaan)

1 32,2 kg 11 32,7 kg 21 33,7 kg 2 35,0 kg 12 35,2 kg 22 35,7 kg 3 30,8 kg 13 30,5 kg 23 30,0 kg 4 31,4 kg 14 31,8 kg 24 32,2 kg 5 30,8 kg 15 30,8 kg 25 34,2 kg 6 31,5 kg 16 31,5 kg 26 33,1 kg 7 31,5 kg 17 31,7 kg 27 31,5 kg

Gambar 2.1 Diagram titik untuk berat badan 10 siswa kelas enam di pedesaan dan di perkotaan

Page 6: Diktat Datamining

- 5 -

Diktat Matakuliah Datamining

8 33,7 kg 18 33,2 kg 28 33,5 kg 9 33,0 kg 19 33,0 kg 29 33,7 kg 10 32,7 kg 20 32,5 kg 30 32,9 kg

Langkah pertama untuk membuat histogram adalah dengan membuat beberapa interval yang lebarnya sama. Misalnya, berdasarkan data pada Tabel 2.2, lima interval masing-masing dengan rentang 1 kg akan dibuat seperti dalam Tabel 2.3 berikut.

Interval

30,00 – 31,00

31,01 – 32,00

32,01 – 33,00

33,01 – 34,00

34,01 – 35,00

35,01 – 36,00

Tabel 2.3. Interval berat badan siswa di Pesedaan

Langkah kedua hitung seberapa banyak data yang menjadi a ng g o t a

t i a p i n t e r v a l . P e l a k s a n a a n l a n g k a h k e d u a i n i memberikan hasil seperti yang

terlihat pada Tabel 2.4..

Interval Frekuensi

30,00 – 31,00 5

31,01 – 32,00 7

32,01 – 33,00 6

33,01 – 34,00 8

34,01 – 35,00 2

35,01 – 36,00 2

Tabel 2.4. Interval dan frekuensi berat badan siswa di Pesedaan

Page 7: Diktat Datamining

- 6 -

Diktat Matakuliah Datamining

Langkah ke t iga adalah pembuatan h i s togram i tu sendi r i berdasarkan data

yang ada pada Tabel 2.4, hasilnya adalah Gambar 2.2.

30,00 – 31,00 31,01 – 32,00 32,01 – 33,00 33,01 – 34,00 34,01 – 35,00 35,01 – 36,00

Gambar 2.2. Histogram untuk berat badan 30 siswa di Pesedaan

Pengetahuan apakah yang diperoleh? Dengan melihat batang-batang tersebut kita

dapat melihat lokasi kecenderungan mengumpulnya data dari batang tertinggi.

Histogram seperti ini menunjukkan keberagaman data yang relatif rendah sebalik-

nya histogram yang pendek-melebar menunjukkan data yang beragam dan menyebar

luas.

2.2. Deskripsi Lokasi

Meskipun deskripsi grafts sudah menggambarkan karakteristik data,

sifatnya masih terlalu kasar dan kurang praktis untuk dilakukan. Oleh karena itu

kita memerlukan sebuah angka yang cukup dapat mewakili data yang ada serta

dapat diperoleh dengan cara yang lebih praktis dari pada menggambar.

Wakil tersebut dinamakan lokasi karena dapat memberikan informasi tentang data

dari posisi tempat tertentu. Ada beberapa ukuran yang umum digunakan untuk

menyatakan lokasi tersebut, yang akan dibahas pada subbab ini.

A. Rata-rata (Mean)

Sesuai dengan namanya rata-rata berarti membuat menjadi rata-rata dan

nilai perataan tersebut dianggap sebagai lokasi pusat titik berat atau titik kesetimbangan

data. Dapat dibayangkan satu orang memiliki gelas berisi air 10 liter dan orang lainnya

memiliki gelas kosong (berisi 0 liter air). Agar menjadi rata orang pertama menuang 5

liter air ke gelas orang kedua sehingga keduanya kini memiliki air 5 liter. Secara

matematis bila kita memiliki nilai observasi x1, x2, ..., xn , maka rata-ratanya adalah

Page 8: Diktat Datamining

- 7 -

Diktat Matakuliah Datamining

∑=

=+++=n

i

in

nX

nxxxX

1

21 ).....( ………………………2.1

Secara sederhana persamaan tersebut berarti menjumlahkan semua data dan dibagi

dengan banyaknya data. Mari kita terapkan ukuran tersebut pada data dari Tabel 2.1.

Apabila kita menjumlahkan seluruh data Kelas di Pedesaan hasil yang diperoleh : 322,6 kg

sehingga rata-rata adalah 322,6/10= 32,26 kg. Sedangkan apabila kita

menjumlahkan seluruh data Kelas di Perkotaan hasil yang diperoleh adalah

404,4 sehingga rata-rata adalah 404,4/10 = 40,44 kg. Pengetahuan apakah yang

diperoleh? Menggunakan bahasa sehari-hari, hasil di atas menyatakan bahwa

pada umumnya siswa Kelas di pesedaan memiliki berat badan 32,26 kg. Siswa kelas

tersebut lebih pendek daripada siswa Kelas di Perkotaan yang pada umumnya memiliki berat badan 40,44 kg

B. Median (Nilai Tengah)

Dengan ukuran ini, kita mencari nilai observasi yang secara harafiah bertempat di

tengah-tengah. Langkah pertama yang tidak boleh dilupakan adalah mengurutkan semua

data dari yang terkecil hingga yang terbesar. Sekali lagi, mari kita terapkan ukuran ini pada

data Tabel 2.1 untuk siswa Kelas di pedesaan.

Data asli : 32,2; 35,0; 30,8; 31,4; 30,8; 31,5; 31,5; 33,7; 33,0; 32,7

Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;

Karena kita memiliki 10 buah data (genap) maka lokasi tengah terletak di antara data ke-5 dan

data ke-6. Bayangkan lima jari tangan kiri Anda sebagai lima data pertama dan lima jari

tangan kanan Anda sebagai lima data selanjutnya posisi tengahnya tentu ada di ruang

kosong di antara kedua jempol Anda. Akan tetapi apabila Anda hanya memiliki 5 buah data

(ganjil) dan diibaratkan sebagai 5 jari di tangan kiri Anda maka posisi tengahnya tepat berada

di jari ke-3 yaitu jari tengah Anda.

Secara matematis, apabila Anda memiliki n buah data, maka mediannya terletak

pada data ke: [(n+l)/2] apabila n adalah bilangan ganjil. Sebaliknya, apabila n adalah

bilangan genap maka mediannya dihitung dengan cara menjumlahkan data ke: [n/2] dengan

data ke: [(n/2)+1], kemudian membagi hasil jumlah tersebut dengan angka 2. jika

diterapkan, data terurut di atas akan memberikan hasil berikut:

Median = [(Data ke-5 + Data ke-6)/2] = [(31,5+ 31,5)/2] = 31,5 kg

Pengetahuan apakah yang diperoleh?

Apabila kita mengurutkan data berat badan siswa di Kelas di Pedesaan dari yang teringan

Page 9: Diktat Datamining

- 8 -

Diktat Matakuliah Datamining

sampai yang terberat, kemudian urutan tersebut kita bagi dua tepat di tengah-tengah, kita akan

memperoleh angka (30,8 + 35,0) / 2 = 32,9 kg

Adapun keuntungan penggunaan median dibandingkan dengan rata-rata adalah median tidak

terlalu terpengaruh oleh adanya nilai ekstrem. Sebaliknya, rata-rata dapat terpengaruh oleh

nilai ekstrem. Sebagai contoh, mari kita bandingkan data asli yang kita gunakan untuk

mencari median dengan data yang dimodifikasi:

Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0; (Rata-rata =

32,26 Median = 31,5)

C. Modus

Dengan ukuran ini kita dapat mencari nilai observasi yang paling sering muncul.

Apabila terdapat dua atau lebih nilai yang kekerapan munculnya sama semua nilai-nilai

tersebut juga disebut modus Sebagai contoh,

Data terurut: 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;

Modus data tersebut adalah 30,8 dan 31,5 karena paling sering muncul yaitu masing-

masing sebanyak 2 kali. Pengetahuan apakah yang diperoleh?

Kelas di Pedesaan mempunyai banyak siswa yang memiliki berat badan 30,8 & 31,5 kg.

Apa kegunaan penggunaan modus? Adakalanya modus lebih mencerminkan lokasi kecen-

derungan berkumpulnya sebagian besar data dibandingkan ukuran-ukuran lainnya.

Contohnya:

Sebuah perusahaan menyatakan bahwa rata-rata gaji karyawannya adalah Rp 10 juta.

Kenyataannya 90 orang digaji sekitar Rp l juta saja dan hanya ada 10 orang yang

digaji Rp100 juta. Dibandingkan rata-rata informasi yang lebih berguna dan tidak

menyesatkan kita adalah bahwa sebagian besar (modus) karyawan digaji sekitar Rp l juta.

D. Kuartil

Apabila pada median kita mencari nilai yang terletak tepat di tengah-tengah data

maka pada kuartil kita membagi seluruh data menjadi empat bagian dan mencari nilai di

tiap seperempat bagian (kuartil) tersebut. Secara sederhana coba bayangkan semua jari

tangan Anda sebagai 10 buah data. Kuartil pertama adalah jari tengah tangan kiri Anda

kuartil kedua adalah ruang kosong di antara kedua jempol Anda dan kuartil ketiga ada-

lah jari tengah tangan kanan Anda. Ketiga kuartil dapat dinotasikan sebagai q1, q2, dan q3.

Jelas bahwa kuartil kedua q2 juga disebut median sebagai contoh mari kita lihat Tabel 2.1.

Page 10: Diktat Datamining

- 9 -

Diktat Matakuliah Datamining

Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;

q1 q2 q3

Kuartil pertama = 32,2 kg

Kuartil kedua = [(31,5+ 31,5)/2] = 31,5 kg (sama dengan median)

Kuartil ketiga = 33,0 kg

Pengetahuan apakah yang diperoleh? Apabila kita mengurutkan data berat badan siswa

di Pedesaan biasa dari yang terpendek sampai yang tertinggi kemudian urutan ter-

sebut kita bagi menjadi empat bagian sama besar maka akan diperoleh angka 32,2 kg,

31,5 kg dan 33,0 kg.

E. Persentil

Lebih jauh lagi apabila semua data kita bagi menjadi 100 bagian maka kita akan

memperoleh ukuran persenti l . Median merupakan kasus khusus persentil yaitu

p0.50. Kuartil juga merupakan kasus khusus persentil, ql adalah p0.25, q2 adalah p0.50, dan

q3 adalah p0.75. Mari kita coba mencari persentil: 10, 46, dan 83 dari data Tabel 2.1.

Data terurut : 30,8; 30,8; 32,2; 31,4; 31,5; 31,5; 32,7; 33,0; 33,7; 35,0;

q0 , 1 0 q0,46 q0,83

Persentil - 10 = [(30,8 + 30,8)/2] = 30,8 (di antara data ke-1 dan data ke-2)

Persentil - 46 = 31,5

Persentil - 83 = 33,7

Pengetahuan apakah yang bisa diperoleh? Apabila kita mengurutkan data dari yang

terpendek sampai yang tertinggi, kemudian urutan tersebut kita "belah seratus bagian" sama

besar, maka akan diperoleh angka-angka pada belahan tersebut.

2.3. Deskripsi Keberagaman

Meski deskripsi lokasi sudah memberikan gambaran tentang lokasi pusat data

(rata-rata, median, modus), kita masih belum memiliki gambaran atas keberagaman data.

Perhatikan dua kelompok data pada contoh sederhana berikut.

Contoh Dua kelompok data

Kelompok I : 6, 6, 7, 7, 7, 8, 8 (rata-rata = 7, median = 7, modus = 7)

Kelompok II : 0, 1, 3, 7, 7, 12, 19 (rata-rata = 7, median = 7, modus = 7)

Meskipun ketiga ukuran lokasi untuk kedua kelompok tepat sama, apakah kedua

Page 11: Diktat Datamining

- 10 -

Diktat Matakuliah Datamining

kelompok data tersebut dapat dikatakan serupa? Sama sekali tidak! Perhatikan bahwa

data di kelompok I cenderung terkumpul di sekitar 7, sementara data di kelompok II

begitu beragam dan menyebar lebar hingga menyentuh 0 dan 19. Oleh karena itu

diperlukan pula ukuran keberagaman untuk melengkapi gambaran kita terhadap data yang

ada. Tiga ukuran keberagaman yang akan dibahas adalah range, varians, dan

standar deviasi.

A. Range (Rentang)

Ukuran sebaran ini menyatakan besarnya rentang jarak antara data

terkeci l dengan data terbesar . Rentang yang besar menandakan bahwa data relatif

lebih beragam dan sebaliknya.

Kita gunakan data Contoh di atas :

Kelompok I : 6, 6, 7, 7, 7, 8, 8 → Range data Kelompok I = 8 - 6 = 2

Kelompok II : 0, 1, 3, 7, 7, 12, 19 → Range data Kelompok II = 19 - 0 = 19

Pengetahuan apakah yang diperoleh? Kelompok II memiliki data yang lebih

beragam dengan range yang jauh lebih besar dari pada Kelompok I. Akan tetapi

karena ukuran ini hanya mengambil dua data ekstrem adakalanya sulit untuk

dijadikan ukuran unik untuk menilai keberagaman data.

B. Varians dan Standart Deviasi

Kita sudah melihat bahwa range tidak dapat dijadikan pijakan yang kokoh untuk

menilai keberagaman data. Oleh karena itu ukuran varians yang menggunakan prinsip

pencarian jarak antara setiap data dengan pusatnya (rata-rata) sering kali digunakan.

Secara matematis hal tersebut diru,uskan menjadi :

1

)(12

−=

∑=

n

XXs

n

ii

……………………….2.2

Secara sederhana rumus tersebut berarti setiap data observasi dikurangi dengan rata-rata

seluruh data. Setiap hasil pengurangan tersebut dikuadratkan, kemudian semuanya

dijumlahkan. Terakhir penjumlahan tersebut dibagi dengan (n-1), dengan n yang menyatakan

banyaknya data.

Contoh : dua kelompok data yang dimodifikasi

Kelompok I : 6, 15, 15, 16, 16, 16, 25 → Range Kelompok I = 25 – 6 = 19

Page 12: Diktat Datamining

- 11 -

Diktat Matakuliah Datamining

Kelompok II : 0, 1, 3, 7, 7, 12, 19 → Range Kelompok II = 10 – 0 = 19

Tabel 2.5 . Perincian perhitungan untuk Kelompok I dan II

Sebagai contoh perhitungan:

Kolom (1) baris ke-1 diperoleh dengan cara: (6 -15,57)2 = 91,61 dan seterusnya

untuk baris 2 - 7

Kolom (2) baris ke 6 diperoleh dengan cara: (12 - 7)2 = 25. dan seterusnya untuk

baris yang lain.

Varians Kelompok I diperoleh dengan cara membagi jumlah Kolom (1) dengan 6

(karena ada 7 buah data, sehingga (n - 1) = 6) .

Varians Kelompok II diperoleh dengan cara membagi jumlah Kolom (2) dengan 6.

Hasilnya adalah sebagai berikut:

Varians Kelompok I = 181,71/6 = 30,3

Varians Kelompok 11 = 270/6 = 45

Pengetahuan apakah yang diperoleh? Data pada Kelompok II berjarak relatif lebih

jauh dengan pusatnya (dalam hal ini rata-rata) dari pada data pada Kelompok I

sehingga variansnya lebih besar. Dengan kata lain, data pada Kelompok II lebih beragam

dibandingkan dengan data pada Kelompok I.

Seandainya data di atas memiliki satuan cm, maka varians memiliki satuan cm2.

Hal ini menyebabkan varians menjadi kurang sinkron dengan ukuran-ukuran lain,

seperti rata-rata, modus, persentil, range, dan lain-lain. Akibatnya dibuatlah ukuran

standar deviasi yang merupakan akar kuadrat varians. Jika ukuran starndar deviasi

kita terapkan pada hasil perhitungan varians di atas, maka standar deviasi Kelompo I =

29,30 = 5,5 dan Kelompok I1 = 45 = 6,7.

Data ke- Kelompok 1 Kolom (1) Kelompok II Kolom (2) 1 6 91,61 0 49 2 15 0,33 1 36 3 15 0,33 3 16 4 16 0,18 7 0 5 16 0,18 7 0 6 16 0,18 12 25 7 25 88,90 19 144

Jumlah 109 181,71 49 270 Rata-rata 15,57 7

Page 13: Diktat Datamining

- 12 -

Diktat Matakuliah Datamining

Pengetahuan apakah yang diperoleh? Data pada Kelompok II lebih beragam

dibandingkan dengan Kelompok I. standar deviasi memiliki satuan yang sama

dengan data asalnya. Apabila data di atas memiliki satuan cm maka standar

deviasinya pun memiliki satuan cm. Dengan demikian hasil yang muncul menjadi

lebih mudah dicerna maknanya.

SOAL LATIHAN

1. Berikut adalah catatan temperatur tertinggi tiap jam di dalam sebuah lemari

pendingin: 4,2; 4,7; 4,7; 5,0; 3,8; 3,6; 3,0; 5,1; 3,1; 3,8; 4,8; 4,0; 5,2; 4,3;

2,8; 2,0; 2,8; 3,3; 4,8; dan 5,0 (dalam derajat Celcius).

a. Gambar dan interpretasikan dot diagram dan histogram untuk data tersebut.

b. Hitung dan interpretasikan rata-rata, median, dan modus data tersebut.

c. Hitung dan interpretasikan range, varians, dan standar deviasi data tersebut.

2. Kurangi setiap observasi pada soal nomor 1 dengan angka 1 ,0 . Kemudian ,

l akukan u lang 1(a) - (c ) . Amat i dan bandingkan hasi lnya dengan sebelum

dikurangi 1,0. Seandainya Anda memilih sembarang angka, apakah akan

muncul pengaruh yang sama?

Page 14: Diktat Datamining

- 13 -

Diktat Matakuliah Datamining

III. FUNGSI MINOR UNTUK FUNGSI ESTIMASI Sebagai gambaran kasus akan diberi data volume air minum botol yang

diisi secara otomatis. Hasil pengukuran volume air di dalam 12 botol yang diambil

secara acak sebagai sampel ditampilkan pada Tabel 3.1.

Tabel 3.1. Data volume air minum di dalam botol

Nomor Botol Volume Air (ml) 1 20162 2025 3 1968 4 2007 5 20316 20557 2039 8 1981 9 1975

10 1964 11 2036

12 1987

Volume yang sebenarnya diharapkan untuk setiap botol adalah 2 liter (2.000 ml).

Data di atas menunjukkan bahwa mesin pengisi otomatis tersebut tidak mengisi tiap botol

dengan volume air yang tepat sama seperti yang diharapkan. Jadi jika Anda diberi pertanyaan

Pada umumnya berapakah volume air yang ada di dalam botol? bagaimanakah Anda harus

menjawabnya?

Pertanyaan tersebut tidak dapat kita jawab dengan baik bila kita hanya bersandar

mentah-mentah pada data kedua belas botol di atas. Kita perlu mengolah data tersebut untuk

memperkirakan rata-rata dan standar deviasi volume air yang diisikan oleh mesin

tersebut. Kegiatan memperkirakan inilah yang disebut estimasi yang merupakan fungsi

minor kedua data mining yang akan dibahas pada bab ini. Pembahasan untuk fungsi estimasi

mencakup dua bentuk estimasi yaitu estimasi titik dan selang kepercayaan. Hasil

estimasi akan diinterpretasikan untuk memperoleh pengetahuan dari fungsi ini.

Pengenalan Beberapa Istilah dasar

Sebelum melangkah lebih jauh ada baiknya kita mengenal terlebih dahulu

istilah populasi dan sampel. Perhatikan kembali contoh di atas kedua belas botol tersebut

merupakan sampel yang diambil dari populasi air minum botol. Populasi tersebut besarnya

tak terbatas sebab banyaknya botol akan terus bertambah. Sebagai contoh, sejauh ini

Page 15: Diktat Datamining

- 14 -

Diktat Matakuliah Datamining

telah diproduksi 100 botol air minum apakah itu berarti ukuran populasinya 100?

Tidak! Karena produksi masih terus berjalan (sehingga masih perlu diteliti) maka

banyaknya botol akan terus bertambah menjadi 101, 102, dan seterusnya. Oleh karena

itu kita mengambil sampel atau cuplikan dari seluruh populasi sebagai wakil

populasi tersebut.

A. Estimasi Titik dan Pengetahuan yang Dihasilkan

Estimasi titik merupakan bentuk estimasi yang menghasilkan satu buah nilai

estimasi saja yaitu berupa sebuah angka. Lalu apa yang sesungguhnya kita perkirakan?

Sesuatu yang tidak kita ketahui nilai sebenarnya yaitu karakteristik sebuah populasi.

Rata-rata dan varians merupakan dua besaran yang umum digunakan untuk menyata-

kan karakteristik sebuah populasi. Karakteristik sebuah populasi biasa disebut parameter

populasi. Mengingat ukuran populasi yang terus bertambah mustahil bagi kita untuk

menghitung rata-rata dan varians (atau standar deviasi) populasi. Akan tetapi

berbekal sampel yang ada kita dapat melakukan estimasi (perkiraan) pada kedua

parameter populasi tersebut. Pertanyaannya mengapa kedua parameter tersebut perlu

kita perkirakan? Sebab apabila kita memiliki perkiraan rata-rata dan varians yang

cukup akurat maka akan ada banyak pertanyaan yang dapat kita jawab dengan memuas-

kan. Ternyata cara untuk memperkirakan kedua parameter populasi tersebut cukup

sederhana seperti berikut.

1. Rata-rata populasi µ dapat diestimasi dengan rata-rata sampel ( x ).

2. Varian populasi σ2 dapat diestimasi dengan varians sampel (s2).

Untuk lebih jelasnya, mari kita coba mencari estimasi titik untuk rata-rata dan varians

dari data Tabel :3.2

Nomor Botol x i ( )2xxi −

1 2016 81 2 2025 324 3 1968 1521 4 2007 0 5 2031 576 6 2055 2304 7 2039 1024 8 1981 676 9 1975 1024 10 1964 1849

Page 16: Diktat Datamining

- 15 -

Diktat Matakuliah Datamining

11 2036 841 12 1987 400

Jumlah 24084 10620

Tabel :3.2: Perincian perhitungan rata-rata dan varians untuk data table 3.1.

Estimasi t i t ik untuk rata-rata populasi diperoleh dari rata-rata sampel:

Ra ta - r a t a s ample = 12

240841

=∑=

n

i

i

nx = 2007 ml

Estimasi titik untuk varians populasi diperoleh dari varians sampel:

Varians sample = ( )( ) 112

1062011

2

−=

−−∑

=

n

i

i

nxx = 965,45 ml2

Standar deviasi = ( )( ) 45,965

11

2

=−−∑

=

n

i

i

nxx = 31,07 ml

Pengetahuan apakah yang diperoleh? Kita dapat menjawab pertanyaan ini "Pada

umumnya setiap botol akan diisi air sebanyak 2007 ml (rata-rata), dengan varians

sebesar 965,45 ml2."

B. Selang Kepercayaan dan Pengetahuan yang Dihasilkannya.

Pada subbab sebelumnya kita telah mengetahui cara mengestimasi dua

parameter populasi yaitu rata-rata dan varians populasi. Hasil estimasinya berupa

satu angka saja sehingga disebut estimasi titik. Akan tetapi adakalanya satu titik

perkiraan saja kurang memuaskan bagi kita yang menyadari bahwa ti t ik tersebut

bagai-manapun juga adalah perkiraan yang mungkin saja meleset. Untuk menga-

komodasi ketidaktepatan (error) tersebut dibuatlah bentuk perkiraan lain yang

bukan berupa titik yaitu estimasi selang. Adapun batas bawah dan batas atas selang

tersebut dapat dihitung dengan cara:

Batas bawah (L) = XazX σ2/− ……… ………………….3.1

Batas atas (U) = XazX σ2/+

X merupakan rata-rata sampel (sehingga kita telah mengetahui angkanya), kemudian α

ditentu kan oleh kita sendiri lalu kita dapat mencari nilai z di tabel distribusi normal

(terlampir) dan terakhir kita juga akan mempelajari cara menghitung Xσ

Karena semuanya dapat kita hitung hingga kita memperoleh angkanya tentu

t idak ada halangan lagi bagi ki ta untuk menghitung selang kepercayaan tersebut.

Page 17: Diktat Datamining

- 16 -

Diktat Matakuliah Datamining

Pada contoh sampel 12 air minum botol, kita telah memperoleh rata-rata sampel sebesar

2007 ml, artinya X = 2007. Selanjutnya seandainya kita ingin membuat selang

kepercayaan 95%, berarti α =100% - 95% = 5%. Contoh lain seandainya kita ingin

membuat selang kepercayaan 90%, berarti α = 100% - 90% = 10%. Untuk kali ini, mari

kita coba buat selang kepercayaan 95%, yang berarti α = 5%. Lalu, bagaimanakah

cara mencari nilai ½ Zα? Kita mulai dengan membagi α dengan 2, α/2 = 5%/2 = 2,5%.

Dengan kata lain α/2 = 0,025. Pada tabel distribusi normal kita mula-mula perlu

mencari letak nilai 0,025 tersebut. Perhatikan gambar berikut.

Normal Deviate

z ,00 ,01 ,02 ,03 ,04 ,05 ,06 ,07 ,08 ,09 -4,0 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -3,9 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -,38 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -,37 ,0001 ,0001 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 ,0000 -,36 ,0002 ,0002 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 ,0001 -3,5 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 ,0002 -3,4 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0003 ,0002 -3,3 ,0005 ,0005 ,0005 ,0004 ,0004 ,0004 ,0004 ,0004 ,0004 ,0004 -3,2 ,0007 ,0007 ,0006 ,0006 ,0006 ,0006 ,0006 ,0005 ,0005 ,0005 -3,1 ,0010 ,0009 ,0009 ,0009 ,0008 ,0008 ,0008 ,0008 ,0007 ,0007 -3,0 ,0013 ,0013 ,0013 ,0012 ,0012 ,0011 ,0011 ,0011 ,0010 ,0010 -2,9 ,0019 ,0018 ,0018 ,0017 ,0016 ,0016 ,0015 ,0015 ,0014 ,0014 -2,8 ,0026 ,0025 ,0024 ,0023 ,0023 ,0022 ,0021 ,0021 ,0020 ,0019 -2,7 ,0035 ,0034 ,0033 ,0032 ,0031 ,0030 ,0029 ,0028 ,0027 ,0026 -2,6 ,0047 ,0045 ,0044 ,0043 ,0041 ,0040 ,0039 ,0038 ,0037 ,0036 -2,5 ,0062 ,0060 ,0059 ,0057 ,0055 ,0054 ,0052 ,0051 ,0049 ,0048 -2,4 ,0082 ,0080 ,0078 ,0075 ,0073 ,0071 ,0069 ,0068 ,0066 ,0064 -2,3 ,0107 ,0104 ,0102 ,0099 ,0096 ,0094 ,0091 ,0089 ,0085 ,0084 -2,2 ,0139 ,0136 ,0132 ,0129 ,0125 ,0122 ,0119 ,0116 ,0113 ,0110 -2,1 ,0179 ,0174 ,0170 ,0166 ,0162 ,0158 ,0154 ,0150 ,0146 ,0143 -2,0 ,0228 ,0222 ,0217 ,0212 ,0207 ,0202 ,0297 ,0292 ,0288 ,0283 -1,9 ,0287 ,0281 ,0274 ,0268 ,0262 ,0256 ,0250 ,0244 ,0239 ,0233 -1,8 ,0359 ,0351 ,0344 ,0336 ,0329 ,0322 ,0314 ,0307 ,0301 ,0294 -1,7 ,0446 ,0436 ,0427 ,0418 ,0409 ,0401 ,0392 ,0384 ,0375 ,0367 -1,6 ,0548 ,0537 ,0526 ,0516 ,0505 ,0495 ,0485 ,0475 ,0465 ,0455 -1,5 ,0668 ,0655 ,0643 ,0630 ,0618 ,0606 ,0594 ,0582 ,0571 ,0559

Gambar 3..3 . Cara membaca tabel distribusi normal

Kemudian, perhatikan bahwa nilai 0,0250 tersebut terletak pada baris -1,9 dan kolom ,06 (dibaca nol koma nol enam). Adapun cara membacanya adalah dengan menggabungkan -1,9 dan 0,06 sehingga diperoleh -1,96. Jadi, 2/αz = ZO,025 = -1,96. Merujuk pada Persamaan

1.3, batas bawah menggunakan nilai 2/αz negatif, yaitu -1,96 sementara batas atas

menggunakan nilai 2/αz positif, yaitu 1,96. Terakhir, kita perlu menghitung Xσ Adapun rumus untuk menghi-tungnya adalah :

Page 18: Diktat Datamining

- 17 -

Diktat Matakuliah Datamining

nX

σσ = ……… ………………….1.4

Dari manakah kita dapat memperoleh nilai σ? Ingat bahwa pada akhir subbab ini kita

sudah memperoleh estimasi titik untuk varians. Ketika varians tersebut ditarik akar

kuadrat maka standar deviasinya akan didapatkan. Untuk kasus ini standar deviasi

yang diperoleh adalah 31,07 ml. Inilah yang menjadi nilai σ untuk Persamaan 1.4

Adapun n bernilai 12, yaitu banyaknya botol yang menjadi sampel. Dari uraian

tersebut, kita dapat menghitung nilai Xσ

97,81207,31 ===

nXσσ

Kembali pada Persamaan 1.3, kedua batas selang kepercayaan tersebut adalah

batas bawah (L) = 2007 - 1,96(8,97) = 1989,42 ml

batas atas (U) = 2007 + 1,96(8,97) = 2024,58 ml

Jadi, selang kepercayaan 95% berdasarkan sampel tersebut adalah (1989,42; 2024,58) ml.

Pengetahuan apakah yang diperoleh seandainya kita melakukan sebuah prosedur

yaitu mengambil sampel (dalam kasus kita sampelnya 12 botol) kemudian

menghitung rata-rata sampel tersebut dan terakhir membuat sebuah selang

kepercayaan? Dalam kasus tersebut apabila kita mengulangi prosedur tersebut

sebanyak 100 kali maka kita berpeluang untuk mendapatkan 95 buah selang yang benar-

benar mencakup rata-rata populasi yang sesungguhnya. Adapun angka 95% yang disebut-

sebut sejak tadi disebut tingkat keyakinan. Semakin tinggi tingkat keyakinan yang

kita inginkan semakin lebar pula selang yang akan dihasilkan. Bayangkan

contoh berikut Anda diminta menebak jumlah uang di saku seorang teman sebanyak

10 kali. Cara pertama tebakan Anda selalu memiliki rentang sempit katakanlah

Rp100, sehingga Anda menebak Rp10.000 – 10.100, Rp7.500 –7.600, Rp 43.100 – Rp

43.200, dan seterusnya hingga 10 kali. Cara kedua tebakan Anda selalu memiliki

rentang lebar, katakanlah Rp500.000,- sehingga Anda menebak Rp l .000 –

501.000, Rp 30.000 – 530.000, Rp 120.000 – 620.000, dan seterusnya. Cara manakah

yang Anda yakini akan lebih berhasil mencakup jumlah uang sebenanya di saku.

teman Anda secara tepat? Tentu cara kedua yang selangnya lebih lebar.

Secara ekstrem bila Anda ingin yakin 100% bahwa tebakan Anda pasti benar

tebak saja dari negatif tak hingga hingga positif tak hingga yang pada hakikatnya

menjadi sama saja dengan "tidak menebak". Oleh karena itu tingkat keyakinan

Page 19: Diktat Datamining

- 18 -

Diktat Matakuliah Datamining

yang terlalu tinggi juga tidak diinginkan sebab selang yang dihasilkan menjadi

terlalu lebar hingga kehilangan esensi dari perkiraan itu. sendiri.

Jadi dalam hal ini ada beberapa hal yang terkait dengan masalah estimasi yaitu

1. kegunaan fungsi estimasi

2. dalam pembahasan bab ini yang diestimasi (diperkirakan) adalah rata-rata dan

varians populasi, dan

3. cara estimasi titik dan cara estimasi selang kepercayaan.

SOAL LATIHAN

Sebuah tim penelit i bermaksud memperkirakan besarnya penghasilan penduduk

di suatu daerah. Lima belas orang yang telah bekerja atau memiliki usaha

diambilsecara acak dan ditanyai penghasilan per bulannya. Hasil yang diperoleh

(dalam juta rupiah) adalah 2,47; 1,78; 4,76; 0,67; 4,57; 2,95; 3,17; 2,42; 1,40; 5,61;

3,49; 2,39; 1,74; 2,47; 2,05.

1. Perkirakan rata-rata dan varians penghasilan penduduk daerah tersebut!

2. Buatlah selang keyakinan 90%, 95%, dan 99% untuk rata-rata penghasilan.

Bandingkan dari segi lebar intervalnya.

Page 20: Diktat Datamining

- 19 -

Diktat Matakuliah Datamining

IV. FUNGSI MINOR UNTUK FUNGSI PREDIKSI

Sebagai gambaran Anda akan diberi data mengenai lamanya waktu yang

dihabiskan oleh seorang pegawai restoran siap saji untuk mengantarkan pesanan keru-

mah pelanggan. Pegawai tersebut mengendarai sepeda motor untuk mengantarkan

pesanan langsung ke rumah pemesan. Data waktu sejak pegawai meninggalkan restoran

hingga ia mencapai pintu rumah pelanggan ditampilkan pada Tabel 4.1.

No.

Pesonon

Jarak

(km)

Waktu

(menit)

No.

Pesonan

Jarak

(km)

Woktu

(menit)

1 0,50 9,95 14 3,60 11,66

2 1,10 24,45 15 2,05 21,65

3 1,20 31,75 16 4,00 17,89

4 5,50 35,00 17 6,00 69,00

5 2,95 25,02 18 5,85 10,30

6 2,00 16,86 19 5,40 34,93

7 3,75 14,38 20 2,50 46,59

8 0,52 9,60 21 2,90 44,88

9 1,00 24,35 22 5,10 54,12

10 3,00 27,50 23 5,90 56,23

11 4,12 17,08 24 1,00 22,13

12 4,00 37,00 25 4,00 21,15

13 5,00 41,95

Tabel 4.1. Data waktu pengantaran pesanan

Berdasarkan data dalam table seandainya datang pesanan ke-26 dari rumah yang

jaraknya 1,5 km dari restoran seharusnya kita dapat memberikan prediksi waktu

pengantaran pesanan bagi pelanggan tersebut. Prediksi tersebut didasari anggapan

kita bahwa waktu pengantaran pesanan dipengaruhi oleh jarak rumah

pelanggan. Apakah anggapan tersebut benar? Hal tersebut akan kita buktikan nanti.

Contoh tersebut menggambarkan sebuah kegiatan prediksi. Lalu apa perbedaannya

dengan estimasi? Ingat kembali bahwa dalam estimasi kita memperkirakan suatu hal,

Page 21: Diktat Datamining

- 20 -

Diktat Matakuliah Datamining

misalnya rata-rata populasi dari sejumlah sampel yang kita miliki. Estimasi

di lakukan berdasarkan sampel yang ada di tangan ki ta . Sementara itu dalam

prediksi kita menggunakan data yang ada di tangan kita untuk memprediksi hasil

dari satu hal baru yang akan muncul selanjutnya misalnya munculnya pesanan

selanjutnya. Jadi estimasi dilakukan untuk memperkirakan hal yang tidak kita

ketahui (rata-rata populasi, varians populasi) sedangkan prediksi memperkirakan

hasil dari hal yang belum terjadi. Kita dapat menunggu hingga hal tersebut terjadi untuk

membuktikan seberapa tepat prediksi kita.

Berikutnya akan membahas cara prediksi yang disebut regresi linear kemudian

dilanjutkan dengan cara menganalisis prediksi yang dihasilkan. Apabila terdapat

istilah khusus maka istilah tersebut akan sekaligus dijelaskan di dalamnya.

Regresi Linear dan Pengetahuan Yang Dihasilkan

Dua jenis regresi linear yang akan dibahas pads subbab ini adalah regresi

linear sederhana dan regresi linear berganda. Secara sederhana, dapat dikatakan

bahwa regresi linear sederhana hanya melibatkan satu variabel pemberi pengaruh,

sementara regresi linear berganda melibatkan lebih dari satu variabel pemberi

pengaruh. Variabel adalah besaran yang berubah-ubah nilainya. Dalam kasus di atas,

sesungguh- nya terdapat banyak sekali variabel yang terlibat, misalnya nomor rumah

pelanggan, luas rumah pelanggan, jam pemesanan, suhu udara saat pemesanan,

banyaknya anggota keluarga pelanggan, dan sebagainya. Akan tetapi semua variabel

tersebut belum tentu relevan dengan kasus yang dihadapi. Variabel yang

(dianggap) relevan dan dicantumkan pada Tabel 4.1. adalah jarak rumah

pelanggan dan waktu tempuh pengiriman pesanan. selanjutnya kedua variabel

tersebut dapat dipilah menjadi dua jenis yaitu variabel pemberi pengaruh dan variabel

terpengaruh. Variabel pemberi pengaruh dapat dianalogikan sebagai sebab, sementara

variabel terpengaruh merupakan akibat.

Di antara jarak rumah pelanggan dan waktu tempuh, bagaimanakah hubungan

sebab-akibatnya? Pemikiran yang logic adalah jauh-dekatnya jarak rumah pelanggan

mengakibatkan panjang-pendeknya waktu tempuh pengiriman. Oleh karena itu jarak

merupakan variabel pemberi pengaruh sementara waktu tempuh adalah variabel

terpengaruh.

A. Regre s i L inear Sederhana

Regresi linear merupakan satu cara prediksi yang menggunakan garis lurus

Page 22: Diktat Datamining

- 21 -

Diktat Matakuliah Datamining

untuk menggambarkan hubungan di antara dua variabel (atau lebih). Dalam kasus

di atas kedua variabel tersebut adalah jarak dan waktu tempuh. Kita akan mencoba

menggambarkan data pada Tabel 4.1. dengan jarak sebagai sumbu X (dalam kilometer)

dan Waktu Tempuh sebagai sumbu Y (dalam menit). Setiap pasang data jarak-waktu

pada Tabel 4.1. digambarkan sebagai sebuah titik pada Gambar 4.1. Oleh karena itu

memuat 25 buah titik.

Gambar 4.1. : Data Tabel 4.1. dengan Jarak sebagai sumbu X dan Waktu sebagai sumbu Y Tujuan kita adalah mencari sebuah garis lurus yang sedekat mungkin dengan semua

titik sehingga garis tersebut menjadi sesuai untuk mewakili titik-titik tersebut. Secara

umum, garis tersebut dapat kita tulis dalam bentuk persamaan:

Y = β0 + β1x

Y adalah variabel terpengaruh, β0 adalah sebuah konstanta, β1 adalah gradien garis, dan x

adalah variabel pemberi pengaruh.

Gambar 4.2. Contoh tiga garis lurus untuk mendekati titik-titik data table 4.1.

Page 23: Diktat Datamining

- 22 -

Diktat Matakuliah Datamining

Gambar 4.2. tersebut menggambarkan tiga buah garis lurus. Manakah yang tampaknya

paling dapat mewakili semua titik?

Di antara ketiganya tampaknya garis B merupakan garis yang lebih baik dalam

mendekati titik-titik yang ada. Garis A terlalu jauh dari semua titik sementara garis C

justru tidak menggambarkan kecenderungan naiknya nilai sumbu Y (Waktu) seiring

dengan bertambahnya nilai sumbu X (Jarak). Pertanyaannya bagaimanakah cara

mencari garis regresi linear yang paling baik? Ingat bahwa untuk menggambarkan

sebuah persamaan garis kita memerlukan konstanta dan gradiennya. Jadi untuk

menemukan garis regresi linear yang paling baik kita perlu menghitung konstanta β0

dan gradien β1 dengan rumus:

β0 = xy 1β−

∑∑

∑∑∑

=

=

=

==

⎟⎠⎞⎜

⎝⎛

⎟⎠⎞⎜

⎝⎛⎟

⎠⎞⎜

⎝⎛

−=

n

i

n

ii

i

n

i

n

ii

n

ii

ii

n

xx

n

xyxy

1

2

12

1

11

1β ……… ………………….4.1

Dalam contoh kasus di a tas , Waktu menjadi var iabel Y (terpengaruh) dan

Jarak menjadi variabel X (pemberi pengaruh) sebab kita beranggapan bahwa waktu

dipengaruhi oleh jarak. Tabel 4.1. memberikan perincian perhitungan yang akan kita

masuk-kan ke da lam Persamaan 4.1. un tuk memperoleh persamaan garis regresi.

Tabel 4.2. Perincian perhitungan untuk regresi linear sederhana

No i

J a rak x

Wak tu y

yi xi x i2

1 0 ,50 9 ,95 4 ,98 0 ,25 2 1 ,10 24 ,45 26 ,90 1 ,21 3 1 ,20 31 ,75 38 ,10 1 ,44 4 5 ,50 35 ,00 192 ,50 30 ,25 5 2 ,95 25 ,02 73 ,81 8 ,70 6 2 ,00 16 ,86 33 ,72 4 ,00 7 3 ,75 14 ,38 53 ,93 14 ,06 8 0 ,52 9 ,60 4 ,99 0 ,27 9 1 ,00 24 ,35 24 ,35 1 ,00

10 3 ,00 27 ,50 82 ,50 9 ,00 11 4 ,12 17 ,08 70 ,37 16 ,97 12 4 ,00 37 ,00 148 ,00 16 ,00 13 5 ,00 41 ,95 209 ,75 25 ,00 14 3 ,60 11 ,66 41 ,98 12 ,96 15 2 ,05 21 ,65 44 ,38 4 ,20

Page 24: Diktat Datamining

- 23 -

Diktat Matakuliah Datamining

Dengan menggunakan hasil perhitungan pada tabel, kita dapat m e n g h i t u n g

g r a d i e n β1 d a n k o n s t a n t a β0 m e n g g u n a k a n Persamaan 4.1 :

25)94,82(18,353

25)94,82)(42,752(81,2745

21

−=β ……… ………………….4.2

β1 = 29,02 – 4,35(3,32) = 14,58

Persamaan garis regresi yang kita cari berbentuk Y = β0 + β1x. Berdasarkan hasil di

atas maka diperoleh persamaan Y = 14,58 + 4,35X.

Pengetahuan apakah yang diperoleh? Kita memprediksi bahwa waktu tempuh

pengiriman pesanan sama dengan 14,58 menit ditambah 4,35 kali jarak rumah

pelanggan. Lebih jauh lagi persamaan garis ini menyatakan bahwa bila rumah

pelanggan berjarak 0 km dari restoran waktu antarnya diprediksi 14,58 menit. Bila

jaraknya bertambah 1 km maka waktu tersebut pun akan bertambah 4,35 menit

menjadi 18,93 menit .Setiap pertambahan jarak rumah pelanggan sejauh 1 km

waktu pengiriman pun diprediksi akan bertambah selama 4,35 menit.

Setelah memperoleh garis regresi di atas ketika kita mendapatkan pelang-

gan ke-26 yang berjarak 1,5 km dari restoran kita dapat memprediksi bahwa

pesanan akan sampai ke tangan pelanggan dengan cara:

Y = 14,58 + 4,35X

Y = 14,58 + 4,35(1,5) = 21,1

Pesanan diperkirakan akan sampai ke tangan pelanggan dalam waktu 21,1 menit.

No i

J a rak x

Wak tu y

yi xi x i2

16 4 ,00 17 ,89 71 ,56 16 ,00 17 6 ,00 69 ,00 414 ,00 36 ,00 18 5 ,85 10 ,30 60 ,26 34 ,22 19 5 ,40 34 ,93 188 ,62 29 ,16 20 2 ,50 46 ,59 116 ,48 6 ,25 21 2 ,90 44 ,88 130 ,15 8 ,41 22 5 ,10 54 ,12 276 ,01 26 ,01 23 5 ,90 56 ,23 331 ,76 34 ,81 24 1 ,00 22 ,13 22 ,13 1 ,00 25 4 ,00 21 ,15 84 ,60 16 ,00

Jumlah 82 ,94 725 ,42 2745 ,81 353 ,18 Ra ta - r a t a 3 ,32 29 ,02

Page 25: Diktat Datamining

- 24 -

Diktat Matakuliah Datamining

B. Regresi Linear Berganda (Multiple Linear Regression)

Apakah regresi linear hanya dapat melibatkan satu variabel pemberi

pengaruh? Tidak!. Kita dapat menyusun persamaan regresi yang memiliki banyak

variabel X yaitu variabel pemberi pengaruh. Apabila kita memiliki k buah variabel

pemberi pengaruh maka bentuk persamaan garis regresinya menjadi:

Y = β0 + β1x1 + β2x2 + β3x3 + …. + βkxk

Y adalah variabel terpengaruh, β0 adalah sebuah konstanta, β1 adalah gradien pertama,

x1 adalah variabel pemberi pengaruh yang pertama, β2 adalah gradien kedua, dan x2

adalah variabel pemberi pengaruh yang kedua.

Persamaan-persamaan yang ditunjukkan pada Persamaan 4.2 dapat kita

gunakan untuk menemukan persamaan garis regresi Y = β0 + β1x1 + β2x2 + β3x3 + ….

+ βkxk . Perhatikan bahwa kita memiliki (k + 1) buah persamaan, sementara variabel

yang tidak kita ketahui juga ada sebanyak (k + 1) buah yaitu dari β0 hinggapk. Oleh

karena i tu k i ta dapat menyelesa ikan persamaanpersamaan pada Persamaan 4.2

untuk menemukan β0 hingga βk.

Persamaan 4.3.

∑∑∑∑∑=====

=++++n

ii

n

iikk

n

ii

n

ii

n

ii yxxxxn

1113

33

122

1110 ....... βββββ

∑∑∑∑∑∑======

=++++n

iii

n

iikik

n

iii

n

iii

n

ii

n

ii yxxxxxxxxx

11

11

131

33

1212

1

211

110 ....... βββββ

dst

∑∑∑∑∑∑======

=++++n

iiik

n

iikikk

n

iiik

n

iiik

n

iiik

n

iik yxxxxxxxxxx

1113

33

122

111

10 ....... βββββ

Mari kita kembali pada contoh di awal. Berdasarkan masukan p e g a w a i p e n g a n t a r

m a k a n a n l a m a n y a w a k t u u n t u k mengirimkan pesanan ternyata tidak hanya

bergantung pada jarak. Banyaknya lampu merah di perempatan jalan juga dapat mengham

bat perjalanan tabel 4.3.berisi data yang sama dengan table 4.1 namun telah

dilengkapi dengan data mengenai banyaknya lampu merah yang ditemui di

sepanjang perjalanan.

No Lampu Jarak Waktu No Lampu Jarak Waktu 1 2 0,50 9,95 14 2 3,60 11,66 2 8 1,10 24,45 15 4 2,05 21,65

Page 26: Diktat Datamining

- 25 -

Diktat Matakuliah Datamining

3 11 1,20 31,75 16 4 4,00 17,89 4 10 5,50 35,00 17 20 6,00 69,00 5 8 2,95 25,02 18 1 5,85 10,30 6 4 2,00 16,86 19 10 5,40 34,93 7 2 3,75 14,38 20 15 2,50 46,59 8 2 0,52 9,60 21 15 2,90 44,88 9 9 1,00 24,35 22 16 5,10 54,12 10 8 3,00 27,50 23 17 5,90 56,23 11 4 4,12 17,08 24 6 1,00 22,13 12 11 4,00 37,00 25 5 4,00 21,15 13 12 5,00 41,95 Jumla 206 82,94 725,42

Tabel 4.3. Data waktu pengantaran pesanan yang mengikutsertakan faktor lampu merah

K i t a d a p a t m e n g h i t u n g g r a d i e n β 1 , β 2 , d a n k o n s t a n t a β 0 menggunakan

Persamaan 4.4.

∑∑∑===

=++n

ii

n

ii

n

ii yxxn

1122

1110 βββ ……………………………………4.4.

∑∑∑∑====

=++n

iii

n

iii

n

ii

n

ii yxxxxx

11

1212

1

211

110 βββ

∑∑∑∑====

=++n

iii

n

ii

n

iii

n

ii yxxxxx

12

1

222

1211

120 βββ

A d a p u n p e r i n c i a n p e r h i t u n g a n k o m p o n e n - k o m p o n e n y a n g dibutuhkan untuk melengkapi persamaan-persamaan di a tas d1tampilkan pada Tabel 4.4.

Tabel 4.4. Perincian perhitungan untuk regresi linear berganda

No i

Lampu x1

Jarak x2

Waktu y xil

2 xi1xi2 xi1yi xi22 xi21yi

1. 2 0,50 9,95 4,00 1,00 19,90 0,25 4,98 2. 8 1,10 24,45 64,00 8,80 195,60 1,21 26,90 3. 11 1,20 31,75 121,00 13,20 349,25 1,44 38,10 4. 10 5,50 35,00 100,00 55,00 350,00 30,25 192,50 5. 8 2,95 25,02 64,00 23,60 200,16 8,70 73,81 6. 4 2,00 16,86 16,00 8,00 67,44 4,00 33,72 7. 2 3,75 14,38 4,00 7,50 28,76 14,06 53,93 8. 2 0,52 9,60 4,00 1,04 19,20 0,27 4,99 9. 9 1,00 24,35 81,00 9,00 219,15 1,00 24,35 10. 8 3,00 27,50 64,00 24,00 220,00 9,00 82,50 11. 4 4,12 17,08 16,00 16,48 68,32 16,97 70,37 12. 11 4,00 37,00 121,00 44,00 407,00 16,00 148,00 13. 12 5,00 41,95 144,00 60,00 503,40 25,00 209,75

Page 27: Diktat Datamining

- 26 -

Diktat Matakuliah Datamining

14. 2 3,60 11,66 4,00 7,20 23,32 12,96 41,98 15. 4 2,05 21,65 16,00 8,20 86,60 4,20 44,38 16. 4 4,00 17,89 16,00 16,00 71,56 16,00 71,56 17. 20 6,00 69,00 400,00 120,00 1380,00 36,00 414,00 18. 1 5,85 10,30 1,00 5,85 10,30 34,22 60,26 19. 10 5,40 34,93 100,00 54,00 349,30 29,16 188,62 20. 15 2,50 46,59 225,00 37,50 698,85 6,25 116,48 21. 15 2,90 44,88 225,00 43,50 673,20 8,41 130,15 22. 16 5,10 54,12 256,00 81,60 865,92 26,01 276,01 23. 17 5,90 56,23 289,00 100,30 955,91 34,81 331,76 24. 6 1,00 22,13 36,00 6,00 132,78 1,00 22,13 25. 5 4,00 21,15 25,00 20,00 105,75 16,00 84,60

Jumlah 206 82,94 725,42 2396,00 771,77 8001,67 353,18 2745,81

Bila kita isikan angka yang kita peroleh dari Tabel 4.4. pada Persamaan 4.4. maka

25β0 +β1(206) + β 2 (82,94) = 725,42

β0(206) + β 1(2396) + β2(771, 77) = 8001,67

β0(82,94) + β1(771,77) + β2 (353,18) = 2745,81

Ketiga persamaan tersebut diselesaikan hingga memperoleh βo = 2,31, β1 = 2,74, dan β2 =

1,24. Lengkapnya persamaan regresi yang kita peroleh adalah

Y = 2,31 + 2,74 X1 + 1,24 X2

Pengetahuan apakah yang diperoleh? Kita memprediksi bahwa waktu tempuh pengiriman

pesanan sama dengan 2,31 menit ditambah 2,74 kali banyaknya lampu merah yang

dite-mui di sepanjang perjalanan dan ditambah 1,24 kali jarak rumah pelanggan.

Lebih lanjut persamaan garis ini menyatakan bahwa bila rumah pelanggan berjarak 0

km dari restoran dan dapat dicapai tanpa melewati lampu merah, maka waktu

antarnya dipre-diksi 2,31 menit. Setiap pertambahan satu buah lampu merah yang

ditemui di perjalanan waktu antarnya diprediksi bertambah 2,74 menit. Sementara

pertambahan jarak rumah pelang-gan sejauh 1 km diprediksi menambah waktu antar

selama 1,24 menit.

Berdasarkan garis regresi di atas kita akan memprediksi waktu antar untuk pelanggan ke-

26 yang berjarak 1,5 km dari restoran. Akan tetapi kali ini kita juga perlu mengetahui

berapa banyak lampu merah yang akan ditemui pengantar sepanjang jalan dari restoran

hingga ke rumah pelanggan.Dalam kasus ini pengantar hanya akan menemukan

sebuah lampu merah.

Sekarang kita tabu bahwa X1 = 1 (lampu) dan X2 = 1,5 (jarak) sehingga kita dapat

mempre-diksi lamanya waktu hingga pesanan sampai ke tangan pelanggan dengan cara:

Y = 2,31 + 2,74 X1 + 1,24 X2

Page 28: Diktat Datamining

- 27 -

Diktat Matakuliah Datamining

Y = 2,31 + 2,74(1) + 1,24(1,5) = 6,91

Pesanan diperkirakan sampai ke tangan pelanggan dalam waktu 6,9 menit.

C. Analisa Garis Regresi Menggunakan Koefisien Determinasi

Pada subbab sebelumnya kita telah membuat dua garis regresi untuk

memprediksi waktu pengiriman pesanan (Y). Garis regresi pertama yang kita

peroleh hanya dengan menyertakan variabel jarak (X) sebagai pemberi pengaruh adalah :

Y = 14,58 + 4,35X (Y = 14,58 + 4,35 Jarak)

Garis regresi kedua yang kita peroleh dengan menyertakan dua variabel pemberi pengaruh,

Lampu Merah (X1) dan Jarak (X2), adalah

Y = 2,31 + 2,74Xi + 1,24X2 (Y = 2,31 + 2,74 Lampu + 1,24 Jarak)

Manakah yang lebih baik? Apabila kriteria yang kita gunakan adalah kemampuan

garis regresi untuk mewakili data historis (dalam kasus kita adalah data pada Tabel 4.4.),

maka kita dapat menggunakan ukuran koefisien determinasi yang dinotasikan

sebagai R2.

Koefisien determinasi merupakan besaran yang mengukur seberapa baik

kemam-puan garis regresi untuk menjelaskan keragaman data. Koefisien

determinasi dapat dihitung dengan rumus:

R2 = 1 - yy

E

SSS ………………………………4.5

SSE = ∑∑==

−=n

iii

n

ii yye

1

2

1

2 )ˆ( ………………………………4.6

Syy = ∑=

−n

ii yy

1

2)( ………………………………4.7

Pada persamaan SSE di Persamaan 4.7, notasi yi mewakili nilai y dari data yang

sebenar-nya, sementara notasi iy menyatakan nilai y yang kita peroleh melalui garis

regresi. Agar lebih jelas, mari kita kembali ke Tabel 4.5 dan mengambil data ke-7 dan

data ke-19 sebagai contoh.Data ke-7 memiliki Waktu (y) sebesar 14,38. Data

inilah yang dino- tasikan sebagai y7. Dari tabel kita juga dapat menemukan y19 = 34,93.

Lalu bagaimanakah caranya menemukan nilai iy ?

Bila kita menggunakan garis regresi pertama Y = 14,58 + 4,35X, dengan Y adalah

Waktu dan X adalah Jarak, maka:

Page 29: Diktat Datamining

- 28 -

Diktat Matakuliah Datamining

Y = 14 ,58 -4 ,35 (3 ,75 ) = 30 ,89

19y =14,58 + 4,35 (5,4) = 38,07

Bila kita menggunakan garis regresi kedua Y = 2,31 + 2,74X1 + 1,X2, dengan Y

adalah waktu, X1 adalah Lampu, dan X2 adalah jarak, maka :

7y = 2,31 + 2,74(2) + 1,24(3,75) = 12,44

19y = 2,31 + 2,74(10) + 1,24(5,4) = 36,41

Tabel 4.5 mencantumkan perincian perhitungan yang dilakukan untuk menemukan

koefisien determinasi. Keempat kolom, (1), (2), (3), dan (4), diperoleh dari Tabel

4.3 dengan urutan yang tepat sama, yaitu Nomor, Lampu, Jarak, dan Waktu. Kolom (5)

diperoleh dengan cara memasukkan nilai kolom (3), yaitu Jarak, ke dalam

persamaan regresi yang pertama: Y = 14,58 + 4,35X. Kolom (6) merupakan hasil

pengurangan kolom (4) dengan kolom (5), lalu dikuadratkan. Kolom (7)

diperoleh dengan cara memasukkan nilai kolom (2) dan kolom (3), yaitu Lampu dan

Jarak, ke dalam persama-an regresi yang kedua: Y = 2,31 + 2,74X1 + 1,24X2. Kolom

(8) merupakan hasil pengurangan kolom (4) dengan kolom (7), lalu dikuadratkan.

Kolom (9) merupakan hasil pengurangan kolom (4) dengan rata-rata kolom (4), lalu

dikuadratkan.

Tabel 4.5. Perincian perhitungan koefisien determinasi

(1) (2) (3) (4) (5) (6) (7) (8) (9) i x1 x2 y

iy ( )2ˆ ii yy −

Y (yi-Y)2 ( )2ii yy −

1. 2 0,50 9,95 16,76 46,31 8,41 2,37 363,542. 8 1,10 24,45 19,37 25,86 25,59 1,31 20,863. 11 1,20 31,75 19,80 142,80 33,94 4,79 7,41 4. 10 5,50 35,00 38,51 12,29 36,53 2,34 35,80 5. 8 2,95 25,02 27,41 5,72 27,89 8,23 15,916. 4 2,00 16,86 23,28 41,22 15,75 1,23 147,197. 2 3,75 14,38 30,89 272,66 12,44 3,76 214,218. 2 0,52 9,60 16,84 52,45 8,43 1,36 377,019. 9 1,00 24,35 18,93 29,38 28,21 14,90 21,7810. 8 3,00 27,50 27,63 0,02 27,95 0,20 2,3011. 4 4,12 17,08 32,50 237,84 18,38 1,69 142,4112. 11 4, 00 37,00 31,98 25,20 37,41 0,17 63,7113. 12 5, 00 41,95 36,33 31,58. 41,39 0,31 167,1114. 2 3,60 11,66 30,24 345,22 12,25 0,35 301,2615. 4 2,05 21,65 23,50 3,41 15,81 34,08 54,2116. 4 4,00 17,89 31,98 198,53 18,23 0,12 123,81

Page 30: Diktat Datamining

- 29 -

Diktat Matakuliah Datamining

17. 20 6,00 69,00 40,68 802,02 64,55 19,80 1598,6418. 1 5,85 10,30 40,03 883,72 12,30 4,02 350,3119. 10 5,40 34,93 38,07 9,86 36,41 2,18 34,9'20. 15 2,50 46,59 25,46 446,69 46,51 0,01 308,8f21. 15 2,90 44,88 27,20 312,76 47,01 4,52 251,6422.

16 5,10 54,12 36,77 301,20 52,47 2,711. 630,17

23. 17 5,90 56,23 40,25 255,52 56,21 0,00 740,5424. 6 1,00 22,13 18,93 10,24 19,99 4,58 47,4325. 5 4,00 21,15 31,98 117,29 20,97 0,03 61,89

Jumlah 206 82,94 725,42 725,29 4609,79 725,04 115,05 6084,02 Rata-rata 29,02

Perhitungan koefisien determinasi untuk kedua garis menggunakan persamaan diatas :

1. Garis regresi pertama (Y = 14,58 + 4,35X)

SSE = 4609,79 (jumlah kolom [6] )

Syy = 6084,02 (jumlah kolom [9] )

R2 = 1 – [4609,78/6084,02] = 0,2423 = 24,23 %

2. Garis regresi kedua (Y = 2,31 + 2,74X1 + 1,24X2)

SSE = 115,05 (jumlah kolom [8] )

Syy = 6084,02 (jumlah kolom [9] )

R2 = 1 – [115,05 /6084,02] = 0,9811 = 98,11%

Garis regresi kedua ternyata memiliki koefisien determinasi yang jauh lebih tinggi, artinya

garis tersebut lebih dapat menjelaskan keragaman waktu pengantaran pesanan pada Tabel 4,2.

Jadi dalam memprediksi waktu pengantaran pesanan selanjutnya kita sebaiknya menggunakan

garis regresi kedua yang mempertimbangkan dua variable pemberi pengaruh yaitu banyaknya

lampu merah dan jrak rumah pelanggak.

Jadi kita telah menguraikan beberapa hal yang terkait dengan masalah prediksi yaitu :

1. Kegunaan fungsi prediksi

2. Cara membuat persamaan garis regresi untuk satu atau lebih variable pemberi pengaruh

3. Cara melakukan analisis perbandingan antara dua garis regresi berdasarkan koefisien

determinasi.

SOAL LATIHAN

Dua puluh orang peserta kursus bahasa Inggris akan mengikuti ujian. Diperkirakan

nilai ujian tersebut dipengaruhi oleh lamanya waktu kursus (dalam bulan),

Page 31: Diktat Datamining

- 30 -

Diktat Matakuliah Datamining

nilai try out , dan banyaknya bahasa asing selain bahasa Inggris yang dikuasai.

1. Buatlah persamaan garis regresi yang melibatkan tiga variabel pemberi penga-ruh, yaitu lama Kursus, Try Out, dan Bahasa Lain.

2. Hitung koefisien determinasi garis tersebut. Apa arti dari angka koefisien determinasi yang diperoleh?

Data tersebut ditampilkan pada tabel berikut :

.

No. Lama Kursus Try Out Bahasa Lain Nilai Uji

1 9,9 77 1 85 2 10,2 75 1 80 3 11,5 88 0 87 4 12,9 90 1 91 5 14,6 91 1 95 6 13,6 85 2 93 7 8,7 68 1 78 8 12,3 78 2 88 9 15,5 91 1 100

10 14 88 1 91 11 11,9 84 2 92 12 11,5 81 1 89 13 9,8 75 0 85 14 10,1 76 0 83 15 11,1 74 0 82 16 12 73 0 83 17 12,6 80 2 89 18 13,2 90 1 88 19 14,3 86 1 93 20 9,5 70 0 76

Page 32: Diktat Datamining

- 31 -

Diktat Matakuliah Datamining

V. FUNGSI MAYOR UNTUK FUNGSI KLASIFIKASI Sebagai gambaran Anda diberi data mengenai 8 orang nasabah yang

pernah memperoleh kredit dari Bank Bhatara Putra. Data tersebut meliputi

besarnya tabungan (yang berjenis kategorial: rendah, sedang atau t inggi),

besarnya aset (yang berje-nis kategorial: rendah, sedang, atau tinggi), besarnya

pendapatan per tahun (dalam ribuan dolar yang berjenis numerik dan berskala

rasio) dan risiko kredit (yang berjenis kategorial: risiko baik atau buruk). Data

selengkapnya disajikan dalam Tabel 5.1.

Tabel 5.1. Data tabungan, aset, pendapatan, dan risiko kredit nasabah Bank Bhatara Putra

Data pada Tabel 5.1. berasal dari masa lampau sehingga data tersebut menjadi data histo-

ris atau data sejarah. Orang bijak selalu belajar dari pengalaman masa lampau, artinya

belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis seperti yang

tertera pada Tabel 5.1.? Kita akan mencoba menyimak, merenungkan, dan mempela-

jari data pada tabel tersebut agar kelak sekiranya ada nasabah kesembilan, kese-

puluh, kesebelas, dan seterusnya, kita dapat mengklasifikasikan (menggolongkan) risiko

kredit para nasabah tersebut apabila diketahui tabungan, aset, dan pendapatan mereka. Bab ini

akan membahas fungsi mayor pertama dari data mining yaitu klasifikasi.

Pembahasan akan mencakup:

1. Pengenalan beberapa istilah dasar

Bagian ini akan memudahkan kita mengikuti pembahasan berikutnya tentang masalah

klasifikasi.

2. Prototipe masalah klasifikasi dan pengetahuan yang dihasilkannya

Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam

mendapatkan gambaran tentang apa yang sebenarnya menjadi input serta pengeta-

Nasabah Tabungan Aset Pendoputan Risiko Kredit A Sedang Tinggi 75 Baik B Rendah Rendah 50 Buruk C Tinggi Sedang 25 Buruk D Sedang Sedang 50 Baik E Rendah Sedang 100 Baik F Tinggi Tinggi 25 Baik G Rendah Rendah 15 Buruk

H Sedang Sedang 75 Baik

Page 33: Diktat Datamining

- 32 -

Diktat Matakuliah Datamining

huan apa yang menjadi output fungsi mayor klasifikasi. Selanjutnya interpretasi penge-

tahuan yang menjadi produk dari fungsi mayor klasifikasi akan diberikan.

3. Algoritme klasifikasi

Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu algoritme

yang digunakan data mining dalam menjalankan fungsi mayor pertamanya, yaitu

algoritme CART (Classification and Regression Trees).

4. Pengembangan selanjutnya

Bagian ini berisi informasi yang dapat digunakan oleh para pembaca yang tertarik untuk

mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor klasifikasi.

5.1. Pengenalan Beberapa Istilah Dasar

Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut

demikian? Data historis disebut data latihan (training data) karena kita akan berlatih

dengan data tersebut untuk mendapatkan pengetahuan. Dan disebut data pengalaman karena

data tersebut berasal dari masa lampau, bukankah masa lampau adalah pengalaman bagi kita?

Algoritme klasifikasi akan menggunakan data latihan untuk sesuai pengertian data

mining menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan dalam

klasifikasi? Tentu saja pengetahuan untuk menggolongkan risiko kredit seorang

nasabah pada masa mendatang berdasarkan tabungan, asset dan pendapatan mereka.

Data tabungan, aset, dan pendapatan yang akan dijadikan dasar untuk menentukan

risiko kredit disebut variabel prediktor/pemrediksi (predictor variable). Adapun risiko

kredit yang akan ditentukan berdasarkan variabel prediktor disebut variabel tujuan (target

variable).

Jadi secara ringkas pada klasifikasi sebuah catatan (record) akan diklasifikasikan ke dalam

salah satu dari sekian klasifikasi yang tersedia pada variabel tujuan berdasarkan nilai-nilai

variabel prediktornya. Masalah klasifikasi secara ringkas dapat digambarkan sebagai

berikut.

1. Masalah klasifikasi berangkat dari data latihan yang tersedia, misalnya data Tabel 5.1

2. Data latihan akan diolah dengan menggunakan algoritme klasifikasi.

3. Masalah klasifikasi berakhir dengan dihasilkannya sebuah pengetahuan yang direpresen-

tasikan dalam bentuk diagram, yang biasa disebut pohon keputusan (decision tree).

Page 34: Diktat Datamining

- 33 -

Diktat Matakuliah Datamining

5.2. Prototif Masalah Klasifikasi dan Pengetahuan yang dihasilkan.

Gambar 5.1. adalah contoh pohon keputusan, sebagai jawaban bagi masalah

klasifikasi dengan data latihan seperti yang tertera pada Tabel 5.1, yang dalam hal ini

variabel predicttornya adalah aset, tabungan, dan pendapatan, sedangkan variabel

tujuannya adalah risiko kredit.

Pohon keputusan pada Gambar 5.1. itulah yang menjadi pengetahuan yang

dihasil-kan dari fungsi klasifikasi. Sebelum kita mempelajari cara membaca gambar ini,

pengertian lambang-lambang yang digunakan pada gambar tersebut akan

diperkenalkan terlebih dahulu. Pada gambar tersebut terdapat dua jenis bentuk noktah.

Pertama noktah yang berbentuk elips yang disebut juga noktah keputusan. Noktah

jenis ini adalah noktah yang masih akan bercabang karena pada noktah ini suatu ca ta tan

(misa lnya , nasabah) be lum dapat d i tentukan klasifikasinya (apakah nasabah ini

mempunyai risiko kredit baik atau buruk). Noktah keputusan yang pertama biasa

disebut noktah dasar. Kedua, noktah yang berbentuk persegi panjang, yang disebut

juga noktah terminasi adalah noktah yang tidak akan bercabang lagi karena pada

noktah ini suatu catatan (misalnya, nasabah) sudah dapat ditentukan klasifikasinya.

Bagaimana cara membaca gambar pohon keputusan yang dihasilkan oleh suatu algorit-me

klasifikasi? Pertama-tama, pada noktah dasar semua catatan nasabah (A, B, C, D, E, F, G,

H) sama sekali belum mendapat klasifikasi. Terhadap seluruh catatan ini pertama-

tama tanyakan seberapa besar asetnya. Bila aset sebuah catatan termasuk rendah, catatan ini

langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang buruk dan noktah bagi

catatan yang termasuk dalam klasifikasi ini berjenis noktah terminasi. Sesuai dengan

namanya, noktah ini tak akan pernah bercabang lagi. Catatan yang dicakup oleh noktah

terminasi ini adalah catatan B dan G. Namun bila aset sebuah catatan termasuk sedang atau

tinggi risiko kredit catatan tersebut belum bisa diklasifikasikan (apakah baik atau buruk)

sehingga noktahnya termasuk dalam jenis noktah keputusan. Noktah ini akan disebut

noktah keputusan A karena menjadi noktah keputusan pertama yang dihasilkan.

Catatan yang tercakup dalam noktah ini adalah catatan A, C, D, E, F, dan H.

Selanjutnya terhadap noktah keputusan A dilakukan percabangan dengan menanya

kan besarnya tabungan.

Page 35: Diktat Datamining

- 34 -

Diktat Matakuliah Datamining

Gambar 5.1. Pohon keputusan bagi masalah klasifikasi data nasabah Bank Bhatara Putra

Noktah Dasar Aset = rendah

VS Aset = Sedang, tinggi

Noktah Terminasi

Resiko Buruk (Catatan B, G)

Noktah Keputusan A (Catatan A, C, D, E, F,

Noktah Keputusan B Resiko Baik

(Catatan C, F)

Noktah Termanasi

Resiko Baik (Catatan A, D, E, H)

Noktah Terminasi

Resiko Baik (Catatan F)

Noktah Terminasi

Resiko Buruk (Catatan C)

Tabungan = tinggi Tabungan = Rendah, Sedang

Aset = Tinggi Aset = Sedang

Page 36: Diktat Datamining

- 35 -

Diktat Matakuliah Datamining

Bila tabungan sebuah catatan termasuk rendah atau sedang catatan tersebut langsung diklasi-

fikasikan sebagai nasabah dengan risiko kredit yang baik sehingga termasuk dalam

jenis noktah terminasi. Catatan yang dicakup oleh noktah terminasi adalah catatan A, D, E,

dan H. Bila tabungan sebuah catatan termasuk tinggi risiko kredit catatan ini belum bisa

diklasifikasikan (apakah baik atau buruk) sehingga noktahnya termasuk dalam jenis

noktah keputusan. Noktah ini akan disebut noktah keputusan B karena menjadi

noktah keputusan kedua yang dihasilkan. Catatan yang tercakup dalam noktah ini adalah

catatan C dan F. Selanjutnya terhadap noktah keputusan B dilakukan percabangan

dengan kembali menanyakan besarnya aset. Bila aset sebuah catatan termasuk tinggi, catatan

tersebut (nasabah F) langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang baik

sehingga noktahnya termasuk dalam jenis noktah terminasi yang tidak akan pernah berca-

bang lagi. Namun bila aset sebuah catatan termasuk sedang catatan tersebut (nasabah C)

langsung diklasifikasikan sebagai nasabah dengan risiko kredit yang buruk sehingga

noktahnya termasuk dalam jenis noktah terminasi yang tidak akan pernah bercabang lagi.

5.3. Algoritme Klasifikasi Cart (Classification and Regresion Trees)

Pembahasan sebelumnya dapat kita ringkas dalam tiga penjelasan berikut:

1. Pertama kita memiliki data dari 8 nasabah seperti yang tertera pads Tabel 5.1 dan

ingin memperoleh pengetahuan yang dapat diaplikasikan kepada mereka yang berpotensi

menjadi nasabah kesembilan, kesepuluh, kesebelas, dan selanjutnya sehingga dengan

mengetahui aset tabungan dan pendapatan kita dapat menentukan risiko kredit mereka.

2. Kedua data itu kelak akan kita jadikan input bagi suatu algoritme yang saat ini belum

diketahui jenis algoritmenya.

3. Ketiga sebagai keluaran dari algoritme yang saat ini belum diketahui jenisnya kita akan

memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk

pohon keputusan.

Subbab ini akan membahas detail salah satu algoritme yang dapat menghasilkan pohon

keputusan. Algoritme ini disebut Classification and Regression Trees atau CART. Ciri khas

algoritme CART ini adalah noktah keputusan yang selalu bercabang dua atau bercabang

biner.

Algoritme CART ini pertama kali digagas oleh Leo Breiman, Jerome Friedman, Richard

Olshen, dan Charles Stone (Larose, 2005). Algoritme ini juga masuk dalam The Top Ten

Algorithms in Data Mining (Wu dan Kumar, 2009). Agar lebih jelas kita terapkan

algoritme CART terhadap data pads Tabel 5.1

Page 37: Diktat Datamining

- 36 -

Diktat Matakuliah Datamining

Langkah-langkah pada algoritme CART adalah sebagai berikut.

1. Langkah pertama susunlah calon cabang (candidate split).

Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap

(exhaustive). Daftar yang berisi calon cabang disebut daftar calon cabang mutakhir.

2. Langkah kedua adalah menilai kinerja keseluruhan calon cabang yang ada pada

daftar calon cabang mutakhir dengan jalan menghitung nilai besaran kesesuaian, Q(s│t)

yang akan diterangkan kemudian.

3. Langkah ketiga adalah menentukan calon cabang manakah yang akan benar-benar

dijadikan cabang dengan memilih calon cabang yang memiliki nilai kesesuaian Q(s│t)

terbesar. Setelah itu gambarkanlah percabangan. jika tidak ada lagi noktah keputusan,

pelaksanaan algoritme CART akan dihentikan. Namun jika masih terdapat noktah

keputusan pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua,

dengan terlebih dahulu membuang calon cabang yang telah berhasil menjadi

cabang sehingga mendapatkan daftar calon cabang mutakhir yang baru.

Berikut ini adalah contoh penerapan algoritme CART pada masalah klasifikasi

terhadap data 8 nasabah pada Tabel 5.1.

A. Langkah Pertama Algoritme CART

Langkah pertama algoritme CART adalah menyusun calon cabang (candidate split).

Penyusunan ini dilakukan terhadap seluruh variabel prediktor secara lengkap

(exhaustive). Pada kasus ini yang menjadi variabel prediktor seluruhnya adalah

tabungan, aset, dan pendapatan. Mari kita susun calon cabang yang lengkap untuk

masing-masing variabel prediktor ini.

Perhatikanlah bahwa pembuatan calon cabang akan selalu patuh pada ciri khas algoritme

CART, yaitu adanya noktah keputusan yang selalu bercabang duo atau bercabang biner.

Colon cabang untuk variabel prediktor tabungan adalah sebagai berikut:

1. tabungan = Rendah, dan tabungan = (Sedang, Tinggi),

2. tabungan = Sedang, dan tabungan = (Rendah, Tinggi), dan

3. tabungan = Tinggi, dan tabungan = (Rendah, Sedang).

Colon cabang untuk variabel prediktor aset adalah sebagai berikut:

1. aset = Rendah, dan aset = (Sedang, Tinggi),

2. aset = Sedang , dan aset = (Rendah, Tinggi), dan

3. aset = Tinggi, dan aset = (Rendah, Sedang).

Pada variabel prediktor pendapatan yang sifatnya numerik, calon cabang yang dapat

Page 38: Diktat Datamining

- 37 -

Diktat Matakuliah Datamining

diusulkan adalah sebagai berikut:

1. pendapatan ≤ 25.000 dan pendapatan > 25.000,

2. pendapatan ≤ 50.000 dan pendapatan > 50.000, dan

3. pendapatan ≤ 75.000 dan pendapatan > 75.000.

Mengingat ciri khas algoritme CART yang setiap noktah keputusannya bercabang

biner, maka calon cabang akan diberi nama calon cabang kiri dan calon cabang kanan.

Selengkapnya, keseluruhan calon cabang disajikan dalam Tabel 1.14.

Tabel 5.2. Daftar calon cabang mutakhir masalah nasabah Bank Bhatara Putra (iterasi-1)

Mungkin ada pertanyaan yang mengganggu kita, yaitu mengapa kita perlu membubuhkan kata

calon pada istilah calon cabang?. Penggunaan kata tersebut memang diperlukan karena

kesembilan calon cabang pads Tabel 5.2. tidak seluruhnya menjadi cabang pada noktah

keputusan. Lalu bagaimana kita menentukan

1. calon cabang manakah yang akan benar-benar menjadi cabang noktah keputusan

2. calon cabang manakah yang tidak atau belum akan menjadi cabang noktah keputusan?

Pertanyaan tersebut akan dijawab pada langkah kedua algoritme CART.

B. Langkah Kedua Algoritme CART (Iterasi-1)

Langkah kedua algoritme ini akan menilai kinerja keseluruhan calon cabang yang ada pada

daftar calon cabang mutakhir. Untuk saat ini daftar calon cabang mutakhir tampak

dalam Tabel 5.2. Lalu bagaimana mengukur kinerja masing-masing calon cabang yang

terdaftar pada daftar tersebut?

Kinerja dari setiap calon cabang akan diukur melalui ukuran yang disebut kesesuaian

(goodness). Kesesuaian dari calon cabang s pada noktah keputusan t dilambangkan

Nomor Colon Cabang

Colon Cabang Kiri Colon Cabang Kanan

1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 3 tabungan = Tinggi tabungan = (Rendah, Sedang) 4 aset = Rendah aset = (Sedang, Tinggi) 5 asst = Sedang asst = (Rendah, Tinggi) 6 asst = Tinggi aset = (Rendah, Sedang) 7 Pencloputon ≤ 25.000 penclapotan > 25.000 8 Pencloputon ≤ 50.000 pencloputon > 50.000 9 Pendupotan ≤ 75.000 penclopaton > 75-000

Page 39: Diktat Datamining

- 38 -

Diktat Matakuliah Datamining

dengan Q(s│t) dan didefinisikan sebagai

Q(s│t) = 2 PL PR ∑=

−goriJumlahkate

jRL tjPtjP

1

)()( ………………………………5.1

dalam hal ini

tL = calon cabang kiri dari noktah keputusan t

tR = calon cabang kanan dari noktah keputusan t

Bila didefinsikan besarannya: persamaan 5.1 menjadi

Q(s│t) = 2 PL PR Φ(s│t) ………………………………5.2

Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam

daftar calon cabang mutakhir, yaitu Tabel 5.2, disajikan dalam Tabel 5.3.

Tabel 5.3. Perhitungan nilai kesesuaian untuk calon cabang 1, 2, 3, 4, 5, 6, 7, 8, 9

Nomor Colon

Cobang PL PR

Resiko Kredit P(j│tL) P(j│tR) 2 PL PR Φ(s│t) Q(s│t)

1 3/8= 0,375 5/8= 0,625 Baik 1/3= 0,333 4/5= 0,8 0,46875 0,933 0,4375 Buruk 2/3= 0,667 1/5= 0,2

2 3/8= 0,375 5/8= 0,625 Baik 3/3= 1 2/5= 0,4 0,46875 1,2 0,5625 Buruk 0/3=0 3/5=0,6 3 2/8=0,250 6/8=0,75 Baik 1/2=0,5 4/6=0,667 0,375 0,333 0,125 Buruk 1/2=0,5 2/6=0,333

4 2/8=0,250 6/8=0,75 Baik 0/2=0 5/6=0,833 0,375 1,667 0,625 Buruk 2/2=1 1/6=0,167 5 4/8=0,500 4/8=0,5 Baik 3/4=0,75 2/4=0,5 0,5 0,5 0,25

Buruk 1/4=0,25 2/4=0,5 6 2/8=0,250 6/8=0,75 Baik 2/2=1 3/6=0,5 0,375 1 0,375

Page 40: Diktat Datamining

- 39 -

Diktat Matakuliah Datamining

Buruk 0/2=0 3/6=0,5 7 3/8=0,375 5/8=0,625 Baik 1/3=0,333 4/5=0,8 0,46875 0,933 0,4375

Buruk 2/3=0,667 1/5=0,2 8 5/8=0,625 3/8=0,375 Baik 2/5=0,4 3/3=1 0,46875 1,2 0,5625

Buruk 3/5=0,6 0/3=0 9 7/8=0,875 1/8=0,125 Baik 4/7=0,571 1/1=1 0,21875 0,857 0,1875

Buruk 3/7=0,429 0/1=0 Untuk mendapatkan gambaran mengenai cars untuk mendapatkan Tabel 5.3, berikut

adalah penjelasan mengenai perhitungan nilai kesesuaian, misalnya bagi calon cabang

nomor 4, yaitu calon cabang yang terdiri atas calon cabang kiri, yaitu asset Rendah, dan

calon cabang kanan, yaitu aset = (Sedang, Tinggi).

Ada 2 buah catatan yang memenuhi syarat aset = Rendah, yaitu catatan B dan G (Iihat

Tabel 1.13). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 8 buah,

yaitu catatan A, B, C, D, E, F, G, dan H, sehingga dari Persamaan diatas

didapatkan:

= 2/8 = 0,25 Ada 6 buah catatan yang memenuhi syarat aset = (Sedang, Tinggi), yaitu catatan A, C, D, E, F,

dan H (lihat Tabel 5.2.). Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini

8 buah, yaitu catatan A, B, C, D, E, F, G, dan H, sehingga dari Persamaan di atas didapatkan:

Dari dua buah catatan yang memenuhi syarat calon cabang kiri, yaitu aset = Rendah, adalah

catatan B dan G:

1. tak ada di antaranya yang memenuhi kategori risiko kredit Baik sehingga dari Persamaan di

atas didapatkan:

2. keduanya memenuhi kategori risiko kredit = Buruk sehingga dari Persamaan di atas

didapatkan: :

Page 41: Diktat Datamining

- 40 -

Diktat Matakuliah Datamining

Enam buah catatan yang memenuhi syarat calon cabang kanan, yaitu aset = (Sedang, Tinggi) adalah

catatan A, C, D, E, F, dan H:

1. Lima catatan di antaranya, yaitu catatan A, D, E, F, dan H, memenuhi kategori risiko kredit

= Baik sehingga dari Persamaan di atas didapatkan:

2. Satu catatan di antaranya, yaitu catatan C, memenuhi kategori risiko kredit = Buruk

sehingga dari Persamaan di atas didapatkan:

Selanjutnya didapatkan:

1. nilai dari besaran

2PLPR =2(0,25)(0,75)=0,375

2. nilai dari besaran, lihat Persamaan di atas adalah

Q(s│t) = 2 PL PR ∑=

−goriJumlahkate

jRL tjPtjP

1

)()( =│0 – 0,833│ + │1 – 0,167│ = 1,667

dan akhirnya didapatkan pula = Q(s│t) = 2 PL PR Φ(s│t) = 2(0,25)(0,75)(1,667) = 0,6

Perhitungan nilai kesesuaian terhadap calon cabang nomor 4 dapat diambil analoginya

sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain

Selengkapnya, hasil perhitungan itu tersaji pada Tabel 5.3.

C. Langkah Ketiga. Algoritme CART (Iterasi-1)

Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-benar

dijadikan cabang. Hal ini dilakukan dengan memilih calon cabang yang memiliki nilai

kesesuaian Q(s│t) terbesar. Setelah itu, gambarkanlah percabangan sesuai hasil menjalankan

algoritme. Jika tidak ada lagi noktah keputusan, pelaksanaan algoritme CART akan

dihentikan. Namun, jika masih terdapat noktah keputusan, pelaksanaan algoritme dilanjutkan

dengan kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang

telah berhasil menjadi cabang. Dari Tabel 5.3. tampak bahwa calon cabang nomor 4 adalah

calon cabang dengan nilai besaran kesesuaian terbesar daripada calon cabang yang lain maka

calon cabang inilah yang akan kita pilih sebagai cabang pada tahap ini sehingga kita

memperoleh Gambar 5.2. dari iterasi-1 ini.

Page 42: Diktat Datamining

- 41 -

Diktat Matakuliah Datamining

Dari Gambar 5.2. tampak:

1. Pada noktah dasar kita masih berhadapan dengan seluruh catatan, yaitu catatan A,

B, C, D, E, F, G, dan H.

2. Colon cabang nomor 4 kini telah benar-benar menjadi cabang. Adapun

cabang kir inya , yai tu cabang yang memenuhi syarat aset = Rendah dipenuhi

oleh catatan B dan G, dan karena nilai variabel prediktor bagi kedua catatan ini seluruh

nya adalah risiko kredit = Buruk, maka noktah terminasi akan dihasilkan.

3, Cabang kanannya, yaitu cabang yang memenuhi syarat aset = (Sedang,Tinggi)

dipenuhi oleh catatan A, B, D, E, F, dan H, dan karena nilai variabel prediktor bagi

catatan-catatan ini ada yang memiliki risiko kredit = Buruk, maka dihasilkanlah noktah

keputusan. Karena merupakan noktah keputusan pertama, kita dapat

menyebutnya noktah keputusan A. Noktah ini akan bercabang lebih lanjut

karena bukan termasuk noktah terminasi.

Ini adalah hasil iterasi-1 dalam menjalankan algoritme CART. Dari Gambar 5.2.

tampak jelas bahwa noktah keputusan masih ada sehingga kita harus kembali ke

langkah kedua dan kali ini kita telah mulai memasuki iterasi-2.

D. Langkah Kedua Algoritme CART (Iterasi-2)

Langkah kedua algoritme ini akan menilai kinerja dari keseluruhan calon cabang

yang ada pada daftar calon cabang mutakhir. Untuk saat ini, daftar calon cabang

mutakhir berasal dari daftar sejenis sebelumnya (yaitu, Tabel 5.3) dengan

membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah

sebelumnya, seperti yang terlihat pada Tabel 5.4. Daftar calon cabang mutakhir masalah nasabah

Bank Bhatara Putra (iterasi-2)

Gambar 5.2. Pohon keputusan bagai masalah klasifikasi data nasabah Bank Bhatara putra (iterasi-1)

Page 43: Diktat Datamining

- 42 -

Diktat Matakuliah Datamining

Tampak bahwa Tabel 5.4. sebenarnya berasal dari Tabel 5.2. dengan membuang calon

cabang 4 yang pada langkah ketiga iterasi-1 telah berhasil menjadi cabang.

Hasil perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat

dalam daftar calon cabang mutakhir, yaitu Tabel 5.4, disajikan dalam Tabel 5.5.

Tabel 5.5. Perhitungan nilai kesesuaian untuk calon cabang 1, 2, 3, 5, 6, 7, 8, 9

Nomor Colon

Cobang PL PR Risiko

Kredit P(j│ t

L) P(j│ t R) 2 P LP R Q ( s│ t ) Φ ( s│ t )

1 1/6=0,167 3/6=0,833 Baik 1/1=1 4/5=0,8 0,27778 0,933 0,25926 Buruk 0/I=0 1/5=0,2

2 3/6=0,5 3/6=0,500 Baik 3/3=1 2/3=0,667 0,5 0,667 0,33333 Buruk 0/3=0 1/3=0,333

3 2/6=0,333 4/6=0,667 Baik 1/2=0,5 4/4=1 0,44444 1,000 0,44444 Buruk 1/2=0,5 0/4=0

4

5 4/6=0,667 2/6=0,333 Baik 3/4=0,75 2/2=1 0,44444 GMG 0,22222

Buruk 1/4=0,25 0/2=0 6 2/6=0,333 4/6=0,667 Baik 2/2=1 3/4=0,75 0,44444 0,500 0,22222 Buruk 0/2=0 1/4=0,25

7 2/6=0,333 4/6=0,667 Boik 1/2=0,5 4/4=1 0,44444 1,000 0,44444

Buruk 1/2 =0,5 0/4=0 8 3/6=0,5 3/6=0,5 Baik 2/3=0,667 3/3=1 0,5 0,667 0,33333

Buruk 1/3=0,333 0/3=0 9 5/6=0,833 1/6=0,167 Boik 4/5=0,8 1/1=1 0,27778 0,400 0,11111

Buruk 1/5=0,2 0/1=0

.Nomor Colon Cabang

Colon Cabang Kiri Colon Cabang Kanan

1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 3 tabungan = Tinggi tabungan = (Rendah, Sedang) 5 Asset = Sedang aset = (Rendah, Tinggi) 6 Asset = Tinggi Asset = 9rendah, tinggi0 7 pendapatan ≤ 25.000 pendapatan > 25.000 8 Pendapatan ≤ 50.000 pendapatan > 50.000 9 Pendapatan ≤ 75.000 pendapatan > 75.000

Page 44: Diktat Datamining

- 43 -

Diktat Matakuliah Datamining

Untuk mendapatkan gambaran mengenai caras mendapatkan Tabel 5.5. berikut ini

adalah penjelasan terhadap perhitungan nilai kesesuaian, misalnya saja bagi calon

cabang nomor 3, yaitu calon cabang yang terdiri atas calon cabang kiri (tabungan =

Tinggi) dan calon cabang kanan (tabungan = [Rendah, Sedang]).

Hendaknya kita tidak lupa bahwa noktah yang tengah kita kerjakan percabangan

nya saat ini adalah noktah keputusan A dan noktah ini hanya menyangkut catatan

1, 3, 4, 5, 6, dan 8. Dari catatan-catatan pada noktah keputusan A, terdapat 2 buah catatan

yang memenuhi syarat tabungan = Tinggi yaitu catatan C dan F (lihat Tabel 5.4).

Adapun jumlah catatan pada data latihan yang dipertimbangkan saat ini 6 buah,

yaitu catatan A, C, D, E, F, dan H sehingga dari Persamaan diatas didapatkan:

Selain itu terdapat 4 buah catatan yang memenuhi syarat tabungan = (Rendah,

Sedang) yaitu catatan A, D, E, dan H (lihat Tabel 1.13). Adapun jumlah catatan pada data

latihan yang dipertimbangkan saat ini 6 buah, yaitu catatan A, C, D, E, F, dan H sehingga

dari Persamaan di atas didapatkan:

Dari dua buah catatan yang memenuhi syarat calon cabang kiri, tabung = Tinggi yaitu C dan F 1. Satu catatan di antaranya, yaitu catatan F, memenuhi kategori risiko kredit =

Baik sehingga dari Persamaan di atas didapatkan:

2. Satu catatan lainnya, yaitu catatan C, memenuhi kategori r isiko kredit =

Buruk sehingga dari Persamaan di atas didapatkan:

Page 45: Diktat Datamining

- 44 -

Diktat Matakuliah Datamining

Dari empat buah catatan yang memenuhi syarat calon cabang kanan, tabungan = (Rendah,

Sedang), yaitu catatan A, D, E, dan H:

1. Semuanya memenuhi kategori risiko kredit = Baik sehingga dari Persamaan di atas

didapatkan:

2. Tidak ada catatan yang memenuhi kategori risiko kredit Buruk sehingga dari Persamaan di

atas didapatkan:

Selanjutnya didapatkan:

1. nilai dari besaran

2PLPR = 2(0,333)(0,667) = 0,4444

2. nilai dari besaran

Q(s│t) = ∑=

−goriJumlahkate

jRL tjPtjP

1

)()( =│0,5 – 1│ + │0,5 – 0│ = 1

dan akhirnya didapatkan pula

Q(s│t) = 2 PL PR Φ(s│t) = 2(0,333)(0,667)(I)=0,4444

Perhitungan nilai kesesuaian terhadap calon cabang nomor 3 dapat diambil analoginya

sehingga pembaca dapat memeriksa perhitungan sejenis terhadap calon cabang yang lain.

Selengkapnya hasil perhitungan tersaji pada Tabel 1.17

E. Langkah Ketiga Algoritme CART (Iterasi-2)

Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-

benar dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang

memiliki nilai kesesuaian Φ(s│t) terbesar. Setelah itu gambarkanlah percabangan sesuai

hasil menjalankan algoritme. Jika tidak ada lagi noktah keputusan pelaksanaan

algoritme CART akan dihentikan. Namun, jika masih terdapat noktah keputusan,

pelaksanaan algoritme dilanjutkan dengan kembali ke langkah kedua, dengan terlebih

dahulu membuang calon cabang yang telah berhasil menjadi cabang.

Dari Tabel 5.5 tampak bahwa calon cabang nomor 3 dan 7 adalah calon cabang dengan

nilai besaran kesesuaian terbesar daripada calon cabang yang lain maka salah satu

Page 46: Diktat Datamining

- 45 -

Diktat Matakuliah Datamining

dari calon cabang itulah yang akan kita pilih pada tahap ini sehingga kita memperoleh

Gambar 5.3. dari iterasi-2.

Gambar 5.3. Pohon keputusan bagi masalah klasifikasi data nasabah

Bank Bhatara Putra (iterasi-2)

Dari Gambar 5.3. terlihat bahwa:

1. Pada noktah keputusan A, kita masih berhadapan dengan catatan A, C, D, E, F, H.

2. Colon cabang nomor 3 kini telah benar-benar menjadi cabang. Adapun

cabang ki r inya , ya i tu cabang yang memenuhi syarat tabungan = Tinggi

dipenuhi oleh catatan C dan F. Karena kedua catatan tersebut memiliki nilai variabel

prediktor yang berbeda, maka dihasi lkanlah noktah keputusan. Karena

merupakan noktah keputusan kedua, kita dapat menyebutnya noktah keputusan B, dan

sesuai dengan namanya, noktah ini akan bercabang lagi.

Page 47: Diktat Datamining

- 46 -

Diktat Matakuliah Datamining

3. Cabang kanannya, yaitu cabang yang memenuhi syarat tabungan = (Rendah,

Sedang) dipenuhi oleh catatan A, D, E, dan H, dan karena nilai variabel

prediktor bagi catatancatatan ini semuanya soma, yaitu risiko kredit = Baik, maka

dihasilkanlah noktah terminasi. Sesuai dengan namanya, noktah tersebut tidak akan

bercabang lagi.

Ini adalah hasil iterasi-2 dalam menjalankan algoritme CART. Dari Gambar 1.8.

tampak jelas bahwa noktah keputusan masih ada sehingga kita hares kembah ke

langkah kedua, dan kah ini kita telah memulai memasuki iterasi-3.

F. Langkah Kedua Algoritme CART (Iterasi-3)

Langkah kedua algori tme ini akan meni lai kiner ja dari keseluruhan calon

cabang yang ada pada daftar calon cabang mutakhir. Untuk saat ini, daftar calon

cabang mutakhir berasal dari daftar sejenis sebelumnya (Tabel 5.2.), dengan

membuang calon cabang yang telah berhasil menjadi cabang pada langkah-langkah

sebelumnya.

Tabel 5.6. Daftar calon cabang mutakhir masalah nasabah Bank Bhatara Putra (iterasi-3)

Tampak bahwa Tabel 5.6. sebenarnya berasal dari Tabel 5.4, yang telah membuang calon

cabang 3 yang pada langkah ketiga iterasi-2 telah berhasil menjadi cabang. Selanjutnya, hasil

perhitungan nilai kesesuaian bagi tiap calon cabang yang masih terdapat dalam daftar calon

cabang mutakhir (Tabel 5.6) disajikan dalam Tabel 5.7.

Cabang Nomor Colon

Colon Cabang Kiri Colon Cabang Kanan

1 tabungan = Rendah tabungan = (Sedang, Tinggi) 2 tabungan = Sedang tabungan = (Rendah, Tinggi) 5 aset = Sedang aset = (Rendah, Tinggi) 6 aset = Tinggi aset = (Rendah, Sedang) 7 pendapatan ≤ 25.000 pendapatan > 25.000 8 Pendapatan ≤ 50.000 pendapatan > 50.000

9 Pendapatan ≤ 75.000 pendapatan > 75.000

Page 48: Diktat Datamining

- 47 -

Diktat Matakuliah Datamining

Tabel 5.7. Perhitungan nilai kesesuaian untuk calon cabang I, 2, 5, 6, 7, 8, 9

G. Langkah Ketiga Algoritme CART (Iterasi-3)

Langkah ketiga algoritme ini adalah menentukan calon cabang manakah yang akan benar-benar

dijadikan cabang. Hal ini ditempuh dengan memilih calon cabang yang memiliki nilai

kesesuaian Φ(s│t) terbesar. Setelah itu, gambarkanlah percabangan sesuai hasil menjalankan

algoritme. Jika tidak ada lagi noktah keputusan, pelaksanaan algoritme CART akan dihenti-

kan. Namun jika masih ada noktah keputusan pelaksanaan algoritme dilanjutkan dengan

kembali ke langkah kedua, dengan terlebih dahulu membuang calon cabang yang telah berhasil

menjadi cabang.

Dari Tabel 5.7. tampak bahwa calon cabang nomor 5 don 6 adalah calon cabang dengan nilai

besaran kesesuaian terbesar daripada calon cabang lainnya. Oleh karena itu salah satu dari

calon cabang itulah yang akan kita pilih pada tahap ini sehingga kita memperoleh Gambar 5.4.

(yang identik dengan Gambar 51. ) pads iterasi-3 ini.

Karena Gambar 5.5.(Pohon keputusan bagi masalah klasifikasi data nasabah Bank Bhatara Putra

(Iterasi-3)) sama persis dengan Gambar 5.4. maka tidak perlu digambar lagi.

Nomor Colon

Cabang PL PR Risiko

Kredit p(j│tL) P(j│tR) 2 P LP R Q ( s│t ) (D(s│t)

1 0/2=0 2/2=1 Baik 0 1/2=0,5 0 1,000 0 Buruk 0 1/2=0,5 2 0/2=0 2/2=1 Baik 0 1/2=0,5 0 1,000 0 Buruk 0 1/2=0,5 3 4

5 1/2=0,5 1/2=0,5 Baik 0/1 =0 1 /1=1 0,5 2,000 1 Buruk 1/1=1 0/1=0

6 1/2=0,5 1/2=0,5 Baik 1/1=1 0/1 =0 0,5 2,000 1 Buruk 0 /1=0 1 /1=1

7 2/2=1 0/2 =0 Baik 1/2=0,5 0/2=0 0 1,000 0 Buruk 1/2=0,5 0/2=0

8 2/2= 1 0/2= 0 Baik 1/2= 0,5 0 0 1,000 0 Buruk 1/2= 0,5 0

9 2/2= 1 0/2= 0 Baik 1/2= 0,5 0 0 1,000 0 Buruk 1/2= 0,5 0

Page 49: Diktat Datamining

- 48 -

Diktat Matakuliah Datamining

Dari Gambar 5.4. terlihat bahwa

1. Pada noktah keputusan B, kita masih berhadapan dengan 2 catatan, yaitu catatan C dan F.

2. Calon cabang nomor 5 kini telah benar-benar menjadi cabang. Karena

cabang kir inya, yai tu cabang yang memenuhi syarat (aset = Medium) hanya

diisi oleh sebuah catatan saja (catatan C), noktah terminasi akan dihasilkan

sehingga noktah ini tidak akan bercabang lagi.

3. cabang kanannya, yaitu cabang yang memenuhi syarat tabungan = (Rendah,

Tinggi) dipenuhi oleh catatan F. Karena menjadi satu-satunya catatan pada

cabang ini, noktah terminasi akan dihasilkan. Sesuai dengan namanya, noktah

tersebut tidak akan bercabang lagi.

Karena pada akhir langkah ketiga iterasi-3 ini tidak ada lagi noktah keputusan,

iterasi akan dihentikan dan Gambar 5.5. adalah pengetahuan yang dihasilkan dari

fungsi klasifi-kasi pada data mining.

5.4. Klasifikasi Pengembangan Selanjutnya.

Apakah algoritme CART merupakan satu-satunya algoritme bagi pemecahan

masalah klasifikasi? Ternyata tidak! Para peneliti dan pakar data mining tak

pernah lelah mencoba merancang algoritme baru bagi pemecahan masalah klasifikasi.

Pembaca yang menaruh minat untuk mendalami algoritme klasifikasi lain dapat

mempelajari algoritme berikut (Berry dan Browne, 2006):

1. Algoritme mean vector,

2. Algoritme k-nearest neighbor, bor,

3. Algoritme ID3,

4. Algoritme C4.5, dan

5. Algoritme C5.0.

Pada bab ini telah menguraikan beberapa hal yang terkait dengan masalah klasifikasi, yaitu

1. Istilah-istilah dasar pada masalah klasifikasi,

2. Contoh prototipe masalah klasifikasi dan pengetahuan yang dihasilkannya beserta

interpreta-sinya, dan

3. Detail langkah-langkah yang dijalani oleh salah satu algoritme yang digunakan data

mining dalam menjalankan fungsi mayor pertamanya, yaitu algoritme CART

(Classification and Regression Trees).

Dengan mencoba mendalami salah satu algoritme klasifikasi, yaitu CART penulis yakin

bahwa pembaca akan memiliki dasar yang kuat untuk mempelajari algoritme lain bagi

masalah klasifikasi.

Page 50: Diktat Datamining

- 49 -

Diktat Matakuliah Datamining

VI. FUNGSI MAYOR UNTUK PENGELOMPOKAN Sebagai gambaran Anda akan diberi data tentang 8 nasabah yang pernah

memperoleh kredit dari Bank Bhatara Putra. Selain itu data mereka kali ini

menyankut jumlah rumah dan mobil yang mereka miliki. Data selengkapnya

disajikan dalam Tabel 6.1.

Tabel 6.1. Data jumlah rumah dan mobil yang dimiliki 8 nasabah Bank Bhatara Putra

Nasabah Jumlah Rumah Jumlah Mobil A 1 3 B 3 3 C 4 3 D 5 3 E 1 2 F 4 2 G 1 1 H 2 1

Kita akan mencoba menyimak, merenungkan, dan mempelajari data pada Tabel

1.20. sehingga diharapkan kelak kita dapat mengelompokkan (clustering) kedelapan

nasabah tersebut ke dalam dua a tau leb ih ke lompok nasabah. Pengelompokan

yang diharapkan adalah pengelompokan yang mampu menghasilkan kelompok nasabah yang

memenuhi sifat berikut.

1. Nasabah yang jumlah rumah dan mobilnya hampir sama akan berada pada

kelompok nasabah yang sama,

2. Nasabah yang jumlah rumah dan mobilnya cukup berbeda akan berada pada

kelompok nasabah yang berbeda.

Bab ini akan membahas fungsi mayor kedua data mining, yaitu pengelompokan.

Pembahasannya akan mencakup:

1. Pengenalan beberapa istilah dasar

Bagian ini akan memudahkan kita untuk mengikuti pembahasan tentang masalah

pengelompokan.

2. Prototipe masalah pengelompokan dan pengetahuan yang dihasilkannya

Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam

mendapatkan gambaran mengenai apakah yang sebenarnya menjadi input serta

pengetahuan apakah yang menjadi output dari fungsi mayor pengelompokan.

Selanjutnya interpretasi terhadap pengetahuan yang menjadi produk dari fungsi mayor

pengelompokan akan diberikan.

Page 51: Diktat Datamining

- 50 -

Diktat Matakuliah Datamining

3. Algoritme pengelompokan

Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu algoritme

yang digunakan data mining dalam menjalankan fungsi mayor keduanya yaitu

algoritme k-means.

4. Pengembangan selanjutnya

Bagian ini berisi informasi yang dapat digunakan para pembaca yang tertarik untuk

mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor

pengelompokan.

6.1. Pengenalan Beberapa istilah dasar

Pada masalah pengelompokan, hal-hal yang akan dikelompokkan disebut objek atau

catatan. Dalam Tabel 6.1. objek dapat mengambil bentuk kedelapan nasabah yang akan

dikelompokkan. Setiap objek dibedakan (dari objek lain) berdasarkan atribut yang dimili-

kinya masing-masing. Dalam kasus pengelompokan terhadap objek pada Tabel 6.1. setiap

objek dicirikan oleh atribut yang berupa jumlah rumah dan mobil yang dimiliki.

Kumpulan dari seluruh atribut disebut data input. Pada masalah pengelompokan terhadap

objek pada Tabel 6.1. data input berupa himpunan dari keseluruhan atribut jumlah

rumah dan mobil yang dimiliki objek (berupa nasabah) yang akan dikelompokkan.

Algoritme pengelompokan akan menggunakan data input, sesuai dengan pengertian data

mining untuk menghasilkan pengetahuan. Pengetahuan apakah yang hendak dihasilkan

dalam pengelompokan? Pengetahuan yang berupa penentuan beberapa kelompok catatan yang

memiliki kemiripan atribut.

Jadi secara ringkas pada pengelompokan catatan-catatan yang memiliki kemiripan atribut

akan dikelompokkan ke dalam salah satu dari sekian kelompok. Adapun catatan-catatan

yang kurang memiliki kesamaan atribut akan ditempatkan pada kelompok yang berbeda.

Masalah pengelompokan secara ringkas dapat digambarkan sebagai berikut.

1. Masalah pengelompokan berangkat dari data input yang tersedia misalnya Tabel 6.1

2. Data input diolah dengan. menggunakan algoritme pengelompokan.

3. Masalah pengelompokan berakhir dengan dihasilkannya 2 atau lebih kelompok

objek sehingga objek-objek yang memiliki kemiripan atr ibut akan dimasuk-

kan ke dalam kelompok yang sama dan objek-objek yang kurang memiliki

kemiripan atribut akan dimasukkan dalam kelompok yang berbeda.

Page 52: Diktat Datamining

- 51 -

Diktat Matakuliah Datamining

6.2. Prototipe Masalah Pengelempokan dan Pengetahuan yang Dihasilkannya.

Sebagai contoh kedelapan nasabah pada Tabel 6.1. hendak dikelompokkan ke dalam 3

kelompok. Tabel 6.2. adalah contoh hasil pengelompokan, sebagai jawaban bagi

masalah pengelompokan dengan data input seperti yang tertera pada Tabel 6.2. yang

dalam hal ini atributnya berupa jumlah rumah dan mobil setiap nasabah.

Tabel 6.2. Hasil pengelompokan nasabah ke dalam 3 kelompok

Hasil pengelompokan pada Tabel 6.2. merupakan pengetahuan yang dihasilkan dari

fungsi pengelompokan. Bentuk pengetahuan lain yang didapatkan adalah interpretasi

berikut.

1. Kelompok nasabah pertama adalah kelompok yang unik karena hanya memiliki

seorang anggota saja, yaitu nasabah B yang kelak akan menjadi jelas bagi kita

bahwa kelompok ini merupakan kelompok nasabah yang memiliki jumlah

rumah sedang (3 buah) dan jumlah mobil banyak (3 buah).

2. Kelompok nasabah kedua memiliki 4 orang anggota, yaitu. nasabah A, E, G, dan

H, yang kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan

kelompok nasabah yang memiliki rata-rata jumlah rumah sedikit (1,25 buah)

dan rata-rata jumlah mobil yang sedikit pula (1,75 buah).

3. Kelompok nasabah ketiga memiliki 3 orang anggota, yaitu nasabah C, D, dan. F,

yang kelak akan menjadi jelas bagi kita bahwa kelompok ini merupakan

kelompok nasabah yang memiliki rata-rata jumlah rumah banyak (4,33 buah)

dan rata-rata jumlah mobil yang cukup banyak (2,67 buah).

6.3. Algoritne Pengelompokan k-Means

Pembahasan sebelumnya dapat k i ta r ingkas dalam t iga penjelasan berikut.

1. Pertama kita memiliki data input berupa atribut dari 8 buah catatan nasabah

seperti yang tertera pada Tabel 6.1. dan kita ingin memperoleh pengetahuan mengenai

bagai-mana catatan-catatan itu harus dikelompokkan agar diperoleh kelompok

catatan yang memiliki kemiripan atribut.

2. Kedua, data input itu kelak akan kita jadikan input bagi suatu algoritme,

yang saat ini belum kita ketahui jenis algoritmenya.

Kelompok (Cluster) Anggota Kelompok 1 {B} 2 {A, E, G, H} 3 {C, D, F)

Page 53: Diktat Datamining

- 52 -

Diktat Matakuliah Datamining

3. Ketiga, sebagai keluaran dari algoritme, yang saat ini belum kita ketahui jenisnya,

kita akan memperoleh pengetahuan berupa kelompok catatan yang memiliki

kemiripan atribut.

Bagian ini akan membahas detail dari salah satu algoritme yang dapat menghasilkan

kelompok catatan yang memiliki kemiripan atribut. Algoritme itu disebut algoritme

pengelompokan k-means yang akan menghasilkan kelompok catatan sebanyak k buah.

Algori tme k-means pertama kal i digagas oleh J . MacQueen (Larose, 2005).

Di bagian ini, kita akan menerapkan algoritme k-means pada data dalam Tabel 6.1.

Langkah-langkah pada algoritme k-means adalah sebagai berikut.

1. Langkah pertama: Tanyakan kepada pemakai algoritme k-means, catatan-catatan

yang ada akan dibuat menjadi berapa kelompok, sebutlah sebanyak k kelompok.

2. Langkah kedua: Secara sembarang, pilihlah k buah catatan (dari sekian catatan

yang ada) sebagai pusat-pusat kelompok awal.

3. Langkah ketiga: Untuk setiap catatan, tentukan pusat kelompok terdekatnya

dan tetapkan catatan tersebut sebagai anggota dari kelompok yang terdekat

pusat kelompoknya. Hitung rasio antara besaran Between Cluster Variation dengan

Within Cluster Variation, lalu bandingkan rasio tersebut dengan rasio sebelumnya

(bila sudah ada). Jika rasio tersebut membesar, lanjutkan ke langkah keempat.

Jika tidak, hentikan prosesnya.

4. Langkah keempat: Perbarui pusat-pusat kelompok (berdasarkan kelompok

yang didapat dari langkah ketiga) dan kembalilah ke langkah ketiga.

Berikut adalah contoh penerapan algoritme k-means pada masalah pengelom-

pokan terhadap data dari 8 nasabah pada Tabel 6.1.

A. Langkah Pertama Algoritme k-means

Apa yang menjadi langkah pertama algoritme k-means? Langkah pertama dari

algoritme k-means adalah menanyakan

kepada pemakai algoritme k-means, catatan-catatan yang ada a k a n d i b u a t

m e n j a d i b e r a p a k e l o m p o k . J i k a j u m l a h kelompoknya tiga, nilai k-nya adalah

3 atau k = 3.

B. Langkah Kedua Algoritme k-means

Pada langkah kedua algoritme ini kita akan secara sembarang memilih k = 3

buah catatan (dari 8 catatan yang ada) sebagai pusat-pusat kelompok awal, misalnya

Page 54: Diktat Datamining

- 53 -

Diktat Matakuliah Datamining

1. Catatan B sebagai pusat kelompok 1 sehingga m1 (3,3),

2. Catatan E sebagai pusat kelompok 2 sehingga m2 =(1,2), dan

3. Catatan F sebagai pusat kelompok 3 sehingga m3 = (4,2).

C. Langkah Ketiga Algoritme k-means (Iterasi-1)

Pada langkah ketiga algoritme ini setiap catatan akan ditentukan pusat

kelompok terdekatnya. catatan tersebut akan ditetapkan sebagai anggota

kelompok yang terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.3.

Tabel 6.3. Perhitungan Jarak catatan ke pusat kelompok dan

penetapan keanggotaan catatan (iterasi-1)

Dari Tabel 6.3. didapatkan keanggotaan sebagai berikut:

1. kelompok 1 (atau C1) = {B},

2. kelompok 2 (atau C2) = {A, E, G, H}, dan

3. kelompok 3 (atau C3) = {C, D, F}.

Pada langkah ini dihitung pula rasio antara besaran Between Cluster Variation

(BCV) dengan Within Cluster Variation (WCV), seperti berikut:

1 . BCV = d(m1, ,m2) + d(m1, ,m3 ) + d(m2 ,m3) = 6,650 (dalam hal ini,

d(mi,mj) menyatakan jarak Euclides dari mi ke mj )

2 . W C V = 1 2 + 0 2 + 1 2 + 1 , 4 1 4 2 + 0 2 + 0 2 + 1 2 + 1 , 4 1 4 2 = 7

Sehingga besarnya rasio adalah

950,0=WCVBCV

Mengingat langkah sebelumnya belum mendapatkan rasio ini, maka perbandingan

rasio belum dapat dilakukan dan algoritme dilanjutkan ke langkah keempat.

Catatan Jarak ke pusat kelompok 1

Jarak ke pusatkelompok 2

Jarak ke pusatkelompok 3

Jarak terdekat ke kelompok

A 2 1 3,162 C2 B 0 2,236 1,414 Cl C 1 3,162 1 C3 D 2 4,123 1,414 C3 E 2,236 0 3 C2 F 1,414 3 0 C3 G 2,828 1 3,162 C2 H 2,236 1,414 2,236 C2

Page 55: Diktat Datamining

- 54 -

Diktat Matakuliah Datamining

D. Langkah Keempat Algoritme k-means (Iterasi-1)

Pada langkah ini pembaruan pusat-pusat kelompok akan dilakukan seperti

berikut:

1. m1= rata-rata (mB)= (3, 3)

2. m2 = rata-rata (mA, mE, mG, mH) = (1, 25;1,75)

3. m3 = rata-rata (mC , mD, mF) = (4,333; 2,667)

Selanjutnya, kita akan kembah ke langkah ketiga.

E. Langkah Ketiga Algoritme k-means (Iterasi-2)

Pada langkah ketiga algoritme ini, pusat kelompok terdekat dari setiap catatan

akan ditentukan. Tetapkan catatan tersebut sebagai anggota kelompok yang

terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.4.

Tabel 6.4. Perhitungan jarak catatan ke pusat kelompok

dan penetapan keanggotaan catatan (iterasi-2)

Dari Tabel 6.4. didapatkan keanggotaan sebagai berikut:

1. kelompok 1 (atau C1) = {B},

2. kelompok 2 (atau C2) = {A, E, G, H}, dan

3. kelompok 3 (atau C3) = {C, D, F}.

Pada langkah ini , rasio antara besaran Between Cluster Variation (BCV) dengan

Within Cluster Variation (WCV) akan dihitung seperti berikut:

1 . B C V = d ( m 1 , m 2 ) + d ( m 1 , m 3 ) + d ( m 2 , m 3 ) = 6 , 7 4 1

(dalam hal ini d(mi,mj) menyatakan jarak Euclides dari mi ke m j)

Catatan Jarak ke

pusat kelompok 1

Jarak ke pusat

kelompok 2

Jarak ke pusat

kelompok 3

Jarak terdekat kekelompok

A 2 1,275 3,350 C2 B 0 1,768 1,374 C1 c 1 3,021 0,471 C3 D 2 3,953 0,745 C3 E 2,236 0,354 3,399 C2 F 1,414 2,813 0,745 C3 G 2,828 0,791 3,727 C2 H 2,236 1,061 2,867 C2

Page 56: Diktat Datamining

- 55 -

Diktat Matakuliah Datamining

2. WCV=1,2752 + 02 + 0,47 12 + 0 ,7452 + 0,3542 + 0,7452 + 0 ,7912 + 1,0612 = 4,833

sehingga diperoleh besarnya rasio, yaitu

394,1=WCVBCV

Tampak bahwa nilai rasio ini (1,394) membesar dibandingkan rasio sejenis yang

dida-patkan pada langkah sebelumnya (0,950). Oleh karena itu algoritme dilanjutkan ke

langkah keempat.

F. Langkah Keempat Algoritme k-means (Iterasi-3)

Pada langkah ini pembaruan pusat-pusat kelompok akan dilakukan seperti berikut:

1. m1 = rata - rata(mB) = (3,3)

2. m2 = rata-rata (mA, mE, mG, mH) = (1, 25; 1, 75)

3. m3 = rata-rata (mC, mD, mF) = (4,333; 2,667)

Selanjutnya kita akan kembali ke langkah ketiga.

7. Langkah Ketiga Algoritme k-means (Iterasi-3)

Pada langkah ketiga algoritme ini pusat kelompok terdekat untuk setiap catatan

akan ditentukan. Lalu tetapkan catatan tersebut sebagai anggota kelompok

yang terdekat pusat kelompoknya, seperti yang tampak dalam Tabel 6.5.

Tabel 6.5. Perhitungan jarak catatan ke pusat kelompok

dan penetapan keanggotaan catatan (iterasi-3)

Catatan Jarak ke

pusat kelompok 1

Jarak ke

pusat kelompok 2

Jarak ke

pusat kelompok 3

Jorak

terdekat ke kelompok

A 2 1,275 3,350 C2

B 0 1,768 1,374 C1 C 1 3,021 0,471 C3

D 2 3,953 0,745 C3 E 2,236 0,354 3,399 C2

F 1,414 2,813 0,745 C3 G 2,828 0,791 3,727 C2 H 2,236 1,061 2,867 C2

Page 57: Diktat Datamining

- 56 -

Diktat Matakuliah Datamining

Dari Tabel 6.5. didapatkan keanggotaan sebagai berikut:

1. kelompok 1 (atau C1) = {B},

2. kelompok 2 (atau C2) = {A, E, G, H}, dan

3. kelompok 3 (atau C3) = {C, D, F}.

Pada langkah ini rasio antara besaran Between Cluster Variation (BCV) dengan

Within Cluster Variation (WCV) juga akan dihitung, seperti berikut:

1. BCV = d(m1,m2) + d(m1, m3) + d(m2,m3) = 6,741

(dalam hal ini, d(mi,mj) menyatakan jarak Euclides dari mi ke mj)

2. WCV = 1,275 2 + ()2 + 0,4712 + 0,7452 + 0,3542 + 0,7452 + 0,7912 + 1,0612 = 4,833

sehingga diperoleh besarnya rasio, yaitu

394,1=WCVBCV

Tampak bahwa nilai rasio tersebut (1,394) sudah tidak lagi membesar disbanding

kan dengan rasio sejenis yang didapatkan pada langkah sebelumnya (1,394).

Oleh karena itu algoritme akan dihentikan.

6.4. Pengelompokan Pengembangan Selanjutnya

Apakah algoritme k-means merupakan satu-satunya algoritme bagi pemecahan

masalah pengelompokan? Ternyata tidak! Para peneliti dan pakar data mining tidak

pernah lelah mencoba merancang algoritme baru bagi pemecahan masalah

pengelompokan. Pembaca yang menaruh minat untuk mendalami algoritme pengelompokan

lain dapat mempelajari algoritme berikut (Berry dan Browne, 2006):

1. Algoritme hierarchical clustering,

2. Algoritme partitional clustering,

3. Algoritme single linkage,

4. Algoritme complete linkage,

5. Algoritme average linkage,

6. dan lain-lain.

Jadi pada bab ini telah menguraikan beberapa hal yang terkait dengan masalah

pengelompokan, yaitu ;

Page 58: Diktat Datamining

- 57 -

Diktat Matakuliah Datamining

1. Istilah-istilah dasar pada masalah pengelompokan,

2. Contoh prototipe masalah pengelompokan dan pengetahuan yang

dihasilkannya beserta interpretasinya, dan

3. Detail langkah-langkah yang dijalani oleh salah satu algoritme yang

digunakan data mining dalam menjalankan fungsi mayor keduanya, yaitu

algoritme k-means.

Dengan mencoba mendalami salah satu algoritme pengelompokan, yaitu k-means,

kita yakin, bahwa kita kini telah memiliki dasar yang kuat untuk mempelajari

algoritme lain bagi masalah ini.

Page 59: Diktat Datamining

- 58 -

Diktat Matakuliah Datamining

VII. FUNGSI MAYOR UNTUK ATURAN ASOSIASI Sebagai gambaran kita akan diberi data daftar belanja 14 orang pengunjung yang

pernah berbelanja di Toserba Favorit. Data tersebut meliputi item-item belanja

yang dibeli oleh 14 orang tersebut. Data selengkapnya tampak dalam Tabel 7.1.

Tabel 7.1. Daftar item belanja 14 pengunjung Toserba Favorit

Data pads Tabel 7.1. berasal dari masa lampau sehingga data tersebut menjadi data

historis atau data sejarah. Orang bijak selalu belajar dari pengalaman masa lampau,

artinya belajar dari sejarah. Apakah yang hendak kita pelajari dari data historis Tabel

7.1.? Kita akan mencoba menyimak, merenungkan dan mempelajari data pada tabel

tersebut. Harapannya kelak kita dapat menemukan aturan asosiasi (association rule) yang

mampu mengidentifikasi item-item manakah yang seringkali dibeli secara bersamaan oleh

para pengunjung. Bab ini akan membahas fungsi mayor ketiga dari data mining, yaitu

aturan asosiasi. Pembahasannya akan mencakup:

1. Pengenalan beberapa istilah dasar

Bagian ini akan memudahkan kita mengikuti pembahasan berikutnya tentang masalah

aturan asosiasi.

2. Prototipe masalah aturan asosiasi dan pengetahuan yang dihasilkannya

Bagian ini memberikan contoh atau ilustrasi yang akan memudahkan kita dalam

Pengunjung ke- Item Belania yang Dibeli

1 Broccoli, green peppers, corn

2 Asparagus, squash, corn

3 torn, tomatoes, beans, squash

4 Green peppers, corn, tomatoes, beans

5 Beans, asparagus, broccoli

6 Squash, asparagus, beans, tomatoes

7 7amoloes, corn

8 Broccoli; tomatoes, green peppers

9 Squash, asparagus, beans

10 Beans, corn 11 Green peppers, broccoli, beans, squash 12 Asparagus, beans, squash 13 Squash, irorflosparqvs, beans 14 torn, green peppers, tomatoes, beans, bror(oli

Page 60: Diktat Datamining

- 59 -

Diktat Matakuliah Datamining

mendapat kan gambaran tentang apakah yang sebenarnya menjadi input serta

pengetahuan apakah yang menjadi output fungsi mayor aturan asosiasi. Selanjutnya

interpretasi pada pengetahuan yang menjadi produk fungsi mayor aturan asosiasi akan

diberikan.

3. Algoritme aturan asosiasi

Bagian ini membahas detail langkah-langkah yang dijalani oleh salah satu

algorit-me yang digunakan data mining dalam menjalankan fungsi mayor

ketiganya, yaitu algoritme MBA (Market Basket Analysis).

4. Pengembangan selanjutnya

Bagian ini berisi informasi yang dapat digunakan oleh para pembaca yang tertarik

untuk mempelajari algoritme-algoritme lain yang dapat menjalankan fungsi mayor

aturan asosiasi.

7.1. Pengenalan Beberapa Istilah Dasar

Data historis disebut juga data latihan atau data pengalaman. Mengapa disebut

demikian? Disebut data latihan (training data) karena kita akan berlatih dengan data

tersebut untuk mendapatkan pengetahuan. Dan, disebut data pengalaman karena data

tersebut berasal dari masa lampau.

Algoritme aturan asosiasi akan menggunakan data latihan sesuai dengan pengertian data

mining untuk menghasilkan pengetahuan. Pengetahuan apakah yang hendak

dihasilkan dalam aturan asosiasi? Pengetahuan untuk mengetahui item-item belanja

yang sering dibeli secara bersamaan dalam suatu waktu.

Aturan asosiasi yang berbentuk “if... then ... "atau “jika ... maka ... " merupakan

pengetahuan yang dihasilkan dari fungsi aturan asosiasi. Sebelum kita mempelajari

cara untuk mengha-silkan aturan asosiasi, beberapa istilah yang amat teknis

akan diperkenalkan terlebih dahulu.

Istilah teknis pertama yang harus kita ketahui adalah item, yaitu barang yang dibeli atau

barang yang menjadi objek kegiatan belanja. Jadi, untuk masalah Toserba Favorit,

terdapat tujuh jenis item, yaitu (urut abjad) asparagus, beans, broccoli, corn, green

peppers, squash, dan tomatoes. Himpunan item yang dilambangkan dengan I adalah

himpunan dari semua jenis item yang akan dibahas. Jadi untuk kasus Toserba Favorit

himpunan itemnya dijelaskan dengan persamaan berikut.

Page 61: Diktat Datamining

- 60 -

Diktat Matakuliah Datamining

Persamaan 7.1

I [Asparagus, Beans, Broccoli, Corn, Green peppers, Squash, Tomatoes]

Himpunan item yang dibeli oleh pengunjung ke-i disebut transaksi ke-i yang

dilambangkan dengan Ti sebagai contoh:

Persamaan 7.2

T1 = {Broccoli, green peppers, corn}

T2 = {Asparagus, squash, corn}

dst

T14 = {Corn, green peppers, tomatoes, beans, broccoli}

Himpunan dari seluruh transaksi dilambangkan dengan D sehingga:

Persamaan 7.3

D = {T1T2, …………………, T14}

Aturan asosiasi yang ingin dihasilkan kelak akan berbentuk implikasi berikut:

Persamaan 7.4

"Jika A, maka B" atau " A ⇒ B ”

Dalam hal ini, A disebut anteseden (atau pendahulu) dari implikasi, sedangkan B

disebut konsekuen (atau pengikut) dari implikasi. sebagai catatan aturan asosiasi

yang kelak akan dihasilkan haruslah memenuhi dua sifat. Pertama baik A

maupun B adalah himpunan bagian murni dari I jadi:

Persamaan 7.5

A,B ⊂ I

Kedua, himpunan A dan B adalah dua himpunan yang saling lepas, jadi:

Persamaan 7.6

A ∩ B = Φ

Salah satu ukuran kinerja bagi aturan asosiasi "A ⇒ B" adalah besaran support (atau

dukungan) yang dilambangkan dengan s(A ⇒ B) dan didefinisikan sebagai:

Page 62: Diktat Datamining

- 61 -

Diktat Matakuliah Datamining

Persamaan 7.7

s(A ⇒ B) = P(A ∩ B) = Ukuran kinerja yang lain bagi aturan asosiasi "A ⇒ B " adalah besaran support yang

dilambangkan dengan conf( A ⇒ B) dan didefinisikan sebagai:

Persamaan 7.8

conf(A⇒ B) = P(A│B) =

Suatu itemset adalah suatu himpunan yang beranggotakan sebagian atau seluruh

item yang menjadi anggota I. Beberapa contoh dari itemset adalah (Asparagus) atau

[Asparagus, Beans}, demikian jugs dengan [Asparagus, Beans, Squash). Suatu itemset

yang beranggotakan k buah item disebut k-itemset. Jadi:

1. Himpunan [Asparagus) adalah suatu itemset. Lebih spesifik lagi 1-itemset

karena hanya beranggotakan satu buah item saja.

2. Himpunan {Asparagus, Beans} adalah suatu itemset. Lebih spesifik lagi 2-

itemset karena beranggotakan dua buah item.

3. Himpunan [Asparagus, Beans, Squash] adalah suatu itemset. Lebih spesifik

lagi, 3-itemset karena beranggotakan tiga buah item.

Besaran frekuensi itemset mengukur berapa kali sebuah itemset muncul sebagai

bagian atau keseluruhan transaksi yang menjadi anggota daftar transaksi D. Sebagai

contoh:

1. Frekuensi itemset {Asparagus} adalah 6 karena himpunan ini menjadi bagian

dari enam transaksi pada Tabel 7.1. yaitu T2, T5, T6, T9, T12 , dan T13 .

2. Frekuensi itemset {Asparagus, Beans} adalah 5 karena himpunan

inimen-jadi bagian dari lima transaksi pada Tabel 7.1., yaitu T5, T6, T9,

T12 & T13

3. Frekuensi itemset {Asparagus, Beans, Squash} adalah 4 karena

himpunan ini menjadi bagian dari empat transaksi pada Tabel 7.1. yaitu

T6,T9, T12 & T13-

Page 63: Diktat Datamining

- 62 -

Diktat Matakuliah Datamining

Suatu itemset sering (frequent itemset) adalah suatu itemset yang memiliki frekuensi

itemset minimal sebesar bilangan Φ yang ditetapkan. Sebagai gambaran, bila kita

tetapkan Φ = 4, maka

1. Itemset {Asparagus, Beans, Squash} termasuk itemset sering karena memi-liki frekuensi itemset yang telah melebihi atau minimal sebesar Φ = 4,

2. Itemset {Squash, Tomatoes} tidak termasuk itemset sering karena memiliki frekuensi itemset sebesar 3, artinya masih di bawah nilai Φ yang ditetapkan.

Itemset sering yang memiliki k buah anggota disebut k-itemset sering (frequent k-

itemset), misalnya itemset {Asparagus, Beans, Squash} termasuk 3-itemset sering

karena himpunan ini termasuk itemset sering dan memiliki 3 buah anggota.

Himpunan dari seluruh k-itemset sering dilambangkan dengan Fk. Masalah aturan

asosiasi secara ringkas dapat digambarkan sebagai berikut.

1. Masalah aturan asosiasi berangkat dari data latihan yang tersedia, misalnya

Tabel 7.1. Data latihan diolah dengan menggunakan algoritme aturan

asosiasi.

2. Masalah aturan asosiasi berakhir dengan dihasilkannya sebuah

pengetahuan yang direpresentasikan dalam bentuk sebuah diagram yang

biasa disebut aturan asosiasi.

7.2. Prototipe Masalah Aturan Asosiasi dan Pengetahuan yang Dihasilkannya

Kembali pada data latihan yang tertera pada Tabel 7.1. berikut adalah contoh

aturan asosiasi yang dihasilkan kelak:

"Jika membeli asparagus, maka membeli beans."

Aturan ini dapat diartikan bahwa:

1. Item asparagus mempunyai kecenderungan untuk dibeli bersama-sama dengan

item beans, atau

2. Pengunjung Toserba Favorit yang membeli asparagus, mempunyai kecenderungan

untuk juga membeli beans.

Sebenarnya masih ada banyak aturan asosiasi yang dapat dihasilkan, namun

demikian kiranya

1 dengan pembahasan prototipe masalah aturan asosiasi, kita dapat mengeta-

hui definisi masalah aturan asosiasi, dan

2 . dengan pembahasan in te rpre tas i penge tahuan yang dihasilkan oleh

Page 64: Diktat Datamining

- 63 -

Diktat Matakuliah Datamining

fungsi mayor aturan asosiasi, kita bisa mengetahui cara memaknai

pengetahuan yang dihasilkan dari masalah ini.

7.3. Algoritme Aturan Asosiasi , MBA (Market Basklet Analysis)

Pembahasan sebelumnya dapat kita ringkas dalam tiga penjelasan. berikut.

1. Pertama, kita memiliki data historis berupa daftar item yang dibeli 14

pengunjung Toserba Favorit seperti yang tertera pada Tabel 7.1. dan. kita

ingin memperoleh pengetahuan yang dapat diaplikasikan untuk

menghasilkan aturan asosiasi sehingga dapat mengetahui item-item

belanja yang sering dibeli bersama-sama oleh para pengunjung.

2. Kedua data itu kelak akan kita jadikan input bagi suatu algoritme yang

saat ini belum kita ketahui jenis algoritmenya.

3. Ketiga sebagai keluaran algoritme yang saat ini belum kita ketahui jenisnya

kita akan memperoleh pengetahuan yang secara sederhana dapat direpre-

sentasikan dalam bentuk pernyataan

Bagian ini akan membahas detail dari salah satu algoritme yang dapat menghasilkan

aturan asosiasi yaitu algoritme MarketBasket Analysis (MBA). Algoritme ini masuk

dalam The Top Ten Algorithms in Data Mining (Wu dan Kumar, 2009).

Langkah-langkah pada algoritme MBA dapat dibagi ke dalam tiga langkah besar

yang kemudian dapat diuraikan menjadi langkah-langkah yang lebih terperinci.

Ketiga langkah besar itu adalah sebagai berikut:

1. Langkah besar pertama, menetapkan besaran. Φ ( l ihat pembahasann konsep

itemset sering), nilai minimum besaran support dan besaran confidence yang

diinginkan untuk dipenuhi oleh aturan asosiasi yang ingin dihasilkan

2. Langkah besar kedua menetapkan semua itemset sering yaitu itemset yang

memi- liki frekuensi itemset minimal sebesar bilangan Φ yang telah ditetapkan

sebelumnya,

3. Langkah besar ketiga dari semua itemset sering hasilkan aturan asosiasi yang

memenu hi nilai minimum support dan. confidence (yang jugs telah ditetapkan).

Berikut adalah contoh penerapan algoritme MBA pada masalah aturan asosiasi

terha-dap data belanja 14 orang pengunjung Toserba Favorit pada Tabel 7.1.

Page 65: Diktat Datamining

- 64 -

Diktat Matakuliah Datamining

A. Langkah Besar Pertama Algoritme MBA

Apa yang menjadi langkah besar pertama algoritme MBA? Langkah besar

pertama algoritme MBA adalah menetapkan besarnya besaran Φ dan ni la i

minimum sup-port dan. confidence, misalnya Φ=4, maka min(support)=30%, &

min(confidence)= 70%.

B. Langkah Besar Kedua Algoritme MBA

Pada langkah ini kita akan menyusun semua itemset sering yaitu itemset yang

memili ki frekuensi itemset minimal sebesar bilangan Φ = 4 yang telah ditetapkan

pada langkah besar pertama sebelumnya. Kita akan memulainya dengan membahas

setiap 1-itemset berikut:

{Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers}, {Squash}, dan

{Tomatoes} adalah 1-itemset sering karena itemset ini berhasil muncul melebihi Φ

kali, atau 4 kali, dalam daftar D atau, untuk mudahnya, dalam Tabel 1.25. Dengan

demikian

F1 = {{Asparagus}, {Beans}, {Broccoli}, {Corn}, {Green peppers},

{Squash}, {Tomatoes}}.

Kita lanjutkan dengan membahas setiap 2-itemset berikut:

1. {Asparagus, Beans}, {Asparagus, Broccoli}, {Asparagus, Corn}, {Asparagus,

Green peppers}, {Asparagus, Squash}, {Asparagus, Tomatoes}, {Beans,

Broccoli}, {Beans, Corn}, {Beans, Green peppers}, {Beans, Squash}, {Beans,

Tomatoes}, {Broccoli, Corn}, {Broccoli, Green peppers}, {Broccoli, Squash},

{Broccoli, Tomatoes}, {Corn, Green peppers}, {Corn, Squash}, {Corn, Tomatoes},

{Green peppers, Squash}, {Green peppers, Tomatoes}, dan {Squash, Tomatoes}

2. Pembaca dapat menjadikannya sebagai latihan bahwa penelaahan yang

mendalam terhadap keseluruhan 2-itemset tersebut akan membawa kita pada

suatu kesimpulan bahwa hanya {Asparagus, Beans}, {Asparagus, Squash},

{Beans, Corn}, {Beans, Squash}, {Beans, Tomatoes}, {Broccoli, Green peppers}, dan

{Corn, Tomatoes} yang merupakan 2-itemset sering sehingga F2 =

{{Asparagus, Beans}, {Asparagus, Squash}, {Beans, Corn}, {Beans, Squash},

{Beans, Tomatoes}, {Broccoli, Green peppers}, dan {Corn, Tomatoes}}

Untuk meringankan kita dalam mengkaji F3, F4, F5, dan seterusnya gunakan aturan

berikut:

Page 66: Diktat Datamining

- 65 -

Diktat Matakuliah Datamining

"Jika Z bukan itemset sering, maka Z ∪ A pasti bukan itemset sering, untuk setiap A."

Aturan atau kaidah ini disebut aturan apriori.

Contoh penerapan aturan apriori akan dijelaskan di bagian ini. Dari pembicaraan

sebe- lumnya didapatkan bahwa {Asparagus, Broccoli} bukan 2-itemset sering maka

menurut aturan apriori:

{Asparagus, Broccoli, Corn} merupakan gabungan dari 2itemset {Asparagus,

Broccoli}, yang tidak termasuk ke dalam 2-itemset sering, dengan 1-itemset

sering {Corn}, maka {Asparagus, Broccoli, Corn} tidak akan pernah menjadi

3-itemset sering.

Pembaca dapat menjadikannya sebagai latihan bahwa penerapan a turan apr ior i

terhadap seluruh anggota F2 hanya akan memberikan {Asparagus, Beans,

Squash} sebagai satu-satunya 3-itemset sering sehingga didapatkan:

F3 = {{Asparagus, Beans, Squash}}

Selanjutnya, akan diperoleh:

F4 = F5 = F6 = F7 = Φ

Jadi secara ringkas penerapan langkah besar kedua algoritme MBA akan menghasilkan

himpunan itemset sering F1, F2, dan F3.

C. Langkah Besar Ketiga Algoritme MBA

Pada langkah besar ketiga ini, aturan asosiasi yang memenuhi nilai minimum support

dan confidence (yang juga telah ditetapkan) dari semua itemset sering yang ada akan

dibangun.

Langkah terperinci dari langkah besar ini adalah sebagai berikut:

1. Pertama dari semua itemset sering s yang ada di F2, F3 dan seterusnya, daftarkan semua

himpunan bagian murni yang tak kosong dari s sebutlah ss.

Jadi:

a. untuk s = {Asparagus, Beans}, didapatkan ss ={Asparagus} atau ss ={Beans},

b. untuk s = {Asparagus, Squash}, didapatkan ss = {Asparagus}atau ss= {Squash},

c. untuk s = {Beans, Corn}, didapatkan ss = {Beans} atau ss {Corn},

d. untuk s = {Beans, Squash}, didapatkan ss = {Beans} atau ss = {Squash},

e. untuk s ={Beans, Tomatoes}, didapatkan ss = {Beans} atau ss = {Tomatoes},

f. untuk s = {Broccoli, Green peppers}, didapatkan ss {Broccoli}atau ss= {Green

peppers}

Page 67: Diktat Datamining

- 66 -

Diktat Matakuliah Datamining

g. untuk s = {Corn, Tomatoes}, didapatkan ss = {Corn} atau ss = {Tomatoes},

h. untuk s = {Asparagus, Beans, Squash}, didapatkan ss = {Asparagus}, atau ss =

{Beans}, atau ss = {Squash} atau ss = {Asparagus, Beans}, atau ss =

{Asparagus, Squash}atau ss= {Beans, Squash}.

2. Kedua bentuk aturan asosiasi yang berpola: "Jika ss, maka (s-ss)" atau "s ⇒ (s-ss)"

Untuk mempermudah pilihlah aturan yang hanya berkonsekuen sebuah i tem

saja sehingga (s-ss) hanya beranggotakan sebuah item saja. Jadi untuk

masalah Toserba Favorit didapatkan calon aturan asosiasi pads Tabel 7.2.

Tabel 7.2. Daftar calon aturan asosiasi

Dori Itemset Sering Dihosilkan Aturan Asosiasi Support Confidence (Asparagus, Beans) Jika beli asparagus, maka beli beans 5/14=35,7% 5/6=83,3% Jika beli beans, maka beli asparagus 5/14=35,7% 5/10=50,0% {Asparagus, Squash) Jika beli asparagus, maka beli squash 5/14=35,7% 5/6=83,3% Jika beli squash, maka beli asparagus 5/14=35,7% 5/7=71,4% {Beans,Corn) Jika beli beans, maka beli turn 5/14=35,7% 5/10=50,0% Jika beli corn, maka beli beans 5/14=35,7% 5/8=62,5% {Beans, Squash) Jika beli beans, maka beli squash 6/14=42,9% 6/10=60,0% Jika beli squash, maka beli beans 6/14=42,9% 6/7=85,7% (Beans, Tomatoes) Jika beli beans, maka beli tomatoes 4/14=28,6% 4/10=40,0% Jika beli tomatoes, maka beli beans 4/14=28,6% 4/6=66,7% {Broccoli, Green peppers) Jika bell broccoli; maka beli greeflpepuers 4/14=28,6% 4/5=80,0% Jika bell green peppers, maka beli broccoli 4/14=28,6% 4/5=80,0% (Corn, Tomatoes) Jika beli corn, maka beli tomatoes 4/14=28,6% 4/8=50,0% Jika beli tomatoes, maka beli corn 4/14=28,6% 4/6=66,7% (Asparagus, Beans, Squash)

Jiko beli asparagus dan beans, maka beli squash

4/14=28,6% 4/5=80,0%

Jika beli asparagusdan squash, maka beli beans

4/14=28,6% 4/5=80,0%

Jika beli beonsdan squash, maka beli asparagus

4/14=28,6% 4/6=66,7%

3. Ketiga, pilih aturan asosiasi yang memenuhi nilai minimum (support) dan minimum

(confidence) saja. Adapun aturan asosiasi yang memenuhi batasan min (support) = 30%

dan min (confidence) = 70% tampak pads Tabel 7.3.

Page 68: Diktat Datamining

- 67 -

Diktat Matakuliah Datamining

Tabel 7.3. Daftar aturan asosiasi yang memenuhi syarat min (support) = 30% dan min (confidence) = 70%

Dari itemset sering Dihasilkan aturan asosiasi Support Confidence

{Asparagus, Beans) Jika bell asparagus, maka beli beans 5/14=35,70/o 5/6=83,3% {Asparagus, Squash) Jika beli asparagus, maka beli squash 5/14=35,7% 5/6=83,3% Jika beli squash, maka beli asparagus 5/14=35,70/o 5/7=71,4% {Beans, torn) Jika beli corn, maka beli beans 5/14=35,70/o 5/8=62,5%

{Beans, Squash) Jika beli beans, maka bell squash 6/14=42,9% 6/10=60,0% Jika bell squash, maka bell beans 6/14=42,9% 6/7=85,7%

7.4. Aturan Asosiasi Pengembangan Selanjutnya

Apakah algoritme MBA merupakan satu-satunya algoritme bagi pemecahan masalah aturan

asosiasi? Ternyata tidak! Para peneliti dan pakar data mining tak pernah lelah

mencoba merancang algoritme baru bagi pemecahan masalah aturan asosiasi. Pem-

baca yang menaruh minat untuk mendalami algoritme aturan asosiasi lain dapat

mempelajari algoritme berikut (Berry dan Browne, 2006):

1. algoritme Generalized Association Rules,

2. algoritme Quantitative Association Rule, dan

3. algoritme Asynchronous Parallel Mining.

Pada bab ini menguraikan beberapa hal yang terkait dengan masalah aturan asosiasi,

yaitu

1. istilah-istilah dasar pada masalah aturan asosiasi,

2. contoh prototipe masalah aturan asosiasi dan pengetahuan yang dihasilkannya

beserta interpretasinya, dan

3. detail langkah-langkah yang yang dijalani oleh salah satu algoritme yang

diguna-kan data mining dalam menjalankan fungsi mayor ketiganya, yaitu

algoritme MBA (Market Basket Analysis).

Dengan mencoba mendalami salah satu algoritme aturan asosiasi, yaitu MBA,

penulis yakin bahwa kini pembaca telah memiliki dasar yang kuat untuk mempelajari

algoritme lain bagi masalah ini.