107
Modul dan Jurnal Praktek Data Mining T.A 2004/2005 ========================================= ==

Modul Praktek DMr

Embed Size (px)

Citation preview

Page 1: Modul Praktek DMr

Modul dan Jurnal Praktek Data Mining

T.A 2004/2005

===========================================

:: Created by DM Crews

Page 2: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

Modul 1

Klasifikasi dan Pendahuluan WEKA

Tujuan Praktikum

1. Mahasiswa dapat memahami klasifikasi sebagai sebuah fungsionalitas

dalam data mining.

2. Mahasiswa dapat mengenal WEKA sebagai sebuah perangkat lunak data

mining, terutama untuk menyelesaikan masalah klasifikasi.

3. Mahasiswa dapat mengubah format data sehingga dapat menjadi masukan

pada perangkat lunak WEKA.

Pendahuluan

Data mining adalah sebuah bidang ilmu yang berupaya menemukan pola,

kaidah, aturan, dan informasi berharga yang menarik dan belum diketahui

sebelumnya dari sekumpulan besar data. Kemunculan ilmu ini dilatarbelakangi

oleh munculnya tumpukan data di berbagai bidang kehidupan. Seringkali sebuah

organisasi atau kelompok kerja tertentu banyak melakukan kegiatan pengumpulan

data, administrasi maupun perhitungan-perhitungan yang menghasilkan data

dalam jumlah besar.

Klasifikasi adalah salah satu fungsionalitas penting dalam data mining.

Klasifikasi berusaha membangun model yang merumuskan class-class dari

record-record data pada himpunan pelatihan (training set) untuk menentukan

class dari record data pada himpunan pengujian (test set) serta data baru lain yang

belum diketahui nilainya pada label class.

Berbagai tools komersial maupun non-komersial beredar dan digunakan

untuk berbagai tujuan yang berkaitan dengan data mining. Salah satu diantaranya

yang menarik dan akan dibicarakan dalam modul ini adalah WEKA, yang

Modul Praktek Data Mining 2

Page 3: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

merupakan alat bantu data mining, terutama dalam penerapannya untuk

menyelesaikan masalah klasifikasi.

1.1 Klasifikasi

Klasifikasi dapat digambarkan sebagai berikut. Data input, disebut juga

training set, terdiri atas banyak contoh (record), yang masing-masing memiliki

beberapa atribut. Selanjutnya, tiap contoh diberi sebuah label class khusus.

Tujuannya untuk menganalisa data input dan mengembangkan deskripsi atau

model akurat untuk tiap class menggunakan fitur-fitur pada data. Deskripsi class

ini digunakan untuk mengklasifikasikan data pengujian lainnya dengan label class

tidak diketahui. Deskripsi tersebut juga dapat digunakan untuk memahami tiap

class dalam data. Aplikasi-aplikasi klasifikasi antara lain berupa credit approval,

target marketing, medical diagnosis, treatment effectiveness, store location, dll.

Klasifikasi dapat dilakukan dengan berbagai metode yang menghasilkan

representasi model yang berbeda pula, antara lain:

1. Klasifikasi dengan pohon keputusan, yaitu metode klasifikasi dengan

struktur pohon yang merepresentasikan kriteria pembagian kelas dan

kelas-kelas. Beberapa algoritma yang menggunakan metode ini adalah

algoritma ID3, SLIQ, SPRINT, dan PUBLIC.

2. Klasifikasi dengan memory-based reasoning, yaitu metode klasifikasi yang

digabungkan dengan penalaran berbasis memori.

3. Neural network¸ yaitu metode klasifikasi yang menggunakan model jaringan

syaraf tiruan (JST) yang direpresentasikan dalam bentuk neuron-neuron,

bobot neuron dan struktur JST.

4. Naive Bayes dan Bayesian Belief Networks

5. Klasifikasi berdasarkan kaidah (rule). Metode ini terbagi menjadi dua; yang

pertama mengekstrak kaidah secara langsung dari data (misalnya

algoritma RIPPER), sedangkan yang kedua mengekstrak data dari model

klasifikasi lain (misalnya algoritma C4.5) seperti pohon keputusan, neural

network, dll.

Modul Praktek Data Mining 3

Page 4: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

1.2 Pemodelan Klasifikasi dengan Decission Tree

Ilustrasi dari cara pengklasifikasian pada data mining adalah

a. Terdapat training set yang terdiri atas beberapa atribut dan class

b. Training set tersebut kemudian diinduksikan dengan algoritma yang

ada sehingga terbentuk suatu model sesuai data yang ada

c. Dari model tersebut diaplikasikan ke dalam test set.

Contoh pemodelannya dapat dilihat pada slide kuliah ch.3 (Decision Tree)

1.3 Sejarah WEKA

WEKA adalah sebuah paket tools machine learning praktis. “WEKA”

merupakan singkatan dari Waikato Environment for Knowledge Analysis, yang

dibuat di Universitas Waikato, New Zealand untuk penelitian, pendidikan dan

berbagai aplikasi. WEKA mampu menyelesaikan masalah-masalah data mining di

dunia-nyata, khususnya klasifikasi yang mendasari pendekatan-pendekatan

Modul Praktek Data Mining 4

Page 5: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

machine learning. Perangkat lunak ini ditulis dalam hirarki class Java dengan

metode berorientasi objek dan dapat berjalan hampir di semua platform.

WEKA mudah digunakan dan diterapkan pada beberapa tingkatan yang

berbeda. Tersedia implementasi algoritma-algoritma pembelajaran state-of-the-art

yang dapat diterapkan pada dataset dari command line. WEKA mengandung tools

untuk pre-processing data, klasifikasi, regresi, clustering, aturan asosiasi, dan

visualisasi. User dapat melakukan preprocess pada data, memasukkannya dalam

sebuah skema pembelajaran, dan menganalisa classifier yang dihasilkan dan

performansinya – semua itu tanpa menulis kode program sama sekali. Contoh

penggunaan WEKA adalah dengan menerapkan sebuah metode pembelajaran ke

dataset dan menganalisa hasilnya untuk memperoleh informasi tentang data, atau

menerapkan beberapa metode dan membandingkan performansinya untuk dipilih.

Tools yang dapat digunakan untuk pre-processing dataset membuat user

dapat berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan detail

seperti pembacaan data dari file-file, implementasi algoritma filtering, dan

penyediaan kode untuk evaluasi hasil.

Pengembangan WEKA mengikuti model releases Linux: digit kedua yang

genap menunjukkan release yang stabil dan digit kedua yang ganjil menunjukkan

release ‘pengembangan’ (misalnya 3.0.x adalah release stabil, sedangkan 3.1.x

adalah release yang sedang dikembangkan). Beberapa versi awal dari WEKA:

WEKA 3.0 : “versi buku” yang sesuai dengan deskripsi buku data mining.

WEKA 3.2 : “versi GUI” yang menambahkan GUI dari CLI awal.

WEKA 3.3 : “versi pengembangan” dengan berbagai peningkatan.

Praktek data mining ini menggunakan WEKA versi 3.4.1.

1.4 WEKA GUI Chooser

WEKA GUI Chooser adalah tampilan utama yang akan dilihat user pada

saat pertama kali membuka perangkat lunak WEKA. Tampilan utama tersebut

memberikan 4 pilihan GUI WEKA, yaitu Simple CLI, Experimenter, Explorer,

dan Knowledge Flow.

Modul Praktek Data Mining 5

Page 6: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

1.4.1 GUI Simple CLI merupakan GUI yang memungkinkan user mengetikkan

perintah-perintah melalui command line menurut standar penggunaan

classifiers maupun filters. Misalnya mengeset percobaan dengan file

batch.

Modul Praktek Data Mining 6

Page 7: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

Contoh penggunaan CLI adalah dengan mengetikkan perintah:

java weka.classifiers.j48.J48 –t weather.arff

Perintah ini memanggil JVM (Java Virtual Machine) dan

menginstruksikannya untuk mengeksekusi algoritma J48 dari J48

package.

java  weka.filters.unsupervised.attribute.Remove -V -R 1,4 -i

trainingFile.arff -o myTrainingFile.arff

Filter tersebut akan menghapus semua atribut kecuali yang pertama

dan keempat dari sebuah dataset yang disimpan pada file

trainingFile.arff dan menyimpan hasilnya di myTrainingFile.arff

java  weka.classifiers.trees.J48 -t myTrainingFile.arff -T

myTestFile.arff -U -p 1 > Results.arff

Dari perintah ini, decision tree J48 diterapkan pada file

myTrainingFile.arff. File yang diuji ditunjukkan dengan option -T.

Hasilnya redirected dari layar ke file Results.arff dan options -U

dan -p menentukan bentuk output tertentu.

Beberapa pilihan skema pembelajaran yang dapat diterapkan pada WEKA

antara lain:

Option Fungsi

-t <training file> Menentukan file training

-T <test set> Menentukan file pengujian. Jika tidak ada, dilakukan cross-validation pada data training.

-c <class index> Menentukan

-x <number of folds> Menentukan jumlah folds untuk cross-validation

-s <random number seed> Menentukan jumlah seed untuk cross-validation

-m <cost matrix file> Menentukan file yang mengandung matriks biaya

-v Output tanpa statistik untuk data training

-l <input file> Menentukan file input untuk model

-d <output file> Menentukan file output untuk model

-o Hanya mengeluarkan statistik, tanpa classifier

-I Output statistik information retrieval untuk masalah dengan 2 class

-k Output statistik information-theoretic

-p Hanya mengeluarkan prediksi untuk instances pengujian

-r Hanya mengeluarkan distribusi batas kumulatif

Modul Praktek Data Mining 7

Page 8: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

1.4.2 GUI Explorer adalah GUI WEKA yang paling mudah digunakan dan

menyediakan semua fitur WEKA dalam bentuk tombol dan tampilan

visualisasi yang menarik dan lengkap. Preprocess, klasifikasi, asosiasi,

clustering, pemilihan atribut, dan visualisasi dapat dilakukan dengan

mudah dan menyenangkan di sini. Antarmuka ini akan dijelaskan lebih

lanjut pada Modul 2.

1.4.3 GUI Experimenter memudahkan perbandingan performansi skema-skema

pembelajaran yang berbeda. Experimenter biasanya digunakan untuk

klasifikasi dan regresi. Hasil dari perbandingan performansi dapat

dituliskan dalam file atau basis data. Pilihan evaluasi yang tersedia dalam

WEKA adalah cross-validation, learning curve, hold-out. User juga dapat

melakukan iterasi menurut beberapa setting parameter yang berbeda.

Modul Praktek Data Mining 8

Page 9: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

Tab Setup yang muncul saat user membuka Experimenter memungkinkan

user memilih dan mengkonfigurasi eksperimen yang dilakukan. Setelah

menyimpan definisi eksperimen yang dilakukan, user dapat memulai

eksperimen dari tab Run dan meng-klik tombol Start. Area di bawahnya

akan menunjukkan proses yang sedang dilakukan. Hasilnya disimpan

dalam format CSV dan dapat dibuka dalam bentuk spreadsheet.

Tab ketiga. Analize, dapat digunakan untuk menganalisa hasil ekperimen

yang dikirim ke WEKA. Jumlah baris hasil ditunjukkan pada panel

Source. Hasilnya dapat di-load dalam format .ARFF maupun dari basis

data.

Antarmuka ini memungkinkan user melakukan lebih dari 1 eksperimen

sekaligus, mungkin menerapkan beberapa teknik berbeda pada sebuah

dataset, atau teknik yang sama dengan parameter-parameter yang berbeda.

1.4.4 GUI Knowledge Flow merupakan GUI baru dalam WEKA yang

merupakan antarmuka Java-Beans-based untuk melakukan setting dan

menjalankan percobaan-percobaan machine learning.

Modul Praktek Data Mining 9

Page 10: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

Dalam GUI Experimenter ini, beberapa sumber data, classifier, dll dapat

dihubungkan secara grafis. User juga dapat menggambarkan aliran data

melalui komponen-komponen, misalnya:

“data source” -> “filter” -> “classifier” -> “evaluator”

KnowledgeFlow menyediakan alternatif lain dari Explorer sebagai sebuah

front end grafis untuk algoritma-algoritma inti WEKA. Karena masih

dalam pengembangan, beberapa fungsionalitas dalam Explorer belum

tersedia dalam KnowledgeFlow.

KnowledgeFlow menampilkan ‘aliran data’ dalam WEKA. User dapat

memilih komponen-komponen WEKA dari toolbar, meletakkannya pada

area yang tersedia dan menghubungkannya untuk membentuk ‘aliran

pengetahuan’ pemrosesan dan analisa data.

KnowledgeFlow dapat menangani data secara incremental maupun dalam

batches (Explorer hanya menangani data batch). Tentunya pembelajaran

dari data secara incremental memerlukan sebuah classifier yang dapat

diupdate instance per instance. Dalam WEKA tersedia 5 classifiers yang

Modul Praktek Data Mining 10

Page 11: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

dapat menangani data secara incremental: NaiveBayesUpdateable, IB1,

IBk, LWR (Locally Weighted Regression). Tersedia pula sebuah metadata

classifier – RacedIncrementalLogitBoost – yang dapat digunakan dari

berbagai basis regresi untuk data class diskrit secara incremental.

1.5 Format Data dalam WEKA

Misalnya diketahui sekumpulan data dan ingin dibangun sebuah decision

tree dari data tersebut, maka data tersebut harus disimpan dalam format ‘flat’,

ARFF karena WEKA perlu mengetahui beberapa informasi tentang tiap atribut

yang tidak dapat disimpulkan secara otomatis dari nilai-nilainya.

File ARFF (Attribute-Relation File Format) adalah sebuah file teks ASCII

yang berisi daftar instances dalam sekumpulan atribut. File ARFF dikembangkan

oleh Machine Learning Project di Department of Computer Science of The

University of Waikato untuk digunakan dalam perangkat lunak WEKA.

Pengubahan format data ini dapat dilakukan dengan mudah. Misalkan data

awal dalam format .xls (lihat gambar 2a), buka data tersebut dari Microsoft Excel

dan simpan sebagai .csv. Selanjutnya, buka file tersebut dari Microsoft Word,

notepad, atau editor teks lainnya dan data sudah berubah dalam format comma-

separated. Lalu sesuaikan data tersebut dengan menambahkan informasi awal

(gambar 2b). Hasilnya, data tersebut sudah dapat digunakan sebagai inputan

dalam WEKA.

Pastikan bahwa data dalam format .arff tersebut sudah memenuhi:

Data dipisahkan dengan koma, dengan kelas sebagai atribut terakhir.

Bagian header diawali dengan @RELATION.

Tiap atribut ditandai dengan @ATTRIBUTE. Tipe-tipe data dalam

WEKA: numerik(REAL atau INTEGER), nominal, String, dan Date.

Bagian data diawali dengan @DATA

Modul Praktek Data Mining 11

Page 12: Modul Praktek DMr

Modul 1 – Klasifikasi dan Pendahuluan WEKA

Gambar 2a. Format .csv Gambar 2b. Format .arff

Modul Praktek Data Mining 12

Page 13: Modul Praktek DMr

JURNAL MODUL 1

1. Ubahlah dataset berikut ini ke dalam format .ARFF sehingga dapat

digunakan sebagai inputan pada WEKA. Simpan hasilnya dengan nama

contact_lenses_<4 digit terakhir NIM Anda>.arff dan berikan komentar

per baris!

Index AgeSpectacle-prescrip Astigmatism

Tear-prod-rate

Contact-lenses

1 young myope no reduced None2 young myope no normal Soft3 young myope yes reduced None4 young myope yes normal Hard5 young hypermetrope no reduced None6 young hypermetrope no normal Soft7 young hypermetrope yes reduced None8 young hypermetrope yes normal Hard9 pre-presbyopic myope no reduced None

10 pre-presbyopic myope no normal Soft11 pre-presbyopic myope yes reduced None12 pre-presbyopic myope yes normal Hard13 pre-presbyopic hypermetrope no reduced None14 pre-presbyopic hypermetrope no normal Soft15 pre-presbyopic hypermetrope yes reduced None16 pre-presbyopic hypermetrope yes normal None17 presbyopic myope no reduced None18 presbyopic myope no normal None19 presbyopic myope yes reduced None20 presbyopic myope yes normal Hard21 presbyopic hypermetrope no reduced None22 presbyopic hypermetrope no normal Soft23 presbyopic hypermetrope yes reduced None24 presbyopic hypermetrope yes normal None

2. Dari dataset tersebut,

a. Modelkan dengan menggunakan decision tree

b. Dari pemodelan yang ada, lakukan pengujian tersebut dengan

contoh data baru yang Anda buat.

Page 14: Modul Praktek DMr

Modul 2

Explorer WEKA

Tujuan Praktikum

1. Mahasiswa dapat mengenal dan mengetahui tab-tab yang tersedia dalam

Explorer WEKA.

2. Mahasiswa dapat mengetahui langkah-langkah melakukan preprocess dan

klasifikasi dengan Explorer WEKA.

3. Mahasiswa dapat menerapkan preprocess dan klasifikasi dengan Explorer

WEKA pada dataset tertentu.

Pendahuluan

WEKA Knowlege Explorer adalah sebuah Graphical User Interface (GUI)

yang mudah digunakan dalam WEKA. Tiap paket utama WEKA (Preprocess,

Classify, Cluster, Associate, dan Select Attributes) ditampilkan bersama perangkat

Visualization yang memungkinkan himpunan data Classifiers dan Clusterers

divisualisasikan dalam 2 dimensi.

Selama bekerja dalam Explorer WEKA, user dapat mengetahui informasi

tentang kegiatan yang dilakukan dalam WEKA dengan meng-klik tombol Log di

tepi kanan bawah tiap tab.

Page 15: Modul Praktek DMr

Modul 2 – Explorer WEKA

2.1 Tab Preprocess

Gambar di atas menunjukkan tampilan tab Preprocess setelah load sebuah

dataset (Iris.arff) dengan 150 instances dan 5 atribut, yaitu spallength, spallwidth,

petallength, petallwidth dan class. Pada bagian kanan terdapat selected attribute,

hal ini menunjukkan keterangan yang lebih terhadap attribut yang kita pilih

berdasarkan tipe data yang ada seperti real, boolean( yes, no) ato sesuai dengan

Modul Praktek Data Mining 15

Page 16: Modul Praktek DMr

Modul 2 – Explorer WEKA

kriteria yang dinginkan oleh user. Misal, bila kita pilih attribute spallength, maka

keterangan yang muncul adalah

a. nilai minimum : 4.3

b. nilai maksimum : 7.9

c. Rata – rata (Mean) :5.843

d. Standar deviasinya ( StdDev ) : 0.828

Hal tersebut muncul karena attribute spallength mempunyai tipe data real.

Begitupun bila terdapat atribute rasa ( manis, pahit, asin ), maka 3 tipe rasa itu

akan muncul berapa jumlah yang ada pada datanya.

Visualisasi tiap atribut dapat dilihat dengan meng-klik tombol Visualize.

Visualisasi ini menggunakan diagram batang, yang mengilustrasikan jumlah dari

masing-masing tipe pada atribut yang ada. Seperti pada atribut class terdapat tiga

tipe yaitu iris-sentosa, iris-versicolor dan iris-virgina, di visulisasikan dengan

diagram batang yang mempunyai jumlah nilai yang sama yaitu 50.

Pada tab ini user dapat menentukan filter unsupervised yang akan

diterapkan pada data. Filter berperan dalam mengubah data dengan berbagai cara.

Klik pada filter tertentu yang telah dipilih akan memunculkan sebuah kotak dialog

GenericObjectEditor yang memungkinkan user mengkonfigurasikan pilihan-

pilihan pada filter. Untuk mengetahui informasi lebih lengkap tentang filter yang

dipilih, user dapat meng-klik tombol More.

2.2 Tab Classify

Modul Praktek Data Mining 16

Page 17: Modul Praktek DMr

Modul 2 – Explorer WEKA

Classifiers dalam WEKA adalah model-model prediksi nominal maupun

numerik. Skema pembelajaran yang diimplementasikan antara lain decision trees

dan lists, instance-based classifiers, support vector machines, multi-layers

perceptrons, logistic regression. ‘Meta’ classifiers antara lain: bagging, boosting,

stacking, error-correcting output codes, locally weighted learning. Clusters dapat

divisualisasi dan dibandingkan dengan cluster ‘sesungguhnya’.

Tab ini memungkinkan user mengkonfigurasi dan mengeksekusi tiap

classifier WEKA pada himpunan data tertentu. User dapat memilih classifier

tertentu yang akan digunakan. Tersedia pula pilihan pengujian bagi user di bawah

bagian pemilihan classifiers, yaitu:

Use training set. Classifier dievaluasi pada kemampuannya memprediksi

class dari instances yang diujikan.

Supplied test set. Pengujian kemampuan classifier dilakukan terhadap

himpunan instances terpisah yang di-load dari sebuah file.

Cross-validation. Classifier dievaluasi dengan cross-validation, menurut

jumlah folds yang dimasukkan pada kolom Folds.

Modul Praktek Data Mining 17

Page 18: Modul Praktek DMr

Modul 2 – Explorer WEKA

Percentage split. Evaluasi clasifier dilakukan pada sejumlah persentase

tertentu dari data yang digunakan untuk pengujian.

Setelah classifier, pilihan-pilihan pengujian, dan class telah ditentukan,

proses pembelajaran dapat dimulai dengan klik tombol Start. User dapat

menghentikan proses ini sewaktu-waktu dengan tombol Stop. Saat training

selesai, area output classifier di sebelah kanan menampilkan teks yang

menggambarkan hasil training dan pengujian. Sebuah entry baru juga muncul di

kotak Result list.

Teks yang dihasilkan pada area output classifier berisi informasi tentang

pilihan-pilihan skema, nama relasi, instances, atribut-atribut dan mode pengujian;

model classifier dengan himpunan training lengkap, hasil mode pengujian yang

dipilih, summary, akurasi terperinci menurut class, serta matriks confusion.

Errors klasifikasi dapat divisualisasikan dalam sebuah tool visualisasi data

pop-up. Jika classifier menghasilkan sebuah decision tree, dapat ditampilkan

secara grafis dalam sebuah pop-up tree visualizer.

Modul Praktek Data Mining 18

Page 19: Modul Praktek DMr

Modul 2 – Explorer WEKA

2.3 Tab Cluster

Tab ini serupa dengan classification, dengan sedikit perbedaan menurut

option yang ditentukan user. Misalnya, user dapat dengan mudah mengabaikan

beberapa atribut yang tidak diinginkan.

Dari tab ini user dapat mengkonfigurasi dan mengeksekusi tiap clusterers

WEKA pada himpunan data tertentu untuk menemukan kelompok-kelompok dari

instances yang sama dalam sebuah himpunan data. Skema-skema yang dapat

diimplementasikan antara lain: k-Means, EM, Cobweb, X-means, FarthestFirst.

Clusters dapat divisualisasikan dalam sebuah tool visualisasi data.

Kotak cluster mode digunakan untuk memilih apa yang akan di-cluster

dan bagaimana melakukan evaluasi terhadap hasilnya. Tiga pilih pertama serupa

dengan yang terdapat pada klasifikasi: Use training set, Supplied test set dan

Percentage split – kecuali bahwa sekarang data akan diolah dengan clustering.

Mode keempat, Classes to clusters evaluation, membandingkan seberapa baik

clusters yang terpilih sesuai dengan class yang telah ditentukan sebelumnya.

Modul Praktek Data Mining 19

Page 20: Modul Praktek DMr

Modul 2 – Explorer WEKA

2.4 Tab Associate

WEKA hanya mengimplementasikan sebuah algoritma untuk asosiasi,

yaitu algoritma Apriori, untuk mempelajari aturan-aturan asosiasi. Asosiasi ini

hanya bekerja dengan data diskrit untuk menentukan ketergantungan antara

himpunan atribut. Apriori dapat menghitung seluluh aturan yang memenuhi nilai

minimum support dan confidence.

Dari tab ini user dapat mempelajari himpunan data tertentu untuk

menghasilkan aturan-aturan asosiasi menggunakan associators WEKA. Setelah

parameter-parameter tertentu diset, klik tombol Start. Saat proses selesai

dilakukan, klik kanan pada sebuah entry pada daftar hasil memungkinkan hasilnya

dilihat atau disimpan.

Modul Praktek Data Mining 20

Page 21: Modul Praktek DMr

Modul 2 – Explorer WEKA

2.5 Tab Select Atribute

WEKA juga menyediakan teknik-teknik untuk mengabaikan atribut-atribut

yang tidak relevan dan/atau mengurangi dimensionalitas dari dataset. Setelah

loading sebuah dataset, klik tab ini untuk memilih metode evaluasi (misalnya,

Principal Components Analysis, correlation-based, wrapper, information gain,

chi-squared,) dan metode pencarian (misalnya, greedy, exhaustive, best-first,

forward selection, random, genetic algorithm, atau ranking). Berdasarkan

kombinasi yang dipilih, waktu aktual yang diperlukan untuk pemilihan atribut

dapat bervariasi atau sangat lama, bahkan untuk dataset kecil dengan sedikit

atribut dan sedikit instances. Ingat bahwa tidak semua kombinasi metode

evaluasi/pencarian valid, lihat pesan error di Status bar.

Pemilihan atribut terdiri atas pencarian pada seluruh kombinasi yang

mungkin dari atribut-atribut pada data untuk menentukan subset atribut mana

yang paling baik untuk prediksi. Untuk melakukannya, 2 objek harus diset:

sebuah evaluator atribut dan sebuah metode pencarian. Evaluator menentukan

Modul Praktek Data Mining 21

Page 22: Modul Praktek DMr

Modul 2 – Explorer WEKA

metode yang digunakan untuk menilai tiap subset dari atribut. Metode pencarian

menentukan gaya pencarian yang diterapkan.

Mode pemilihan atribut menyediakan 2 pilihan:

Use full training set. Nilai subset atribut ditentukan dengan himpunan data

training yang lengkap.

Cross-validation. Nilai subset atribut ditentukan dengan sebuah proses

validasi. Fields Folds dan Seed mengeset jumlah folds yang digunakan

dan seed random yang digunakan saat melakukan shuffle pada data.

2.4 Tab Visualize

Tab ini menampilkan matriks plot 2 dimensi untuk himpunan data tertentu.

Ukuran sel-sel individu dan titik-titik yang ditampilkan dapat dipilih dengan slider

di bagian bawah tab. Jumlah sel dalam matriks dapat diubah dengan ‘Select

Attribute’ lalu memilih atribut tertentu untuk ditampilkan. Jika himpunan data

besar, performansi plotting dapat ditingkatkan dengan menampilkan subsample

Modul Praktek Data Mining 22

Page 23: Modul Praktek DMr

Modul 2 – Explorer WEKA

himpunan data tertentu. Klik pada sebuah sel pada matriks menampilkan sebuah

window tab plot yang lebih besar yang menampilkan view dari sel tersebut.

Tab ini juga dapat menampilkan window terpisah dari tab classifier dan

tab cluster yang memungkinkan user memvisualisasikan prediksi yang dibuat

oleh classifiers/ clusterers. Jika class diskrit, titik-titik yang diklasifikasikan

dengan salah ditunjukkan dengan sebuah kotak berwarna sesuai class yang

diprediksi oleh classifier; sedangkan jika class kontinu, ukuran tiap titik yang di-

plot bervariasi dengan proporsi sesuai besarnya error yang dibuat oleh classifier.

Titik-titik data diplot pada area utama pada window. Di bagian atas

terdapat 2 tombol daftar drop-down untuk pemilihan sumbu x dan y yang diplot.

User juga dapat memilih skema warna yang digunakan, berdasarkan atribut yang

dipilih. Di bawahnya, sebuah legend mencatat nilai-nilai apa yang digambarkan

oleh warna-warna tertentu. Jika nilainya diskrit, user dapat memodifikasi warna

yang digunakan masing-masing dengan klik dan membuat sebuah seleksi yang

sesuai pada window yang muncul.

Modul Praktek Data Mining 23

Page 24: Modul Praktek DMr

Modul 2 – Explorer WEKA

JURNAL MODUL 2

1. Gunakan WEKA dan dataset Iris untuk menjawab pertanyaan-pertanyaan

berikut:

a. Berapa banyak atribut dan instances dalam dataset?

b. Lihat visualisasi distribusi nilai-nilai atribut. Apa yang dapat Anda

ceriterakan dari distribusi-distribusi tersebut? Atribut(-atribut) manakah

yang menurut Anda sangat berpengaruh terhadap keanggotaan kelas?

Mengapa?

c. Tuliskan hasil klasifikasi (tanpa filter, dengan J48 sebagai classifier, dan

pengujian dilakukan dengan dataset yang sama) yang diperoleh dalam

bentuk IF ... THEN ... !

2. Lakukan preprocess dan klasifikasi pada dataset contact_lenses.arff yang

Anda buat pada praktikum sebelumnya dengan Explorer WEKA (dengan filter

Normalize dan classifier J48) lalu tuliskan hasilnya dan berikan komentar!

Gunakan dataset berikut ini untuk pengujian.:

Index AgeSpectacle-prescrip Astigmatism

Tear-prod-rate

Contact-lenses

1 young hypermetrope yes reduced none2 presbyopic myope no reduced none3 pre-presbyopic hypermetrope yes normal none4 young myope no normal soft5 presbyopic myope no normal none6 young hypermetrope no normal soft7 pre-presbyopic myope no normal soft8 young hypermetrope yes normal hard9 presbyopic myope no reduced none

10 young myope no reduced none

Modul Praktek Data Mining 24

Page 25: Modul Praktek DMr

Modul 3

Magnum Opus

Tujuan Praktikum

1. Mengenal dan mengetahui perangkat ‘Magnum Opus’ dalam Data Mining

2. Mengetahui dan memahami cara menggunakan perangkat ‘Magnum Opus’

3. Mengimplementasikan Data Mining secara praktis

Pendahuluan

Magnum opus menyediakan kekuatan terkini dalam teknologi pencarian

pola. Dengan fleksibilitas yang tidak terbanding dan mudah digunakan, ia mampu

mencari pola baru dan yang tidak disangka sebelumnya dari sekumpulan data.

Gunakan Magnum Opus untuk membuka kekayaan yang implisit dari data kita.

Magnum Opus menggunakan teknik pencarian pola k-most interesting

yang unik. Magnum Opus menyediakan pola yang paling menarik berdasarkan

ukuran yang kita pilih. Magnum Opus juga merupakan satu-satunya system yang

mendukung deteksi statistik suara dari pola tiruan.

Beberapa fitur penting lainnya :

1. Mudah untuk digunakan dan tidak memberanikan diri pada pengetahuan

tingkat tinggi dari statistik dan Machine Learning

2. Pola di ekspresikan dalam sebuah bentuk yang sederhana untuk dimengerti

3. Meliputi sebuah fasilitas unik yang secara otomatis menyaring pola tiruan

4. Tidak seperti perangkat yang lain, ia tidak bergantung kepada data yang

berserakan untuk proses yang efisien

5. Mencari pola yang berasal baik itu data transaksi dan data nilai atribut

6. Magnum Opus didesain untuk menganalisa substansial databases yang

mengandung jutaan record

7. Memiliki waktu komputasi linear. Sehingga memiliki kinerja yang cepat.

8. Fleksibel. Pilihan beda pencarian mendukung jangkauan yang luas dalam

membedakan tujuan analitis

Page 26: Modul Praktek DMr

Modul 3 – Magnum Opus

3.1 Tentang Magnum Opus

Tampilan depan Magnum Opus

Magnum Opus Menganalisa data untuk mendeteksi pola dari data tersebut.

Sebuah pola Magnum Opus mengidentifikasi sebuah kombinasi dari nilai atribut

atau item yang ada dengan frekuensi tertinggi dan diharapkan jika nilai atau item

tidak bergantung satu sama lainnya. Atribut khusus ‘?’ menandakan tidak ada

nilai nilai dalam atribut tersebut. Beberapa tipe atribut :

1. Categorical : nilai dari atribut digunakan secara langsung tanpa diproses

sebelumnya

2. Attribut : nilai ini meliputi bilangan, tetapi system memperlakukan tiap

bilangan secara sederhana sebagai sebuah identifier

3. Numerik : nilai atribut berupa numerik. Nilai ini harus dibagi lagi.

Atribut nilai ini dibagi kedalam sub-ranges yang dijelaskan

dalam names-file.

Modul Praktek Data Mining 26

Page 27: Modul Praktek DMr

Modul 3 – Magnum Opus

Pola memiliki 2 bagian, sebuah Left Hand Side (LHS) dan sebuah Right

Hand Side (RHS). LHS adalah sebuah kumpulan dari satu atau beberapa nilai

atribut atau item. RHS adalah sebuah atribut atau item tunggal. Sejumlah nilai

terdaftar dari tiap pola :

1. Coverage : sejumlah kasus dalam data yang terliputi atau ter-cover oleh

pola LHS. Misalkan terdapat 1000 kasus dan LHS cover 200 kasus. Nilai

coverage-nya adalah 200 dan coverage proportion-nya 200/1000 = 0.2

2. RHS Coverage : sejumlah kasus dalam data yang terliputi atau ter-cover

oleh pola RHS. Misalkan terdapat 1000 kasus dan RHS cover 100 kasus.

Nilai coverage-nya 200 dan coverage proportionnya 100/1000 = 0.1

3. Support : sejumlah kasus dalam data yang terliputi atau ter-cover oleh pola

LHS dan RHS. Misalkan terdapat 1000 kasus dan LHS dan RHS

tergabung meng-cover 200 kasus. Nilai Support Count-nya adalah 200

dan support proportion-nya adalah 200/1000 = 0.2

4. Strength : proporsi dari contoh yang ter-cover oleh LHS yang ter-cover

juga oleh RHS. Atau sama saja sebagai probabilitas kasus yang memenuhi

RHS jika telah memenuhi LHS. Misalkan LHS meng-cover 200 kasus dan

RHS meng-cover 50 dari kasus yang ter-cover oleh LHS. Nilai Strength-

nya adalah 50/200 = 0.25

5. Lift : nilai Strength dibagi RHS coverage proportion. Misalkan ada 1000

contoh, LHS meng-cover 200 contoh, RHS meng-cover 100 contoh, dan

RHS meng-cover 50 dari contoh yang ter-cover LHS. Strength = 50/200 =

0.25. RHS cover proportion = 100/1000 = 0.1. Lift = 0.25/0.1 = 2.5

6. Leverage : sejumlah kasus tambahan yang ter-cover baik itu oleh LHS dan

RHS dan dipenuhi jika LHS dan RHS tidak bergantung satu sama lainnya.

Misalkan terdapat 1000 kasus, LHS meng-cover 200 kasus, RHS meng-

cover 100 kasus, RHS meng-cover 50 dari kasus yang ter-cover oleh LHS.

Proporsi dari contoh yang ter-cover baik itu oleh LHS dan RHS adalah

50/1000 = 0.05. Jumlah contoh yang diharapkan ter-cover oleh LHS dan

RHS jika mereka tidak saling bergantung satu sama lain = 200*100/1000

Modul Praktek Data Mining 27

Page 28: Modul Praktek DMr

Modul 3 – Magnum Opus

= 20. Leverage count = 50-20 = 30. Leverage Proportion = 30/1000 =

0.03.

3.2 Data Transaksi dan Data Attribute -Value

Magnum Opus digunakan dalam 2 tipe data berbeda, yaitu : Data

Transaksi dan Data Attribute-Value. Data transaksi mengandung kumpulan dari

item. Seperti data market basket, dimana tiap transaksi adalah kumpulan item

yang dibeli oleh pelanggan dalam sebuah transaksi.

Data Attribute-value adalah sekumpulan kasus, tiap kasus dijelaskan oleh

sebuah nilai atribut. Tiap kasus memiliki nilai tunggal untuk tiap atribut. Atribut

dapat berupa nilai categorical atau numeric.

Data Transaksi dapat di import dari 2 tipe file yaitu :

1. identifier-item files : adalah sebuah file text yang mencatat transaksi untuk

di analisa kedalam format identifier-item. Tiap transaksi memiliki sebuah

identifier unik. Tiap baris mengasosiasikan sebuah identifier transaksi

dengan sebuah item dalam transaksi tersebut. Tiap baris setidaknya

memiliki 2 kolom, 1 untuk identifier dan satu lagi untuk item. Contoh :

001,apples

001,oranges

001,bananas

002,apples

002,carrots

002,lettuce

002,tomatoes

dimana transaksi 001 meliputi apples, oranges, dan bananas, dan transaksi

002 meliputi apples, carrots, lettuce, tomatoes

2. item-list files : sebuah file teks yang mencatat transaksi untuk dianalisa,

dimana tiap baris mengandung daftar item dalam sebuah transaksi.

apples,oranges,bananas

apples,carrots,lettuce,tomatoes

Transaksi pertama : apples,oranges,bananas , transaksi kedua :

apples,carrots,lettuce,tomatoes

Modul Praktek Data Mining 28

Page 29: Modul Praktek DMr

Modul 3 – Magnum Opus

Tiap kumpulan data Attribute-value harus dijelaskan oleh 2 file, yaitu :

1. names file : sebuah file teks yang mencatat atribut yang dijelaskan di kasus

dalam data file untuk di analisa.

Tiap atribut dijelaskan dalam beberapa baris. Tiap baris dimulai dengan

nama atribut. Untuk atribut categorical, nama atribut diikuti dengan (:) dan

tiap nilai di pisahkan dengan (,)/koma.

Contoh : Department: bakery, dairy, beverages

Untuk atribut numeric dengan beberapa sub-ranges, nama atribut diikuti

dengan bagian dari tiap sub-range.

Contoh : spend < 10 <= 100, hal ini menandakan atribut memiliki 3 sub-

range

Spend < 10

10 <= Spend <= 100

Spend > 100

2. Data File : sebuah file teks yang mencatat kasus untuk dianalisa dalam

analisa data attribute-value. Kasus di catat per baris. Untuk tiap kasus,

nilainya harus disiapkan untuk tiap atribut. Nilai atribut untuk sebuah

kasus harus dicatat dalam urutan yang ada di dalam names file.

Nilai atribut khusus ‘?’ menandakan tidak ada nilai yang tersedia untuk

atribut tersebut. Missing value juga bisa diindikasikan dengan empty field.

Contoh : ?,2,?,?

3.3 Menggunakan Magnum Opus dengan data transaksi :

pengenalan penggunaan

Bagian ini memperkenalkan proses menganalisis contoh data transaksi

terdistribusi menggunakan Magnum Opus. Data sederhana berikut menampilkan

tipe data yang biasa terjadi pada transaksi pelanggan di supermarket. Karena

Magnum Opus mendukung 2 alternatif format file data transaksi, data yang sama

telah disediakan untuk tiap format.  File tutorial.idi menjelaskan transaksi dalam

format identifier-item file. File tutorial.itl menjelaskan data dalam format item list

file. Untuk membedakan kedua format, maka untuk format identifier-item anda

Modul Praktek Data Mining 29

Page 30: Modul Praktek DMr

Modul 3 – Magnum Opus

harus memilih kolom yang mengandung identifier dan item, tutorial ini

menggunakan format identifier-item Hasil yang identik dapat diraih juga

menggunakan item list file.

identifier-item file, tutorial.idi, meliputi 2583 baris, dimulai sebagai berikut :

ID001, bananas

ID002, plums

ID002, lettuce

ID002, tomatoes

ID003, celery

ID003, confectionery

ID004, confectionery

ID005, apples

ID005, carrots

ID005, tomatoes

ID005, potatoes

11 Baris pertama menjelaskan 5 transaksi, tiap transaksi dibagi dengan

beberapa identifier. Seluruhnya terdapat 1000 transaksi yang dijelaskan di dalam

file. Pada Transaksi pertama, ID001, hanya satu item yang dibeli, bananas. Pada

transaksi kedua, ID002, terdapat 3 item yang dibeli, plums, lettuce, and tomatoes.

3.3.1 Run Magnum Opus

Dapat dilakukan dengan men-double click icon Magnum Opus atau

memilih Magnum Opus dari Start menu.

3.3.2 Import the data

Untuk mengimport data secara biasa dapat dilakukan dengan meng-click

tombol import data toolbar.   atau dengan mengklik icon berikut. ,

pilih file tutorial.idi dan klik Open. Import Data Wizard next meminta

identifikasi dari format data yang diimport

Modul Praktek Data Mining 30

Page 31: Modul Praktek DMr

Modul 3 – Magnum Opus

Magnum Opus mengenali ekstensi file untuk identifier-item files dan

memilih format tersebut.  Setelah Magnum Opus memilih format yang

benar, click the Next > button untuk memprosesnya.  Kemudian Anda

akan diminta mengidentifikasi apakah file diurutkan berdasarkan

identifier.

Import data Identifier-item secara substansial cepat jika Magnum Opus

dapat mengasumsikan bahwa data tersebut dikelompokkan jadi seluruh

record untuk tiap identifier disimpan secara sekuensial. Data tutorial

dikelompokkan pada bagian ini, jadi pilih Yes dan click tombol Next >

untuk melanjutkan. Sekarang anda diminta mengidentifikasi pembatas

yang membagi field dalam file data.

Modul Praktek Data Mining 31

Page 32: Modul Praktek DMr

Modul 3 – Magnum Opus

Field dalam data tutorial menggunakan pembatas standar, koma, yang

telah terpilih, jadi click Next > untuk memproses.  Sekarang anda diminta

untuk memilih kolom yang mengandung identifiers dan items.

Pada contoh berikut, inisialisasi pemilihan tidak perlu diubah, jadi click

Next > untuk memproses. Sekarang anda diminta untuk memmilih

proporsi dari kasus untuk di-import. Jika anda berharap untuk merandam

contoh transaksi dari file data, pilih persentasi dari transaksi untuk

dijadikan sample.

Modul Praktek Data Mining 32

Page 33: Modul Praktek DMr

Modul 3 – Magnum Opus

Dalam tutorial ini kita menggunakan 50% sampel, jadi 50 tipe dalam edit

box.  Tampilan Data Import Wizard sebagai berikut :.

Sekarang click Next > untuk memproses ke tampilan terakhir.

Tampilan berikut memberikan anda untuk memilih sebuah holdout

treatment.   Holdout evaluation menggunakan sebuah tes statistik untuk

Modul Praktek Data Mining 33

Page 34: Modul Praktek DMr

Modul 3 – Magnum Opus

semua pola yang ditemukan untuk menentukan apakah secara statistik

mereka signifikan. Hal ini meminta penggunaan urutan yang kedua yaitu

holdout data. Satu pilihan untuk mendapatkan data holdout menggunakan

out-of-sample data. Berikut tampilannya :

Selesai, lalu click Import Data untuk import data dengan pilihan sesuai

yang kita set. Kemudian Magnum Opus akan menampilkan tampilan

berikut :

Modul Praktek Data Mining 34

Page 35: Modul Praktek DMr

Modul 3 – Magnum Opus

Modul Praktek Data Mining 35

Page 36: Modul Praktek DMr

Modul 3 – Magnum Opus

3.3.3  Memilih opsi untuk pencarian berdasarkan leverage

Untuk pencarian pertama kita akan menggunakan mode pencarian secara

default. Untuk kemudahan demonstrasi kita akan membatasi untuk

mencari hanya 10 pola saja. Karena pencarian berdasarkan mode leverage,

maka akan ditampilkan 10 pola dengan nilai tertinggi saja.

Untuk membatasi pencarian dengan 10 pola saja, rubah nilai dalam edit

box Maximum no. of rules menjadi 10. Tampilannya sebagai berikut :

3.3.4 Menjalankan Pencarian berdasarkan leverage

Setelah mengeset untuk pencarian, click tombol GO untuk memulai

pencarian.   Magnum Opus membuka sebuah dialog yang

memungkinkan Anda memilih sebuah file output. Nama tidak terlalu

Modul Praktek Data Mining 36

Page 37: Modul Praktek DMr

Modul 3 – Magnum Opus

dipentingkan dalam tutorial ini, anda dapat menerimanya secara sederhana

default dengan meng-klik SAVE. 

Selama eksekusi pencarian progress akan ditampilkan dalam Status bar

pada bottom-left-hand di jendela Magnum Opus.

3.3.5 Menampilkan output

Setelah pencarian selesai, aplikasi tampilan akan menampilkan

output. Daftar file output:

nama file data,

jumlah kasus yang di-load dari file data,

jumlah nilai atribut dalam data,

waktu pencarian, dan

setting yang digunakan untuk pencarian.  

3.3.6 Membedah pola

Pola pertama dari contoh file output berikut

lettuce

is associated with tomatoes

with strength = 0.477

coverage = 0.222: 111 cases satisfy the LHS

support = 0.106: 53 cases satisfy both the LHS and the RHS

lift = 1.96: the strength is 1.96 times greater than if

there were no association

leverage = 0.0518: the support is 0.0518 (25 cases) greater

than if there were no association

LHS dari pola ini ditampilkan pada baris pertama. RHS ditampilkan pada

akhir dari baris kedua. Pola ini menandakan bahwa lettuces berasosiasi

dengan tomatoes lebih tinggi frekuensinya dibandingkan dengan dari

keseluruhan rata-rata transaksi. Oleh karena itu, Frekuensi asosiasi antara

transaksi yang mengandung LHR maupun RHS lebih besar dibandingkan

yang secara normal

 

Modul Praktek Data Mining 37

Page 38: Modul Praktek DMr

Modul 3 – Magnum Opus

3.3.7 Menjalankan Pencarian berdasarkan Lift

Jurnal Modul 3 Magnum Opus : Data Transaksi

1. Misalkan pada sebuah data transaksi belanja (menggunakan data

tutorial.idi) seorang manager melihat bahwa terdapat asosiasi antar data,

misal : a-> b , kemudian rata-rata data yang tercover oleh asosiasi data

tersebut, misal a->b, untuk a : 1000 kasus, sedangkan untuk b : 300 kasus,

kemudian data tersebut tercover secara irisan antara, a,b : 200 kasus. Data

yang tercover oleh a dari data yang tercover b(200 kasus) : 100 kasus.

hitung nilai : coverage, RHS coverage, support, Strength, lift,leverage

2. Praktekan menggunakan tools : data Transaksi Magnum Opus!

3. Tulis 3 Rules yang ada, analisa!

Modul Praktek Data Mining 38

Page 39: Modul Praktek DMr

Modul 3 – Magnum Opus

Modul Praktek Data Mining 39

Page 40: Modul Praktek DMr

Modul 4

Menggunakan Magnum Opus Dengan Attribute-Value

Data: Pengenalan Penggunaan

Tujuan praktikum

1. Mahasiswa mengetahui lebih dalam magnum Opus

2. Mahasiswa dapat menggunakan Magnum Opus dengan attribute value

data.

Sama seperti pada penggunaan data transaksi. Namun attribute-value data

meliputi 2 file: Pertama names file. Yang kedua data file. Names file menjelaskan

attributes yang disimpan pada data file. Pada sesi ini kita menggunakan contoh

file : tutorial.nam and tutorial.data. names file, tutorial.nam, mengandung hal-

hal berikut:

Profitability99: numeric 3

Profitability98: numeric 3

Spend99: numeric 3

Spend98: numeric 3

NoVisits99: numeric 3

NoVisits98: numeric 3

Dairy: numeric 3

Deli: numeric 3

Bakery: numeric 3

Grocery: numeric 3

SocioEconomicGroup: categorical

Promotion1: t, f

Promotion2: t, f

Page 41: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

4.1 Run Magnum Opus

Sama seperti data transaksi

4.2 Import the data

Magnum Opus kini meminta pilihan file data yang akan dipakai.

Ikuti langkah-langkah pada gambar

Modul Praktek Data Mining 41

Page 42: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

Kita menggunakan percentage 50

Ikuti langkah-langkah pada gambar

Modul Praktek Data Mining 42

Page 43: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

Modul Praktek Data Mining 43

Page 44: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

Ikuti langkah-langkah pada gambar. Akan dijelaskan selengkapnya pada

saat praktikum.

Modul Praktek Data Mining 44

Page 45: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

4.3 Menjalankan Pencarian berdasarkan leverage

Selengkapnya pada saat praktikum

4.4 Melihat output

Daftar file yang tampil :

the name of the names file,

the name of the data file,

the number of cases loaded from the data file,

the number of attribute values in the data,

the time at which the search commenced, and

the settings used for the search.

4.5 Menjalankan pencarian berdasarkan lift

Selengkapnya pada saat praktikum.

Modul Praktek Data Mining 45

Page 46: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

4.6 Menjalankan pencarian berdasarkan lift tanpa penyaringan

Modul Praktek Data Mining 46

Page 47: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

4.7 Batasan

Magnum Opus memiliki beberapa batasan sebagai berikut

Names dibatasi maksimum 256 karakter. Nama yang panjang diharapkan,

namun 2 nama berbeda melebihi 256 karakter dianggap sama. Batasan ini

digunakan untuk nama atribut, attribute-values, identifiers dan items.

Jumlah kasus dibatasi maksimum 2,147,483,647.

Untuk data attribute-value, jumlah atribut dan attribute-value keduanya

dibatasi maksimum 2,147,483,647.

Untuk data transaksi, jumlah item dibatasi maksimum 2,147,483,647.

Untuk data identifier-data, jumlah identifier transaksi dibatasi maksimum

2,147,483,647.

Modul Praktek Data Mining 47

Page 48: Modul Praktek DMr

Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan

Jurnal Modul 4 Magnum Opus : Attribute-value

1. Praktekan contoh diatas menggunakan tools : attribute value Magnum

Opus!

2. Tulis 3 Rules yang ada, analisa!

Modul Praktek Data Mining 48

Page 49: Modul Praktek DMr

Modul 5

See5

Tujuan Praktikum :

1 Mengenal dan mengetahui See5 sebagai tool data mining

2 Memahami cara menggunakan See5

3 Mengimplementasikan Data Mining secara praktis

5.1 Pendahuluan

See5 adalah tool data mining yang cukup kompleks dan digunakan untuk

menemukan pola-pola yang menggambarkan kategori, mengumpulkan kategori-

kategori itu ke dalam classifier, dan menggunakan kategori-kategori itu untuk

membuat prediksi. Keunggulan See5 adalah penekanan rule-based classifiers

yang menyebabkan See5 lebih mudah dimengerti – setiap rule dapat diujicobakan

dan divalidasi secara terpisah, tanpa harus mengetahui pengertian menyeluruh dari

classifier-.

Keunggulan yang lain dari See5 adalah kecepatannya dalam menganalisa data -

waktu terlama yang pernah dicatat adalah 14 detik bila dioperasikan pada

komputer yang cepat untuk menganalisa 100.000 kasus dan 40 atribut - Selain

itu, See5 juga bisa menggenerate decision trees pada kondisi dimana classifiers

harus dibangun dalam waktu yang singkat

File-file yang diperlukan dalam menganalisa data menggunakan See5 adalah

sbb :

.names file ini berisi deskripsi dari atribut aplikasi [required]

.data kasus-kasus yang digunakan untuk

menggenerate classifier[required]

.test Kasus yang digunakan untuk menguji [optional]

Page 50: Modul Praktek DMr

Modul 5 – See5

classifier

.cases Kasus yang akan diklasifikasikan secara

berurutan[optional]

.costs Differential misclassification costs [optional]

.tree decision tree classifier yang dihasilkan oleh

See5 [output]

.rules ruleset classifier yang dihasilkan oleh See5 [output]

.out laporan yang dihasilkan ketika classifier

degenerate[output]

.set setting yang digunakan untuk classifier yang

terakhir[output]

5.1.1 Names file

File yang berekstensi names (seperti pemilu.names) adalah file yang

menggambarkan atribut dan class. Ada dua subgroup yang penting dari atribut,

yaitu :

Nilai dari atribut yang terdefinisi secara explisit (explicitly-defined

attribute) yang diberikan secara langsung ke data. Atribut discrete

memiliki nilai yang diambil dari kumpulan nilai nominal, atribut

continuous memiliki nilai numeric, atribut date bertipe tanggal kalender,

atribut time bertipe waktu jam, atribut timestamp bertipe waktu dan

tanggal, dan atribut label hanya dipakai untuk kasus-kasus tertentu.

Nilai dari atribut yang terdefinisi secara implisit (implicitly-defined

attribute) yang dispesifikasikan oleh sebuah formula (rumus).

(Kebanyakan atribut yang digunakan adalah atribut yang terdefinisi secara

explisit, jadi mungkin kita tidak pernah menggunakan atribut yang

terdefinisi secara implisit.)

Contoh isi dari file pemilu.names sebagai berikut :

Modul Praktek Data Mining 50

Page 51: Modul Praktek DMr

Modul 5 – See5

K,L,M,N. | nilai dari atribut target

Jenis : kota, kabupaten.

Kepadatan_Penduduk : continuous.

Total_APBD : continuous.

Pulau : sumatera, jawa, bali & NTT, kalimantan, sulawesi.

Kegiatan_Ekonomi : A,B,C,D,E.

5.1.2 Atribut yang terdefinisi secara explisit

Nama dari setiap atribut yang terdefinisi secara explisit diikuti oleh titik dua `:'

dan nilai dari atribut itu sendiri. Ada enam kemungkinan :

continuous

Atribut yang memiliki nilai numerik.

date

Nilai dari atribut tanggal berada dalam bentuk YYYY/MM/DD atau

YYYY-MM-DD, seperti 1999/09/30 atau 1999-09-30.

time

Nilai dari atribut waktu berada dalam bentuk HH:MM:SS dengan nilai di

antara 00:00:00 dan 23:59:59.

timestamp

Nilai dari atribut ini berada dalam bentuk YYYY/MM/DD HH:MM:SS

atau YYYY-MM-DD HH:MM:SS, seperti 1999-09-30 15:04:00.

(Perhatikan bahwa ada spasi yang memisahkan di antara tanggal dan

waktu.)

daftar nilai atribut bertipe discrete yang dipisahkan oleh koma

Bila tipe dari nilai atribut adalah bukan bilangan, maka ia bisa diurutkan.

Seperti :

nilai : [diurutkan] rendah, sedang, tinggi

Bentuk dari nilai atribut ini bisa menjadi atribut target. Sedangkan untuk

tipe dari nilai atribut yang merupakan bilangan, ia tidak bisa digunakan

sebagai atribut target.

Modul Praktek Data Mining 51

Page 52: Modul Praktek DMr

Modul 5 – See5

label

Atribut ini terdiri dari label yang mengidentifikasikan setiap kasus seperti

nomor rekening.

5.1.3 Dates, times, and timestamps

Dates disimpan oleh See5 sebagai jumlah hari sejak tanggal mulai tertentu

sehingga beberapa operasi pada atribut dates menjadi masuk akal. Dengan begitu,

jika kita memiliki atribut

d1: date.

d2: date.

Kita bisa mendefinisikan

interval := d2 - d1.

gap := d1 <= d2 - 7.

d1-day-of-week := (d1 + 1) % 7 + 1.

interval kemudian merepresentasikan jumlah hari dari d1 sampai d2. Gap

menghasilkan nilai true atau false yang mengisyaratkan bahwa d1 itu minimal

seminggu jaraknya dari d2. Mirip dengan dates, times juga disimpan sebagai

jumlah dari detik sejak tengah malam. Sebagai contoh, jika file .names terdiri dari

start: time.

finish: time.

elapsed := finish - start.

Maka nilai dari elapsed adalah jumlah detik dari start sampai finish.

Timestamps sedikit lebih kompleks. Timestamp dibulatkan menuju menit

terdekat, sebagai contoh, jika

departure: timestamp.

arrival: timestamp.

flight time := arrival - departure.

maka nilai dari flight time adalah jumlah menit dari departure menuju

arrival.

5.1.4 Memilih atribut yang bisa muncul pada classifier

Modul Praktek Data Mining 52

Page 53: Modul Praktek DMr

Modul 5 – See5

Cara pendeklarasian yang lain di file .names mempengaruhi cara See5

membangun classifiernya. Contoh pendeklarasiannya sbb :

attributes included:

attributes excluded:

masing-masing entry lalu diikuti dengan daftar nama atribut yang dipisahkan

dengan koma. Bentuk pertama membatasi atribut yang dipergunakan di classifier

hanya untuk atribut yang tercatat di file .names, sedangkan bentuk kedua

menspesifikasikan bahwa classifier tidak boleh menggunakan atribut apapun dari

file .names

atribut yang tidak dimasukkan sebagai classifier bukan berarti atribut itu

“diabaikan”. Sebagai contoh, misalnya atribut numerik A dan B didefinisikan di

data, tapi sebenarnya yang dibutuhkan adalah selisih dari keduanya, maka

file .names berisi entri-entri sbb: . . .A: continuous.

B: continuous.

Diff := A - B.

. . .

attributes excluded: A, B.

Pada contoh di atas, atribut A dan B tidak bisa didefinisikan diabaikan karena

kalau diabaikan, maka definisi Diff akan menjadi tidak valid.

5.1.5 Data file

File penting kedua adalah file data aplikasi (seperti pemilu.data) yang menyediakan

informasi dari training case yang mana See5 akan mengambil pola dari training

case tersebut. Entri dari setiap kasus terdiri dari satu atau lebih baris data yang

akan memberikan nilai untuk semua atribut yang terdefinisi secara eksplisit. Nilai-

nilainya dipisahkan dengan koma dan entrinya tidak diakhiri dengan tanda

apapun. Sekali lagi, informasi apapun pada sebuah baris data setelah vertical bar

`|' akan diabaikan. (Jika informasi untuk sebuah kasus melebihi satu baris, maka

pastikan bahwa baris itu akan dipecah setelah koma)

Sebagai contoh, tiga kasus pertama dari file pemilu.data adalah sbb :

kota,?,91198131000,sumatera,E,K

Modul Praktek Data Mining 53

Page 54: Modul Praktek DMr

Modul 5 – See5

kabupaten,182,735831723000,N/A,B,K

kota,2369,148993189000,sumatera,C,L

Jangan lupakan koma diantara nilai-nilai baris data! Jika kamu lupa, maka

See5 akan tidak mampu memproses data kita.

Perhatikan bahwa tanda `?' digunakan untuk menggambarkan missing values (nilai

yang tidak diketahui). Hampir mirip, tanda `N/A' menggambarkan sebuah nilai

yang tidak bisa diaplikasikan untuk kasus tertentu.

5.1.6 User Interface

Adapun user interface dari See5 setelah data pemilu dipilih :

Tampilan utama dari See5 memiliki enam tombol pada toolbarnya. Dari kiri ke

kanan, penjelasannya sbb :

Locate Data

Modul Praktek Data Mining 54

Page 55: Modul Praktek DMr

Modul 5 – See5

Menampilkan browser untuk menemukan file-file aplikasi kita;

Construct Classifier

Memilih jenis dari classifier untuk dibangun dan untuk mengatur opsi

lainnya;

Stop

Memberhentikan proses generate classifier;

Review Output

Menampilkan kembali output dari pembangunan classifier yang terakhir;

Use Classifier

Menerapkan classifier yang sedang dipakai ke satu atau lebih kasus;

Cross-Reference

Menunjukkan bagaimana kasus pada training atau test data terhubung ke

(bagian dari) classifier dan begitu seterusnya.

Jurnal Modul 5 (See5)

Modul Praktek Data Mining 55

Page 56: Modul Praktek DMr

Modul 5 – See5

1. Ubah dataset berekstensi .arff berikut ini ke dalam format .data dan

format .names sehingga dapat digunakan sebagai inputan pada See5.0. Simpan

hasilnya dengan nama weather_<4 digit terakhir NIM Anda>.data dan weather_<4

digit terakhir NIM Anda>.names.

@relation weather

@attribute outlook {sunny, overcast, rainy}@attribute temperature real@attribute humidity real@attribute windy {TRUE, FALSE}@attribute play {yes, no}

@datasunny,85,85,FALSE,nosunny,80,90,TRUE,nosunny,81,87,TRUE,nosunny,72,95,FALSE,nosunny,69,70,FALSE,yessunny,75,70,TRUE,yessunny,82,93,FALSE,yesovercast,83,86,FALSE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesovercast,64,65,TRUE,yesovercast,66,62,FALSE,yesovercast,70,66,TRUE,yesovercast,80,77,TRUE,norainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,norainy,75,80,FALSE,yesrainy,71,91,TRUE,norainy,69,85,TRUE,norainy,73,87,TRUE,norainy,76,84,TRUE,no

2. Dari data yang anda buat

c. modelkan dengan menggunakan decision tree

d. Dari pemodelan yang ada, teslah model tersebut dengan contoh data

baru yang anda buat.

Modul Praktek Data Mining 56

Page 57: Modul Praktek DMr

Modul 6

Constructing Classifiers in See5

Tujuan Praktikum :

1. Mengenal dan mengetahui penggunaan classifiers dalam See5

2. Menggunakan classifier tersebut untuk memprediksi class

Setelah file .names, .data, dan file-file opsional telah digenerate, kita telah siap

untuk menggunakan See5.

Langkah pertama adalah untuk mencari data menggunakan tombol Locate Data

yang ada di toolbar (atau dari menu File). Ada beberapa opsi yang mempengaruhi

jenis dari classifier yang dihasilkan oleh See5 dan cara See5 membangun

classifiernya. Tombol Construct Classifier yang ada di toolbar (atau dari menu

File) menampilkan kotak dialog yang mengatur opsi pembangunan classifier ini.

Page 58: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

6.1 Decision trees

Ketika See5 dijalankan dengan setting default untuk semua opsi, ia akan

membangun sebuah decision tree dan menghasilkan outputan seperti ini :

See5 [Release 1.19] Wed Mar 16 22:59:17 2005

*** line 53 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'

*** line 69 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'

Read 81 cases (5 attributes) from pemilu.data

Decision tree:

Pulau = jawa: L (22/3)

Pulau = bali & NTT: N (6/3)

Pulau = kalimantan: L (13/3)

Pulau = sumatera:

:...Kegiatan_Ekonomi = D: L (0)

: Kegiatan_Ekonomi = B: N (5/2)

: Kegiatan_Ekonomi = C: L (5/1)

: Kegiatan_Ekonomi = E: K (1)

: Kegiatan_Ekonomi = A:

: :...Total_APBD <= 7.212406e+010: K (2)

: Total_APBD > 7.212406e+010: L (11/4)

Pulau = sulawesi:

:...Jenis = kota: K (3/1)

Jenis = kabupaten:

:...Kepadatan_Penduduk <= 82: L (6/2)

Kepadatan_Penduduk > 82: K (7)

Evaluation on training data (81 cases):

Decision Tree

Modul Praktek Data Mining 58

Page 59: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

----------------

Size Errors

11 19(23.5%) <<

(a) (b) (c) (d) <-classified as

---- ---- ---- ----

12 5 3 (a): class K

44 1 (b): class L

1 1 (c): class M

1 7 6 (d): class N

Time: 0.0 secs

Baris pertama mengidentifikasi versi dari See5 dan waktu eksekusinya. See5

membangun sebuah decision tree dari 81 training case pada file pemilu.data.

Walaupun outputannya tidak seperti tree, outputannya dapat kita jelaskan sebagai

berikut :

if Pulau is equal to jawa then L

else

if Pulau is equal to bali & NTT then N

else

if Pulau is equal to kalimantan L

else

if Pulau is equal to sumatera then

if kegiatan_ekonomi is equal to D then L

else

if kegiatan_ekonomi is equal to B then N

else

if kegiatan_ekonomi is equal to C then L

else

if kegiatan_ekonomi is equal to E then K

Modul Praktek Data Mining 59

Page 60: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

else

if kegiatan_ekonomi is equal to A then

if Total_APBD is less than or equal to 7.212406e+010 then K

else

if Total_APBD is greater than 7.212406e+010 then L

else

if Pulau is equal to sulawesi then

if Jenis is equal to kota then K

else

if Jenis is equal to kabupaten then

if Kepadatan_Penduduk is less than or equal to 82 then L

else

if Kepadatan_Penduduk is greater than 82 then K

6.2 Rulesets

Decision tree terkadang agak sulit. Salah satu fitur penting dari See5 adalah

kemampuannya untuk menggenerate classifier yang disebut rulesets yang terdiri

dari kumpulan rule if-then sederhana yang tidak terurut.

Untuk membangkitkan ruleset, caranya adalah dengan melakukan settingan berikut pada classifier

construction options :

Modul Praktek Data Mining 60

Page 61: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Selanjutnya, didapatkan ruleset sebagai berikut yang merupakan pengembangan

dari decision tree di atas :

Rule 1: (3, lift 3.2)

Total_APBD <= 7.212406e+010

Kegiatan_Ekonomi = A

-> class K [0.800]

Rule 2: (1, lift 2.7)

Pulau = sumatera

Kegiatan_Ekonomi = E

-> class K [0.667]

Rule 3: (16/5, lift 2.7)

Pulau = sulawesi

-> class K [0.667]

Rule 4: (17/2, lift 1.5)

Kegiatan_Ekonomi = C

-> class L [0.842]

Rule 5: (22/3, lift 1.5)

Pulau = jawa

-> class L [0.833]

Rule 6: (13/3, lift 1.3)

Pulau = kalimantan

-> class L [0.733]

Rule 7: (5/2, lift 3.3)

Modul Praktek Data Mining 61

Page 62: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Pulau = sumatera

Kegiatan_Ekonomi = B

-> class N [0.571]

Rule 8: (6/3, lift 2.9)

Pulau = bali & NTT

-> class N [0.500]

Default class: L

Setiap rule terdiri dari :

Nomor urut rule – yang berfungsi untuk mengidentifikasi rule.

Statistik (n, lift x) or (n/m, lift x) yang menggambarkan performansi dari rule.

n adalah jumlah training case yang bisa ditanggulangi oleh rule, sedangkan

m, jika muncul, menunjukkan berapa banyak training case dari n yang

salah diprediksikan classnya oleh rule. Ketepatan rule diperkirakan oleh

rasio Laplace (n-m+1)/(n+2). Simbol x adalah hasil dari membagi

ketepatan perkiraan rule tersebut dengan frekuensi relatif dari class yang

diprediksi pada training set.

Satu atau lebih kondisi yang semuanya harus dipenuhi jika rule akan

diimplementasikan.

Class yang diprediksikan oleh rule.

Nilai di antara 0 dan 1 yang mengindikasikan confidence.

Ketika ruleset seperti ini digunakan untuk mengklasifikasikan sebuah kasus,

adalah mungkin terjadi bahwa beberapa dari rule-rule tersebut sama-sama bisa

diimplementasikan pada satu kasus yang sama. Jika hal ini terjadi, kita dapat

mempercayai rule dengan nilai confidence tertinggi, atau kita menjumlahkan

semua prediksi-prediksi rule untuk mendapatkan satu keputusan. See5

mengadopsi strategi yang terakhir. Selain itu, kita juga menjumpai istilah default

class, dalam kasus ini adalah L, yang akan digunakan ketika tidak ada satupun

dari rule yang memenuhi.

Modul Praktek Data Mining 62

Page 63: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Ruleset biasanya lebih mudah dimengerti daripada tree karena setiap rule

menggambarkan sesuatu yang berhubungan dengan klas. Lebih lanjut lagi, sebuah

ruleset yang digenerate dari sebuah tree biasanya memiliki lebih sedikit rule

daripada jumlah leaf yang dimiliki tree, (Pada contoh di atas, decision tree yang

memiliki 12 leaf disederhanakan menjadi delapan rule.) Pada banyak kasus, rule

adalah predictor yang lebih akurat daripada decision tree --.

Pada contoh di atas, rule diurutkan berdasarkan klas dan nilai confidence-nya.

Sebuah alternatif pengurutannya adalah dengan menggunakan opsi Sort by utility.

Dengan opsi ini, rule yang paling mengurangi jumlah error muncul pertama dan

rule yang paling tidak mengurangi jumlah error muncul terakhir. Lebih lanjut lagi,

hasilnya dilaporkan dalam jumlah kelompok (bands) sehingga ketepatan prediktif

dari himpunan bagian yang lebih penting juga diperkirakan Sebagai contoh, jika

opsi Sort by utility dengan empat kelompok (bands) dipilih, kasus pemilu

diurukan kembali sbb :

See5 [Release 1.19] Tue Mar 22 06:20:53 2005

Options:

Rule-based classifiers

Rule utility ordering (1/4's)

*** line 53 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'

*** line 69 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'

Read 81 cases (5 attributes) from pemilu.data

Rules:

Rule 1: (22/3, lift 1.5)

Pulau = jawa

-> class L [0.833]

Rule 2: (16/5, lift 2.7)

Pulau = sulawesi

-> class K [0.667]

Modul Praktek Data Mining 63

Page 64: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Rule 3: (13/3, lift 1.3)

Pulau = kalimantan

-> class L [0.733]

Rule 4: (17/2, lift 1.5)

Kegiatan_Ekonomi = C

-> class L [0.842]

Rule 5: (6/3, lift 2.9)

Pulau = bali & NTT

-> class N [0.500]

Rule 6: (5/2, lift 3.3)

Pulau = sumatera

Kegiatan_Ekonomi = B

-> class N [0.571]

Rule 7: (3, lift 3.2)

Total_APBD <= 7.212406e+010

Kegiatan_Ekonomi = A

-> class K [0.800]

Rule 8: (1, lift 2.7)

Pulau = sumatera

Kegiatan_Ekonomi = E

-> class K [0.667]

Default class: L

Rulenya dibagi ke dalam empat kelompok. Sedangkan output untuk test case di

atas adalah sbb :

Evaluation on test data (81 cases):

Modul Praktek Data Mining 64

Page 65: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Rules

----------------

No Errors

8 21(25.9%) <<

(a) (b) (c) (d) <-classified as

---- ---- ---- ----

14 3 3 (a): class K

4 40 1 (b): class L

1 1 (c): class M

1 7 6 (d): class N

Rule utility summary:

Rules Errors

----- ------

1-2 29(35.8%)

1-4 29(35.8%)

1-6 24(29.6%)

Time: 0.0 secs

Tampilan di atas menunjukkan, ketika kita hanya menggunakan dua rule yang

pertama, error rate pada test cases adalah 35.8%, yang turun menjadi 29.6% ketika

enam rule yang pertama digunakan.

6.3 Using Classifiers

Ketika classifier telah dibangun, sebuah interactive interpreter dapat digunakan

untuk memprediksi class-class dari kasus-kasus baru. Tombol Use Classifier

mengaktifkan interpreter, menggunakan classifier yang paling terkini dan

menampilkan informasi tentang kasus yang akan diklasifikasikan. Sebagai contoh,

ini adalah hasil dari analisa sebuah kasus menggunakan decision tree di atas :

Modul Praktek Data Mining 65

Page 66: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

6.4 Melakukan Cross-Reference terhadap classifiers dan data

Tombol Cross-Reference memunculkan sebuah window yang menunjukkan

classifier yang paling terkini dan bagaimana relasi kasus tersebut terhadap data,

test atau file case

Window dibagi atas dua panel, dengan classifier pada sisi kiri dan daftar kasus di

sisi kanan. Tombol Reset dapat digunakan pada waktu kapan saja untuk

mengembalikan window pada kondisi awalnya lagi.

Setiap kasus memiliki tag [?] tag (yang berwarna merah jika kasusnya

misclassified), sebuah nomor identifikasi atau label, dan class yang diprediksikan

untuk kasus itu (juga berwarna merah jika classnya tidak tepat). Mengclick tag [?]

pada sebuah nomor kasus akan menyebabkan kasus tersebut muncul :

Modul Praktek Data Mining 66

Page 67: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Kalau kita mengclick pada label kasus atau nomor kasus, hal itu akan

menunjukkan kita bagian dari classifier yang relevan dengan kasus tersebut.

Sebagai contoh, kalau kita mengclick kasus nomor 9, maka tampilannya adalah

sbb :

Kalau kita mengclick leaf atau rule, maka semua kasus yang berhubungan dengan

leaf atau rule diperlihatkan. Sebagai contoh, pada gambar di bawah ini :

Modul Praktek Data Mining 67

Page 68: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Modul Praktek Data Mining 68

Page 69: Modul Praktek DMr

Modul 6 – Constructing Classifiers in See5

Jurnal Modul 6 (See5)

1 Gunakan See5 dan dataset pemilu untuk menjawab pertanyaan-pertanyaan

berikut:

a. Berapa banyak atribut dan instances dalam dataset?

b. Pada window construct classifier, gunakan opsi rulesets, kemudian

jelaskan setiap rule yang anda dapatkan. (termasuk makna dari angka-

angka yang ada di setiap rule).

Pada window construct classifier, gunakan opsi untuk membangun decision tree,

kemudian jelaskan setiap baris kalimat yang anda temui di window Result for

pemilu.

Modul Praktek Data Mining 69

Page 70: Modul Praktek DMr

MODUL 7

gCLUTO

Tujuan praktikum

1. Mahasiswa mengetahui dan dapat menggunakan tab-tab yang ada pada

gCLUTO

2. Mahasiswa dapat melakukan importing data dan exporting data dengan

gCLUTO.

3. Mahasiswa dapat menggunakan dan mengaplikasikan gCLUTO dalam

memecahkan masalah clustering.

Pendahuluan

gCLUTO (Graphical CLUstering TOolkit) adalah sebuah front-end grafis

untuk pustaka clustering data. Tujuannya adalah untuk membuat kemampuan

clustering CLUTO tersedia dalam bentuk grafis. Sebagai tambahan, gCLUTO

menyediakan beberapa cara untuk melakukan visualisasi interaktif dari hasil-hasil

clustered.

Fitur-fitur yang disediakan oleh gCLUTO:

Sebuah pohon proyek yang mengelola file-file data, solusi clustering, dan

visualisasi.

Dialog-dialog detail untuk penentuan pilihan-pilihan clustering.

Interface spreadsheet untuk melihat data.

Interface HTML untuk melihat solusi-solusi.

Visualisasi Matrix – sebuah matrix interaktif berwarna.

Visualisasi Mountain – sebuah visualisasi 3D yang dibuat menggunakan

penskalaan multidimensional.

Printing dan exporting data dan visualisasi.

Page 71: Modul Praktek DMr

Modul 7 – gCLUTO

Saat clustering data, berbagai bagian informasi diperlukan, seperti file-file

data, file-file solusi clustering, dan visualisasi. Seperti berbagai aplikasi lain,

gCLUTO menggunakan konsep sebuah proyek untuk mengorganisasikan data

user dan aliran kerja. Ketika sebuah proyek telah di-load, isinya akan ditampilkan

pada view tree seperti pada gambar berikut ini.

Masing-masing item dalam proyek ditampilkan sebagai sebuah icon pada

tee.

Project – Ini menunjukkan sebuah proyek dan merupakan akar dari

project tree.

Data – Setelah melakukan import data ke dalam proyek, salah satu icon

akan muncul di project tree. Sebuah proyek dapat mengandung beberapa

item data yang berbeda.

Solution – Setelah melakukan clustering terhadap salah satu item data,

sebuah item solusi akan dibuat dan ditempatkan di bawah item data asli

yang di-cluster.

Modul Praktek Data Mining 71

Page 72: Modul Praktek DMr

Modul 7 – gCLUTO

Matrix Visualization – Ini merupakan visualisasi yang dapat dibangun

setelah clustering. Seluruh visualisasi muncul di bawah solusi yang

dibangun.

Mountain Visualization – Ini adalah visualisasi lain yang berusaha

menjelaskan interrelationships dari cluster-cluster dalam bentuk 3D.

Klik kanan pada tiap item akan memunculkan sebuah menu pop-up yang

menampilkan daftar operasi-operasi yang tersedia dan dapat dilakukan pada item.

Klik ganda pada sebuah item akan membuka isinya pada sebuah window baru

yang disebut view, sama dengan window (b), (c) dan (d) pada gambar di atas.

7.1 Membuat Sebuah Proyek Baru

Saat pertama kali dibuka, gCLUTO dimulai dengan sebuah tree proyek

kosong. Untuk mulai bekerja, buat sebuah proyek dengan memilih “File” lalu

“New Project”. Sebuah window dialog file akan muncul. Tentukan sebuah nama

untuk proyek Anda dan lokasi untuk menyimpannya dalam komputer.

gCLUTO akan membuat sebuah direktori yang disebut direktori proyek.

Project Directory akan diberi nama setelah proyeknya dan disimpan pada lokasi

yang ditentukan. Dalam direktori proyek tersebut, gCLUTO akan menyimpan

seluruh informasi yang berkaitan dengan proyek.

Untuk membuka sebuah proyek yang sudah ada, pilih menu “File” lalu

“Open Project”. Sebuah dialog file akan muncul. Telusuri hingga ke lokasi

direktori proyek dan buka. Dalam direktori proyek akan ada sebuah file bernama

“project_name.prj”, di mana project_name akan menjadi nama proyek tersebut.

Pilih file ini dan klik “Open”.

Setelah langkah-langkah tersebut, sebuah proyek akan di-load dan

ditampilkan pada tree proyek.

Modul Praktek Data Mining 72

Page 73: Modul Praktek DMr

Modul 7 – gCLUTO

7.2 Importing Data

gCLUTO menerima 3 format file: file matrix CLUTO (*.mat), file graph

CLUTO (*.graph), dan sebuah file dense matrix delimited. Tipe-tipe file berikut

ini digunakan saat meng-import data dalam formta file CLUTO:

Matrix file (*.mat) – mengandung sebuah dense matrix, sparce matrix,

atau grafik persamaan yang mewakili data yang di-cluster.

Row labels (*.rlabel) – mengandung label-label untuk baris-baris matrix

data.

Column labels (*.clabel) – mengandung label-label untuk kolom-kolom

matrix data.

Class labels (*.rclass) – mengandung label-label kelas untuk baris-baris

matrix data.

File-file delimited dapat dibuat dengan tangan atau di-export dengan

sebagian besar program spreadsheet. gCLUTO dapat menerima file-file yang

dipisah dengan tab, spasi, titik koma, dan koma. Karakter lain juga bisa ditentukan

menjadi pemisah lain.

Modul Praktek Data Mining 73

Page 74: Modul Praktek DMr

Modul 7 – gCLUTO

Untuk import sebuah item data, pilih “Project” lalu “Import Data”. Dialog

Import Data akan muncul dan memungkinkan user menentukan lokasi sebuah

file untuk tiap tipe file yang didaftarkan di atasnya. Klik tombol “Browse” akan

menampilkan sebuah dialog file yang memungkinkan user menentukan lokasi

file-file yang diperlukan. Hanya file *.mat yang diperlukan. User juga harus

menentukan file *.mat mengandung data matrix atau data grafik dengan

menentukan pilihan yang tepat.

Jika user memilih untuk import sebuah file delimited, pilihan file delimited

akan di-enable. gCLUTO dapat juga menginterpretasikan baris pertama dari file

delimited sebagai label kolom. Sebagai tambahan, gCLUTO dapat

menginterpretasikan kolom pertama sebagai label baris. User juga dapat

menentukan karakter-karakter mana yang harus digunakan sebagai delimiter. Jika

beberapa karakter ditentukan, maka kemunculan salah satu di antaranya akan

menyebabkan pemisahan sebuah field. Fields kosong diperbolehkan dalam file-

file delimited. Jika muncul blank saat diharapkan muncul sebuah angka, maka

akan diinterpretasi sebagai 0. Jika muncul blank saat diharapkan sebuah label,

diinterpretasikan sebagai label default “no-label”.

Setelah menentukan file-file tersebut, user dapat memberikan label untuk

item data. Jika tidak ada label yang diberikan, item data akan dilabeli setelah file

*.mat-nya dihapus. Setelah klik “OK” pada dialog Import Data, gCLUTO

berusaha membaca file-file yang dipilih. Jika tidak ada error yang muncul,

gCLUTO akan menambahkan item data baru ke tree proyek dan membuka sebuah

Data View. Data View memungkinkan user melihat data dan memverifikasi

bahwa data tersebut sudah di-load dengan benar.

Untuk dapat mengimport data yang baru, langkah yang perlu di lakukan adalah

1. Buatlah project yang baru, simpan di tempat yang anda inginkan

2. Pada menu bar pilih project -> import data, atau klik kanan project baru

tersebut pilih import data

3. Tampil beberapa pilihan,

a. isikan kabel dari project yang anda buat

Modul Praktek Data Mining 74

Page 75: Modul Praktek DMr

Modul 7 – gCLUTO

b. pilih format data yang akan anda inginkan misal matrix file

c. browse letak dari format file (*.mat), (*.rlabel), (*.clabel),

(*.clabel)

4. Klik OK

Modul Praktek Data Mining 75

Page 76: Modul Praktek DMr

Modul 7 – gCLUTO

7.3 Clustering data

Setelah melakukan importing data, langkah yang perlu di lakukan mengclustering

data

1. pada menu bar, klik data -> cluster atau klik kanan pada data pilih cluster

2. tampil beberapa pilihan, isikanlah sesuai keinginan anda kemudian klik

OK

Modul Praktek Data Mining 76

Page 77: Modul Praktek DMr

Modul 7 – gCLUTO

Bila proses clustering berhasil, maka akan menampilkan solution view. Untuk

melakukan clustering lagi, klik Recluster pada data view.

7.4 Visualizing Solution

Terdapat 2 visualisasi pada gCLUTO yaitu matrix visualization dan mountain

visualization . visualisasi ini dapat di hasilkan dengan mengklik pada solution.

7.4.1 Matrik visualization

Pada matrik visualization, data asli akan di tampilkan dalam berbagai macam

warna, yang mempresentasilan dari isi data matrix. Dimana warna putih berarti

mendekati 0, semakin merah berarti isi datanya semakin besar dan bila warna

terlalu hijau berarti isi data semakin negatif. Untuk row pada matrik di

representasikan sama pada clustering ini. Garis hitam horizontal menunjukkan

bagian bagina data-data yang di cluster.

Modul Praktek Data Mining 77

Page 78: Modul Praktek DMr

Modul 7 – gCLUTO

Untuk melihat detail dari setiap warna yang ada klik kanan, dan bila

untuk memperbesar ukuran dari cluster maka pada toolbar scale tinggal di

perbesar atau klik pada row yang di inginkan terus di geser.

7.4.2 Mountain Visualization

Pada mountain visualization ini data di representasikan secara 3D. Lokasi,

volume, kedalaman atau ketinggian dan warna yang di gunakan pada visualisasi

ini memberikan informasi tentang hubungan data yang telah di cluster.

Untuk mengatur posisi ataupun ukuran dari tampilan 3D dapat di gunakan

dengan mouse, yaitu bila

Klik kanan, untuk pindah tempat

Klik kiri, untuk melihat posisi dari tampilan 3Dnya

Sedangkan untuk memperbesar ukuran geser bagian tengah

Modul Praktek Data Mining 78

Page 79: Modul Praktek DMr

Modul 7 – gCLUTO

Warna merah mengindikasikan devisiasinya rendah, sedangkan untuk biru

memiliki devisiasi yang tinggi.

7.5 Exporting

Untuk melakukan exporting pada gCLUTO, maka klik kiri pada data yang ada,

pilih export. Hasil exporting ini dapat berupa file HTML.

Modul Praktek Data Mining 79

Page 80: Modul Praktek DMr

Modul 7 – gCLUTO

Jurnal Modul 7

1. Analisalah hasil dari clustering data gense2

2. Bandingkan dengan metode entropy yang anda buat dengan solution view

pada gCLUTO

Modul Praktek Data Mining 80