Upload
syawal-endless
View
263
Download
16
Embed Size (px)
Citation preview
Modul dan Jurnal Praktek Data Mining
T.A 2004/2005
===========================================
:: Created by DM Crews
Modul 1 – Klasifikasi dan Pendahuluan WEKA
Modul 1
Klasifikasi dan Pendahuluan WEKA
Tujuan Praktikum
1. Mahasiswa dapat memahami klasifikasi sebagai sebuah fungsionalitas
dalam data mining.
2. Mahasiswa dapat mengenal WEKA sebagai sebuah perangkat lunak data
mining, terutama untuk menyelesaikan masalah klasifikasi.
3. Mahasiswa dapat mengubah format data sehingga dapat menjadi masukan
pada perangkat lunak WEKA.
Pendahuluan
Data mining adalah sebuah bidang ilmu yang berupaya menemukan pola,
kaidah, aturan, dan informasi berharga yang menarik dan belum diketahui
sebelumnya dari sekumpulan besar data. Kemunculan ilmu ini dilatarbelakangi
oleh munculnya tumpukan data di berbagai bidang kehidupan. Seringkali sebuah
organisasi atau kelompok kerja tertentu banyak melakukan kegiatan pengumpulan
data, administrasi maupun perhitungan-perhitungan yang menghasilkan data
dalam jumlah besar.
Klasifikasi adalah salah satu fungsionalitas penting dalam data mining.
Klasifikasi berusaha membangun model yang merumuskan class-class dari
record-record data pada himpunan pelatihan (training set) untuk menentukan
class dari record data pada himpunan pengujian (test set) serta data baru lain yang
belum diketahui nilainya pada label class.
Berbagai tools komersial maupun non-komersial beredar dan digunakan
untuk berbagai tujuan yang berkaitan dengan data mining. Salah satu diantaranya
yang menarik dan akan dibicarakan dalam modul ini adalah WEKA, yang
Modul Praktek Data Mining 2
Modul 1 – Klasifikasi dan Pendahuluan WEKA
merupakan alat bantu data mining, terutama dalam penerapannya untuk
menyelesaikan masalah klasifikasi.
1.1 Klasifikasi
Klasifikasi dapat digambarkan sebagai berikut. Data input, disebut juga
training set, terdiri atas banyak contoh (record), yang masing-masing memiliki
beberapa atribut. Selanjutnya, tiap contoh diberi sebuah label class khusus.
Tujuannya untuk menganalisa data input dan mengembangkan deskripsi atau
model akurat untuk tiap class menggunakan fitur-fitur pada data. Deskripsi class
ini digunakan untuk mengklasifikasikan data pengujian lainnya dengan label class
tidak diketahui. Deskripsi tersebut juga dapat digunakan untuk memahami tiap
class dalam data. Aplikasi-aplikasi klasifikasi antara lain berupa credit approval,
target marketing, medical diagnosis, treatment effectiveness, store location, dll.
Klasifikasi dapat dilakukan dengan berbagai metode yang menghasilkan
representasi model yang berbeda pula, antara lain:
1. Klasifikasi dengan pohon keputusan, yaitu metode klasifikasi dengan
struktur pohon yang merepresentasikan kriteria pembagian kelas dan
kelas-kelas. Beberapa algoritma yang menggunakan metode ini adalah
algoritma ID3, SLIQ, SPRINT, dan PUBLIC.
2. Klasifikasi dengan memory-based reasoning, yaitu metode klasifikasi yang
digabungkan dengan penalaran berbasis memori.
3. Neural network¸ yaitu metode klasifikasi yang menggunakan model jaringan
syaraf tiruan (JST) yang direpresentasikan dalam bentuk neuron-neuron,
bobot neuron dan struktur JST.
4. Naive Bayes dan Bayesian Belief Networks
5. Klasifikasi berdasarkan kaidah (rule). Metode ini terbagi menjadi dua; yang
pertama mengekstrak kaidah secara langsung dari data (misalnya
algoritma RIPPER), sedangkan yang kedua mengekstrak data dari model
klasifikasi lain (misalnya algoritma C4.5) seperti pohon keputusan, neural
network, dll.
Modul Praktek Data Mining 3
Modul 1 – Klasifikasi dan Pendahuluan WEKA
1.2 Pemodelan Klasifikasi dengan Decission Tree
Ilustrasi dari cara pengklasifikasian pada data mining adalah
a. Terdapat training set yang terdiri atas beberapa atribut dan class
b. Training set tersebut kemudian diinduksikan dengan algoritma yang
ada sehingga terbentuk suatu model sesuai data yang ada
c. Dari model tersebut diaplikasikan ke dalam test set.
Contoh pemodelannya dapat dilihat pada slide kuliah ch.3 (Decision Tree)
1.3 Sejarah WEKA
WEKA adalah sebuah paket tools machine learning praktis. “WEKA”
merupakan singkatan dari Waikato Environment for Knowledge Analysis, yang
dibuat di Universitas Waikato, New Zealand untuk penelitian, pendidikan dan
berbagai aplikasi. WEKA mampu menyelesaikan masalah-masalah data mining di
dunia-nyata, khususnya klasifikasi yang mendasari pendekatan-pendekatan
Modul Praktek Data Mining 4
Modul 1 – Klasifikasi dan Pendahuluan WEKA
machine learning. Perangkat lunak ini ditulis dalam hirarki class Java dengan
metode berorientasi objek dan dapat berjalan hampir di semua platform.
WEKA mudah digunakan dan diterapkan pada beberapa tingkatan yang
berbeda. Tersedia implementasi algoritma-algoritma pembelajaran state-of-the-art
yang dapat diterapkan pada dataset dari command line. WEKA mengandung tools
untuk pre-processing data, klasifikasi, regresi, clustering, aturan asosiasi, dan
visualisasi. User dapat melakukan preprocess pada data, memasukkannya dalam
sebuah skema pembelajaran, dan menganalisa classifier yang dihasilkan dan
performansinya – semua itu tanpa menulis kode program sama sekali. Contoh
penggunaan WEKA adalah dengan menerapkan sebuah metode pembelajaran ke
dataset dan menganalisa hasilnya untuk memperoleh informasi tentang data, atau
menerapkan beberapa metode dan membandingkan performansinya untuk dipilih.
Tools yang dapat digunakan untuk pre-processing dataset membuat user
dapat berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan detail
seperti pembacaan data dari file-file, implementasi algoritma filtering, dan
penyediaan kode untuk evaluasi hasil.
Pengembangan WEKA mengikuti model releases Linux: digit kedua yang
genap menunjukkan release yang stabil dan digit kedua yang ganjil menunjukkan
release ‘pengembangan’ (misalnya 3.0.x adalah release stabil, sedangkan 3.1.x
adalah release yang sedang dikembangkan). Beberapa versi awal dari WEKA:
WEKA 3.0 : “versi buku” yang sesuai dengan deskripsi buku data mining.
WEKA 3.2 : “versi GUI” yang menambahkan GUI dari CLI awal.
WEKA 3.3 : “versi pengembangan” dengan berbagai peningkatan.
Praktek data mining ini menggunakan WEKA versi 3.4.1.
1.4 WEKA GUI Chooser
WEKA GUI Chooser adalah tampilan utama yang akan dilihat user pada
saat pertama kali membuka perangkat lunak WEKA. Tampilan utama tersebut
memberikan 4 pilihan GUI WEKA, yaitu Simple CLI, Experimenter, Explorer,
dan Knowledge Flow.
Modul Praktek Data Mining 5
Modul 1 – Klasifikasi dan Pendahuluan WEKA
1.4.1 GUI Simple CLI merupakan GUI yang memungkinkan user mengetikkan
perintah-perintah melalui command line menurut standar penggunaan
classifiers maupun filters. Misalnya mengeset percobaan dengan file
batch.
Modul Praktek Data Mining 6
Modul 1 – Klasifikasi dan Pendahuluan WEKA
Contoh penggunaan CLI adalah dengan mengetikkan perintah:
java weka.classifiers.j48.J48 –t weather.arff
Perintah ini memanggil JVM (Java Virtual Machine) dan
menginstruksikannya untuk mengeksekusi algoritma J48 dari J48
package.
java weka.filters.unsupervised.attribute.Remove -V -R 1,4 -i
trainingFile.arff -o myTrainingFile.arff
Filter tersebut akan menghapus semua atribut kecuali yang pertama
dan keempat dari sebuah dataset yang disimpan pada file
trainingFile.arff dan menyimpan hasilnya di myTrainingFile.arff
java weka.classifiers.trees.J48 -t myTrainingFile.arff -T
myTestFile.arff -U -p 1 > Results.arff
Dari perintah ini, decision tree J48 diterapkan pada file
myTrainingFile.arff. File yang diuji ditunjukkan dengan option -T.
Hasilnya redirected dari layar ke file Results.arff dan options -U
dan -p menentukan bentuk output tertentu.
Beberapa pilihan skema pembelajaran yang dapat diterapkan pada WEKA
antara lain:
Option Fungsi
-t <training file> Menentukan file training
-T <test set> Menentukan file pengujian. Jika tidak ada, dilakukan cross-validation pada data training.
-c <class index> Menentukan
-x <number of folds> Menentukan jumlah folds untuk cross-validation
-s <random number seed> Menentukan jumlah seed untuk cross-validation
-m <cost matrix file> Menentukan file yang mengandung matriks biaya
-v Output tanpa statistik untuk data training
-l <input file> Menentukan file input untuk model
-d <output file> Menentukan file output untuk model
-o Hanya mengeluarkan statistik, tanpa classifier
-I Output statistik information retrieval untuk masalah dengan 2 class
-k Output statistik information-theoretic
-p Hanya mengeluarkan prediksi untuk instances pengujian
-r Hanya mengeluarkan distribusi batas kumulatif
Modul Praktek Data Mining 7
Modul 1 – Klasifikasi dan Pendahuluan WEKA
1.4.2 GUI Explorer adalah GUI WEKA yang paling mudah digunakan dan
menyediakan semua fitur WEKA dalam bentuk tombol dan tampilan
visualisasi yang menarik dan lengkap. Preprocess, klasifikasi, asosiasi,
clustering, pemilihan atribut, dan visualisasi dapat dilakukan dengan
mudah dan menyenangkan di sini. Antarmuka ini akan dijelaskan lebih
lanjut pada Modul 2.
1.4.3 GUI Experimenter memudahkan perbandingan performansi skema-skema
pembelajaran yang berbeda. Experimenter biasanya digunakan untuk
klasifikasi dan regresi. Hasil dari perbandingan performansi dapat
dituliskan dalam file atau basis data. Pilihan evaluasi yang tersedia dalam
WEKA adalah cross-validation, learning curve, hold-out. User juga dapat
melakukan iterasi menurut beberapa setting parameter yang berbeda.
Modul Praktek Data Mining 8
Modul 1 – Klasifikasi dan Pendahuluan WEKA
Tab Setup yang muncul saat user membuka Experimenter memungkinkan
user memilih dan mengkonfigurasi eksperimen yang dilakukan. Setelah
menyimpan definisi eksperimen yang dilakukan, user dapat memulai
eksperimen dari tab Run dan meng-klik tombol Start. Area di bawahnya
akan menunjukkan proses yang sedang dilakukan. Hasilnya disimpan
dalam format CSV dan dapat dibuka dalam bentuk spreadsheet.
Tab ketiga. Analize, dapat digunakan untuk menganalisa hasil ekperimen
yang dikirim ke WEKA. Jumlah baris hasil ditunjukkan pada panel
Source. Hasilnya dapat di-load dalam format .ARFF maupun dari basis
data.
Antarmuka ini memungkinkan user melakukan lebih dari 1 eksperimen
sekaligus, mungkin menerapkan beberapa teknik berbeda pada sebuah
dataset, atau teknik yang sama dengan parameter-parameter yang berbeda.
1.4.4 GUI Knowledge Flow merupakan GUI baru dalam WEKA yang
merupakan antarmuka Java-Beans-based untuk melakukan setting dan
menjalankan percobaan-percobaan machine learning.
Modul Praktek Data Mining 9
Modul 1 – Klasifikasi dan Pendahuluan WEKA
Dalam GUI Experimenter ini, beberapa sumber data, classifier, dll dapat
dihubungkan secara grafis. User juga dapat menggambarkan aliran data
melalui komponen-komponen, misalnya:
“data source” -> “filter” -> “classifier” -> “evaluator”
KnowledgeFlow menyediakan alternatif lain dari Explorer sebagai sebuah
front end grafis untuk algoritma-algoritma inti WEKA. Karena masih
dalam pengembangan, beberapa fungsionalitas dalam Explorer belum
tersedia dalam KnowledgeFlow.
KnowledgeFlow menampilkan ‘aliran data’ dalam WEKA. User dapat
memilih komponen-komponen WEKA dari toolbar, meletakkannya pada
area yang tersedia dan menghubungkannya untuk membentuk ‘aliran
pengetahuan’ pemrosesan dan analisa data.
KnowledgeFlow dapat menangani data secara incremental maupun dalam
batches (Explorer hanya menangani data batch). Tentunya pembelajaran
dari data secara incremental memerlukan sebuah classifier yang dapat
diupdate instance per instance. Dalam WEKA tersedia 5 classifiers yang
Modul Praktek Data Mining 10
Modul 1 – Klasifikasi dan Pendahuluan WEKA
dapat menangani data secara incremental: NaiveBayesUpdateable, IB1,
IBk, LWR (Locally Weighted Regression). Tersedia pula sebuah metadata
classifier – RacedIncrementalLogitBoost – yang dapat digunakan dari
berbagai basis regresi untuk data class diskrit secara incremental.
1.5 Format Data dalam WEKA
Misalnya diketahui sekumpulan data dan ingin dibangun sebuah decision
tree dari data tersebut, maka data tersebut harus disimpan dalam format ‘flat’,
ARFF karena WEKA perlu mengetahui beberapa informasi tentang tiap atribut
yang tidak dapat disimpulkan secara otomatis dari nilai-nilainya.
File ARFF (Attribute-Relation File Format) adalah sebuah file teks ASCII
yang berisi daftar instances dalam sekumpulan atribut. File ARFF dikembangkan
oleh Machine Learning Project di Department of Computer Science of The
University of Waikato untuk digunakan dalam perangkat lunak WEKA.
Pengubahan format data ini dapat dilakukan dengan mudah. Misalkan data
awal dalam format .xls (lihat gambar 2a), buka data tersebut dari Microsoft Excel
dan simpan sebagai .csv. Selanjutnya, buka file tersebut dari Microsoft Word,
notepad, atau editor teks lainnya dan data sudah berubah dalam format comma-
separated. Lalu sesuaikan data tersebut dengan menambahkan informasi awal
(gambar 2b). Hasilnya, data tersebut sudah dapat digunakan sebagai inputan
dalam WEKA.
Pastikan bahwa data dalam format .arff tersebut sudah memenuhi:
Data dipisahkan dengan koma, dengan kelas sebagai atribut terakhir.
Bagian header diawali dengan @RELATION.
Tiap atribut ditandai dengan @ATTRIBUTE. Tipe-tipe data dalam
WEKA: numerik(REAL atau INTEGER), nominal, String, dan Date.
Bagian data diawali dengan @DATA
Modul Praktek Data Mining 11
Modul 1 – Klasifikasi dan Pendahuluan WEKA
Gambar 2a. Format .csv Gambar 2b. Format .arff
Modul Praktek Data Mining 12
JURNAL MODUL 1
1. Ubahlah dataset berikut ini ke dalam format .ARFF sehingga dapat
digunakan sebagai inputan pada WEKA. Simpan hasilnya dengan nama
contact_lenses_<4 digit terakhir NIM Anda>.arff dan berikan komentar
per baris!
Index AgeSpectacle-prescrip Astigmatism
Tear-prod-rate
Contact-lenses
1 young myope no reduced None2 young myope no normal Soft3 young myope yes reduced None4 young myope yes normal Hard5 young hypermetrope no reduced None6 young hypermetrope no normal Soft7 young hypermetrope yes reduced None8 young hypermetrope yes normal Hard9 pre-presbyopic myope no reduced None
10 pre-presbyopic myope no normal Soft11 pre-presbyopic myope yes reduced None12 pre-presbyopic myope yes normal Hard13 pre-presbyopic hypermetrope no reduced None14 pre-presbyopic hypermetrope no normal Soft15 pre-presbyopic hypermetrope yes reduced None16 pre-presbyopic hypermetrope yes normal None17 presbyopic myope no reduced None18 presbyopic myope no normal None19 presbyopic myope yes reduced None20 presbyopic myope yes normal Hard21 presbyopic hypermetrope no reduced None22 presbyopic hypermetrope no normal Soft23 presbyopic hypermetrope yes reduced None24 presbyopic hypermetrope yes normal None
2. Dari dataset tersebut,
a. Modelkan dengan menggunakan decision tree
b. Dari pemodelan yang ada, lakukan pengujian tersebut dengan
contoh data baru yang Anda buat.
Modul 2
Explorer WEKA
Tujuan Praktikum
1. Mahasiswa dapat mengenal dan mengetahui tab-tab yang tersedia dalam
Explorer WEKA.
2. Mahasiswa dapat mengetahui langkah-langkah melakukan preprocess dan
klasifikasi dengan Explorer WEKA.
3. Mahasiswa dapat menerapkan preprocess dan klasifikasi dengan Explorer
WEKA pada dataset tertentu.
Pendahuluan
WEKA Knowlege Explorer adalah sebuah Graphical User Interface (GUI)
yang mudah digunakan dalam WEKA. Tiap paket utama WEKA (Preprocess,
Classify, Cluster, Associate, dan Select Attributes) ditampilkan bersama perangkat
Visualization yang memungkinkan himpunan data Classifiers dan Clusterers
divisualisasikan dalam 2 dimensi.
Selama bekerja dalam Explorer WEKA, user dapat mengetahui informasi
tentang kegiatan yang dilakukan dalam WEKA dengan meng-klik tombol Log di
tepi kanan bawah tiap tab.
Modul 2 – Explorer WEKA
2.1 Tab Preprocess
Gambar di atas menunjukkan tampilan tab Preprocess setelah load sebuah
dataset (Iris.arff) dengan 150 instances dan 5 atribut, yaitu spallength, spallwidth,
petallength, petallwidth dan class. Pada bagian kanan terdapat selected attribute,
hal ini menunjukkan keterangan yang lebih terhadap attribut yang kita pilih
berdasarkan tipe data yang ada seperti real, boolean( yes, no) ato sesuai dengan
Modul Praktek Data Mining 15
Modul 2 – Explorer WEKA
kriteria yang dinginkan oleh user. Misal, bila kita pilih attribute spallength, maka
keterangan yang muncul adalah
a. nilai minimum : 4.3
b. nilai maksimum : 7.9
c. Rata – rata (Mean) :5.843
d. Standar deviasinya ( StdDev ) : 0.828
Hal tersebut muncul karena attribute spallength mempunyai tipe data real.
Begitupun bila terdapat atribute rasa ( manis, pahit, asin ), maka 3 tipe rasa itu
akan muncul berapa jumlah yang ada pada datanya.
Visualisasi tiap atribut dapat dilihat dengan meng-klik tombol Visualize.
Visualisasi ini menggunakan diagram batang, yang mengilustrasikan jumlah dari
masing-masing tipe pada atribut yang ada. Seperti pada atribut class terdapat tiga
tipe yaitu iris-sentosa, iris-versicolor dan iris-virgina, di visulisasikan dengan
diagram batang yang mempunyai jumlah nilai yang sama yaitu 50.
Pada tab ini user dapat menentukan filter unsupervised yang akan
diterapkan pada data. Filter berperan dalam mengubah data dengan berbagai cara.
Klik pada filter tertentu yang telah dipilih akan memunculkan sebuah kotak dialog
GenericObjectEditor yang memungkinkan user mengkonfigurasikan pilihan-
pilihan pada filter. Untuk mengetahui informasi lebih lengkap tentang filter yang
dipilih, user dapat meng-klik tombol More.
2.2 Tab Classify
Modul Praktek Data Mining 16
Modul 2 – Explorer WEKA
Classifiers dalam WEKA adalah model-model prediksi nominal maupun
numerik. Skema pembelajaran yang diimplementasikan antara lain decision trees
dan lists, instance-based classifiers, support vector machines, multi-layers
perceptrons, logistic regression. ‘Meta’ classifiers antara lain: bagging, boosting,
stacking, error-correcting output codes, locally weighted learning. Clusters dapat
divisualisasi dan dibandingkan dengan cluster ‘sesungguhnya’.
Tab ini memungkinkan user mengkonfigurasi dan mengeksekusi tiap
classifier WEKA pada himpunan data tertentu. User dapat memilih classifier
tertentu yang akan digunakan. Tersedia pula pilihan pengujian bagi user di bawah
bagian pemilihan classifiers, yaitu:
Use training set. Classifier dievaluasi pada kemampuannya memprediksi
class dari instances yang diujikan.
Supplied test set. Pengujian kemampuan classifier dilakukan terhadap
himpunan instances terpisah yang di-load dari sebuah file.
Cross-validation. Classifier dievaluasi dengan cross-validation, menurut
jumlah folds yang dimasukkan pada kolom Folds.
Modul Praktek Data Mining 17
Modul 2 – Explorer WEKA
Percentage split. Evaluasi clasifier dilakukan pada sejumlah persentase
tertentu dari data yang digunakan untuk pengujian.
Setelah classifier, pilihan-pilihan pengujian, dan class telah ditentukan,
proses pembelajaran dapat dimulai dengan klik tombol Start. User dapat
menghentikan proses ini sewaktu-waktu dengan tombol Stop. Saat training
selesai, area output classifier di sebelah kanan menampilkan teks yang
menggambarkan hasil training dan pengujian. Sebuah entry baru juga muncul di
kotak Result list.
Teks yang dihasilkan pada area output classifier berisi informasi tentang
pilihan-pilihan skema, nama relasi, instances, atribut-atribut dan mode pengujian;
model classifier dengan himpunan training lengkap, hasil mode pengujian yang
dipilih, summary, akurasi terperinci menurut class, serta matriks confusion.
Errors klasifikasi dapat divisualisasikan dalam sebuah tool visualisasi data
pop-up. Jika classifier menghasilkan sebuah decision tree, dapat ditampilkan
secara grafis dalam sebuah pop-up tree visualizer.
Modul Praktek Data Mining 18
Modul 2 – Explorer WEKA
2.3 Tab Cluster
Tab ini serupa dengan classification, dengan sedikit perbedaan menurut
option yang ditentukan user. Misalnya, user dapat dengan mudah mengabaikan
beberapa atribut yang tidak diinginkan.
Dari tab ini user dapat mengkonfigurasi dan mengeksekusi tiap clusterers
WEKA pada himpunan data tertentu untuk menemukan kelompok-kelompok dari
instances yang sama dalam sebuah himpunan data. Skema-skema yang dapat
diimplementasikan antara lain: k-Means, EM, Cobweb, X-means, FarthestFirst.
Clusters dapat divisualisasikan dalam sebuah tool visualisasi data.
Kotak cluster mode digunakan untuk memilih apa yang akan di-cluster
dan bagaimana melakukan evaluasi terhadap hasilnya. Tiga pilih pertama serupa
dengan yang terdapat pada klasifikasi: Use training set, Supplied test set dan
Percentage split – kecuali bahwa sekarang data akan diolah dengan clustering.
Mode keempat, Classes to clusters evaluation, membandingkan seberapa baik
clusters yang terpilih sesuai dengan class yang telah ditentukan sebelumnya.
Modul Praktek Data Mining 19
Modul 2 – Explorer WEKA
2.4 Tab Associate
WEKA hanya mengimplementasikan sebuah algoritma untuk asosiasi,
yaitu algoritma Apriori, untuk mempelajari aturan-aturan asosiasi. Asosiasi ini
hanya bekerja dengan data diskrit untuk menentukan ketergantungan antara
himpunan atribut. Apriori dapat menghitung seluluh aturan yang memenuhi nilai
minimum support dan confidence.
Dari tab ini user dapat mempelajari himpunan data tertentu untuk
menghasilkan aturan-aturan asosiasi menggunakan associators WEKA. Setelah
parameter-parameter tertentu diset, klik tombol Start. Saat proses selesai
dilakukan, klik kanan pada sebuah entry pada daftar hasil memungkinkan hasilnya
dilihat atau disimpan.
Modul Praktek Data Mining 20
Modul 2 – Explorer WEKA
2.5 Tab Select Atribute
WEKA juga menyediakan teknik-teknik untuk mengabaikan atribut-atribut
yang tidak relevan dan/atau mengurangi dimensionalitas dari dataset. Setelah
loading sebuah dataset, klik tab ini untuk memilih metode evaluasi (misalnya,
Principal Components Analysis, correlation-based, wrapper, information gain,
chi-squared,) dan metode pencarian (misalnya, greedy, exhaustive, best-first,
forward selection, random, genetic algorithm, atau ranking). Berdasarkan
kombinasi yang dipilih, waktu aktual yang diperlukan untuk pemilihan atribut
dapat bervariasi atau sangat lama, bahkan untuk dataset kecil dengan sedikit
atribut dan sedikit instances. Ingat bahwa tidak semua kombinasi metode
evaluasi/pencarian valid, lihat pesan error di Status bar.
Pemilihan atribut terdiri atas pencarian pada seluruh kombinasi yang
mungkin dari atribut-atribut pada data untuk menentukan subset atribut mana
yang paling baik untuk prediksi. Untuk melakukannya, 2 objek harus diset:
sebuah evaluator atribut dan sebuah metode pencarian. Evaluator menentukan
Modul Praktek Data Mining 21
Modul 2 – Explorer WEKA
metode yang digunakan untuk menilai tiap subset dari atribut. Metode pencarian
menentukan gaya pencarian yang diterapkan.
Mode pemilihan atribut menyediakan 2 pilihan:
Use full training set. Nilai subset atribut ditentukan dengan himpunan data
training yang lengkap.
Cross-validation. Nilai subset atribut ditentukan dengan sebuah proses
validasi. Fields Folds dan Seed mengeset jumlah folds yang digunakan
dan seed random yang digunakan saat melakukan shuffle pada data.
2.4 Tab Visualize
Tab ini menampilkan matriks plot 2 dimensi untuk himpunan data tertentu.
Ukuran sel-sel individu dan titik-titik yang ditampilkan dapat dipilih dengan slider
di bagian bawah tab. Jumlah sel dalam matriks dapat diubah dengan ‘Select
Attribute’ lalu memilih atribut tertentu untuk ditampilkan. Jika himpunan data
besar, performansi plotting dapat ditingkatkan dengan menampilkan subsample
Modul Praktek Data Mining 22
Modul 2 – Explorer WEKA
himpunan data tertentu. Klik pada sebuah sel pada matriks menampilkan sebuah
window tab plot yang lebih besar yang menampilkan view dari sel tersebut.
Tab ini juga dapat menampilkan window terpisah dari tab classifier dan
tab cluster yang memungkinkan user memvisualisasikan prediksi yang dibuat
oleh classifiers/ clusterers. Jika class diskrit, titik-titik yang diklasifikasikan
dengan salah ditunjukkan dengan sebuah kotak berwarna sesuai class yang
diprediksi oleh classifier; sedangkan jika class kontinu, ukuran tiap titik yang di-
plot bervariasi dengan proporsi sesuai besarnya error yang dibuat oleh classifier.
Titik-titik data diplot pada area utama pada window. Di bagian atas
terdapat 2 tombol daftar drop-down untuk pemilihan sumbu x dan y yang diplot.
User juga dapat memilih skema warna yang digunakan, berdasarkan atribut yang
dipilih. Di bawahnya, sebuah legend mencatat nilai-nilai apa yang digambarkan
oleh warna-warna tertentu. Jika nilainya diskrit, user dapat memodifikasi warna
yang digunakan masing-masing dengan klik dan membuat sebuah seleksi yang
sesuai pada window yang muncul.
Modul Praktek Data Mining 23
Modul 2 – Explorer WEKA
JURNAL MODUL 2
1. Gunakan WEKA dan dataset Iris untuk menjawab pertanyaan-pertanyaan
berikut:
a. Berapa banyak atribut dan instances dalam dataset?
b. Lihat visualisasi distribusi nilai-nilai atribut. Apa yang dapat Anda
ceriterakan dari distribusi-distribusi tersebut? Atribut(-atribut) manakah
yang menurut Anda sangat berpengaruh terhadap keanggotaan kelas?
Mengapa?
c. Tuliskan hasil klasifikasi (tanpa filter, dengan J48 sebagai classifier, dan
pengujian dilakukan dengan dataset yang sama) yang diperoleh dalam
bentuk IF ... THEN ... !
2. Lakukan preprocess dan klasifikasi pada dataset contact_lenses.arff yang
Anda buat pada praktikum sebelumnya dengan Explorer WEKA (dengan filter
Normalize dan classifier J48) lalu tuliskan hasilnya dan berikan komentar!
Gunakan dataset berikut ini untuk pengujian.:
Index AgeSpectacle-prescrip Astigmatism
Tear-prod-rate
Contact-lenses
1 young hypermetrope yes reduced none2 presbyopic myope no reduced none3 pre-presbyopic hypermetrope yes normal none4 young myope no normal soft5 presbyopic myope no normal none6 young hypermetrope no normal soft7 pre-presbyopic myope no normal soft8 young hypermetrope yes normal hard9 presbyopic myope no reduced none
10 young myope no reduced none
Modul Praktek Data Mining 24
Modul 3
Magnum Opus
Tujuan Praktikum
1. Mengenal dan mengetahui perangkat ‘Magnum Opus’ dalam Data Mining
2. Mengetahui dan memahami cara menggunakan perangkat ‘Magnum Opus’
3. Mengimplementasikan Data Mining secara praktis
Pendahuluan
Magnum opus menyediakan kekuatan terkini dalam teknologi pencarian
pola. Dengan fleksibilitas yang tidak terbanding dan mudah digunakan, ia mampu
mencari pola baru dan yang tidak disangka sebelumnya dari sekumpulan data.
Gunakan Magnum Opus untuk membuka kekayaan yang implisit dari data kita.
Magnum Opus menggunakan teknik pencarian pola k-most interesting
yang unik. Magnum Opus menyediakan pola yang paling menarik berdasarkan
ukuran yang kita pilih. Magnum Opus juga merupakan satu-satunya system yang
mendukung deteksi statistik suara dari pola tiruan.
Beberapa fitur penting lainnya :
1. Mudah untuk digunakan dan tidak memberanikan diri pada pengetahuan
tingkat tinggi dari statistik dan Machine Learning
2. Pola di ekspresikan dalam sebuah bentuk yang sederhana untuk dimengerti
3. Meliputi sebuah fasilitas unik yang secara otomatis menyaring pola tiruan
4. Tidak seperti perangkat yang lain, ia tidak bergantung kepada data yang
berserakan untuk proses yang efisien
5. Mencari pola yang berasal baik itu data transaksi dan data nilai atribut
6. Magnum Opus didesain untuk menganalisa substansial databases yang
mengandung jutaan record
7. Memiliki waktu komputasi linear. Sehingga memiliki kinerja yang cepat.
8. Fleksibel. Pilihan beda pencarian mendukung jangkauan yang luas dalam
membedakan tujuan analitis
Modul 3 – Magnum Opus
3.1 Tentang Magnum Opus
Tampilan depan Magnum Opus
Magnum Opus Menganalisa data untuk mendeteksi pola dari data tersebut.
Sebuah pola Magnum Opus mengidentifikasi sebuah kombinasi dari nilai atribut
atau item yang ada dengan frekuensi tertinggi dan diharapkan jika nilai atau item
tidak bergantung satu sama lainnya. Atribut khusus ‘?’ menandakan tidak ada
nilai nilai dalam atribut tersebut. Beberapa tipe atribut :
1. Categorical : nilai dari atribut digunakan secara langsung tanpa diproses
sebelumnya
2. Attribut : nilai ini meliputi bilangan, tetapi system memperlakukan tiap
bilangan secara sederhana sebagai sebuah identifier
3. Numerik : nilai atribut berupa numerik. Nilai ini harus dibagi lagi.
Atribut nilai ini dibagi kedalam sub-ranges yang dijelaskan
dalam names-file.
Modul Praktek Data Mining 26
Modul 3 – Magnum Opus
Pola memiliki 2 bagian, sebuah Left Hand Side (LHS) dan sebuah Right
Hand Side (RHS). LHS adalah sebuah kumpulan dari satu atau beberapa nilai
atribut atau item. RHS adalah sebuah atribut atau item tunggal. Sejumlah nilai
terdaftar dari tiap pola :
1. Coverage : sejumlah kasus dalam data yang terliputi atau ter-cover oleh
pola LHS. Misalkan terdapat 1000 kasus dan LHS cover 200 kasus. Nilai
coverage-nya adalah 200 dan coverage proportion-nya 200/1000 = 0.2
2. RHS Coverage : sejumlah kasus dalam data yang terliputi atau ter-cover
oleh pola RHS. Misalkan terdapat 1000 kasus dan RHS cover 100 kasus.
Nilai coverage-nya 200 dan coverage proportionnya 100/1000 = 0.1
3. Support : sejumlah kasus dalam data yang terliputi atau ter-cover oleh pola
LHS dan RHS. Misalkan terdapat 1000 kasus dan LHS dan RHS
tergabung meng-cover 200 kasus. Nilai Support Count-nya adalah 200
dan support proportion-nya adalah 200/1000 = 0.2
4. Strength : proporsi dari contoh yang ter-cover oleh LHS yang ter-cover
juga oleh RHS. Atau sama saja sebagai probabilitas kasus yang memenuhi
RHS jika telah memenuhi LHS. Misalkan LHS meng-cover 200 kasus dan
RHS meng-cover 50 dari kasus yang ter-cover oleh LHS. Nilai Strength-
nya adalah 50/200 = 0.25
5. Lift : nilai Strength dibagi RHS coverage proportion. Misalkan ada 1000
contoh, LHS meng-cover 200 contoh, RHS meng-cover 100 contoh, dan
RHS meng-cover 50 dari contoh yang ter-cover LHS. Strength = 50/200 =
0.25. RHS cover proportion = 100/1000 = 0.1. Lift = 0.25/0.1 = 2.5
6. Leverage : sejumlah kasus tambahan yang ter-cover baik itu oleh LHS dan
RHS dan dipenuhi jika LHS dan RHS tidak bergantung satu sama lainnya.
Misalkan terdapat 1000 kasus, LHS meng-cover 200 kasus, RHS meng-
cover 100 kasus, RHS meng-cover 50 dari kasus yang ter-cover oleh LHS.
Proporsi dari contoh yang ter-cover baik itu oleh LHS dan RHS adalah
50/1000 = 0.05. Jumlah contoh yang diharapkan ter-cover oleh LHS dan
RHS jika mereka tidak saling bergantung satu sama lain = 200*100/1000
Modul Praktek Data Mining 27
Modul 3 – Magnum Opus
= 20. Leverage count = 50-20 = 30. Leverage Proportion = 30/1000 =
0.03.
3.2 Data Transaksi dan Data Attribute -Value
Magnum Opus digunakan dalam 2 tipe data berbeda, yaitu : Data
Transaksi dan Data Attribute-Value. Data transaksi mengandung kumpulan dari
item. Seperti data market basket, dimana tiap transaksi adalah kumpulan item
yang dibeli oleh pelanggan dalam sebuah transaksi.
Data Attribute-value adalah sekumpulan kasus, tiap kasus dijelaskan oleh
sebuah nilai atribut. Tiap kasus memiliki nilai tunggal untuk tiap atribut. Atribut
dapat berupa nilai categorical atau numeric.
Data Transaksi dapat di import dari 2 tipe file yaitu :
1. identifier-item files : adalah sebuah file text yang mencatat transaksi untuk
di analisa kedalam format identifier-item. Tiap transaksi memiliki sebuah
identifier unik. Tiap baris mengasosiasikan sebuah identifier transaksi
dengan sebuah item dalam transaksi tersebut. Tiap baris setidaknya
memiliki 2 kolom, 1 untuk identifier dan satu lagi untuk item. Contoh :
001,apples
001,oranges
001,bananas
002,apples
002,carrots
002,lettuce
002,tomatoes
dimana transaksi 001 meliputi apples, oranges, dan bananas, dan transaksi
002 meliputi apples, carrots, lettuce, tomatoes
2. item-list files : sebuah file teks yang mencatat transaksi untuk dianalisa,
dimana tiap baris mengandung daftar item dalam sebuah transaksi.
apples,oranges,bananas
apples,carrots,lettuce,tomatoes
Transaksi pertama : apples,oranges,bananas , transaksi kedua :
apples,carrots,lettuce,tomatoes
Modul Praktek Data Mining 28
Modul 3 – Magnum Opus
Tiap kumpulan data Attribute-value harus dijelaskan oleh 2 file, yaitu :
1. names file : sebuah file teks yang mencatat atribut yang dijelaskan di kasus
dalam data file untuk di analisa.
Tiap atribut dijelaskan dalam beberapa baris. Tiap baris dimulai dengan
nama atribut. Untuk atribut categorical, nama atribut diikuti dengan (:) dan
tiap nilai di pisahkan dengan (,)/koma.
Contoh : Department: bakery, dairy, beverages
Untuk atribut numeric dengan beberapa sub-ranges, nama atribut diikuti
dengan bagian dari tiap sub-range.
Contoh : spend < 10 <= 100, hal ini menandakan atribut memiliki 3 sub-
range
Spend < 10
10 <= Spend <= 100
Spend > 100
2. Data File : sebuah file teks yang mencatat kasus untuk dianalisa dalam
analisa data attribute-value. Kasus di catat per baris. Untuk tiap kasus,
nilainya harus disiapkan untuk tiap atribut. Nilai atribut untuk sebuah
kasus harus dicatat dalam urutan yang ada di dalam names file.
Nilai atribut khusus ‘?’ menandakan tidak ada nilai yang tersedia untuk
atribut tersebut. Missing value juga bisa diindikasikan dengan empty field.
Contoh : ?,2,?,?
3.3 Menggunakan Magnum Opus dengan data transaksi :
pengenalan penggunaan
Bagian ini memperkenalkan proses menganalisis contoh data transaksi
terdistribusi menggunakan Magnum Opus. Data sederhana berikut menampilkan
tipe data yang biasa terjadi pada transaksi pelanggan di supermarket. Karena
Magnum Opus mendukung 2 alternatif format file data transaksi, data yang sama
telah disediakan untuk tiap format. File tutorial.idi menjelaskan transaksi dalam
format identifier-item file. File tutorial.itl menjelaskan data dalam format item list
file. Untuk membedakan kedua format, maka untuk format identifier-item anda
Modul Praktek Data Mining 29
Modul 3 – Magnum Opus
harus memilih kolom yang mengandung identifier dan item, tutorial ini
menggunakan format identifier-item Hasil yang identik dapat diraih juga
menggunakan item list file.
identifier-item file, tutorial.idi, meliputi 2583 baris, dimulai sebagai berikut :
ID001, bananas
ID002, plums
ID002, lettuce
ID002, tomatoes
ID003, celery
ID003, confectionery
ID004, confectionery
ID005, apples
ID005, carrots
ID005, tomatoes
ID005, potatoes
11 Baris pertama menjelaskan 5 transaksi, tiap transaksi dibagi dengan
beberapa identifier. Seluruhnya terdapat 1000 transaksi yang dijelaskan di dalam
file. Pada Transaksi pertama, ID001, hanya satu item yang dibeli, bananas. Pada
transaksi kedua, ID002, terdapat 3 item yang dibeli, plums, lettuce, and tomatoes.
3.3.1 Run Magnum Opus
Dapat dilakukan dengan men-double click icon Magnum Opus atau
memilih Magnum Opus dari Start menu.
3.3.2 Import the data
Untuk mengimport data secara biasa dapat dilakukan dengan meng-click
tombol import data toolbar. atau dengan mengklik icon berikut. ,
pilih file tutorial.idi dan klik Open. Import Data Wizard next meminta
identifikasi dari format data yang diimport
Modul Praktek Data Mining 30
Modul 3 – Magnum Opus
Magnum Opus mengenali ekstensi file untuk identifier-item files dan
memilih format tersebut. Setelah Magnum Opus memilih format yang
benar, click the Next > button untuk memprosesnya. Kemudian Anda
akan diminta mengidentifikasi apakah file diurutkan berdasarkan
identifier.
Import data Identifier-item secara substansial cepat jika Magnum Opus
dapat mengasumsikan bahwa data tersebut dikelompokkan jadi seluruh
record untuk tiap identifier disimpan secara sekuensial. Data tutorial
dikelompokkan pada bagian ini, jadi pilih Yes dan click tombol Next >
untuk melanjutkan. Sekarang anda diminta mengidentifikasi pembatas
yang membagi field dalam file data.
Modul Praktek Data Mining 31
Modul 3 – Magnum Opus
Field dalam data tutorial menggunakan pembatas standar, koma, yang
telah terpilih, jadi click Next > untuk memproses. Sekarang anda diminta
untuk memilih kolom yang mengandung identifiers dan items.
Pada contoh berikut, inisialisasi pemilihan tidak perlu diubah, jadi click
Next > untuk memproses. Sekarang anda diminta untuk memmilih
proporsi dari kasus untuk di-import. Jika anda berharap untuk merandam
contoh transaksi dari file data, pilih persentasi dari transaksi untuk
dijadikan sample.
Modul Praktek Data Mining 32
Modul 3 – Magnum Opus
Dalam tutorial ini kita menggunakan 50% sampel, jadi 50 tipe dalam edit
box. Tampilan Data Import Wizard sebagai berikut :.
Sekarang click Next > untuk memproses ke tampilan terakhir.
Tampilan berikut memberikan anda untuk memilih sebuah holdout
treatment. Holdout evaluation menggunakan sebuah tes statistik untuk
Modul Praktek Data Mining 33
Modul 3 – Magnum Opus
semua pola yang ditemukan untuk menentukan apakah secara statistik
mereka signifikan. Hal ini meminta penggunaan urutan yang kedua yaitu
holdout data. Satu pilihan untuk mendapatkan data holdout menggunakan
out-of-sample data. Berikut tampilannya :
Selesai, lalu click Import Data untuk import data dengan pilihan sesuai
yang kita set. Kemudian Magnum Opus akan menampilkan tampilan
berikut :
Modul Praktek Data Mining 34
Modul 3 – Magnum Opus
Modul Praktek Data Mining 35
Modul 3 – Magnum Opus
3.3.3 Memilih opsi untuk pencarian berdasarkan leverage
Untuk pencarian pertama kita akan menggunakan mode pencarian secara
default. Untuk kemudahan demonstrasi kita akan membatasi untuk
mencari hanya 10 pola saja. Karena pencarian berdasarkan mode leverage,
maka akan ditampilkan 10 pola dengan nilai tertinggi saja.
Untuk membatasi pencarian dengan 10 pola saja, rubah nilai dalam edit
box Maximum no. of rules menjadi 10. Tampilannya sebagai berikut :
3.3.4 Menjalankan Pencarian berdasarkan leverage
Setelah mengeset untuk pencarian, click tombol GO untuk memulai
pencarian. Magnum Opus membuka sebuah dialog yang
memungkinkan Anda memilih sebuah file output. Nama tidak terlalu
Modul Praktek Data Mining 36
Modul 3 – Magnum Opus
dipentingkan dalam tutorial ini, anda dapat menerimanya secara sederhana
default dengan meng-klik SAVE.
Selama eksekusi pencarian progress akan ditampilkan dalam Status bar
pada bottom-left-hand di jendela Magnum Opus.
3.3.5 Menampilkan output
Setelah pencarian selesai, aplikasi tampilan akan menampilkan
output. Daftar file output:
nama file data,
jumlah kasus yang di-load dari file data,
jumlah nilai atribut dalam data,
waktu pencarian, dan
setting yang digunakan untuk pencarian.
3.3.6 Membedah pola
Pola pertama dari contoh file output berikut
lettuce
is associated with tomatoes
with strength = 0.477
coverage = 0.222: 111 cases satisfy the LHS
support = 0.106: 53 cases satisfy both the LHS and the RHS
lift = 1.96: the strength is 1.96 times greater than if
there were no association
leverage = 0.0518: the support is 0.0518 (25 cases) greater
than if there were no association
LHS dari pola ini ditampilkan pada baris pertama. RHS ditampilkan pada
akhir dari baris kedua. Pola ini menandakan bahwa lettuces berasosiasi
dengan tomatoes lebih tinggi frekuensinya dibandingkan dengan dari
keseluruhan rata-rata transaksi. Oleh karena itu, Frekuensi asosiasi antara
transaksi yang mengandung LHR maupun RHS lebih besar dibandingkan
yang secara normal
Modul Praktek Data Mining 37
Modul 3 – Magnum Opus
3.3.7 Menjalankan Pencarian berdasarkan Lift
Jurnal Modul 3 Magnum Opus : Data Transaksi
1. Misalkan pada sebuah data transaksi belanja (menggunakan data
tutorial.idi) seorang manager melihat bahwa terdapat asosiasi antar data,
misal : a-> b , kemudian rata-rata data yang tercover oleh asosiasi data
tersebut, misal a->b, untuk a : 1000 kasus, sedangkan untuk b : 300 kasus,
kemudian data tersebut tercover secara irisan antara, a,b : 200 kasus. Data
yang tercover oleh a dari data yang tercover b(200 kasus) : 100 kasus.
hitung nilai : coverage, RHS coverage, support, Strength, lift,leverage
2. Praktekan menggunakan tools : data Transaksi Magnum Opus!
3. Tulis 3 Rules yang ada, analisa!
Modul Praktek Data Mining 38
Modul 3 – Magnum Opus
Modul Praktek Data Mining 39
Modul 4
Menggunakan Magnum Opus Dengan Attribute-Value
Data: Pengenalan Penggunaan
Tujuan praktikum
1. Mahasiswa mengetahui lebih dalam magnum Opus
2. Mahasiswa dapat menggunakan Magnum Opus dengan attribute value
data.
Sama seperti pada penggunaan data transaksi. Namun attribute-value data
meliputi 2 file: Pertama names file. Yang kedua data file. Names file menjelaskan
attributes yang disimpan pada data file. Pada sesi ini kita menggunakan contoh
file : tutorial.nam and tutorial.data. names file, tutorial.nam, mengandung hal-
hal berikut:
Profitability99: numeric 3
Profitability98: numeric 3
Spend99: numeric 3
Spend98: numeric 3
NoVisits99: numeric 3
NoVisits98: numeric 3
Dairy: numeric 3
Deli: numeric 3
Bakery: numeric 3
Grocery: numeric 3
SocioEconomicGroup: categorical
Promotion1: t, f
Promotion2: t, f
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
4.1 Run Magnum Opus
Sama seperti data transaksi
4.2 Import the data
Magnum Opus kini meminta pilihan file data yang akan dipakai.
Ikuti langkah-langkah pada gambar
Modul Praktek Data Mining 41
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
Kita menggunakan percentage 50
Ikuti langkah-langkah pada gambar
Modul Praktek Data Mining 42
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
Modul Praktek Data Mining 43
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
Ikuti langkah-langkah pada gambar. Akan dijelaskan selengkapnya pada
saat praktikum.
Modul Praktek Data Mining 44
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
4.3 Menjalankan Pencarian berdasarkan leverage
Selengkapnya pada saat praktikum
4.4 Melihat output
Daftar file yang tampil :
the name of the names file,
the name of the data file,
the number of cases loaded from the data file,
the number of attribute values in the data,
the time at which the search commenced, and
the settings used for the search.
4.5 Menjalankan pencarian berdasarkan lift
Selengkapnya pada saat praktikum.
Modul Praktek Data Mining 45
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
4.6 Menjalankan pencarian berdasarkan lift tanpa penyaringan
Modul Praktek Data Mining 46
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
4.7 Batasan
Magnum Opus memiliki beberapa batasan sebagai berikut
Names dibatasi maksimum 256 karakter. Nama yang panjang diharapkan,
namun 2 nama berbeda melebihi 256 karakter dianggap sama. Batasan ini
digunakan untuk nama atribut, attribute-values, identifiers dan items.
Jumlah kasus dibatasi maksimum 2,147,483,647.
Untuk data attribute-value, jumlah atribut dan attribute-value keduanya
dibatasi maksimum 2,147,483,647.
Untuk data transaksi, jumlah item dibatasi maksimum 2,147,483,647.
Untuk data identifier-data, jumlah identifier transaksi dibatasi maksimum
2,147,483,647.
Modul Praktek Data Mining 47
Modul 4 – Menggunakan Magnum Opus Dengan Attribute-Value Data: Pengenalan Penggunaan
Jurnal Modul 4 Magnum Opus : Attribute-value
1. Praktekan contoh diatas menggunakan tools : attribute value Magnum
Opus!
2. Tulis 3 Rules yang ada, analisa!
Modul Praktek Data Mining 48
Modul 5
See5
Tujuan Praktikum :
1 Mengenal dan mengetahui See5 sebagai tool data mining
2 Memahami cara menggunakan See5
3 Mengimplementasikan Data Mining secara praktis
5.1 Pendahuluan
See5 adalah tool data mining yang cukup kompleks dan digunakan untuk
menemukan pola-pola yang menggambarkan kategori, mengumpulkan kategori-
kategori itu ke dalam classifier, dan menggunakan kategori-kategori itu untuk
membuat prediksi. Keunggulan See5 adalah penekanan rule-based classifiers
yang menyebabkan See5 lebih mudah dimengerti – setiap rule dapat diujicobakan
dan divalidasi secara terpisah, tanpa harus mengetahui pengertian menyeluruh dari
classifier-.
Keunggulan yang lain dari See5 adalah kecepatannya dalam menganalisa data -
waktu terlama yang pernah dicatat adalah 14 detik bila dioperasikan pada
komputer yang cepat untuk menganalisa 100.000 kasus dan 40 atribut - Selain
itu, See5 juga bisa menggenerate decision trees pada kondisi dimana classifiers
harus dibangun dalam waktu yang singkat
File-file yang diperlukan dalam menganalisa data menggunakan See5 adalah
sbb :
.names file ini berisi deskripsi dari atribut aplikasi [required]
.data kasus-kasus yang digunakan untuk
menggenerate classifier[required]
.test Kasus yang digunakan untuk menguji [optional]
Modul 5 – See5
classifier
.cases Kasus yang akan diklasifikasikan secara
berurutan[optional]
.costs Differential misclassification costs [optional]
.tree decision tree classifier yang dihasilkan oleh
See5 [output]
.rules ruleset classifier yang dihasilkan oleh See5 [output]
.out laporan yang dihasilkan ketika classifier
degenerate[output]
.set setting yang digunakan untuk classifier yang
terakhir[output]
5.1.1 Names file
File yang berekstensi names (seperti pemilu.names) adalah file yang
menggambarkan atribut dan class. Ada dua subgroup yang penting dari atribut,
yaitu :
Nilai dari atribut yang terdefinisi secara explisit (explicitly-defined
attribute) yang diberikan secara langsung ke data. Atribut discrete
memiliki nilai yang diambil dari kumpulan nilai nominal, atribut
continuous memiliki nilai numeric, atribut date bertipe tanggal kalender,
atribut time bertipe waktu jam, atribut timestamp bertipe waktu dan
tanggal, dan atribut label hanya dipakai untuk kasus-kasus tertentu.
Nilai dari atribut yang terdefinisi secara implisit (implicitly-defined
attribute) yang dispesifikasikan oleh sebuah formula (rumus).
(Kebanyakan atribut yang digunakan adalah atribut yang terdefinisi secara
explisit, jadi mungkin kita tidak pernah menggunakan atribut yang
terdefinisi secara implisit.)
Contoh isi dari file pemilu.names sebagai berikut :
Modul Praktek Data Mining 50
Modul 5 – See5
K,L,M,N. | nilai dari atribut target
Jenis : kota, kabupaten.
Kepadatan_Penduduk : continuous.
Total_APBD : continuous.
Pulau : sumatera, jawa, bali & NTT, kalimantan, sulawesi.
Kegiatan_Ekonomi : A,B,C,D,E.
5.1.2 Atribut yang terdefinisi secara explisit
Nama dari setiap atribut yang terdefinisi secara explisit diikuti oleh titik dua `:'
dan nilai dari atribut itu sendiri. Ada enam kemungkinan :
continuous
Atribut yang memiliki nilai numerik.
date
Nilai dari atribut tanggal berada dalam bentuk YYYY/MM/DD atau
YYYY-MM-DD, seperti 1999/09/30 atau 1999-09-30.
time
Nilai dari atribut waktu berada dalam bentuk HH:MM:SS dengan nilai di
antara 00:00:00 dan 23:59:59.
timestamp
Nilai dari atribut ini berada dalam bentuk YYYY/MM/DD HH:MM:SS
atau YYYY-MM-DD HH:MM:SS, seperti 1999-09-30 15:04:00.
(Perhatikan bahwa ada spasi yang memisahkan di antara tanggal dan
waktu.)
daftar nilai atribut bertipe discrete yang dipisahkan oleh koma
Bila tipe dari nilai atribut adalah bukan bilangan, maka ia bisa diurutkan.
Seperti :
nilai : [diurutkan] rendah, sedang, tinggi
Bentuk dari nilai atribut ini bisa menjadi atribut target. Sedangkan untuk
tipe dari nilai atribut yang merupakan bilangan, ia tidak bisa digunakan
sebagai atribut target.
Modul Praktek Data Mining 51
Modul 5 – See5
label
Atribut ini terdiri dari label yang mengidentifikasikan setiap kasus seperti
nomor rekening.
5.1.3 Dates, times, and timestamps
Dates disimpan oleh See5 sebagai jumlah hari sejak tanggal mulai tertentu
sehingga beberapa operasi pada atribut dates menjadi masuk akal. Dengan begitu,
jika kita memiliki atribut
d1: date.
d2: date.
Kita bisa mendefinisikan
interval := d2 - d1.
gap := d1 <= d2 - 7.
d1-day-of-week := (d1 + 1) % 7 + 1.
interval kemudian merepresentasikan jumlah hari dari d1 sampai d2. Gap
menghasilkan nilai true atau false yang mengisyaratkan bahwa d1 itu minimal
seminggu jaraknya dari d2. Mirip dengan dates, times juga disimpan sebagai
jumlah dari detik sejak tengah malam. Sebagai contoh, jika file .names terdiri dari
start: time.
finish: time.
elapsed := finish - start.
Maka nilai dari elapsed adalah jumlah detik dari start sampai finish.
Timestamps sedikit lebih kompleks. Timestamp dibulatkan menuju menit
terdekat, sebagai contoh, jika
departure: timestamp.
arrival: timestamp.
flight time := arrival - departure.
maka nilai dari flight time adalah jumlah menit dari departure menuju
arrival.
5.1.4 Memilih atribut yang bisa muncul pada classifier
Modul Praktek Data Mining 52
Modul 5 – See5
Cara pendeklarasian yang lain di file .names mempengaruhi cara See5
membangun classifiernya. Contoh pendeklarasiannya sbb :
attributes included:
attributes excluded:
masing-masing entry lalu diikuti dengan daftar nama atribut yang dipisahkan
dengan koma. Bentuk pertama membatasi atribut yang dipergunakan di classifier
hanya untuk atribut yang tercatat di file .names, sedangkan bentuk kedua
menspesifikasikan bahwa classifier tidak boleh menggunakan atribut apapun dari
file .names
atribut yang tidak dimasukkan sebagai classifier bukan berarti atribut itu
“diabaikan”. Sebagai contoh, misalnya atribut numerik A dan B didefinisikan di
data, tapi sebenarnya yang dibutuhkan adalah selisih dari keduanya, maka
file .names berisi entri-entri sbb: . . .A: continuous.
B: continuous.
Diff := A - B.
. . .
attributes excluded: A, B.
Pada contoh di atas, atribut A dan B tidak bisa didefinisikan diabaikan karena
kalau diabaikan, maka definisi Diff akan menjadi tidak valid.
5.1.5 Data file
File penting kedua adalah file data aplikasi (seperti pemilu.data) yang menyediakan
informasi dari training case yang mana See5 akan mengambil pola dari training
case tersebut. Entri dari setiap kasus terdiri dari satu atau lebih baris data yang
akan memberikan nilai untuk semua atribut yang terdefinisi secara eksplisit. Nilai-
nilainya dipisahkan dengan koma dan entrinya tidak diakhiri dengan tanda
apapun. Sekali lagi, informasi apapun pada sebuah baris data setelah vertical bar
`|' akan diabaikan. (Jika informasi untuk sebuah kasus melebihi satu baris, maka
pastikan bahwa baris itu akan dipecah setelah koma)
Sebagai contoh, tiga kasus pertama dari file pemilu.data adalah sbb :
kota,?,91198131000,sumatera,E,K
Modul Praktek Data Mining 53
Modul 5 – See5
kabupaten,182,735831723000,N/A,B,K
kota,2369,148993189000,sumatera,C,L
Jangan lupakan koma diantara nilai-nilai baris data! Jika kamu lupa, maka
See5 akan tidak mampu memproses data kita.
Perhatikan bahwa tanda `?' digunakan untuk menggambarkan missing values (nilai
yang tidak diketahui). Hampir mirip, tanda `N/A' menggambarkan sebuah nilai
yang tidak bisa diaplikasikan untuk kasus tertentu.
5.1.6 User Interface
Adapun user interface dari See5 setelah data pemilu dipilih :
Tampilan utama dari See5 memiliki enam tombol pada toolbarnya. Dari kiri ke
kanan, penjelasannya sbb :
Locate Data
Modul Praktek Data Mining 54
Modul 5 – See5
Menampilkan browser untuk menemukan file-file aplikasi kita;
Construct Classifier
Memilih jenis dari classifier untuk dibangun dan untuk mengatur opsi
lainnya;
Stop
Memberhentikan proses generate classifier;
Review Output
Menampilkan kembali output dari pembangunan classifier yang terakhir;
Use Classifier
Menerapkan classifier yang sedang dipakai ke satu atau lebih kasus;
Cross-Reference
Menunjukkan bagaimana kasus pada training atau test data terhubung ke
(bagian dari) classifier dan begitu seterusnya.
Jurnal Modul 5 (See5)
Modul Praktek Data Mining 55
Modul 5 – See5
1. Ubah dataset berekstensi .arff berikut ini ke dalam format .data dan
format .names sehingga dapat digunakan sebagai inputan pada See5.0. Simpan
hasilnya dengan nama weather_<4 digit terakhir NIM Anda>.data dan weather_<4
digit terakhir NIM Anda>.names.
@relation weather
@attribute outlook {sunny, overcast, rainy}@attribute temperature real@attribute humidity real@attribute windy {TRUE, FALSE}@attribute play {yes, no}
@datasunny,85,85,FALSE,nosunny,80,90,TRUE,nosunny,81,87,TRUE,nosunny,72,95,FALSE,nosunny,69,70,FALSE,yessunny,75,70,TRUE,yessunny,82,93,FALSE,yesovercast,83,86,FALSE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesovercast,64,65,TRUE,yesovercast,66,62,FALSE,yesovercast,70,66,TRUE,yesovercast,80,77,TRUE,norainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,norainy,75,80,FALSE,yesrainy,71,91,TRUE,norainy,69,85,TRUE,norainy,73,87,TRUE,norainy,76,84,TRUE,no
2. Dari data yang anda buat
c. modelkan dengan menggunakan decision tree
d. Dari pemodelan yang ada, teslah model tersebut dengan contoh data
baru yang anda buat.
Modul Praktek Data Mining 56
Modul 6
Constructing Classifiers in See5
Tujuan Praktikum :
1. Mengenal dan mengetahui penggunaan classifiers dalam See5
2. Menggunakan classifier tersebut untuk memprediksi class
Setelah file .names, .data, dan file-file opsional telah digenerate, kita telah siap
untuk menggunakan See5.
Langkah pertama adalah untuk mencari data menggunakan tombol Locate Data
yang ada di toolbar (atau dari menu File). Ada beberapa opsi yang mempengaruhi
jenis dari classifier yang dihasilkan oleh See5 dan cara See5 membangun
classifiernya. Tombol Construct Classifier yang ada di toolbar (atau dari menu
File) menampilkan kotak dialog yang mengatur opsi pembangunan classifier ini.
Modul 6 – Constructing Classifiers in See5
6.1 Decision trees
Ketika See5 dijalankan dengan setting default untuk semua opsi, ia akan
membangun sebuah decision tree dan menghasilkan outputan seperti ini :
See5 [Release 1.19] Wed Mar 16 22:59:17 2005
*** line 53 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'
*** line 69 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'
Read 81 cases (5 attributes) from pemilu.data
Decision tree:
Pulau = jawa: L (22/3)
Pulau = bali & NTT: N (6/3)
Pulau = kalimantan: L (13/3)
Pulau = sumatera:
:...Kegiatan_Ekonomi = D: L (0)
: Kegiatan_Ekonomi = B: N (5/2)
: Kegiatan_Ekonomi = C: L (5/1)
: Kegiatan_Ekonomi = E: K (1)
: Kegiatan_Ekonomi = A:
: :...Total_APBD <= 7.212406e+010: K (2)
: Total_APBD > 7.212406e+010: L (11/4)
Pulau = sulawesi:
:...Jenis = kota: K (3/1)
Jenis = kabupaten:
:...Kepadatan_Penduduk <= 82: L (6/2)
Kepadatan_Penduduk > 82: K (7)
Evaluation on training data (81 cases):
Decision Tree
Modul Praktek Data Mining 58
Modul 6 – Constructing Classifiers in See5
----------------
Size Errors
11 19(23.5%) <<
(a) (b) (c) (d) <-classified as
---- ---- ---- ----
12 5 3 (a): class K
44 1 (b): class L
1 1 (c): class M
1 7 6 (d): class N
Time: 0.0 secs
Baris pertama mengidentifikasi versi dari See5 dan waktu eksekusinya. See5
membangun sebuah decision tree dari 81 training case pada file pemilu.data.
Walaupun outputannya tidak seperti tree, outputannya dapat kita jelaskan sebagai
berikut :
if Pulau is equal to jawa then L
else
if Pulau is equal to bali & NTT then N
else
if Pulau is equal to kalimantan L
else
if Pulau is equal to sumatera then
if kegiatan_ekonomi is equal to D then L
else
if kegiatan_ekonomi is equal to B then N
else
if kegiatan_ekonomi is equal to C then L
else
if kegiatan_ekonomi is equal to E then K
Modul Praktek Data Mining 59
Modul 6 – Constructing Classifiers in See5
else
if kegiatan_ekonomi is equal to A then
if Total_APBD is less than or equal to 7.212406e+010 then K
else
if Total_APBD is greater than 7.212406e+010 then L
else
if Pulau is equal to sulawesi then
if Jenis is equal to kota then K
else
if Jenis is equal to kabupaten then
if Kepadatan_Penduduk is less than or equal to 82 then L
else
if Kepadatan_Penduduk is greater than 82 then K
6.2 Rulesets
Decision tree terkadang agak sulit. Salah satu fitur penting dari See5 adalah
kemampuannya untuk menggenerate classifier yang disebut rulesets yang terdiri
dari kumpulan rule if-then sederhana yang tidak terurut.
Untuk membangkitkan ruleset, caranya adalah dengan melakukan settingan berikut pada classifier
construction options :
Modul Praktek Data Mining 60
Modul 6 – Constructing Classifiers in See5
Selanjutnya, didapatkan ruleset sebagai berikut yang merupakan pengembangan
dari decision tree di atas :
Rule 1: (3, lift 3.2)
Total_APBD <= 7.212406e+010
Kegiatan_Ekonomi = A
-> class K [0.800]
Rule 2: (1, lift 2.7)
Pulau = sumatera
Kegiatan_Ekonomi = E
-> class K [0.667]
Rule 3: (16/5, lift 2.7)
Pulau = sulawesi
-> class K [0.667]
Rule 4: (17/2, lift 1.5)
Kegiatan_Ekonomi = C
-> class L [0.842]
Rule 5: (22/3, lift 1.5)
Pulau = jawa
-> class L [0.833]
Rule 6: (13/3, lift 1.3)
Pulau = kalimantan
-> class L [0.733]
Rule 7: (5/2, lift 3.3)
Modul Praktek Data Mining 61
Modul 6 – Constructing Classifiers in See5
Pulau = sumatera
Kegiatan_Ekonomi = B
-> class N [0.571]
Rule 8: (6/3, lift 2.9)
Pulau = bali & NTT
-> class N [0.500]
Default class: L
Setiap rule terdiri dari :
Nomor urut rule – yang berfungsi untuk mengidentifikasi rule.
Statistik (n, lift x) or (n/m, lift x) yang menggambarkan performansi dari rule.
n adalah jumlah training case yang bisa ditanggulangi oleh rule, sedangkan
m, jika muncul, menunjukkan berapa banyak training case dari n yang
salah diprediksikan classnya oleh rule. Ketepatan rule diperkirakan oleh
rasio Laplace (n-m+1)/(n+2). Simbol x adalah hasil dari membagi
ketepatan perkiraan rule tersebut dengan frekuensi relatif dari class yang
diprediksi pada training set.
Satu atau lebih kondisi yang semuanya harus dipenuhi jika rule akan
diimplementasikan.
Class yang diprediksikan oleh rule.
Nilai di antara 0 dan 1 yang mengindikasikan confidence.
Ketika ruleset seperti ini digunakan untuk mengklasifikasikan sebuah kasus,
adalah mungkin terjadi bahwa beberapa dari rule-rule tersebut sama-sama bisa
diimplementasikan pada satu kasus yang sama. Jika hal ini terjadi, kita dapat
mempercayai rule dengan nilai confidence tertinggi, atau kita menjumlahkan
semua prediksi-prediksi rule untuk mendapatkan satu keputusan. See5
mengadopsi strategi yang terakhir. Selain itu, kita juga menjumpai istilah default
class, dalam kasus ini adalah L, yang akan digunakan ketika tidak ada satupun
dari rule yang memenuhi.
Modul Praktek Data Mining 62
Modul 6 – Constructing Classifiers in See5
Ruleset biasanya lebih mudah dimengerti daripada tree karena setiap rule
menggambarkan sesuatu yang berhubungan dengan klas. Lebih lanjut lagi, sebuah
ruleset yang digenerate dari sebuah tree biasanya memiliki lebih sedikit rule
daripada jumlah leaf yang dimiliki tree, (Pada contoh di atas, decision tree yang
memiliki 12 leaf disederhanakan menjadi delapan rule.) Pada banyak kasus, rule
adalah predictor yang lebih akurat daripada decision tree --.
Pada contoh di atas, rule diurutkan berdasarkan klas dan nilai confidence-nya.
Sebuah alternatif pengurutannya adalah dengan menggunakan opsi Sort by utility.
Dengan opsi ini, rule yang paling mengurangi jumlah error muncul pertama dan
rule yang paling tidak mengurangi jumlah error muncul terakhir. Lebih lanjut lagi,
hasilnya dilaporkan dalam jumlah kelompok (bands) sehingga ketepatan prediktif
dari himpunan bagian yang lebih penting juga diperkirakan Sebagai contoh, jika
opsi Sort by utility dengan empat kelompok (bands) dipilih, kasus pemilu
diurukan kembali sbb :
See5 [Release 1.19] Tue Mar 22 06:20:53 2005
Options:
Rule-based classifiers
Rule utility ordering (1/4's)
*** line 53 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'
*** line 69 of `pemilu.data': bad value of `F' for attribute `Kegiatan_Ekonomi'
Read 81 cases (5 attributes) from pemilu.data
Rules:
Rule 1: (22/3, lift 1.5)
Pulau = jawa
-> class L [0.833]
Rule 2: (16/5, lift 2.7)
Pulau = sulawesi
-> class K [0.667]
Modul Praktek Data Mining 63
Modul 6 – Constructing Classifiers in See5
Rule 3: (13/3, lift 1.3)
Pulau = kalimantan
-> class L [0.733]
Rule 4: (17/2, lift 1.5)
Kegiatan_Ekonomi = C
-> class L [0.842]
Rule 5: (6/3, lift 2.9)
Pulau = bali & NTT
-> class N [0.500]
Rule 6: (5/2, lift 3.3)
Pulau = sumatera
Kegiatan_Ekonomi = B
-> class N [0.571]
Rule 7: (3, lift 3.2)
Total_APBD <= 7.212406e+010
Kegiatan_Ekonomi = A
-> class K [0.800]
Rule 8: (1, lift 2.7)
Pulau = sumatera
Kegiatan_Ekonomi = E
-> class K [0.667]
Default class: L
Rulenya dibagi ke dalam empat kelompok. Sedangkan output untuk test case di
atas adalah sbb :
Evaluation on test data (81 cases):
Modul Praktek Data Mining 64
Modul 6 – Constructing Classifiers in See5
Rules
----------------
No Errors
8 21(25.9%) <<
(a) (b) (c) (d) <-classified as
---- ---- ---- ----
14 3 3 (a): class K
4 40 1 (b): class L
1 1 (c): class M
1 7 6 (d): class N
Rule utility summary:
Rules Errors
----- ------
1-2 29(35.8%)
1-4 29(35.8%)
1-6 24(29.6%)
Time: 0.0 secs
Tampilan di atas menunjukkan, ketika kita hanya menggunakan dua rule yang
pertama, error rate pada test cases adalah 35.8%, yang turun menjadi 29.6% ketika
enam rule yang pertama digunakan.
6.3 Using Classifiers
Ketika classifier telah dibangun, sebuah interactive interpreter dapat digunakan
untuk memprediksi class-class dari kasus-kasus baru. Tombol Use Classifier
mengaktifkan interpreter, menggunakan classifier yang paling terkini dan
menampilkan informasi tentang kasus yang akan diklasifikasikan. Sebagai contoh,
ini adalah hasil dari analisa sebuah kasus menggunakan decision tree di atas :
Modul Praktek Data Mining 65
Modul 6 – Constructing Classifiers in See5
6.4 Melakukan Cross-Reference terhadap classifiers dan data
Tombol Cross-Reference memunculkan sebuah window yang menunjukkan
classifier yang paling terkini dan bagaimana relasi kasus tersebut terhadap data,
test atau file case
Window dibagi atas dua panel, dengan classifier pada sisi kiri dan daftar kasus di
sisi kanan. Tombol Reset dapat digunakan pada waktu kapan saja untuk
mengembalikan window pada kondisi awalnya lagi.
Setiap kasus memiliki tag [?] tag (yang berwarna merah jika kasusnya
misclassified), sebuah nomor identifikasi atau label, dan class yang diprediksikan
untuk kasus itu (juga berwarna merah jika classnya tidak tepat). Mengclick tag [?]
pada sebuah nomor kasus akan menyebabkan kasus tersebut muncul :
Modul Praktek Data Mining 66
Modul 6 – Constructing Classifiers in See5
Kalau kita mengclick pada label kasus atau nomor kasus, hal itu akan
menunjukkan kita bagian dari classifier yang relevan dengan kasus tersebut.
Sebagai contoh, kalau kita mengclick kasus nomor 9, maka tampilannya adalah
sbb :
Kalau kita mengclick leaf atau rule, maka semua kasus yang berhubungan dengan
leaf atau rule diperlihatkan. Sebagai contoh, pada gambar di bawah ini :
Modul Praktek Data Mining 67
Modul 6 – Constructing Classifiers in See5
Modul Praktek Data Mining 68
Modul 6 – Constructing Classifiers in See5
Jurnal Modul 6 (See5)
1 Gunakan See5 dan dataset pemilu untuk menjawab pertanyaan-pertanyaan
berikut:
a. Berapa banyak atribut dan instances dalam dataset?
b. Pada window construct classifier, gunakan opsi rulesets, kemudian
jelaskan setiap rule yang anda dapatkan. (termasuk makna dari angka-
angka yang ada di setiap rule).
Pada window construct classifier, gunakan opsi untuk membangun decision tree,
kemudian jelaskan setiap baris kalimat yang anda temui di window Result for
pemilu.
Modul Praktek Data Mining 69
MODUL 7
gCLUTO
Tujuan praktikum
1. Mahasiswa mengetahui dan dapat menggunakan tab-tab yang ada pada
gCLUTO
2. Mahasiswa dapat melakukan importing data dan exporting data dengan
gCLUTO.
3. Mahasiswa dapat menggunakan dan mengaplikasikan gCLUTO dalam
memecahkan masalah clustering.
Pendahuluan
gCLUTO (Graphical CLUstering TOolkit) adalah sebuah front-end grafis
untuk pustaka clustering data. Tujuannya adalah untuk membuat kemampuan
clustering CLUTO tersedia dalam bentuk grafis. Sebagai tambahan, gCLUTO
menyediakan beberapa cara untuk melakukan visualisasi interaktif dari hasil-hasil
clustered.
Fitur-fitur yang disediakan oleh gCLUTO:
Sebuah pohon proyek yang mengelola file-file data, solusi clustering, dan
visualisasi.
Dialog-dialog detail untuk penentuan pilihan-pilihan clustering.
Interface spreadsheet untuk melihat data.
Interface HTML untuk melihat solusi-solusi.
Visualisasi Matrix – sebuah matrix interaktif berwarna.
Visualisasi Mountain – sebuah visualisasi 3D yang dibuat menggunakan
penskalaan multidimensional.
Printing dan exporting data dan visualisasi.
Modul 7 – gCLUTO
Saat clustering data, berbagai bagian informasi diperlukan, seperti file-file
data, file-file solusi clustering, dan visualisasi. Seperti berbagai aplikasi lain,
gCLUTO menggunakan konsep sebuah proyek untuk mengorganisasikan data
user dan aliran kerja. Ketika sebuah proyek telah di-load, isinya akan ditampilkan
pada view tree seperti pada gambar berikut ini.
Masing-masing item dalam proyek ditampilkan sebagai sebuah icon pada
tee.
Project – Ini menunjukkan sebuah proyek dan merupakan akar dari
project tree.
Data – Setelah melakukan import data ke dalam proyek, salah satu icon
akan muncul di project tree. Sebuah proyek dapat mengandung beberapa
item data yang berbeda.
Solution – Setelah melakukan clustering terhadap salah satu item data,
sebuah item solusi akan dibuat dan ditempatkan di bawah item data asli
yang di-cluster.
Modul Praktek Data Mining 71
Modul 7 – gCLUTO
Matrix Visualization – Ini merupakan visualisasi yang dapat dibangun
setelah clustering. Seluruh visualisasi muncul di bawah solusi yang
dibangun.
Mountain Visualization – Ini adalah visualisasi lain yang berusaha
menjelaskan interrelationships dari cluster-cluster dalam bentuk 3D.
Klik kanan pada tiap item akan memunculkan sebuah menu pop-up yang
menampilkan daftar operasi-operasi yang tersedia dan dapat dilakukan pada item.
Klik ganda pada sebuah item akan membuka isinya pada sebuah window baru
yang disebut view, sama dengan window (b), (c) dan (d) pada gambar di atas.
7.1 Membuat Sebuah Proyek Baru
Saat pertama kali dibuka, gCLUTO dimulai dengan sebuah tree proyek
kosong. Untuk mulai bekerja, buat sebuah proyek dengan memilih “File” lalu
“New Project”. Sebuah window dialog file akan muncul. Tentukan sebuah nama
untuk proyek Anda dan lokasi untuk menyimpannya dalam komputer.
gCLUTO akan membuat sebuah direktori yang disebut direktori proyek.
Project Directory akan diberi nama setelah proyeknya dan disimpan pada lokasi
yang ditentukan. Dalam direktori proyek tersebut, gCLUTO akan menyimpan
seluruh informasi yang berkaitan dengan proyek.
Untuk membuka sebuah proyek yang sudah ada, pilih menu “File” lalu
“Open Project”. Sebuah dialog file akan muncul. Telusuri hingga ke lokasi
direktori proyek dan buka. Dalam direktori proyek akan ada sebuah file bernama
“project_name.prj”, di mana project_name akan menjadi nama proyek tersebut.
Pilih file ini dan klik “Open”.
Setelah langkah-langkah tersebut, sebuah proyek akan di-load dan
ditampilkan pada tree proyek.
Modul Praktek Data Mining 72
Modul 7 – gCLUTO
7.2 Importing Data
gCLUTO menerima 3 format file: file matrix CLUTO (*.mat), file graph
CLUTO (*.graph), dan sebuah file dense matrix delimited. Tipe-tipe file berikut
ini digunakan saat meng-import data dalam formta file CLUTO:
Matrix file (*.mat) – mengandung sebuah dense matrix, sparce matrix,
atau grafik persamaan yang mewakili data yang di-cluster.
Row labels (*.rlabel) – mengandung label-label untuk baris-baris matrix
data.
Column labels (*.clabel) – mengandung label-label untuk kolom-kolom
matrix data.
Class labels (*.rclass) – mengandung label-label kelas untuk baris-baris
matrix data.
File-file delimited dapat dibuat dengan tangan atau di-export dengan
sebagian besar program spreadsheet. gCLUTO dapat menerima file-file yang
dipisah dengan tab, spasi, titik koma, dan koma. Karakter lain juga bisa ditentukan
menjadi pemisah lain.
Modul Praktek Data Mining 73
Modul 7 – gCLUTO
Untuk import sebuah item data, pilih “Project” lalu “Import Data”. Dialog
Import Data akan muncul dan memungkinkan user menentukan lokasi sebuah
file untuk tiap tipe file yang didaftarkan di atasnya. Klik tombol “Browse” akan
menampilkan sebuah dialog file yang memungkinkan user menentukan lokasi
file-file yang diperlukan. Hanya file *.mat yang diperlukan. User juga harus
menentukan file *.mat mengandung data matrix atau data grafik dengan
menentukan pilihan yang tepat.
Jika user memilih untuk import sebuah file delimited, pilihan file delimited
akan di-enable. gCLUTO dapat juga menginterpretasikan baris pertama dari file
delimited sebagai label kolom. Sebagai tambahan, gCLUTO dapat
menginterpretasikan kolom pertama sebagai label baris. User juga dapat
menentukan karakter-karakter mana yang harus digunakan sebagai delimiter. Jika
beberapa karakter ditentukan, maka kemunculan salah satu di antaranya akan
menyebabkan pemisahan sebuah field. Fields kosong diperbolehkan dalam file-
file delimited. Jika muncul blank saat diharapkan muncul sebuah angka, maka
akan diinterpretasi sebagai 0. Jika muncul blank saat diharapkan sebuah label,
diinterpretasikan sebagai label default “no-label”.
Setelah menentukan file-file tersebut, user dapat memberikan label untuk
item data. Jika tidak ada label yang diberikan, item data akan dilabeli setelah file
*.mat-nya dihapus. Setelah klik “OK” pada dialog Import Data, gCLUTO
berusaha membaca file-file yang dipilih. Jika tidak ada error yang muncul,
gCLUTO akan menambahkan item data baru ke tree proyek dan membuka sebuah
Data View. Data View memungkinkan user melihat data dan memverifikasi
bahwa data tersebut sudah di-load dengan benar.
Untuk dapat mengimport data yang baru, langkah yang perlu di lakukan adalah
1. Buatlah project yang baru, simpan di tempat yang anda inginkan
2. Pada menu bar pilih project -> import data, atau klik kanan project baru
tersebut pilih import data
3. Tampil beberapa pilihan,
a. isikan kabel dari project yang anda buat
Modul Praktek Data Mining 74
Modul 7 – gCLUTO
b. pilih format data yang akan anda inginkan misal matrix file
c. browse letak dari format file (*.mat), (*.rlabel), (*.clabel),
(*.clabel)
4. Klik OK
Modul Praktek Data Mining 75
Modul 7 – gCLUTO
7.3 Clustering data
Setelah melakukan importing data, langkah yang perlu di lakukan mengclustering
data
1. pada menu bar, klik data -> cluster atau klik kanan pada data pilih cluster
2. tampil beberapa pilihan, isikanlah sesuai keinginan anda kemudian klik
OK
Modul Praktek Data Mining 76
Modul 7 – gCLUTO
Bila proses clustering berhasil, maka akan menampilkan solution view. Untuk
melakukan clustering lagi, klik Recluster pada data view.
7.4 Visualizing Solution
Terdapat 2 visualisasi pada gCLUTO yaitu matrix visualization dan mountain
visualization . visualisasi ini dapat di hasilkan dengan mengklik pada solution.
7.4.1 Matrik visualization
Pada matrik visualization, data asli akan di tampilkan dalam berbagai macam
warna, yang mempresentasilan dari isi data matrix. Dimana warna putih berarti
mendekati 0, semakin merah berarti isi datanya semakin besar dan bila warna
terlalu hijau berarti isi data semakin negatif. Untuk row pada matrik di
representasikan sama pada clustering ini. Garis hitam horizontal menunjukkan
bagian bagina data-data yang di cluster.
Modul Praktek Data Mining 77
Modul 7 – gCLUTO
Untuk melihat detail dari setiap warna yang ada klik kanan, dan bila
untuk memperbesar ukuran dari cluster maka pada toolbar scale tinggal di
perbesar atau klik pada row yang di inginkan terus di geser.
7.4.2 Mountain Visualization
Pada mountain visualization ini data di representasikan secara 3D. Lokasi,
volume, kedalaman atau ketinggian dan warna yang di gunakan pada visualisasi
ini memberikan informasi tentang hubungan data yang telah di cluster.
Untuk mengatur posisi ataupun ukuran dari tampilan 3D dapat di gunakan
dengan mouse, yaitu bila
Klik kanan, untuk pindah tempat
Klik kiri, untuk melihat posisi dari tampilan 3Dnya
Sedangkan untuk memperbesar ukuran geser bagian tengah
Modul Praktek Data Mining 78
Modul 7 – gCLUTO
Warna merah mengindikasikan devisiasinya rendah, sedangkan untuk biru
memiliki devisiasi yang tinggi.
7.5 Exporting
Untuk melakukan exporting pada gCLUTO, maka klik kiri pada data yang ada,
pilih export. Hasil exporting ini dapat berupa file HTML.
Modul Praktek Data Mining 79
Modul 7 – gCLUTO
Jurnal Modul 7
1. Analisalah hasil dari clustering data gense2
2. Bandingkan dengan metode entropy yang anda buat dengan solution view
pada gCLUTO
Modul Praktek Data Mining 80