View
184
Download
27
Category
Preview:
Citation preview
1
PERBANDINGAN ALGORITMA ID3 DAN C50 DALAM
INDENTIFIKASI PENJURUSAN SISWA SMA
Holisatul Munawaroh Bain Khusnul KSTMKom
Yeni KustiyahningsihSKomMKom
Program Studi Teknik Informatika Universitas Trunojoyo
Jl Raya Telang PO BOX 2 Kamal Bangkalan
E-mail holisatulgmailcom bainkkgmailcom ykustiyahningsihyahoocom
ABSTRAK
Selama ini pemilihan jurusan di SMA Negeri 2 Bangkalan merupakan masalah yang selalu dihadapi oleh
guru Masalah yang sering terjadi adalah keterlambatan nilai siswa dari wali kelas dan banyaknya jumlah
siswa kelas X sehingga proses penjurusannya kurang tepat Oleh karenanya diperlukan suatu sistem yang
terkomputerisasi yang dapat menangani masalah diatas Pada penelitian ini dibangun aplikasi untuk
mengidentifikasi penjurusan siswa SMA Aplikasi penjurusan SMA ini menggunakan algoritma ID3 dan
C50 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki tingkat akurasi
yang tinggi dalam menentukan keputusan Namun belum diketahui algoritma mana diantara keduanya yang
lebih unggul kinerjanya Oleh karena itu algoritma ini perlu dibandingkan Penelitian ini membandingkan
kinerja dari algoritma ID3 dan C50 dalam melakukan identifikasi penjurusan siswa SMA Penelitian ini
menggunakan 200 data siswa kelas X tahun ajaran 20112012 data tersebut dipecah menjadi 2 yaitu 150 data
training dan 50 data testing Hasil dari penelitian yang dilakukan diketahui nilai precision terbesar dicapai
oleh algoritma C50 pre pruning dengan nilai sebesar 9487 Nilai recall terbesar dicapai oleh algoritma
C50 pre pruning dengan nilai sebesar 9737 Nilai accuracy terbesar dicapai oleh algoritma C50 pre
pruning dengan nilai sebesar 94 Nilai error rate terkecil dicapai oleh algoritma C50 pre pruning dengan
nilai sebesar 6 Hasil akhir dari penelitian ini adalah algoritma C50 lebih baik dari pada algoritma ID3
karena memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3
Kata Kunci Pohon Keputusan ID3 C50 IPA IPS
ABSTRACT
All this time election majors at high school 2 Bangkalan is a problem that has always faced by teachers The
problem that often occurs is the delay value of homeroom students and the large number of students of class
X so that the process majoring is less precise Therefore we need a computerized system that can handle the
above problems In this research built applications for identify majors high school students This application
uses algorithms ID3 and C50 that is decision tree algorithm often used because it has a high degree of
accuracy in determining the decision However the algorithm is not yet known which of the two is superior
performance Therefore these algorithms need to be compared This study compared the performance of ID3
and C50 algorithms in identifying majors of students in high school This study uses 200 data class X
students of the school year 20112012 the data is broken down into 2 that is 150 training data and 50 testing
data Results of research conducted the largest known value of precision is achieved by pre-pruning
algorithm C50 with a value of 9487 Biggest recall value achieved by pre pruning algorithm C50 with a
value of 9737 Greatest accuracy values achieved by pre-pruning algorithm C50 with a value of 94
Value of the smallest error rate achieved by pre pruning algorithm C50 a value of 6 The end result of this
research is the C50 algorithm is better than the ID3 algorithm because it has a higher level of accuracy than
the ID3 algorithm
Keywords Decision Tree ID3 C50 Science Social Studies
2 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
PENDAHULUAN
Sekolah Menengah Atas (disingkat SMA) adalah jenjang pendidikan menengah pada
pendidikan formal di Indonesia setalah lulus Sekolah Menengah Pertama (atau sederajat) Sekolah
Menengah Atas ditempuh dalam kurun waktu 3 tahun mulai dari kelas X sampai kelas XII Pada
tahun kedua (yakni kelas XI) siswa SMA dapat memilih jurusan yang ada Idealnya pemilihan
jurusan itu berdasarkan minat bakat dan kemampuan siswa sehingga dengan itu mereka
diharapkan akan berhasil dalam menyelesaikan studinya di SMA serta dapat melanjutkan
pendidikan ke jenjang yang lebih tinggi
Proses penjurusan di SMAN 2 Bangkalan dilakukan pada saat siswa berada di kelas X dan
akan naik ke kelas XI Setelah wali kelas menerima seluruh nilai semester maka wali kelas akan
memutuskan apakah siswa tersebut naik atau tidak Jika siswa tersebut dinyatakan naik maka
selanjutnya akan dilakukan proses penjurusan oleh tim yang terdiri dari Wakil Kepala Sekolah
Bidang Kurikulum Guru Bimbingan Konseling Wali Kelas X dan Guru Mata Pelajaran yang
berkaitan dengan penjurusan Masalah yang sering terjadi dalam proses penjurusan adalah
keterlambatan nilai siswa dari para wali kelas akibatnya pada akhir proses penjurusan para tim
penentu jurusan berburu waktu sehingga proses penjurusan kurang tepat ditambah lagi dengan
banyaknya jumlah siswa kelas X Tahun ajaran 20112012 tercatat siswa kelas X sejumlah plusmn 320
orang
Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA
dan IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat
siswa dan bakat siswa yang dilihat dari hasil psikotest Pada penelitian ini dibangun aplikasi untuk
mengidentifikasi penjurusan siswa SMA Aplikasi penjurusan SMA ini menggunakan algoritma
ID3 dan C50 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki
tingkat akurasi yang tinggi dalam menentukan keputusan
Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C45 pernah dilakukan oleh Sofi Defiyanti dan D L Crispina Pardede dengan judul
ldquoperbandingan kinerja algoritma ID3 dan C45 dalam klasifikasi spam-mailrdquo membuktikan bahwa
pohon keputusan dengan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma
C45 dalam mengklasifikasikan data spam email Berikutnya penelitian tentang prediksi
keaktifan studi mahasiswa dengan algoritma C50 dan K-Nearest Neighbor yang melakukan
prediksi untuk mengetahui keaktifan seorang mahasiswa Dalam penelitian ini proses klasifikasi
yang memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) merupakan atribut yang
menentukan status studi mahasiswa Hasil penelitian ini memberikan informasi bahwa Algoritma
C50 lebih baik dibandingkan algoritma K-Nearest Neighbor
Berdasarkan kedua penelitian tersebut dapat dilihat bahwa kedua algoritma ID3 dan C50
mempunyai kinerja yang baik dalam pengidentifikasiannya Namun belum diketahui algoritma
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 3
mana diantara keduanya yang lebih unggul kinerjanya Oleh karena itu algoritma ini perlu
dibandingkan Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C50 dalam
melakukan identifikasi penjurusan siswa SMA Hasil akhir dari penelitian ini diharapkan dapat
mengetahui algoritma mana yang memiliki akurasi yang paling tinggi Rule yang dihasilkan juga
akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau
IPS
TINJAUAN PUSTAKA
Profil SMA
SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan
kota Bangkalan yang berada di Jl Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan
SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah
yaitu A pada tahun 2005 Jumlah siswa kelas X tahun ajaran 20112012 adalah plusmn 320 siswa
Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan
IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat siswa
dan bakat siswa yang dilihat dari hasil psikotest
Data Mining
Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan
akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan
pertumbuhan teknologi informasi Definisi umum dari Data Mining itu sendiri adalah serangkaian
proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara
manual dari suatu kumpulan data [1]
Pohon Keputusan
Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah
untuk diinterpretasi oleh manusia Konsep dari pohon keputusan adalah mengubah data menjadi
pohon keputusan dan aturan-aturan keputusan
Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai
studi kasus Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh
Nugroho W (2012) dengan judul ldquoPerbandingan kinerja pohon keputusan ID3 dan C45 dalam
identifikasi kelayakan kredit sepeda motorrdquo Penelitian tersebut dilakukan untuk
mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C45 serta
untuk mengukur kinerja algoritma ID3 dan C45 dari sisi keakuratan hasil prediksi Pengukuran
kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision
recall dan accuracy Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C45
memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3 [3]
4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary
(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian
ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan
memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan
bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]
Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan
algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat
dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini
metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling
banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu
2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa
presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan
sangat cocok dengan data yang diolah [5]
Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan
dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan
pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang
memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada
setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree
memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan
antara lain adalah IDS ID3 C45 C50 CHAID dan CART
METODE PENELITIAN
ID3
Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang
digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak
tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma
ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)
[6]
Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]
1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus
PPPP=SEntropy 22 loglog)( (1)
Dimana
S = ruang (data) sample yang digunakan untuk training
P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu
jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5
Gain S A = Entropy S minus sumSv
SEntropy(Sv) (2)
Dimana
S = ruang (data) sample yang digunakan untuk training
A = atribut
V = suatu nilai yang mungkin untuk atribut A
Nilai(A) = himpunan yang mungkin untuk atribut A
|Sv| = jumlah sample untuk nilai V
|S| = jumlah seluruh sample data
Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan
dijadikan cabang pada pembentukan pohon keputusan
2 Pilih atribut yang memiliki nilai information gain terbesar
3 Bentuk simpul yang berisi atribut tersebut
4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua
data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak
diikutkan lagi dalam perhitungan nilai information gain
C50
Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang
dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45
Perbedaan utama C50 dari ID3 adalah
- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang
dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang
dihasilkan akan panjang dan tidak efisien
- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)
Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node
selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai
sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan
akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel
tersebut
119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)
S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m
dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S
dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi
dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci
dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat
6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang
bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)
maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula
119864 119860 = sum1199041119895 ++119904119898119895
119904119868(1199041119895 hellip 119904119898119895 )
119910119895=1 (4)
1199041119895 ++119904119898119895
119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk
mendapatkan nilai gain selanjutnya digunakan formula
119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)
Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui
kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini
Rumus pre pruning
(6)
Dimana
r = nilai perbandingan error rate
n = total sample
cz 1
c = confidence level
Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh
Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data
menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk
membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas
n
z
n
z
n
r
n
rz
n
zr
e2
2
222
1
42
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil
pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal
yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan
dilakukan
Rancangan Sistem
Gambar 1 Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012
yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba
menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan amp
Rule ID3
Mining C50
Pohon Keputusan
amp Rule C50
Penilaian Kinerja
ID3 amp C50
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C50
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
2 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
PENDAHULUAN
Sekolah Menengah Atas (disingkat SMA) adalah jenjang pendidikan menengah pada
pendidikan formal di Indonesia setalah lulus Sekolah Menengah Pertama (atau sederajat) Sekolah
Menengah Atas ditempuh dalam kurun waktu 3 tahun mulai dari kelas X sampai kelas XII Pada
tahun kedua (yakni kelas XI) siswa SMA dapat memilih jurusan yang ada Idealnya pemilihan
jurusan itu berdasarkan minat bakat dan kemampuan siswa sehingga dengan itu mereka
diharapkan akan berhasil dalam menyelesaikan studinya di SMA serta dapat melanjutkan
pendidikan ke jenjang yang lebih tinggi
Proses penjurusan di SMAN 2 Bangkalan dilakukan pada saat siswa berada di kelas X dan
akan naik ke kelas XI Setelah wali kelas menerima seluruh nilai semester maka wali kelas akan
memutuskan apakah siswa tersebut naik atau tidak Jika siswa tersebut dinyatakan naik maka
selanjutnya akan dilakukan proses penjurusan oleh tim yang terdiri dari Wakil Kepala Sekolah
Bidang Kurikulum Guru Bimbingan Konseling Wali Kelas X dan Guru Mata Pelajaran yang
berkaitan dengan penjurusan Masalah yang sering terjadi dalam proses penjurusan adalah
keterlambatan nilai siswa dari para wali kelas akibatnya pada akhir proses penjurusan para tim
penentu jurusan berburu waktu sehingga proses penjurusan kurang tepat ditambah lagi dengan
banyaknya jumlah siswa kelas X Tahun ajaran 20112012 tercatat siswa kelas X sejumlah plusmn 320
orang
Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA
dan IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat
siswa dan bakat siswa yang dilihat dari hasil psikotest Pada penelitian ini dibangun aplikasi untuk
mengidentifikasi penjurusan siswa SMA Aplikasi penjurusan SMA ini menggunakan algoritma
ID3 dan C50 yang merupakan algoritma pohon keputusan yang sering digunakan karena memiliki
tingkat akurasi yang tinggi dalam menentukan keputusan
Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C45 pernah dilakukan oleh Sofi Defiyanti dan D L Crispina Pardede dengan judul
ldquoperbandingan kinerja algoritma ID3 dan C45 dalam klasifikasi spam-mailrdquo membuktikan bahwa
pohon keputusan dengan algoritma ID3 memiliki kinerja yang lebih baik dibandingkan algoritma
C45 dalam mengklasifikasikan data spam email Berikutnya penelitian tentang prediksi
keaktifan studi mahasiswa dengan algoritma C50 dan K-Nearest Neighbor yang melakukan
prediksi untuk mengetahui keaktifan seorang mahasiswa Dalam penelitian ini proses klasifikasi
yang memberikan hasil bahwa atribut Indeks Prestasi Kumulatif (IPK) merupakan atribut yang
menentukan status studi mahasiswa Hasil penelitian ini memberikan informasi bahwa Algoritma
C50 lebih baik dibandingkan algoritma K-Nearest Neighbor
Berdasarkan kedua penelitian tersebut dapat dilihat bahwa kedua algoritma ID3 dan C50
mempunyai kinerja yang baik dalam pengidentifikasiannya Namun belum diketahui algoritma
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 3
mana diantara keduanya yang lebih unggul kinerjanya Oleh karena itu algoritma ini perlu
dibandingkan Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C50 dalam
melakukan identifikasi penjurusan siswa SMA Hasil akhir dari penelitian ini diharapkan dapat
mengetahui algoritma mana yang memiliki akurasi yang paling tinggi Rule yang dihasilkan juga
akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau
IPS
TINJAUAN PUSTAKA
Profil SMA
SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan
kota Bangkalan yang berada di Jl Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan
SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah
yaitu A pada tahun 2005 Jumlah siswa kelas X tahun ajaran 20112012 adalah plusmn 320 siswa
Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan
IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat siswa
dan bakat siswa yang dilihat dari hasil psikotest
Data Mining
Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan
akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan
pertumbuhan teknologi informasi Definisi umum dari Data Mining itu sendiri adalah serangkaian
proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara
manual dari suatu kumpulan data [1]
Pohon Keputusan
Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah
untuk diinterpretasi oleh manusia Konsep dari pohon keputusan adalah mengubah data menjadi
pohon keputusan dan aturan-aturan keputusan
Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai
studi kasus Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh
Nugroho W (2012) dengan judul ldquoPerbandingan kinerja pohon keputusan ID3 dan C45 dalam
identifikasi kelayakan kredit sepeda motorrdquo Penelitian tersebut dilakukan untuk
mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C45 serta
untuk mengukur kinerja algoritma ID3 dan C45 dari sisi keakuratan hasil prediksi Pengukuran
kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision
recall dan accuracy Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C45
memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3 [3]
4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary
(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian
ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan
memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan
bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]
Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan
algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat
dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini
metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling
banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu
2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa
presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan
sangat cocok dengan data yang diolah [5]
Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan
dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan
pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang
memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada
setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree
memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan
antara lain adalah IDS ID3 C45 C50 CHAID dan CART
METODE PENELITIAN
ID3
Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang
digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak
tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma
ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)
[6]
Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]
1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus
PPPP=SEntropy 22 loglog)( (1)
Dimana
S = ruang (data) sample yang digunakan untuk training
P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu
jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5
Gain S A = Entropy S minus sumSv
SEntropy(Sv) (2)
Dimana
S = ruang (data) sample yang digunakan untuk training
A = atribut
V = suatu nilai yang mungkin untuk atribut A
Nilai(A) = himpunan yang mungkin untuk atribut A
|Sv| = jumlah sample untuk nilai V
|S| = jumlah seluruh sample data
Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan
dijadikan cabang pada pembentukan pohon keputusan
2 Pilih atribut yang memiliki nilai information gain terbesar
3 Bentuk simpul yang berisi atribut tersebut
4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua
data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak
diikutkan lagi dalam perhitungan nilai information gain
C50
Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang
dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45
Perbedaan utama C50 dari ID3 adalah
- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang
dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang
dihasilkan akan panjang dan tidak efisien
- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)
Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node
selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai
sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan
akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel
tersebut
119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)
S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m
dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S
dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi
dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci
dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat
6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang
bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)
maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula
119864 119860 = sum1199041119895 ++119904119898119895
119904119868(1199041119895 hellip 119904119898119895 )
119910119895=1 (4)
1199041119895 ++119904119898119895
119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk
mendapatkan nilai gain selanjutnya digunakan formula
119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)
Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui
kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini
Rumus pre pruning
(6)
Dimana
r = nilai perbandingan error rate
n = total sample
cz 1
c = confidence level
Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh
Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data
menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk
membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas
n
z
n
z
n
r
n
rz
n
zr
e2
2
222
1
42
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil
pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal
yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan
dilakukan
Rancangan Sistem
Gambar 1 Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012
yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba
menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan amp
Rule ID3
Mining C50
Pohon Keputusan
amp Rule C50
Penilaian Kinerja
ID3 amp C50
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C50
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 3
mana diantara keduanya yang lebih unggul kinerjanya Oleh karena itu algoritma ini perlu
dibandingkan Pada penelitian ini membandingkan kinerja dari algoritma ID3 dan C50 dalam
melakukan identifikasi penjurusan siswa SMA Hasil akhir dari penelitian ini diharapkan dapat
mengetahui algoritma mana yang memiliki akurasi yang paling tinggi Rule yang dihasilkan juga
akan digunakan sebagai penentu keputusan sehingga dapat memprediksi jurusan siswa IPA atau
IPS
TINJAUAN PUSTAKA
Profil SMA
SMA Negeri 2 Bangkalan merupakan salah satu unit pelaksana teknis dinas pendidikan
kota Bangkalan yang berada di Jl Soekarno hatta 18 kelurahan Mlajah kecamatan Bangkalan
SMAN 2 Bangkalan ini dibuka pada tanggal 1 April 1978 dan memiliki status akreditasi sekolah
yaitu A pada tahun 2005 Jumlah siswa kelas X tahun ajaran 20112012 adalah plusmn 320 siswa
Penjurusan siswa yang dilakukan di SMAN 2 Bangkalan hanya pada dua jurusan yaitu IPA dan
IPS Penentuan penjurusan ini dipertimbangkan berdasarkan nilai akademik siswa minat siswa
dan bakat siswa yang dilihat dari hasil psikotest
Data Mining
Data Mining adalah salah satu bidang yang berkembang pesat karena besarnya kebutuhan
akan nilai tambah dari database skala besar yang makin banyak terakumulasi sejalan dengan
pertumbuhan teknologi informasi Definisi umum dari Data Mining itu sendiri adalah serangkaian
proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara
manual dari suatu kumpulan data [1]
Pohon Keputusan
Pohon keputusan adalah salah satu metode klasifikasi yang paling popular karena mudah
untuk diinterpretasi oleh manusia Konsep dari pohon keputusan adalah mengubah data menjadi
pohon keputusan dan aturan-aturan keputusan
Algoritma pohon keputusan telah banyak digunakan dalam penelitian dari berbagai
studi kasus Penelitian terkait dengan proposal tugas akhir ini pernah dilakukan oleh Moh
Nugroho W (2012) dengan judul ldquoPerbandingan kinerja pohon keputusan ID3 dan C45 dalam
identifikasi kelayakan kredit sepeda motorrdquo Penelitian tersebut dilakukan untuk
mengidentifikasi kelayakan kredit menggunakan algoritma pohon keputusan ID3 dan C45 serta
untuk mengukur kinerja algoritma ID3 dan C45 dari sisi keakuratan hasil prediksi Pengukuran
kinerja yang dilakukan menggunakan sekelompok data uji untuk mengetahui persentase precision
recall dan accuracy Hasil akhir dari penelitian ini menunjukkan bahwa algoritma C45
memiliki tingkat akurasi yang lebih tinggi daripada algoritma ID3 [3]
4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary
(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian
ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan
memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan
bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]
Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan
algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat
dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini
metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling
banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu
2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa
presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan
sangat cocok dengan data yang diolah [5]
Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan
dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan
pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang
memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada
setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree
memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan
antara lain adalah IDS ID3 C45 C50 CHAID dan CART
METODE PENELITIAN
ID3
Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang
digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak
tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma
ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)
[6]
Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]
1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus
PPPP=SEntropy 22 loglog)( (1)
Dimana
S = ruang (data) sample yang digunakan untuk training
P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu
jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5
Gain S A = Entropy S minus sumSv
SEntropy(Sv) (2)
Dimana
S = ruang (data) sample yang digunakan untuk training
A = atribut
V = suatu nilai yang mungkin untuk atribut A
Nilai(A) = himpunan yang mungkin untuk atribut A
|Sv| = jumlah sample untuk nilai V
|S| = jumlah seluruh sample data
Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan
dijadikan cabang pada pembentukan pohon keputusan
2 Pilih atribut yang memiliki nilai information gain terbesar
3 Bentuk simpul yang berisi atribut tersebut
4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua
data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak
diikutkan lagi dalam perhitungan nilai information gain
C50
Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang
dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45
Perbedaan utama C50 dari ID3 adalah
- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang
dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang
dihasilkan akan panjang dan tidak efisien
- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)
Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node
selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai
sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan
akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel
tersebut
119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)
S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m
dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S
dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi
dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci
dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat
6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang
bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)
maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula
119864 119860 = sum1199041119895 ++119904119898119895
119904119868(1199041119895 hellip 119904119898119895 )
119910119895=1 (4)
1199041119895 ++119904119898119895
119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk
mendapatkan nilai gain selanjutnya digunakan formula
119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)
Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui
kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini
Rumus pre pruning
(6)
Dimana
r = nilai perbandingan error rate
n = total sample
cz 1
c = confidence level
Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh
Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data
menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk
membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas
n
z
n
z
n
r
n
rz
n
zr
e2
2
222
1
42
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil
pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal
yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan
dilakukan
Rancangan Sistem
Gambar 1 Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012
yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba
menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan amp
Rule ID3
Mining C50
Pohon Keputusan
amp Rule C50
Penilaian Kinerja
ID3 amp C50
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C50
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
4 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Dalam studi kasus yang lain penelitian terkait perbandingan kinerja pohon keputusan
ID3 dan C45 pernah dilakukan Surbhi Hardikar Ankur Shrivastava dan Vijay Choudhary
(2012) dengan judul ldquoComparison between ID3 and C45 in Contrast to IDSrdquo Pada penelitian
ini analisa perbandingan yang dilakukan berdasarkan kinerja parameter yaitu akurasi penggunaan
memory model build time search time dan error rate Hasil dari penelitian ini menunjukkan
bahwa algoritma C45 memiliki tingkat akurasi yang sama dengan algoritma ID3 [4]
Selanjutnya penelitian tentang klasifikasi tumbunhan jamur dengan menggunakan
algoritma C50 pada tahun 2009 yang menghasilkan dua kelas jamur yaitu jamur yang dapat
dimakan ( edible mushroom ) dan jamur beracun ( poisonous mushroom ) Dalam penelitian ini
metode yang digunakan adalah decision tree yang merupakan metode klasifikasi yang paling
banyak digunakan dengan algoritma C50 Dataset tumbuhan jamur dibagi menjadi 3 bagian yaitu
2 bagian untuk data training dan 1 bagian untuk data testing Hasil klasifikasi menunjukkan bahwa
presentase nilai akurasi mencapai 100 yang menunjukkan bahwa algoritma yang digunakan
sangat cocok dengan data yang diolah [5]
Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan
dengan pemilihan sebuah atribut formulasi sebuah logical test pada atribut tersebut dan
pencabangan pada setiap hasil dari test Langkah ini terus bergerak ke subset ke contoh yang
memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada
setiap simpul anak cabang Langkah-langkah tersebut diulangi hingga dahan-dahan dari tree
memiliki contoh dari satu kelas tertentu Beberapa model decision tree yang sudah dikembangkan
antara lain adalah IDS ID3 C45 C50 CHAID dan CART
METODE PENELITIAN
ID3
Algoritma ID3 atau Iterative Dichotomiser 3 (ID3) merupakan sebuah metode yang
digunakan untuk membuat pohon keputusan yang telah dikembangkan oleh J Ross Quinlan sejak
tahun 1986 Algoritma pada metode ini menggunakan konsep dari entropy informasi Algoritma
ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri)
[6]
Secara ringkas langkah kerja Algoritma ID3 dapat digambarkan sebagai berikut [7]
1 Hitung Entropy dan Information gain dari setiap atribut dengan menggunakan rumus
PPPP=SEntropy 22 loglog)( (1)
Dimana
S = ruang (data) sample yang digunakan untuk training
P+ = jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu
jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria tertentu
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5
Gain S A = Entropy S minus sumSv
SEntropy(Sv) (2)
Dimana
S = ruang (data) sample yang digunakan untuk training
A = atribut
V = suatu nilai yang mungkin untuk atribut A
Nilai(A) = himpunan yang mungkin untuk atribut A
|Sv| = jumlah sample untuk nilai V
|S| = jumlah seluruh sample data
Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan
dijadikan cabang pada pembentukan pohon keputusan
2 Pilih atribut yang memiliki nilai information gain terbesar
3 Bentuk simpul yang berisi atribut tersebut
4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua
data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak
diikutkan lagi dalam perhitungan nilai information gain
C50
Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang
dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45
Perbedaan utama C50 dari ID3 adalah
- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang
dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang
dihasilkan akan panjang dan tidak efisien
- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)
Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node
selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai
sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan
akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel
tersebut
119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)
S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m
dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S
dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi
dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci
dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat
6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang
bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)
maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula
119864 119860 = sum1199041119895 ++119904119898119895
119904119868(1199041119895 hellip 119904119898119895 )
119910119895=1 (4)
1199041119895 ++119904119898119895
119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk
mendapatkan nilai gain selanjutnya digunakan formula
119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)
Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui
kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini
Rumus pre pruning
(6)
Dimana
r = nilai perbandingan error rate
n = total sample
cz 1
c = confidence level
Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh
Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data
menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk
membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas
n
z
n
z
n
r
n
rz
n
zr
e2
2
222
1
42
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil
pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal
yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan
dilakukan
Rancangan Sistem
Gambar 1 Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012
yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba
menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan amp
Rule ID3
Mining C50
Pohon Keputusan
amp Rule C50
Penilaian Kinerja
ID3 amp C50
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C50
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 5
Gain S A = Entropy S minus sumSv
SEntropy(Sv) (2)
Dimana
S = ruang (data) sample yang digunakan untuk training
A = atribut
V = suatu nilai yang mungkin untuk atribut A
Nilai(A) = himpunan yang mungkin untuk atribut A
|Sv| = jumlah sample untuk nilai V
|S| = jumlah seluruh sample data
Entropy(Sv) = entropy untuk sample-sample yang memiliki nilai V
Tujuan dari pengukuran nilai information gain adalah untuk memilih atribut yang akan
dijadikan cabang pada pembentukan pohon keputusan
2 Pilih atribut yang memiliki nilai information gain terbesar
3 Bentuk simpul yang berisi atribut tersebut
4 Ulangi proses perhitungan information gain yang akan terus dilaksanakan sampai semua
data telah termasuk dalam kelas yang sama Atribut yang telah dipilih tidak
diikutkan lagi dalam perhitungan nilai information gain
C50
Algoritma C50 merupakan merupakan penyempurnaan dari algoritma terdahulu yang
dibentuk oleh Ross Quinlan pada tahun 1987 yaitu algoritma ID3 dan C45
Perbedaan utama C50 dari ID3 adalah
- C50 dapat menangani atribut kontinyu dan diskrit Akan tetapi pada penelitian ini yang
dipakai hanya atribut diskrit karena jika menggunakan atribut kontinyu pohon yang
dihasilkan akan panjang dan tidak efisien
- Hasil pohon keputusan C50 dapat dipangkas atau terdapat pruning (pemangkasan)
Atribut dengan nilai information gain tertinggi akan terpilih sebagai parent bagi node
selanjutnya Algoritma ini membentuk pohon keputusan dengan cara pembagian dan menguasai
sampel secara rekursif dari atas ke bawah Algoritma ini dimulai dengan semua data yang dijadikan
akar dari pohon keputusan sedangkan atribut yang dipilih akan menjadi pembagi bagi sampel
tersebut
119868 1199041 1199042 hellip 119904119898 = minussum 119901119894119898119894=1 log2 119901119894 (3)
S adalah sebuah himpunan yang terdiri dari s data sampel Diketahui atribut class adalah m
dimana mendefinisikan kelas-kelas di dalamnya Ci (for i= 1hellipm) si adalah jumlah sampel pada S
dalam class Ci untuk mengklasifikasikan sampel yang digunakan maka diperlukan informasi
dengan menggunakan aturan 3 Dimana pi adalah proporsi kelas dalam output seperti pada kelas Ci
dan diestimasikan dengan si s Atribut A memiliki nilai tertentu a1 a2hellip av Atribut A dapat
6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang
bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)
maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula
119864 119860 = sum1199041119895 ++119904119898119895
119904119868(1199041119895 hellip 119904119898119895 )
119910119895=1 (4)
1199041119895 ++119904119898119895
119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk
mendapatkan nilai gain selanjutnya digunakan formula
119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)
Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui
kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini
Rumus pre pruning
(6)
Dimana
r = nilai perbandingan error rate
n = total sample
cz 1
c = confidence level
Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh
Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data
menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk
membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas
n
z
n
z
n
r
n
rz
n
zr
e2
2
222
1
42
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil
pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal
yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan
dilakukan
Rancangan Sistem
Gambar 1 Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012
yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba
menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan amp
Rule ID3
Mining C50
Pohon Keputusan
amp Rule C50
Penilaian Kinerja
ID3 amp C50
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C50
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
6 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
digunakan pada partisi S ke dalam v subset S1 S2 hellip Sv dimana Sj berisi sample pada S yang
bernilai aj pada A Jika A dipilih sebagai atribut tes (sebagai contoh atribut terbaik untuk split)
maka subset ini akan berhubungan pada cabang dari node himpunan S Sij adalah jumlah sample
pada class Ci dalam sebuah subset Sj Untuk mendapatkan informasi nilai subset dari atribut A
tersebut maka digunakan formula
119864 119860 = sum1199041119895 ++119904119898119895
119904119868(1199041119895 hellip 119904119898119895 )
119910119895=1 (4)
1199041119895 ++119904119898119895
119904 adalah jumlah subset j yang dibagi dengan jumlah sampel pada S maka untuk
mendapatkan nilai gain selanjutnya digunakan formula
119866119886119894119899 119860 = 119868 1199041 1199042hellip 119904119898 minus 119864 119860 (5)
Pre Pruning
Pre pruning yaitu pemangkasan yang dilakukan sejak awal pembentukan pohon dengan cara
menghentikan pembangunan suatu subtree lebih awal yaitu dengan memutuskan untuk tidak lebih
jauh mempartisi data training Cara kerja pre pruning adalah dengan menghitung dulu nilai
information gain untuk mengetahui nilai parent dan child Setelah parent dan child diketahui
kemudian dihitung nilai errornya jika nilai error child lebih kecil parent maka parent membentuk
subtree lagi tapi sebaliknya jika nilai error child lebih besar dari parent maka pruning dilakukan
dan pembentukan subtree berhenti Untuk menghitung nilai error digunakan rumus dibawah ini
Rumus pre pruning
(6)
Dimana
r = nilai perbandingan error rate
n = total sample
cz 1
c = confidence level
Post Pruning
Post Pruning merupakan pemangkasan yang dilakukan setelah pohon terbentuk secara utuh
Reduced Error Pruning merupakan salah satu algoritma postpruning Algoritma ini membagi data
menjadi dua yaitu training data dan test data Training data adalah data yang digunakan untuk
membentuk pohon keputusan sedangkan test data digunakan untuk menghitung nilai error rate
pada pohon setelah dipangkas
n
z
n
z
n
r
n
rz
n
zr
e2
2
222
1
42
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil
pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal
yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan
dilakukan
Rancangan Sistem
Gambar 1 Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012
yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba
menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan amp
Rule ID3
Mining C50
Pohon Keputusan
amp Rule C50
Penilaian Kinerja
ID3 amp C50
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C50
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 7
Cara kerja REP adalah dengan memangkas internal node yang dimulai dari internal node
paling bawah ke atas Pemangkasan dilakukan dengan cara mengganti atribut dengan leaf node
yang memiliki kelas yang dominan muncul Setelah itu test data diproses menggunakan rule hasil
pemangkasan kemudian dihitung nilai error ratenya Test data juga diproses dengan rule awal
yaitu rule yang terbentuk sebelum pohon dipangkas kemudian dihitung nilai error ratenya
Apabila nilai error rate yang dihasilkan dari pemangkasan pohon lebih kecil maka pemangkasan
dilakukan
Rancangan Sistem
Gambar 1 Flowchart Sistem
HASIL DAN PEMBAHASAN
Data yang digunakan dalam tugas akhir ini merupakan data siswa kelas X angkatan 20112012
yang diperoleh dari SMAN 2 Bangkalan Jumlah data yang digunakan sebanyak 200 data dimana
140 data memiliki kelas ipa dan 60 memiliki kelas ips Dalam implementasinya data diujicoba
menjadi 3 skenario Skenario 1 digunakan untuk membandingakan algritma ID3 dan C50 pre
Mulai
Input data training data testing
Preprosesing (transformasi data numerik ke
kategorikal)
Mining ID3
Selesai
Proses klasifikasi data
testing dengan rule ID3
Proses Klasifikasi
Pohon Keputusan amp
Rule ID3
Mining C50
Pohon Keputusan
amp Rule C50
Penilaian Kinerja
ID3 amp C50
Input Data Penentu Keputusan
Jurusan IPA atau IPS
Proses klasifikasi data
testing dengan rule C50
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
8 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
pruning skenario 2 digunakan untuk membandingkan algoritma post pruning dan skenario 3
digunakan untuk efektifitas dan efisiensi dari algoritma Pada penelitian ini data dipecah menjadi 3
yaitu data training digunakan untuk membentuk pohon keputusan data testing digunakan untuk
ujicoba pada pohon yang telah dibentuk guna menghitung nilai error rate dan data test pruning
digunakan untuk mengetes akurasi pada pohon yang telah dibentuk guna proses pemangkasan
pohon
Skenario 1
Skenario 1 digunakan untuk membandingkan algritma ID3 dan C50 pre pruning Pada
skenario 1 ini data yang digunakan yaitu 150 data training dan 50 data testing Data yang akan
digunakan dipecah menjadi 2 yaitu data training dan data testing yaitu
Berikut keterangan dari jumlah populasi data yaitu
Tabel 1 Data Skenario 1
Skenario 2
Skenario 2 digunakan untuk membandingkan algoritma post pruning Dalam algoritma post
pruning data yang digunakan dipecah menjadi 3 yaitu data training data testing dan data test
pruning Untuk membandingkan kinerjanya data post pruning dipecah menjadi 3 partisi yaitu
partisi 50100 adalah 50 data training 100 data test pruning partisi 7575 adalah 75 data training
75 data test pruning dan partisi 10050 adalah 100 data training 50 data test pruning Dari ketiga
partisi tersebut sama-sama menggunakan 50 data testing Berikut keterangan jumlah populasi data
Tabel 2 Data Skenario 2
Skenario 3
Skenario 3 digunakan untuk membandingkan algoritma ID3 C50 pre pruning dan C50 post
pruning guna untuk mengetahui efektifitas dan efisiensi dari algoritma tersebut
Berikut keterangan dari jumlah populasi data yaitu
ID3 C50
prepruning
Training 150 150
Testing 50 50
Jumlah 200 200
C50 Post Pruning
50100 7575 10050
Training 50 75 100
Test Pruning 100 75 50
Testing 50 50 50
Jumlah 200 200 200
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 9
Tabel 3 Data Skenario 3
Analisa Perbandingan Algoritma
Setelah pohon dibentuk selanjutnya dilakukan perbandingan dengan data yang merupakan
data testing data yang digunakan ada 50 data dimana data tersebut dilakukan pengklasifikasian
menggunakan rule ID3 dan C50 yang telah dibentuk Kemudian kelas yang terbentuk
dibandingkan dan dihitung nilai error ratenya
Setelah proses klasifikasi kemudian dihitung kinerja dari masing-masing algoritma yang
meliputi akurasi error rate precision dan recall Berikut tabel kinerja perbandingan
Tabel 4 Kinerja Perbandingan Algoritma
Kinerja
Skenario 1 Skenario 2 Skenario 3
ID3
15050
C50 Pre
Pruning
15050
C50
Post
Pruning
50100
C50
Post
Pruning
7575
C50
Post
Pruning
10050
ID3
100100
C50 Pre
Pruning
100100
C50 Post
Pruning
100100
Akurasi 86 94 94 94 90 93 93 95
Error Rate 14 6 6 6 10 7 7 5
Precision 8974 9487 9487 9487 9024 9342 9231 9474
Recall 9211 9737 9737 9737 9737 9726 9863 9863
Skenario 1
Pada Skenario 1 terdapat penilaian kinerja algoritma ID3 dan C50 pre pruning Penilaian
kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing Perbandingan skenario 1
ini digunakan untuk membandingkan kinerja dari kedua algoritma guna mengetahui algoritma
mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja diketahui algoritma C50 pre
pruning memiliki akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 pre
pruning sebesar 94 sedangkan ID3 sebesar 86
ID3 C50
prepruning
C50 post
pruning
Training 100 100 50
Testing 100 100 50
Test Pruning - - 100
Jumlah 200 200 50
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
10 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
Perbandingan pada skenario 1 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 2 Grafik Skenario 1
Skenario 2
Pada Skenario 2 terdapat penilaian kinerja algoritma C50 post pruning Penilaian kinerja
diperoleh dari hasil klasifikasi rule algoritma c50 post pruning dengan 50 data testing Dalam
skenario 2 ini terdapat 3 partisi data yaitu 50100 adalah 50 training dan 100 test pruning 7575
adalah 75 training dan 75 test pruning 10050 adalah 100 training dan 50 test pruning
Perbandingan skenario 2 ini digunakan untuk membandingkan kinerja algoritma dari tiap partisi
guna mengetahui algoritma mana yang paling bagus kinerjanya Dari Hasil penilaian kinerja
diketahui algoritma C50 post pruning 50100 dan 7575 memiliki akurasi yang sama dan lebih
baik dari pada C50 post pruning 10050 Ini terlihat dari nilai akurasi C50 post pruning 50100
dan 7575 sebesar 9388 sedangkan C50 post pruning 10050 sebesar 90
Perbandingan pada skenario 2 dari ketiga partisi data dari algoritma C50 post pruning dapat
digambarkan pada grafik berikut
Gambar 3 Grafik Skenario 2
Skenario 3
Pada Skenario 3 terdapat penilaian kinerja algoritma ID3 C50 pre pruning dan C50 post
pruning Penilaian kinerja diperoleh dari hasil klasifikasi rule algoritma dengan data testing
Perbandingan skenario 3 ini digunakan untuk membandingkan kinerja dari kedua algoritma guna
mengetahui algoritma mana yang paling bagus kinerjanya selain itu untuk efektifitas dan efisiensi
dari algoritma tersebut Dari Hasil penilaian kinerja diketahui algoritma C50 post pruning memiliki
0
20
40
60
80
100
120
ID3 15050 C50 prepruning 15050
Precision
Recall
Akurasi
Error Rate
0
20
40
60
80
100
120
C50 post pruning 50100
C50 post pruning 7575
C50 post pruning 10050
Precision
Recall
Akurasi
Error Rate
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
Holisatul Munawaroh Perbandingan ID3 dan C50 dalam Identifikasi Penjurusan SMA 11
akurasi yang lebih baik dari pada ID3 Ini terlihat dari nilai akurasi C50 post pruning sebesar 95
sedangkan ID3 sebesar 93
Perbandingan pada skenario 3 dari kedua algoritma dapat digambarkan pada grafik berikut
Gambar 4 Grafik Skenario 3
KESIMPULAN DAN SARAN
Kesimpulan
Beberapa kesimpulan yang dapat diambil dari hasil penelitian ini adalah
1 Hasil ujicoba pengukuran kinerja kedua algoritma menggunkanan 3 skenario yang telah
dilakukan dapat disimpulkan bahwa pada skenario 3 merupakan ujicoba paling efektif karena
akurasi yang dihasilkan mencapai 95 pada algoritma C50 post pruning 100100
2 Algoritma pohon keputusan yang terbaik adalah algoritma C50 karena memiliki kinerja
(precision recall accuracy dan error rate) yang lebih baik dibandingkan algoritma ID3 Ini
terlihat dari nilai akurasi C50 post pruning 100100 sebesar 95 sedangkan untuk ID3
100100 sebesar 93
3 Hasil penilaian kinerja yang telah diketahui dapat disimpulkan juga bahwa semakin banyak
data testing yang digunakan semakin tinggi tingkat akurasi yang dihasilkan Ini terlihat dari
hasil skenario 1 menggunakan 50 data testng algoritma ID3 sebesar 86 dan C50 post
pruning sebesar 90 Sedangkan menggunakan 100 data testing hasil kinerjanya meningkat
pada algoritma ID3 sebesar 93 dan C50 post pruning sebesar 95
Saran
Saran-saran yang bisa disampaikan adalah sebagai berikut
1 Aplikasi ini masih bisa dikembangkan untuk algoritma pohon keputusan lainnya dan untuk
metode pruning yang digunakan juga masih bisa dikembangkan lagi
2 Algoritma C50 pada aplikasi ini tidak bisa mengklasifikasi data yang mengandung missing
value sehingga dapat lebih disempurnakan lagi
3 Tampilan dari aplikasi ini masih terlihat kaku sehingga dapat dibuat lebih menarik lagi
0
20
40
60
80
100
120
ID3 100100
C50 pre pruning 100100
C50 post pruning 100100
Precision
Recall
Akurasi
Error Rate
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
12 Jurnal Sarjana Teknik Informatika Vol 1 No 1 Juni 2013 hlm 1-12
DAFTAR PUSTAKA
[1] Pramudiono I Pengantar Data Mining Menambang Permata Pengetahuan di Gunung
Data 2003 ltURLhttpikcdinusacidumumikoiko-dataminingzipgt diakses
tanggal 17 Oktober 2012
[2] Nugroho Fanuel Kristanto Harianto dan Oslan Yetli Validitas Suatu Alamat
menggunakan Pohon keputusan dengan Algoritma ID3 Jurnal Informatika Volume 3
Nomor 2 April 2007 1 2 2007
[3] Hardikar S Shrivastava A Choudhary V Comparison between ID3 and C45 in
Contrast to IDS VSRD-IJCSIT Vol 2 (7) 659-667 2012
[4] Humairah N Klasifikasi Data Tumbuhan Jamur Dengan Menggunakan Algoritma C50
[Skripsi] UPN Veteran Jakarta 2009
[5] Nugroho MW Perbandingan kinerja pohon keputusan ID3 dan C45 dalam klasifikasi
kelayakan kredit sepeda motor (studi kasus Bussan Auto Finance) [Skripsi] Universitas
Trunojoyo Bangkalan 2012
[6] Wahyudin Metode Iterative Dichotomizer 3 (ID3) Untuk Penerimaan Mahasiswa Baru
Tanpa Tahun ltURLhttpfileupieduDirektoriFPMIPAPRODI_ILMU_
KOMPUTERWAHYUDINmetode_ID3_untuk_mhsbarupdfgt diakses tanggal 17 Oktober
2012
[7] Defianti S dan Pardede D L C Perbandingan Kinerja Algoritma ID3 dan C45 dalam
Klasifikasi SpamMail 2008 ltURLhttpopenstoragegunadarmaacid
~mwiryanaKOMMITper-artikel03-02-004-Perbandingan5BSofi5Dpdfgt diakses
tanggal 5 Oktober 2012
[8] Ernawati I Prediksi Status Keaktifan Studi Mahasiswa Dengan Algoritma C50 dan K-
Nearest Neighbor [Tesis] Institut Pertanian Bogor Bogor 2008
[9] Tanpa Nama Constructing Decision Trees Tanpa Tahun ltURLhttpnotes-
storecomNotesDecision-Tree1011pptgt diakses tanggal 3 Oktober 2012
Recommended