perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
i
APLIKASI ALGORITMA CART
UNTUK MENGKLASIFIKASIKAN DATA NASABAH
ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA
oleh
LAILA KURNIA DAMAYANTI
M0106014
SKRIPSI
ditulis dan diajukan untuk memenuhi sebagian persyaratan
memperoleh gelar Sarjana Sains Matematika
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2011
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ii
SKRIPSI
APLIKASI ALGORITMA CART
UNTUK MENGKLASIFIKASIKAN DATA NASABAH
ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA yang disiapkan dan disusun oleh
LAILA KURNIA DAMAYANTI
M0106014 dibimbing oleh
Pembimbing I, Pembimbing II,
Irwan Susanto, DEA Drs. Pangadi, M.Si.
NIP. 19710511 199512 1 001 NIP. 19571012 199103 1 001
telah dipertahankan di depan Dewan Penguji
pada hari Jumat tanggal 29 April 2011
dan dinyatakan telah memenuhi syarat
Anggota Tim Penguji Tanda Tangan
1. Winita Sulandari, M.Si 1. β¦β¦β¦β¦β¦β¦β¦
NIP. 19780814 200501 2 002
2. Dr. Sutanto, DEA 2. β¦β¦β¦β¦β¦β¦β¦
NIP. 19710302 199603 1 001
Surakarta, Mei 2011
Disahkan oleh
Fakultas Matematika dan Ilmu Pengetahuan Alam
Dekan
Prof. Drs. Sutarno, M.Sc, Ph.D
NIP. 19600809 198612 1 001
Ketua Jurusan Matematika
Drs. Sutrima, M.Si
NIP. 19661007 199302 1 001
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iii
ABSTRAK
Laila Kurnia Damayanti, 2011. APLIKASI ALGORITMA CART UNTUK
MENGKLASIFIKASIKAN DATA NASABAH ASURANSI JIWA BERSAMA
BUMIPUTERA 1912 SURAKARTA. Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Sebelas Maret.
Masalah klasifikasi sering dijumpai dalam kehidupan sehari-hari, baik
mengenai data sosial, industri, kesehatan, perusahaan maupun perbankan. Masalah
tersebut dapat diselesaikan dengan metode klasifikasi. Algoritma CART
(Classification and Regression Trees) merupakan metode statistik nonparametrik
yang berguna untuk memperoleh kelompok data yang akurat dalam analisis
klasifikasi. Data nasabah Asuransi Jiwa Bersama Bumiputera mempunyai banyak
atribut yang bertipe kategorik (nominal maupun ordinal) yang tidak mudah untuk
ditangani. Algoritma CART merupakan salah satu metode yang cocok untuk
mengatasi masalah tersebut dengan kelebihan-kelebihan yang dimilikinya. Algoritma
CART diaplikasikan untuk mengklasifikasikan nasabah AJB Bumiputera 1912
Surakarta. Selanjutnya pola status pembayaran nasabah dapat dicari untuk
menentukan calon nasabah yang akan datang. Proses pembentukan pohon klasifikasi terbagi menjadi 4 tahapan yaitu pembentukan
pohon, pelabelan kelas, proses pemangkasan pohon klasifikasi dan pemilihan pohon
klasifikasi optimal. Data nasabah dibagi menjadi dua kelompok data yaitu data learning dan
data testing. Dalam skripsi ini dilakukan tiga kombinasi proporsi data learning dan data
testing yaitu: (1) pembagian data learning dan data testing dengan proporsi data learning >
data testing (70%: 30%), (2) pembagian data learning dan data testing dengan proporsi data
learning = data testing (50% : 50%), (3) pembagian data learning dan data testing dengan
proporsi data learning < data testing (40% : 60%).
Hasil penelitian menunjukkan bahwa untuk membuat model yang akan
digunakan untuk mengklasifikasikan data baru maka pohon klasifikasi optimal yang
digunakan adalah pohon pada kondisi pertama dengan proporsi data learning dan data
testing sebesar 70%:30%, dimana nilai ketepatan data testingnya tertinggi yaitu
sebesar 83.65 %. Dengan Algoritma CART dapat dikatakan bahwa status
pembayaran nasabah dikategorikan tidak lancar jika cara bayar dilakukan secara
bulanan. Sedangkan status pembayaran dikategorikan lancar jika cara bayar
dilakukan secara setengah tahunan atau tahunan.
Kata kunci : Pohon klasifikasi, CART, nasabah asuransi jiwa Bumiputera
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
ABSTRACT
Laila Kurnia Damayanti, 2011. THE APPLICATION OF CART ALGORITHM TO
CLASSIFY DATA OF CUSTOMERS MUTUAL LIFE INSURANCE BUMIPUTERA
1912 IN SURAKARTA. Faculty of Mathematics and Natural Sciences, Sebelas Maret
University.
. In everyday life, the problem of classification is very frequently found, both in social
data, industrial, healthcare, corporate and banking. These problems can be solved by the
method of classification. Algorithm CART (Classification and Regression Trees) is a
nonparametric statistical method that is useful to obtain accurate sets of data in the
classification analysis. The data of customers Mutual Life Insurance Bumiputera had many
attributes that type of categorical (nominal or ordinal) is not easy to handle. CART algorithm
is a suitable method to resolve the issue with the advantages it is had. The CART algorithm is
applies to classify customers Mutual Life Insurance Bumiputera 1912 in Surakarta. Further to
note patterns generated customer payment status to determine which prospective customers
will come.
The tree classification building divided into four step i.e. the splitting nodes and class
assignment, stop the split, the tree pruning classification and the optimal selection tree
classification. In this paper is applies three combinations of proportions of learning data and
testing data are: (1) the distribution of learning data and testing data with the proportion of
learning data higher than data testing (70%: 30%), (2) the distribution of learning data and
testing data with the proportion of data learning is equal testing data (50%: 50%), (3) data
sharing learning and testing data with the proportion of learning data lower than data testing
(40%: 60%).
The results shows that in order to create a model that will be used to classify new
data, the optimal classification tree is a tree that is used in the first condition that the
proportion of learning data and testing data is equal 70%:30%, where the highest value
testing data accuracy that is equal to 83.65%. With CART algorithm can describe that under
the monthly payment basis customer payment status is classified as stagnating. While
categorized as no constrain payment status if payment is done half-way annual or annual.
Keywords: classification tree, CART, insurance customers of Bumiputera
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
MOTTO
βSesungguhnya sesudah kesulitan itu ada kemudahan, maka apabila kamu telah
selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lainβ
(QS. Alam Nasyirah: 6-7)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
PERSEMBAHAN
Karya ini penulis kupersembahkan untuk :
Orang tuaku tercinta
Kakak dan adikku tersayang
My special person
Teman-temanku dan sahabat-sahabatku tercinta
Almamaterku
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
KATA PENGANTAR
Alhamdulillahi Rabbilβalamin. Puji syukur penulis panjatkan kehadirat Allah SWT
yang telah memberikan nikmat, rahmat, dan hidayahNya sehingga penulis dapat
menyelesaikan skripsi ini. Penulis juga tidak lupa mengucapkan terima kasih kepada
beberapa pihak yang telah banyak memberikan masukan untuk perbaikan penulisan skripsi
ini, khususnya kepada
1. Bapak Irwan Susanto, DEA dan Drs. Pangadi, M.Si. selaku Pembimbing I dan
Pembimbing II yang telah memberikan bimbingan, nasehat, kritik dan saran selama
penyusunan skripsi ini.
2. Bapak Drs. Sutrima, M.Si yang telah memberikan semangat, bimbingan, nasehat,
kritik dan saran dalam penyusunan skripsi ini.
3. Bapak, Ibu, Kakak, serta Adikku atas doa, kasih sayang, perhatian dan segalanya
yang telah menjadikan penulis selalu semangat dan termotivasi untuk melakukan
yang terbaik.
4. Sahabat-sahabat tercinta Hayu, Tya, Linda, Dewanti serta Mas Cica terima kasih atas
dukungan, support serta bimbingan yang telah diberikan dalam menyelesaikan
skripsi ini.
Selanjutnya, semoga skripsi ini dapat bermanfaat bagi pihak yang membutuhkan.
Surakarta, April 2011
Penulis
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
DAFTAR ISI
JUDUL β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. i
PENGESAHAN β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... ii
ABSTRAK β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... I iii
ABSTRACT β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦......................... iv
MOTTO β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... v
PERSEMBAHAN β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ vi
KATA PENGANTAR β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. vii
DAFTAR ISI β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ viii
DAFTAR TABEL β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦........
DAFTAR GAMBAR β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦...
x
xi
DAFTAR NOTASI β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.. xii
BAB I PENDAHULUAN β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 1
1.1. Latar Belakang Masalah β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 1
1.2. Perumusan Masalah β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 2
1.3. Batasan Masalah β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 3
1.4. Tujuan Penelitianβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 3
1.5. Manfaat Penelitianβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... 3
BAB II LANDASAN TEORI β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 4
2.1. Tinjauan Pustaka β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 4
2.1.1. Teori Probabilitasβ¦.β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 4
2.1.2. Analisi Klasifikasiβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 7
2.1.3. Masalah Umum Klasifikasi...β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... 8
2.1.4. Algoritma CARTβ¦β¦β¦β¦.β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 11
2.1.5. Struktur atau Bentuk Pohon Klasifikasiβ¦β¦β¦β¦...β¦β¦β¦ 12
2.1.6. Binary Recursive Partitioningβ¦.β¦.β¦β¦β¦β¦β¦β¦β¦β¦.... 14
2.1.7. Langkah-langkah Kerja CART..β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.. 16
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
2.1.7.1 Proses Pemecahan Nodeβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦..
2.1.7.2 Pelabelan Kelas (Class Assignment)β¦β¦β¦β¦β¦β¦
2.1.7.3 Proses Penghentian Pemecahanβ¦β¦β¦β¦β¦β¦β¦...
2.1.7.4 Proses pemangkasan Pohonβ¦β¦β¦β¦β¦β¦β¦β¦β¦.
2.1.7.5 Pohon Klasifikasi Optimalβ¦β¦β¦β¦β¦β¦β¦β¦β¦...
2.1.8. Predictive Accuracyβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.
16
19
20
21
24
27
2.1.9. Interpretasi Pohon Klasifikasiβ¦..β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 30
2.2. Kerangka Pemikiran β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... 32
BAB III METODE PENELITIAN β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.. 33
3.1. Sumber Dataβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦
3.2. Metode Analisis Data β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦..
33
34
BAB IV PEMBAHASAN β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 36
4.1 Deskripsi Dataβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦...
4.2 Hasil Analisis CARTβ¦β¦β¦β¦β¦β¦β¦β¦β¦...β¦β¦β¦β¦β¦β¦β¦
4.2.1 Pembentukan Pohon Klasifikasi Kondisi Pertamaβ¦β¦β¦...
4.2.2 Pembentukan Pohon Klasifikasi Kondisi Keduaβ¦β¦β¦β¦.
4.2.3 Pembentukan Pohon Klasifikasi Kondisi Ketigaβ¦β¦β¦β¦.
4.2.4 Pemilihan Kondisi yang Tepatβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.
4.2.5 Interpretasi Pohon Klasifikasi Terbaikβ¦β¦β¦...β¦β¦β¦β¦.
36
37
37
46
55
64
65
BAB V PENUTUP β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 68
5.1. Kesimpulan β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 68
5.2. Saran β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... 68
DAFTAR PUSTAKA β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.. 69
LAMPIRAN β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 70
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
x
DAFTAR TABEL
Tabel 4.1. Variabel Independen dan Variabel Dependen β¦β¦β¦β¦β¦β¦β¦β¦... 36
Tabel 4.2. Kriteria Pemilah Terbaik Root Node Kondisi Pertama β¦β¦β¦β¦β¦. 38
Tabel 4.3. Tree Sequence Kondisi Pertama β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 44
Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning
Kondisi Pertama β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.
45
Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing
Kondisi Pertama β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.
46
Tabel 4.6. Kriteria Pemilah Terbaik Root Node Kondisi Kedua β¦β¦β¦β¦β¦β¦ 47
Tabel 4.7. Tree Sequence Kondisi Kedua β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦... 53
Tabel 4.8. Tingkat Akurasi Pohon Optimal Dengan Data Learning
Kondisi Kedua β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦
54
Tabel 4.9. Tingkat Akurasi Pohon Optimal Dengan Data Testing
Kondisi Kedua β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦
55
Tabel 4.10. Kriteria Pemilah Terbaik Root Node Kondisi Ketigaβ¦β¦β¦β¦β¦β¦
Tabel 4.11. Tree Sequence Kondisi Ketiga...........................................................
Tabel 4.12. Tingkat Akurasi Pohon Optimal Dengan Data Learning
Kondisi Ketiga....................................................................................
Tabel 4.13. Tingkat Akurasi Pohon Optimal Dengan Data Testing
Kondisi Ketiga....................................................................................
Tabel 4.14. Nilai Ketepatan dari Ketiga Kondisi β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.
56
62
63
64
64
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xi
DAFTAR GAMBAR
Gambar 2.1. Pohon Klasifikasi CART β¦β¦β¦β¦β¦β¦β¦...β¦β¦β¦β¦β¦β¦β¦β¦. 13
Gambar 2.2. Proses Partisi β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.β¦β¦β¦β¦. 15
Gambar 2.3. Pohon Klasifikasi T β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦ 22
Gambar 2.4. Branch Tt2 .........β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦.. 22
Gambar 2.5. Pohon Klasifikasi T-Tt2 (Pruned Subtree)β¦β¦β¦β¦β¦β¦β¦β¦β¦... 22
Gambar 2.6. Contoh Pohon Klasifikasi (CART) .............................β¦β¦β¦β¦... 31
Gambar 4.1. Pemilahan Root Node Kondisi Pertama β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦. 39
Gambar 4.2. Terminal Node 46 dan 47 Kondisi Pertama β¦β¦β¦β¦β¦β¦β¦β¦... 40
Gambar 4.3. Pohon Klasifikasi Maksimal Kondisi Pertama β¦β¦β¦β¦β¦β¦β¦.. 40
Gambar 4.4. Pohon Klasifikasi Kondisi Pertama yang Akan Dipangkas β¦β¦...
Gambar 4.5. Node 36 Pada Kondisi Pertama yang Akan Dipangkas..................
Gambar 4.6. Pemilahan Root Node Kondisi Kedua............................................
Gambar 4.7. Terminal Node 23 dan 24 Kondisi Kedua......................................
Gambar 4.8. Pohon Klasifikasi Maksimal Kondisi Kedua..................................
Gambar 4.9. Pohon Klasifikasi Kondisi Kedua yang Akan Dipangkasβ¦β¦β¦...
Gambar 4.10. Node 8 Pada Kondisi Kedua yang Akan Dipangkasβ¦β¦β¦β¦β¦..
Gambar 4.11. Pemilahan Root Node Kondisi Ketigaβ¦β¦β¦β¦β¦β¦β¦β¦β¦β¦β¦
Gambar 4.12. Terminal Node 10 dan 11 Kondisi Ketigaβ¦β¦β¦β¦β¦β¦β¦β¦β¦..
Gambar 4.13. Pohon Klasifikasi Maksimal Kondisi Ketiga.................................
Gambar 4.14. Pohon Klasifikasi Kondisi Ketiga yang Akan Dipangkasβ¦β¦β¦.
Gambar 4.15. Node 9 Pada Kondisi Ketiga Yang Akan Dipangkas β¦β¦β¦β¦β¦
41
41
48
49
49
50
50
57
58
58
59
60
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xii
DAFTAR NOTASI
x : Variabel independen
y : Variabel dependen
ππ : Probabilitas prior untuk kelas ke-j
R*(T) : Probabilitas terjadinya kesalahan untuk seluruh terminal node t
R(T) : Estimator R*(T)
π : Fungsi impurity
i(t) : Ukuran impurity untuk node t
βπ π , π‘ : Fungsi penurunan keragaman pada node t dengan kriteria pemecah s
πΌ π‘ : Impurity node t
πΌ π : Impurity tree (Pohon Klasifikasi T)
ππππ₯ : Pohon klasifikasi maksimal
πΌ : Node complexity
π : Banyak terminal node
RΞ± (T) : Ukuran ongkos kompleksitas untuk pohon klasifikasi T
π π‘π T : Penduga sampel uji untuk Pohon klasifikasi T
π ππ£ π : Penduga validasi silang lipat V untuk pohon klasifikasi T
R*(d) : Proporsi misclassification yang sebenarnya
R(d) : Estimator R*(d)
Rts(d) : Proporsi misclassification dengan metode Test Sample Estimate
Rcv
(d) : Proporsi misclassification dengan metode V-Fold Cross Validation
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
1
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Masalah klasifikasi sering dijumpai pada kehidupan sehari-hari, baik
mengenai data sosial, data industri, data kesehatan, data perusahaan maupun data
perbankan. Masalah tersebut dapat diselesaikan dengan metode klasifikasi. Menurut
Webb dan Yohannes [8] metode klasifikasi dapat dilakukan dengan pendekatan
parametrik dan nonparametrik. Dalam pendekatan parametrik terdapat beberapa
metode klasifikasi yang sering digunakan antara lain : Analisis Regresi Logistik,
Analisis Diskriminan dan Analisis Regresi Probit. Analisis Regresi Logistik dan
Analisis Regresi Probit memiliki kelemahan, yaitu nilai yang dihasilkan model
Regresi Logistik dan Regresi Probit berupa nilai probabilitas yang dirasa kurang
praktis. Pada Analisis Diskriminan, data diharuskan memenuhi beberapa asumsi yaitu
data harus berdistribusi normal dan matriks kovarian yang sama untuk setiap
populasi, Breiman et.al. [1].
Dengan adanya keterbatasan metode klasifikasi parametrik, maka digunakan
pendekatan nonparametrik. Metode nonparametrik tidak bergantung pada asumsi
tertentu sehingga memberikan fleksibilitas yang lebih besar dalam menganalisa data
tetapi tetap mempunyai tingkat akurasi yang tinggi dan mudah dalam penggunaannya.
Ada beberapa metode klasifikasi dengan pendekatan nonparametrik yang sering
digunakan, salah satunya adalah metode klasifikasi berstruktur pohon yang
diperkenalkan oleh Leo Breiman, et.al. [1] yaitu Classification and Regression Trees
(CART). Algoritma CART memiliki banyak keunggulan dibandingkan dengan metode
lain seperti, variabel-variabel dalam CART baik variabel dependen maupun
independen tidak menggunakan asumsi distribusi tertentu, variabel independennya
dapat bertipe kategorik (nominal atau ordinal) maupun kontinu, tidak berlaku adanya
transformasi data dan interpretasinya mudah dipahami.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
2
Masalah klasifikasi juga di alami dalam bidang asuransi, khususnya AJB
Bumiputera 1912 Surakarta. Asuransi Jiwa Bersama Bumiputera 1912 telah
mengumpulkan data nasabah sekian tahun lamanya sehingga mencapai data dalam
jumlah yang besar. Data tersebut mempunyai banyak atribut bertipe kategorik
(nominal atau ordinal). Untuk menganalisisnya diperlukan pengetahuan yang tidak
mudah, dimana bisa menangani masalah data yang terjadi di AJB Bumiputera
tersebut.
Masalah yang muncul dalam AJB Bumiputera Surakarta adalah apabila ingin
mengelompokkan nasabah yang lancar membayar premi dan tidak lancar membayar
premi. Jika mengelompokkan nasabah yang tidak lancar membayar premi ke dalam
kelompok nasabah yang lancar membayar premi merupakan kesalahan yang dapat
berakibat cukup fatal. Lancar tidaknya pembayaran premi nasabahnya sangat penting
bagi pihak Bumiputera 1912 Surakarta karena sangat berpengaruh terhadap kinerja
serta eksistensinya dalam kehidupan sehari-hari. Untuk itu diperlukan suatu cara agar
dapat mengetahui bagaimana pola nasabah yang dikatakan lancar maupun tidak
lancar sehingga dapat membantu pihak Bumiputera dalam mengklasifikasikan
nasabahnya. Dengan demikian pihak Bumiputera dapat mempertimbangkan nasabah
yang akan nantinya akan diterima ataupun ditolak dengan hasil analisis tersebut.
Berdasarkan uraian di atas, penulis tertarik untuk melakukan penelitian
terhadap perusahaan asuransi khususnya AJB Bumiputera 1912 Surakarta dengan
mengaplikasikan Algoritma Classification and Regression Tress (CART) dalam data
nasabah, sehingga dapat dicari pola status nasabah untuk dapat dijadikan bahan
analisis perusahaan dalam menentukan calon nasabah di masa yang akan datang.
1.2 Rumusan Masalah
Berdasarkan latar belakang masalah, rumusan masalah yang dikemukakan adalah
1. bagaimana implementasi algoritma CART dalam mengklasifikasi atau
mengelompokkan data nasabah AJB Bumiputera 1912 Surakarta.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
3
2. bagaimana pola nasabah yang dihasilkan untuk menentukan calon nasabah yang
akan datang.
1.3 Batasan Masalah
Classification and Regression Trees (CART) terdiri dari dua metode yang
berbeda yaitu pohon klasifikasi dan pohon regresi. Dalam skripsi ini pembahasan
hanya dilakukan pada pembentukan pohon klasifikasi.
1.4 Tujuan Penelitian
Tujuan penelitian ini adalah
1. mengklasifikasikan atau mengelompokkan data nasabah AJB Bumiputera 1912
Surakarta dengan menggunakan algoritma CART .
2. menentukan pola nasabah yang dihasilkan untuk menentukan calon nasabah yang
akan datang.
1.5 Manfaat Penelitian
Dengan dilakukannya penelitian tentang klasifikasi data nasabah AJB
Bumiputera 1912 Surakarta diharapkan dapat menambah pengetahuan tentang peran
nyata statistika dalam bidang keuangan khususnya asuransi. Hasil penelitian ini juga
diharapkan dapat membantu semua pihak, khususnya pihak AJB Bumiputera 1912
Surakarta dalam mengklasifikasikan nasabahnya dan mengetahui pola yang terjadi
berdasarkan klasifikasi yang didapatkan dari hasil analisis sehingga dapat menjadi
sumbangan informasi untuk menentukan nasabah mana yang akan diterima ataupun
ditolak selanjutnya.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
4
BAB II
LANDASAN TEORI
2.1 Tinjauan Pustaka
Pada bagian ini diberikan beberapa definisi, teorema dan pengertian yang
mendasari dilakukannya penelitian ini, meliputi teori probabilitas, masalah umum
klasifikasi, algoritma CART, struktur pohon klasifikasi CART, binary recursive
partitioning, langkah kerja CART, predictive accuracy, dan interpretasi pohon
klasifikasi.
2.1.1 Teori Probabilitas
Teori probabilitas memberikan peranan yang sangat penting dalam membuat
sebuah pohon klasifikasi dengan menggunakan algoritma CART ini.
Definisi 2.1. (Wapole dan Myers, 1986) Bila suatu percobaan mempunyai N hasil
percobaan yang berbeda dan masing-masing mempunyai kemungkinan yang sama
untuk terjadi, dan bila tepat n diantara hasil percobaan itu menyusun kejadian A,
maka peluang kejadian A adalah
π π΄ =π
π
Menurut Walpole dan Myers [7] kaidah-kaidah probabilitas yang banyak digunakan
dalam membuat sebuah pohon klasifikasi, antara lain adalah
1. kaidah penjumlahan
a. kaidah penjumlahan dua kejadian yang saling terpisah.
Bila A dan B saling terpisah, maka
π π΄ βͺ π΅ = π π΄ + π π΅
b. kaidah penjumlahan n buah kejadian yang saling terpisah.
Bila π΄1,π΄2 ,β― ,π΄π kejadian-kejadian yang saling terpisah, maka
π(π΄1 βͺ π΄2 βͺβ―βͺ π΄π ) = π π΄1 + π π΄2 +β―+ π π΄π
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
5
c. bila A dan π΄β² adalah dua kejadian yang satu merupakan komplemen
lainnya maka
π π΄ + π π΄β² = 1
2. kaidah peluang bersyarat
peluang bersyarat B, bila A diketahui dilambangkan dengan π π΅|π΄ .
didefinisikan sebagai
π π΅|π΄ =π(π΄ β© π΅)
π(π΄) ,π π΄ > 0
3. kaidah penggandaan
a. kaidah penggandaan khusus
Bila kejadian A dan B saling bebas maka
π π΄ β© π΅ = π π΄ .π π΅
b. Jika kejadian-kejadian π΄1,π΄2 ,β― ,π΄π saling bebas, maka
π(π΄1 β© π΄2 β© π΄3 β―β© π΄π ) = π π΄1 π π΄2 π π΄3 β―π π΄π .
4. kaidah bayes
Jika kejadian-kejadian π΅1,π΅2,β― ,π΅π merupakan partisi dari ruang sampel S
dengan π(π΅π) β 0 untuk π = 1, 2,β― ,π maka untuk sembarang kejadian A
yang bersifat π(π΄ ) β 0 maka untuk π = 1, 2,β― ,π
π π΅π |π΄ =π π΅π β© π΄
π π΅π β© π΄ ππ=1
=π π΅π π π΄|π΅π
π π΅π π π΄|π΅π ππ=1
Probabilitas dalam CART
Dalam learning sample β dengan banyaknya kelas adalah j, diberikan
N : banyaknya objek atau cases pada learning sample β
Nj : banyaknya objek atau cases pada kelas j
dengan
Probabilitas prior (ππ ) =ππ
π
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
6
Probabilitas prior merupakan informasi awal mengenai proporsi atau
perbandingan banyaknya objek pada tiap-tiap kelas dalam β . Nilai probabilitas prior
ini diestimasi dari proporsi ππ
π yang diperoleh dari data. Menurut Webb dan
Yohannes [8] setidaknya ada 2 jenis dari probabilitas prior dalam CART yaitu
1. priors data, mengasumsikan bahwa proporsi banyaknya objek dalam suatu
kelas yang terdapat dalam sampel sama dengan yang terdapat dalam
populasinya. Prior data diestimasi oleh (ππ ) =ππ
π.
2. priors equal, mengasumsikan bahwa proporsi banyaknya objek tiap-tiap kelas
adalah sama. Diestimasikan P(kelas1) = P(kelas 2) = 1
2 .
Dalam sebuah node t, diberikan :
ππ‘ βΆ Banyaknya objek atau cases dalam β yang mana π₯0 β π‘ (banyaknya objek
dalam node t
ππ π‘ βΆ Banyaknya objek atau cases kelas j yang berada dalam node t
ππ (π‘)
ππ βΆ proporsi objek-objek dalam kelas j yang berada di node t
π π, π‘ : probabilitas bahwa sebuah objek adalah anggota kelas j dan berada dalam
node t
sehingga
π π, π‘ = ππ .ππ π‘
ππ
=ππ
π.ππ (π‘)
ππ
π π, π‘ =ππ (π‘)
π . (2.1)
Jika π π‘ adalah probabilitas beberapa objek akan berada dalam node t, maka
berdasarkan rumusan (2.1), diperoleh
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
7
π π‘ = π(π,
π½
π
π‘)
= π 1, π‘ + π 2, π‘ +β―+ π π½, π‘
=π1 π‘
π+π2 π‘
π+β―+
ππ½ π‘
π
π π‘ =ππ‘π
. (2.2)
Jika π π|π‘ adalah probabilitas bahwa sebuah objek adalah anggota kelas j yang
berada dalam node t, maka berdasarkan persamaan (2.2) diperoleh
π π|π‘ =π(π, π‘)
π(π‘)=
ππ (π‘)ππ(π‘)π
=ππ (π‘)
π(π‘) (2.3)
dan π π|π‘ = 1 . π
2.1.2 Analisis Klasifikasi
Analisis klasifikasi yaitu suatu analisis untuk memisahkan objek-objek ke
dalam dua kelas atau lebih serta menentukan atau mengalokasikan objek-objek baru
ke dalam kelas-kelas tersebut. Jadi, ada dua fungsi dalam analisis klasifikasi, yaitu
1. fungsi partisi, yaitu memisahkan objek-objek ke dalam dua kelas atau lebih
berdasarkan aturan klasifikasi tertentu.
2. fungsi prediksi, yaitu untuk mengalokasikan objek-objek baru (belum diketahui
kelasnya) ke dalam kelas-kelas tersebut.
Untuk melakukan kedua fungsi tersebut digunakan suatu alat klasifikasi
yaitu classifier dengan cara-cara atau metode yang sistematis. Beberapa contoh
classifier diantaranya adalah Analisis Diskriminan, Regresi Logistik, K-th Nearest
Neighbor, Kernel Density Estimation, Neural Network, dan Classification and
Regression Trees (CART). Classifier memisahkan objek-objek ke dalam kelas-
kelas yang berbeda berdasarkan pengukuran pada M variabel random π₯π ;π =
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
8
1, 2, 3,β¦ ,π yang selanjutnya disebut dengan variabel independen sedangkan
variabel yang memuat kelas-kelas dari objek disebut variabel dependen π =
{ π¦1,π¦2,β― ,π¦π½ } dimana π¦π βΆ kelas ke- π ; π = 1, 2,β― , π½.
Definisi 2.2. (Breiman et al, 1993) Classifier adalah partisi dari π ke
dalam π himpunan bagian π΄1 ,β― ,π΄π½ dengan π = π΄ππ sedemikian sehingga untuk
setiap π₯ π π΄π objek tersebut diprediksikan ke dalam kelas j.
π΄π = {π₯ βΆ π π₯ = π}
Classifier dibentuk berdasarkan data terdahulu atau observasi pada masa
lampau (past experience). Data-data terdahulu ini terhimpun dalam satu bentuk
susunan yang disebut dengan Learning Sample atau Training sample. Learning
Sample terdiri dari variabel-variabel independen dan variabel dependen pada kolom
dan objek-objek (cases) sebanyak N pada baris.
Definisi 2.3. (Breiman et al, 1993) Learning sample terdiri dari data
(π₯π1, π1), (π₯π2, π2),β― , (π₯ππ , ππ) dengan π₯ππ π π dan ππ π 1,β― , π½ ,π = 1, 2,β― ,π,
dengan N adalah banyaknya objek (case).
Learning sample dinotasilan dengan
β = { π₯π1 , π1 , π₯π2 , π2 ,β― , π₯ππ , ππ .
2.1.3 Masalah Umum Klasifikasi (Misclassification, Rebstitution Estimate dan
Misclassification Cost)
Classification rules (aturan klasifikasi) sebagai hasil akhir dari pohon
klasifikasi yang terbentuk, nantinya akan digunakan untuk melakukan prediksi.
Aturan klasifikasi ini tidaklah sepenuhnya terhindar dari kesalahan (error). Bentuk
kesalahannya adalah kesalahan dalam mengklasifikasikan objek baru ke dalam suatu
kelas (misclassification). Sebagai contoh sebuah objek diklasifikasikan ke dalam
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
9
kelas π2 padahal yang sebenarnya objek tersebut termasuk dalam kelas π1. Begitu pula
sebaliknya sebuah objek diklasifikasikan ke dalam kelas π1, padahal sebenarnya objek
itu termasuk dalam kelas π2.
Dalam CART untuk mengidentifikasi misclassification ini digunakan
resubstitution estimate. Dalam perhitungannya resubstitution estimate menggunakan
semua objek yang terdapat dalam β.
Definisi 2.4. (Breiman et al, 1993) Resubstitution estimate π(π‘) adalah probabilitas
atau peluang terjadinya misclassification di dalam sebuah node t tertentu.
π π‘ = 1βmaks π
π(π|π‘).
Definisi 2.5. (Breiman et al, 1993) Resubstitution estimate π (π‘) adalah probabilitas
atau peluang terjadinya misclassification yang dialami beberapa objek dalam
learning sample jika objek tersebut berada dalam sebuah node t tertentu.
π π‘ = π π‘ .π(π‘)
dengan π(π‘) adalah probabilitas beberapa objek akan berada dalam node t.
Definisi 2.6. (Breiman et al, 1993) Resubstitution estimate π (π) adalah probabilitas
atau peluang terjadinya misclassification yang dialami beberapa objek untuk
keseluruhan terminal node t atau peluang terjadinya misclassification yang
disebabkan oleh pohon klasifikasi yang terbentuk
dengan
π π = π (π‘)
t βπ
π adalah himpunan semua terminal node.
Konsep yang berkaitan dengan misclassification yaitu cost (misclassification
cost). Konsep misclassification cost muncul karena dalam beberapa masalah
klasifikasi tidaklah realistis untuk memberikan besar resiko yang sama terhadap
kesalahan klasifikasi ini. Mungkin saja resiko melakukan kesalahan klasifikasi
sebuah objek anggota kelas 1 menjadi anggota kelas 2 lebih besar daripada
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
10
melakukan kesalahan klasifikasi sebuah objek anggota kelas 2 menjadi anggota kelas
1 atau sebaliknya.
Sebagai contoh dalam diagnosis suatu penyakit, menyatakan seorang pasien
dalam kategori βtidak fatalβ padahal keadaan sebenarnya βfatalβ jelas lebih beresiko
daripada menyatakan bahwa ia βfatalβ padahal keadaan sebenarnya βtidak fatalβ.
Definisi 2.7. (Breiman et al, 1993) πΆ(π|π) adalah besar cost untuk terjadinya
misclassification sebuah objek kelas j sebagai objek kelas i, dengan πΆ π|π > 0, π β π
dan πΆ π|π = 0, π = π.
Besar cost dari misclassification ini biasa dituliskan dalam bentuk cost matriks.
Kelas Sebenarnya
1 2
Hasil Prediksi 1 0 C(1|2)
2 C(2|1) 0
Misal diketahui sebuah node t dengan probabilitas π π|π‘ tertentu, π = 1, 2,β― , π½ jika
diketahui sebuah objek berada dalam node t tersebut dan diklasifikasikan ke dalam
kelas i, maka estimasi rata-rata ongkos kesalahan klasifikasi (expected
misclassification cost) adalah
πΆ π|π π π|π‘ .
π
Selanjutnya didefinisikan resubstitution estimate π(π‘) berdasarkan expected
misclassification cost ini.
Definisi 2.8. (Breiman et al, 1993) Resubstitution estimate π(π‘) berdasarkan
expected misclassification cost di dalam sebuah node t adalah
π π‘ = minπ πΆ π|π π(π|π‘)
π
.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
11
Dengan mendefinisikan π π‘ = π π‘ π π‘ πππ π π = π π‘ tβπ .
Jika dipunyai nilai πΆ π|π = 1 π’ππ‘π’π π β π πππ πΆ π|π = 0 untuk π = π maka
diperoleh
πΆ π|π π π|π‘ = π π|π‘ π π π‘ .
ππ
Berdasarkan persamaan (2.3) maka diperoleh
πΆ π|π π π|π‘ = 1β π(π|π‘)
π
sehingga
π π‘ = minπ πΆ π|π π π|π‘
π
= minπ 1 β π π|π‘ .
Nilai minπ(1β π π|π‘ ) akan diperoleh apabila π π|π‘ maksimum, sehingga dapat
dituliskan pula π π‘ = 1βmaxπ π(π|π‘), yang identik dengan definisi 2.4.
Berdasarkan hasil di atas, definisi 2.5 adalah resubstitution estimate π π‘ dalam
sebuah node t apabila semua nilai πΆ π|π = 1 atau sama untuk semua π β π.
2.1.4 Algoritma CART
Algoritma CART adalah sebuah metode statistik nonparametrik yang
digunakan untuk melakukan analisis klasifikasi. Algoritma CART pertama kali
diperkenalkan pada tahun 1993 oleh ilmuwan Amerika Serikat yaitu Breiman, et al.
Algoritma CART terdiri dari dua analisis yaitu pohon klasifikasi dan pohon regresi.
Jika variabel dependen yang dimiliki bertipe kategorik (nominal atau ordinal), maka
CART menghasilkan pohon klasifikasi sedangkan jika variabel dependen yang
dimiliki bertipe kontinu atau numerik (interval atau rasio) maka CART akan
menghasilkan pohon regresi. Pohon CART dikatakan binary decision tree karena
merupakan algoritma pohon keputusan yang dibangun dengan memisahkan node ke
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
12
dalam dua child nodes secara berulang-ulang diawali dengan root node. Dalam
skripsi ini pembahasan dikhususkan pada pohon klasifikasi.
Menurut Lewis [3] beberapa keunggulan CART dibanding dengan metode
statistik yang lain (khususnya parametrik) diantaranya adalah
1. variabel-variabel dalam CART baik variabel independen maupun dependen tidak
mendasarkan atau mengasumsikan distribusi populasinya pada distribusi
probabilitas tertentu. Sehingga CART termasuk dalam kelompok metode statistik
nonparametrik.
2. variabelβvariabel independen dalam CART bisa bertipe kategorik (nominal atau
ordinal) tanpa diperlukannya pembuatan variabel dummy ataupun juga bisa
bertipe kontinu.
3. CART mampu untuk mengatasi missing value.
4. CART tidak terpengaruh oleh adanya outlier, kolinearitas, dan heteroskedastisitas
diantara variabel independennya.
5. dalam CART tidak berlaku adanya transformasi data. Data-data asli yang dirubah
ke dalam bentuk apapun tidak akan mempengaruhi dalam pembentukan pohon
klasifikasinya.
6. interpretasi dari pohon klasifikasi yang dihasilkan oleh CART sangat mudah
dipahami oleh para pengguna.
2.1.5 Struktur atau Bentuk Pohon Klasifikasi CART
Algoritma CART termasuk dalam anggota analisis klasifikasi yang disebut
decision trees karena proses analisis dari CART digambarkan dalam bentuk atau
struktur yang menyerupai sebuah pohon, lebih tepatnya pohon klasifikasi yang
berbentuk biner. Biner di sini bararti bahwa setiap pemecahan parent node
menghasilkan 2 child nodes.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
13
Adapun bentuk pohon klasifikasi CART digambarkan pada Gambar 2.1
berikut:
t1
t2 t3
t4t7t5 t6
t8 t10 t11 t12t9 t13
t14 t15 t16 t17
t1
A4
A6
A3A1A2
A5 A3A2
Split 4 Split 5
Split 7
Split 6
Split 8
A4
Split 3Split 2
Split 1
X1 β€ a
= Root Node = nonterminal node = branch = terminal node
X1 > a
X2 > bX2 β€ b
Gambar 2.1 Pohon Klasifikasi CART
Keterangan Gambar 2.1 :
1. Root Node digambarkan dengan lingkaran. Merupakan nonterminal node paling
awal atau paling atas dan tempat inisialisasi learning sample yang dimiliki.
Inisialisasi disini menyangkut beberapa objek atau cases yang dimiliki oleh tiap-
tiap kelas.
2. Branch digambarkan dengan 2 garis lurus yang merupakan cabang dari root node.
Branch merupakan tempat kriteria pemecahan dari masing-masing nonterminal
node. Sebagai contoh : kriteria pemecahan pertama (split 1) pada branch kiri
adalah π₯1 β€ π dan branch kanan adalah π₯1 > π .
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
14
3. Nonterminal nodes digambarkan dengan lingkaran. Merupakan subset atau
himpunan bagian dari nonterminal node di atasnya yang memenuhi kriteria
pemecahan tertentu.
Sebagai contoh : objek-objek yang berada dalam nonterminal node π‘5 merupakan
subset atau himpunan bagian dari objek-objek yang berada dalam nonterminal
node π‘2 yang memenuhi kriteria pemecahan π₯2 > π.
4. Terminal nodes, digambarkan dengan persegi. Merupakan node tempat
diprediksikannya sebuah objek pada kelas tertentu (class labeled).
Sebagai contoh : jika ada beberapa objek yang masuk dalam terminal node π‘6,
maka objek-objek tersebut akan dimasukkan kedalam kelas π΄4.
5. Node π‘4 dan π‘5 merupakan child node dari node π‘2, sedangkan node π‘2 merupakan
child node dari root node π‘1. Begitu pun sebaliknya root node π‘1 merupakan
parent node untuk node π‘2 dan node π‘3, node π‘2 merupakan parent node untuk
node π‘4 dan π‘5 , sedangkan node π‘3 merupakan parent node untuk node π‘6 dan
node π‘7 , dst.
2.1.6 Binary Recursive Partitioning
Teknik atau proses kerja dari CART dalam membuat sebuah pohon klasifikasi
dikenal dengan istilah Binary Recursive Partitioning. Proses disebut binary karena
setiap parent node akan selalu mengalami pemecahan ke dalam tepat dua child node.
Sedangkan recursive berarti bahwa proses pemecahan tersebut akan diulang kembali
pada setiap child nodes hasil pemecahan terdahulu, sehingga child nodes tersebut
sekarang menjadi parent nodes. Proses pemecahan ini akan terus dilakukan sampai
tidak ada kesempatan lagi untuk melakukan pemecahan berikutnya. Dan istilah
partitioning mengartikan bahwa learning sample yang dimiliki dipecah ke dalam
bagian-bagian atau partisi-partisi yang lebih kecil.
Kriteria pemecahan didasarkan pada nilai-nilai dari variabel independen yang
dimiliki. Misalkan dimiliki variabel dependen π¦ yang bertipe kategorik dan variabel-
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
15
t2 t3
t1
t2 t3
X β€ a X > a
t2
t4
t5
t1
t2 t3
t4 t5
X β€ a X > a
X β€ b X > b
a
a
b
Gambar 2.2. Proses Partisi
variabel independen π₯1, π₯2 ,β― , π₯π . Proses binary recursive partitioning bisa
diilustrasikan sebagai proses pembagian dari ruang berdimensi π dari variabel-
variabel independen π₯ ke dalam partisi-partisi yang berbentuk persegi panjang dan
tidak saling bertumpang tindih. Idenya adalah membagi ruang berdimensi π dari
variabel-variabel independen tadi ke dalam beberapa partisi yang mana masing-
masing partisi berisi objek-objek yang homogen atau seragam. Homogen di sini
maksudnya adalah objek-objek tersebut merupakan anggota satu kelas yang sama.
Walaupun pada kenyataannya keadaan seperti ini tidaklah mutlak diperoleh. Proses
splitting akan berlanjut sampai didapatkan pohon klasifikasi yang paling besar atau
maksimal (proses splitting tidak bisa dilakukan lagi)
Untuk memperjelas proses partisi, akan diberikan contoh pemilahan pada
Gambar 2.2. Pada Gambar 2.2 terlihat proses partisi node π‘1 dipilah dengan kriteria
pemecahan π₯ β€ π dan π₯ > π . Pemecahan yang dihasilkan adalah node π‘2 akibat
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
16
dari kriteria π₯ β€ π sedangkan node π‘3 terbentuk akibat kriteria pemecahan π₯ > π.
Kemudian proses partisi berlanjut pada node π‘3, dengan kriteria pemecahan π₯ β€ π
dan π₯ > π. Node π‘4 terbentuk karena memenuhi kriteria π₯ β€ π dan node π‘5 terbentuk
karena kriteria π₯ > π.
2.1.7 Langkah Kerja CART
Menurut Lewis [3] pada dasarnya dalam membuat sebuah pohon klasifikasi,
CART bekerja dalam empat langkah utama. Langkah pertama adalah tree building
process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri dari
proses splitting nodes yaitu proses pemecahan parent nodes menjadi dua buah child
node melalui aturan pemecahan tertentu dan dilakukan secara berulang-ulang serta
proses pelabelan kelas yaitu proses mengidentifikasi node-node yang terbentuk pada
suatu kelas tertentu melalui aturan pengidentifikasian. Langkah kedua adalah proses
penghentian pembuatan atau pembentukan pohon klasifikasi (stopping the trees
building process). Pada tahap ini pohon terakhir atau maximal tree (ππππ₯ ) telah
terbentuk. Langkah ketiga adalah pruning the tree yaitu proses pemangkasan atau
pemotongan ππππ₯ menjadi pohon yang lebih kecil (T). Selanjutnya langkah terakhir
adalah proses optimal tree selection yaitu pemilihan atau penentuan pohon klasifikasi
yang optimal.
2.1.7.1 Proses Pemecahan Node
Proses pemecahan pada masing-masing parent node didasarkan pada
goodness of split criterion (kriteria pemecahan terbaik). Kriteria pemecahan terbaik
ini dibentuk berdasarkan fungsi impurity (fungsi keragaman).
Definisi 2.9. (Breiman et al, 1993) Fungsi impurity adalah sebuah fungsi π yang
didefinisikan oleh (π1,π2 ,β― ,ππ ) ; ππ β₯ 0 πππ ππ = 1, π = 1, 2,β― , π½π .
Fungsi impurity π memenuhi kriteria:
(i) π maksimum apabila nilai-nilai
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
17
(π1,π2,β― ,ππ ) = 1
1,1
2,β― ,
1
π .
(ii) π minimum apabila nilai-nilai
(π1,π2,β― ,ππ ) = 1, 0,β― ,0 , 0,1,β― ,0 ,β― , 0,0,β― ,1 .
(iii) π adalah fungsi simetris dari π1,π2,β― ,ππ .
Definisi 2.10. (Breiman et al, 1993) Diberikan fungsi impurity, maka impurity
measure (ukuran impurity) i(t) dari beberapa node t sebagai
π π‘ = π π 1|π‘ ,π 2|π‘ ,β― ,π π|π‘ .
Definisi 2.11. (Breiman et al, 1993) Diberikan impurity measure i(t), maka Gini
Diversity Index (Indek Keragaman Gini) adalah :
π π‘ = π π|π‘ π π|π‘ (2.4)
πβ π
Dalam sebuah node t, andaikan terdapat 1, 2 β― , π kelas. Untuk j = 1 dan i adalah
kelas-kelas lainnya maka (2.4) dapat dituliskan
π π|π‘ π π|π‘
πβ π
= π 1|π‘ π 2|π‘ + π 1|π‘ π 3|π‘ + β―+ π 1|π‘ π(π|π‘)
= π 1|π‘ [ π 2|π‘ + π 3|π‘ +β―+ π π|π‘ ] (2.5)
Karena π π|π‘ = 1 π , sehingga (2.5) menjadi
π 1|π‘ π 2|π‘ + π 3|π‘ +β―+ π π|π‘ = π(1|π‘) π π|π‘ β π(1|π‘)
π
= π 1|π‘ (1β π 1|π‘ )
= π 1|π‘ β π2 1|π‘ .
Begitu pula untuk j = 2 dan i adalah kelas-kelas lainnya maka (2.4) dapat dituliskan
π π|π‘ π π|π‘ =
πβ π
(π π|π‘ β π2 π|π‘ 2
π=1,πβ π.
Untuk j = 3 dan i adalah kelas-kelas lainnya maka (2.4) dapat dituliskan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
18
π π|π‘ π π|π‘ =
πβ π
(π π|π‘ β π2 π|π‘ 3
π=1,πβ π
Sehingga untuk j kelas secara umum, didapatkan :
π π|π‘ π π|π‘ =
πβ π
(π π|π‘ β π2(π|π‘)
π
)
= π π|π‘ β π2 π|π‘ ππ
= 1 β π2 π|π‘ π
.
Sehingga berdasarkan (2.4) Gini Diversity Index dapat dituliskan
π π‘ = 1 β π2 π|π‘ π
.
Rumus (2.4) hanya berlaku apabila besar cost untuk resiko kesalahan
klasifikasi masing-masing kelas sama, C(1|2) = C(1|3) = C(i|j) jika besar cost berbeda
maka (2.4) dituliskan
π π‘ = πΆ π π π π|π‘ π π|π‘ .
πβ π
Definisi 2.12. (Breiman et al, 1993) Jika sebuah split s dalam node t dibagi ke dalam
π‘π dengan proporsi banyaknya objek yang masuk dalam π‘π adalah ππ , dan π‘πΏ dengan
proporsi banyaknya objek yang masuk dalam π‘πΏ adalah ππΏ, maka didefinisikan
decrease impurity (pengurangan keragaman)
βπ π , π‘ = π π‘ β ππ π π‘π β ππΏπ π‘πΏ (2.6)
Nilai βπ π , π‘ digunakan sebagai uji goodness of split criterion (kriteria uji
pemecahan terbaik). Suatu split s akan digunakan untuk memecah node t menjadi dua
buah node yaitu node π‘π dan π‘πΏ jika s memaksimalkan nilai
βπ π β, π‘ = maxπ βπ π , π‘ .
Berdasarkan (2.6) βπ π , π‘ akan maksimum apabila diperoleh ππ π π‘π dan ππΏπ π‘πΏ
minimum. Hal ini berarti splitting (pemecahan) dilakukan untuk membuat dua buah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
19
node baru yang keragamannya lebih kecil (homogen) apabila dibandingkan dengan
node awalnya (parent node). Misalkan sebuah pohon klasifikasi telah terbentuk dan
memiliki sekumpulan atau himpunan terminal nodes π , didefinisikan impurity node
I(t), dengan
πΌ π‘ = π π‘ π π‘ .
Didefinisikan pula tree impurity πΌ π , dengan
πΌ π = πΌ π‘ =π‘β π
π π‘ π π‘ π‘β π
sehingga didapatkan hasil sebagai berikut
βπΌ π , π‘ = πΌ π‘ β πΌ π‘π β πΌ π‘πΏ .
Proposisi 2.1. Pemilihan split s yang memaksimalkan βπ π , π‘ ekuivalen dengan
pemilihan split s yang meminimalkan tree impurity πΌ π‘ .
2.1.7.2 Pelabelan Kelas
Pelabelan kelas adalah proses pengidentifikasian tiap nodes pada suatu kelas
tertentu. Pelabelan kelas tidak hanya diberlakukan untuk terminal nodes saja,
nonterminal nodes bahkan root node mengalami proses ini. Hal ini dikarenakan
setiap nonterminal nodes memiliki kesempatan untuk menjadi terminal nodes.
Sehingga proses pelabelan kelas akan terus dilakukan selama proses splitting masih
berlanjut.
Walaupun semua nodes mengalami proses ini, tentu saja diantaranya yang
paling membutuhkan proses ini adalah terminal nodes, karena terminal nodes adalah
nodes yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika
objek tersebut berada pada terminal nodes tersebut. Misalkan sebuah pohon
klasifikasi telah terbentuk dan memiliki terminal nodes π .
Definisi 2.13. (Breiman et al, 1993) Class assignment rule mengidentifikasikan
sebuah kelas π β {1, 2,β― , π} pada setiap terminal node π‘ β π . Kelas yang
diidentifikasikan pada node π‘ β π dinotasikan dengan πβ(π‘).
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
20
Ada dua aturan pelabelan kelas, masing-masing aturan berdasarkan kepada
dua macam misclassification cost yang berbeda. Kedua aturan itu diterangkan pada
definisi-definisi berikut
Definisi 2.14. (Breiman et al, 1993) Class assignment rule πβ(π‘) didefinisikan
apabila π π|π‘ = maxπ π π|π‘ ππππ πβ π‘ = π
Aturan ini disebut the plurality rule (aturan keragaman) dan berdasarkan nilai
misclassification cost yang sama pada setiap kelas.
Definisi 2.15. (Breiman et al, 1993) Didefinisikan class assignment rule πβ(π‘),
πβ π‘ = π0 apabila π0 meminimalkan πΆ π|π π(π|π‘)π
Aturan ini berdasarkan nilai misclassification cost yang berbeda untuk tiap kelas
πΆ π|π > 0 jika π β π dan πΆ π|π = 0 jika π = π.
Resubstitution estimate adalah konsekuensi logis dari proses pelabelan kelas
ini. Resubstitution estimate π π‘ adalah probabilitas terjadinya misclassification yang
dialami beberapa objek-objek tersebut pada node t tertentu. Proses splitting pada node
t menyatakan π π‘ yang kecil pada kedua node baru yang terbentuk. Hal ini
dibuktikan melalui proposisi berikut.
Proposisi 2.2. (Breiman, et al, 1993) Untuk setiap pemecahan node t menjadi π‘π dan
π‘πΏ berlaku
π (π‘) β₯ π (π‘π ) + π π‘πΏ .
2.1.7.3. Proses Penghentian Pemecahan
Menurut Vayssieres [4], proses splitting atau pembuatan pohon klasifikasi
akan berhenti apabila sudah tidak dimungkinkan lagi dilakukan proses pemecahan.
Proses pemecahan akan berhenti apabila hanya tersisa satu objek saja yang ada dalam
node terakhir atau semua objek yang berada di dalam sebuah node merupakan
anggota kelas yang sama (homogen). Kemudian π π, π‘ bernilai 0 atau 1. π π‘ = 0,
dan resubstitution estimate π π untuk nilai misclassification sama dengan 0. Pada
umumnya nilai π π menurun saat jumlah terminal node meningkat. Node-node
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
21
terakhir atau yang tidak mengalami pemecahan lagi sebagai akibat dari kondisi di atas
akan menjadi terminal nodes dan diidentifikasikan pada suatu kelas tertentu sesuai
dengan class assignment rule yang telah dijelaskan sebelum ini. Pohon klasifikasi
yang terbentuk sebagai hasil dari proses ini dinamakan βmaximal treeβ (ππππ₯ ).
2.1.7.4. Proses Pemangkasan Pohon
Maximal tree (ππππ₯ ) yang dihasilkan dari proses tree building dapat
mengakibatkan dua masalah, Webb dan Yohannes [8] :
1. Meskipun ππππ₯ memiliki tingkat akurasi yang tinggi dengan nilai
misclassification rate atau misclassification cost yang kecil bahkan bernilai
nol (dihitung dengan metode resubstitution estimate), namun ππππ₯ dapat
menyebabkan over-fitting atau pencocokan nilai yang terlalu kompleks pada
data-data baru. Hal ini dikarenakan terlalu banyak variabel independen yang
digunakan untuk melakukan prediksi terhadap data baru tersebut.
2. Sebagai akibat dari point 1, ππππ₯ akan sulit untuk dipahami atau
diinterpretasikan. Sehingga ππππ₯ akan lebih cepat dikatakan sebagai complex
tree yang kompleksitasnya ditentukan dari banyaknya terminal node yang
dimiliki.
Proses pemangkasan pohon dimaksudkan untuk menghilangkan kedua
masalah tersebut dengan memotong atau memangkas ππππ₯ menjadi beberapa pohon
klasifikasi (T) yang ukurannya lebih kecil (subtrees). Untuk mempermudah dalam
memahami proses pemangkasan ini, berikut diberikan penjelasan awal mengenai
proses ini.
Sebuah node π‘β² disebut descendan (anak) dari node t dan node t disebut
ancestor dari node π‘β² jika kedua node ini bisa dihubungkan oleh jalur-jalur yang
bergerak dari atas ke bawah (node t berada di atas node π‘β²). Pada Gambar 2.3 pohon
klasifikasi T, π‘4, π‘5, π‘8, π‘9, π‘10, dan π‘11 adalah descendan dari π‘2 tetapi tidak dengan π‘6
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
22
t1
t2 t3
t4 t5 t6 t7
t8
t9
t10
t11
Gambar 2.3. Pohon Klasifikasi T
t2
t4 t5
t8 t9 t11 t10
Gambar 2.4. Branch Tt2
t1
t2 t3
t7
t6
Gambar 2.5. Pohon Klasifikasi T β Tt2 ( pruned subtree )
(Breiman et al., 1993)
dan π‘7 . Begitu pula dengan π‘4, π‘2 , dan π‘1 adalah ancestor dari , π‘9 , tetapi π‘3
bukanlah ancestor dari π‘9 .
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
23
Definisi 2.16. (Breiman et al, 1993) Suatu branch ππ‘ dari T dengan root node (node
akar) π‘ β π terdiri dari node t itu sendiri dengan semua descendant dari t dalam T.
Sebagai contoh pada gambar 2.4. branch ππ‘2.
Definisi 2.17. (Breiman et al, 1993) Pruning (pemangkasan) sebuah branch ππ‘ dari
sebuah pohon T akan menghapus atau menghasilkan semua descendant t dari T
kecuali root nodenya (t itu sendiri).
Sebagai contoh pada Gambar 2.5. pohon klasifikasi π β ππ‘2.
Definisi 2.18. (Breiman et al, 1993) Jika πβ² diperoleh dari π sebagai hasil dari
pemangkasan suatu branch, maka πβ² disebut pruned subtree dari T dan dinotasikan
dengan π β² < π. Sebagai catatan πβ² dan T memiliki root node (node akar) yang sama.
Sebagai contoh gambar pohon klasifikasi π β ππ‘2 menunjukkan pruned subtree.
Metode yang digunakan dalam proses pemangkasan pohon berdasarkan pada
minimal cost complexity pruning.
π π = π π‘ π π‘ = π (π‘)
π‘βπ π‘βπ
π π adalah tree misclassification cost atau tree resubtitution cost, sedangkan π (π‘)
disebut node misclassification cost.
Definisi 2.19. (Breiman et al, 1993) Diketahui subtree π < ππππ₯ didefinisikan
complexity (kompleksitas) dari subtree ini adalah π , yaitu banyaknya terminal
nodes yang dimiliki T, πΌ β₯ 0 adalah complexity parameter atau node complexity dan
cost complexity measure (ukuran ongkos kompleksitas) π πΌ(π), maka
π πΌ π = π π + πΌ π .
Nilai πΌ bisa diartikan sebagai penalty setiap terminal node berdasarkan
kompleksitasnya, semakin besar nilai πΌ maka ukuran tree yang dihasilkan akan kecil,
sebaliknya jika nilai πΌ kecil maka kompleksitas nodenya juga kecil sehingga ukuran
tree yang dihasilkan akan besar. Sehingga contoh sebuah ππππ₯ memiliki terminal
node yang berisi hanya satu objek atau homogen sehingga sehingga nilai πΌ untuk
ππππ₯ adalah 0 dan complexity measure mencapai minimum karena π (πmax) = 0.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
24
Nilai πΌ akan terus meningkat selama proses pruning berlangsung dan akan mencapai
nilai terbesar pada saat terminal node sama dengan root node.
Cost complexity pruning menentukan suatu pohon bagian π(πΌ) yang
meminimumkan π πΌ π pada seluruh pohon bagian, atau untuk setiap nilai πΌ, dicari
pohon bagian π πΌ < ππππ₯ yang meminimumkan π πΌ π yaitu
π πΌ π πΌ = minπ<ππππ₯
π πΌ π .
Proses pemangkasan pohon klasifikasi dimulai dengan mengambil π‘π yang
merupakan right child node dan π‘πΏ yang merupakan left child node dari ππππ₯ yang
dihasilkan dari parent node t. jika diperoleh dua child node dan parent node yang
memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ) maka child node π‘π dan π‘πΏ dipangkas.
Hasilnya adalah pohon π1 yang memenuhi kriteria π π1 = π (ππππ₯ ). Proses tersebut
diulang sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh
urutan sebagai berikut π1,π2,β― , π‘1 , π1 > π2 > β― > {π‘1} . Dengan urutan πΌ
sebagai berikut πΌ1 = 0 < πΌ2 < πΌ3 < β― < πΌπ .
2.1.7.5. Pohon Klasifikasi Optimal
Pohon klasifikasi yang terbentuk dapat berukuran besar dan kompleks dalam
mengambarkan struktur data. Sehingga perlu dilakukan suatu pemangkasan, yaitu
suatu penilaian ukuran sebuah pohon tanpa mengorbankan kebaikan ketepatan
melalui pengurangan simpul pohon sehingga dicapai penghematan gambaran.
Pemangkasan dilakukan dengan memangkas bagian pohon yang kurang penting
sehingga didapat pohon optimal.
Metode pemangkasan pohon sebelumnya menghasilkan urutan subtree
π1 > π2 > β― > {π‘1} karena pohon klasifikasi yang dihasilkan begitu banyak maka
permasalahan sekarang adalah bagaimana caranya menentukan pohon klasifikasi
yang optimum. Jika menggunakan resubtitution estimate
π π = π π‘ π π‘ = π (π‘)
π‘βπ π‘βπ
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
25
Maka π1 akan terpilih sebagai pohon optimum, karena nilai resubtitution estimate
dari π1 pasti paling kecil. Oleh karena itu metode resubtitution estimate merupakan
metode yang bias untuk mengestimasi true misclassification cost. Ada dua metode
tak bias untuk mengestimasi nilai true misclassification cost yaitu penduga uji sample
(test sample estimate) dan penduga validasi silang lipat V (cross validation V-fold
estimate).
1. Test Sample Estimate
Test sample digunakan jika ukuran data besar (β besar). Bagilah β menjadi
β1dan β2. Misal β1sebanyak π(1) objek dan β2 sebanyak π(2) objek. Buatlah ππππ₯
menggunakan β1 dan pangkas hingga diperoleh ππ = π1 > π2 > π3 > β― > {π‘} .
Gunakan β2 pada masing-masing tree dan hitunglah berapa banyak objek yang
mengalami kesalahan klasifikasi (misclassification). Untuk lebih jelasnya dinotasikan
ππ(2)
adalah banyaknya objek anggota kelas j dalam β2. Untuk setiap T pada ππ
hitunglah nilai πππ(2)
yaitu banyaknya kelas j dalam β2 yang diklasifikasikan sebagai
kelas i oleh T.
Dengan estimasi πβ π|π adalah ππ‘π π|π =πππ
(2)
ππ(2) , jika ππ
(2)= 0, maka
ππ‘π π|π = 0, sehingga diperoleh estimasi π β π adalah
π π‘π π = πΆ(π|π)ππ‘π π|π π
.
Jika estimasi probabilitas prior (ππ ) maka didapatkan estimasi π β π , maka
π π‘π π = π π‘π π π
ππ .
Jika probalitas prior diestimasi dari data sampel diperoleh ππ =ππ
(2)
π(2) maka bisa
dihitung oleh
π π‘π π =1
π(2) πΆ(π|π)πππ
(2)
π,π.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
26
Test sample estimate dapat digunakan untuk memilih pohon klasifikasi yang optimum
dari ππ , misal tree optimum adalah ππ0
π π‘π ππ0 = minππ π‘π ππ .
2. V-Fold Cross Validation Estimates
Cross validation digunakan apabila ukuran sampel kecil. Dalam V-Fold Cross
Validation , learning sample β dibagi secara acak ke dalam V bagian, βπ£, v = 1, 2,
β―, V. setiap bagian berisi objek dalam jumlah yang sama (mendekati sama). Learning
sample ke-v adalah β (π£) = β β βπ£ , π£ = 1, 2,β― ,π. Dengan demikian β (π£) berisi
(πβ1)
π dari total objek. Biasanya diambil π = 10, sehingga β (π£) berisi
9
10
objek dari β.
Dalam V-Fold Cross Validation ada V pohon klasifikasi tambahan yang
dibuat bersamaan dengan pohon klasifikasi utama yang menggunakan β. Ke-V pohon
klasifikasi tambahan tersebut dibuat dengan learning sample β (π£). Dimulai dengan
membuat V maksimal tree , ππππ₯(π£)
, π£ = 1, 2,β― ,π seperti halnya ππππ₯ . Untuk setiap
nilai complexity parameter atau node complexity πΌ, dibuat π(πΌ),π(π£)πΌ dibuat oleh
β (π£) tanpa melibatkan βπ£ sisanya (1/10 dari β) βπ£ ini digunakan sebagai test sample
pada masing-masing π(π£)πΌ.
Untuk setiap π£, π, π didefinisikan
πππ = πππ(π£)
π£
dengan πππ(π£)
: banyaknya objek anggota kelas j dalam β (π£)yang diklasifikasikan
sebagai kelas i oleh π(π£)πΌ.
πππ βΆ jumlah keseluruhan dari objek-objek kelas j yang diklasifikasikan
sebagai kelas i.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
27
Oleh karena setiap objek muncul sekali dan hanya sekali β (π£)maka jumlah
keseluruhan objek kelas j di dalam seluruh test sample adalah ππ sama dengan
banyaknya objek kelas j dalam β,
πππ£ π|π =πππ
ππ
π ππ£ π = πΆ(π|π)πππ£ π|π π
π ππ£ π(πΌ) = π ππ£(π)πππ .
Jika probabilitas prior diestimasi oleh ππ =ππ
π, maka menjadi
π ππ£ π(πΌ) =1
π πΆ(π|π)
ππππ .
Untuk memilih pohon klasifikasi yang optimum dari ππ , misal pohon klasifikasi
yang optimum itu adalah ππ0 maka
π ππ£ ππ0 = minππ ππ£ ππ .
2.1.8 Predictive Accuracy
Konsep misclassification yang telah dijelaskan pada bagian terdahulu,
membawa kepada konsep yang lebih penting lagi dalam membangun sebuah pohon
klasifikasi dengan menggunakan algoritma CART ini. Predictive accuracy merupakan
metode yang digunakan dalam CART untuk menguji tingkat keakurasian atau
kehandalan (validitas) dari pohon klasifikasi yang terbentuk dalam melakukan tugas
prediksinya yaitu untuk mengalokasikan objek-objek baru ke dalam kelas-kelas
tertentu.
Algoritma CART tidak menggunakan covariates-nya terhadap probabilitas
distribusi tertentu, sehingga tidak dimungkinkan untuk melakukan uji-uji hipotesis.
Metode yang digunakan untuk menguji tingkat keakurasian ini yaitu dengan cara
menguji langsung pohon klasifikasi yang terbentuk terhadap sekumpulan data yang
objek-objeknya sudah diketahui kelasnya masing-masing. Selanjutnya hitunglah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
28
proporsi banyaknya objek yang mengalami kesalahan klasifikasi (misclassification).
Semakin kecil proporsi misclassification yang terjadi, semakin akurat pohon
klasifikasi yang terbentuk dalam melakukan prediksi. Begitu juga sebaliknya,
semakin besar proporsi misclassification semakin tidak akurat pohon klasifikasi yang
terbentuk dalam melakukan prediksinya.
Proporsi misclassification yang sebenarnya (populasi) adalah
π β π = π(π(ππ) β π)
dengan
π π₯π βΆ fungsi klasifikasi atau aturan klasifikasi (classification rules) dari pohon
klasifikasi yang terbentuk dengan menggunakan algoritma CART. Objek a
termasuk dalam kelas j jika π₯π β π maka π π₯π = π.
Breiman, et al [1] memperkenalkan tiga prosedur dalam menguji tingkat
keakurasian pohon klasifikasi yang terbentuk ini.
1. Resubstitition Estimate, dinotasikan dengan π π . Konsep resubstitution
estimate yang sudah diperkenalkan pada bagian terdahulu lebih menekankan pada
sebuah pohon klasifikasi masih dalam proses pembuatan. Sedangkan konsep
resubstitution estimate pada bagian ini lebih menekankan pada saat pohon
klasifikasi telah terbentuk,
π π =1
π π π π₯π β ππ .
π
π=1
Cara kerja :
1. Buat pohon klasifikasi dari learning sample β dengan aturan klasifikasi yang
terbentuk π π₯π .
2. Operasikan π π₯π pada learning sample β.
3. Hitung proporsi banyaknya objek yang salah terklasifikasikan (misclassified).
4. Nilai proporsi misclassification ini adalah nilai π π sebagai estimator bagi
π β π .
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
29
2. Test Sample Estimate, dinotasikan dengan π π‘π π dan digunakan apabila ukuran
sampel besar,
π π‘π π =1
π2 π π π₯π β ππ .
π
(π₯π ,ππ )ββ2
Cara kerja :
1. Bagi learning sample β menjadi 2 bagian yaitu β1 dan β2. β1 dan β2 tidak
perlu sama. Sebagai contoh : 2/3 dari β dipilih secara acak sebagai
β1(sebanyak π1) dan 1/3 sisanya dipilih secara acak sebagai β2(sebanyak π2).
2. Gunakan β1 untuk membuat pohon klasifikasi dengan aturan klasifikasi yang
terbentuk yaitu π π₯π .
3. Operasikan π π₯π pada β2.
4. Hitung proporsi banyaknya objek pada β2 yang salah terklasifikasikan
(misclassified).
5. Nilai proporsi ini adalah nilai π π‘π π sebagai estimator bagi π β π .
3. V-Fold Cross Validation, dinotasikan dengan π πΆπ π dan digunakan apabila
ukuran sampel kecil.
Cara kerja :
1. Bagi learning sample β ke dalam V bagian observasi yang sama banyak :
β1,β2 ,β― ,βπ sebagai subsampel.
2. Buat pohon klasifikasi dengan menggunakan V-1 subsampel, sehingga
terbentuk aturan klasifikasi π π₯π . Subsampel yang tersisa (βπ) digunakan
sebagai test sample.
3. Operasikan π π₯π pada subsampel yang tersisa (βπ) sehingga diperoleh nilai
π π‘π ππ ,
π π‘π ππ =1
ππ π π π π₯π β ππ .
(π₯π ,ππ )ββπ
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
30
4. Ulangi langkah 2 dan 3 dengan menggunakan semua subsampel untuk
membuat pohon klasifikasi kedua kecuali subsampel βπβ1. βπβ1 sekarang
menjadi test sample dan diperoleh π π‘π ππβ1 .
Proses ini diulang terus sampai tiap-tiap subsample digunakan sebagai test
sample.
5. Hitung π πΆπ π
π πΆπ π =1
π π π‘π π(π)
π
π=1
π πΆπ π ini digunakan sebagai estimator bagi π β π .
Metode resubstitution estimate merupakan metode yang paling lemah. Hal ini
dikarenakan test sample yang digunakan adalah learning sample yang digunakan
untuk membuat pohon klasifikasi itu sendiri sehingga menyebabkan nilai proporsi
misclassification yang terbentuk π π selalu rendah (underestimate).
Dalam penelitian ini digunakan metode Test Sample Estimate dalam menguji
tingkat keakurasian pohon klasifikasi yang terbentuk karena jumlah sample yang
digunakan besar.
2.1.9 Interpretasi Pohon Klasifikasi
Interpretasi dari pohon klasifikasi yang telah terbentuk disajikan dalam suatu
aturan hubungan (association rules) yang disebut dengan classification rules.
Classification rules adalah aturan pengklasifikasian yang berbentuk ifβ¦ thenβ¦
(jikaβ¦makaβ¦). Pada contoh pohon klasifikasi berikut, aturan klasifikasi yang
terbentuk adalah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
31
Gambar 4.7. Contoh Pohon Klasifikasi CART
1. jika penghasilan > 1.250 maka kelas Low Risk,
2. jika penghasilan β€ 1.250 dan umur β€ 30 maka kelas High Risk,
3. jika penghasilan β€ 1.250 dan umur > 30 dan total asset > 20.000 maka kelas Low
Risk,
4. jika penghasilan β€ 1.250 dan umur >30 dan total asset β€ 20.000 maka kelas
High Risk.
Penghasilan β€ 1.250 Penghasilan >1.250
N=150
HR=85
LR=65
N=150
HR=60
LR=40
Low Risk
Umur > 30 Umur β€ 30
N=60
HR=20
LR=40
High Risk
Total asset >20.000 Total asset β€ 20.000
High Risk Low Risk
N=150
HR=85
LR=65
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
32
2.2 Kerangka Pemikiran
Dengan mengacu pada tinjauan pustaka di atas dapat disusun suatu kerangka
pemikiran yang mendasari penulisan skripsi ini. Dalam CART variabel dependen
dapat bertipe kategorik (nominal atau ordinal) dan bertipe kontinu atau numerik
(interval atau rasio), untuk variabel dependen yang bertipe kategorik (nominal atau
ordinal) digunakan CART yang menghasilkan classification trees (pohon klasifikasi),
dan dengan pohon klasifikasi tersebut dapat mengklasifikasikan atau
mengelompokkan data nasabah AJB Bumiputera 1912 Surakarta sehingga dapat
dicari pola status nasabah dalam pengambilan keputusan untuk menentukan calon
nasabah di masa yang akan datang.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
33
BAB III
METODE PENELITIAN
3.1 Sumber Data
Dalam penelitian ini, data yang digunakan adalah data sekunder yang diambil
dari data βPolis Lapseβ periode 1 Januari 2010 β 1 Desember 2010 dari perusahaan
asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang Solo Gladag. Penelitian
pada skripsi ini menggunakan data sebanyak 742 dengan variabel dependennya
adalah nasabah dengan kategori status pembayaran tidak lancar dan lancar, sedangkan
variabel independennya yaitu jenis kelamin, cara bayar, jangka waktu asuransi, premi
dasar, penghasilan, status, mata uang dan macam asuransi.
Berdasarkan data yang diperoleh, dilakukan pembuatan pohon klasifikasi
dengan algoritma CART menggunakan bantuan Software Salford Predictive Miner
CART Pro Ex 6.0. Pada pohon klasifikasi, data nasabah dengan status pembayaran
lancar dan tidak lancar dibagi menjadi dua kelompok data yaitu data learning dan
data testing. Karena tidak ada aturan khusus mengenai pembagian proporsi antara
data learning dan data testing maka pada penelitian ini dilakukan tiga kombinasi
proporsi data learning dan data testing yaitu: (1) pembagian data learning dan data
testing dengan proporsi data learning > data testing (70%: 30%), (2) pembagian data
learning dan data testing dengan proporsi data learning = data testing (50% : 50%),
(3) pembagian data learning dan data testing dengan proporsi data learning < data
testing (40% : 60%).
Masing-masing kombinasi data dihitung ketepatan klasifikasi untuk data
testing. Selanjutnya dipilih satu kombinasi proporsi data learning dan data testing
yang memiliki ketepatan klasifikasi data testing terbesar untuk analisis selanjutnya.
Ketepatan klasifikasi pada data testing dijadikan dasar karena dapat menggambarkan
kebaikan model pohon klasifikasi yang dibentuk untuk mengklasifikasikan data baru.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
34
3.2 Metode Analisis Data
Penelitian ini dilaksanakan dengan metode studi kasus, yaitu dilakukan
dengan menerapkan teori untuk menganalisis data. Berikut diberikan langkah-langkah
yang dilakukan dalam penelitian ini.
1. Mengumpulkan data dengan mengambil data sekunder dari AJB Bumiputera
1912 Surakarta yaitu data βPolis Lapseβ periode 1 Januari 2010 β 1 Desember
2010 dari perusahaan asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang
Solo Gladag.
2. Menentukan variabel dependen dan variabel independen dalam analisis.
Variabel dependennya adalah nasabah dengan kategori tidak lancar dan lancar
sedangkan variabel independennya meliputi adalah jenis kelamin, cara
pembayaran premi (Cara Bayar), jangka waktu asuransi, premi dasar,
penghasilan, status, jenis mata uang (mata uang), macam asuransi.
3. Melakukan pembuatan pohon klasifikasi dengan algoritma CART dengan
menggunakan Software Salford Predictive Miner CART Pro Ex 6.0. dengan
tahap-tahap sebagai berikut
a. Tahap I : Pembentukan atau pembuatan pohon
Langkah 1 : proses splitting nodes
Memilih variabel terbaik dengan nilai improvement atau βπ π , π‘ tertinggi
sebagai kriteria dalam memilih variabel yang digunakan untuk memecah
sebuah node.
Langkah 2 : proses class assignment.
Pemberian label kelas pada node-node yang telah terbentuk dimana kelas
yang diidentifikasikan pada node t adalah kelas yang mempunyai
probabilitas paling tinggi daripada kelas lainnya.
b. Tahap II : Proses penghentian pembuatan atau pembentukan pohon
klasifikasi (stopping the trees building process).
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
35
Proses splitting node akan berenti karena pada ujung pohon klasifikasi
terdapat terminal node dimana anggotanya terdapat pada kelas yang sama.
c. Tahap III : Pruning the tree yaitu proses pemangkasan atau pemotongan
ππππ₯ menjadi pohon yang lebih kecil (T).
Proses pemangkasan pohon akan terjadi apabila dua child node dan parent
node memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ), dimana π π‘ adalah
parent node, π π‘π adalah right child node, dan π (π‘πΏ) adalah left child
node.
d. Tahap IV : Proses optimal tree selection yaitu pemilihan atau penentuan
pohon klasifikasi yang optimal.
Pemilihan pohon klasifikasi optimal berdasarkan pada subtree yang
mempunyai nilai test set relative cost terkecil.
4. Menguji tingkat keakuratan pohon dalam mengelompokkan data learning
maupun data testing selanjutnya memilih pohon yang menghasilkan tingkat
akurasi pohon optimal tertinggi .
5. Menginterpretasikan hasil pohon klasifikasi algoritma CART dengan tingkat
akurasi pohon optimal tertinggi dengan data testing sebagai berikut
a. Setiap parent node akan membentuk sekelompok child node dibawahnya
yang akhirnya akan terbentuk segmen-segmen.
b. Kemudian segmen-segmen tersebut diinterpretasi berdasarkan variabel-
variabel yang membangunnya.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
36
BAB IV
PEMBAHASAN
4.1. Deskripsi data
Data yang digunakan dalam pembuatan pohon klasifikasi dengan metode
CART adalah data βPolis Lapseβ periode 1 Januari 2010 β 1 Desember 2010 dari
perusahaan asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang Solo Gladag
yang terdapat dalam Lampiran 1. Jumlah data yang digunakan sebanyak 742 buah
data, terdiri dari 8 variabel independen (x) dan 1 variabel dependen (y).
Tabel 4.1. Variabel Independen dan Variabel Dependen
Variabel Nama Tipe Data Pelabelan
y Status Pembayaran Kategorik 1 : Tidak Lancar
2 : Lancar
x1 Jenis Kelamin Kategorik 1 : Laki-laki
2 : Perempuan
x2 Cara Bayar Kategorik 1 : Bulanan
2 : Triwulanan
3 : Setengah Tahunan
4 : Tahunan
x3 Jangka Waktu Asuransi Kontinu -
x4 Premi Dasar Kontinu -
x5 Penghasilan Kontinu -
x6 Status Kategorik 1 : Janda/duda
2 : Kawin
3 : Belum Kawin
x7 Mata Uang Kategorik 1 : Rupiah
2 : Dolar
x8 Macam Asuransi Kategorik 1 : Mitra Prima
2 : Mitra Pelangi
3 : Ekawaktu Ideal
4 : Mitra Beasiswa
Berencana
5 : Mitra Melati
6 : Mitra Cerdas
7 : Mitra Sehat
8 : Mitra Guru
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
37
Variabel dependen yang digunakan terbagi menjadi dua kelas yaitu kelas tidak
lancar dan kelas lancar.
Data ini diolah dengan menggunakan paket software CART Pro Ex 6.0 produk
dari Salford Systems (http://www.salford-systems.com). Ada tiga kondisi yang
digunakan untuk membuat pohon klasifikasi dengan menggunakan algoritma CART.
1. Kondisi pertama adalah pembagian data menjadi dua bagian yaitu data
learning dan data testing dengan proporsi data learning > data testing
(70%:30%).
2. Kondisi kedua adalah pembagian data menjadi dua bagian yaitu data learning
dan data testing dengan proporsi data learning = data testing (50%:50%).
3. Kondisi ketiga pembagian data menjadi dua bagian yaitu data learning dan
data testing dengan proporsi data learning < data testing (40%:60%).
4.2. Hasil Analisis CART
4.2.1. Pembentukan Pohon Klasifikasi Kondisi Pertama
1. Proses Splitting Node
Pada kondisi pertama pembagian data menjadi dua bagian (data
learning dan data testing) dengan proporsi 70%:30%. Dengan demikian data
learning berjumlah 534 buah data, sedangkan data testing berjumlah 208 buah
data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih
variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan
variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan
untuk memecah node t menjadi dua buah node yaitu node π‘π dan node π‘πΏ
jika s memaksimalkan nilai βπ π β, π‘ = maxπ βπ π , π‘ , dimana βπ π β, π‘ adalah
nilai yang paling maksimal/tertinggi dari βπ π , π‘ . Root node dipecah dengan
kriteria pemecahan Cara Bayar adalah dengan cara Triwulanan, Setengah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
38
Tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement
yaitu βπ π , π‘ dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal
ini dapat dilihat pada Tabel 4.2.
Tabel 4.2. Kriteria Pemilahan Terbaik Root Node Kondisi Pertama
Main Splitter Improvement = 0.12801
Competitor Split Improvement N
Left
N
Right
N
Missing
Main Cara Bayar Triwulanan,
Setengah
Tahunan,
Tahunan
0.12801 415 119 0
1 Macam
Asuransi
Mitra Prima,
Mitra Pelangi,
Ekawaktu Ideal,
Mitra Beasiswa
Berencana,
Mitra Melati,
Mitra Cerdas,
Mitra Sehat
0.12533 416 118 0
2 Penghasilan 8000040 0.10874 120 414 0
3 Premi Dasar 100000.50 0.10874 120 414 0
4 Status Kawin 0.04960 258 276 0
5 Jangka
Waktu
Asuransi
9.5 0.02272 140 394 0
6 Jenis
Kelamin
Laki-laki 0.00063 237 297 0
7 Mata Uang Dolar 0.00023 1 533 0
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
39
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama
yang berisi 534 objek data dipilah menjadi dua buah terminal nodes. Terminal node 1
terbentuk akibat kriteria variabel Cara Bayar adalah triwulanan, setengah tahunan,
dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah
bulanan. Proses pemilahan dapat dilihat pada Gambar 4.1. Proses serupa terus
berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam
node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota
dari kelas yang sama (homogen).
Gambar 4.1. Pemilahan Root Node Kondisi Pertama
2. Pelabelan Kelas
Pada bagian ini adalah pemberian label kelas pada node-node yang
telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14
class assignment rule yaitu jika π π|π‘ = maxπ π π|π‘ ππππ πβ π‘ = π ,
dimana πβ π‘ adalah kelas yang diidentifikasikan pada node t. Sebagai contoh,
pada Gambar 4.1
π tidak lancar|π‘ =130
534= 0.243
π lancar|π‘ =404
534= 0.757
CARA_BAYAR = (Triw ulanan...)
Terminal
Node 1
Class = Lancar
Class Cases %
Tidak Lancar 45 10.8
Lancar 370 89.2
W = 415.00
N = 415
CARA_BAYAR = (Bulanan)
Terminal
Node 2
Class = Tidak Lancar
Class Cases %
Tidak Lancar 85 71.4
Lancar 34 28.6
W = 119.00
N = 119
Node 1
Class = Lancar
CARA_BAYAR =
(Triw ulanan,Setengah Tahunan,
Tahunan)
Class Cases %
Tidak Lancar 130 24.3
Lancar 404 75.7
W = 534.00
N = 534
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
40
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih
besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada
semua node terutama terminal node, karena terminal node adalah node yang
sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek
berada pada terminal node tersebut.
3. Proses Penghentian Pemecahan
Proses splitting node yang berulang-ulang akan berhenti dan
menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.3. Proses
splitting node akan berhenti karena pada ujung pohon klasifikasi terdapat
terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini
terlihat pada terminal node 46 dan 47 dalam Gambar 4.2. Pohon maksimal
(Gambar 4.3.) untuk kondisi pertama mempunyai 46 nonterminal nodes dan
47 terminal nodes.
Gambar 4.2. Terminal node 46 dan 47 kondisi pertama
Gambar 4.3. Pohon Klasifikasi Maksimal Kondisi Pertama
Terminal
Node 47
Class = Tidak Lancar
Class Cases %
Tidak Lancar 4 100.0
Lancar 0 0.0
W = 4.00
N = 4
Terminal
Node 46
Class = Lancar
Class Cases %
Tidak Lancar 0 0.0
Lancar 1 100.0
W = 1.00
N = 1
= Nonterminal nodes = Terminal nodes dan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
41
4. Proses Pemangkasan Pohon
Proses pemangkasan pohon dapat dilihat pada Lampiran 2. Proses
pemangkasan pohon klasifikasi maksimal menghasilkan 9 subtree. Proses
pemangkasan pohon klasifikasi dimulai dengan mengambil π‘π yang
merupakan right child node dan π‘πΏ yang merupakan left child node dari ππππ₯
yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent
node yang memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ), maka child node π‘π
dan π‘πΏ dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan
yang mungkin terjadi. Dan diperoleh urutan sebagai berikut π1,π2,β― , π‘1 ,
π1 > π2 > β― > {π‘1},
Gambar 4.4. Pohon klasifikasi kondisi pertama yang akan dipangkas
Pada Gambar 4.4 terdapat node yang akan dipangkas yaitu node 36 . Node
tersebut mengalami pemangkasan karena parent node dan child node
memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ).
Gambar 4.5. Node 36 pada kondisi pertama yang akan dipangkas
JANGKA_WAKTU_ASURANSI <= 5.50
Terminal
Node 33
Class = Tidak Lancar
Class Cases %
Tidak Lancar 43 72.9
Lancar 16 27.1
W = 59.00
N = 59
JANGKA_WAKTU_ASURANSI > 5.50
Terminal
Node 34
Class = Tidak Lancar
Class Cases %
Tidak Lancar 6 85.7
Lancar 1 14.3
W = 7.00
N = 7
Node 36
Class = Tidak Lancar
JANGKA_WAKTU_ASURANSI <= 5.50
Class Cases %
Tidak Lancar 49 74.2
Lancar 17 25.8
W = 66.00
N = 66
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
42
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini
Parent Node (Node 36) :
Nilai π π‘ = π π‘ .π(π‘)
dengan π π‘ = 1βmaxπ π(π|π‘) dan π(π|π‘) adalah peluang beberapa objek
berada dalam node t.
Dalam node 36 terdapat dua kelas yaitu kelas tidak lancar dan kelas
lancar. Nilai probabilitas tiap kelas dalam node 36 adalah sebagai berikut:
π tidak lancar|ππππ 36 =49
66= 0.742
π lancar|ππππ 36 =17
66= 0.258
sehingga dengan menggunakan rumus π π‘ = 1 βmaxπ π(π|π‘), maka
diperoleh
π ππππ 36 = 1 βmaxππ π|π‘
= 1 β 0.742 = 0.258 .
Nilai probabilitas objek yang berada dalam node 36 adalah
π ππππ 36 =π ππππ 36
π=
66
534= 0.1236 .
Oleh karena itu,
π ππππ 36 = π ππππ 36 .π ππππ 36 = 0.258 Γ 0.1236 = 3.18 Γ 10β2.
Selanjutnya pada child node , yaitu terminal node 33 dan terminal
node 34 :
Dengan cara perhitungan yang sama maka, terminal node 33 memiliki nilai
maxπ π(π|π‘) sebesar 0.729, sehingga nilai
π π‘πΏ = 1βmaxπ π(π|π‘) = 1 β 0.729 = 0.271.
π(π‘πΏ) adalah peluang banyaknya objek pada anak node sebelah kiri (terminal
node 33), sehingga
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
43
π π‘πΏ =π π‘πΏ
π=
59
534= 0.11
oleh karena itu,
π π‘πΏ = π π‘πΏ .π π‘πΏ = 0.271 Γ 0.11 = 2.99 Γ 10β2 .
Terminal node 34 memiliki nilai maxπ π(π|π‘) sebesar 0.857, maka nilai
π π‘π = 1 βmaxππ(π|π‘) = 1β 0.857 = 0.143
π(π‘π ) adalah peluang banyaknya objek pada anak node sebelah kanan
(terminal node 34), maka nilai
π π‘π =π π‘π
π=
7
534= 1.31 Γ 10β2
sehingga
π π‘π = π π‘π .π π‘π = 0.143 Γ 1.31 Γ 10β2 = 1.87 Γ 10β3 .
Dengan demikian, persamaan
π π‘ = π π‘π + π (π‘πΏ)
3.18 Γ 10β2 = 1.87 Γ 10β3 + 2.99 Γ 10β2
3.18 Γ 10β2 = 3.18 Γ 10β2
terpenuhi untuk node 36, sehingga dilakukan pemangkasan.
5. Pohon Klasifikasi Optimal
Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon
klasifikasi optimal. Dari 9 subtree akan dipilih satu pohon klasifikasi dengan
nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi
optimal digunakan metode Test Sample Estimate yaitu π π‘π π =
1
π(2) πΆ(π|π)πππ
(2)π ,π , karena ukuran data yang besar. Nilai penduga pengganti
sample uji (test sample estimate) dari masing-masing subtree terlihat pada
Tabel 4.3.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
44
Tabel 4.3. Tree Sequence Kondisi Pertama
Tree
number
Terminal Nodes Test Set Relative Cost Resubstitution
Relative Cost
1 47 0.74162 Β± 0.10700 0.47403
2 35 0.74063 Β± 0.10553 0.47426
3 32 0.75986 Β± 0.10603 0.47441
4 26 0.75986 Β± 0.10603 0.48979
5 19 0.78057Β± 0.10890 0.51241
6 17 0.76134 Β± 0.10828 0.52003
7**
9 0.66272 Β± 0.10144 0.55887
8 2 0.68097 Β± 0.10023 0.60510
9 1 1.00000 Β± 0.00000 1.00000
** Optimal
Pada Tabel 4.3. terlihat bahwa dari kesembilan subtree yang terbentuk,
subtree nomor 7 dengan 9 terminal nodes adalah pohon klasifikasi optimal.
Hal ini dikarenakan memenuhi kriteria nilai test set relative cost π π‘π ππ0 =
minπ π π‘π ππ yaitu subtree nomor 7 memiliki nilai paling kecil dari
kesembilan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada
Lampiran 3.
6. Predictive Accuracy
Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat
keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon
klasifikasi optimal pada kondisi pertama dengan menggunakan
π π‘π π =1
π1 π π π₯π β ππ
π
(π₯π ,ππ )ββ1
=35 + 38
534=
73
534= 0.1367
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
45
Dengan nilai π π‘π π = 0.1367, maka ketepatan klasifikasinya adalah
1 β 0.1367 = 0.8633 atau 86.33 %. Hasil dari klasifikasi pohon optimal
dengan menggunakan data learning dapat dilihat pada Tabel 4.4.
Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi
Pertama
Kelas Sebenarnya Total Kelas Persentase
Akurasi
Lancar
N = 407
Tidak Lancar
N = 127
Lancar 404 91.34 369 35
Tidak Lancar 130 70.77 38 92
Total 534
Rata-rata 81.05
Persentase
Keseluruhan
Akurasi
86.33
Kemudian pohon optimal diuji keakuratannya dengan cara
mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi
optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada
data testing adalah
π π‘π π =1
π2 π π π₯π β ππ
π
(π₯π ,ππ )ββ2
=18 + 16
208=
34
208= 0.1634
Oleh karena itu ketepatan klasifikasinya adalah 1β 0.1634 = 0.8365 atau
83.65%. Hasil dari klasifikasi pohon optimal dengan menggunakan data
testing dapat dilihat pada Tabel 4.5.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
46
Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi
Pertama
Kelas Sebenarnya Total Kelas Persentase
Akurasi
Lancar
N = 407
Tidak Lancar
N = 127
Lancar 156 88.46 138 18
Tidak Lancar 52 69.23 16 36
Total 208
Rata-rata 78.85
Persentase
Keseluruhan
Akurasi
83.65
4.2.2. Pembentukan Pohon Klasifikasi Kondisi Kedua
1. Proses Splitting Node
Pada kondisi kedua pembagian data menjadi dua bagian (data learning
dan data testing) dengan proporsi 50%:50%. Dengan demikian data learning
berjumlah 382 buah data, sedangkan data testing berjumlah 360 buah data.
Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel
pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel
berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk
memecah node t menjadi dua buah node yaitu node π‘π dan node π‘πΏ jika s
memaksimalkan nilai βπ π β, π‘ = maxπ βπ π , π‘ , dimana βπ π β, π‘ adalah nilai
yang paling maksimal/tertinggi dari βπ π , π‘ . Root node dipecah dengan
kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah
tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement
yaitu βπ π , π‘ dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal
ini dapat dilihat pada Tabel 4.6.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
47
Tabel 4.6. Kriteria Pemilahan Terbaik Root Node Kondisi Kedua
Main Splitter Improvement = 0.15039
Competitor Split Improvement N
Left
N
Right
N
Missing
Main Cara Bayar Triwulanan,
Setengah
Tahunan,
Tahunan
0.15039 297 85 0
1 Macam
Asuransi
Ekawaktu
Ideal, Mitra
Beasiswa
Berencana,
Mitra Melati,
Mitra Cerdas,
Mitra Sehat
0.14610 298 84 0
2 Penghasilan 8000080 0.12346 85 297 0
3 Premi Dasar 100001 0.12346 85 297 0
4 Status Kawin 0.05521 186 196 0
5 Jangka
Waktu
Asuransi
9.5 0.02326 94 288 0
6 Jenis
Kelamin
Laki-laki 0.00139 172 210 0
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node
utama yang berisi 382 objek data dipilah menjadi dua buah terminal nodes.
Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
48
triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat
kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat
pada Gambar 4.6. Proses serupa terus berjalan pada node-node lainnya,
hingga tersisa satu objek saja yang berada dalam node terakhir atau semua
objek yang berada dalam sebuah node merupakan anggota dari kelas yang
sama (homogen).
Gambar 4.6. Pemilahan Root Node Kondisi Kedua
2. Pelabelan Kelas
Pada bagian ini adalah pemberian label kelas pada node-node yang
telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14
class assignment rule yaitu jika π π|π‘ = maxπ π π|π‘ ππππ πβ π‘ = π ,
dimana πβ π‘ adalah kelas yang diidentifikasikan pada node t . Sebagai
contoh, pada Gambar 4.6
π tidak lancar|π‘ =86
382= 0.225
π lancar|π‘ =296
382= 0.775
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih
besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada
CARA_BAYAR = (Triw ulanan...)
Terminal
Node 1
Class = Lancar
Class Cases %
Tidak Lancar 25 8.4
Lancar 272 91.6
W = 297.00
N = 297
CARA_BAYAR = (Bulanan)
Terminal
Node 2
Class = Tidak Lancar
Class Cases %
Tidak Lancar 61 71.8
Lancar 24 28.2
W = 85.00
N = 85
Node 1
Class = Lancar
CARA_BAYAR =
(Triw ulanan,Setengah Tahunan,
Tahunan)
Class Cases %
Tidak Lancar 86 22.5
Lancar 296 77.5
W = 382.00
N = 382
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
49
semua node terutama terminal node, karena terminal node adalah node yang
sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek
berada pada terminal node tersebut.
3. Proses Penghentian Pemecahan
Proses splitting node yang berulang-ulang akan berhenti dan
menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.8. Proses
splitting node akan berenti karena pada ujung pohon klasifikasi terdapat
terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini
terlihat pada terminal node 23 dan 24 dalam gambar 4.7. Pohon maksimal
(Gambar 4.8.) untuk kondisi kedua mempunyai 23 nonterminal nodes dan 24
terminal nodes.
Gambar 4.7. Terminal node 23 dan 24 kondisi kedua
Gambar 4.8. Pohon Klasifikasi Maksimal Kondisi Kedua
Terminal
Node 23
Class = Lancar
Class Cases %
Tidak Lancar 0 0.0
Lancar 1 100.0
W = 1.00
N = 1
Terminal
Node 24
Class = Tidak Lancar
Class Cases %
Tidak Lancar 4 100.0
Lancar 0 0.0
W = 4.00
N = 4
= Nonterminal nodes = Terminal nodes dan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
50
4. Proses Pemangkasan Pohon (Tree Prunning Process)
Proses pemangkasan pohon dapat dilihat pada Lampiran 4. Proses
pemangkasan pohon klasifikasi maksimal menghasilkan 8 subtree. Proses
pemangkasan pohon klasifikasi dimulai dengan mengambil π‘π yang
merupakan right child node dan π‘πΏ yang merupakan left child node dari ππππ₯
yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent
node yang memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ), maka child node π‘π
dan π‘πΏ dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan
yang mungkin terjadi. Dan diperoleh urutan sebagai berikut π1,π2,β― , π‘1 ,
π1 > π2 > β― > {π‘1},
Gambar 4.9. Pohon klasifikasi kondisi kedua yang akan dipangkas
Pada Gambar 4.9 terdapat node yang akan dipangkas yaitu node 8 . Node
tersebut mengalami pemangkasan karena parent node dan child node
memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ).
Gambar 4.10. Node 8 pada kondisi kedua yang akan dipangkas
PREMI_DASAR <= 582620.00
Terminal
Node 7
Class = Lancar
Class Cases %
Tidak Lancar 2 16.7
Lancar 10 83.3
W = 12.00
N = 12
PREMI_DASAR > 582620.00
Terminal
Node 8
Class = Tidak Lancar
Class Cases %
Tidak Lancar 2 66.7
Lancar 1 33.3
W = 3.00
N = 3
PREMI_DASAR <= 601567.50
Node 9
Class = Lancar
PREMI_DASAR <= 582620.00
Class Cases %
Tidak Lancar 4 26.7
Lancar 11 73.3
W = 15.00
N = 15
PREMI_DASAR > 601567.50
Terminal
Node 9
Class = Lancar
Class Cases %
Tidak Lancar 2 9.5
Lancar 19 90.5
W = 21.00
N = 21
Node 8
Class = Lancar
PREMI_DASAR <= 601567.50
Class Cases %
Tidak Lancar 6 16.7
Lancar 30 83.3
W = 36.00
N = 36
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
51
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini
Parent Node (Node 8) :
Nilai π π‘ = π π‘ .π(π‘)
dengan π π‘ = 1βmaxπ π(π|π‘) dan π(π|π‘) adalah peluang beberapa objek
berada dalam node t.
Dalam node 8 terdapat dua kelas yaitu kelas tidak lancar dan kelas
lancar. Nilai probabilitas tiap kelas dalam node 8 adalah sebagai berikut:
π tidak lancar|ππππ 8 =6
36= 0.167
π lancar|ππππ 8 =30
36= 0.833
sehingga dengan menggunakan rumus π π‘ = 1 βmaxπ π(π|π‘), maka
diperoleh
π ππππ 8 = 1 βmaxππ π|π‘
= 1β 0.833 = 0.167 .
Nilai probabilitas objek yang berada dalam node 8 adalah
π ππππ 8 =π ππππ 8
π=
36
382= 9.42 Γ 10β2 .
oleh karena itu,
π ππππ 8 = π ππππ 8 .π ππππ 8 = 0.167 Γ 9.42 Γ 10β2
= 1.57 Γ 10β2.
Selanjutnya pada child node , yaitu node 9 dan terminal node 9 :
Dengan cara perhitungan yang sama maka, node 9 memiliki nilai maxπ π(π|π‘)
sebesar 0.733, sehingga nilai
π π‘πΏ = 1βmaxπ π(π|π‘) = 1 β 0.733 = 0.267.
π(π‘πΏ) adalah peluang banyaknya objek pada anak node sebelah kiri (node 9),
sehingga nilai
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
52
π π‘πΏ =π π‘πΏ
π=
15
382= 3.93 Γ 10β2.
Oleh karena itu,
π π‘πΏ = π π‘πΏ .π π‘πΏ = 0.267 Γ 3.93 Γ 10β2 = 1.05 Γ 10β2.
Terminal node 9 memiliki nilai maxπ π(π|π‘) sebesar 0.905, sehingga nilai
π π‘π = 1βmaxπ π(π|π‘) = 1 β 0.905 = 0.095.
π(π‘π ) adalah peluang banyaknya objek pada anak node sebelah kanan
(terminal node 9), sehingga nilai
π π‘π =π π‘π
π=
21
382= 5.497 Γ 10β2.
Oleh karena itu,
π π‘π = π π‘π .π π‘π = 0.095 Γ 5.497 Γ 10β2 = 5.22 Γ 10β3.
Dengan demikian persamaan
π π‘ = π π‘π + π (π‘πΏ)
1.57 Γ 10β2 = 5.22 Γ 10β3 + 1.05 Γ 10β2
1.57 Γ 10β2 = 1.57 Γ 10β2
terpenuhi untuk node 8, sehingga dilakukan pemangkasan.
5. Pohon Klasifikasi Optimal
Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan
pohon klasifikasi optimal. Dari 8 subtree akan dipilih satu pohon klasifikasi
dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon
klasifikasi optimal digunakan metode Test Sample Estimate yaitu π π‘π π =
1
π(2) πΆ(π|π)πππ
(2)π ,π , karena ukuran data yang besar. Nilai penduga pengganti
sample uji (test sample estimate) dari masing-masing subtree terlihat pada
Tabel 4.7.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
53
Tabel 4.7. Tree Sequence Kondisi Kedua
Tree number Terminal Nodes Test Set Relative Cost Resubstitution
Relative Cost
1 24 0.94486 Β± 0.08833 0.40857
2 20 0.94362 Β± 0.08797 0.42143
3 18 0.93568 Β± 0.08851 0.43183
4 14 0.86451 Β± 0.08508 0.45508
5 12 0.84120 Β± 0.08397 0.46794
6 8 0.83202 Β± 0.08418 0.49666
7**
2 0.70928 Β± 0.07548 0.54018
8 1 1.00000 Β± 0.00000 1.00000
** Optimal
Pada Tabel 4.7. terlihat bahwa dari kedelapan subtree yang terbentuk,
subtree nomor 7 dengan 2 terminal nodes adalah pohon klasifikasi optimal.
Hal ini dikarenakan memenuhi kriteria nilai test set relative cost π π‘π ππ0 =
minπ π π‘π ππ yaitu subtree nomor 7 memiliki nilai paling kecil dari
kedelapan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada
Lampiran 5.
6. Predictive Accuracy
Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji
tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan
pohon klasifikasi optimal pada kondisi pertama dengan menggunakan
π π‘π π =1
π1 π π π₯π β ππ
π
(π₯π ,ππ )ββ1
=24 + 25
382=
49
382= 0.128
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
54
Dengan nilai π π‘π π = 0.128, maka ketepatan klasifikasinya adalah
1 β 0.128 = 0.8717 atau 87.17%. Hasil dari klasifikasi pohon optimal
dengan menggunakan data learning dapat dilihat pada Tabel 4.8
Tabel 4.8. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi
Kedua
Kelas Sebenarnya Total Kelas Persentase
Akurasi
Lancar
N = 297
Tidak Lancar
N = 85
Lancar 296 91.89 272 24
Tidak Lancar 86 70.93 25 61
Total 382
Rata-rata 81.41
Persentase
Keseluruhan
Akurasi
87.17
Kemudian pohon optimal diuji keakuratannya dengan cara
mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi
optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada
data testing adalah
π π‘π π =1
π2 π π π₯π β ππ
π
(π₯π ,ππ )ββ2
=26 + 39
360=
65
360= 0.180
Oleh karena itu, ketepatan klasifikasinya adalah 1β 0.180 = 0.8194
atau 81.94 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data
testing dapat dilihat pada Tabel 4.9.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
55
Tabel 4.9. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi
Kedua
Kelas Sebenarnya Total Kelas Persentase
Akurasi
Lancar
N = 277
Tidak Lancar
N = 83
Lancar 264 90.15 238 26
Tidak Lancar 96 59.38 39 57
Total 360
Rata-rata 74.76
Persentase
Keseluruhan
Akurasi
81.94
4.2.3. Pembentukan Pohon Klasifikasi Kondisi Ketiga
1. Proses Splitting Node
Pada kondisi ketiga pembagian data menjadi dua bagian (data
learning dan data testing) dengan proporsi 40%:60%. Dengan demikian data
learning berjumlah 308 buah data, sedangkan data testing berjumlah 434 buah
data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih
variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan
variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan
untuk memecah node t menjadi dua buah node yaitu node π‘π dan node π‘πΏ
jika s memaksimalkan nilai βπ π β, π‘ = maxπ βπ π , π‘ , dimana βπ π β, π‘ adalah
nilai yang paling maksimal/tertinggi dari βπ π , π‘ . Root node dipecah dengan
kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah
tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement
yaitu βπ π , π‘ dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal
ini dapat dilihat pada Tabel 4.10.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
56
Tabel 4.10. Kriteria Pemilahan Terbaik Root Node Kondisi Ketiga
Main Splitter Improvement = 0.14753
Competitor Split Improvement N
Left
N
Right
N
Missing
Main Cara Bayar Triwulanan,
Setengah
Tahunan,
Tahunan
0.14753 241 67 0
1 Macam
Asuransi
Ekawaktu
Ideal, Mitra
Beasiswa
Berencana,
Mitra
Melati,
Mitra
Cerdas,
Mitra Sehat
0.14238 242 66 0
2 Penghasilan 8000080 0.12576 66 242 0
3 Premi Dasar 100001 0.12576 66 242 0
4 Status Kawin 0.05114 150 158 0
5 Jangka Waktu
Asuransi
9.5 0.02861 80 288 0
6 Jenis Kelamin Laki-laki 0.00044 144 164 0
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node
utama yang berisi 308 objek data dipilah menjadi tiga buah terminal nodes.
Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
57
triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat
kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat
pada Gambar 4.11. Proses serupa terus berjalan pada node-node lainnya,
hingga tersisa satu objek saja yang berada dalam node terakhir atau semua
objek yang berada dalam sebuah node merupakan anggota dari kelas yang
sama (homogen).
Gambar 4.11. Pemilahan Root Node Kondisi Ketiga
2. Pelabelan Kelas
Pada bagian ini adalah pemberian label kelas pada node-node yang
telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14
class assignment rule yaitu jika π π|π‘ = maxπ π π|π‘ ππππ πβ π‘ = π ,
dimana πβ π‘ adalah kelas yang diidentifikasikan pada node t . Sebagai
contoh, pada Gambar 4.11
π tidak lancar|π‘ =71
308= 0.231
π lancar|π‘ =237
308= 0.769
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih
besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada
semua node terutama terminal node, karena terminal node adalah node yang
CARA_BAYAR = (Triw ulanan...)
Terminal
Node 1
Class = Lancar
Class Cases %
Tidak Lancar 22 9.1
Lancar 219 90.9
W = 241.00
N = 241
CARA_BAYAR = (Bulanan)
Terminal
Node 2
Class = Tidak Lancar
Class Cases %
Tidak Lancar 49 73.1
Lancar 18 26.9
W = 67.00
N = 67
Node 1
Class = Lancar
CARA_BAYAR =
(Triw ulanan,Setengah Tahunan,
Tahunan)
Class Cases %
Tidak Lancar 71 23.1
Lancar 237 76.9
W = 308.00
N = 308
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
58
sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek
berada pada terminal node tersebut.
3. Proses Penghentian Pemecahan
Proses splitting node yang berulang-ulang akan berhenti dan
menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.13. Proses
splitting node akan berenti karena pada ujung pohon klasifikasi terdapat
terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini
terlihat pada terminal node 10 dan 11 dalam Gambar 4.12. Pohon maksimal
(Gambar 4.13.) untuk kondisi ketiga mempunyai 18 nonterminal nodes dan 19
terminal nodes.
Gambar 4.12. Terminal node 10 dan 11 kondisi ketiga
Gambar 4.13. Pohon Klasifikasi Maksimal Kondisi Ketiga
4. Proses Pemangkasan Pohon (Tree Prunning Process)
Proses pemangkasan pohon dapat dilihat pada Lampiran 6. Proses
pemangkasan pohon klasifikasi maksimal menghasilkan 6 subtree. Proses
pemangkasan pohon klasifikasi dimulai dengan mengambil π‘π yang
Terminal
Node 10
Class = Lancar
Class Cases %
Tidak Lancar 0 0.0
Lancar 6 100.0
W = 6.00
N = 6
Terminal
Node 11
Class = Tidak Lancar
Class Cases %
Tidak Lancar 2 100.0
Lancar 0 0.0
W = 2.00
N = 2
= Nonterminal nodes = Terminal nodes
dan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
59
merupakan right child node dan π‘πΏ yang merupakan left child node dari ππππ₯
yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent
node yang memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ), maka child node π‘π
dan π‘πΏ dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan
yang mungkin terjadi. Dan diperoleh urutan sebagai berikut π1,π2,β― , π‘1 ,
π1 > π2 > β― > {π‘1},
Gambar 4.14. Pohon klasifikasi kondisi ketiga yang akan dipangkas
Pada gambar 4.14 terdapat node yang akan dipangkas yaitu node 9 . Node
tersebut mengalami pemangkasan karena parent node dan child node
memenuhi persamaan π π‘ = π π‘π + π (π‘πΏ).
Gambar 4.15. Node 9 pada kondisi ketiga yang akan dipangkas
PREMI_DASAR <= 582620.00
Terminal
Node 8
Class = Lancar
Class Cases %
Tidak Lancar 1 10.0
Lancar 9 90.0
W = 10.00
N = 10
PREMI_DASAR > 582620.00
Terminal
Node 9
Class = Tidak Lancar
Class Cases %
Tidak Lancar 2 66.7
Lancar 1 33.3
W = 3.00
N = 3
PREMI_DASAR <= 601567.50
Node 10
Class = Lancar
PREMI_DASAR <= 582620.00
Class Cases %
Tidak Lancar 3 23.1
Lancar 10 76.9
W = 13.00
N = 13
PREMI_DASAR > 601567.50
Terminal
Node 10
Class = Lancar
Class Cases %
Tidak Lancar 1 6.3
Lancar 15 93.8
W = 16.00
N = 16
Node 9
Class = Lancar
PREMI_DASAR <= 601567.50
Class Cases %
Tidak Lancar 4 13.8
Lancar 25 86.2
W = 29.00
N = 29
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
60
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini
Parent Node (Node 9) :
Nilai π π‘ = π π‘ .π(π‘)
dengan π π‘ = 1βmaxπ π(π|π‘) dan π(π|π‘) adalah peluang beberapa objek
berada dalam node t.
Dalam node 9 terdapat dua kelas yaitu kelas tidak lancar dan kelas
lancar. Nilai probabilitas tiap kelas dalam node 8 adalah sebagai berikut:
π tidak lancar|ππππ 9 =4
29= 0.138
π lancar|ππππ 9 =25
29= 0.862
sehingga dengan menggunakan rumus π π‘ = 1 βmaxπ π(π|π‘), maka
diperoleh
π ππππ 9 = 1 βmaxππ π|π‘
= 1 β 0.862 = 0.138 .
Nilai probabilitas objek yang berada dalam node 9 adalah
π ππππ 9 =π ππππ 9
π=
29
308= 9.42 Γ 10β2.
Oleh karena itu,
π ππππ 9 = π ππππ 9 .π ππππ 9 = 0.138 Γ 9.42 Γ 10β2 = 1.3 Γ 10β2.
Selanjutnya pada child node , yaitu node 10 dan terminal node 10 :
Dengan cara perhitungan yang sama maka, node 10 memiliki nilai
maxπ π(π|π‘) sebesar 0.769, sehingga nilai
π π‘πΏ = 1βmaxπ π(π|π‘) = 1 β 0.769 = 0.231.
π(π‘πΏ) adalah peluang banyaknya objek pada anak node sebelah kiri (Node
10), sehingga nilai
π π‘πΏ =π π‘πΏ
π=
13
308= 4.22 Γ 10β2.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
61
Oleh karena itu,
π π‘πΏ = π π‘πΏ .π π‘πΏ = 0.231 Γ 4.22 Γ 10β2 = 9.75 Γ 10β3.
Terminal node 10 memiliki nilai maxπ π(π|π‘) sebesar 0.938, sehingga nilai
π π‘π = 1βmaxπ π(π|π‘) = 1 β 0.938 = 0.063.
π(π‘π ) adalah peluang banyaknya objek pada anak node sebelah kanan
(terminal node 10), sehingga nilai
π π‘π =π π‘π
π=
16
308= 5.19 Γ 10β2.
Oleh karena itu,
π π‘π = π π‘π .π π‘π = 0.063 Γ 5.19 Γ 10β2 = 3.27 Γ 10β3.
Dengan demikian persamaan
π π‘ = π π‘π + π (π‘πΏ)
1.3 Γ 10β2 = 3.27 Γ 10β3 + 9.75 Γ 10β3
1.3 Γ 10β2 = 1.3 Γ 10β2
terpenuhi untuk node 9, sehingga dilakukan pemangkasan.
5. Pohon Klasifikasi Optimal
Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan
pohon klasifikasi optimal. Dari 6 subtree akan dipilih satu pohon klasifikasi
dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon
klasifikasi optimal digunakan metode Test Sample Estimate yaitu π π‘π π =
1
π(2) πΆ(π|π)πππ
(2)π ,π , karena ukuran data yang besar. Nilai penduga pengganti
sample uji (test sample estimate) dari masing-masing subtree terlihat pada
Tabel 4.11.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
62
Tabel 4.11. Tree Sequence Kondisi Ketiga
Tree
number
Terminal Nodes Test Set Relative Cost Resubstitution
Relative Cost
1 19 0.97749 Β± 0.08152 0.40270
2 17 0.94352 Β± 0.08177 0.41238
3 11 0.87632 Β± 0.07913 0.45464
4 9 0.85727 Β± 0.07838 0.46982
5**
2 0.68321 Β± 0.06881 0.54355
6 1 1.00000Β± 0.00000 1.00000
** Optimal
Pada Tabel 4.11. terlihat bahwa dari keenam subtree yang terbentuk,
subtree nomor 5 dengan 3 terminal nodes adalah pohon klasifikasi optimal.
Hal ini dikarenakan memenuhi kriteria nilai test set relative cost π π‘π ππ0 =
minπ π π‘π ππ yaitu subtree nomor 5 memiliki nilai paling kecil dari keenam
subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada Lampiran
7.
6. Predictive Accuracy
Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji
tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan
pohon klasifikasi optimal pada kondisi pertama dengan menggunakan
π π‘π π =1
π1 π π π₯π β ππ
π
(π₯π ,ππ )ββ1
=18 + 22
308=
40
308= 0.129
Dengan nilai π π‘π π = 0.129, maka ketepatan klasifikasinya adalah
1 β 0.129 = 0.8701 atau 87.01 %. Hasil dari klasifikasi pohon optimal
dengan menggunakan data learning dapat dilihat pada Tabel 4.12
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
63
Tabel 4.12. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi
Ketiga
Kelas
Sebenarnya
Total Kelas Persentase
Akurasi
Lancar
N = 241
Tidak Lancar
N = 67
Lancar 237 92.41 219 18
Tidak Lancar 71 69.01 22 49
Total 308
Rata-rata 80.71
Persentase
Keseluruhan
Akurasi
87.01
Kemudian pohon optimal diuji keakuratannya dengan cara
mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi
optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada
data testing adalah
π π‘π π =1
π2 π π π₯π β ππ
π
(π₯π ,ππ )ββ2
=32 + 42
434=
74
434= 0.1705
Oleh karena itu, ketepatan klasifikasinya adalah 1β 0.1705 =
0.8295 atau 82.95 %. Hasil dari klasifikasi pohon optimal dengan
menggunakan data testing dapat dilihat pada Tabel 4.13.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
64
Tabel 4.13. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi
Ketiga
Kelas Sebenarnya Total
Kelas
Persentase
Akurasi
Lancar
N = 333
Tidak Lancar
N = 101
Lancar 323 90.09 291 32
Tidak Lancar 111 62.16 42 69
Total 434
Rata-rata 76.13
Persentase
Keseluruhan
Akurasi
82.95
4.2.4. Pemilihan Kondisi yang Tepat
Dari contoh kasus klasifikasi nasabah AJB Bumiputera 1912, diberlakukan
tiga kondisi yang berbeda dalam membentuk pohon klasifikasi yaitu proporsi
pembagian data learning lebih besar dari data testing, proporsi pembagian data
learning dan data testing sama, dan proporsi pembagian data learning lebih kecil dari
data testing. Nilai ketepatan atau tingkat keakuratan pohon klasifikasi dari ketiga
kondisi dapat dilihat pada Tabel 4.14.
Tabel 4.14. Nilai Ketepatan dari Ketiga Kondisi
No Kondisi Tingkat Ketepatan Klasifikasi
Data Learning Data Testing
1 Proporsi Data Learning > Data Testing 86.33 83.65
2 Proporsi Data Learning = Data Testing 87.17 81.94
3 Proporsi Data Learning < Data Testing 87.01 82.95
Pada Tabel 4.14. terlihat bahwa nilai ketepatan data learning untuk proporsi
pembagian data learning > data testing menghasilkan nilai keakuratan untuk data
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
65
learning sebesar 86.33%. Proporsi pembagian data learning < data testing
menghasilkan nilai keakuratan untuk data learning sebesar 87.01 %. Sedangkan
proporsi pembagian data learning = data testing memiliki nilai keakuratan untuk data
learning sebesar 87.17 %.
Keakuratan nilai data testing untuk proporsi pembagian data learning = data
testing yaitu 81.94 %. Proporsi pembagian data learning < data testing menghasilkan
nilai keakuratan data testing sebesar 82.95 %. Sedangkan proporsi pembagian data
learning > data testing memiliki nilai keakuratan data testing sebesar 83.65 %.
Hal ini berarti bahwa apabila kita ingin memodelkan data tersebut maka kita
pilih ketepatan klasifikasi data learning tertinggi yaitu untuk proporsi pembagian
data learning = data testing. Akan tetapi apabila kita akan membuat model yang
nantinya digunakan untuk mengklasifikasikan data baru maka dipilih nilai ketepatan
testingnya tertinggi yaitu proporsi pembagian data learning > data testing.
4.2.5. Interpretasi Pohon Klasifikasi
Untuk membuat model yang nantinya akan digunakan untuk
mengklasifikasikan data baru maka pohon klasifikasi optimal terbaik yang digunakan
adalah pohon pada kondisi pertama, dengan proporsi data learning : data testing
sebesar 70%:30% dimana mempunyai nilai keakuratan data testing sebesar 83.65%.
Untuk dua kondisi lainnya mempunyai langkah yang sama untuk menginterpretasikan
pohon klasifikasinya. Pohon klasifikasi optimal dapat dilihat pada Lampiran 3 yang
terbentuk didapat beberapa aturan klasifikasi sebagai berikut :
1. Jika Cara Bayar dilakukan dengan cara setengah tahunan atau tahunan, maka
status pembayaran adalah lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
setengah tahunan atau tahunan maka orang tersebut dapat dikatakan lancar.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
66
2. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar sebesar
kurang dari atau sama dengan Rp.159,770.00 maka status pembayaran adalah
lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
triwulanan dan membayar Premi Dasar sebesar kurang dari atau sama dengan
Rp.159,770.00 maka orang tersebut dapat dikatakan lancar.
3. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar lebih dari
Rp.159,770.00 dan Premi Dasar kurang dari atau sama dengan Rp. 160,770.00
maka status pembayaran adalah tidak lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 159,770.00 dan
kurang dari atau sama dengan Rp. 160,770.00 maka orang tersebut dapat
dikatakan tidak lancar.
4. Jika Cara Bayar dilakukan dengan cara triwulanan; Premi Dasar lebih dari
Rp.160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka
Waktu Asuransi kurang dari atau sama dengan 10.5 tahun maka status
pembayaran adalah lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
triwulanan, membayar Premi Dasar sebesar lebih dari Rp. 260,074.50 dan
kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi
kurang dari atau sama dengan 10.5 tahun maka orang tersebut dapat dikatakan
lancar.
5. Jika Cara Bayar dilakukan dengan cara triwulanan; Premi Dasar lebih dari
Rp.160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka
Waktu Asuransi lebih dari 10.5 tahun dan kurang dari atau sama dengan 14.5
tahun maka status pembayaran adalah tidak lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
Triwulanan; membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan
kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
67
dari 10.5 tahun dan kurang dari atau sama dengan 14.5 tahun maka orang
tersebut dapat dikatakan tidak lancar.
6. Jika Cara Bayar dilakukan dengan cara triwulanan; Premi Dasar lebih dari
Rp.160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka
Waktu Asuransi lebih dari 14.5 tahun maka status pembayaran adalah lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
triwulanan, membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan
kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih
dari 14.5 tahun maka orang tersebut dapat dikatakan lancar.
7. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar lebih dari
Rp.260,074.50 dan kurang dari atau sama dengan Rp. 265,850.00 maka status
pembayaran adalah tidak lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 260,074.50 dan
kurang dari atau sama dengan Rp. 265,850.00 maka orang tersebut dapat
dikatakan tidak lancar.
8. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar sebesar
lebih dari Rp. 265,850.00 maka status pembayaran adalah lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 265,850.00 maka
orang tersebut dapat dikatakan tidak lancar.
9. Jika Cara Bayar dilakukan dengan cara bulanan maka status pembayaran adalah
tidak lancar.
Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara
bulanan maka orang tersebut dapat dikatakan tidak lancar.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
68
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil dari pembahasan dapat ditarik kesimpulan bahwa dalam
mengklasifikasikan nasabah asuransi AJB Bumiputera 1912 Surakarta diperoleh hasil
interpretasi pohon klasifikasi pada kondisi pertama yaitu nasabah dengan status
pembayaran lancar berarti bahwa seseorang yang melakukan Cara Bayar dengan cara
setengah tahunan atau tahunan; Cara Bayar secara triwulanan tetapi membayar Premi
Dasar sebesar lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp.
260,074.50 dan jangka waktu kurang dari atau sama dengan 10.5 th. Nasabah
dengan status pembayaran tidak lancar berarti bahwa seseorang yang melakukan Cara
Bayar dengan cara bulanan dan triwulanan tetapi membayar Premi Dasar sebesar
lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp. 265,850.00 dan
Jangka Waktu Asuransi lebih dari 10.5 tahun dan kurang dari atau sama dengan 14.5
th.
5.2 Saran
Dalam skripsi ini metode yang digunakan adalah pohon klasifikasi dalam
mengklasifikasikan data nasabah asuransi AJB Bumiputera 1912 Surakarta. Dalam
skripsi ini variabel Penghasilan bertipe kontinu sehingga variabel ini lebih cepat
tereliminasi dalam analisis yang dilakukan. Apabila pembaca tertarik maka dapat
mengaplikasikan algoritma CART ini dengan mengubah variabel Penghasilan
menjadi variabel kategorik karena variabel Penghasilan merupakan salah satu
variabel yang mungkin berpengaruh dalam mengklasifikasikan nasabah asuransi
Bumiputera 1912 Surakarta.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
69
DAFTAR PUSTAKA
[1] Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone, Classification And
Regression Trees, Chapman & Hall, New York, 1993.
[2] Kuntum, I., Penggunaan Pohon Keputusan untuk Data Mining, Institut
Teknologi Bandung, Bandung, 2005.
[3] Lewis, R.J, An Introduction to Classification And Regression Tree (CART)
Analysis, Annual Meeting of the Society for Academic Emergency Medicine
in San Fransisco, California, Department of Emergency Medicine, California,
2000.
[4] Marc, Vayssieres, Richard E. Plant, Barbara H. Allen-Diaz, Classification
Trees: An Alternative Non-Parametric Approach for Predicting Species
Distributions, Journal of Vegetation Science, Vol. 11, No.5, pp. 679-694,
Blackwell Publishing, 2000.
[5] Soni, S., Implementation of Multivariate Data Set by CART Algorithm.
Journal of Information Technology and Knowledge Management. Vol 2,
No.2, pp 455-459, 2010.
[6] Sunjana, Klasifikasi Data Nasabah sebuah Asuransi Menggunakan
Algoritma C4.5, Universitas Widyatama, Yogyakarta, 2010.
[7] Walpole, R.E dan R.H Myers, Ilmu Peluang dan Statistika Untuk Insinyur
dan Ilmuwan, Terjemahan R.K Sembiring, ITB, Bandung, 1986.
[8] Webb, P., and I. Yohannes, Classification And Regression Trees, CARTTM
,
International Food Policy Research Institute, Washington D.C, 1999.
[9] Yuanita, D., dan S. Akbar, Pendekatan CART Untuk Mendapatkan Faktor
yang Mempengaruhi Terjangkitnya Penyakit Demam Tifoid di Aceh Utara,
Skripsi Mahasiswa Jurusan Statistika FMIPA ITS, Surabaya, 2010.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
70
DAFTAR LAMPIRAN
Lampiran 1 : Sebagian Data Polis Lapse AJB Bumiputera 1912 Surakarta
Lampiran 2 : Proses Pemangkasan Pohon Klasifikasi Kondisi Pertama
Lampiran 3 : Pohon Klasifikasi Optimal Kondisi Pertama
Lampiran 4 : Proses Pemangkasan Pohon Klasifikasi Kondisi Kedua
Lampiran 5 : Pohon Klasifikasi Optimal Kondisi Kedua
Lampiran 6 : Proses Pemangkasan Pohon Klasifikasi Kondisi Ketiga
Lampiran 7 : Pohon Klasifikasi Optimal Kondisi Ketiga
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
71
Lampiran 1 : Sebagian Data βPolis Lapseβ Nasabah Ajb Bumiputera 1912 Surakarta Periode 1 Januari 2010 β
1 Desember 2010
status pembayaran jenis kelamin cara bayar
jangka waktu asuransi premi dasar penghasilan status mata uang macam asuransi
2 2 3 11 149860 11988800 2 1 3
2 1 2 17 146250 11700000 2 1 4
2 2 2 5 300000 24000000 3 1 5
2 2 2 5 300000 24000000 3 1 5
2 1 2 10 267540 21403200 3 1 5
2 2 3 10 131001 10480080 2 1 3
2 1 3 10 142657 11412560 2 1 3
2 2 3 20 100878 8070240 2 1 3
2 1 2 16 485550 38844000 2 1 4
2 2 2 16 476580 38126400 2 1 4
2 2 4 10 1112000 88960000 3 1 5
2 2 4 10 1250400 100032000 3 1 5
2 2 2 17 284700 22776000 2 1 4
2 1 2 17 147030 11762400 2 1 4
2 2 3 10 99450 7956000 2 1 3
2 2 2 10 265980 21278400 3 1 5
2 2 3 10 200000 16000000 2 1 3
2 1 3 15 119075 9526000 2 1 3
1 2 2 10 350000 28000000 3 1 5
2 2 2 16 240000 19200000 2 1 4
2 2 2 15 336960 26956800 2 1 4
2 2 3 10 583000 46640000 3 1 5
2 2 2 16 154130 12330400 2 1 4
2 2 4 10 294000 23520000 2 1 3
2 2 2 10 300000 24000000 3 1 5
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
2 2 2 14 300000 24000000 2 1 4
2 2 2 5 260000 20800000 3 1 5
2 2 2 5 260000 20800000 3 1 5
1 1 2 10 282360 22588800 3 1 5
1 1 2 16 300000 24000000 2 1 4
2 1 2 16 300000 24000000 2 1 4
2 1 2 17 304980 24398400 2 1 4
2 1 3 16 649740 51979200 2 1 4
2 2 2 17 565760 45260800 2 1 4
2 1 4 10 1191400 95312000 3 1 5
2 1 4 10 2655000 212400000 3 1 5
1 2 2 14 175110 14008800 2 1 4
2 2 2 10 305877 24470160 3 1 5
2 2 3 16 257683 20614640 2 1 3
2 1 2 10 268060 21444800 3 1 5
2 1 2 13 1000000 80000000 2 1 4
2 2 2 10 500000 40000000 3 1 5
2 1 4 15 196000 15680000 2 1 3
2 1 2 16 318552 25484160 2 1 4
2 2 2 16 153530 12282400 2 1 4
2 1 4 10 498036 39842880 2 1 3
2 1 4 10 498711 39896880 2 1 3
2 2 3 10 599990 47999200 3 1 5
2 2 2 17 284700 22776000 2 1 4
2 2 2 17 282880 22630400 2 1 4
2 2 2 10 266240 21299200 3 1 5
2 2 2 10 500000 40000000 3 1 5
2 1 4 10 247528 19802240 2 1 3
1 2 2 5 300001 24000080 3 1 5
2 2 2 5 298090 23847200 3 1 5
2 2 4 10 250000 20000000 2 1 3
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
2 2 2 5 867750 69420000 3 1 5
2 2 2 5 867750 69420000 3 1 5
1 1 2 17 284180 22734400 2 1 4
1 1 2 10 300000 24000000 3 1 5
1 2 2 10 300000 24000000 3 1 5
2 1 3 15 306000 24480000 2 1 3
2 1 2 5 607698 48615840 3 1 5
2 2 3 10 900029 72002320 3 1 5
2 1 2 10 296296 23703680 3 1 5
2 1 2 10 300000 24000000 3 1 5
2 1 4 17 12760000 1020800000 3 1 6
2 2 4 10 10620000 849600000 3 1 5
2 2 4 5 1009350 80748000 3 1 5
2 2 2 10 320827 25666160 3 1 5
2 1 2 10 265980 21278400 3 1 5
2 1 4 10 2572500 205800000 3 1 5
2 2 2 8 270000 21600000 3 1 5
2 2 2 10 300017 24001360 3 1 5
1 1 2 16 310960 24876800 2 1 4
2 2 2 15 322660 25812800 2 1 4
2 2 2 5 302427 24194160 3 1 5
2 1 3 20 196605 15728400 2 1 3
2 1 2 10 309764 24781120 3 1 5
2 2 4 10 363580 29086400 2 1 3
2 1 2 16 3231800 258544000 3 1 6
2 1 3 20 131070 10485600 2 1 3
2 1 2 14 527280 42182400 2 1 4
2 2 3 10 300015 24001200 2 1 3
2 2 2 17 565760 45260800 2 1 4
1 2 3 20 156825 12546000 2 1 3
1 1 2 5 300000 24000000 3 1 5
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
1 1 3 20 151470 12117600 2 1 3
1 2 3 15 175098 14007840 2 1 3
1 1 2 17 284700 22776000 2 1 4
1 2 2 14 357500 28600000 2 1 4
2 2 2 5 291590 23327200 3 1 5
1 2 4 10 1790100 143208000 3 1 5
2 1 2 6 300000 24000000 3 1 5
2 2 2 5 300000 24000000 3 1 5
2 1 2 17 211660 16932800 2 1 4
2 1 2 5 300000 24000000 3 1 5
2 2 4 5 1000020 80001600 3 1 5
2 1 4 5 490000 39200000 2 1 3
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
Lampiran 2 : Proses Pemangkasan Pohon Klasifikasi Kondisi Pertama
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
Lampiran 3 : Pohon Klasifikasi Optimal Kondisi Pertama
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
Lampiran 4 : Proses Pemangkasan Pohon Klasifikasi Kondisi Kedua
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
CARA_BAYAR = (Triw ulanan...)
Terminal
Node 1
Class = Lancar
Class Cases %
Tidak Lancar 25 8.4
Lancar 272 91.6
W = 297.00
N = 297
CARA_BAYAR = (Bulanan)
Terminal
Node 2
Class = Tidak Lancar
Class Cases %
Tidak Lancar 61 71.8
Lancar 24 28.2
W = 85.00
N = 85
Node 1
Class = Lancar
CARA_BAYAR =
(Triw ulanan,Setengah Tahunan,
Tahunan)
Class Cases %
Tidak Lancar 86 22.5
Lancar 296 77.5
W = 382.00
N = 382
Lampiran 5 : Pohon Klasifikasi Optimal Kondisi Kedua
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
Lampiran 6 : Proses Pemangkasan Pohon Klasifikasi Kondisi Ketiga
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
Lampiran 7 : Pohon Klasifikasi Optimal Kondisi Ketiga
CARA_BAYAR = (Triw ulanan...)
Terminal
Node 1
Class = Lancar
Class Cases %
Tidak Lancar 22 9.1
Lancar 219 90.9
W = 241.00
N = 241
CARA_BAYAR = (Bulanan)
Terminal
Node 2
Class = Tidak Lancar
Class Cases %
Tidak Lancar 49 73.1
Lancar 18 26.9
W = 67.00
N = 67
Node 1
Class = Lancar
CARA_BAYAR =
(Triw ulanan,Setengah Tahunan,
Tahunan)
Class Cases %
Tidak Lancar 71 23.1
Lancar 237 76.9
W = 308.00
N = 308