Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
10
Impementasi Algoritma C 4.5 dan Prinsip 6C untuk Klasifikasi Kualitas Kredit pada
Perusahaan Pembiayaan
Fitri Nuraeni1, Shinta Siti Sundari2, Widya Octaviani3
1,2,3Jurusan Teknik Informatika, STMIK Tasikmalaya, Tasikmalaya
e-mail: [email protected] , [email protected], [email protected]
Abstrak
Perusahaan pembiayaan memberikan layanan kredit kepada masyarakat, dimana pada prosesnya
selalu ada resiko yang harus dihadapi yaitu pengembalian sebagian dari pinjaman yang diberikan
kepada para nasabah yang terlambat atau bahkan terhambat sehingga menjadi kredit macet. Untuk
mengatasi masalah tersebut, maka dilakukan penggalian informasi dari sekumpulan data nasabah
yang banyak sehingga didapat pola karakteristik nasabah sesuai prinsip 6C (character, capital,
capasity, condition of economy, collateral, dan constrait). Untuk mengenali pola karakteristik
tersebut digunakan teknik penggalian data sesuai CRIPS-DM yaitu algoritma klasifikasi C4.5. Hasil
yang diperoleh adalah pola klasifikasi penentuan pemberian kredit yang berdasarkan prinsip 6C
menggunakan algoritma C4.5 dengan nilai akurasi sebesar 82,08%. Pola karakteristik nasabah
tersebut kemudian diimplementasikan dalam sebuah sistem informasi yang dapat membantu pihak
perusahaan sebagai pendukung penentuan pemberian kredit pada nasabah. Diharapkan setelah
adanya sistem tersebut pihak perusahaan pembiayaan dapat dengan mudah mengelompokan nasabah
yang layak dan yang tidak layak diberikan kredit sehingga dapat mengurangi resiko munculnya kredit
macet.
Kata kunci—C4.5, klasifikasi, kredit, pola, prinsip 6C
1. Pendahuluan
Perusahaan pembiayaan (leasing) menyediakan barang modal yang dapat digunakan
selama jangka waktu tertentu menggunakan sistem pembayaran secara berkala yang disertai hak
pilih, apakah barang modal akan dibeli atau jangka waktu yang dipernjangkan berdasarkan nilai
sisa yang telah disepakati [1]. Dari sekian banyak usaha yang ditawarkan oleh perusahaan
pembiayaan, yang paling banyak diminati masyarakat adalah pemberian kredit terutama
pembiayaan untuk kredit motor. Setiap perusahaan pembiayaan selalu memperhatikan resiko yang
mungkin terjadi dalam pemberian kredit, karena sering kali terjadi gagalnya pengembalian
sebagian pinjaman yang diberikan kepada para nasabah yang berujung pada kredit macet. Salah
satu cara yang bisa dilakukan oleh perusahaan pembiayaan dalam pencegahan munculnya kredit
bermasalah adalah mengetahui kualitas kredit dengan mengenali pola dari karakteristik dan
perilaku nasabah dengan memperhatikan data historis pinjaman [2].
Untuk penentuan persetujuan kredit, perusahaan pembiayaan biasanya menggunakan
prinsip 6C sebagai aspek penilaian atau kriteria yang harus dipenuhi nasabah yaitu Character,
Capital, Capacity, Condition of Economy, Collateral, dan Constraint [3]. Masing-masing kriteria
memiliki subkriteria yang diambil dari data nasabah seperti status pernikahan, jumlah tanggungan,
pekerjaan, penghasilan per bulan, lama kerja (tahun), pendidikan terakhir, usia, kepemilikan rumah,
lama tinggal (tahun), uang muka, jumlah pinjaman, jumlah angsuran, jangka waktu, jenis kelamin,
jaminan, status kredit, pengalaman kredit, keberadaan tempat tinggal, jarak tempat tinggal ke
perusahaan, dan jenis motor.
Namun melihat gambar 1, dengan bertambahnya jumlah nasabah dari tahun ke tahun dan
meningkatnya angka pembayaran yang terlambat setiap bulannya, membuat pihak perusahaan
harus menentukan dengan cepat dan tepat dalam memilih nasabah yang layak untuk melakukan
pengajuan kredit. Masalah ini menjadi suatu kekhawatiran tersendiri bagi pihak perusahaan dalam
pengambilan keputusan yang memungkinkan terjadinya keputusan yang kurang tepat sehingga
memunculkan kredit bermasalah.
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
11
Gambar 1 Grafik kredit lancar dan bermasalah (sumber: Perusahaan Pembiayaan Kota Tasikmalaya)
Melihat peningkatan tersebut, maka diperlukan suatu analisis data dalam jumlah besar yang
dapat membantu memberikan solusi dengan mengenali karakter nasabah yang lancar dan
bermasalah [4] dari data-data yang sudah ada. Pada proses analisis data ini dapat digunakan teknik
data mining yang merupakan sekumpulan proses berurutan bertujuan untuk menggali nilai lebih
dari suatu kumpulan data dalam jumlah besar yang dapat dianggap pengetahuan yang tidak pernah
diketahui secara manual [5]. Salah satu tugas yang dapat dilakukan dalam data mining yaitu teknik
klasifikasi yang merupakan kegiatan pelatihan terhadap fungsi target yang memetakan
(memprediksi) setiap vektor kedalam satu dari sejumlah label kelas yang tersedia [6]. Diantara
algoritma-algoritma yang digunakan pada proses klasifikasi, model pohon keputusan merupakan
bentuk yang paling disukai karena mudah diinterpretasikan [7], seperti algoritma C4.5 yang dapat
menangani atribut diskrit dan kontinyu, dapat menangani pelatihan data dengan missing value, dan
memangkas pohon keputusan C4.5 setelah selesai dibentuk [8] sehingga lebih simple, serta
menghasilkan tingkat akurasi yang baik. Terlihat pada klasifikasi nasabah kredit berdasarkan nilai
kolektibilitasnya, dan akurasi yang dihasilkan dari model decision tree C4.5 yaitu 71,91% dan
naïve bayes yaitu sebesar 67,01% [9]. Begitu pula pada pengklasifikasian kelayakkan kredit bank
menggunakan prinsip 5C dan algoritma C4.5, didapat hasil akurasi yaitu 83,67% [10].
Dari hasil penjelasan diatas, untuk menerapkan metode klasifikasi data mining dalam
menganalisis penentuan pemberian kredit digunakanlah algoritma C4.5 karena telah terbukti bahwa
pada penelitian-penelitian yang pernah dilakukan memiliki nilai akurasi dengan tingkatan yang
baik. Dengan menerapkan prinsip kredit 6C dan algoritma C4.5 didapatkan pola karakteristik
kualitas kredit nasabah yaitu nasabah layak dan tidak layak untuk diberikan kredit. Pola tersebut
dapat membantu pihak perusahaan untuk mendapatkan keputusan yang sesuai, juga meminimalisir
permasalahan-permasalahan yang ada setelah pemberian kredit.
2. Metode Penelitian
Dalam penelitian eksperimen ini digunakan model proses CRISP-DM (Cross Industry
Standard Process for Data Mining) yang memiliki tahapan-tahapan seperti pada gambar 2, yaitu
business understanding, data understanding, data preparation, modelling, evaluation, dan
deployment phase [11].
0
1000
2000
3000
4000
5000
2013 2014 2015 2016
Grafik Kredit Lancar dan Bermasalah
Lancar
Bermasalah
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
12
Gambar 2 Tahapan-tahapan data mining menurut CRISP-DM [12]
2.1 Fase Pemahaman Bisnis
Fase pemahaman bisnis merupakan tahap awal yaitu proses memahami proses penelitian
yang akan dilakukan berserta tujuan, kebutuhan dan rumusan masalah data mining [13].
Pemahaman bisnis mengacu pada proses penentuan pemberian kredit yang dilakukan setiap
perusahan pembiayaan yaitu dengan menggunakan analisa kredit prinsip 6C, yang terfokus pada
hasil survey sehingga dikhawatirkan adanya kesalahan atau keputusan yang kurang tepat dan
mengakibatkan munculnya kredit macet. Oleh karena itu, diperlukan pola untuk penentuan
pemberian kredit berdasarkan data histori sebelumnya untuk membantu pihak analisa kredit dalam
menentukan kualitas pemberian kredit berdasarkan kriteria yang termasuk ke dalam prinsip kredit
6C. Algoritma yang digunakan yaitu algoritma C4.5 yang bertujuan untuk mengklasifikasikan data
nasabah dengan akurat.
2.2. Fase Pemahaman Data (Data Understanding Phase)
Dalam fase ini dilakukan pengumpulan data, mengidentifikasi lebih lanjut data yang akan
digunakan dan mengevaluasi kualitas data. Pemahaman data mengacu pada sampel data nasabah
sebanyak 1617 record dari tahun 2013-2016. Dan atribut yang akan digunakan termasuk kedalam
prinsip kredit 6C yaitu: a) Character merupakan sifat nasabah yang terkait pada kemauan dirinya
untuk membayar angsuran kredit nantinya [14], dari data yang dikumpulkan sub kriterianya yaitu
status pernikahan, jenis kelamin; b) Capital merupakan analisis modal yang bertujuan melihat
kemampuan yang dimiliki nasabah memikul beban pembiayaan dan beban resiko yang mungkin
dialami [15], subkriteria yang diambil adalah uang muka; c) Capacity melihat kemampuan nasabah
dalam membayar angsuran dan kebutuhan lainnya [14], yaitu pekerjaan nasabah, lama bekerja,
penghasilan; d) Collateral yaitu jaminan berupa BPKB; e) Condition of Economy, berupa jumlah
tanggungan kepemilikan rumah, lama tinggal, jumlah angsuran, jumlah pinjaman; dan f) Constraint
merupakan hambatan yang mungkin muncul sehingga menyebabkan bisnis tidak berjalan lancar
[16], berupa usia, jangka waktu.
2.3. Fase Pengolahan Data (Data Preparation Phase)
Tahap ini merupakan pekerjaan yang harus intensif dilaksanakan. Memilih variable dan
kasus yang ingin dianalisis, melakukan perubahan variable-variable jika dibutuhkan sehingga data
siap untuk perangkat pemodelan. Pada tahap ini pembuatan data set berdasarkan data yang telah
dikumpulkan dengan menentukan field-field apa saja yang akan digunakan. Tahapan ini terdiri
dari:
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
13
a) data selection, yaitu memilih data yang akan digunakan dan juga dilakukan pemilihan atribut-
atribut yang disesuaikan dengan proses data mining. Pada tahap ini jumlah data awal sebanyak
1617 data nasabah dan jumlah atribut semula yaitu 20 atribut, kemudian dilakukan proses
seleksi sehingga atribut yang akan digunakan yaitu 16 atribut diantaranya yaitu jangka waktu,
jumlah angsuran, jumlah pinjaman, usia, jenis kelamin, status pernikahan, lama tinggal,
kepemilikan rumah, pekerjaan, penghasilan, lama kerja, tanggungan, uang muka, jaminan, jarak
rumah, dan status kredit.
b) data preprocessing, yaitu proses untuk mengecek kualitas data yang telah dipilih pada tahap
data selection. Masalah yang harus dihadapi pada tahap ini adalah missing values dan noisy
data. Adapun teknik data preprocessing yaitu:
a. data cleaning, bertujuan untuk membersihkan nilai yang kosong atau tupel yang kosong
(missing value atau noisy) dan mengidentifikasi atau membuang data outlier. Dalam proses
cleaning ini dilakukan deteksi outlier dengan menggunakan metode Distances-based, dan
distance function yang digunakan yaitu Euclidean distance yang merupakan perhitungan
jarak antara dua keadaan[17]. Dalam tahap ini setelah dilakukan deteksi outlier, data nasabah
yang semula berjumlah 1617 record menjadi 530 record;
b. data integration, berfungsi untuk menyatukan tempat penyimpanan yang berbeda kedalam
satu data, ada dua arsip yang diambil yaitu dari data penjualan dan data nasabah.
c. data reduction, jumlah atribut dalam data training terlalu besar maka untuk mengurangi
jumlah atribut yang tidak digunakan akan dihapus. Sehingga atribut yang akan digunakan
sebanyak 16 atribut. Dimana 15 atribut sebagai atribut predictor dan 1 atribut sebagai label-
nya. Detail dari atribut-atribut ini dapat dilihat pada tabel 1.
Tabel 1. Kategori Atribut Atribut Nilai Angka Kategori Atribut Nilai Angka Kategori
Jangka Waktu <=1thn JW1 Pekerjaan Buruh P1
2thn JW2 Dokter P2
>2thn JW3 Dosen P3
Angsuran 250.000-
500.000 AN1 Guru P4
500.500-
750.000 AN2 Honorer P5
>750.000 AN3 Pegawai
Swasta P6
Pinjaman <10jt PN1 Pengacara P7
10-30jt PN2 Pensiunan P8
>30jt PN3 Petani P9
Usia 19-30 US1 Peternak P10
31-60 US2 PNS P11
>60 US3 Supir P12
Jenis Kelamin L JK1 TNI/POLRI P13
P JK2 Wiraswasta P14
Status Pernikahan Belum Menikah SP1 Penghasilan <1jt PH1
Menikah SP2 1-10jt PH2
Cerai SP3 >10jt PH3
Lama Tinggal (thn) 0-20 LT1 Lama Kerja (thn) 0-15 LK1
21-40 LT2 16-30 LK2
41-60 LT3 31-50 LK3
Kepemilikan
Rumah Milik Sendiri KR1 Jaminan BPKB BPKB
Milik Keluarga KR2 Tanggungan Tidak Ada JT1
Sewa Rumah KR3 Ada JT2
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
14
Atribut Nilai Angka Kategori Atribut Nilai Angka Kategori
Uang Muka <5jt DP1
5-10jt DP2
>10jt DP3
Jarak Rumah
(km) 0-30 JR1
31-60 JR2
>60 JR3
d. data transformation, yaitu mengelompokkan atribut-atribut atau field yang telah terpilih
menjadi 1 tabel, agar proses data mining lebih efisien dan pola yang dihasilkan lebih mudah
dipahami.
2.4. Fase Pemodelan Data (Modeling Phase)
Pada tahapan ini algoritma yang digunakan yaitu algoritma C4.5. Dalam algoritma C4.5
dilakukan perhitungan information gain tiap-tiap atribut untuk menentukan node yang berada di
atas pada pohon keputusan. Setelah itu dilakukan berulang hingga semua atribut diketahui semua
letak pada pohon keputusan.
Adapun langkah-langkah yang harus dilakukan untuk mencari nilai entropy dan
information gain masing-masing atribut yaitu[18]:
a) menyiapkan data training yang biasanya diambil dari data nasabah yang telah dikumpulkan
sebelumnya dan sudah masukan kedalam kelompok kelas-kelas tertentu;
b) menentukan akar dari pohon yaitu atribut yang tepilih proses penghitungan nilai gain dari
masing-masing atribut, dan dipilih akar pertama yaitu atribut dengan nilai gain yang paling
besar. Pertama hitung terlebih dahulu nilai entropy, dilanjutkan menghitung nilai gain dari
atribut. Proses menghitung nilai entropy menggunakan rumus:
𝑒𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ −𝑝𝑖 ∗ log2 𝑝𝑖𝑛𝑖=1 (1)
Keterangan:
S = himpunan kasus
n = jumlah partisi S
pi = proporsi Si terhadap S
Kemudian nilai gain dihitung menggunakan rumus:
𝑔𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑|𝑆𝑖|
|𝑆|𝑛𝑖=1 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) (2)
Keterangan:
S = himpunan kasus
A = fitur
n = jumlah partisi atribut A
|S|= proporsi Si terhadap S
|S|= jumlah kasus dalam S
c) Ulangi langkah ke-2 hingga semua record terpartisi.
d) Proses partisi pohon keputusan dihentikan saat: i) seluruh record dalam simpul N menerima
kelas yang sama; ii) tidak ada lagi atribut di dalam record dipartisi lagi; iii) tidak ada record di
dalam cabang yang ternyata kosong.
2.5. Fase Evaluasi (Evaluation Phase)
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
15
Proses evaluasi pada satu atau lebih model yang digunakan kemudian ditetapkan apakah
terdapat model yang memenuhi tujuan pada tahap awal. Pengujian model dengan tujuan untuk
mengukur tingkat akurasi digambarkan menggunakan confusion matrix dan kurva ROC.
Didalam confusion matrix, nilai-nilai yang akan dihitung adalah nilai precision, recall, dan
accuracy. Sensitivitas atau disebut true positive rate atau recall digunakan untuk mengukur
proporsi lancar yang diidentifikasi secara tepat, yaitu jumlah data yang true positive dibagi dengan
jumlah data yang sebenarnya positif (true positive + false negative) sedangkan spesifisitas
digunakan untuk mengukur proporsi bermasalah yang di identifkasi dengan tepat yaitu jumlah data
true negative dibagi dengan jumlah data yang sebenarnya negatif (true negative + false positive)
[19].
Dan nilai akurasi merupakan hasil perhitungan dari jumlah kasus yang diprediksi dan benar
lancar (true positive) dan diprediksi bermasalah (true negative) dibagi dengan seluruh jumlah kasus
yang ada. Persamaan yang dapat digunakan untuk menghitung nilai precision, recall, dan accuracy
yaitu:
Akurasi = (TP+TN)/(TP+TN+FP+FN) (3)
Precision = TP/(TP+FP) (4)
Recall = TP/(TP+FN) (5)
Kurva ROC ini adalah suatu teknik untuk menggambarkan, mengatur dan memilih
pengklasifikasi, berdasarkan kinerja mereka. Kurva ROC terdiri atas sumbu horizontal yang
memuat nilai false positive rate dan true positive rate dinyatakan dengan sumbu vertikal. Kurva
ROC menunjukkan trade-off antara true positive dan false positive dalam suatu model untuk
mengukur area dibawah kurva ROC atau AUC. Akurasi AUC dikatakan sempurna apabila nilai
AUC mencapai 1000 dan akurasinya buruk jika nilai AUC dibawah 0,500.
Dalam klasifikasi data mining nilai area dibawah kurva dapat dibagi menjadi beberapa
kelompok diantaranya: a) 0.90-1.00 = Klasifikasi Sangat baik; b 0.80-0.90 = Klasifikasi Baik; c)
0.70-0.80 = Klasifikai Cukup Baik; d) 0.60-0.70 = Klasifikasi Buruk; dan e) 0.50-0.60 =
Klasifikasi Salah [10].
2.6. Fase Penyebaran (Deployment Phase)
Tahapan ini adalah proses menggunakan model hasil pengalian data seperti laporan atau
penerapan proses data mining secara parallel pada departemen lain. Pola yang dihasilkan pada
proses data mining dipresentasikan dalam bentuk gambar atau deskripsi yang mudah dipahami.
3. Hasil dan Pembahasan
Tahap modeling ini dibentuk suatu pohon keputusan dengan menggunakan data training.
Pada tahap modeling ini data training di klasifikasikan dengan model untuk menghasilkan sejumlah
aturan. Algoritma yang digunakan dalam tahap ini yaitu algoritma C4.5. Dalam algoritma C4.5
dilakukan perhitungan entropy dan information gain tiap-tiap atribut untuk menentukan node yang
paling atas. Adapun langkah-langkah dalam perhitungan tersebut yaitu menghitung jumlah records
untuk hasil lancar dan bermasalah. Kemudian menghitung entropy total untuk hasil lancar dan
bermasalah menggunakan rumus nilai entropy seperti pada persamaan (1), yaitu :
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 [𝑡𝑜𝑡𝑎𝑙] = − ((439
530) ∗ log2 (
439
530)) + ((
91
530) ∗ log2 (
91
530)) = 0.22510878 + 0.43646586
= 0.66157464
Setelah itu menghitung nilai gain untuk masing-masing atribut dengan menggunakan
rumus dari persamaan (2). Namun sebelum itu, mencari nilai entropy terlebih dahulu untuk tiap
kategori pada masing-masing atribut, seperti pada contoh nilai entropy untuk jumlah pinjaman
yaitu: a) Entropy [PN1] = 0.205592508; b) Entropy [PN2] = 0.684038436; dan c) Entropy [PN3]
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
16
= 0.Setelah diperoleh hasil entropy, kemudian menghitung nilai information gain untuk setiap
atribut, seperti pada persamaan (2), yaitu Gain (Total, Jumlah Pinjaman) = 0.103920466.
Perhitungan tersebut diulangi lagi pada setiap atribut sampai semua atribut diketahui nilai
entropy dan information gainnya. Penentuan atribut sebagai akar dengan memilih atribut yang
memiliki nilai gain terbesar dari atribut-atribut yang ada. Pencarian node terus dilakukan sampai
pada keadaan seluruh tupel terpartisi. Model yang terbentuk dari hasil pengenalan pola dengan
menggunakan tool rapidminer yaitu berupa pohon keputusan yang dapat dilihat pada gambar 3.
Gambar 3. Pohon Keputusan Menggunakan Algoritma C4.5
Hasil perhitungan dengan menggunakan algoritma C4.5 dalam klasifikasi kualitas kredit
berdasarkan pada prinsip 6C berupa pohon keputusan seperti pada gambar 3. Pada pohon
keputusan tersebut, atribut yang terpilih sebagai node akar adalah jumlah anguran. Setelah
diperoleh node akar, lalu menghitung jumlah kasus untuk keputusan lancar, keputusan bermasalah
dan entropy dari semua kasus yang dibagi berdasarkan atribut jangka waktu, pinjaman, usia, jenis
kelamin, status pernikahan, lama tinggal, kepemilikan rumah, pekerjaan, penghasilan, lama kerja,
tanggungan, uang muka, jaminan, dan jarak rumah. Setelah itu, melakukan perhitungan gain untuk
masing-masing atribut.
Pada atribut angsuran terdapat nilai atribut AN1 dan AN3 yang telah mengklasifikasikan
kasusnya dan hasil keputusannya adalah bermasalah karena nilai gain yang diperoleh pada
perhitungan setiap atribut dibawah minimal gain 0,01, sehingga pada nilai atribut AN1 dan AN3
diputuskan bermasalah. Sedangkan pada nilai atribut AN2, terdapat atribut yang nilai information
gainnya mencapai nilai minimal gain yaitu atribut lama tinggal sebesar 0,01652675. Sehingga
atribut lama tinggal dijadikan sebagai node akar dari atribut angsuran. Kemudian lakukan kembali
proses perhitungan tersebut sampai semua kasus pada cabang mempunyai kelas yang sama seperti
yang ditunjukan pada gambar 3.
Adapun penjelasan pola klasifikasi penentuan pemberian kredit berdasarkan pohon
keputusan dari gambar 3 adalah sebagai berikut:
Angsuran = AN1: Bermasalah {Bermasalah=138, Lancar=73}
Angsuran = AN2
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
17
| Lama Tinggal = LT1
| | Usia = US1: Bermasalah {Bermasalah=43, Lancar=0}
| | Usia = US2
| | | Kepemilikan Rumah = KR1: Bermasalah {Bermasalah=91, Lancar=2}
| | | Kepemilikan Rumah = KR2
| | | | Status Pernikahan = SP1: Lancar {Bermasalah=1, Lancar=1}
| | | | Status Pernikahan = SP2: Bermasalah {Bermasalah=28, Lancar=3}
| | | | Status Pernikahan = SP3: Bermasalah {Bermasalah=5, Lancar=0}
| | | Kepemilikan Rumah = KR3: Bermasalah {Bermasalah=7, Lancar=1}
| | Usia = US3: Bermasalah {Bermasalah=3, Lancar=0}
| Lama Tinggal = LT2
| | Jangka Waktu = JW1: Bermasalah {Bermasalah=5, Lancar=0}
| | Jangka Waktu = JW2: Bermasalah {Bermasalah=15, Lancar=0}
| | Jangka Waktu = JW3
| | | Status Pernikahan = SP1: Bermasalah {Bermasalah=11, Lancar=4}
| | | Status Pernikahan = SP2
| | | | Jenis Kelamin = JK1
| | | | | pekerjaan = P1: Bermasalah {Bermasalah=3, Lancar=0}
| | | | | pekerjaan = P11: Bermasalah {Bermasalah=2, Lancar=0}
| | | | | pekerjaan = P14: Bermasalah {Bermasalah=16, Lancar=3}
| | | | | pekerjaan = P6
| | | | | | Kepemilikan Rumah = KR1: Bermasalah {Bermasalah=2, Lancar=1}
| | | | | | Kepemilikan Rumah = KR2: Lancar {Bermasalah=2, Lancar=2}
| | | | Jenis Kelamin = JK2: Bermasalah {Bermasalah=13, Lancar=0}
| | | Status Pernikahan = SP3: Bermasalah {Bermasalah=9, Lancar=0}
| Lama Tinggal = LT3: Bermasalah {Bermasalah=8, Lancar=0}
Angsuran = AN3: Bermasalah {Bermasalah=37, Lancar=1}
Gambar 4. Nilai Akurasi dan Confusion Matrix
Kemudian dilakukan evaluasi menggunakan confusion matrix yang terlihat pada gambar 4,
sehingga didapatkan nilai akurasi dari pohon keputusan yang dihasilkan tahapan modeling. Dari
confusion matrix tersebut didapatkan nilai-nilai sebagai berikut: a) True Positive (TP) merupakan
data yang sebenarnya lancar didataset yang teridentifikasi secara benar yang berjumlah 23 tupel; b)
False Positive (FP) merupakan data yang sebenarnya bermasalah tetapi dikenali sebagai kredit
lancar sebanyak 27 tupel; c) True Negative (TN) merupakan data yang sebenarnya bermasalah dan
teridentifikasi secara benar sebagai kredit bermasalah sebanyak 412 tupel; dan d) False Negative
(FN) merupakan data yang sebenarnya lancar tetapi dikenali sebagai kredit bermasalah, sebanyak
68 tupel.
Kemudian dari data diatas dapat dilakukan perhitungan untuk mencari nilai accuracy,
precision, dan recall dengan menggunakan rumus pada persamaan (3), (4), dan (5), sehingga akan
menghasilkan nilai-nilai seperti pada tabel 2 dibawah ini.
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
18
Tabel 2. Nilai Precision, Accuracy dan Recall untuk Algoritma C4.5
Nilai (%)
Precision 93,85 %
Accuracy 82,08 %
Recall 25,56 %
Dari hasil perhitungan pada tabel 2 diperoleh nilai akurasi sebesar 82,08%, kemudian
diikuti nilai precision sebesar 93,85% dan recall 25,56%. Secara teori, prediktor yang baik
memberikan nilai sensitivitas dan nilai spesifisitas sebesar 100%, namun nilai precision yang
dicapai dapat dikatakan mendekati predikat predictor yang baik.
Kurva ROC pada Gambar 5 menunjukkan grafik ROC dengan nilai AUC (Area Under
Curve) dengan angka 0,750. Akurasi AUC disebut sempurna jika nilai AUC mencapai 1,000 dan
akurasinya dinyatakan buruk jika nilai AUC dibawah 0,500. Jika kurva ROC semakin mendekati
garis Y (0,1) maka semakin bagus model tersebut dalam membedakan nasabah lancar dan
bermasalah. Berdasarkan gambar 5, di ketahui bahwa kurva memiliki bentuk yang cukup condong
kearah garis Y maka model yang dihasilkan cukup akurat.
Gambar 5. Kurva ROC
Pada pengujian ini nilai area dibawah kurva yang dihasilkan yaitu sebesar 0,750 dan nilai
akurasi sebesar 82,08%, maka dapat dikatakan bahwa hasil pengujian penentuan pemberian kredit
berdasarkan prinsip 6C dengan algoritma C4.5 termasuk kedalam klasifikasi cukup baik.
Selanjutnya pada fase deployment dirancang suatu aplikasi sebagai sistem pendukung
keputusan pihak perusahaan pembiayaan dalam memutuskan pemberian kredit pada nasabah.
Aplikasi ini menerapkan pola klasifikasi yang dihasilkan oleh algoritma C4.5 pada fase modeling.
Tampilan aplikasi dalam proses pencocokan pola seperti pada gambar 6.
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
19
Gambar 6. Tampilan Form Input Data Nasabah dan Form Hasil Pencocokan Pola Klasifikasi
Form laporan digunakan untuk melihat hasil penyeleksian calon nasabah yang telah
didapatkan dari hasil pencocokan pola menggunakan aplikasi seperti pada gambar 7.
Gambar 7. Laporan Hasil Klasifikasi
4. Kesimpulan
Setelah melakukan penelitian klasifikasi data nasabah kredit yang menerapkan prinsip
kredit 6C dengan algoritma C4.5 dapat diambil beberapa kesimpulan: 1) diperoleh pola klasifikasi
kualitas kredit nasabah dalam penentuan pemberian kredit yang berdasarkan pada prinsip 6C yang
terdiri dari Character, Capacity, Collateral, Capital, Condition of Economy, dan Constraint dengan
subkriteria diambil dari data nasabah yang dimiliki perusahaan pembiayaan; 2) didapat aplikasi
yang dapat membantu pihak perusahaan pembiayaan dalam menentukan pemberian kredit kepada
nasabah dengan melakukan pencocokan pola klasifikasi kualitas kredit sehingga proses perhitungan
dan pelaporannya lebih cepat; 3) nilai akurasi dari hasil klasifikasi penentuan pemberian kredit
berdasarkan prinsip kredit 6C yaitu sebesar 82,08% dapat dianggap sebagai klasifikasi yang baik.
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
20
5. Saran
Untuk meningkatkan tingkat akurasi, sebaiknya menggunakan data yang lebih besar dan
jumlah atribut yang lebih banyak, selain itu dapat menggunakan metode optimasi seperti AdaBoost,
Genetic Algorithm (GA), dan lain sebagainya
6. Ucapan Terima Kasih
Penulis mengucapkan terima kasih kepada KEMENRISTEKDIKTI yang telah memberi
dukungan finansial terhadap penelitian ini.
7. Daftar Pustaka
[1] A. B. Putro, EVALUASI KEPATUHAN PERPAJAKAN DAN UPAYA TAX PLANNING
UNTUK MEMINIMALISASI PAJAK PENGHASILAN PADA PERUSAHAAN JASA
ANGKUTAN PT XYZ, vol. 1, no. 3. 2012.
[2] F. Nuraeni, R. D. Saputra, and N. S. Uryani, “Algoritma C4. 5 Untuk Klasifikasi Pola
Pembayaran Kredit Motor Pada Perusahaan Pembiayaan (Leasing),” in Seminar Nasional
Informatika, 2013, pp. 245–250.
[3] M. Ma’roep and R. H. Hertanto, “ANALISIS PROSEDUR DAN KEBIJAKAN KREDIT
UNTUK MEMPERKECIL RESIKO KERUGIAN PIUTANG TAK TERTAGIH (Studi
Kasus Pada FIF GROUP Cabang Kota Malang),” J. Akunt. Indones., vol. 12, no. 1, 2018.
[4] H. Leidiana, “Penerapan algoritma k-nearest neighbor untuk penentuan resiko kredit
kepemilikan kendaraan bemotor,” PIKSEL (Penelitian Ilmu Komput. Sist. Embed. dan
Logic), vol. 1, no. 1, pp. 65–76, 2013.
[5] S. A. Aradea, Z. Ariyan, and A. Yuliana, “Penerapan Decision Tree untuk penentuan pola
data Penerimaan Mahasiswa Baru,” J. Penelit. Sitrotika, vol. 7, no. 1, 2011.
[6] A. Essra, “Analisis Information Gain Attribute Evaluation untuk Klasifikasi Serangan
Intrusi,” J. Inf. Syst. Dev., vol. 1, no. 2, 2016.
[7] Y. Elmande and P. P. Widodo, “Pemilihan Criteria Splitting dalam Algoritma Iterative
Dichotomiser 3 (ID3) untuk Penentuan Kualitas Beras: Studi Kasus Pada Perum Bulog
Divre Lampung,” J. Telemat. Mkom, vol. 4, no. 1, 2012.
[8] P. P. Widodo, R. T. Handayanto, and Herlawati, Penerapan Data Mining Dengan Matlab.
Bandung: Rekayasa Sains, 2013.
[9] A. N. Kholifah and N. Insani, “ANALISIS KLASIFIKASI PADA NASABAH KREDIT
KOPERASI X MENGGUNAKAN DECISION TREE C4. 5 DAN NAIVE BAYES,” J.
Pendidik. Mat. dan Sains, vol. 5, no. 6, pp. 1–8, 2016.
[10] N. Iriadi and N. Nuraeni, “Kajian Penerapan Metode Klasifikasi Data Mining Algoritma
C4.5 untuk Prediksi Kelayakan Kredit Pada Bank Mayapada Jakarta,” J. Tek. Komput.
AMIK BSI, vol. II, no. 1, pp. 132–137, 2016.
[11] H. C. Koh and G. Tan, “Data mining applications in healthcare,” J. Healthc. Inf. Manag.,
vol. 19, no. 2, p. 65, 2011.
[12] E. B. Sambani and F. Nuraeni, “Penerapan Algoritma C4 . 5 Untuk Klasifikasi Pola
Penjurusan di Sekolah Menengah Kejuruan ( SMK ) Kota Tasikmalaya,” CSRID J., vol. 9,
no. 3, pp. 149–157, 2017.
[13] A. Novandya and I. Oktria, “Penerapan Algoritma Klasifikasi Data Mining C4. 5 pada
Dataset Cuaca Wilayah Bekasi,” Format, vol. 6, no. 2, pp. 98–106, 2017.
[14] Pandi Afandi, “Analisis Implementasi 5C Bank BPR dalam Menentukan Kelayakan
Pemberian Kredit pada Nasabah,” J. Among Makarti, vol. 3, no. 5, pp. 55–69, 2010.
[15] R. A. Saraswati, “PERANAN ANALISIS LAPORAN KEUANGAN,PENILAIAN
PRINSIP 5C CALON DEBITUR DAN PENGAWASAN KREDIT TERHADAP
EFEKTIVITAS PEMBERIAN KREDIT PADA PD BPR BANK PASAR KABUPATEN
TEMANGGUNG,” Nominal, vol. I, no. 5, 2012.
[16] H. Sri Astuti, “Prinsip 6C (Character, Capacity, Capital, Condition of Economy, Collateral
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X
21
Dan Constraint) Dalam Wirausaha Mahasiswa,” Pros. Semin. Nas. Prof. Pendidik dalam
Din. Kurikulum Pendidik. di Indones. pada Era MEA, pp. 824–839, 2015.
[17] A. Mardhiyah and A. Harjoko, “Metode Segmentasi Paru-paru dan Jantung Pada Citra X-
Ray Thorax,” IJEIS (Indonesian J. Electron. Instrum. Syst., vol. 1, no. 2, pp. 35–44, 2011.
[18] Kusrini, Konsep dan Aplikasi Sistem Pendukung Keputusan. Yogyakarta, 2007.
[19] E. Prasetyo, Data Mining : Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta:
ANDI, 2012.