12
SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X 10 Impementasi Algoritma C 4.5 dan Prinsip 6C untuk Klasifikasi Kualitas Kredit pada Perusahaan Pembiayaan Fitri Nuraeni 1 , Shinta Siti Sundari 2 , Widya Octaviani 3 1,2,3 Jurusan Teknik Informatika, STMIK Tasikmalaya, Tasikmalaya e-mail: 1 [email protected] , 2 [email protected], 3 [email protected] Abstrak Perusahaan pembiayaan memberikan layanan kredit kepada masyarakat, dimana pada prosesnya selalu ada resiko yang harus dihadapi yaitu pengembalian sebagian dari pinjaman yang diberikan kepada para nasabah yang terlambat atau bahkan terhambat sehingga menjadi kredit macet. Untuk mengatasi masalah tersebut, maka dilakukan penggalian informasi dari sekumpulan data nasabah yang banyak sehingga didapat pola karakteristik nasabah sesuai prinsip 6C (character, capital, capasity, condition of economy, collateral, dan constrait). Untuk mengenali pola karakteristik tersebut digunakan teknik penggalian data sesuai CRIPS-DM yaitu algoritma klasifikasi C4.5. Hasil yang diperoleh adalah pola klasifikasi penentuan pemberian kredit yang berdasarkan prinsip 6C menggunakan algoritma C4.5 dengan nilai akurasi sebesar 82,08%. Pola karakteristik nasabah tersebut kemudian diimplementasikan dalam sebuah sistem informasi yang dapat membantu pihak perusahaan sebagai pendukung penentuan pemberian kredit pada nasabah. Diharapkan setelah adanya sistem tersebut pihak perusahaan pembiayaan dapat dengan mudah mengelompokan nasabah yang layak dan yang tidak layak diberikan kredit sehingga dapat mengurangi resiko munculnya kredit macet. Kata kunciC4.5, klasifikasi, kredit, pola, prinsip 6C 1. Pendahuluan Perusahaan pembiayaan (leasing) menyediakan barang modal yang dapat digunakan selama jangka waktu tertentu menggunakan sistem pembayaran secara berkala yang disertai hak pilih, apakah barang modal akan dibeli atau jangka waktu yang dipernjangkan berdasarkan nilai sisa yang telah disepakati [1]. Dari sekian banyak usaha yang ditawarkan oleh perusahaan pembiayaan, yang paling banyak diminati masyarakat adalah pemberian kredit terutama pembiayaan untuk kredit motor. Setiap perusahaan pembiayaan selalu memperhatikan resiko yang mungkin terjadi dalam pemberian kredit, karena sering kali terjadi gagalnya pengembalian sebagian pinjaman yang diberikan kepada para nasabah yang berujung pada kredit macet. Salah satu cara yang bisa dilakukan oleh perusahaan pembiayaan dalam pencegahan munculnya kredit bermasalah adalah mengetahui kualitas kredit dengan mengenali pola dari karakteristik dan perilaku nasabah dengan memperhatikan data historis pinjaman [2]. Untuk penentuan persetujuan kredit, perusahaan pembiayaan biasanya menggunakan prinsip 6C sebagai aspek penilaian atau kriteria yang harus dipenuhi nasabah yaitu Character, Capital, Capacity, Condition of Economy, Collateral, dan Constraint [3]. Masing-masing kriteria memiliki subkriteria yang diambil dari data nasabah seperti status pernikahan, jumlah tanggungan, pekerjaan, penghasilan per bulan, lama kerja (tahun), pendidikan terakhir, usia, kepemilikan rumah, lama tinggal (tahun), uang muka, jumlah pinjaman, jumlah angsuran, jangka waktu, jenis kelamin, jaminan, status kredit, pengalaman kredit, keberadaan tempat tinggal, jarak tempat tinggal ke perusahaan, dan jenis motor. Namun melihat gambar 1, dengan bertambahnya jumlah nasabah dari tahun ke tahun dan meningkatnya angka pembayaran yang terlambat setiap bulannya, membuat pihak perusahaan harus menentukan dengan cepat dan tepat dalam memilih nasabah yang layak untuk melakukan pengajuan kredit. Masalah ini menjadi suatu kekhawatiran tersendiri bagi pihak perusahaan dalam pengambilan keputusan yang memungkinkan terjadinya keputusan yang kurang tepat sehingga memunculkan kredit bermasalah.

Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

10

Impementasi Algoritma C 4.5 dan Prinsip 6C untuk Klasifikasi Kualitas Kredit pada

Perusahaan Pembiayaan

Fitri Nuraeni1, Shinta Siti Sundari2, Widya Octaviani3

1,2,3Jurusan Teknik Informatika, STMIK Tasikmalaya, Tasikmalaya

e-mail: [email protected] , [email protected], [email protected]

Abstrak

Perusahaan pembiayaan memberikan layanan kredit kepada masyarakat, dimana pada prosesnya

selalu ada resiko yang harus dihadapi yaitu pengembalian sebagian dari pinjaman yang diberikan

kepada para nasabah yang terlambat atau bahkan terhambat sehingga menjadi kredit macet. Untuk

mengatasi masalah tersebut, maka dilakukan penggalian informasi dari sekumpulan data nasabah

yang banyak sehingga didapat pola karakteristik nasabah sesuai prinsip 6C (character, capital,

capasity, condition of economy, collateral, dan constrait). Untuk mengenali pola karakteristik

tersebut digunakan teknik penggalian data sesuai CRIPS-DM yaitu algoritma klasifikasi C4.5. Hasil

yang diperoleh adalah pola klasifikasi penentuan pemberian kredit yang berdasarkan prinsip 6C

menggunakan algoritma C4.5 dengan nilai akurasi sebesar 82,08%. Pola karakteristik nasabah

tersebut kemudian diimplementasikan dalam sebuah sistem informasi yang dapat membantu pihak

perusahaan sebagai pendukung penentuan pemberian kredit pada nasabah. Diharapkan setelah

adanya sistem tersebut pihak perusahaan pembiayaan dapat dengan mudah mengelompokan nasabah

yang layak dan yang tidak layak diberikan kredit sehingga dapat mengurangi resiko munculnya kredit

macet.

Kata kunci—C4.5, klasifikasi, kredit, pola, prinsip 6C

1. Pendahuluan

Perusahaan pembiayaan (leasing) menyediakan barang modal yang dapat digunakan

selama jangka waktu tertentu menggunakan sistem pembayaran secara berkala yang disertai hak

pilih, apakah barang modal akan dibeli atau jangka waktu yang dipernjangkan berdasarkan nilai

sisa yang telah disepakati [1]. Dari sekian banyak usaha yang ditawarkan oleh perusahaan

pembiayaan, yang paling banyak diminati masyarakat adalah pemberian kredit terutama

pembiayaan untuk kredit motor. Setiap perusahaan pembiayaan selalu memperhatikan resiko yang

mungkin terjadi dalam pemberian kredit, karena sering kali terjadi gagalnya pengembalian

sebagian pinjaman yang diberikan kepada para nasabah yang berujung pada kredit macet. Salah

satu cara yang bisa dilakukan oleh perusahaan pembiayaan dalam pencegahan munculnya kredit

bermasalah adalah mengetahui kualitas kredit dengan mengenali pola dari karakteristik dan

perilaku nasabah dengan memperhatikan data historis pinjaman [2].

Untuk penentuan persetujuan kredit, perusahaan pembiayaan biasanya menggunakan

prinsip 6C sebagai aspek penilaian atau kriteria yang harus dipenuhi nasabah yaitu Character,

Capital, Capacity, Condition of Economy, Collateral, dan Constraint [3]. Masing-masing kriteria

memiliki subkriteria yang diambil dari data nasabah seperti status pernikahan, jumlah tanggungan,

pekerjaan, penghasilan per bulan, lama kerja (tahun), pendidikan terakhir, usia, kepemilikan rumah,

lama tinggal (tahun), uang muka, jumlah pinjaman, jumlah angsuran, jangka waktu, jenis kelamin,

jaminan, status kredit, pengalaman kredit, keberadaan tempat tinggal, jarak tempat tinggal ke

perusahaan, dan jenis motor.

Namun melihat gambar 1, dengan bertambahnya jumlah nasabah dari tahun ke tahun dan

meningkatnya angka pembayaran yang terlambat setiap bulannya, membuat pihak perusahaan

harus menentukan dengan cepat dan tepat dalam memilih nasabah yang layak untuk melakukan

pengajuan kredit. Masalah ini menjadi suatu kekhawatiran tersendiri bagi pihak perusahaan dalam

pengambilan keputusan yang memungkinkan terjadinya keputusan yang kurang tepat sehingga

memunculkan kredit bermasalah.

Page 2: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

11

Gambar 1 Grafik kredit lancar dan bermasalah (sumber: Perusahaan Pembiayaan Kota Tasikmalaya)

Melihat peningkatan tersebut, maka diperlukan suatu analisis data dalam jumlah besar yang

dapat membantu memberikan solusi dengan mengenali karakter nasabah yang lancar dan

bermasalah [4] dari data-data yang sudah ada. Pada proses analisis data ini dapat digunakan teknik

data mining yang merupakan sekumpulan proses berurutan bertujuan untuk menggali nilai lebih

dari suatu kumpulan data dalam jumlah besar yang dapat dianggap pengetahuan yang tidak pernah

diketahui secara manual [5]. Salah satu tugas yang dapat dilakukan dalam data mining yaitu teknik

klasifikasi yang merupakan kegiatan pelatihan terhadap fungsi target yang memetakan

(memprediksi) setiap vektor kedalam satu dari sejumlah label kelas yang tersedia [6]. Diantara

algoritma-algoritma yang digunakan pada proses klasifikasi, model pohon keputusan merupakan

bentuk yang paling disukai karena mudah diinterpretasikan [7], seperti algoritma C4.5 yang dapat

menangani atribut diskrit dan kontinyu, dapat menangani pelatihan data dengan missing value, dan

memangkas pohon keputusan C4.5 setelah selesai dibentuk [8] sehingga lebih simple, serta

menghasilkan tingkat akurasi yang baik. Terlihat pada klasifikasi nasabah kredit berdasarkan nilai

kolektibilitasnya, dan akurasi yang dihasilkan dari model decision tree C4.5 yaitu 71,91% dan

naïve bayes yaitu sebesar 67,01% [9]. Begitu pula pada pengklasifikasian kelayakkan kredit bank

menggunakan prinsip 5C dan algoritma C4.5, didapat hasil akurasi yaitu 83,67% [10].

Dari hasil penjelasan diatas, untuk menerapkan metode klasifikasi data mining dalam

menganalisis penentuan pemberian kredit digunakanlah algoritma C4.5 karena telah terbukti bahwa

pada penelitian-penelitian yang pernah dilakukan memiliki nilai akurasi dengan tingkatan yang

baik. Dengan menerapkan prinsip kredit 6C dan algoritma C4.5 didapatkan pola karakteristik

kualitas kredit nasabah yaitu nasabah layak dan tidak layak untuk diberikan kredit. Pola tersebut

dapat membantu pihak perusahaan untuk mendapatkan keputusan yang sesuai, juga meminimalisir

permasalahan-permasalahan yang ada setelah pemberian kredit.

2. Metode Penelitian

Dalam penelitian eksperimen ini digunakan model proses CRISP-DM (Cross Industry

Standard Process for Data Mining) yang memiliki tahapan-tahapan seperti pada gambar 2, yaitu

business understanding, data understanding, data preparation, modelling, evaluation, dan

deployment phase [11].

0

1000

2000

3000

4000

5000

2013 2014 2015 2016

Grafik Kredit Lancar dan Bermasalah

Lancar

Bermasalah

Page 3: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

12

Gambar 2 Tahapan-tahapan data mining menurut CRISP-DM [12]

2.1 Fase Pemahaman Bisnis

Fase pemahaman bisnis merupakan tahap awal yaitu proses memahami proses penelitian

yang akan dilakukan berserta tujuan, kebutuhan dan rumusan masalah data mining [13].

Pemahaman bisnis mengacu pada proses penentuan pemberian kredit yang dilakukan setiap

perusahan pembiayaan yaitu dengan menggunakan analisa kredit prinsip 6C, yang terfokus pada

hasil survey sehingga dikhawatirkan adanya kesalahan atau keputusan yang kurang tepat dan

mengakibatkan munculnya kredit macet. Oleh karena itu, diperlukan pola untuk penentuan

pemberian kredit berdasarkan data histori sebelumnya untuk membantu pihak analisa kredit dalam

menentukan kualitas pemberian kredit berdasarkan kriteria yang termasuk ke dalam prinsip kredit

6C. Algoritma yang digunakan yaitu algoritma C4.5 yang bertujuan untuk mengklasifikasikan data

nasabah dengan akurat.

2.2. Fase Pemahaman Data (Data Understanding Phase)

Dalam fase ini dilakukan pengumpulan data, mengidentifikasi lebih lanjut data yang akan

digunakan dan mengevaluasi kualitas data. Pemahaman data mengacu pada sampel data nasabah

sebanyak 1617 record dari tahun 2013-2016. Dan atribut yang akan digunakan termasuk kedalam

prinsip kredit 6C yaitu: a) Character merupakan sifat nasabah yang terkait pada kemauan dirinya

untuk membayar angsuran kredit nantinya [14], dari data yang dikumpulkan sub kriterianya yaitu

status pernikahan, jenis kelamin; b) Capital merupakan analisis modal yang bertujuan melihat

kemampuan yang dimiliki nasabah memikul beban pembiayaan dan beban resiko yang mungkin

dialami [15], subkriteria yang diambil adalah uang muka; c) Capacity melihat kemampuan nasabah

dalam membayar angsuran dan kebutuhan lainnya [14], yaitu pekerjaan nasabah, lama bekerja,

penghasilan; d) Collateral yaitu jaminan berupa BPKB; e) Condition of Economy, berupa jumlah

tanggungan kepemilikan rumah, lama tinggal, jumlah angsuran, jumlah pinjaman; dan f) Constraint

merupakan hambatan yang mungkin muncul sehingga menyebabkan bisnis tidak berjalan lancar

[16], berupa usia, jangka waktu.

2.3. Fase Pengolahan Data (Data Preparation Phase)

Tahap ini merupakan pekerjaan yang harus intensif dilaksanakan. Memilih variable dan

kasus yang ingin dianalisis, melakukan perubahan variable-variable jika dibutuhkan sehingga data

siap untuk perangkat pemodelan. Pada tahap ini pembuatan data set berdasarkan data yang telah

dikumpulkan dengan menentukan field-field apa saja yang akan digunakan. Tahapan ini terdiri

dari:

Page 4: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

13

a) data selection, yaitu memilih data yang akan digunakan dan juga dilakukan pemilihan atribut-

atribut yang disesuaikan dengan proses data mining. Pada tahap ini jumlah data awal sebanyak

1617 data nasabah dan jumlah atribut semula yaitu 20 atribut, kemudian dilakukan proses

seleksi sehingga atribut yang akan digunakan yaitu 16 atribut diantaranya yaitu jangka waktu,

jumlah angsuran, jumlah pinjaman, usia, jenis kelamin, status pernikahan, lama tinggal,

kepemilikan rumah, pekerjaan, penghasilan, lama kerja, tanggungan, uang muka, jaminan, jarak

rumah, dan status kredit.

b) data preprocessing, yaitu proses untuk mengecek kualitas data yang telah dipilih pada tahap

data selection. Masalah yang harus dihadapi pada tahap ini adalah missing values dan noisy

data. Adapun teknik data preprocessing yaitu:

a. data cleaning, bertujuan untuk membersihkan nilai yang kosong atau tupel yang kosong

(missing value atau noisy) dan mengidentifikasi atau membuang data outlier. Dalam proses

cleaning ini dilakukan deteksi outlier dengan menggunakan metode Distances-based, dan

distance function yang digunakan yaitu Euclidean distance yang merupakan perhitungan

jarak antara dua keadaan[17]. Dalam tahap ini setelah dilakukan deteksi outlier, data nasabah

yang semula berjumlah 1617 record menjadi 530 record;

b. data integration, berfungsi untuk menyatukan tempat penyimpanan yang berbeda kedalam

satu data, ada dua arsip yang diambil yaitu dari data penjualan dan data nasabah.

c. data reduction, jumlah atribut dalam data training terlalu besar maka untuk mengurangi

jumlah atribut yang tidak digunakan akan dihapus. Sehingga atribut yang akan digunakan

sebanyak 16 atribut. Dimana 15 atribut sebagai atribut predictor dan 1 atribut sebagai label-

nya. Detail dari atribut-atribut ini dapat dilihat pada tabel 1.

Tabel 1. Kategori Atribut Atribut Nilai Angka Kategori Atribut Nilai Angka Kategori

Jangka Waktu <=1thn JW1 Pekerjaan Buruh P1

2thn JW2 Dokter P2

>2thn JW3 Dosen P3

Angsuran 250.000-

500.000 AN1 Guru P4

500.500-

750.000 AN2 Honorer P5

>750.000 AN3 Pegawai

Swasta P6

Pinjaman <10jt PN1 Pengacara P7

10-30jt PN2 Pensiunan P8

>30jt PN3 Petani P9

Usia 19-30 US1 Peternak P10

31-60 US2 PNS P11

>60 US3 Supir P12

Jenis Kelamin L JK1 TNI/POLRI P13

P JK2 Wiraswasta P14

Status Pernikahan Belum Menikah SP1 Penghasilan <1jt PH1

Menikah SP2 1-10jt PH2

Cerai SP3 >10jt PH3

Lama Tinggal (thn) 0-20 LT1 Lama Kerja (thn) 0-15 LK1

21-40 LT2 16-30 LK2

41-60 LT3 31-50 LK3

Kepemilikan

Rumah Milik Sendiri KR1 Jaminan BPKB BPKB

Milik Keluarga KR2 Tanggungan Tidak Ada JT1

Sewa Rumah KR3 Ada JT2

Page 5: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

14

Atribut Nilai Angka Kategori Atribut Nilai Angka Kategori

Uang Muka <5jt DP1

5-10jt DP2

>10jt DP3

Jarak Rumah

(km) 0-30 JR1

31-60 JR2

>60 JR3

d. data transformation, yaitu mengelompokkan atribut-atribut atau field yang telah terpilih

menjadi 1 tabel, agar proses data mining lebih efisien dan pola yang dihasilkan lebih mudah

dipahami.

2.4. Fase Pemodelan Data (Modeling Phase)

Pada tahapan ini algoritma yang digunakan yaitu algoritma C4.5. Dalam algoritma C4.5

dilakukan perhitungan information gain tiap-tiap atribut untuk menentukan node yang berada di

atas pada pohon keputusan. Setelah itu dilakukan berulang hingga semua atribut diketahui semua

letak pada pohon keputusan.

Adapun langkah-langkah yang harus dilakukan untuk mencari nilai entropy dan

information gain masing-masing atribut yaitu[18]:

a) menyiapkan data training yang biasanya diambil dari data nasabah yang telah dikumpulkan

sebelumnya dan sudah masukan kedalam kelompok kelas-kelas tertentu;

b) menentukan akar dari pohon yaitu atribut yang tepilih proses penghitungan nilai gain dari

masing-masing atribut, dan dipilih akar pertama yaitu atribut dengan nilai gain yang paling

besar. Pertama hitung terlebih dahulu nilai entropy, dilanjutkan menghitung nilai gain dari

atribut. Proses menghitung nilai entropy menggunakan rumus:

𝑒𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ −𝑝𝑖 ∗ log2 𝑝𝑖𝑛𝑖=1 (1)

Keterangan:

S = himpunan kasus

n = jumlah partisi S

pi = proporsi Si terhadap S

Kemudian nilai gain dihitung menggunakan rumus:

𝑔𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑|𝑆𝑖|

|𝑆|𝑛𝑖=1 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) (2)

Keterangan:

S = himpunan kasus

A = fitur

n = jumlah partisi atribut A

|S|= proporsi Si terhadap S

|S|= jumlah kasus dalam S

c) Ulangi langkah ke-2 hingga semua record terpartisi.

d) Proses partisi pohon keputusan dihentikan saat: i) seluruh record dalam simpul N menerima

kelas yang sama; ii) tidak ada lagi atribut di dalam record dipartisi lagi; iii) tidak ada record di

dalam cabang yang ternyata kosong.

2.5. Fase Evaluasi (Evaluation Phase)

Page 6: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

15

Proses evaluasi pada satu atau lebih model yang digunakan kemudian ditetapkan apakah

terdapat model yang memenuhi tujuan pada tahap awal. Pengujian model dengan tujuan untuk

mengukur tingkat akurasi digambarkan menggunakan confusion matrix dan kurva ROC.

Didalam confusion matrix, nilai-nilai yang akan dihitung adalah nilai precision, recall, dan

accuracy. Sensitivitas atau disebut true positive rate atau recall digunakan untuk mengukur

proporsi lancar yang diidentifikasi secara tepat, yaitu jumlah data yang true positive dibagi dengan

jumlah data yang sebenarnya positif (true positive + false negative) sedangkan spesifisitas

digunakan untuk mengukur proporsi bermasalah yang di identifkasi dengan tepat yaitu jumlah data

true negative dibagi dengan jumlah data yang sebenarnya negatif (true negative + false positive)

[19].

Dan nilai akurasi merupakan hasil perhitungan dari jumlah kasus yang diprediksi dan benar

lancar (true positive) dan diprediksi bermasalah (true negative) dibagi dengan seluruh jumlah kasus

yang ada. Persamaan yang dapat digunakan untuk menghitung nilai precision, recall, dan accuracy

yaitu:

Akurasi = (TP+TN)/(TP+TN+FP+FN) (3)

Precision = TP/(TP+FP) (4)

Recall = TP/(TP+FN) (5)

Kurva ROC ini adalah suatu teknik untuk menggambarkan, mengatur dan memilih

pengklasifikasi, berdasarkan kinerja mereka. Kurva ROC terdiri atas sumbu horizontal yang

memuat nilai false positive rate dan true positive rate dinyatakan dengan sumbu vertikal. Kurva

ROC menunjukkan trade-off antara true positive dan false positive dalam suatu model untuk

mengukur area dibawah kurva ROC atau AUC. Akurasi AUC dikatakan sempurna apabila nilai

AUC mencapai 1000 dan akurasinya buruk jika nilai AUC dibawah 0,500.

Dalam klasifikasi data mining nilai area dibawah kurva dapat dibagi menjadi beberapa

kelompok diantaranya: a) 0.90-1.00 = Klasifikasi Sangat baik; b 0.80-0.90 = Klasifikasi Baik; c)

0.70-0.80 = Klasifikai Cukup Baik; d) 0.60-0.70 = Klasifikasi Buruk; dan e) 0.50-0.60 =

Klasifikasi Salah [10].

2.6. Fase Penyebaran (Deployment Phase)

Tahapan ini adalah proses menggunakan model hasil pengalian data seperti laporan atau

penerapan proses data mining secara parallel pada departemen lain. Pola yang dihasilkan pada

proses data mining dipresentasikan dalam bentuk gambar atau deskripsi yang mudah dipahami.

3. Hasil dan Pembahasan

Tahap modeling ini dibentuk suatu pohon keputusan dengan menggunakan data training.

Pada tahap modeling ini data training di klasifikasikan dengan model untuk menghasilkan sejumlah

aturan. Algoritma yang digunakan dalam tahap ini yaitu algoritma C4.5. Dalam algoritma C4.5

dilakukan perhitungan entropy dan information gain tiap-tiap atribut untuk menentukan node yang

paling atas. Adapun langkah-langkah dalam perhitungan tersebut yaitu menghitung jumlah records

untuk hasil lancar dan bermasalah. Kemudian menghitung entropy total untuk hasil lancar dan

bermasalah menggunakan rumus nilai entropy seperti pada persamaan (1), yaitu :

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 [𝑡𝑜𝑡𝑎𝑙] = − ((439

530) ∗ log2 (

439

530)) + ((

91

530) ∗ log2 (

91

530)) = 0.22510878 + 0.43646586

= 0.66157464

Setelah itu menghitung nilai gain untuk masing-masing atribut dengan menggunakan

rumus dari persamaan (2). Namun sebelum itu, mencari nilai entropy terlebih dahulu untuk tiap

kategori pada masing-masing atribut, seperti pada contoh nilai entropy untuk jumlah pinjaman

yaitu: a) Entropy [PN1] = 0.205592508; b) Entropy [PN2] = 0.684038436; dan c) Entropy [PN3]

Page 7: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

16

= 0.Setelah diperoleh hasil entropy, kemudian menghitung nilai information gain untuk setiap

atribut, seperti pada persamaan (2), yaitu Gain (Total, Jumlah Pinjaman) = 0.103920466.

Perhitungan tersebut diulangi lagi pada setiap atribut sampai semua atribut diketahui nilai

entropy dan information gainnya. Penentuan atribut sebagai akar dengan memilih atribut yang

memiliki nilai gain terbesar dari atribut-atribut yang ada. Pencarian node terus dilakukan sampai

pada keadaan seluruh tupel terpartisi. Model yang terbentuk dari hasil pengenalan pola dengan

menggunakan tool rapidminer yaitu berupa pohon keputusan yang dapat dilihat pada gambar 3.

Gambar 3. Pohon Keputusan Menggunakan Algoritma C4.5

Hasil perhitungan dengan menggunakan algoritma C4.5 dalam klasifikasi kualitas kredit

berdasarkan pada prinsip 6C berupa pohon keputusan seperti pada gambar 3. Pada pohon

keputusan tersebut, atribut yang terpilih sebagai node akar adalah jumlah anguran. Setelah

diperoleh node akar, lalu menghitung jumlah kasus untuk keputusan lancar, keputusan bermasalah

dan entropy dari semua kasus yang dibagi berdasarkan atribut jangka waktu, pinjaman, usia, jenis

kelamin, status pernikahan, lama tinggal, kepemilikan rumah, pekerjaan, penghasilan, lama kerja,

tanggungan, uang muka, jaminan, dan jarak rumah. Setelah itu, melakukan perhitungan gain untuk

masing-masing atribut.

Pada atribut angsuran terdapat nilai atribut AN1 dan AN3 yang telah mengklasifikasikan

kasusnya dan hasil keputusannya adalah bermasalah karena nilai gain yang diperoleh pada

perhitungan setiap atribut dibawah minimal gain 0,01, sehingga pada nilai atribut AN1 dan AN3

diputuskan bermasalah. Sedangkan pada nilai atribut AN2, terdapat atribut yang nilai information

gainnya mencapai nilai minimal gain yaitu atribut lama tinggal sebesar 0,01652675. Sehingga

atribut lama tinggal dijadikan sebagai node akar dari atribut angsuran. Kemudian lakukan kembali

proses perhitungan tersebut sampai semua kasus pada cabang mempunyai kelas yang sama seperti

yang ditunjukan pada gambar 3.

Adapun penjelasan pola klasifikasi penentuan pemberian kredit berdasarkan pohon

keputusan dari gambar 3 adalah sebagai berikut:

Angsuran = AN1: Bermasalah {Bermasalah=138, Lancar=73}

Angsuran = AN2

Page 8: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

17

| Lama Tinggal = LT1

| | Usia = US1: Bermasalah {Bermasalah=43, Lancar=0}

| | Usia = US2

| | | Kepemilikan Rumah = KR1: Bermasalah {Bermasalah=91, Lancar=2}

| | | Kepemilikan Rumah = KR2

| | | | Status Pernikahan = SP1: Lancar {Bermasalah=1, Lancar=1}

| | | | Status Pernikahan = SP2: Bermasalah {Bermasalah=28, Lancar=3}

| | | | Status Pernikahan = SP3: Bermasalah {Bermasalah=5, Lancar=0}

| | | Kepemilikan Rumah = KR3: Bermasalah {Bermasalah=7, Lancar=1}

| | Usia = US3: Bermasalah {Bermasalah=3, Lancar=0}

| Lama Tinggal = LT2

| | Jangka Waktu = JW1: Bermasalah {Bermasalah=5, Lancar=0}

| | Jangka Waktu = JW2: Bermasalah {Bermasalah=15, Lancar=0}

| | Jangka Waktu = JW3

| | | Status Pernikahan = SP1: Bermasalah {Bermasalah=11, Lancar=4}

| | | Status Pernikahan = SP2

| | | | Jenis Kelamin = JK1

| | | | | pekerjaan = P1: Bermasalah {Bermasalah=3, Lancar=0}

| | | | | pekerjaan = P11: Bermasalah {Bermasalah=2, Lancar=0}

| | | | | pekerjaan = P14: Bermasalah {Bermasalah=16, Lancar=3}

| | | | | pekerjaan = P6

| | | | | | Kepemilikan Rumah = KR1: Bermasalah {Bermasalah=2, Lancar=1}

| | | | | | Kepemilikan Rumah = KR2: Lancar {Bermasalah=2, Lancar=2}

| | | | Jenis Kelamin = JK2: Bermasalah {Bermasalah=13, Lancar=0}

| | | Status Pernikahan = SP3: Bermasalah {Bermasalah=9, Lancar=0}

| Lama Tinggal = LT3: Bermasalah {Bermasalah=8, Lancar=0}

Angsuran = AN3: Bermasalah {Bermasalah=37, Lancar=1}

Gambar 4. Nilai Akurasi dan Confusion Matrix

Kemudian dilakukan evaluasi menggunakan confusion matrix yang terlihat pada gambar 4,

sehingga didapatkan nilai akurasi dari pohon keputusan yang dihasilkan tahapan modeling. Dari

confusion matrix tersebut didapatkan nilai-nilai sebagai berikut: a) True Positive (TP) merupakan

data yang sebenarnya lancar didataset yang teridentifikasi secara benar yang berjumlah 23 tupel; b)

False Positive (FP) merupakan data yang sebenarnya bermasalah tetapi dikenali sebagai kredit

lancar sebanyak 27 tupel; c) True Negative (TN) merupakan data yang sebenarnya bermasalah dan

teridentifikasi secara benar sebagai kredit bermasalah sebanyak 412 tupel; dan d) False Negative

(FN) merupakan data yang sebenarnya lancar tetapi dikenali sebagai kredit bermasalah, sebanyak

68 tupel.

Kemudian dari data diatas dapat dilakukan perhitungan untuk mencari nilai accuracy,

precision, dan recall dengan menggunakan rumus pada persamaan (3), (4), dan (5), sehingga akan

menghasilkan nilai-nilai seperti pada tabel 2 dibawah ini.

Page 9: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

18

Tabel 2. Nilai Precision, Accuracy dan Recall untuk Algoritma C4.5

Nilai (%)

Precision 93,85 %

Accuracy 82,08 %

Recall 25,56 %

Dari hasil perhitungan pada tabel 2 diperoleh nilai akurasi sebesar 82,08%, kemudian

diikuti nilai precision sebesar 93,85% dan recall 25,56%. Secara teori, prediktor yang baik

memberikan nilai sensitivitas dan nilai spesifisitas sebesar 100%, namun nilai precision yang

dicapai dapat dikatakan mendekati predikat predictor yang baik.

Kurva ROC pada Gambar 5 menunjukkan grafik ROC dengan nilai AUC (Area Under

Curve) dengan angka 0,750. Akurasi AUC disebut sempurna jika nilai AUC mencapai 1,000 dan

akurasinya dinyatakan buruk jika nilai AUC dibawah 0,500. Jika kurva ROC semakin mendekati

garis Y (0,1) maka semakin bagus model tersebut dalam membedakan nasabah lancar dan

bermasalah. Berdasarkan gambar 5, di ketahui bahwa kurva memiliki bentuk yang cukup condong

kearah garis Y maka model yang dihasilkan cukup akurat.

Gambar 5. Kurva ROC

Pada pengujian ini nilai area dibawah kurva yang dihasilkan yaitu sebesar 0,750 dan nilai

akurasi sebesar 82,08%, maka dapat dikatakan bahwa hasil pengujian penentuan pemberian kredit

berdasarkan prinsip 6C dengan algoritma C4.5 termasuk kedalam klasifikasi cukup baik.

Selanjutnya pada fase deployment dirancang suatu aplikasi sebagai sistem pendukung

keputusan pihak perusahaan pembiayaan dalam memutuskan pemberian kredit pada nasabah.

Aplikasi ini menerapkan pola klasifikasi yang dihasilkan oleh algoritma C4.5 pada fase modeling.

Tampilan aplikasi dalam proses pencocokan pola seperti pada gambar 6.

Page 10: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

19

Gambar 6. Tampilan Form Input Data Nasabah dan Form Hasil Pencocokan Pola Klasifikasi

Form laporan digunakan untuk melihat hasil penyeleksian calon nasabah yang telah

didapatkan dari hasil pencocokan pola menggunakan aplikasi seperti pada gambar 7.

Gambar 7. Laporan Hasil Klasifikasi

4. Kesimpulan

Setelah melakukan penelitian klasifikasi data nasabah kredit yang menerapkan prinsip

kredit 6C dengan algoritma C4.5 dapat diambil beberapa kesimpulan: 1) diperoleh pola klasifikasi

kualitas kredit nasabah dalam penentuan pemberian kredit yang berdasarkan pada prinsip 6C yang

terdiri dari Character, Capacity, Collateral, Capital, Condition of Economy, dan Constraint dengan

subkriteria diambil dari data nasabah yang dimiliki perusahaan pembiayaan; 2) didapat aplikasi

yang dapat membantu pihak perusahaan pembiayaan dalam menentukan pemberian kredit kepada

nasabah dengan melakukan pencocokan pola klasifikasi kualitas kredit sehingga proses perhitungan

dan pelaporannya lebih cepat; 3) nilai akurasi dari hasil klasifikasi penentuan pemberian kredit

berdasarkan prinsip kredit 6C yaitu sebesar 82,08% dapat dianggap sebagai klasifikasi yang baik.

Page 11: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

20

5. Saran

Untuk meningkatkan tingkat akurasi, sebaiknya menggunakan data yang lebih besar dan

jumlah atribut yang lebih banyak, selain itu dapat menggunakan metode optimasi seperti AdaBoost,

Genetic Algorithm (GA), dan lain sebagainya

6. Ucapan Terima Kasih

Penulis mengucapkan terima kasih kepada KEMENRISTEKDIKTI yang telah memberi

dukungan finansial terhadap penelitian ini.

7. Daftar Pustaka

[1] A. B. Putro, EVALUASI KEPATUHAN PERPAJAKAN DAN UPAYA TAX PLANNING

UNTUK MEMINIMALISASI PAJAK PENGHASILAN PADA PERUSAHAAN JASA

ANGKUTAN PT XYZ, vol. 1, no. 3. 2012.

[2] F. Nuraeni, R. D. Saputra, and N. S. Uryani, “Algoritma C4. 5 Untuk Klasifikasi Pola

Pembayaran Kredit Motor Pada Perusahaan Pembiayaan (Leasing),” in Seminar Nasional

Informatika, 2013, pp. 245–250.

[3] M. Ma’roep and R. H. Hertanto, “ANALISIS PROSEDUR DAN KEBIJAKAN KREDIT

UNTUK MEMPERKECIL RESIKO KERUGIAN PIUTANG TAK TERTAGIH (Studi

Kasus Pada FIF GROUP Cabang Kota Malang),” J. Akunt. Indones., vol. 12, no. 1, 2018.

[4] H. Leidiana, “Penerapan algoritma k-nearest neighbor untuk penentuan resiko kredit

kepemilikan kendaraan bemotor,” PIKSEL (Penelitian Ilmu Komput. Sist. Embed. dan

Logic), vol. 1, no. 1, pp. 65–76, 2013.

[5] S. A. Aradea, Z. Ariyan, and A. Yuliana, “Penerapan Decision Tree untuk penentuan pola

data Penerimaan Mahasiswa Baru,” J. Penelit. Sitrotika, vol. 7, no. 1, 2011.

[6] A. Essra, “Analisis Information Gain Attribute Evaluation untuk Klasifikasi Serangan

Intrusi,” J. Inf. Syst. Dev., vol. 1, no. 2, 2016.

[7] Y. Elmande and P. P. Widodo, “Pemilihan Criteria Splitting dalam Algoritma Iterative

Dichotomiser 3 (ID3) untuk Penentuan Kualitas Beras: Studi Kasus Pada Perum Bulog

Divre Lampung,” J. Telemat. Mkom, vol. 4, no. 1, 2012.

[8] P. P. Widodo, R. T. Handayanto, and Herlawati, Penerapan Data Mining Dengan Matlab.

Bandung: Rekayasa Sains, 2013.

[9] A. N. Kholifah and N. Insani, “ANALISIS KLASIFIKASI PADA NASABAH KREDIT

KOPERASI X MENGGUNAKAN DECISION TREE C4. 5 DAN NAIVE BAYES,” J.

Pendidik. Mat. dan Sains, vol. 5, no. 6, pp. 1–8, 2016.

[10] N. Iriadi and N. Nuraeni, “Kajian Penerapan Metode Klasifikasi Data Mining Algoritma

C4.5 untuk Prediksi Kelayakan Kredit Pada Bank Mayapada Jakarta,” J. Tek. Komput.

AMIK BSI, vol. II, no. 1, pp. 132–137, 2016.

[11] H. C. Koh and G. Tan, “Data mining applications in healthcare,” J. Healthc. Inf. Manag.,

vol. 19, no. 2, p. 65, 2011.

[12] E. B. Sambani and F. Nuraeni, “Penerapan Algoritma C4 . 5 Untuk Klasifikasi Pola

Penjurusan di Sekolah Menengah Kejuruan ( SMK ) Kota Tasikmalaya,” CSRID J., vol. 9,

no. 3, pp. 149–157, 2017.

[13] A. Novandya and I. Oktria, “Penerapan Algoritma Klasifikasi Data Mining C4. 5 pada

Dataset Cuaca Wilayah Bekasi,” Format, vol. 6, no. 2, pp. 98–106, 2017.

[14] Pandi Afandi, “Analisis Implementasi 5C Bank BPR dalam Menentukan Kelayakan

Pemberian Kredit pada Nasabah,” J. Among Makarti, vol. 3, no. 5, pp. 55–69, 2010.

[15] R. A. Saraswati, “PERANAN ANALISIS LAPORAN KEUANGAN,PENILAIAN

PRINSIP 5C CALON DEBITUR DAN PENGAWASAN KREDIT TERHADAP

EFEKTIVITAS PEMBERIAN KREDIT PADA PD BPR BANK PASAR KABUPATEN

TEMANGGUNG,” Nominal, vol. I, no. 5, 2012.

[16] H. Sri Astuti, “Prinsip 6C (Character, Capacity, Capital, Condition of Economy, Collateral

Page 12: Impementasi Algoritma C 4.5 dan Prinsip 6C untuk

SEMNAS TECHNOPEX-2018 Institut Teknologi Indonesia ISSN: 2654-489X

21

Dan Constraint) Dalam Wirausaha Mahasiswa,” Pros. Semin. Nas. Prof. Pendidik dalam

Din. Kurikulum Pendidik. di Indones. pada Era MEA, pp. 824–839, 2015.

[17] A. Mardhiyah and A. Harjoko, “Metode Segmentasi Paru-paru dan Jantung Pada Citra X-

Ray Thorax,” IJEIS (Indonesian J. Electron. Instrum. Syst., vol. 1, no. 2, pp. 35–44, 2011.

[18] Kusrini, Konsep dan Aplikasi Sistem Pendukung Keputusan. Yogyakarta, 2007.

[19] E. Prasetyo, Data Mining : Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta:

ANDI, 2012.