View
227
Download
0
Category
Preview:
Citation preview
BAB 2
Landasan Teori
2.1 Pengertian Data Mining
Menurut Han dan Kamber (2011:6) menjelaskan bahwa “Data Mining
merupakan pemilihan atau “menggali” pengetahuan dari jumlah data yang
banyak.” Berbeda dengan Segall, Guha & Nonis (2008:127) menjelaskan
“Data Mining disebut penemuan pengetahuan atau menemukan pola yang
tersembunyi dalam data. Data mining adalah proses menganalisis data dari
perspektif yang berbeda dan meringkas menjadi informasi yang berguna”. Bisa
disimpulkan Data mining adalah Proses menganalisis data yang banyak dan
membuat suatu pola untuk menjadi informasi yang berguna.
2.2 Cross industry Standard Process for Data Mining (CRISP– DM)
Dalam jurnal “Identifying Bank Frauds Using CRISP-DM and
Decision trees” oleh Da Rocha & Timóteo (2010) mengatakan “metodologi
Cross Industri Standard Process for Data Mining (CRISP-DM) telah banyak
digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data
mining untuk memecahkan suatu masalah”. Metodologi ini terdiri dari enam
tahap proses siklus. Metodologi ini membuat data mining yang besar dapat
dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur.
Bahkan, data mining yang berukuran kecil pun dapat memperoleh
5
keuntungan dari CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam
tahap yang disebut sebagai siklus:
1. Business understanding
Business understanding meliputi penentuan tujuan bisnis, menilai
situasi saat ini, menetapkan tujuan data mining, dan mengembangkan
rencana proyek.
2. Data understanding
Setelah tujuan bisnis dan rencana proyek ditetapkan, Data
understanding mempertimbangkan persyaratan data. Langkah ini
dapat mencakup pengumpulan data awal, deskripsi data, eksplorasi
data, dan verifikasi data yang berkualitas.
3. Data preparation
Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut
perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang
diinginkan, dan diformat. Pembersihan data dan transformasi data
dalam penyusunan pemodelan data perlu terjadi di tahap ini.
Gambar 2.1 Greedy (heuristic) methods for attribute subset selection.
Sumber: (Han & Kamber, 2011, p104)
6
Terdapat beberapa teknik dalam mengolah data seperti Data
Transformation, Data Reduction dan Data Cleaning, diantaranya :
Generalization
Mengubah data atribut low level menjadi atribut high level,
contoh : atribut numerical menjadi ordinal.
Attribute construction
Penambahan atribut baru untuk kepentingan proses mining.
Attribute subset selection
Attribute subset selection dilakukan untuk pemilihan atribut
yang menjadi atribut predictor. Ada 4 metode yang dapat
digunakan dalam melakukan attribute subset selection, yaitu :
a. Stepwise forward selection
Proses metode ini adalah untuk mencari atribut terbaik dari
seluruh data set dan di masukkan ke dalam data set baru
berdasarkan atribut terbaik yang telah dipilih.
b. Stepwise backward elimination
Proses metode ini adalah untuk mencari atribut yang tidak
berkaitan dengan data mining yang dicari, lalu langsung
menghapusnya dari data set.
c. Combination of forward selection and backward
elimination
Proses metode ini adalah penggabungan dari metode
stepwise forward selection dan stepwise backward
elimination.
7
d. Decision tree induction
Proses metode ini menggunakan algoritma decision tree,
seperti algoritma ID3, C4.5, dan cart dalam mencari atribut
yang terbaik.
Missing Value
Nilai null yang terdapat dalam data set dapat mengganggu
pembuatan mining yang dilakukan. Ada 6 metode yang dapat
digunakan dalam mengolah nilai null yang terdapat dalam
data, yaitu :
a. Ignore the tuple: tidak menggunakan tuple yang memiliki
nilai null.
b. Fill in the missing value manually: mengisi sendiri nilai
null yang terdapat dalam data.
c. Use global constant to fill in the missing value: mengganti
nilai null dengan label constant, seperti “Unknown”.
d. Use the attribute mean to fill in the missing value:
mengganti nilai null dengan rata-rata yang dimiliki atribut.
e. Use the attribute mean for all samples belonging to the
same class the given tuple: mengganti nilai null dengan
nilai rata-rata yang dimilik atribut berdasarkan target kelas
yang dicari.
f. Use the most probable value to fill in the missing value:
mengganti nilai null dengan nilai yang paling mungkin
muncul berdasarkan atribut target kelas yang dicari.
8
4. Modeling
Tujuan dari pemodelan data mining adalah untuk mencari hasil dari
berbagai situasi yang ada. Alat perangkat lunak untuk data mining
seperti visualisasi (mensplit data dan membangun hubungan) dan
analisis kluster (untuk mengidentifikasikan variable berjalan dengan
baik secara bersamaan) dapat berguna untuk analisis awal model yang
akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian
juga diperlukan untuk pemodelan.
5. Evaluation
Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama
(pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan
perhitungan statistik pengujian berdasarkan pemodelan yang dibuat.
Pada akhir dari tahap ini, keputusan penggunaan hasil data mining
telah ditentukan.
6. Deployment
Pembuatan dari model bukanlah akhir dari projek data mining.
Meskipun tujuan dari pemodelan adalah untuk meningkatkan
pengetahuan dari data, pengetahuan data tersebut perlu dibangun
dengan terorganisasi dan dibuat pada satu bentuk yang dapat
digunakan oleh pengguna.
9
Gambar 2.2 CRISP-DM process
Sumber: (Olson & Delen, 2008, p10)
2.3 Fungsi Data Mining
Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu
fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi
(Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining
secara umum :
1. Classification
Fungsi dari Classification adalah untuk mengklasifikasikan suatu target
class ke dalam kategori yang dipilih.
Gambar 2.3 Classification - Decision Tree
Sumber: (Maclennan, Tang, & Crivat, 2009, p7)
10
2. Clustering
Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke
dalam segmentasi-segmentasi berdasarkan similaritas.
Gambar 2.4 Clustering
Sumber: (Maclennan, Tang, & Crivat, 2009, p7)
3. Association
Fungsi dari association adalah untuk mencari keterkaitan antara atribut
atau item set, berdasarkan jumlah item yang muncul dan rule association
yang ada.
Gambar 2.5 Product Association
Sumber: (Maclennan, Tang, & Crivat, 2009, p7)
4. Regression
Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari
regression adalah bertujuan untuk mencari prediksi dari suatu pola yang
ada.
11
5. Forecasting
Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang
berdasarkan trend yang telah terjadi di waktu sebelumnya.
Gambar 2.6 Time Series
Sumber: (Maclennan, Tang, & Crivat, 2009, p8)
6. Sequence Analysis
Fungsi dari sequence analysis adalah untuk mencari pola urutan dari
rangkaian kejadian.
Gambar 2.7 Web Navigation Sequence
Sumber: (Maclennan, Tang, & Crivat, 2009, p9)
7. Deviation Analysis
Fungsi dari devation analysis adalah untuk mencari kejadian langka yang
sangat berbeda dari keadaan normal (kejadian abnormal).
12
2.4 Credit Scoring
Credit scoring atau penilaian kredit adalah sistem cara yang digunakan
oleh bank atau lembaga pembiayaan lainnya yang berguna untuk menentukan
apakah seorang pemohon kredit itu layak atau tidak mendapatkan pinjaman.
Menurut Anderson (2007:6) Credit Scoring yaitu “it is the use of
statistical models to transform relevant data into numerical measures that
guide credit decisions” yang artinya penggunaan model statistik untuk
mengubah data yang relevan ke dalam ukuran numerik yang menuntun
keputusan kredit. Beda halnya dengan pendapat Mylonakis & Diacogiannis
(2010:9) “Credit Scoring adalah metode mengevaluasi risiko kredit dari
pemohon dan memprediksi perilaku konsumen di masa mendatang, apakah
mereka akan default atau menunggak”. Terdapat bermacam-macam jenis credit
scoring berdasarkan dari kategori resiko dan tugasnya. Menurut Anderson
(2007:310) menjelaskan bahwa terdapat 4 macam jenis credit scoring, yaitu :
1. Application scoring
Application Scoring dilakukan untuk penilain dasar pengambilan
keputusan dalam penetuan pemohon kredit, apakah pemohon tersebut
layak atau tidak diberikan kredit.
2. Behavioural scoring
Behavioral scoring dilakukan untuk penilaian yang memfokuskan
terhadap hasil dari perilaku pelaku kredit yang telah diterima
permohonan kreditnya.
3. Customer scoring
Customer Scoring dilakukan untuk penilain terhadap pencarian potensi
yang dimiliki oleh pelaku kredit.
13
4. Collections scoring
Collections scoring dilakukan untuk penilain terhadap pelaku kredit pada
saat terjadinya penagihan kredit oleh lembaga keuangan.
2.5 Naive Bayes
Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas
dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu
memprediksi peluang di masa depan berdasarkan pengalaman di masa
sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson dan
Delen (2008:102) menjelaskan Naïve bayes untuk setiap kelas keputusan,
menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar,
mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa
atribut obyek adalah independen. Probabilitas yang terlibat dalam
memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master"
tabel keputusan.
The Naive Bayes Classifier bekerja sangat baik dibanding dengan
model classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone
dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the
Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes
Classifier memiliki tingkat akurasi yang lebih baik dibanding model classifier
lainnya”.
Table 2.1 Result of measure
Classifier Accuracy Precision Recall F-Measure
NB Classifier 95.20% 99.37% 95.23% 97.26%
DT Classifier 94.85% 98.31% 95.90% 97.09%
14
Dalam jurnal “Credit Scoring Model Based on Simple Naive Bayesian
Classifier and a Rough Set” oleh Jiang juga mengatakan “Untuk membangun
model credit scoring menggunakkan pendekatan baru dengan sintesis
sederhana Naive Bayesian classifier (SNBC) dan teori himpunan”.
Dalam jurnal “A Proposed Classification of Data Mining Techniques in
Credit Scoring” oleh Keramati mengatakan “ingin memperkenalkan metode
data mining dalam masalah credit scoring menggunakan classification”.
Menurut Han dan Kamber (2011:351) Proses dari The Naïve Bayesian
classifier, atau Simple Bayesian Classifier, sebagai berikut:
1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan
kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X
= (x1, x2, ..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari
atribut n, masing-masing, A1, A2, ..., An.
2. Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier
akan memprediksi X yang masuk kelompok memiliki probabilitas
posterior tertinggi, kondisi-disebutkan pada X. Artinya, classifier naive
bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika :
(2.1)
Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan
disebut hipotesis posteriori maksimal. Dengan teorema Bayes :
(2.2)
15
Keterangan :
P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X
(Posterior probability)
P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang
paling besar (likelihood)
P(Ci) = Prior probability dari X (Prior probability)
P(X) = Jumlah probability tuple yg muncul
3. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X | Ci) P (Ci)
butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui,
maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P
(C2) = · · · = P (Cm), maka dari itu akan memaksimalkan P (X | Ci). Jika
tidak, maka akan memaksimalkan P (X | Ci) P (Ci). Perhatikan bahwa
probabilitas sebelum kelas dapat diperkirakan oleh P (Ci) = | Ci, D | / | D |,
dimana | Ci, D | adalah jumlah tuple pelatihan kelas Ci di D.
4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit
dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat
mengurangi perhitungan dalam mengevaluasi P(X|Ci), asumsi naïve
independensi kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari
atribut adalah kondisional independen satu sama lain, diberikan kelas
label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara
atribut ) dengan demikian :
(2.3)
Maka dapat dengan mudah memperkirakan probabilitas P (x1 | Ci), P (x2 |
Ci),. . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu
16
pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari
apakah atribut tersebut kategorikal atau continuous-valued . Misalnya,
untuk menghitung P (X | Ci) mempertimbangkan hal-hal berikut:
a) Jika Ak adalah kategorikal, maka P (Xk | Ci) adalah jumlah tuple
kelas Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan |
Ci, D |, jumlah tuple kelas Ci di D.
b) Jika Ak continuous-valued , maka perlu melakukan sedikit lebih
banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah
atribut continuous-valued biasanya diasumsikan memiliki
distribusi Gaussian dengan rata-rata μ dan standar deviasi σ,
didefinisikan oleh
(2.4)
sehingga :
(2.5)
Setelah itu hitung μCi dan σCi, yang merupakan deviasi mean (rata-rata)
dan standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci.
Setelah itu gunakan kedua kuantitas dalam Persamaan, bersama-sama
dengan xk, untuk memperkirakan P (xk | Ci).
5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap
kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci,
jika
(2.6)
Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P
(Ci) adalah maksimal.
17
Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal
dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal
ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk
penggunaannya, seperti kondisi kelas independen, dan kurangnya data
probabilitas yang tersedia.
Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran
teoritis untuk pengklasifikasi lain yang tidak secara eksplisit
menggunakan teorema Bayes.
2.6 Holdout Method
Dalam metode ini, data yang diberikan secara acak dibagi menjadi dua set
independen yaitu training set dan test tes. Biasanya, dua-pertiga dari data yang
dialokasikan untuk training set, dan sisanya sepertiga dialokasikan untuk test
set. Training set digunakan untuk memperoleh model. Test set digunakan untuk
menghitung akurasi model yang telah dibuat (Han & Kamber, 2011:370).
Dalam jurnal ilmiah Computers in Biology and Medicine yang berjudul
“Diagnosis of breast cancer using Bayesian networks”, penelitian tersebut
menggunakan holdout method untuk membuat pemodelan naïve bayes, dimana
data training berjumlah 67% dan data testing sebesar 33%.
Gambar 2.8 Estimating accuracy with the holdout method
Sumber: (Han & Kamber, 2011, p370)
2.7 Evaluasi kinerja Classifier
18
Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat yang
berguna untuk menganalisis seberapa baik classifier mengenali tuple dari kelas
yang berbeda. TP dan TN memberikan informasi ketika classifier benar,
sedangkan FP dan FN memberitahu ketika classifier salah. Contoh gambar
Confusion matrix ditunjukan pada gambar 2.8.
Gambar 2.9 The Confusion Matrix menampilkan total positive dan negative tuple
Sumber: (Han & Kamber, 2011, p366)
Langkah sensitivity dan specificity dapat digunakan untuk
pengklasifikasian akurasi. Sensitivity dapat ditunjuk sebagai true positives
(recognition) rate (proporsi dari tuple positif yang diidentifikasi dengan benar).
Sedangakan specificity adalah true negatives rate (proporsi tuple negatif yang
diidentifikasi secara benar).
(2.7)
(2.8)
Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan
spesifisitas:
(2.9)
Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error
Rate:
19
atau Error rate = 1 – Accuracy (2.10)
2.8 Kerangka Pikiran Data Mining dan Application Scoring
Pada penelitian ini, menggunakan metode studi lapangan dan studi
pustaka untuk mendapatkan data dan informasi yang terkait dengan topik
skripsi ini. Setelah mendapatkan data set dari Bank Rakyat Indonesia, Data set
tersebut diproses menggunakan tehnik Data Preprocessing. Data yang telah
selesai diproses akan dibuat pemodelan dengan menggunakan model naïve
bayes. Dan hasilnya akan di tentukan apakah pemohon tersebut masuk ke
kategori approve atau reject. Tingkat ukuran ketepatan dapat dihitung untuk
menentukan kelayakan model yang dibuat. Indicator, Proposed, Objectives,
dan Measurement mengacu dengan metode CRISP-DM yang ditunjukkan pada
gambar 2.10.
CRISP-DM
Indicator Proposed Objectives Measurement
Gambar 2.10 Kerangka Pikiran Data Mining dan Application Scoring
20
Data Preprocessing“BRI-SCORING”
“BRI-SCORING
”Data Set
Naïve Bayes
Model Result(App-Status :
Approve/Reject)
SensitivitySpecificityAccuracyError Rate
Studi lapangan: Survei,
wawancara, dan observasi
Studi pustaka: buku literature, tesis dan jurnal
Recommended