library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode...

Landasan Teori

2.1 Pengertian Data Mining

Menurut Han dan Kamber (2011:6) menjelaskan bahwa “Data Mining

merupakan pemilihan atau “menggali” pengetahuan dari jumlah data yang

banyak.” Berbeda dengan Segall, Guha & Nonis (2008:127) menjelaskan

“Data Mining disebut penemuan pengetahuan atau menemukan pola yang

tersembunyi dalam data. Data mining adalah proses menganalisis data dari

perspektif yang berbeda dan meringkas menjadi informasi yang berguna”. Bisa

disimpulkan Data mining adalah Proses menganalisis data yang banyak dan

membuat suatu pola untuk menjadi informasi yang berguna.

2.2 Cross industry Standard Process for Data Mining (CRISP– DM)

Dalam jurnal “Identifying Bank Frauds Using CRISP-DM and

Decision trees” oleh Da Rocha & Timóteo (2010) mengatakan “metodologi

Cross Industri Standard Process for Data Mining (CRISP-DM) telah banyak

digunakan dalam industri oleh para ahli saat ini sebagai salah satu proses data

mining untuk memecahkan suatu masalah”. Metodologi ini terdiri dari enam

tahap proses siklus. Metodologi ini membuat data mining yang besar dapat

dilakukan dengan lebih cepat, lebih ekonomis, dan mudah untuk diatur.

Bahkan, data mining yang berukuran kecil pun dapat memperoleh

keuntungan dari CRISP-DM (Olson & Delen, 2008:9). Berikut adalah enam

tahap yang disebut sebagai siklus:

1. Business understanding

Business understanding meliputi penentuan tujuan bisnis, menilai

situasi saat ini, menetapkan tujuan data mining, dan mengembangkan

rencana proyek.

2. Data understanding

Setelah tujuan bisnis dan rencana proyek ditetapkan, Data

understanding mempertimbangkan persyaratan data. Langkah ini

dapat mencakup pengumpulan data awal, deskripsi data, eksplorasi

data, dan verifikasi data yang berkualitas.

3. Data preparation

Setelah sumber data telah tersedia untuk diidentifikasi. Data tersebut

perlu untuk dipilih, dibersihkan, dibangun ke dalam model yang

diinginkan, dan diformat. Pembersihan data dan transformasi data

dalam penyusunan pemodelan data perlu terjadi di tahap ini.

Gambar 2.1 Greedy (heuristic) methods for attribute subset selection.

Sumber: (Han & Kamber, 2011, p104)

Terdapat beberapa teknik dalam mengolah data seperti Data

Transformation, Data Reduction dan Data Cleaning, diantaranya :

Generalization

Mengubah data atribut low level menjadi atribut high level,

contoh : atribut numerical menjadi ordinal.

Attribute construction

Penambahan atribut baru untuk kepentingan proses mining.

Attribute subset selection

Attribute subset selection dilakukan untuk pemilihan atribut

yang menjadi atribut predictor. Ada 4 metode yang dapat

digunakan dalam melakukan attribute subset selection, yaitu :

a. Stepwise forward selection

Proses metode ini adalah untuk mencari atribut terbaik dari

seluruh data set dan di masukkan ke dalam data set baru

berdasarkan atribut terbaik yang telah dipilih.

b. Stepwise backward elimination

Proses metode ini adalah untuk mencari atribut yang tidak

berkaitan dengan data mining yang dicari, lalu langsung

menghapusnya dari data set.

c. Combination of forward selection and backward

elimination

Proses metode ini adalah penggabungan dari metode

stepwise forward selection dan stepwise backward

elimination.

d. Decision tree induction

Proses metode ini menggunakan algoritma decision tree,

seperti algoritma ID3, C4.5, dan cart dalam mencari atribut

yang terbaik.

Missing Value

Nilai null yang terdapat dalam data set dapat mengganggu

pembuatan mining yang dilakukan. Ada 6 metode yang dapat

digunakan dalam mengolah nilai null yang terdapat dalam

data, yaitu :

a. Ignore the tuple: tidak menggunakan tuple yang memiliki

nilai null.

b. Fill in the missing value manually: mengisi sendiri nilai

null yang terdapat dalam data.

c. Use global constant to fill in the missing value: mengganti

nilai null dengan label constant, seperti “Unknown”.

d. Use the attribute mean to fill in the missing value:

mengganti nilai null dengan rata-rata yang dimiliki atribut.

e. Use the attribute mean for all samples belonging to the

same class the given tuple: mengganti nilai null dengan

nilai rata-rata yang dimilik atribut berdasarkan target kelas

yang dicari.

f. Use the most probable value to fill in the missing value:

mengganti nilai null dengan nilai yang paling mungkin

muncul berdasarkan atribut target kelas yang dicari.

4. Modeling

Tujuan dari pemodelan data mining adalah untuk mencari hasil dari

berbagai situasi yang ada. Alat perangkat lunak untuk data mining

seperti visualisasi (mensplit data dan membangun hubungan) dan

analisis kluster (untuk mengidentifikasikan variable berjalan dengan

baik secara bersamaan) dapat berguna untuk analisis awal model yang

akan digunakan. Pembagian data ke dalam set pelatihan dan pengujian

juga diperlukan untuk pemodelan.

5. Evaluation

Hasil model harus dievaluasi sesuai tujuan bisnis pada tahap pertama

(pemahaman bisnis). Evaluasi dilakukan dari hasil visualisasi dan

perhitungan statistik pengujian berdasarkan pemodelan yang dibuat.

Pada akhir dari tahap ini, keputusan penggunaan hasil data mining

telah ditentukan.

6. Deployment

Pembuatan dari model bukanlah akhir dari projek data mining.

Meskipun tujuan dari pemodelan adalah untuk meningkatkan

pengetahuan dari data, pengetahuan data tersebut perlu dibangun

dengan terorganisasi dan dibuat pada satu bentuk yang dapat

digunakan oleh pengguna.

Gambar 2.2 CRISP-DM process

Sumber: (Olson & Delen, 2008, p10)

2.3 Fungsi Data Mining

Banyak fungsi data mining yang dapat digunakan. Dalam kasus tertentu

fungsi data mining dapat digabungkan untuk menjawab masalah yang dihadapi

(Maclennan, Tang, & Crivat, 2009, 6). Berikut adalah fungsi data mining

secara umum :

1. Classification

Fungsi dari Classification adalah untuk mengklasifikasikan suatu target

class ke dalam kategori yang dipilih.

Gambar 2.3 Classification - Decision Tree

Sumber: (Maclennan, Tang, & Crivat, 2009, p7)

2. Clustering

Fungsi dari clustering adalah untuk mencari pengelompokan atribut ke

dalam segmentasi-segmentasi berdasarkan similaritas.

Gambar 2.4 Clustering

3. Association

Fungsi dari association adalah untuk mencari keterkaitan antara atribut

atau item set, berdasarkan jumlah item yang muncul dan rule association

yang ada.

Gambar 2.5 Product Association

4. Regression

Fungsi dari regression hampir mirip dengan klasifikasi. Fungsi dari

regression adalah bertujuan untuk mencari prediksi dari suatu pola yang

5. Forecasting

Fungsi dari forecasting adalah untuk peramalan waktu yang akan datang

berdasarkan trend yang telah terjadi di waktu sebelumnya.

Gambar 2.6 Time Series

6. Sequence Analysis

Fungsi dari sequence analysis adalah untuk mencari pola urutan dari

rangkaian kejadian.

Gambar 2.7 Web Navigation Sequence

7. Deviation Analysis

Fungsi dari devation analysis adalah untuk mencari kejadian langka yang

sangat berbeda dari keadaan normal (kejadian abnormal).

2.4 Credit Scoring

Credit scoring atau penilaian kredit adalah sistem cara yang digunakan

oleh bank atau lembaga pembiayaan lainnya yang berguna untuk menentukan

apakah seorang pemohon kredit itu layak atau tidak mendapatkan pinjaman.

Menurut Anderson (2007:6) Credit Scoring yaitu “it is the use of

statistical models to transform relevant data into numerical measures that

guide credit decisions” yang artinya penggunaan model statistik untuk

mengubah data yang relevan ke dalam ukuran numerik yang menuntun

keputusan kredit. Beda halnya dengan pendapat Mylonakis & Diacogiannis

(2010:9) “Credit Scoring adalah metode mengevaluasi risiko kredit dari

pemohon dan memprediksi perilaku konsumen di masa mendatang, apakah

mereka akan default atau menunggak”. Terdapat bermacam-macam jenis credit

scoring berdasarkan dari kategori resiko dan tugasnya. Menurut Anderson

(2007:310) menjelaskan bahwa terdapat 4 macam jenis credit scoring, yaitu :

1. Application scoring

Application Scoring dilakukan untuk penilain dasar pengambilan

keputusan dalam penetuan pemohon kredit, apakah pemohon tersebut

layak atau tidak diberikan kredit.

2. Behavioural scoring

Behavioral scoring dilakukan untuk penilaian yang memfokuskan

terhadap hasil dari perilaku pelaku kredit yang telah diterima

permohonan kreditnya.

3. Customer scoring

Customer Scoring dilakukan untuk penilain terhadap pencarian potensi

yang dimiliki oleh pelaku kredit.

4. Collections scoring

Collections scoring dilakukan untuk penilain terhadap pelaku kredit pada

saat terjadinya penagihan kredit oleh lembaga keuangan.

2.5 Naive Bayes

Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas

dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu

memprediksi peluang di masa depan berdasarkan pengalaman di masa

sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson dan

Delen (2008:102) menjelaskan Naïve bayes untuk setiap kelas keputusan,

menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar,

mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa

atribut obyek adalah independen. Probabilitas yang terlibat dalam

memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master"

tabel keputusan.

The Naive Bayes Classifier bekerja sangat baik dibanding dengan

model classifier lainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone

dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the

Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes

Classifier memiliki tingkat akurasi yang lebih baik dibanding model classifier

lainnya”.

Table 2.1 Result of measure

Classifier Accuracy Precision Recall F-Measure

NB Classifier 95.20% 99.37% 95.23% 97.26%

DT Classifier 94.85% 98.31% 95.90% 97.09%

Dalam jurnal “Credit Scoring Model Based on Simple Naive Bayesian

Classifier and a Rough Set” oleh Jiang juga mengatakan “Untuk membangun

model credit scoring menggunakkan pendekatan baru dengan sintesis

sederhana Naive Bayesian classifier (SNBC) dan teori himpunan”.

Dalam jurnal “A Proposed Classification of Data Mining Techniques in

Credit Scoring” oleh Keramati mengatakan “ingin memperkenalkan metode

data mining dalam masalah credit scoring menggunakan classification”.

Menurut Han dan Kamber (2011:351) Proses dari The Naïve Bayesian

classifier, atau Simple Bayesian Classifier, sebagai berikut:

1. Variable D menjadi pelatihan set tuple dan label yang terkait dengan

kelas. Seperti biasa, setiap tuple diwakili oleh vektor atribut n-dimensi, X

= (x1, x2, ..., xn), ini menggambarkan pengukuran n dibuat pada tuple dari

atribut n, masing-masing, A1, A2, ..., An.

2. Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier

akan memprediksi X yang masuk kelompok memiliki probabilitas

posterior tertinggi, kondisi-disebutkan pada X. Artinya, classifier naive

bayesian memprediksi bahwa X tuple milik kelas Ci jika dan hanya jika :

Jadi memaksimalkan P (Ci | X). Ci kelas yang P (Ci | X) dimaksimalkan

disebut hipotesis posteriori maksimal. Dengan teorema Bayes :

Keterangan :

P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X

(Posterior probability)

P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang

paling besar (likelihood)

P(Ci) = Prior probability dari X (Prior probability)

P(X) = Jumlah probability tuple yg muncul

3. Ketika P (X) adalah konstan untuk semua kelas, hanya P (X | Ci) P (Ci)

butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui,

maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P

(C2) = · · · = P (Cm), maka dari itu akan memaksimalkan P (X | Ci). Jika

tidak, maka akan memaksimalkan P (X | Ci) P (Ci). Perhatikan bahwa

probabilitas sebelum kelas dapat diperkirakan oleh P (Ci) = | Ci, D | / | D |,

dimana | Ci, D | adalah jumlah tuple pelatihan kelas Ci di D.

4. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit

dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat

mengurangi perhitungan dalam mengevaluasi P(X|Ci), asumsi naïve

independensi kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari

atribut adalah kondisional independen satu sama lain, diberikan kelas

label dari tuple (yaitu bahwa tidak ada hubungan ketergantungan diantara

atribut ) dengan demikian :

Maka dapat dengan mudah memperkirakan probabilitas P (x1 | Ci), P (x2 |

Ci),. . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa di sini xk mengacu

pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, dilihat dari

apakah atribut tersebut kategorikal atau continuous-valued . Misalnya,

untuk menghitung P (X | Ci) mempertimbangkan hal-hal berikut:

a) Jika Ak adalah kategorikal, maka P (Xk | Ci) adalah jumlah tuple

kelas Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan |

Ci, D |, jumlah tuple kelas Ci di D.

b) Jika Ak continuous-valued , maka perlu melakukan sedikit lebih

banyak pekerjaan, tapi perhitunganya cukup sederhana. Sebuah

atribut continuous-valued biasanya diasumsikan memiliki

distribusi Gaussian dengan rata-rata μ dan standar deviasi σ,

didefinisikan oleh

sehingga :

Setelah itu hitung μCi dan σCi, yang merupakan deviasi mean (rata-rata)

dan standar masing-masing nilai atribut Ak untuk tuple pelatihan kelas Ci.

Setelah itu gunakan kedua kuantitas dalam Persamaan, bersama-sama

dengan xk, untuk memperkirakan P (xk | Ci).

5. Untuk memprediksi label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap

kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci,

Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X | Ci) P

(Ci) adalah maksimal.

Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal

dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal

ini tidak selalu terjadi, karena ketidakakuratan asumsi yang dibuat untuk

penggunaannya, seperti kondisi kelas independen, dan kurangnya data

probabilitas yang tersedia.

Pengklasifikasi Bayesian juga berguna dalam memberikan pembenaran

teoritis untuk pengklasifikasi lain yang tidak secara eksplisit

menggunakan teorema Bayes.

2.6 Holdout Method

Dalam metode ini, data yang diberikan secara acak dibagi menjadi dua set

independen yaitu training set dan test tes. Biasanya, dua-pertiga dari data yang

dialokasikan untuk training set, dan sisanya sepertiga dialokasikan untuk test

set. Training set digunakan untuk memperoleh model. Test set digunakan untuk

menghitung akurasi model yang telah dibuat (Han & Kamber, 2011:370).

Dalam jurnal ilmiah Computers in Biology and Medicine yang berjudul

“Diagnosis of breast cancer using Bayesian networks”, penelitian tersebut

menggunakan holdout method untuk membuat pemodelan naïve bayes, dimana

data training berjumlah 67% dan data testing sebesar 33%.

Gambar 2.8 Estimating accuracy with the holdout method

2.7 Evaluasi kinerja Classifier

Menurut Han dan Kamber (2011:365) Confusion matrix adalah alat yang

berguna untuk menganalisis seberapa baik classifier mengenali tuple dari kelas

yang berbeda. TP dan TN memberikan informasi ketika classifier benar,

sedangkan FP dan FN memberitahu ketika classifier salah. Contoh gambar

Confusion matrix ditunjukan pada gambar 2.8.

Gambar 2.9 The Confusion Matrix menampilkan total positive dan negative tuple

Langkah sensitivity dan specificity dapat digunakan untuk

pengklasifikasian akurasi. Sensitivity dapat ditunjuk sebagai true positives

(recognition) rate (proporsi dari tuple positif yang diidentifikasi dengan benar).

Sedangakan specificity adalah true negatives rate (proporsi tuple negatif yang

diidentifikasi secara benar).

Hal ini dapat menunjukkan bahwa akurasi adalah fungsi sensitivitas dan

spesifisitas:

Ukuran tingkat kesalahan klasifikasi juga dapat dihitung dengan mencari Error

atau Error rate = 1 – Accuracy (2.10)

2.8 Kerangka Pikiran Data Mining dan Application Scoring

Pada penelitian ini, menggunakan metode studi lapangan dan studi

pustaka untuk mendapatkan data dan informasi yang terkait dengan topik

skripsi ini. Setelah mendapatkan data set dari Bank Rakyat Indonesia, Data set

tersebut diproses menggunakan tehnik Data Preprocessing. Data yang telah

selesai diproses akan dibuat pemodelan dengan menggunakan model naïve

bayes. Dan hasilnya akan di tentukan apakah pemohon tersebut masuk ke

kategori approve atau reject. Tingkat ukuran ketepatan dapat dihitung untuk

menentukan kelayakan model yang dibuat. Indicator, Proposed, Objectives,

dan Measurement mengacu dengan metode CRISP-DM yang ditunjukkan pada

gambar 2.10.

CRISP-DM

Indicator Proposed Objectives Measurement

Gambar 2.10 Kerangka Pikiran Data Mining dan Application Scoring

Data Preprocessing“BRI-SCORING”

“BRI-SCORING

”Data Set

Naïve Bayes

Model Result(App-Status :

Approve/Reject)

SensitivitySpecificityAccuracyError Rate

Studi lapangan: Survei,

wawancara, dan observasi

Studi pustaka: buku literature, tesis dan jurnal

library.binus.ac.idlibrary.binus.ac.id/eColls/eThesisdoc/Bab2DOC/2012-1... · Web viewProses metode...

Documents

KLASIFIKASI PADANG LAMUN DENGAN METODE C4.5 …jurnal.umrah.ac.id/wp-content/uploads/gravity_forms/1-ec61c9cb232a... · Kata kunci : padang lamun, klasifikasi, metode algoritma C4.5

C4.5 MENGGUNAKAN ALGORITMA SMP NURUL JADID PREDIKSI ...repository.unuja.ac.id/7/9/Kamil_PREDIKSI_PRESTASI_SISWA_SMP.pdf · memudahkan dalam pengambilan keputusan untuk pembinaan siswa

Algoritma C4.5 Dalam Data Mining

Penerapan Algoritma C4.5 Untuk Klasifikasi Keberhasilan

Penerapan Algoritma Data Mining C4.5 Untuk Klasifikasi

PREDIKSI DATA NASABAH YANG BERPOTENSI MEMBUKA …repository.usd.ac.id/35523/2/155314046_full.pdf · Decision Tree Dengan Penerapan Algoritma C4.5”. 1.2 Rumusan Masalah Dalam melakukan

Analisis Kepuasan Pelanggan Menggunakan Algoritma C4.5 Eki ... · mengenal seperti apa kelebihan ataupun kekurangan produknya di pasaran oleh perusahaan Telkomsel. Fungsi, kualitas

PERBANDINGAN ALGORITMA DECISION TREE (C4.5) DAN …eprints.ums.ac.id/36124/4/HALAMAN DEPAN.pdf · ini dengan judul “Perbandingan Algoritma Decision Tree (C4.5) Dan Naïve Bayes

KLASIFIKASI SELEKSI ATRIBUT PADA SERANGAN SPAM …...pengguna. A. Algoritma Decision Tree C4.5 Algoritma ini sudah sangat terkenal dan di sukai karena memiliki banyak kelebihan. Kelebihan

Habib Firdausi-Algoritma c4.5.pptx

Penerapan Algoritma Klasifikasi C4.5 dalam …...Dalam penerapan dan penggunaan algoritma C4.5, dapat digunakan untuk melakukan prediksi dan klasifikasi terhadap calon pegawai yang

IMPLEMENTASI ALGORITMA C4.5 DALAM APLIKASI UNTUK ...repository.amikom.ac.id/files/Publikasi_09.11.3387.pdf · dapat juga digunakan (untuk keadaan yang tepat ) untuk memprediksi. 2.2.2

Analisis Kepuasan Pelanggan Menggunakan Algoritma C4.5 Eki ...eprints.dinus.ac.id/16479/1/jurnal_15407.pdf · Analisis Kepuasan Pelanggan Menggunakan Algoritma C4.5 Eki Ruziqa Maris

IMPLEMENTASI ALGORITMA BACKPROPAGATION DAN …eprints.uty.ac.id/1192/1/NASKAH PUBLIKASI.pdf · dalam weka dikenal dengan nama J48 [5]. Algoritma C4.5 mengkontruksi pohon keputusan

17. sarah fadilah implementasi data mining untuk pengenalan karakteristik transaksi customer dengan menggunakan algoritma c4.5

PENERAPAN ALGORITMA C4.5 PADA SPK PENENTUAN … · Raskin menggunakan klasifikasi data mining yakni algoritma C4.5 dengan menggunakan enam parameter yaitu jenis lantai rumah, jenis

Penerapan Algoritma C4.5 Pada Kepuasan Pelanggan Perum ... · Penerapan Algoritma C4.5 Pada Kepuasan Pelanggan Perum DAMRI ... Transportasi di gunakan untuk memudahkan manusia dalam

Penerapan Algoritma C4.5 Dalam Klasifikasi Penerima Kartu

PENERAPAN DATA MINING DENGAN ALGORITMA C4.5 DALAM PREDIKSI

PENERAPAN ALGORITMA C4.5 UNTUK MEMPREDIKSI …