Upload
suryawinantara
View
289
Download
5
Embed Size (px)
DESCRIPTION
Data Mining
Citation preview
TUGASDATA MINING
Nama Kelompok :
I Putu Ari Ratna Pratama (1208605055)Putu Mega Suryawan (1208605069)Ida Bagus Surya Winantara (1208605085)
PROGRAM STUDI TEKNIK INFORMATIKAJURUSAN ILMU KOMPUTER - FMIPAUNIVERSITAS UDAYANABUKIT JIMBARAN2015ALGORITMA ID3
PengertianID3 (Iterative Dichotomiser Three) atau yang disebut juga denganInduction of Decision Treeadalah suatu algoritma matematika yang digunakan untuk menghasilkan suatu pohon keputusan yang mampu mengklasifikasi suatu obyek. Pengertian laindari ID3 yaitu ID3 merupakan sebuah metode yang digunakan untuk membangkitkan pohon keputusan. ID3 diperkenalkan pertama kali oleh Ross Quinlan (1979).ID3 merepresentasi konsep-konsep dalam bentuk pohon keputusan.Aturan-aturan yang dihasilkan oleh ID3 mempunyai relasi yang hirarkis seperti suatu pohon (mempunyai akar, titik, cabang, dan daun). Beberapa peneliti menyebut struktur model yang dihasilkan ID3 sebagai pohon keputusan (decision tree) sementara peneliti yang lain menyebutnya pohon aturan (rule tree).Algoritma pada ID3 berbasis pada Occams razor: lebih memilih pohon keputusan yang lebih kecil (teori sederhana) dibanding yang lebih besar. Tetapi tidak dapat selalu menghasilkan pohon keputusan yang paling kecil dan karena itu occams razor bersifat heuristik. Occams razor diformalisasi menggunakan konsep dari entropi informasi.
Algoritma ID3Input : sampel training, label training, atribut Membuat simpul akar untuk pohon yang dibuat Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri label (+) Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar beri label (-) Jika atribut kosong, berhenti dengan suatu pohon dengan satu simpul akar, dengan label sesuai nilai yang terbanyak yang ada pada label training Untuk yang lain, Mulai A atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan gain ratio) Atribut keputusan untuk simpul akar A Untuk setiap nilai, vi, yang mungkin untuk A, Tambahkan cabang di bawah akar yang berhubungan dengan A=vi Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atribut A Jika sampel Svi kosong, Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang aa pada label training Yang lain, tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label training, atribut-[A]) Berhenti
Adapun sample data yang digunakan oleh ID3 memiliki beberapa syarat, yaitu : Deskripsi atribut-nilai. Atribut yang sama harus mendeskripsikan tiap contoh dan memiliki jumlah nilai yang sudah ditentukan. Kelas yang sudah didefinisikan sebelumnya. Suatu atribut contoh harus sudah didefinisikan, karena mereka tidak dipelajari oleh ID3. Kelas-kelas yang diskrit. Kelas harus digambarkan dengan jelas. Kelas yang continue dipecah-pecah menjadi kategori-kategori yang relatif, misalnya saja metal dikategorikan menjadi hard, quite hard, flexible, soft, quite soft. Jumlah contoh (example) yang cukup. Karena pembangkitan induktif digunakan, maka dibutuhkan test case yang cukup untuk membedakan pola yang valid dari peluang suatu kejadian.Pemillihan atribut pada ID3 dilakukan dengan properti statistik, yang disebut dengan information gain.Gain mengukur seberapa baik suatu atribut memisahkan training example ke dalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan tujuan untuk mendefinisikan gain, pertama-tama digunakanlah ide dari teori informasi yang disebut entropi.Entropi mengukur jumlah dari informasi yang ada pada atribut.
Rumus untuk menghitung entropi informasi adalah :
Rumus untuk menghitung gain adalah :
ContohMencatat Keadaan 14 Minggu Permainan Tenis pada Setiap Sabtu Pagi
MingguRamalan_CuacaSuhuKelembabanAnginBermain_Tenis
M1CerahPanasTinggiLemahTidak
M2CerahPanasTinggiKuatTidak
M3MendungPanasTinggiLemahYa
M4HujanSejukTinggiLemahYa
M5HujanDinginNormalLemahYa
M6HujanDinginNormalKuatTidak
M7MendungDinginNormalKuatYa
M8CerahSejukTinggiLemahTidak
M9CerahDinginNormalLemahYa
M10HujanSejukNormalLemahYa
M11CerahSejukNormalKuatYa
M12MendungSejukTinggiKuatYa
M13MendungPanasNormalLemahYa
M14HujanSejukTinggiKuatTidak
Atribut Tujuan adalah Bermain Tenis yang memiliki value ya atau tidak.Atribut adalah Ramalan_Cuaca, Suhu, Kelembaban, dan Angin.
Algoritma Dan FlowchartEntropy adalah formula untuk menghitung homogenitas dari sebuah sample/contoh.Solusi menggunakan entropy dari contoh kasus di atas :
S adalah koleksi dari 14 contoh dengan 9 contoh positif dan 5 contoh negatif, ditulis dengan notasi [9+,5-].Positif di sini maksudnya value Bermain_Tenis = Ya sedangkan negatif sebaliknya.Entropy dari S adalah :
Entropy(S) = - pi log2pi
pi = Zi = contoh positif + contoh negatifN = jumlah dataEntropy([9+,5-])= - (9/14) log2 (9/14) - (5/14) log2 (5/14)= - (0.6429) ((log (9/14))/log 2) - (0.3571) ((log (5/14))/log 2)= - (0.6429) (-0.1919/0.3010) - (0.3571) (-0.4472/0.3010)= - (0.6429) (-0.6375) - (0.3571) (-1.4857)= 0.4098 + 0.5305
= 0.94029Catatan : Entropy(S) = 0, jika semua contoh pada S berada dalam kelas yang sama. Entropy(S) = 1, jika jumlah contoh positif dan jumlah contoh negative dalam S adalah sama. 0 < Entropy(S) < 1, jika jumlah contoh positif dan jumlah contoh negatif dalam S tidak sama. Gain(S,A) adalah Information Gain dari sebuah atribut A pada koleksi contoh S : Gain(S,A) = Entropy(S) - Entropy(Sv)
1. Values(Angin)= Lemah, Kuat SLemah= [6+,2-]SKuat= [3+,3-]Gain(S,Angin)= Entropy(S) - (8/14)Entropy(SLemah) - (6/14)Entropy(SKuat)= 0.94029 - (8/14)0.81128 - (6/14)1.0000= 0.048132. Values(Kelembaban)= Tinggi, NormalSTinggi= [3+,4-]SNormal= [6+,1-]Gain(S,Kelembaban)= Entropy(S) - (7/14)Entropy(STinggi) - (7/14)Entropy(SNormal)= 0.94029 - (7/14)0.98523 - (7/14)0.59167= 0.151843. Values(Suhu)= Panas, Sejuk, DinginSPanas= [2+,2-]SSejuk= [4+,2-]SDingin= [3+,1-]Gain(S,Suhu)= Entropy(S) - (4/14)Entropy(SPanas) - (6/14)Entropy(SSejuk) - (4/14)Entropy(SDingin)= 0.94029 - (4/14)1.00000 - (6/14)0.91830 - (4/14)0.81128= 0.029224. Values(Ramalan_Cuaca)= Cerah, Mendung, HujanSCerah= [2+,3-]SMendung= [4+,0-]SHujan= [3+,2-]Gain(S,Ramalan_Cuaca)= Entropy(S) - (5/14)Entropy(SCerah) - (4/14)Entropy(SMendung) - (5/14)Entropy(SHujan)= 0.94029 - (5/14)0.97075 - (4/14)1.00000 - (5/14)0.97075= 0.24675Jadi, information gain untuk 3 atribut yang ada adalah :Gain(S,Angin) = 0.04813Gain(S,Kelembaban) = 0.15184Gain(S,Suhu) = 0.02922Gain(S,Ramalan_Cuaca) = 0.24675Tampak bahwa attribute Ramalan_Cuaca akan menyediakan prediksi terbaik untuk target attribute Bermain_Tenis.
[M1, M2, ..., M14][9+,5-]
Ramalan_Cuaca
HujanCerahMendungYa
??
[M4, M5, M6, M10, M14][3+,2-][M1, M2, M8, M9, M11][2+,3-]
Untuk node cabang Ramalan_Cuaca = Cerah,SCerah = [M1, M2, M8, M9, M11]MingguRamalan_CuacaSuhuKelembabanAnginBermain_Tenis
M1CerahPanasTinggiLemahTidak
M2CerahPanasTinggiKuatTidak
M8CerahSejukTinggiLemahTidak
M9CerahDinginNormalLemahYa
M11CerahSejukNormalKuatYa
1. Values(Suhu)= Panas, Sejuk, DinginSPanas= [0+,2-]SSejuk= [1+,1-]SDingin= [1+,0-]Gain(SCerah,Suhu)= Entropy(SCerah) - (2/5)Entropy(SPanas) - (2/5)Entropy(SSejuk) - (1/5)Entropy(SDingin)= 0.97075 - (2/5)0.00000 - (2/5)1.00000 - (1/5)0.00000= 0.570752. Values(Kelembaban)= Tinggi, NormalSTinggi= [0+,3-]SNormal= [2+,0-]Gain(SCerah,Kelembaban)= Entropy(SCerah) - (3/5)Entropy(STinggi) - (2/5)Entropy(SNormal)= 0.97075 - (3/5)0.00000 - (2/5)0.00000= 0.97075
3. Values(Angin)= Lemah, KuatSLemah= [1+,2-]SKuat= [1+,1-]Gain(SCerah,Angin)= Entropy(SCerah) - (3/5)Entropy(SLemah) - (2/5)Entropy(SKuat)= 0.97075 - (3/5)0.91830 - (2/5)1.00000= 0.01997
Atribut Kelembaban menyediakan prediksi terbaik pada level ini.
[M1, M2, ..., M14][9+,5-]CerahRamalan_Cuaca
Hujan
Mendung
[M1, M2, M8, M9, M11][2+,3-]
?Ya
Kelembaban
TinggiNormalTidakYa[M4, M5, M6, M10, M14][3+,2-]
[M1, M2, M8][0+,3-][M9, M11][2+,0-]
Untuk node cabang Ramalan_Cuaca = Hujan,SHujan = [M4, M5, M6, M10, M14]MingguRamalan_CuacaSuhuKelembabanAnginBermain_Tenis
M4HujanSejukTinggiLemahYa
M5HujanDinginNormalLemahYa
M6HujanDinginNormalKuatTidak
M10HujanSejukNormalLemahYa
M14HujanSejukTinggiKuatTidak
1. Values(Suhu)= Sejuk, Dingin (Tidak ada suhu = panas saat ini)SSejuk= [2+,1-]SDingin= [1+,1-]Gain(SHujan,Suhu)= Entropy(SHujan) - (3/5)Entropy(SSejuk) - (2/5)Entropy(SDingin)= 0.97075 - (3/5)0.91830 - (2/5)1.00000= 0.019972. Values(Kelembaban)= Tinggi, NormalSTinggi= [1+,1-]SNormal= [2+,1-]Gain(SHujan,Kelembaban)= Entropy(SHujan) - (2/5)Entropy(STinggi) - (3/5)Entropy(SNormal)= 0.97075 - (2/5)1.00000 - (3/5)0.91830= 0.019973. Values(Angin)= Lemah, KuatSLemah= [3+,0-]SKuat= [0+,2-]Gain(SHujan,Angin)= Entropy(SHujan) - (3/5)Entropy(SLemah) - (2/5)Entropy(SKuat)= 0.97075 - (3/5)0.00000 - (2/5)0.00000= 0.97075Atribut Angin menyediakan prediksi terbaik pada level ini.
Algoritma :If Ramalan_Cuaca = Cerah AND Kelembaban = Tinggi THEN Bermain_Tenis = TidakIf Ramalan_Cuaca = Cerah AND Kelembaban = Normal THEN Bermain_Tenis = YaIf Ramalan_Cuaca = Mendung THEN Bermain_Tenis = YaIf Ramalan_Cuaca = Hujan AND Angin = Kuat THEN Bermain_Tenis = TidakIf Ramalan_Cuaca = Hujan AND Angin = Lemah THEN Bermain_Tenis = YaRamalan_CuacaSuhuKelembabanAnginBermain_Tenis
CerahPanasTinggiKuatTidak
CerahPanasTinggiLemahTidak
CerahPanasNormalKuatYa
CerahPanasNormalLemahYa
CerahSejukTinggiKuatTidak
CerahSejukTinggiLemahTidak
CerahSejukNormalKuatYa
CerahSejukNormalLemahYa
CerahDinginTinggiKuatTidak
CerahDinginTinggiLemahTidak
CerahDinginNormalKuatYa
CerahDinginNormalLemahYa
MendungPanasTinggiKuatYa
MendungPanasTinggiLemahYa
MendungPanasNormalKuatYa
MendungPanasNormalLemahYa
MendungSejukTinggiKuatYa
MendungSejukTinggiLemahYa
MendungSejukNormalKuatYa
MendungSejukNormalLemahYa
MendungDinginTinggiKuatYa
MendungDinginTinggiLemahYa
MendungDinginNormalKuatYa
MendungDinginNormalLemahYa
HujanSejukTinggiKuatTidak
HujanSejukTinggiLemahYa
HujanSejukNormalKuatTidak
HujanSejukNormalLemahYa
HujanDinginTinggiKuatTidak
HujanDinginTinggiLemahYa
HujanDinginNormalKuatTidak
HujanDinginNormalLemahYa
Flowchart :
ALGORITMA C4.5
PengertianAlgoritma C4.5 merupakan algoritma yang digunakan untuk membangun sebuah pohon keputusan (decision tree) dari data.Algoritma C4.5 merupakan pengembangan dari algoritma ID3 yang juga merupakan algoritma untuk membangun sebuah pohon keputusan.Algoritma C4.5 secara rekursif mengunjungi tiap simpul keputusan, memilih percabangan optimal, sampai tidak ada cabang lagi yang mungkin dihasilkan.Algoritma C4.5 merupakan salah satu algoritma machine learning. Dengan algoritma ini, mesin(komputer) akan diberikan sekelompok data untuk dipelajari yang disebut learning dataset.Kemudian hasil dari pembelajaran selanjutnya akan digunakan untuk mengolah data-data yangbaru yang disebut test dataset. Karena algoritma C4.5 digunakan untuk melakukan klasifikasi,jadi hasil dari pengolahan test dataset berupa pengelompokkan data ke dalam kelas-kelasnya.
Algoritma C4.5Algoritma C4.5 menggunakan konsep information gain atau entropy reduction untuk memilih percabangan yang optimal. Misalkan terdapat sebuah variabel X dimana memiliki sejumlah k nilai yang mungkin dengan probabilitas p1, p2, , pk. Entropy menggambarkan keseragaman data dalam variabel X. Entropy variabel X (H(X)) dihitung dengan menggunakan persamaan sebagai berikut.
Misalkan terdapat sebuah kandidat simpul yang akan dikembangkan (S), yang membagi data T ke dalam sejumlah subset T1, T2, , Tk. Dengan menggunakan persamaan entropy diatas, nilai entropy tiap subset dihitung (HS(Ti)). Kemudian total bobot subset simpul S dihitung dengan menggunakan persamaan sebagai berikut.
dimana Pi merupakan proporsi record pada subset i. Semakin seragam sebuah subset terhadap kelas-kelas pembaginya, maka semakin kecil nilai entropy. Nilai entropy paling kecil adalah 0, yang dicapai ketika record subset berada pada satu kelas yang sama. Sedangkan nilai entropy paling tinggi adalah 1, yang dicapai ketika record subset terbagi sama rata pada untuk tiap kelas. Semakin kecil nilai entropy, semakin baik subset tersebut.
Dari nilai-nilai entropy yang didapat, nilai information gain untuk simpul S dihitung melaui persamaan sebagai berikut.
Pada algoritma C4.5, nilai information gain dihitung untuk seluruh simpul yang mungkin dikembangkan. Simpul yang dikembangkan adalah simpul yang memiliki nilai information gain yang paling besar.
ContohBerikut ini adalah uraian langkah-langkah dalam algoritma C4.5 untuk menyelesaikan kasussuatu pertandingan tenis akan dilakukan atau tidak, berdasarkan keadaan cuaca, suhu,kelembaban, dan angin. Data yang telah ada pada Tabel 1, akan digunakan untuk membentukpohon keputusan. Pada Tabel 1, atribut-atributnya adalah Cuaca, Suhu, Kelembaban, dan Berangin. Setiap atributmemiliki nilai.Sedangkan kelasnya ada pada kolom Main yaitu kelas Tidak dan kelas Ya.Kemudian data tersebut dianalisis; dataset tersebut memiliki 14 kasus yang terdiri 10 Ya dan 4Tidak pada kolom Main (lihat Tabel 2).Tabel 1. Learning DatasetNoCuacaSuhuKelembabanBeranginMain
1CerahPanasTinggiSalahTidak
2CerahPanasTinggiBenarTidak
3BerawanPanasTinggiSalahYa
4HujanSejukTinggiSalahYa
5HujanDinginNormalSalahYa
6HujanDinginNormalBenarYa
7BerawanDinginNormalBenarYa
8CerahSejukTinggiSalahTidak
9CerahDinginNormalSalahYa
10HujanSejukNormalSalahYa
11CerahSejukNormalBenarYa
12BerawanSejukTinggiBenarYa
13BerawanPanasNormalSalahYa
14HujanSejukTinggiBenarTidak
Kemudian hitung entropi dengan rumus sebagai berikut :
Keterangan : S adalah himpunan (dataset) kasus k adalah banyaknya partisi S Pj adalah probabilitas yang di dapat dari Sum(Ya) dibagi Total Kasus
Tabel 2. Hasil Perhitungan Pada DatasetTotal KasusSum (Ya)Sum (Tidak)Entropi Total
141040.8631
Setelah mendapatkan entropi dari keseluruhan kasus, lakukan analisis pada setiap atribut dannilai-nilainya dan hitung entropinya seperti yang ditampilkan pada Tabel 3.
Tabel 3. Analisis Atribut, Nilai, Banyaknya Kejadian Nilai, Entropi dan GainNodeAtributNilaiSum (Nilai)Sum (Ya)Sum (Tidak)EntropiGain
1CuacaBerawan4400
Hujan5410.7219
Cerah5230.9709
0.2585
SuhuDingin4400
Panas4221
Sejuk6420.9182
0.1838
KelembabanTinggi7340.9852
Normal7700
0.3705
BeranginSalah8620.8112
Benar6240.9182
0.0059
Untuk menghitung gain setiap atribut rumusnya adalah :
Hitung pula Gain (Suhu), Gain (Kelembaban), dan Gain (Berangin). Hasilnya dapat dilihat padaTabel 3.Karena nilai gain terbesar adalah Gain (Kelembaban).Maka Kelembaban menjadi nodeakar (root node).Kemudian pada kelembaban normal, memiliki 7 kasus dansemuanya memiliki jawaban Ya (Sum(Total) / Sum(Ya) = 7/7 = 1).Dengan demikian kelembaban normal menjadi daun atau leaf.Lihat Tabel 3 yang selnya berwarna hijau.
Gambar. Pohon Keputusan Node 1 (root node)Berdasarkan pembentukan pohon keputusan node 1 (root node), Node 1.1 akan dianalisis lebihlanjut. Untuk mempermudah, Tabel 1 difilter, dengan mengambil data yang memilikiKelembaban = Tinggi sehingga jadilah Tabel 4.
Tabel 4. Data yang Memiliki Kelembaban = TinggiNoCuacaSuhuKelembabanBeranginMain
1CerahPanasTinggiSalahTidak
2CerahPanasTinggiBenarTidak
3BerawanPanasTinggiSalahYa
4HujanSejukTinggiSalahYa
5CerahSejukTinggiSalahTidak
6BerawanSejukTinggiBenarYa
7HujanSejukTinggiBenarTidak
Kemudian data di Tabel 4 dianalisis dan dihitung lagi entropi atribut Kelebaban Tinggi danentropi setiap atribut serta gainnya sehingga hasilnya seperti data pada Tabel 5. Setelah itutentukan pilih atribut yang memiliki gain tertinggi untuk dibuatkan node berikutnya.
Tabel 5. Hasil Analisis Node 1.1Kelembaban TinggiSum (Ya)Sum (Tidak)Entropi
7340.9852
NodeAtributNilaiSum (Nilai)Sum (Ya)Sum (Tidak)EntropiGain
1CuacaBerawan2200
Hujan2111
Cerah3030
0.6995
SuhuDingin0000
Panas3120.9182
Sejuk4221
0.0202
BeranginSalah4221
Benar3210.9182
0.0202
Dari Tabel 5, gain tertinggi ada pada atribut Cuaca, dan Nilai yang dijadikan daun atau leafadalah Berawan dan Cerah. Jika divualisasi maka pohon keputusan tampak seperti Gambar (Pohon Keputusan Analisis Node 1.1).Untuk menganalisis node 1.1.2, lakukan lagi langkah-langkah yang sama seperti sebelumnya.Hasilnya ditampilkan pada Tabel 6 dan Gambar (Pohon Keputusan Akhir).
Gambar. Pohon Keputusan Analisis Node 1.1
Tabel 6.Hasil Analisi Node 1.1.2.NoCuacaSuhuKelembabanBeranginMain
1HujanSejukTinggiSalahYa
2HujanSejukTinggiBenarTidak
Kelembaban Tinggi & HujanSum (Ya)Sum (Tidak)Entropi
2111
NodeAtributNilaiSum (Nilai)Sum (Ya)Sum (Tidak)EntropiGain
1SuhuDingin0000
Panas0000
Sejuk2111
0
BeranginSalah1100
Benar1010
1
Gambar. Pohon Keputusan AkhirALGORITMA CART
PengertianMetode CART ini pertama kali diajukan oleh Leo Breiman et al. pada tahun 1984.Pohon keputusan yang dihasilkan CART merupakan pohon biner dimana tiap simpul wajib memiliki dua cabang. CART secara rekursif membagi records pada data latihan ke dalam subset-subset yang memiliki nilai atribut target (kelas) yang sama.
Algoritma CARTAlgoritma CART mengembangkan pohon keputusan dengan memilih percabangan yang paling optimal bagi tiap simpul.Pemilihan dilakukan dengan menghitung segala kemungkinan pada tiap variabel.Misalkan (s|t) merupakan nilai kebaikan kandidat cabang s pada simpul t, maka nilai (s|t) dapat dihitung sebagai berikut:
Dimana
Nilai maksimal ketika record yang berada pada cabang kiri atau kanan simpul memiliki kelas yang sama (seragam). Nilai maksimal yang dicapai sama dengan jumlah kelas pada data. Misalkan jika data terdiri atas dua kelas, maka nilai maksimal adalah 2.Semakin seragam record pada cabang kiri atau kanan, maka semakin tinggi nilai . Nilai maksimal 2PLPR sebesar 0.5 dicapai ketika cabang kiri dan kanan memiliki jumlah record yang sama. Kandidat percabangan yang dipilih adalah kandidat yang memiliki nilai (s|t) paling besar.
ContohAnda diberi data mengenai 8 orang nasabah yang pernah memperoleh kredit dari Bank Indra. Data tersebut meliputi besarnya tabungan (yang berjenis kategorial: rendah, sedang, atau tinggi), besarnya aset (yang berjenis kategorial: rendah, sedang, atau tinggi), besarnya pendapatan pertahun (dalam ribuan dollars, yang berjenis numerik dan berskala ration) dan risiko kredit (yang berjenis kategorial: risiko baik atau buruk)
NasabahTabunganAsetPendapatanRisiko Kredit
ASedangTinggi75Baik
BRendahRendah50Buruk
CTinggiSedang25Buruk
DSedangSedang50Baik
ERendahSedang100Baik
FTinggiTinggi25Baik
GRendahRendah25Buruk
HSedangSedang75Baik
Klasifikasi Cart Noktah yang berbentuk elips disebut dengan noktah keputusan. Noktah jenis ini adalah notkah yang masih akan bercabang karena pada noktah ini suatu record belum ditentukan klasifikasinya. Noktah keputusan pertama biasanya disebut noktah dasar Noktah yang berbentuk persegi panjang disebut dengan noktah terminasi
Pembahasan Permasalahan Pertama, kita memiliki data dari 8 nasabah seperti tertera di tabel sebelumnya dan ingin memperoleh pengetahuan yang dapat diaplikasikan kepada mereka yang berpotensi menjadi nasabah ke-9, ke-10, etc sehingga dengan mengetahui aset, tabungan, dan pendapatan, ,kita dapat menentukan risiko kredit mereka Kedua, data itu kelak akan kita jadikan input bagi suatu algoritma Ketiga, sebagai keluaran dari algoritma, kita akan memperoleh pengetahuan yang secara sederhana dapat direpresentasikan dalam bentuk pohon keputusan
Langkah-Langkah Algoritma CART : Pertama, susun calon cabang (candidate split). Penyusunan ini dlakukan terhadap seluruh variabel prediktor. Daftar yang berisi calon cabang disebut daftar calon cabang mutakhir. Calon cabang prediktor tabungan Tabungan=rendah, dan tabungan={sedang, tinggi} Tabungan=sedang, dan tabungan={rendah, tinggi} Tabungan=tinggi, dan tabungan={rendah, sedang} Calon cabang prediktor aset Aset=rendah, dan aset={sedang, tinggi} Aset=sedang, dan aset={rendah, tinggi} Aset=tinggi, dan aset={rendah, sedang} Calon cabang preditor pendapatan Pendapatan 25.000 dan pendapatan > 25.000 Pendapatan 50.000 dan pendapatan > 50.000 Pendapatan 75.000 dan pendapatan > 75.000
Nama Calon CabangCalon Cabang KiriCalon Cabang Kanan
1tabungan=rendahtabungan={sedang, tinggi}
2tabungan=sedangtabungan={rendah, tinggi}
3tabungan=tinggitabungan={rendah, sedang}
4aset=rendahaset={sedang, tinggi}
5aset=sedangaset={rendah, tinggi}
6aset=tinggiaset={rendah, sedang}
7pendapatan 25.000
8pendapatan 50.000
9pendapatan 75.000
Kedua, menilai kinerja keseluruhan calon cabang yang ada di daftar calon cabang mutakhir dengan jalan menghitung nilai besaran kesesuaian. Kinerja setiap calon cabang akan diukur melalui ukuran yang disebut dengan kesesuaian (goodness). Kesesuain dari calon cabang s pada noktah keputusan t dilambangkan dengan (s|t)
Dimana
NoPLPRRisiko KreditP(j|tL)P(j|tR)2xPLxPR Q(s|t)Phi (s|t)
13/8=0,3755/8=0,625Baik:1/3=0,3334/5=0,80,468750,9330,4375
Buruk:2/3=0,6671/5=0,2
23/8=0,3755/8=0,625Baik:3/3=12/5=0,40,468751,20,5625
Buruk:0/3=03/5=0,6
32/8=0,2506/8=0,75Baik:1/2==0,54/6=0,6670,3750,3330,125
Buruk: 1/2=0,52/6=0,333
42/8=0,2506/8=0,75Baik:0/2=05/6=0,8330,3751,6670,625
Buruk:2/2=11/6=0,167
54/8=0,54/8=0,5Baik:3/4=0,752/4=0,50,50,50,5
Buruk:1/4=0,252/4=0,5
62/8=0,256/8=0,75Baik:2/2=13/6=0,50,37510,375
Buruk:0/2=03/6=0,5
73/8=0,3755/8=0,625Baik:1/3=0,3334/5=0,80,468750,93330,4375
Buruk:2/3=0,6671/5=0,2
85/8=0,6253/8=0,375Baik:2/5=0,43/3=10,468751,20,5625
Buruk:3/5=0,60/3=0
97/8=0,8751/8=0,125Baik:4/7=0,5711/1=00,218750,8570,1875
Buruk:3/7=0,4290/1=0
Ketiga, menentukan calon cabang manakah yang akan benar-benar menjadi cabang dengan memilih calon cabang yang memiliki nilai kesesuaian (s|t) terbesar. Setelah itu gambarkan percabangan. Menentukan calon cabang yang manakah yang benar-benar menjadi cabang (s|t) terbesar
Kembali ke Langkah Kedua dengan melihat daftar calon cabang mutakhir masalah nasabah
Nama Calon CabangCalon Cabang KiriCalon Cabang Kanan
1tabungan=rendahtabungan={sedang, tinggi}
2tabungan=sedangtabungan={rendah, tinggi}
3tabungan=tinggitabungan={rendah, sedang}
4aset=rendahaset={sedang, tinggi}
5aset=sedangaset={rendah, tinggi}
6aset=tinggiaset={rendah, sedang}
7pendapatan 25.000
8pendapatan 50.000
9pendapatan 75.000
NoPLPRRisiko KreditP(j|tL)P(j|tR)2xPLxPR Q(s|t)Phi (s|t)
11/6=0,1675/6=0,833Baik:1/1=14/5=0,80,277780,40,1111
Buruk:0/1=01/5=0,2
23/6=0,53/6=0,5Baik:3/3=12/3=0,6670,50,6670,333
Buruk:0/3=01/3=0,333
32/6=0,3334/6=0,667Baik:1/2==0,54/4=10,44410,444
Buruk: 1/2=0,50/4=0
54/6=0,6672/6=0,333Baik:3/4=0,752/2=10,4440,50,222
Buruk:1/4=0,250/2=0
62/6=0,3334/6=0,667Baik:2/2=13/4=0,750,4440,50,222
Buruk:0/2=01/4=0,25
72/6=0,3334/6=0,667Baik:1/2=0,54/4=10,44410,444
Buruk:1/2=0,50/4=0
83/6=0,53/6=0,5Baik:2/3=0,6673/3=10,50,6670,333
Buruk:1/3=0,3330/3=0
95/6=0,8331/6=0,167Baik:4/5=0,81/1=00,277780,40,111
Buruk:1/5=0,20/1=0
Kembali ke Langkah Kedua dengan melihat daftar calon cabang mutakhir masalah nasabah
Nama Calon CabangCalon Cabang KiriCalon Cabang Kanan
1tabungan=rendahtabungan={sedang, tinggi}
2tabungan=sedangtabungan={rendah, tinggi}
3tabungan=tinggitabungan={rendah, sedang}
4aset=rendahaset={sedang, tinggi}
5aset=sedangaset={rendah, tinggi}
6aset=tinggiaset={rendah, sedang}
7pendapatan 25.000
8pendapatan 50.000
9pendapatan 75.000
NoPLPRRisiko KreditP(j|tL)P(j|tR)2xPLxPR Q(s|t)Phi (s|t)
10/2=02/2=1Baik:01/2=0,5010
Buruk:01/2=0,5
20/2=02/2=1Baik:01/2=0,5010
Buruk:01/2=0,5
51/2=0,51/2=0,5Baik:0/1=01/1=00,521
Buruk:1/1=10/1=0
61/2=0,51/2=0,5Baik:1/1=10/1=00,521
Buruk:0/1=01/1=1
72/2=10/2=0Baik:1/2=0,50/2=0010
Buruk:1/2=0,50/2=0
82/2=10/2=0Baik:1/2=0,50010
Buruk:1/2=0,50
95/6=0,8331/6=0,167Baik:4/5=0,80010
Buruk:1/5=0,20
PegawaiJabatanKelaminUmur AsalKategori Level
1ServicePerempuan45Kota besarLevel 3
2ServiceLaki-laki25Kota besarLevel 1
3ServiceLaki-laki33kota kecilLevel 2
4ManajemenLaki-laki25Kota besarLevel 3
5Manajemenperempuan35kota kecilLevel 4
6ManajemenLaki-laki26kota kecilLevel 3
7ManajemenPerempuan45Kota besarLevel 4
8SalesPerempuan40kota kecilLevel 3
9SalesLaki-laki30Kota besarLevel 2
10SalesPerempuan50Kota besarLevel 2
11SalesLaki-laki25kota kecilLevel 1
Jika tidak ada noktah keputusan, pelaksanaan algoritma CART dihentikan dan sebaliknya jika ada kembali ke langkah kedua.
Referensi :Pengertian dan Konsep Algoritma ID3. Diakses dari web, http://s3.amazonaws.com/academia.edu.documents/31971224/Interactive_Dychotomizer_Three.docx, pada tanggal 28 Maret 2015
Pengertian dan Konsep Algoritma C4.5 dan CART. Diakses dari web, http://download.portalgaruda.org/article.php?article=161148&val=5450&title=PERBANDINGAN%20PERFORMANSI%20ALGORITMA%20C4.5%20DAN%20CART%20DALAM%20%20KLASIFIKSI%20DATA%20NILAI%20MAHASISWA%20PRODI%20TEKNIK%20KOMPUTER%20%20POLITEKNIK%20NEGERI%20PADANG, pada tanggal 28 Maret 2015
Contoh Algoritma ID3. Diakses dari web, https://kaparang.files.wordpress.com/2011/09/bahan-6-ai-id3.doc, pada tanggal 28 Maret 2015
Contoh Algoritma C4.5. Diakses dari web, http://s3.amazonaws.com/academia.edu.documents/32989710/Belajar_Mudah_Algoritma_Data_Mining_C4.5.pdf, pada tanggal 28 Maret 2015
Contoh Algoritma CART. Diakses dari web, http://dc492.4shared.com/download/L2h55DbQ/metode_klasifikasi.pptx, pada tanggal 28 Maret 2015