Perbandingan Klasifikasi Naive bayes dan K-Nearest

Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020

34

Perbandingan Klasifikasi Naive bayes dan K-Nearest Neighbor Dalam

Menentukan Area Baru Distribusi Majalah Gratis

Nurfiqih

1

1Program Studi Teknik Informatika, Fakultas Teknik Sekolah Tinggi Manajemen Informatika

dan Komputer ERESHA Jl. Raya Puspitek No. 10, Serpong – Tangerang Selatan [email protected]

Abstrak

PT. Media Komunitas Serpong merupakan salah satu perusahaan yang bergerak di bidang jasa

periklanan, percetakan dan pendistribusian majalah gratis, perkembangan hunian yang semakin

meningkat membuat PT. Media Komunitas Serpong terus berusaha untuk memperluas area distribusi

untuk menjaring para pembaca, dalam menentukan layak atau tidaknya hunian di suatu wilayah perlu

dilakukan langkah awal dengan melakukan survey terhadap hunian yang akan diambil keputusan layak

atau tidak, saat ini keputusan dalam menentukan layak atau tidak memerlukan analisa serta diskusi

panjang sehingga cara tersebut masih kurang efektif, Tepat sasaran dalam pendistribusian majalah

merupakan salah satu faktor penting bagi PT. Media Komunitas Serpong untuk terus berkembang

dalam memenuhi kebutuhan informasi di setiap wilayah area distribusi. Ketepatan pengiriman majalah

ke tangan penerima yang tepat harus memiliki penentuan area secara tepat pula, PT. Media Komunitas

Serpong membutuhkan informasi yang dapat memberikan hasil keputusan yang tepat efektif dan

efisien terutama pemilihan area distribusi baru, Naive Bayes Classifier dan K-Nearest Neighbor

adalah dua diantara metode klasifikasi pada data mining, dengan memilih metode yang lebih baik yang

akan diambil yaitu dengan cara membandingkan serta dan mendapat hasil akurasi terbaik, akurasi

terbaik dari salah satu metode tersebut yang akan di gunakan PT. Media Komunitas Serpong untuk

menentukan keputusan area distribusi baru secara tepat efektif dan efisien.

Kata kunci: distribusi, data mining, naive bayes, k-nearest neighbor.

Abstract

PT. Media Komunitas Serpong is one of the companies engaged in advertising services, printing

and distribution of free magazines, the development of housing that is increasing makes PT. Media

Community Serpong continues to strive to expand the distribution area to attract readers, in

determining whether or not a residential area is appropriate, it is necessary to take the initial step by

conducting a survey of the occupancy to make a decision whether it is feasible or not, currently the

decision to determine whether it is feasible or not necessary analysis and long discussion so that this

method is still ineffective. Right on target in magazine distribution is one of the important factors for

PT. Media Community Serpong to continue to develop in fulfilling the information needs in each

distribution area. The accuracy of sending magazines to the right recipient must have a precise

determination of the area as well, PT. The Serpong Community Media needs information that can

provide the right decision results effectively and efficiently, especially the selection of a new

distribution area, the Naive Bayes Classifier and K-Nearest Neighbor are two of the classification

methods in data mining, by choosing a better method to be taken, namely by compare and get the best

accuracy results, the best accuracy from one of these methods that will be used by PT. Media

Community Serpong to determine the new distribution area decisions appropriately, effectively and

efficiently.

Keywords: distribution, data mining, naive bayes, k-nearest neighbor.


35

PENDAHULUAN

Dalam dunia bisnis yang selalu dinamis

dan penuh persaingan, para pengusaha harus

senantiasa memikirkan cara-cara untuk terus

survive dan meningkatkan skala bisnis.

Berbagai perubahan teknologi berdampak

pada perkembangan perekonomian di dunia dan

telah mengubah proses bisnis yang ada.

Persaingan yang ketat dalam dunia bisnis

terjadi hampir di berbagai jenis industri. Hal ini

menjadi tantangan tersendiri bagi para pelaku

bisnis untuk lebih kreatif dalam menjaga

keberlangsungan hidup usahanya agar mampu

menghadapi perubahan dan unggul dalam

persaingan.

PT. Media Komunitas Serpong mer-

upakan salah satu perusahaan yang bergerak

dibidang jasa periklanan, percetakan dan

pendistribusian majalah gratis. Perkembangan

hunian yang berkelas dan berkemajuan

membuat PT. Media Komunitas Serpong terus

meningkatkan pendapatan dari segi jasa

periklanan.

Gambar 1 Peningkatan Oplah

Gambar 2 Penurunan Iklan

Dari gambar grafik diatas pada gambar 1

ada bias dilihat ada peningkatan oplah artinya

tingginya permintaan akan majalah sehingga

oplah ditingkatkan, berbanding terbalik dengan

gambar 2 yaitu penurunan iklan, mengakibatkan

pendapatan atau profit perusahaan menurun

yang diakibatkan kepercayaan pengiklan

terhadap respon yang diberikan menurun,

sehingga klien merasa bahwa distribusi yang

dilakukan belum tepat atau tidak tepat sasaran.

sehingga dibutuhkan metode yang tepat dan

akurat dalam menentukan area distribusi.

Data mining mencari informasi baru dari

data yang besar, dan juga sebagai serangkaian

proses untuk menggali nilai tambah seperti ilmu

pengetahuan yang belum diketahui data-data

yang tersimpan begitu banyak dimanfaatkan

untuk mencari pola yang berguna itulah data

mining (Eko Prasetyo, 2013).

Klasifikasi digunakan untuk mempr-

ediksi kelas dari objek yang kelasnya belum

diketahui (Eko Prasetyo,2014).

Naive Bayes menghitung probabilitas

dari sebuah hipotesis berdasarkan prior pro-

bability, nilai yang probabilitas yang diyakini

benar sebelum melakukan pencarian atau

eksperimen disebut prior probability. Naive

bayes masuk kedalam metod klasifikasi, untuk

memprediksi kelas dari objek yang nilai

kelasnya belum diketahui(Eko Prasetyo,2014).

P(H|X) =P(X|H) x P(H)

P(X)

Ket :

X : Data dengan class yang belum dike-

tahui

H : Hipotesis data X merupakan suatu

class spesifik

P(H|X) : Probabilitas hipotesis H berdasar

kondisi X (posteriori probability)

P(H) : Probabilitas hipotesis H (prior

probability) atau probabilitas Awal

Untuk data kontinyu dilakukan per-

hitungan menggunakan fungsi distribusi gau-

ssian

P(Xi = 𝑥𝑖| Y = 𝑦𝑖) = 1

√2πσij

exp−

(xi− μij)2

2σij

Ket :

µi = Mean

σij = Standar deviasi

e = 2,718


36

K-Nearest Neighbor (KNN) termasuk

kelompok instance based learning. Algoritma

ini juga merupakan salah satu teknik lazy

learning. KNN dilakukan dengan mencari

kelompok k ob-jek dalam data training yang

paling dekat (mirip) dengan objek pada data

baru atau data testing.

𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 (𝑝, 𝑞) =∑ 𝑓(𝑝𝑖 , 𝑞𝑖) ∗ 𝑤𝑖

𝑛𝑖=1

𝑤𝑖

Ket :

p : Kasus baru

q : Kasus yang ada pada penyimpanan

n : Jumlah atribut dalam tiap kasus

i : Atribut individu antara 1 sampai

dengan n

f : Fungsi similarity atribut i antara kasus p

dan kasus q

w : Bobot yang diberikan pada atribut ke-i

Sebuah sistem yang melakukan

klasifikasi diharapkan dapat melakukan

klasifikasi semua set data dengan benar, tetapi

tidak dapat dipungkiri bahwa kinerja suatu

sistem tidak bisa 100% benar sehingga sebuah

sistem klasifikasi juga harus diukur kinerjanya.

Umumnya, pengukuran kinerja klasifikasi

dilakukan dengan matriks konfusi (Eko

Prasetyo, 2013)

Akurasi =Jumlah data yang diprediksi secara benar

Jumlah prediksi yang dilakukan

=f11 + f00

f11 + f10 + f01 + f00

𝐸𝑟𝑟𝑜𝑟

=𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑠𝑒𝑐𝑎𝑟𝑎 𝑠𝑎𝑙𝑎ℎ

𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑦𝑎𝑛𝑔 𝑑𝑖𝑙𝑎𝑘𝑢𝑘𝑎𝑛

=𝑓10 + 𝑓01

𝑓11 + 𝑓10 + 𝑓01 + 𝑓00

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓

𝑅𝑒𝑐𝑎𝑙𝑙 =𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓 + 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑓

Precision (disebut juga positive

prediction value) merupakan metrik untuk

mengukur kinerja sistem dalam mendapatkan

data yang relevan. Sementara recall (disebut

juga sensitivitas) merupakan metrik untuk

mengukur kinerja sistem dalam mendapatkan

data relevan yang terbaca (Eko Prasetyo, 2014).

METODE

Data training Data yang dikumpulkan

dari beberapa divisi terkait area distribusi

menjadi data training distribusi

Tabel 1 Training Distribusi

Data testing adalah data hasil survey

hunian yang dilakukan oleh tim, yang

selanjutnya dilakukan uji kelayakan dalam

penentuan keputusan distribusi.

Tabel 2 Data Testing Area Serpong

Garden


37

Tabel 3 Probabilitas Fitur dan Kelas

Menentukan probabilitas akhir dari setiap

kelas

Likelihood Layak = 0.2289 x 0,5542 x 0.5662 x

0.5903 x 0,0698 x 0,0007679 x 0,1686 x

0,2289 x 0,8072 x 0,012 x 0,9638 =

0,000000000818

Likelihood Tidak Layak = 0,2941 x 0,3333 x

0,5294 x 0,6274 x 0,2108 x 0,0006478 x 0,4313

x 0,5686 x 0,9803 x 0,1372 x 1 = 0,0000001466

Dari hasil yang didapat dari data test

yang diberikan, dimana nilai probabilitas akhir

terbesar ada di kelas Tidak Layak sehingga

diambil keputusan area atau hunian tersebut

tidak layak distribusi majalah gratis.


38

Jika dilihat data training distribusi yang

bersifat campuran pada algoritma k-nearest

neighbour maka untuk menghitung jarak yang

paling tepat adalah menggunakan kedekatan

similarity, Sebelum melakukan perhitungan

jarak dengan similarity dilakukan pembobotan

terlebih dahulu yang diambil dari presentase

data survey perusahaan untuk masing masing

atribut dan kategori.

Tabel 4 Pembobotan Atribut

Tabel 5 Hasil perhitungan kedekatan

Tabel 6 Hasil hitung similarity dengan nilai K9

Hasil dari perhitungan adalah Tidak

Layak karena mayoritas terbanyak di dalam

parameter K9 adalah Tidak Layak.

HASIL DAN PEMBAHASAN

Pengujian akurasi algoritma Naive Bayes

untuk maka dilakukan pengujian terhadap set

data yang sudah ada dan menggunakan matriks

confusion yaitu akurasi, laju error, precision,

dan matriks sensitivitas yaitu recall

Tabel 7 Pengujian Kinerja Naive Bayes

Pengujian kinerja algoritma K-Nearest

Neighbor maka dilakukan pengujian terhadap

set data yang sudah ada dan menggunakan

matriks confusion yaitu akurasi, laju error,

precision, dan matriks sensitivitas yaitu recall

Tabel 8 Pengujian Kinerja K-Nearest Neighbor

Perbandingan kinerja algoritma Naive Bay-

es dan K-Nearest Neighbor


39

Gambar 3 Perbandingan Kinerja Algoritma

Naive Bayes dan K-Nearest Neighbor

Bisa dilihat grafik pada gambar 3, didapat

hasil bahwa K-Nearest Neighbor mempunyai ke

akurasian lebih tinggi sedikit dibandingkan

Naive Bayes sampai 2,4% sehingga K-Nearest

Neighbor adalah metode yang lebih tepat untuk

mengklasifikasikan data area distribusi, karena

memiliki akurasi tinggi dan laju error yang

rendah.

KESIMPULAN

1. Pengujian menggunakan confusion

matrix algoritma K-Nearest Neighbor

memiliki akurasi lebih besar yaitu 77%

dibandingkan dengan Naive Bayes yang

hanya memiliki akurasi 74,6%

2. Metode K-Nearest Neighbor adalah

metode yang paling tepat untuk

menentukan area baru distribusi majalah

gratis, karena memiliki akurasi lebih

besar dibandingkan dengan metode Naive

Bayes.

DAFTAR PUSTAKA

Jananto, A. (2013). Algoritma Naive Bayes

untuk Mencari Perkiraan Waktu Studi

Mahasiswa. Dinamik [On-line] Volume

18 Nomor 1.

Kumalasari, R. N. (2015). Sistem Pendukung

Keputusan Penempatan Jurusan

Mahasiswa Baru Menggunakan Metode

K-Nearest Neighbor. Cogito Smart

Journal [On-line], Volume 1 Nomor 1,

Desember 2015 IJCCS : e-ISSN: 2477-

8079 .

Mustakim, G. O. (2016). Algoritma K-Nearest

Neighbor Classification Sebagai Sistem

Prediksi Predikat Prestasi Mahasiswa.

Jurnal Sains Teknologi dan Industri.

[On-line], Volume 13 Nomor 2 , 195 -

202.

Panoto, A. (2015). Penerapan Algoritma K-

Nearest Neighbors Untuk Prediksi

Kelulusan Mahasiswa Pada STMIK

Sinar Nusantara Surakarta. Jurnal

TIKomSiN [On-line], ISSN : 2338-

4018.

Prasetyo, E. (2013). Data Mining Konsep dan

Aplikasi Menggunakan Matlab.

Yogyakarta: CV. Andi Offset.

Prasetyo, E. (2014). Data Mining Mengolah

Data Menjadi Informasi Menggunakan

Matlab. Yogyakarta: CV. Andi Offset.

Simanjuntak, T. H. (2017). Implementasi

Modified K-Nearest Neighbor Dengan

Otomatisasi Nilai K Pada

Pengklasifikasian Penyakit Tanaman

Kedelai. Jurnal Pengembangan

Teknologi Informasi dan Ilmu

Komputer, Vol. 1, No. 2, 75-79.

Ricky Aurelius Nuranto Diaz. (2016). Pen-

erapan Transformasi Kosinus Diskrit

Dalam Klasifikasi Alat Musik

Tradisional Menggunakan K-nearest

Neighbor.Jurnal Sistem dan

Informatika [On-line], Volume 10

Nomor 2.

Setiawan, T. A. (2015). Integrasi Metode

Sample Bootstrapping dan Weighted

Principal Component Analysis untuk

Meningkatkan Performa K-Nearest

Neighbor pada Dataset Besar. Journal

of Intelligent Systems. [On-line],

Volume 1 Nomor 2.

Kusrini, Emha T. L.(2009).Algoritma Data

Mining,CV. Yogyakarta: Andi Offset.

Yusra, dkk. (2016). Perbandingan Klasifikasi

Tugas Akhir Mahasiswa Jurusan

Teknik Informatika Menggunakan

Metode Naive Bayes Classifier dan K-

Nearest Neighbor. Jurnal Sains


40

Teknologi dan Industri. [On-line],

Volume 14 Nomor 1, pp. 79 – 85.

Documents

Perbandingan Klasifikasi Naive bayes dan K-Nearest