Upload
others
View
24
Download
0
Embed Size (px)
Citation preview
Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020
34
Perbandingan Klasifikasi Naive bayes dan K-Nearest Neighbor Dalam
Menentukan Area Baru Distribusi Majalah Gratis
Nurfiqih
1
1Program Studi Teknik Informatika, Fakultas Teknik Sekolah Tinggi Manajemen Informatika
dan Komputer ERESHA Jl. Raya Puspitek No. 10, Serpong – Tangerang Selatan [email protected]
Abstrak
PT. Media Komunitas Serpong merupakan salah satu perusahaan yang bergerak di bidang jasa
periklanan, percetakan dan pendistribusian majalah gratis, perkembangan hunian yang semakin
meningkat membuat PT. Media Komunitas Serpong terus berusaha untuk memperluas area distribusi
untuk menjaring para pembaca, dalam menentukan layak atau tidaknya hunian di suatu wilayah perlu
dilakukan langkah awal dengan melakukan survey terhadap hunian yang akan diambil keputusan layak
atau tidak, saat ini keputusan dalam menentukan layak atau tidak memerlukan analisa serta diskusi
panjang sehingga cara tersebut masih kurang efektif, Tepat sasaran dalam pendistribusian majalah
merupakan salah satu faktor penting bagi PT. Media Komunitas Serpong untuk terus berkembang
dalam memenuhi kebutuhan informasi di setiap wilayah area distribusi. Ketepatan pengiriman majalah
ke tangan penerima yang tepat harus memiliki penentuan area secara tepat pula, PT. Media Komunitas
Serpong membutuhkan informasi yang dapat memberikan hasil keputusan yang tepat efektif dan
efisien terutama pemilihan area distribusi baru, Naive Bayes Classifier dan K-Nearest Neighbor
adalah dua diantara metode klasifikasi pada data mining, dengan memilih metode yang lebih baik yang
akan diambil yaitu dengan cara membandingkan serta dan mendapat hasil akurasi terbaik, akurasi
terbaik dari salah satu metode tersebut yang akan di gunakan PT. Media Komunitas Serpong untuk
menentukan keputusan area distribusi baru secara tepat efektif dan efisien.
Kata kunci: distribusi, data mining, naive bayes, k-nearest neighbor.
Abstract
PT. Media Komunitas Serpong is one of the companies engaged in advertising services, printing
and distribution of free magazines, the development of housing that is increasing makes PT. Media
Community Serpong continues to strive to expand the distribution area to attract readers, in
determining whether or not a residential area is appropriate, it is necessary to take the initial step by
conducting a survey of the occupancy to make a decision whether it is feasible or not, currently the
decision to determine whether it is feasible or not necessary analysis and long discussion so that this
method is still ineffective. Right on target in magazine distribution is one of the important factors for
PT. Media Community Serpong to continue to develop in fulfilling the information needs in each
distribution area. The accuracy of sending magazines to the right recipient must have a precise
determination of the area as well, PT. The Serpong Community Media needs information that can
provide the right decision results effectively and efficiently, especially the selection of a new
distribution area, the Naive Bayes Classifier and K-Nearest Neighbor are two of the classification
methods in data mining, by choosing a better method to be taken, namely by compare and get the best
accuracy results, the best accuracy from one of these methods that will be used by PT. Media
Community Serpong to determine the new distribution area decisions appropriately, effectively and
efficiently.
Keywords: distribution, data mining, naive bayes, k-nearest neighbor.
Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020
35
PENDAHULUAN
Dalam dunia bisnis yang selalu dinamis
dan penuh persaingan, para pengusaha harus
senantiasa memikirkan cara-cara untuk terus
survive dan meningkatkan skala bisnis.
Berbagai perubahan teknologi berdampak
pada perkembangan perekonomian di dunia dan
telah mengubah proses bisnis yang ada.
Persaingan yang ketat dalam dunia bisnis
terjadi hampir di berbagai jenis industri. Hal ini
menjadi tantangan tersendiri bagi para pelaku
bisnis untuk lebih kreatif dalam menjaga
keberlangsungan hidup usahanya agar mampu
menghadapi perubahan dan unggul dalam
persaingan.
PT. Media Komunitas Serpong mer-
upakan salah satu perusahaan yang bergerak
dibidang jasa periklanan, percetakan dan
pendistribusian majalah gratis. Perkembangan
hunian yang berkelas dan berkemajuan
membuat PT. Media Komunitas Serpong terus
meningkatkan pendapatan dari segi jasa
periklanan.
Gambar 1 Peningkatan Oplah
Gambar 2 Penurunan Iklan
Dari gambar grafik diatas pada gambar 1
ada bias dilihat ada peningkatan oplah artinya
tingginya permintaan akan majalah sehingga
oplah ditingkatkan, berbanding terbalik dengan
gambar 2 yaitu penurunan iklan, mengakibatkan
pendapatan atau profit perusahaan menurun
yang diakibatkan kepercayaan pengiklan
terhadap respon yang diberikan menurun,
sehingga klien merasa bahwa distribusi yang
dilakukan belum tepat atau tidak tepat sasaran.
sehingga dibutuhkan metode yang tepat dan
akurat dalam menentukan area distribusi.
Data mining mencari informasi baru dari
data yang besar, dan juga sebagai serangkaian
proses untuk menggali nilai tambah seperti ilmu
pengetahuan yang belum diketahui data-data
yang tersimpan begitu banyak dimanfaatkan
untuk mencari pola yang berguna itulah data
mining (Eko Prasetyo, 2013).
Klasifikasi digunakan untuk mempr-
ediksi kelas dari objek yang kelasnya belum
diketahui (Eko Prasetyo,2014).
Naive Bayes menghitung probabilitas
dari sebuah hipotesis berdasarkan prior pro-
bability, nilai yang probabilitas yang diyakini
benar sebelum melakukan pencarian atau
eksperimen disebut prior probability. Naive
bayes masuk kedalam metod klasifikasi, untuk
memprediksi kelas dari objek yang nilai
kelasnya belum diketahui(Eko Prasetyo,2014).
P(H|X) =P(X|H) x P(H)
P(X)
Ket :
X : Data dengan class yang belum dike-
tahui
H : Hipotesis data X merupakan suatu
class spesifik
P(H|X) : Probabilitas hipotesis H berdasar
kondisi X (posteriori probability)
P(H) : Probabilitas hipotesis H (prior
probability) atau probabilitas Awal
Untuk data kontinyu dilakukan per-
hitungan menggunakan fungsi distribusi gau-
ssian
P(Xi = 𝑥𝑖| Y = 𝑦𝑖) = 1
√2πσij
exp−
(xi− μij)2
2σij
Ket :
µi = Mean
σij = Standar deviasi
e = 2,718
Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020
36
K-Nearest Neighbor (KNN) termasuk
kelompok instance based learning. Algoritma
ini juga merupakan salah satu teknik lazy
learning. KNN dilakukan dengan mencari
kelompok k ob-jek dalam data training yang
paling dekat (mirip) dengan objek pada data
baru atau data testing.
𝑆𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 (𝑝, 𝑞) =∑ 𝑓(𝑝𝑖 , 𝑞𝑖) ∗ 𝑤𝑖
𝑛𝑖=1
𝑤𝑖
Ket :
p : Kasus baru
q : Kasus yang ada pada penyimpanan
n : Jumlah atribut dalam tiap kasus
i : Atribut individu antara 1 sampai
dengan n
f : Fungsi similarity atribut i antara kasus p
dan kasus q
w : Bobot yang diberikan pada atribut ke-i
Sebuah sistem yang melakukan
klasifikasi diharapkan dapat melakukan
klasifikasi semua set data dengan benar, tetapi
tidak dapat dipungkiri bahwa kinerja suatu
sistem tidak bisa 100% benar sehingga sebuah
sistem klasifikasi juga harus diukur kinerjanya.
Umumnya, pengukuran kinerja klasifikasi
dilakukan dengan matriks konfusi (Eko
Prasetyo, 2013)
Akurasi =Jumlah data yang diprediksi secara benar
Jumlah prediksi yang dilakukan
=f11 + f00
f11 + f10 + f01 + f00
𝐸𝑟𝑟𝑜𝑟
=𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑠𝑒𝑐𝑎𝑟𝑎 𝑠𝑎𝑙𝑎ℎ
𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑦𝑎𝑛𝑔 𝑑𝑖𝑙𝑎𝑘𝑢𝑘𝑎𝑛
=𝑓10 + 𝑓01
𝑓11 + 𝑓10 + 𝑓01 + 𝑓00
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓
𝑅𝑒𝑐𝑎𝑙𝑙 =𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑓 + 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑓
Precision (disebut juga positive
prediction value) merupakan metrik untuk
mengukur kinerja sistem dalam mendapatkan
data yang relevan. Sementara recall (disebut
juga sensitivitas) merupakan metrik untuk
mengukur kinerja sistem dalam mendapatkan
data relevan yang terbaca (Eko Prasetyo, 2014).
METODE
Data training Data yang dikumpulkan
dari beberapa divisi terkait area distribusi
menjadi data training distribusi
Tabel 1 Training Distribusi
Data testing adalah data hasil survey
hunian yang dilakukan oleh tim, yang
selanjutnya dilakukan uji kelayakan dalam
penentuan keputusan distribusi.
Tabel 2 Data Testing Area Serpong
Garden
Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020
37
Tabel 3 Probabilitas Fitur dan Kelas
Menentukan probabilitas akhir dari setiap
kelas
Likelihood Layak = 0.2289 x 0,5542 x 0.5662 x
0.5903 x 0,0698 x 0,0007679 x 0,1686 x
0,2289 x 0,8072 x 0,012 x 0,9638 =
0,000000000818
Likelihood Tidak Layak = 0,2941 x 0,3333 x
0,5294 x 0,6274 x 0,2108 x 0,0006478 x 0,4313
x 0,5686 x 0,9803 x 0,1372 x 1 = 0,0000001466
Dari hasil yang didapat dari data test
yang diberikan, dimana nilai probabilitas akhir
terbesar ada di kelas Tidak Layak sehingga
diambil keputusan area atau hunian tersebut
tidak layak distribusi majalah gratis.
Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020
38
Jika dilihat data training distribusi yang
bersifat campuran pada algoritma k-nearest
neighbour maka untuk menghitung jarak yang
paling tepat adalah menggunakan kedekatan
similarity, Sebelum melakukan perhitungan
jarak dengan similarity dilakukan pembobotan
terlebih dahulu yang diambil dari presentase
data survey perusahaan untuk masing masing
atribut dan kategori.
Tabel 4 Pembobotan Atribut
Tabel 5 Hasil perhitungan kedekatan
Tabel 6 Hasil hitung similarity dengan nilai K9
Hasil dari perhitungan adalah Tidak
Layak karena mayoritas terbanyak di dalam
parameter K9 adalah Tidak Layak.
HASIL DAN PEMBAHASAN
Pengujian akurasi algoritma Naive Bayes
untuk maka dilakukan pengujian terhadap set
data yang sudah ada dan menggunakan matriks
confusion yaitu akurasi, laju error, precision,
dan matriks sensitivitas yaitu recall
Tabel 7 Pengujian Kinerja Naive Bayes
Pengujian kinerja algoritma K-Nearest
Neighbor maka dilakukan pengujian terhadap
set data yang sudah ada dan menggunakan
matriks confusion yaitu akurasi, laju error,
precision, dan matriks sensitivitas yaitu recall
Tabel 8 Pengujian Kinerja K-Nearest Neighbor
Perbandingan kinerja algoritma Naive Bay-
es dan K-Nearest Neighbor
Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020
39
Gambar 3 Perbandingan Kinerja Algoritma
Naive Bayes dan K-Nearest Neighbor
Bisa dilihat grafik pada gambar 3, didapat
hasil bahwa K-Nearest Neighbor mempunyai ke
akurasian lebih tinggi sedikit dibandingkan
Naive Bayes sampai 2,4% sehingga K-Nearest
Neighbor adalah metode yang lebih tepat untuk
mengklasifikasikan data area distribusi, karena
memiliki akurasi tinggi dan laju error yang
rendah.
KESIMPULAN
1. Pengujian menggunakan confusion
matrix algoritma K-Nearest Neighbor
memiliki akurasi lebih besar yaitu 77%
dibandingkan dengan Naive Bayes yang
hanya memiliki akurasi 74,6%
2. Metode K-Nearest Neighbor adalah
metode yang paling tepat untuk
menentukan area baru distribusi majalah
gratis, karena memiliki akurasi lebih
besar dibandingkan dengan metode Naive
Bayes.
DAFTAR PUSTAKA
Jananto, A. (2013). Algoritma Naive Bayes
untuk Mencari Perkiraan Waktu Studi
Mahasiswa. Dinamik [On-line] Volume
18 Nomor 1.
Kumalasari, R. N. (2015). Sistem Pendukung
Keputusan Penempatan Jurusan
Mahasiswa Baru Menggunakan Metode
K-Nearest Neighbor. Cogito Smart
Journal [On-line], Volume 1 Nomor 1,
Desember 2015 IJCCS : e-ISSN: 2477-
8079 .
Mustakim, G. O. (2016). Algoritma K-Nearest
Neighbor Classification Sebagai Sistem
Prediksi Predikat Prestasi Mahasiswa.
Jurnal Sains Teknologi dan Industri.
[On-line], Volume 13 Nomor 2 , 195 -
202.
Panoto, A. (2015). Penerapan Algoritma K-
Nearest Neighbors Untuk Prediksi
Kelulusan Mahasiswa Pada STMIK
Sinar Nusantara Surakarta. Jurnal
TIKomSiN [On-line], ISSN : 2338-
4018.
Prasetyo, E. (2013). Data Mining Konsep dan
Aplikasi Menggunakan Matlab.
Yogyakarta: CV. Andi Offset.
Prasetyo, E. (2014). Data Mining Mengolah
Data Menjadi Informasi Menggunakan
Matlab. Yogyakarta: CV. Andi Offset.
Simanjuntak, T. H. (2017). Implementasi
Modified K-Nearest Neighbor Dengan
Otomatisasi Nilai K Pada
Pengklasifikasian Penyakit Tanaman
Kedelai. Jurnal Pengembangan
Teknologi Informasi dan Ilmu
Komputer, Vol. 1, No. 2, 75-79.
Ricky Aurelius Nuranto Diaz. (2016). Pen-
erapan Transformasi Kosinus Diskrit
Dalam Klasifikasi Alat Musik
Tradisional Menggunakan K-nearest
Neighbor.Jurnal Sistem dan
Informatika [On-line], Volume 10
Nomor 2.
Setiawan, T. A. (2015). Integrasi Metode
Sample Bootstrapping dan Weighted
Principal Component Analysis untuk
Meningkatkan Performa K-Nearest
Neighbor pada Dataset Besar. Journal
of Intelligent Systems. [On-line],
Volume 1 Nomor 2.
Kusrini, Emha T. L.(2009).Algoritma Data
Mining,CV. Yogyakarta: Andi Offset.
Yusra, dkk. (2016). Perbandingan Klasifikasi
Tugas Akhir Mahasiswa Jurusan
Teknik Informatika Menggunakan
Metode Naive Bayes Classifier dan K-
Nearest Neighbor. Jurnal Sains
Humanika: Jurnal Ilmu Sosial, Pendidikan, dan Humaniora Vol. 4 No. 1, Januari 2020
40
Teknologi dan Industri. [On-line],
Volume 14 Nomor 1, pp. 79 – 85.