Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
BAB 2
LANDASAN TEORI
2.1 Agrikultur
Harris & Fuller. (2014) mengatakan bahwa agrikultur adalah kata paling
komprehensif yang digunakan untuk menunjukkan banyak cara bagaimana
tanaman pertanian dan hewan ternak domestik menopang populasi manusia global
dengan menyediakan makanan dan produk lainnya. Kata agrikultur berasal dari
bahasa Latin ager (ladang atau sawah) dan colo (kultivasi), saat digabungkan
menjadi Latin agricutura yang berarti ladang atau sawah atau lahan yang sedang
dikerjakan. (Harris & Fuller, 2014). Sementara itu, menurut Oxford English
Dictionary (1971), agrikultur didefinisikan dengan sangat luas sebagai “Sebuah
ilmu pengetahuan dan seni dari penanaman lahan, termasuk ke dalamnya
pencarian dari pengumpulan tumbuhan pertanian dan hewan ternak.”
Sekarang, kata ini digunakan untuk mengelompokkan berbagai aktivitas
yang penting untuk agrikultur secara luas. Terkadang, istilah agrikultur dibatasi
untuk penanaman tumbuhan pertanian dengan mengecualikan peternakan hewan
walaupun seringnya digunakan untuk kedua aktivitas (Harris & Fuller, 2014).
2.2 Business Intelligence
Sharda, Delen & Turban. (2014) mengatakan bahwa Business Intelligence
adalah sebuah umbrella term yang mengkombinasikan arsitektur, alat-alat,
databases, analytical tools, aplikasi dan teknologi. Business intelligence adalah
sebuah ekspresi yang bebas konten sehingga dapat memiliki arti yang berbeda-
beda untuk setiap orang. Tujuan utama Business intelligence adalah untuk
memungkinkan akses data (dan model) yang mudah sehingga memberikan
kemampuan untuk melakukan analisis kepada manajer bisnis. Business
intelligence membantu mentranformasikan data menjadi informasi dan
pengetahuan untuk membantu membuat keputusan dan pada akhirnya menjadi aksi
nyata.
Sistem Business Intelligence mempunyai 4 komponen utama:
1. Data warehouse, dengan sumber datanya.
2. Business analytics, kumpulan tools untuk manipulasi, mining, dan
analisis data pada data warehouse.
3. Business Performance Management (BPM) untuk monitoring dan
menganalisis performance.
4. User Interface (contoh: dashboard).
Komponen dalam arsitektur Business Intelligence:
1. Data warehouse adalah tempat penyimpanan besar untuk historical
data yang sudah terorganisir.
2. Business analytics adalah alat-alat yang memungkinkan
mentransformasikan data menjadi informasi dan pengetahuan.
3. Business Performance Management (BPM) memungkinkan
melakukan monitoring, pengukuran, dan membandingkan key
performance indicators.
4. User Interface (contoh: dashboard) memberikan akses dan
kemudahan manipulasi dari komponen Business Intelligence
lainnya.
Proyek Business Intelligence memiliki enam tahapan(stages) yaitu
Justification, planning, business analysis, design, construction dan yang terakhir
adalah deployment seperti yang dijabarkan pada Gambar 2.1. (Sharda, Delen, &
Turban, 2014)
Ke-enam tahapan(stages) tersebut memiliki aktivitas-aktivitas lagi
didalamnya namun, tidak semua aktivitas dalam tahapan tersebut perlu dilakukan.
Aktivitas dalam tahapan yang terpilih untuk dilakukan disesuaikan dengan proyek
Business Intelligence yang dikerjakan.
Gambar 2.1 Enam tahapan proyek Business Intelligence beserta aktivitas dalam masing-masing tahapan
(sumber: buku Business Intelligence A Managerial Perspective on Analytics (Sharda, Delen Dursun, & Turban, 2014)
Aktivitas yang penulis pilih dari ke-enam tahapan proyek Business
Intelligence adalah:
1. Tahap Justification: aktivitas Business Case Assessment.
Business Case Assessment terdiri dari banyak kegiatan,
namun hanya dipilih beberapa saja yang sesuai dengan proyek ini,
antara lain; penentuan kebutuhan bisnis di perusahaan, pemeriksaan
Decision Support System (DSS) perusahaan saat ini dan pengusulan
solusi Business Intelligence penulis.
Menentukan kebutuhan bisnis di perusahaan merupakan hal
yang penting, karena manfaat dari aplikasi BI untuk perusahaan
didefinisikan kegiatan ini. Sehingga, dengan mengetahui informasi
bisnis apa yang tidak bisa dimiliki dengan cara tradisional,
kegunaan dari aplikasi BI yang akan dibuat pun makin terlihat jelas.
Aktivitas pemeriksaan Decision Support System (DSS)
perusahaan saat ini bertujuan untuk mencari kekurangan atau
kelemahan dari DSS tersebut agar dapat mengetahui bagaimana
solusi BI yang diajukan dapat digunakan untuk menyelesaikan
masalah dari DSS perusahaan saat ini.
Menurut sebuah artikel pada website Binus University.
(2017) mengatakan bahwa Decision Support System (DSS) adalah
sistem pendukung keputusan yang merupakan bagian dari sistem
informasi berbasis komputer yang digunakan untuk mendukung
bisnis atau kegiatan pengambilan keputusan dalam suatu organisasi
atau perusahaan. Tujuan dari DSS yaitu untuk melayani
manajemen, operasi, tingkat perencanaan organisasi, meningkatkan
efektifitas dalam pengambilan keputusan dan membantu membuat
keputusan tentang masalah yang mungkin berubah dengan cepat
dan tidak mudah untuk diselesaikan. Menurut Haettenschwiler,
DSS dibagi menjadi tiga yaitu:
� DSS pasif adalah sistem yang membantu proses
pengambilan keputusan, tetapi tidak dapat memberi saran
keputusan atau solusi yang tegas. Sistem DSS inilah yang
diusulkan dan dibuat oleh penulis dalam proyek ini.
� DSS aktif dapat memberi saran atau solusi tersebut dengan
tegas dan jelas.
� Cooperative DSS memungkinkan untuk proses berulang-
ulang antara manusia dan sistem terhadap pencapaian
solusi konsolidasi. Pembuat keputusan dapat
memodifikasi, melengkapi atau memperbaiki saran
keputusan yang disediakan oleh sistem untuk validasi.
(Binus University, 2017)
Pada akhirnya, aktivitas terakhir yang penulis lakukan pada
tahap ini adalah pengusulan solusi BI. Pengusulan solusi BI yang
dilakukan penulis pun dilakukan dengan mempertimbangkan tujuan
perusahaan, masalah yang sedang dialami perusahaan, system
perusahaan saat ini dan keadaan serta aset yang dimiliki perusahaan
saat ini(seperti data petani, data lahan, dan sebagainya).
2. Tahap Planning: aktivitas project planning.
Pada tahap ini, requirements dan scope dari proyek
ditentukan sesuai dengan tujuan yang telah ditentukan pada tahapan
sebelumya yaitu Business case assessment.
Project requirements adalah kondisi atau tasks yang harus
diselesaikan untuk memastikan kesuksesan atau keselesaian dari
proyek (Raynor, n.d.). Tanudjaja. (2018) mengatakan bahwa tujuan
dari requirement gathering adalah untuk memahami user secara
lebih dalam, mengidentifikasi kebutuhan user yang belum
terpenuhi, dan menentukan kebutuhan mana yang bisa dipenuhi.
(TANUDJAJA, 2018)
Setelah itu, penulis memeriksa kondisi dari sumber data
yang akan diolah dan kemudian mempelajarinya untuk menentukan
apakah data dapat digunakan dalam proyek, penulis juga dapat
memperkirakan waktu untuk menyelesaikan proyek dengan
memahami data yang telah diberikan.
Kemudian, penulis menentukan Critical Success Factors.
Morrison. (2016) mengatakan bahwa Critical Success Factors
adalah faktor atau aktivitas penting yang dibutuhkan untuk
memastikan kesuksesan bisnis (proyek) (Morrison, 2016) dan,
setelah penulis melakukan semua tugas tersebut, barulah penulis
mulai mengerjakan proyek.
3. Tahap Business Analysis: aktivitas Data Analysis.
Data Analysis terdiri dari pre-processing data dan
pembuatan Entity Relationship Diagram (ERD).
Pre-processing data adalah sebuah tahapan pemprosesan
data yang dilakukan untuk memastikan bahwa data yang akan
digunakan memenuhi kriteria-kriteria dari data yang baik seperti:
• Akurat (data yang tercatat sesuai dengan kenyataan di
lapangan)
• Complete atau lengkap (tidak ada data yang kosong, tidak
tersedia atau tidak tercatat yang akan menimbulkan
masalah saat tahapan pengolahan data selanjutnya)
• Konsistensi (semua data memiliki format yang sama,
seperti; untuk semua data huruf menggunakan varchar
dan untuk semua data angka menggunakan integer,
semua data juga diupdate di saat yang sama, sehingga
tidak ada data yang masih merupakan data lama
sementara data lainnya adalah data baru)
• Timeliness (data diperbarui secara berkala, sehingga data
yang digunakan adalah yang terbaru)
• Believability (data berasal dari sumber berkualitas
sehingga data yang digunakan atau diberikan pastilah
merupakan data yang benar dan terpercaya)
• Interpretability (data mudah untuk dimengerti dan
diinterpretasikan)
Pre-processing data itu sendiri terdiri dari beberapa aktivitas
atau kegiatan yang berbeda-beda yang ditunjukkan pada gambar
2.2, antara lain:
• Data Cleaning: merupakan aktivitas membersihkan data
yang terdiri dari; mengisi nilai atau data yang kosong,
memperbaiki data noise(data yang salah atau
termodifikasi karena satu dan lain hal), mengidentifikasi
dan menghapus data outliers(data yang sangat berbeda
dari data lainnya), menyelesaikan inkonsistensi data dan
memperbaiki data yang terduplikasi.
• Data integration: merupakan aktivitas menggabungkan
atau mengintegrasikan data dari database-database,
data cubes atau files yang berbeda menjadi satu.
• Data reduction: merupakan aktivitas memotong data
sehingga hanya mengambil data yang penting atau
berguna saja untuk diolah dalam proyek.
• Data transformation: merupakan aktivitas menyamakan
format dan bentuk data sehingga data yang berada di
kolom yang sama atau memiliki atribut yang sama
memiliki jenis dan tipe data yang sama juga.
Gambar 2.2 Aktivitas dalam data pre-processing
(sumber: buku data mining concepts and techniques (Han, Kamber, & Pei, 2012)
Hal.87)
Selain melakukan pre-processing data, penulis juga
membuat Entity Relationship Diagram (ERD). Menurut Tristin.
(2019) ERD adalah sebuah model untuk menyusun database agar
dapat menggambarkan data yang mempunyai relasi dengan
database yang akan didesain. ERD memiliki empat komponen
penyusun yaitu:
• Entitas (entity), yang merupakan kumpulan objek yang
dapat diidentifikasikan secara unik atau saling berbeda.
Simbol dari entitas biasanya digambarkan dengan
persegi panjang. Selain itu, ada juga “Entitas Lemah”
yang dilambangkan dengan gambar persegi panjang
kecil di dalam persegi panjang yang lebih besar. Disebut
entitas lemah karena harus berhubungan langsung
dengan entitas lain sebab dia tidak dapat teridentifikasi
secara unik.
• Atribut (attribute), yang merupakan deskripsi karakteristik
dari sebuah entitas dan memiliki bentuk elips.
• Relasi (relation), yang merupakan hubungan antara
sejumlah entitas yang berasal dari himpunan entitas
yang berbeda dan terbagi menjadi tiga jenis yaitu:
� Satu ke satu (One to one): setiap entitas hanya bisa
mempunyai relasi dengan satu entitas lain. Contoh:
siswa dengan nomor induk siswa.
� Satu ke banyak (One to many): hubungan antara
satu entitas dengan beberapa entitas dan sebaliknya.
Contoh: guru dengan murid dan sebaliknya.
� Banyak ke banyak (Many to many): setiap entitas
bisa mempunyai banyak relasi dengan entitas lain,
dan sebaliknya. Contoh: siswa dan ekstrakurikuler.
• Garis, yang berguna untuk menghubungkan antar atribut
untuk menunjukkan hubungan entitas pada ERD.
(Tristin, 2019)
4. Tahap Design: tidak ada aktivitas yang dipilih oleh penulis.
5. Tahap Construction: aktivitas Application Development dan Data
Mining.
Pada application development, requirement final dari
proyek ditentukan karena sembari berjalannya proyek dapat terjadi
perubahan requirement dari tahap project planning sebelumnya,
pada tahap ini penulis juga mendesign dan membuat dashboard.
Untuk penjelasan lebih detail dari dashboard akan diuraikan pada
poin selanjutnya.
Pada Data Mining, tujuan utama harus ditentukan sebelum
melakukan data mining lalu, penulis menyiapkan data agar data
dapat dimasukkan kedalam aplikasi RapidMiner seperti;
mengkategorikan data, memberi label pada data, menghitung range
dan kelompok data, menghapus data yang tidak dapat di-clustering
atau di-data mining-kan juga sebagainya. Data yang telah disiapkan
lalu dimasukkan kedalam RapidMiner untuk dilakukan data
mining. Setelah selesai, hasil dari data mining pun kemudian
diinterpretasikan. Untuk penjelasan lebih detail terkait aplikasi
RapidMiner, metode data mining clustering dan algoritma K-
Means yang digunakan, akan dijelaskan pada poin selanjutnya
dibawah.
6. Tahap Deployment: aktivitas Evaluation
Pada tahap ini, penulis merencanakan dan melakukan
pertemuan untuk mereview proyek yang telah dikerjakan. Penulis
mereview semua aspek dari proyek, mulai dari perencanaan,
dokumentasi, design, pengerjaan proyek sampai hasil akhir proyek.
Review adalah sebuah aktivitas dari memikirkan sesuatu
kembali antara untuk mengubahnya, memberikan opini tentangnya
atau mempelajarinya. (Cambridge, n.d.)
2.3 Dashboard
Menurut Authoni dan Suryani (2014) mengatakan bahwa dalam
menampilkan monitoring kinerja, dashboard merupakan alat untuk menyajikan
informasi tersebut. Dashboard memberikan tampilan antarmuka dengan berbagai
bentuk seperti diagram, laporan, indikator visual, mekanisme alert, yang
dipadukan dengan informasi yang dinamis dan relevan. Dashboard
mengkonsolidasikan dan menyajikan KPI (Key Performance Indicator) secara
sekilas dalam satu layar. Sementara itu, sistem dashboard adalah sekumpulan
dashboard yang digunakan untuk memenuhi kebutuhan bisnis dalam lingkup
tertentu. (Authoni & Suryani, 2014)
2.4 Data Mining
Menurut buku tentang Data Mining oleh Retno Tri Vulandari. (2017:2)
mengatakan bahwa Data mining merupakan serangkaian proses untuk menggali
nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari
suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi
dan mengenali pola yang penting atau menarik dari data yang terdapat pada
database. Data mining terutama digunakan untuk mencari pengetahuan yang
terdapat dalam database yang besar sehingga sering disebut Knowledge Discovery
Database (KDD). (Vulandari, 2017)
KDD berhubungan dengan teknik integrasi dan penemuan ilmiah,
interpretasi dan visualisasi dari pola-pola sejumlah data. Data mining itu sendiri
memiliki dua kategori dan bermacam-macam metode dalam kategori masing-
masing. Ada dua kategori data mining yaitu prediktif dan deskriptif.
Sementara itu, menurut Ijrit, Palanichamy, Vinothini & Periyasamy.
(2014), “Data mining is the process of discovering previously unknown and
potentially interesting patterns in large datasets. The mined information is used
for representing as a model for prediction or classification. Data mining is mainly
categorized as descriptive and predictive data mining. There are two main
techniques namely classification and clustering.” (Ijrit, Palanichamy, Vinothini, &
Periyasamy, 2014)
Jadi, dapat disimpulkan bahwa data mining digunakan untuk mencari
informasi atau pola dalam dataset yang berjumlah sangat banyak, memiliki dua
kategori yaitu prediktif dan deskriptif dan juga memiliki dua teknik utama yaitu
klasifikasi dan clustering. Kategori yang dipilih dalam pengerjaan proyek ini oleh
penulis adalah deskriptif dan metode yang digunakan adalah metode clustering
dengan algoritma K-Means.
Sano. (2019) mengatakan bahwa Data Mining bekerja dengan cara
membuat beberapa model dari data yang ada dan relevan untuk mengidentifikasi
pola-pola diantara atribut-atribut yang ada di dalam dataset. Model adalah
penyajian matematis (persamaan linear sederhana dan/atau persamaan kompleks
yang sangat tidak linear) yang mengidentifikasi pola-pola diantara berbagai atribut
object yang ada di dalam dataset. Beberapa pola tersebut adalah bersifat deskriptif
(menjelaskan saling-keterkaitan atau persamaan dan kesamaan diantara berbagai
atribut tersebut), sementara yang lain adalah bersifat prediktif (memprediksi
‘value/hasil’ yang akan terjadi pada atribut-atribut tertentu). Secara umum, data
mining mengidentifikasi empat jenis pola utama:
• Association: untuk menemukan pengelompokan hal-hal yang biasanya
terjadi secara bersamaan, seperti market-basket analysis
• Predictions: menjelaskan sifat dasar kejadian di masa mendatang
terhadap peristiwa-peristiwa tertentu berdasarkan apa yang telah
terjadi di masa lalu, seperti memprediksi suhu pada hari tertentu.
• Clusters: mengidentifikasi pengelompokkan hal-hal berdasarkan
karakter-karakter yang sudah diketahui, seperti mengelompokkan
pelanggan dalam segment-segment yang berbeda berdasarkan
demographis dan perilaku pembelian di masa lalu.
• Sequential relationships: menemukan rangkaian peristiwa-peristiwa,
misalnya memprediksi bahwa seorang nasabah bank yang sudah
memiliki akun untuk checking akan segera membuka akun untuk
savings dan kemudian akan membukukan akun investment dalam
setahun kemudian. (Sano, 2019)
Riadi. (2017) mengatakan bahwa fungsi dari Data mining adalah untuk
membantu mendapatkan informasi yang berguna serta meningkatkan pengetahuan
bagi pengguna. Pada dasarnya, data mining mempunyai empat fungsi dasar yaitu:
• Fungsi Prediksi (prediction), Proses untuk menemukan pola dari data
dengan menggunakan beberapa variabel untuk memprediksikan
variabel lain yang tidak diketahui jenis atau nilainya.
• Fungsi Deskripsi (description), Proses untuk menemukan suatu
karakteristik penting dari data dalam suatu basis data.
• Fungsi Klasifikasi (classification), Klasifikasi merupakan suatu proses
untuk menemukan model atau fungsi yang digunakan untuk
mendeskripsikan data yang penting serta dapat meramalkan
kecenderungan data pada masa depan.
• Fungsi Asosiasi (association), Proses ini digunakan untuk menemukan
suatu hubungan yang terdapat pada nilai atribut dari sekumpulan
data. (Riadi, 2017)
Gambar 2.3 Bagan kategori data mining beserta metodenya masing-masing
Gambar 2.3 menunjukkan kategori dan metode dari data mining. Penulis
sendiri memilih kategori deskriptif dengan metode clustering. Untuk penjelasan
lebih jelas tentang kategori deskriptif dan metode clustering akan dijabarkan pada
penjelasan dibawah.
2.5 Deskriptif
Vulandari. (2017) mengatakan bahwa tujuan dari data mining deskriptif
adalah untuk menurunkan pola-pola (korelasi, trend, cluster, teritori, dan anomali)
yang meringkas hubungan yang pokok dalam data. (Vulandari, 2017)
Sementara itu, menurut Kodeeshwari & Ilakkiya. (2017:17) mengatakan
bahwa “Descriptive data mining tasks characterize the general properties of the
data in the database while predictive data mining is used to predict the direct
values based on patterns determined from known results.” (Kodeeshwari &
Ilakkiya, 2017)
Sehingga, bisa disimpulkan bahwa data mining descriptive
mengkarakterisasikan pola atau sifat yang ada dalam data agar dapat mengetahui
hubungan antar data-data yang ada.
2.6 Clustering
Muflikhah, Ratnawati, & Putri. (2018:11) mengatakan bahwa Clustering
disebut juga segmentation merupakan salah satu metode data mining deskriptif,
tanpa memerlukan proses pelatihan dan pengawasan (unsupervised learning).
(Muflikhah, Ratnawati, & Putri, 2018), Vulandari. (2017:60) mengatakan bahwa
clustering adalah proses pengelompokkan sejumlah data atau objek ke dalam
kelompok data sehingga setiap kelompok berisi data yang mirip. Metode ini
digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang
didasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki
kemiripan atribut. (Vulandari, 2017)
Muflikhah, Ratnawati, & Putri. (2018:73) mengatakan bahwa Clustering
mengorganisasikan sekelompok data kedalam kelompok-kelompok sedemikian
rupa sehingga objek-objek yang serupa akan menjadi satu cluster sedangkan
objek-objek yang tidak serupa menjadi anggota cluster yang lain sehingga dalam
setiap cluster akan berisi data yang semirip mungkin. Ukuran kemiripan biasanya
dihitung dengan jarak. Jarak dalam satu cluster dibuat sedekat mungkin dan jarak
antar cluster diusahakan untuk sejauh mungkin. (Muflikhah, Ratnawati, & Putri,
2018)
Suyanto. (2017:262-269) mengatakan bahwa Clustering memiliki
algoritma-algoritma yang dapat digunakan antara lain:
1. K-Means yaitu algoritma yang dimulai dengan
menetapkan nilai pusat terlebih dahulu untuk menjadi pusat
sementara dari centroid atau cluster, kemudian dengan menggunakan
rumus menghitung jarak setiap data ke pusat sehingga data yang
lebih dekat ke pusat menjadi satu kelompok dan data yang jauh
menjadi kelompok lainnya. Algoritma ini adalah algoritma yang
dipilih oleh penulis untuk diterapkan dalam proyek yang dikerjakan
karena lebih sesuai dengan data yang digunakan serta tujuan dari
proyek ini. Untuk penjelasan lebih detail dari algoritma ini, akan
dijelaskan di bawah.
2. K-Modes yaitu algoritma yang menggunakan modus atau
modes (nilai yang sering muncul). Sehingga, tentu saja harus
menggunakan ukuran dissimalirity yang berhubungan dengan objek
data bernilai nominal dan menggunakan suatu metode berbasis
frekuensi untuk memperbarui modus dalam setiap cluster. Langkah-
langkah algoritma K-Modes sama persis dengan K-Means, hanya tiga
hal yang harus diubah: dissimilarity, modus, dan metode berbasis
frekuensi untuk memperbarui modus.
3. K-Medoids yaitu algoritma yang menggunakan teknik berbasis objek
representatif (perwakilan) yang disebut medoids. K-Medoids
melakukan partisi dengan cara meminimalkan jumlah dissimilarity
antara setiap objek p dan objek representatif terdekat, yaitu
menggunakan jumlah kesalahan absolut. Konsekuensi dari strategi ini
adalah kompleksitas komputasi yang menjadi lebih tinggi, karena
harus melakukan pengecekan apakah penggantian objek representatif
dengan setiap objek lain yang bukan representatif akan meningkatkan
kualitas klasterisasi.
Tabel 2.1 Tabel perbandingan K-Means, K-Modes. Dan K-Medoids
K-Means K-Modes K-Medoids
Waktu Relatif lebih
cepat
Relatif lebih
cepat
Relatif lebih cepat
Tingkat Cukup mudah Cukup
mudah
Kompleksitas tinggi
Tipe data Numerik Nominal Numerik
4. Fuzzy C-Means (FCM) atau Fuzzy ISODATA yaitu algoritma yang
digunakan saat ada objek data yang terpisah jauh dari semua cluster
yang ada sehingga tidak bisa menggunakan algoritma K-Means, K-
Modes atau K-Medoids. Pada dasarnya, cara kerja Fuzzy C-Means
mirip dengan K-Means, namun ada dua hal yang membedakan antara
Fuzzy C-Means dengan K-Means, yaitu:
� Pada Fuzzy C-Means, setiap objek dibiarkan menjadi
anggota dari semua k cluster dengan derajat keanggotaan
berbeda-beda yang jika dijumlahkan sama dengan satu.
� Fuzzy C-Means menggunakan fungsi objektif yang dapat
dipandang sebagai total variansi objek dari centroid c.
(Suyanto, 2017)
2.7 K-Means
Yunita. (2018) menyatakan bahwa K-Means adalah salah satu metode data
non-hierarchical clustering yang dapat mengelompokkan data ke dalam beberapa
cluster berdasarkan kemiripan dari data tersebut, sehingga data yang memiliki
karakteristik yang sama dikelompokkan dalam satu cluster dan yang memiliki
karakteristik yang berbeda dikelompokkan dalam cluster yang lain. (Yunita, 2018)
Vulandari. (2017) menyatakan bahwa algoritma clustering K-Means
dilakukan berulang-ulang. Algoritma K-Means menetapkan nilai-nilai cluster (K)
secara random, untuk sementara nilai tersebut menjadi pusat dari cluster atau biasa
disebut dengan centroid, mean atau “means”. Kemudian menghitung jarak setiap
data yang ada terhadap masing-masing centroid menggunakan rumus Euclidian
pada gambar 2.4 dibawah hingga ditemukan jarak yang paling dekat dari setiap
data dengan centroid. (Vulandari, 2017)
Gambar 2.4 Rumus Euclidian
(sumber: buku data mining concepts and techniques (Han, Kamber, & Pei, 2012)
Hal.72)
Untuk mendapatkan nilai K yang paling optimal pada clustering K-Means,
perlu menghitung menggunakan Elbow Method seperti pada Gambar 2.5 dibawah.
Merliana, Ernawati, & Santoso. (2015:3) mengatakan Elbow Method adalah suatu
metode yang digunakan untuk menghasilkan informasi dalam menentukan jumlah
cluster terbaik dengan cara melihat persentase hasil perbandingan antara jumlah
cluster yang membentuk siku pada suatu titik. (Merliana, Ernawati, & Santoso,
2015) Metode ini dimulai dengan menentukan nilai K awal lalu kemudian
menghitungnya menggunakan rumus within-cluster sum of variance/error (SSE),
setelah itu terus menambah nilai K dan kemudian menghitungnya kembali dengan
rumus. Persentase perhitungan yang dihasilkan akan menjadi pembanding antara
jumlah cluster. Hasil persentase yang berbeda dari setiap nilai cluster dapat
ditunjukan dengan menggunakan grafik. Sudut dengan penurunan paling besar
adalah nilai cluster terbaik yang akan dipilih.
Gambar 2.5 Rumus Elbow Method
(sumber: jurnal Analisa Penentuan Jumlah Cluster Terbaik Pada Metode K-Means
Clustering (Merliana, Ernawati, & Santoso, 2015) Hal.3)
2.8 Software
2.8.1 Microsoft Excel
Data source yang digunakan dalam proyek ini adalah Microsoft
Excel. Microsoft Excel merupakan salah satu program software bagian
dari Microsoft office yang diproduksi oleh Microsoft yang
memungkinkan pengguna untuk mengatur, memformat dan
mengkalkulasi data dalam formula dengan sistem spreadsheet.
(techopedia, n.d.)
Gambar 2.6 Tampilan halaman awal Microsoft Excel
Gambar 2.6 menampilkan tampilan halaman awal aplikasi
Microsoft Excel, untuk membuka folder pilih menu buka dan untuk
membuat file kosong pilih menu baru. Setelah memilih menu baru maka
akan muncul spreadsheet kosong seperti pada gambar 2.7.
Gambar 2.7 Tampilan Spreadsheet kosong Microsoft Excel
Sebuah sheet atau worksheet atau spreadsheet dalam Microsoft
Excel merupakan sebuah halaman lembar kerja. Lembar kerja atau
spreadsheet dalam Microsoft Excel dapat berjumlah sangat banyak dan
dapat ditambah sesuai kebutuhan. Cell atau Sel merupakah bagian terkecil
dari spreadsheet yang dapat diisi dengan karakter(Maximal 255
Karakter). Isi cell dapat berupa nilai, angka, formula atau text. Kolom
atau column adalah ruang antara 2 garis tegak(vertikal) pada worksheet,
setiap kolom memiliki nama berdasarkan abjad, dari kolom A hingga Z,
dilanjut AA hingga XFD. Baris atau row adalah ruang antara 2 garis
mendatar(horisontal) pada worksheet, untuk setiap baris memiliki nama
berdasarkan angka, dari 1 hingga 1.048.576.
Pengguna dapat menuliskan formula atau rumus dalam cell yang
ada untuk melakukan komputasi, perhitungan, pengeditan maupun
pengolahan dari data. Sebuah formula biasanya dimulai dengan tanda
sama dengan (=) dan kemudian dilanjutkan dengan rumus yang ingin
digunakan dan nama cell yang ingin diolah.
2.8.2 Power BI
Aplikasi yang digunakan oleh penulis untuk membuat dashboard
adalah Power BI. Power BI adalah sebuah aplikasi oleh Microsoft yang
berfungsi sebagai sebuah solusi analitik yang memungkinkan untuk
memvisualisasikan data dan saling membagikan wawasan di sebuah
organisasi, atau untuk menanamkan analitik pada sebuah aplikasi atau
website (Microsoft, 2019)
Gambar 2.8 Tampilan loading Power BI
Gambar 2.9 Tampilan awal Power BI
Gambar 2.10 Tampilan lembar kerja kosong Power BI
Saat membuka aplikasi Power BI, akan muncul layar loading
seperti pada Gambar 2.8. Setelah selesai, maka akan muncul tampilan
layar awal pada Gambar 2.9. Jika ingin mulai menggunakan aplikasi,
dapat menutup popup dan akan muncul lembar kerja kosong seperti pada
Gambar 2.10.
Blythe & Sparkman. (2019) mengatakan bahwa Power BI
memiliki koleksi software, aplikasi dan konektor yang bekerja bersama
untuk mengubah data-data dari berbagai sumber yang tidak berhubungan
menjadi wawasan atau ilmu yang koheren, imersif secara visual dan
interaktif. Power BI memiliki tiga bagian seperti yang ditunjukkan pada
Gambar 2.11 dibawah, yaitu:
1. Aplikasi Windows Desktop bernama Power BI Desktop, aplikasi
inilah yang digunakan penulis dalam proyek ini.
2. Servis SaaS (Software as a Service) online bernama Power BI
service
3. Aplikasi mobile Power BI untuk alat Windows, iOS dan Android.
(Blythe & Sparkman, 2019)
Gambar 2.11 Ketiga aplikasi Power BI
(sumber: https://docs.microsoft.com/en-us/power-bi/fundamentals/power-bi-overview)
2.8.3 Rapid Miner
RapidMiner adalah aplikasi yang digunakan oleh penulis untuk
melakukan Data Mining. RapidMiner merupakan pemimpin untuk system
open source dari data mining. Tersedia sebagai aplikasi stand-alone
untuk data analisis dan mesin data mining untuk diintegrasikan kepada
aplikasi milik pengguna.
Ketika membuka aplikasi RapidMiner, tampilan awal yang
muncul adalah lembar kerja kosong seperti pada Gambar 2.12. Setelah itu
pengguna dapat langsung melakukan load data dan kemudian melakukan
data mining.
Gambar 2.12 Tampilan RapidMiner
2.9 Kerangka Pikir
Gambar 2.13 menunjukkan Kerangka pikir yang digunakan oleh penulis
dalam proyek ini. Kerangka pikir ini memiliki enam tahapan. Tahapan pertama
adalah penulis mendapatkan data petani dari tim lapangan Agree Modal. Tahapan
kedua adalah penulis menganalisis kebutuhan bisnis perusahaan, memeriksa DSS
untuk mengetahui apa yang diperlukan oleh perusahaan dan bagaimana penulis
dapat menyelesaikan permasalahan perusahaan. Tahapan ketiga adalah penulis
menentukan requirements, scope, dan critical success factors. Tahapan keempat
penulis melakukan data analysis, yaitu melakukan pre-processing dan pembuatan
ERD. Kemudian pada tahapan kelima, penulis melakukan application development
dan data mining yaitu dengan pembuatan dashboard dan clustering. Tahap
terakhir penulis melakukan evaluasi kepada Product Owner. Semua tahapan
tersebut telah ditunjukkan pada gambar 2.13 dibawah.
Gambar 2.13 Kerangka Pikir