Upload
vuongtuyen
View
253
Download
12
Embed Size (px)
Citation preview
i
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN JUDUL
SKRIPSI
Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu
Program Studi Informatika
Disusun oleh:
NUR SHOBRIANA TRIHABSARI
M0511042
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
ii
SKRIPSI
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN PENGAJUAN
Disusun oleh:
Nur Shobriana Trihabsari
M0511042
Ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar
Strata Satu Program Studi Informatika
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
iii
SKRIPSI
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN PERSETUJUAN
Disusun oleh:
Nur Shobriana Trihabsari
M0511042
Skripsi ini telah disetujui untuk dipertahankan dihadapan dewan penguji,
pada tanggal: 4 Oktober 2016
Pembimbing I,
Ristu Saptono S.Si, M.T
NIP. 19790210 200212 1001
Pembimbing 2,
Meiyanto Eko Sulistyo, S. T., M.Eng
NIP. 19770513 200912 1004
iv
SKRIPSI
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN
HALAMAN PENGESAHAN
Disusun oleh:
Nur Shobriana Trihabsari
M0511042
Telah dipertahankan dihadapan Dewan Penguji,
pada tanggal: 4 Oktober 2016
Susunan Dewan Penguji
1. Ristu Saptono, S.Si., M.T. ( )
NIP. 19790210 200212 1001
2. Meiyanto Eko Sulistyo, S. T., M.Eng. ( )
NIP. 19770513 200912 1004
3. Afrizal Doewes, S.Kom., M.Sc. ( )
NIP. 19850831 201212 1004
4. Dr. Wiranto, M.Kom., M.Cs ( )
NIP. 19661230 199302 1001
Disahkan oleh
Kepala Program Studi Informatika
Drs. Bambang Harjito, M.App.Sc, Ph.D.
NIP. 19621130 199103 1002
v
PERSEMBAHAN
Dengan segala rasa syukur, laporan skripsi ini penulis persembahkan kepada:
Bapak Ristu Saptono, S.Si, M.T. serta Bapak Meiyano Eko Sulistyo S. T., M.Eng.
Sahabat dan keluarga Informatika khususnya teman seperjuangan angkatan 2011.
vi
MOTTO
“There are no secret to success. It is the result of preparation, hard work, and
learning from failure.”
Colin Powell
vii
KATA PENGANTAR
Puji syukur kehadirat Allah SWT yang telah melimpahkan rahmatnya
sehingga penulis dapat menyelesaikan Skripsi dengan judul “Klasifikasi Teks
Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN”.
Laporan Skripsi ini disusun untuk memenuhi salah satu syarat dalam memperoleh
gelar Sarjana Komputer pada Program Studi Informatika Universitas Sebelas
Maret.
Dalam melakukan penelitian dan penyusunan laporan Skripsi ini penulis
telah mendapatkan banyak dukungan dan bantuan dari berbagai pihak. Penulis
mengucapkan terimakasih yang tak terhingga kepada:
1. Bapak dan Ibu serta keluarga yang selalu memberikan dukungan dan
semangat untuk menyelesaikan tugas akhir.
2. Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D. selaku Dekan
Fakultas MIPA Universitas Sebelas Maret.
3. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program
Studi Informatika Universitas Sebelas Maret.
4. Bapak Abdul Aziz S.Kom., M.Cs. dosen Pembimbing Akademik yang telah
memberikan bimbingan selama Penulis menempuh studi di Program Studi
Informatika.
5. Bapak Ristu Saptono, S.Si., M.T. dan Bapak Meiyanto Eko Sulistyo S.T.,
M.Eng. selaku dosen pembimbing yang telah dengan penuh kesabaran dan
ketulusan memberikan ilmu dan bimbingan terbaik kepada Penulis.
6. Para Dosen Program Studi Informatika Universitas Sebelas Maret yang
telah memberikan bekal ilmu kepada Penulis.
7. Bapak Rahmulyo, S.Pd., Bapak Drs. Sudarsono, Bapak Aris Wahyudi,
S.Pd., Ibu Dra. Nanik Murti Rasetyani, Ibu Ika Striratna, S.Pd., Ibu Fibrianti
Ekayani, S.Pd., Ibu Erni Lestari Septyarini, S.Pd., dan Ibu Dra. Puji Rahayu
yang telah membantu validasi data soal ujian SBMPTN.
viii
Penulis menyadari sepenuhnya bahwa laporan Skripsi ini masih jauh dari
sempurna. Walaupun demikian, semoga tulisan ini dapat memberikan manfaat dan
memberikan wawasan tambahan bagi para pembaca dan khususnya bagi penulis.
Surakarta, 2016
Penulis
ix
KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES
UPDATEABLE PADA SOAL UJIAN SBMPTN
NUR SHOBRIANA TRIHABSARI
Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Sebelas Maret
ABSTRAK
Teks merupakan salah satu jenis penyajian informasi yang terbentuk dari
susunan kata-kata dengan bahasa tertentu. Informasi yang tersimpan dalam suatu
teks diantaranya tema yang dibahas, isu yang diangkat, bahasa yang digunakan
dan sebagainya. Seseorang dapat mengetahui tema yang sedang dibahas oleh suatu
teks karena melihat adanya karakteristik dari teks tersebut. Karakteristik dari
sebuah teks dapat dilihat dari kata-kata penyusunnya. Dengan memanfaatkan
karakteristiknya, sebuah teks dapat diklasifikasikan berdasarkan jenis informasi
yang tersimpan. Terdapat berbagai algoritma klasifikasi. Salah satu algoritma
klasifikasi teks yang sering digunakan adalah Naive Bayes Classifier (NBC). NBC
dalam penelitian ini digunakan untuk mengklasifikasikan teks berupa soal-soal
ujian SBMPTN berdasarkan tema bidang studinya. Salah satu metode seleksi fitur
DF-Threshold diterapkan untuk mendukung proses klasifikasi. Model increment
dari klasifikasi diperlukan, mengingat jumlah teks soal ujian yang terus
berkembang dan bertambah. Model increment dari NBC yaitu Naive Bayes
Updateable memiliki kemampuan untuk belajar dari data-data yang baru dikenal
oleh sistem bahkan setelah classifier dijalankan dengan data yang ada sebelumnya.
Penelitian ini dilakukan untuk mengetahui bagaimana kinerja Naive Bayes
Updateable dalam mengklasifikasikan soal-soal ujian SBMPTN berdasarkan tema
bidang studi. Evaluasi klasifikasi dengan algoritma Naive Bayes Updateable
menghasilkan akurasi 90,91%.
Kata kunci: DF-Threshold, klasifikasi, Naive Bayes Updateable.
x
TEXT CLASSIFICATION USING NAIVE BAYES UPDATEABLE
ALGORITHM IN SBMPTN TEST QUESTIONS
NUR SHOBRIANA TRIHABSARI
Department of Informatics, Faculty of Mathematics and Natural Science,
Sebelas Maret University
ABSTRACT
Text is one way to present the information that is formed by words of the
particular language. Information which stored in a text such as the themes
discussed, the issues raised, the language used and so on. We can discover which
theme is being discussed by a text because we saw the characteristics of the text.
Characteristics of a text can be seen from the diction it used. By utilizing its
characteristics, a text can be classified based on the type of stored information.
There are various classification algorithms. One algorithm frequently used in text
classification is Naive Bayes Classifier (NBC). NBC in this study is used to classify
text form SBMPTN exam questions based on the theme of the field of study. One
method of feature selection DF-Threshold applied to support the classification
process. Incremental model of this classification is required, considering the
amount of exam questions that continuosly growing. Naive Bayes Updateable is an
incremental model from NBC. It has the ability to learn from new data introduces
with the system even after the classifier has been produced with the existing data.
This study was conducted to determine about Naive Bayes Updateable
classification performance for the SBMPTN exam questions based on its theme of
the field of study. This algorithm produced 90,91% accuracy
Keywords: classification, DF-Threshold, Naive Bayes Updateable.
xi
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
HALAMAN PENGAJUAN .................................................................................... ii
HALAMAN PERSETUJUAN ............................................................................... iii
HALAMAN PENGESAHAN ................................................................................ iv
PERSEMBAHAN ................................................................................................... v
MOTTO ................................................................................................................. vi
KATA PENGANTAR .......................................................................................... vii
ABSTRAK ............................................................................................................. ix
ABSTRACT ............................................................................................................ x
DAFTAR ISI .......................................................................................................... xi
DAFTAR TABEL ................................................................................................ xiii
DAFTAR GAMBAR ............................................................................................ xv
DAFTAR LAMPIRAN ........................................................................................ xvi
1. BAB I PENDAHULUAN .................................................................................. 1
Latar Belakang ..................................................................................... 1
Rumusan Masalah ................................................................................ 3
Batasan Masalah ................................................................................... 3
Tujuan Penelitian.................................................................................. 4
Manfaat Penelitian................................................................................ 4
Sistematika Penulisan ........................................................................... 4
2. BAB II TINJAUAN PUSTAKA ....................................................................... 6
Dasar Teori ........................................................................................... 6
Stemming .................................................................................. 6
Tokenizing .............................................................................. 11
Stopword Removal .................................................................. 12
Document Frequency Thresholding ....................................... 12
Naive Bayes Classifier ............................................................ 13
xii
Naive Bayes Updateable ........................................................ 16
Penelitian Terkait ............................................................................... 16
Rencana Penelitian ............................................................................. 18
3. BAB III METODOLOGI PENELITIAN ......................................................... 20
Pengumpulan Data ............................................................................. 20
Text Preprocessing ............................................................................. 21
Training Data ..................................................................................... 21
Feature Selection................................................................................ 21
Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ............... 24
Evaluasi .............................................................................................. 25
4. BAB IV HASIL DAN PEMBAHASAN .......................................................... 28
Pengumpulan Data ............................................................................. 28
Text Preprocessing ............................................................................. 28
Training Data ..................................................................................... 29
Feature Selection................................................................................ 31
Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ............... 33
Evaluasi .............................................................................................. 34
5. BAB V PENUTUP ........................................................................................... 51
Kesimpulan......................................................................................... 51
Saran ................................................................................................... 51
DAFTAR PUSTAKA ........................................................................................... 52
xiii
DAFTAR TABEL
Tabel 2.1 Kombinasi awalan dan akhiran yang tidak diijinkan .............................. 7
Tabel 2.2 Cara menentukan tipe awalan kata yang diawali dengan “te-“ ............... 8
Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ............................................... 8
Tabel 2.4 Daftar Stopwords dalam Bahasa Indonesia ........................................... 12
Tabel 2.5 Keterkaitan penelitian dengan penelitian sebelumnya .......................... 18
Tabel 3.1 Contoh Term Frequency dan Document Frequency ............................. 22
Tabel 3.2 Confusion matrix hasil klasifikasi ......................................................... 25
Tabel 4.1 Pengaruh pemilihan angka threshold terhadap akurasi......................... 33
Tabel 4.2 Precision, recall, dan f-measure dari proses memorizing I .................. 34
Tabel 4.3 Confussion matrix dari proses testing I ................................................ 36
Tabel 4.4 Precision, recall, dan f-measure dari proses testing I ........................... 36
Tabel 4.5 Precision, recall, dan f-measure dari proses memorizing II ................. 37
Tabel 4.6 Confussion matrix dari proses testing II ............................................... 38
Tabel 4.7 Precision, recall, dan f-measure dari proses testing II ......................... 39
Tabel 4.8 Hasil evaluasi klasifikasi ....................................................................... 39
Tabel 4.9 Fitur data testing yang gagal diklasifikasikan dengan benar pada proses
testing I ............................................................................................... 40
Tabel 4.10 Daftar keyword dari kelas Reaksi Redoks dan Elektrokimia dan kelas
Metabolisme ....................................................................................... 42
Tabel 4.11 Mean dan varian fitur dari kelas Reaksi Redoks dan Elektrokimia dan
kelas Metabolisme .............................................................................. 43
Tabel 4.12 Daftar keyword dari kelas Sosialisasi sebagai Proses dalam
Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang
dan Sikap Antisosial ........................................................................... 44
Tabel 4.13 Mean dan varian fitur dari kelas Sosialisasi sebagai Proses dalam
Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang
dan Sikap Antisosial ........................................................................... 45
xiv
Tabel 4.14 Daftar keyword dari kelas Proses Interaksi Sosial sebagai Dasar
Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas
Perubahan Sosial di Masyarakat ........................................................ 46
Tabel 4.15 Mean dan varian fitur dari kelas Proses Interaksi Sosial sebagai Dasar
Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas
Perubahan Sosial di Masyarakat ........................................................ 47
Tabel 4.16 Daftar fitur soal ujian yang gagal diklasifikasikan dengan benar pada
proses testing II .................................................................................. 48
Tabel 4.17 Daftar keyword dari kelas Jaringan Tumbuhan dan kelas Pertumbuhan
dan Perkembangan – Teori ................................................................. 48
Tabel 4.18 Mean dan varian fitur dari kelas Jaringan Tumbuhan dan kelas
Pertumbuhan dan Perkembangan – Teori .......................................... 49
Tabel 4.19 Perbandingan fitur soal ujian data testing I dan II kelas Reaksi Redoks
dan Elektrokimia ................................................................................ 50
xv
DAFTAR GAMBAR
Gambar 2.1 Proses Tokenisasi .............................................................................. 11
Gambar 3.1 Diagram alir metodologi penelitian................................................... 20
Gambar 4.1 Contoh tahapan text preprocesiing .................................................... 29
Gambar 4.2 Contoh perhitungan nilai mean dan varian ....................................... 30
Gambar 4.3 Contoh proses yang terjadi pada tahap seleksi fitur .......................... 32