16
i KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL SKRIPSI Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu Program Studi Informatika Disusun oleh: NUR SHOBRIANA TRIHABSARI M0511042 PROGRAM STUDI INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2016

i KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES

Embed Size (px)

Citation preview

i

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES

UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN JUDUL

SKRIPSI

Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu

Program Studi Informatika

Disusun oleh:

NUR SHOBRIANA TRIHABSARI

M0511042

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2016

ii

SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES

UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PENGAJUAN

Disusun oleh:

Nur Shobriana Trihabsari

M0511042

Ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar

Strata Satu Program Studi Informatika

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2016

iii

SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES

UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PERSETUJUAN

Disusun oleh:

Nur Shobriana Trihabsari

M0511042

Skripsi ini telah disetujui untuk dipertahankan dihadapan dewan penguji,

pada tanggal: 4 Oktober 2016

Pembimbing I,

Ristu Saptono S.Si, M.T

NIP. 19790210 200212 1001

Pembimbing 2,

Meiyanto Eko Sulistyo, S. T., M.Eng

NIP. 19770513 200912 1004

iv

SKRIPSI

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES

UPDATEABLE PADA SOAL UJIAN SBMPTN

HALAMAN PENGESAHAN

Disusun oleh:

Nur Shobriana Trihabsari

M0511042

Telah dipertahankan dihadapan Dewan Penguji,

pada tanggal: 4 Oktober 2016

Susunan Dewan Penguji

1. Ristu Saptono, S.Si., M.T. ( )

NIP. 19790210 200212 1001

2. Meiyanto Eko Sulistyo, S. T., M.Eng. ( )

NIP. 19770513 200912 1004

3. Afrizal Doewes, S.Kom., M.Sc. ( )

NIP. 19850831 201212 1004

4. Dr. Wiranto, M.Kom., M.Cs ( )

NIP. 19661230 199302 1001

Disahkan oleh

Kepala Program Studi Informatika

Drs. Bambang Harjito, M.App.Sc, Ph.D.

NIP. 19621130 199103 1002

v

PERSEMBAHAN

Dengan segala rasa syukur, laporan skripsi ini penulis persembahkan kepada:

Bapak Ristu Saptono, S.Si, M.T. serta Bapak Meiyano Eko Sulistyo S. T., M.Eng.

Sahabat dan keluarga Informatika khususnya teman seperjuangan angkatan 2011.

vi

MOTTO

“There are no secret to success. It is the result of preparation, hard work, and

learning from failure.”

Colin Powell

vii

KATA PENGANTAR

Puji syukur kehadirat Allah SWT yang telah melimpahkan rahmatnya

sehingga penulis dapat menyelesaikan Skripsi dengan judul “Klasifikasi Teks

Menggunakan Algoritma Naive Bayes Updateable pada Soal Ujian SBMPTN”.

Laporan Skripsi ini disusun untuk memenuhi salah satu syarat dalam memperoleh

gelar Sarjana Komputer pada Program Studi Informatika Universitas Sebelas

Maret.

Dalam melakukan penelitian dan penyusunan laporan Skripsi ini penulis

telah mendapatkan banyak dukungan dan bantuan dari berbagai pihak. Penulis

mengucapkan terimakasih yang tak terhingga kepada:

1. Bapak dan Ibu serta keluarga yang selalu memberikan dukungan dan

semangat untuk menyelesaikan tugas akhir.

2. Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D. selaku Dekan

Fakultas MIPA Universitas Sebelas Maret.

3. Bapak Drs. Bambang Harjito, M.App.Sc, Ph.D. selaku Kepala Program

Studi Informatika Universitas Sebelas Maret.

4. Bapak Abdul Aziz S.Kom., M.Cs. dosen Pembimbing Akademik yang telah

memberikan bimbingan selama Penulis menempuh studi di Program Studi

Informatika.

5. Bapak Ristu Saptono, S.Si., M.T. dan Bapak Meiyanto Eko Sulistyo S.T.,

M.Eng. selaku dosen pembimbing yang telah dengan penuh kesabaran dan

ketulusan memberikan ilmu dan bimbingan terbaik kepada Penulis.

6. Para Dosen Program Studi Informatika Universitas Sebelas Maret yang

telah memberikan bekal ilmu kepada Penulis.

7. Bapak Rahmulyo, S.Pd., Bapak Drs. Sudarsono, Bapak Aris Wahyudi,

S.Pd., Ibu Dra. Nanik Murti Rasetyani, Ibu Ika Striratna, S.Pd., Ibu Fibrianti

Ekayani, S.Pd., Ibu Erni Lestari Septyarini, S.Pd., dan Ibu Dra. Puji Rahayu

yang telah membantu validasi data soal ujian SBMPTN.

viii

Penulis menyadari sepenuhnya bahwa laporan Skripsi ini masih jauh dari

sempurna. Walaupun demikian, semoga tulisan ini dapat memberikan manfaat dan

memberikan wawasan tambahan bagi para pembaca dan khususnya bagi penulis.

Surakarta, 2016

Penulis

ix

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES

UPDATEABLE PADA SOAL UJIAN SBMPTN

NUR SHOBRIANA TRIHABSARI

Program Studi Informatika, Fakultas Matematika dan Ilmu Pengetahuan Alam,

Universitas Sebelas Maret

ABSTRAK

Teks merupakan salah satu jenis penyajian informasi yang terbentuk dari

susunan kata-kata dengan bahasa tertentu. Informasi yang tersimpan dalam suatu

teks diantaranya tema yang dibahas, isu yang diangkat, bahasa yang digunakan

dan sebagainya. Seseorang dapat mengetahui tema yang sedang dibahas oleh suatu

teks karena melihat adanya karakteristik dari teks tersebut. Karakteristik dari

sebuah teks dapat dilihat dari kata-kata penyusunnya. Dengan memanfaatkan

karakteristiknya, sebuah teks dapat diklasifikasikan berdasarkan jenis informasi

yang tersimpan. Terdapat berbagai algoritma klasifikasi. Salah satu algoritma

klasifikasi teks yang sering digunakan adalah Naive Bayes Classifier (NBC). NBC

dalam penelitian ini digunakan untuk mengklasifikasikan teks berupa soal-soal

ujian SBMPTN berdasarkan tema bidang studinya. Salah satu metode seleksi fitur

DF-Threshold diterapkan untuk mendukung proses klasifikasi. Model increment

dari klasifikasi diperlukan, mengingat jumlah teks soal ujian yang terus

berkembang dan bertambah. Model increment dari NBC yaitu Naive Bayes

Updateable memiliki kemampuan untuk belajar dari data-data yang baru dikenal

oleh sistem bahkan setelah classifier dijalankan dengan data yang ada sebelumnya.

Penelitian ini dilakukan untuk mengetahui bagaimana kinerja Naive Bayes

Updateable dalam mengklasifikasikan soal-soal ujian SBMPTN berdasarkan tema

bidang studi. Evaluasi klasifikasi dengan algoritma Naive Bayes Updateable

menghasilkan akurasi 90,91%.

Kata kunci: DF-Threshold, klasifikasi, Naive Bayes Updateable.

x

TEXT CLASSIFICATION USING NAIVE BAYES UPDATEABLE

ALGORITHM IN SBMPTN TEST QUESTIONS

NUR SHOBRIANA TRIHABSARI

Department of Informatics, Faculty of Mathematics and Natural Science,

Sebelas Maret University

ABSTRACT

Text is one way to present the information that is formed by words of the

particular language. Information which stored in a text such as the themes

discussed, the issues raised, the language used and so on. We can discover which

theme is being discussed by a text because we saw the characteristics of the text.

Characteristics of a text can be seen from the diction it used. By utilizing its

characteristics, a text can be classified based on the type of stored information.

There are various classification algorithms. One algorithm frequently used in text

classification is Naive Bayes Classifier (NBC). NBC in this study is used to classify

text form SBMPTN exam questions based on the theme of the field of study. One

method of feature selection DF-Threshold applied to support the classification

process. Incremental model of this classification is required, considering the

amount of exam questions that continuosly growing. Naive Bayes Updateable is an

incremental model from NBC. It has the ability to learn from new data introduces

with the system even after the classifier has been produced with the existing data.

This study was conducted to determine about Naive Bayes Updateable

classification performance for the SBMPTN exam questions based on its theme of

the field of study. This algorithm produced 90,91% accuracy

Keywords: classification, DF-Threshold, Naive Bayes Updateable.

xi

DAFTAR ISI

HALAMAN JUDUL ................................................................................................ i

HALAMAN PENGAJUAN .................................................................................... ii

HALAMAN PERSETUJUAN ............................................................................... iii

HALAMAN PENGESAHAN ................................................................................ iv

PERSEMBAHAN ................................................................................................... v

MOTTO ................................................................................................................. vi

KATA PENGANTAR .......................................................................................... vii

ABSTRAK ............................................................................................................. ix

ABSTRACT ............................................................................................................ x

DAFTAR ISI .......................................................................................................... xi

DAFTAR TABEL ................................................................................................ xiii

DAFTAR GAMBAR ............................................................................................ xv

DAFTAR LAMPIRAN ........................................................................................ xvi

1. BAB I PENDAHULUAN .................................................................................. 1

Latar Belakang ..................................................................................... 1

Rumusan Masalah ................................................................................ 3

Batasan Masalah ................................................................................... 3

Tujuan Penelitian.................................................................................. 4

Manfaat Penelitian................................................................................ 4

Sistematika Penulisan ........................................................................... 4

2. BAB II TINJAUAN PUSTAKA ....................................................................... 6

Dasar Teori ........................................................................................... 6

Stemming .................................................................................. 6

Tokenizing .............................................................................. 11

Stopword Removal .................................................................. 12

Document Frequency Thresholding ....................................... 12

Naive Bayes Classifier ............................................................ 13

xii

Naive Bayes Updateable ........................................................ 16

Penelitian Terkait ............................................................................... 16

Rencana Penelitian ............................................................................. 18

3. BAB III METODOLOGI PENELITIAN ......................................................... 20

Pengumpulan Data ............................................................................. 20

Text Preprocessing ............................................................................. 21

Training Data ..................................................................................... 21

Feature Selection................................................................................ 21

Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ............... 24

Evaluasi .............................................................................................. 25

4. BAB IV HASIL DAN PEMBAHASAN .......................................................... 28

Pengumpulan Data ............................................................................. 28

Text Preprocessing ............................................................................. 28

Training Data ..................................................................................... 29

Feature Selection................................................................................ 31

Klasifikasi Soal Ujian SBMPTN (Naive Bayes Classifier) ............... 33

Evaluasi .............................................................................................. 34

5. BAB V PENUTUP ........................................................................................... 51

Kesimpulan......................................................................................... 51

Saran ................................................................................................... 51

DAFTAR PUSTAKA ........................................................................................... 52

xiii

DAFTAR TABEL

Tabel 2.1 Kombinasi awalan dan akhiran yang tidak diijinkan .............................. 7

Tabel 2.2 Cara menentukan tipe awalan kata yang diawali dengan “te-“ ............... 8

Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ............................................... 8

Tabel 2.4 Daftar Stopwords dalam Bahasa Indonesia ........................................... 12

Tabel 2.5 Keterkaitan penelitian dengan penelitian sebelumnya .......................... 18

Tabel 3.1 Contoh Term Frequency dan Document Frequency ............................. 22

Tabel 3.2 Confusion matrix hasil klasifikasi ......................................................... 25

Tabel 4.1 Pengaruh pemilihan angka threshold terhadap akurasi......................... 33

Tabel 4.2 Precision, recall, dan f-measure dari proses memorizing I .................. 34

Tabel 4.3 Confussion matrix dari proses testing I ................................................ 36

Tabel 4.4 Precision, recall, dan f-measure dari proses testing I ........................... 36

Tabel 4.5 Precision, recall, dan f-measure dari proses memorizing II ................. 37

Tabel 4.6 Confussion matrix dari proses testing II ............................................... 38

Tabel 4.7 Precision, recall, dan f-measure dari proses testing II ......................... 39

Tabel 4.8 Hasil evaluasi klasifikasi ....................................................................... 39

Tabel 4.9 Fitur data testing yang gagal diklasifikasikan dengan benar pada proses

testing I ............................................................................................... 40

Tabel 4.10 Daftar keyword dari kelas Reaksi Redoks dan Elektrokimia dan kelas

Metabolisme ....................................................................................... 42

Tabel 4.11 Mean dan varian fitur dari kelas Reaksi Redoks dan Elektrokimia dan

kelas Metabolisme .............................................................................. 43

Tabel 4.12 Daftar keyword dari kelas Sosialisasi sebagai Proses dalam

Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang

dan Sikap Antisosial ........................................................................... 44

Tabel 4.13 Mean dan varian fitur dari kelas Sosialisasi sebagai Proses dalam

Pembentukan Kepribadian dan kelas Terjadinya Perilaku Menyimpang

dan Sikap Antisosial ........................................................................... 45

xiv

Tabel 4.14 Daftar keyword dari kelas Proses Interaksi Sosial sebagai Dasar

Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas

Perubahan Sosial di Masyarakat ........................................................ 46

Tabel 4.15 Mean dan varian fitur dari kelas Proses Interaksi Sosial sebagai Dasar

Pengembangan Pola Keteraturan dan Dinamika Kehidupan dan kelas

Perubahan Sosial di Masyarakat ........................................................ 47

Tabel 4.16 Daftar fitur soal ujian yang gagal diklasifikasikan dengan benar pada

proses testing II .................................................................................. 48

Tabel 4.17 Daftar keyword dari kelas Jaringan Tumbuhan dan kelas Pertumbuhan

dan Perkembangan – Teori ................................................................. 48

Tabel 4.18 Mean dan varian fitur dari kelas Jaringan Tumbuhan dan kelas

Pertumbuhan dan Perkembangan – Teori .......................................... 49

Tabel 4.19 Perbandingan fitur soal ujian data testing I dan II kelas Reaksi Redoks

dan Elektrokimia ................................................................................ 50

xv

DAFTAR GAMBAR

Gambar 2.1 Proses Tokenisasi .............................................................................. 11

Gambar 3.1 Diagram alir metodologi penelitian................................................... 20

Gambar 4.1 Contoh tahapan text preprocesiing .................................................... 29

Gambar 4.2 Contoh perhitungan nilai mean dan varian ....................................... 30

Gambar 4.3 Contoh proses yang terjadi pada tahap seleksi fitur .......................... 32

xvi

DAFTAR LAMPIRAN

LAMPIRAN A DAFTAR TEMA BIDANG STUDI ......................................... 54

LAMPIRAN B DATA TEKSTUAL SOAL UJIAN SBMPTN .......................... 59

LAMPIRAN C PENGUJIAN SISTEM ............................................................... 79