ANALISIS SENTIMEN PROGRAM TELEVISI INDONESIA …

ANALISIS SENTIMEN PROGRAM TELEVISI

INDONESIA LAWYERS CLUB MENGGUNAKAN

K-NEAREST NEIGHBOR, NAÏVE BAYES

CLASSIFIER DAN DECISION TREE

SKRIPSI

Diajukan Guna Memenuhi Persyaratan Memperoleh

Gelar Sarjana Komputer (S.Kom.)

Nico Nathanael Wilim

00000014087

PROGRAM STUDI SISTEM INFORMASI

FAKULTAS TEKNIK DAN INFORMATIKA

UNIVERSITAS MULTIMEDIA NUSANTARA

TANGERANG

2020

ii

PERNYATAAN

Dengan ini saya menyatakan bahwa skripsi ini adalah karya ilmiah saya

sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga

lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam

skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.

Jika di kemudian hari terbukti ditemukan kecurangan / penyimpangan, baik

dalam pelaksanaan skripsi maupun dalam penulisan laporan skripsi, saya bersedia

menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah skripsi yang

telah saya tempuh dan status kesarjanaan strata satu yang sudah diterima akan

dicabut.

Tangerang, 1 Juni 2020


iii

HALAMAN PENGESAHAN

Skripsi dengan judul

“Analisis Sentimen Program Televisi Indonesia Lawyers Club Menggunakan

K-Nearest Neighbor, Naive Bayes Classifier, Dan Decision Tree”

oleh


telah diujikan pada hari Jumat, 19 Juni 2020,

pukul 15.00 s.d. 16.50 dan dinyatakan lulus

dengan susunan penguji sebagai berikut.

Ketua Sidang

Melissa Indah Fianty, S.Kom., MMSI.

Penguji

Johan Setiawan, S.Kom., M.M., M.B.A.

Dosen Pembimbing

1 Juli 2020

Ir. Raymond Sunardi Oetama, M.C.I.S.

Disahkan oleh

Ketua Program Studi Sistem Informasi – UMN

Ririn Ikana Desanti, S.Kom., M.Kom

iv

ANALISIS SENTIMEN PROGRAM TELEVISI

INDONESIA LAWYERS CLUB MENGGUNAKAN

K-NEAREST NEIGHBOR, NAÏVE BAYES CLASSIFIER,

DAN DECISION TREE

ABSTRAK

Oleh: Nico Nathanael Wilim

Text mining merupakan salah satu penerapan konsep dan teknik data mining yang

dapat digunakan untuk menganalisa data dalam bentuk teks yang merupakan tulisan opini

atau pendapat masyarakat terhadap suatu program televisi. Penelitian ini menggunakan

teknik analisis sentimen yang merupakan bagian dari konsep text mining, untuk melakukan

analisis data dari kumpulan opini yang diambil dari kolom-kolom komentar, cuitan-cuitan

netizen di twitter, dan berbagai sumber unggahan orang-orang yang terkait akan opini atau

pandangannya terhadap program televisi Indonesia Lawyer Club (ILC) yang pernah

memenangkan penghargaan Panasonic Gobel Awards 2018. Namun pada tahun 2019 ILC

tidak memenangkan penghargaan tersebut karena direbut program televisi Mata Najwa di

peringkat pertama. Penelitian ini dilakukan karena adanya kekalahan ILC pada tahun 2019.

Hasil dari analisis sentimen nantinya berupa persentase sentimen positif dan negatif dan

juga perbandingan antara ILC dengan Mata Najwa.

Penelitian analisis sentimen ini menggunakan alat bantu software Python

programming dan Rapidminer yang digunakan untuk mengambil cuitan-cuitan twitter dan

melakukan pra-proses mulai dari cleansing, case folding, tokenization, filtering, stemming,

weighting word, hingga klasifikasi. Proses klasifikasi dilakukan untuk menentukan kelas

dari sentimen yang menggunakan tiga metode algoritma, yaitu K-NN, Naïve Bayes

Classifier, dan Decision Tree. Algoritma-algoritma tersebut akan digunakan untuk

melakukan evaluasi accuracy yang terbaik dari penelitian.

Kata Kunci: analisis sentimen, data mining, Decision Tree, K-NN, Naïve Bayes

Classifier.

v

SENTIMENT ANALYSIS ABOUT INDONESIAN

LAWYERS CLUB TELEVISION PROGRAM USING

K-NEAREST NEIGHBOR, NAÏVE BAYES CLASSIFIER,

AND DECISION TREE

ABSTRACT

By: Nico Nathanael Wilim

Text mining is one of the applications of data mining concepts and techniques that can

be used to analyze data in the form of text which is written opinion or public opinion of a

television program. This study uses sentiment analysis techniques that are part of the

concept of text mining, to analyze data from a collection of opinions taken from comments

columns, tweets of netizens on Twitter, and various uploading sources of people related to

their opinions or views of Indonesian Lawyer Club (ILC) television program which won

the 2018 Panasonic Gobel Awards. However in 2019 ILC did not win the award because it

was won by Mata Najwa television program in the first place. This research was conducted

because of the defeat of ILC in 2019. The results of the sentiment analysis will be in the

form of a percentage of positive and negative sentiments and also a comparison between

ILC and Mata Najwa.

This sentiment analysis research uses Python programming and Rapidminer software

tools that are used to retrieve Twitter tweets and pre-process from cleansing, case folding,

tokenization, filtering, stemming, word weighting, to classification. The classification

process is done to determine the class of sentiments using three algorithm methods, K-NN,

Naïve Bayes Classifier, and Decision Tree. These algorithms will be used to evaluate the

best accuracy of the research.

Keywords: data mining, Decision Tree, K-NN, Naïve Bayes Classifier, sentiment

analysis.

vi

KATA PENGANTAR

Segala hormat, puji dan syukur kepada Tuhan Yang Maha Esa sehingga

proposal skripsi yang berjudul “Analisis Sentimen Program Televisi Indonesia

Lawyers Club Menggunakan K-Nearest Neighbor, Naive Bayes Classifier, Dan

Decision Tree“ dapat diselesaikan tepat waktu. Proposal skripsi ini disusun dan

diajukan sebagai salah satu syarat dalam menyelesaikan mata kuliah metode riset

sistem informasi, dan untuk memenuhi kelulusan Strata 1, Program Studi Sistem

Informasi, Fakultas Teknik dan Informatika Universitas Multimedia Nusantara.

Maka dari itu, tidak lupa juga untuk mengucapkan terima kasih kepada:

1. Bapak Ir. Raymond Sunardi Oetama, M.C.I.S. sebagai dosen pembimbing skripsi

yang telah membantu membimbing, memberikan arahan dan saran selama

penelitian ini berlangsung.

2. Bapak Johan Setiawan, S.Kom., M.M., M.B.A. dan Bapak Iwan Prasetiawan,

S.Kom., M.M. yang telah membantu memberi masukan dalam penulisan skripsi.

3. Calvin yang telah membantu memfilter dan memilih cuitan yang merupakan

opini secara manual dan sebagai responden sentimen.

4. Cornelius Anipar, Ridho Al Qodari, dan Calvin yang telah menjadi responden

mengisi sentimen.

Tidak lupa penulis mengucapkan terima kasih kepada orang tua dan keluarga

yang telah memberikan semangat dan doa kepada penulis dalam penyelesaian

skripsi ini.

vii

Semoga skripsi ini dapat memberikan informasi dan inspirasi yang

bermanfaat bagi para pembaca.

Tangerang, 05 Mei 2020


viii

DAFTAR ISI

PERNYATAAN...................................................................................................... ii

HALAMAN PENGESAHAN................................................................................ iii

ABSTRAK ............................................................................................................. iv

ABSTRACT .............................................................................................................v

KATA PENGANTAR ........................................................................................... vi

DAFTAR ISI ........................................................................................................ viii

DAFTAR GAMBAR ............................................................................................ xii

DAFTAR TABEL ............................................................................................... xvii

DAFTAR RUMUS .............................................................................................. xix

PENDAHULUAN ........................................................................................1

1.1. Latar Belakang ................................................................................... 1

1.2. Rumusan Masalah .............................................................................. 4

1.3. Tujuan Penelitian. .............................................................................. 4

1.4. Manfaat Penelitian ............................................................................. 4

1.5. Batasan Masalah ................................................................................ 5

LANDASAN TEORI ..................................................................................7

2.1. Big Data ............................................................................................. 7

2.2. Data Mining ....................................................................................... 8

2.3. Twitter Crawling .............................................................................. 11

2.4. Python .............................................................................................. 12

2.5. Rapidminer Studio ........................................................................... 15

2.6. Analisis Sentimen ............................................................................ 16

ix

2.7. Cleansing ......................................................................................... 17

2.8. Case Folding .................................................................................... 17

2.9. Tokenization ..................................................................................... 18

2.10. Filtering ......................................................................................... 18

2.11. Stemming ........................................................................................ 18

2.12. K-Fold Cross Validation ................................................................ 18

2.13. TF-IDF ........................................................................................... 19

2.14. Algoritma Klasifikasi ..................................................................... 22

2.14.1. K-Nearest Neighbor (K-NN) ............................................... 22

2.14.2. Naïve Bayes Classifier ......................................................... 23

2.14.3. Decision Tree ....................................................................... 23

2.15. Sosial Media................................................................................... 24

2.16. Twitter ............................................................................................ 25

2.16.1. Beranda ................................................................................ 25

2.16.2. Profil .................................................................................... 26

2.16.3. Following ............................................................................. 26

2.16.4. Followers ............................................................................. 26

2.16.5. Mentions .............................................................................. 27

2.16.6. Favorite ................................................................................ 27

2.16.7. Pesan Langsung ................................................................... 27

2.16.8. Tagar (Hashtag) ................................................................... 27

2.16.9. Trending Topic .................................................................... 28

METODOLOGI PENELITIAN ..............................................................29

3.1. Objek Penelitian ............................................................................... 29

x

3.2. Data .................................................................................................. 30

3.2.1. Variabel Independen .............................................................. 31

3.2.2. Variabel dependen ................................................................. 31

3.3. Alur Penelitian ................................................................................. 32

3.3.1. Pengumpulan Data ................................................................. 32

3.3.2. Pra-proses Data ...................................................................... 34

3.3.3. Klasifikasi Sentimen .............................................................. 38

ANALISA DAN HASIL PENELITIAN .................................................43

4.1. Crawling Tweet ................................................................................ 43

4.2. Klasifikasi Manual ........................................................................... 46

4.3. Pra-proses Data ................................................................................ 47

4.3.1. Cleansing ............................................................................... 48

4.3.2. Case Folding .......................................................................... 49

4.3.3. Tokenization ........................................................................... 50

4.3.4. Filtering ................................................................................. 51

4.3.5. Stemming ................................................................................ 53

4.3.6. Weighting Word ..................................................................... 54

4.4. Klasifikasi Sentimen ........................................................................ 55

4.4.1. K-Nearest Neighbor ............................................................... 57

4.4.2. Naïve Bayes Classifier ........................................................... 63

4.4.3. Decision Tree ......................................................................... 69

4.5. Hasil Analisa Manual ....................................................................... 77

4.5.1. Sentimen ILC 2018-2019 Manual ......................................... 78

4.5.2. Sentimen Mata Najwa 2018-2019 Manual ............................ 82

xi

4.5.3. Perbandingan Sentimen ILC Dengan Mata Najwa ................ 84

4.6. Hasil Analisa Menggunakan Rapidminer ........................................ 85

4.6.1. Sentimen ILC Tahun 2018 Menggunakan Rapidminer ......... 85

4.6.2. Sentimen ILC Tahun 2019 Menggunakan Rapidminer ......... 87

4.6.3. Mata Najwa Tahun 2018 Menggunakan Rapidminer ............ 88

4.6.4. Mata Najwa Tahun 2019 Menggunakan Rapidminer ............ 89

4.6.5. Perbandingan ILC Tahun 2018 Dengan 2019 Menggunakan

Rapidminer ....................................................................................... 90

4.6.6. Perbandingan Mata Najwa Tahun 2018 Dengan 2019 .......... 91

4.6.7. Perbandingan Algoritma ........................................................ 93

4.7. Frequency Word............................................................................... 94

KESIMPULAN DAN SARAN.................................................................96

DAFTAR PUSTAKA ............................................................................................98

LAMPIRAN .........................................................................................................101

xii

DAFTAR GAMBAR

Gambar 2. 1 Relasi data mining, big data, artificial intelligence, machine learning,

dan deep learning. ................................................................................................... 9

Gambar 2. 2. Logo Python. ................................................................................... 14

Gambar 2. 3. Logo Rapidminer............................................................................. 16

Gambar 3. 1. Alur Penelitian................................................................................. 32

Gambar 3. 2. Metode K-NN dengan memilih tetangga terdekat. ......................... 39

Gambar 3. 3. Pohon keputusan yang dihasilkan fungsi ID3. ................................ 42

Gambar 4. 1. Rangkaian operator sentimen analisis ILC dan Mata Najwa. ......... 43

Gambar 4. 2. Package twitterscrapper taspinar. ................................................... 44

Gambar 4. 3. Data mentah dari proses crawling. .................................................. 45

Gambar 4. 4. Data mentah setelah dihapus atribut yang tidak dibutuhkan. .......... 46

Gambar 4. 5. Hasil rata-rata sentimen dari tiga orang berbeda. ............................ 47

Gambar 4. 6. Operator-operator pra-proses data. .................................................. 47

Gambar 4. 7. Suboperator dalam pra-proses. ........................................................ 48

Gambar 4. 8. Operator-operator untuk proses Cleansing. .................................... 48

Gambar 4. 9. Contoh kalimat sebelum dan sesudah cleansing. ............................ 49

Gambar 4. 10. Operator Case Folding .................................................................. 49

Gambar 4. 11. Contoh kalimat sebelum dan sesudah dilakukan case folding. ..... 49

Gambar 4. 12. Operator Tokenize. ........................................................................ 50

Gambar 4. 13. Kalimat sebelum dan sesudah dipotong-potong dalam operator

Tokenize................................................................................................................. 50

Gambar 4. 14. Operator-operator dari proses filtering. ......................................... 51

xiii

Gambar 4. 15. Filter by length minimal karakter dan maksimal karakter. ........... 51

Gambar 4. 16. Hasil dari kalimat sebelum dan sesudah melewati filter stopwords.

............................................................................................................................... 52

Gambar 4. 17. Operator stemming. ....................................................................... 53

Gambar 4. 18. Operator weighting word. .............................................................. 54

Gambar 4. 19. Pembobotan kata yang ada dalam kalimat. ................................... 54

Gambar 4. 20. Operator-operator klasifikasi sentimen. ........................................ 55

Gambar 4. 21. Contoh sentimen manual dan sentimen prediksi dari Rapidminer. 56

Gambar 4. 22. Suboperator k-NN Dalam Operator Cross Validation. ................. 57

Gambar 4. 23. Confusion Matrix dari Cross Validation menggunakan algoritma k-

NN untuk sentimen ILC tahun 2018 dengan k=7. ................................................ 58

Gambar 4. 24. Model k-NN untuk sentimen ILC tahun 2018 dengan k=7. .......... 58

Gambar 4. 25. Informasi model algoritma k-NN untuk sentimen ILC tahun 2018

dengan k=7 ............................................................................................................ 58


NN untuk sentimen ILC tahun 2019 dengan k=9. ................................................ 59

Gambar 4. 27. Model k-NN untuk sentimen ILC tahun 2019 dengan k=9. .......... 59

Gambar 4. 28. Informasi model algoritma k-NN untuk sentimen ILC tahun 2019

dengan k=9. ........................................................................................................... 60


NN untuk sentimen Mata Najwa tahun 2018 dengan k=13. ................................. 60

Gambar 4. 30. Model k-NN untuk sentimen Mata Najwa tahun 2018 dengan k=13.

............................................................................................................................... 61

Gambar 4. 31. Informasi model algoritma k-NN untuk sentimen Mata Najwa tahun

2018 dengan k=13. ................................................................................................ 61

xiv


NN untuk sentimen Mata Najwa tahun 2019 dengan k=3. ................................... 61

Gambar 4. 33. Model k-NN untuk sentimen Mata Najwa tahun 2019 dengan k=3.

............................................................................................................................... 62

Gambar 4. 34. Informasi model algoritma k-NN untuk sentimen Mata Najwa tahun

2019 dengan k=3. .................................................................................................. 62

Gambar 4. 35. Suboperator Naïve Bayes Classifier Dalam Operator Cross

Validation. ............................................................................................................. 63

Gambar 4. 36. Confusion Matrix dari Cross Validation menggunakan algoritma

Naïve Bayes Classifier untuk sentimen ILC tahun 2018. ..................................... 63

Gambar 4. 37. Model Naïve Bayes Classifier untuk sentimen ILC tahun 2018. .. 64

Gambar 4. 38. Informasi model algoritma Naïve Bayes Classifier untuk sentimen

ILC tahun 2018. .................................................................................................... 64


Naïve Bayes Classifier untuk sentimen ILC tahun 2019. ..................................... 65

Gambar 4. 40. Model Naïve Bayes Classifier untuk sentimen ILC tahun 2019. .. 65


ILC tahun 2019. .................................................................................................... 66


Naïve Bayes Classifier untuk sentimen Mata Najwa tahun 2018. ........................ 66

Gambar 4. 43. Model Naïve Bayes Classifier untuk sentimen Mata Najwa tahun

2018. ...................................................................................................................... 67


Mata Najwa tahun 2018. ....................................................................................... 67


Naïve Bayes Classifier untuk sentimen Mata Najwa tahun 2019. ........................ 68

xv

Gambar 4. 46. Model Naïve Bayes Classifier untuk sentimen Mata Najwa tahun

2019. ...................................................................................................................... 68


Mata Najwa tahun 2019. ....................................................................................... 69

Gambar 4. 48. Suboperator Decision Tree Dalam Operator Cross Validation. .... 69


Decision Tree untuk sentimen ILC tahun 2018. ................................................... 70

Gambar 4. 50. Model Decision Tree untuk sentimen ILC tahun 2018. ................ 71

Gambar 4. 51. Informasi sebagian model pohon dari Decision Tree untuk sentimen

ILC tahun 2018. .................................................................................................... 71


Decision Tree untuk sentimen ILC tahun 2019. ................................................... 72

Gambar 4. 53. Model Decision Tree untuk sentimen ILC tahun 2019 ................. 72


ILC tahun 2019. .................................................................................................... 73


Decision Tree untuk sentimen Mata Najwa tahun 2018. ...................................... 73

Gambar 4. 56. Model Decision Tree untuk sentimen Mata Najwa tahun 2018. ... 74


Mata Najwa tahun 2018. ....................................................................................... 74


Decision Tree untuk sentimen Mata Najwa tahun 2019. ...................................... 75

Gambar 4. 59. Model Decision Tree untuk sentimen Mata Najwa tahun 2019. ... 75


Mata Najwa tahun 2019. ....................................................................................... 76

xvi

Gambar 4. 61. Grafik dan Trend Line dari Sentimen Positif ILC dan Mata Najwa.

............................................................................................................................... 77

Gambar 4. 62. Perbandingan sentimen positif ILC tahun 2018 dengan 2019. ..... 79

Gambar 4. 63. Kekecewaan publik pada bulan Maret 2019 karena ketidakhadiran

Rocky Gerung di acara ILC. ................................................................................. 80

Gambar 4. 64. Berita tentang warganet minta revisi topik ILC dan rindu Rocky

Gerung. .................................................................................................................. 81

Gambar 4. 65. Berita tentang alasan Rocky Gerung tidak hadir lagi di ILC. ....... 81

Gambar 4. 66. Perbandingan sentimen positif Mata Najwa tahun 2018 dengan 2019.

............................................................................................................................... 83

Gambar 4. 67. Sentimen positif ILC VS Mata Najwa 2018. ................................ 84

Gambar 4. 68. Sentimen positif ILC VS Mata Najwa 2019. ................................ 85

Gambar 4. 69. Sentimen positif Mata Najwa 2018 VS 2019. ............................... 91

Gambar 4. 70. Sentimen positif Mata Najwa 2018 VS 2019 ................................ 92

xvii

DAFTAR TABEL

Tabel 2. 1. Atribut-atribut yang didapatkan setelah crawling. .............................. 12

Tabel 2. 2. Contoh kalimat sebelum diproses. ...................................................... 20

Tabel 2. 3. Contoh kalimat yang sudah melewati proses. ..................................... 20

Tabel 2. 4. Term Occurences. ............................................................................... 20

Tabel 2. 5. Term Frequency. ................................................................................. 21

Tabel 2. 6. Inverse Document Frequency. ............................................................ 21

Tabel 2. 7. Term Frequency - Inverse Document Frequency. .............................. 21

Tabel 3. 1. Hasil dari nilai aktual dan prediksi. .................................................... 31

Tabel 4. 1. Contoh kata-kata yang termasuk stopwords. ...................................... 52

Tabel 4. 2. Contoh kata-kata yang dimasukkan ke dalam library stemming. ....... 53

Tabel 4. 3. Total data sentimen terhadap ILC. ...................................................... 79

Tabel 4. 4. Total data sentimen terhadap Mata Najwa. ......................................... 82

Tabel 4. 5. Hasil analisa sentimen ILC tahun 2018 menggunakan Rapidminer. .. 86

Tabel 4. 6. Hasil analisa sentimen ILC tahun 2019 menggunakan Rapidminer. .. 87

Tabel 4. 7. Hasil analisa sentimen Mata Najwa tahun 2018 menggunakan

Rapidminer. ........................................................................................................... 88

Tabel 4. 8. Hasil analisa sentimen Mata Najwa tahun 2019 menggunakan

Rapidminer. ........................................................................................................... 89

Tabel 4. 9. Hasil analisa ILC Tahun 2018 VS 2019 Menggunakan Rapidminer.. 90

Tabel 4. 10. Hasil analisa ILC Tahun 2018 VS 2019 Menggunakan Rapidminer.91

Tabel 4. 11. Nilai k yang digunakan pada k-NN................................................... 93

Tabel 4. 12. Urutan algoritma terbaik. .................................................................. 94

Tabel 4. 13. Frequency word ILC 2018 dan 2019. ............................................... 95

xviii

Tabel 4. 14. Frequency word ILC 2018 dan 2019. ............................................... 95

xix

DAFTAR RUMUS

Rumus 2. 1. Rumus weighting word pada umumnya. .......................................... 19

Rumus 3. 1. Rumus Naïve Bayes Classifier. ......................................................... 39

Documents

ANALISIS SENTIMEN PROGRAM TELEVISI INDONESIA …