Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
ANALISIS SENTIMEN PROGRAM TELEVISI
INDONESIA LAWYERS CLUB MENGGUNAKAN
K-NEAREST NEIGHBOR, NAÏVE BAYES
CLASSIFIER DAN DECISION TREE
SKRIPSI
Diajukan Guna Memenuhi Persyaratan Memperoleh
Gelar Sarjana Komputer (S.Kom.)
Nico Nathanael Wilim
00000014087
PROGRAM STUDI SISTEM INFORMASI
FAKULTAS TEKNIK DAN INFORMATIKA
UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG
2020
ii
PERNYATAAN
Dengan ini saya menyatakan bahwa skripsi ini adalah karya ilmiah saya
sendiri, bukan plagiat dari karya ilmiah yang ditulis oleh orang lain atau lembaga
lain, dan semua karya ilmiah orang lain atau lembaga lain yang dirujuk dalam
skripsi ini telah disebutkan sumber kutipannya serta dicantumkan di Daftar Pustaka.
Jika di kemudian hari terbukti ditemukan kecurangan / penyimpangan, baik
dalam pelaksanaan skripsi maupun dalam penulisan laporan skripsi, saya bersedia
menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah skripsi yang
telah saya tempuh dan status kesarjanaan strata satu yang sudah diterima akan
dicabut.
Tangerang, 1 Juni 2020
Nico Nathanael Wilim
iii
HALAMAN PENGESAHAN
Skripsi dengan judul
“Analisis Sentimen Program Televisi Indonesia Lawyers Club Menggunakan
K-Nearest Neighbor, Naive Bayes Classifier, Dan Decision Tree”
oleh
Nico Nathanael Wilim
telah diujikan pada hari Jumat, 19 Juni 2020,
pukul 15.00 s.d. 16.50 dan dinyatakan lulus
dengan susunan penguji sebagai berikut.
Ketua Sidang
Melissa Indah Fianty, S.Kom., MMSI.
Penguji
Johan Setiawan, S.Kom., M.M., M.B.A.
Dosen Pembimbing
1 Juli 2020
Ir. Raymond Sunardi Oetama, M.C.I.S.
Disahkan oleh
Ketua Program Studi Sistem Informasi – UMN
Ririn Ikana Desanti, S.Kom., M.Kom
iv
ANALISIS SENTIMEN PROGRAM TELEVISI
INDONESIA LAWYERS CLUB MENGGUNAKAN
K-NEAREST NEIGHBOR, NAÏVE BAYES CLASSIFIER,
DAN DECISION TREE
ABSTRAK
Oleh: Nico Nathanael Wilim
Text mining merupakan salah satu penerapan konsep dan teknik data mining yang
dapat digunakan untuk menganalisa data dalam bentuk teks yang merupakan tulisan opini
atau pendapat masyarakat terhadap suatu program televisi. Penelitian ini menggunakan
teknik analisis sentimen yang merupakan bagian dari konsep text mining, untuk melakukan
analisis data dari kumpulan opini yang diambil dari kolom-kolom komentar, cuitan-cuitan
netizen di twitter, dan berbagai sumber unggahan orang-orang yang terkait akan opini atau
pandangannya terhadap program televisi Indonesia Lawyer Club (ILC) yang pernah
memenangkan penghargaan Panasonic Gobel Awards 2018. Namun pada tahun 2019 ILC
tidak memenangkan penghargaan tersebut karena direbut program televisi Mata Najwa di
peringkat pertama. Penelitian ini dilakukan karena adanya kekalahan ILC pada tahun 2019.
Hasil dari analisis sentimen nantinya berupa persentase sentimen positif dan negatif dan
juga perbandingan antara ILC dengan Mata Najwa.
Penelitian analisis sentimen ini menggunakan alat bantu software Python
programming dan Rapidminer yang digunakan untuk mengambil cuitan-cuitan twitter dan
melakukan pra-proses mulai dari cleansing, case folding, tokenization, filtering, stemming,
weighting word, hingga klasifikasi. Proses klasifikasi dilakukan untuk menentukan kelas
dari sentimen yang menggunakan tiga metode algoritma, yaitu K-NN, Naïve Bayes
Classifier, dan Decision Tree. Algoritma-algoritma tersebut akan digunakan untuk
melakukan evaluasi accuracy yang terbaik dari penelitian.
Kata Kunci: analisis sentimen, data mining, Decision Tree, K-NN, Naïve Bayes
Classifier.
v
SENTIMENT ANALYSIS ABOUT INDONESIAN
LAWYERS CLUB TELEVISION PROGRAM USING
K-NEAREST NEIGHBOR, NAÏVE BAYES CLASSIFIER,
AND DECISION TREE
ABSTRACT
By: Nico Nathanael Wilim
Text mining is one of the applications of data mining concepts and techniques that can
be used to analyze data in the form of text which is written opinion or public opinion of a
television program. This study uses sentiment analysis techniques that are part of the
concept of text mining, to analyze data from a collection of opinions taken from comments
columns, tweets of netizens on Twitter, and various uploading sources of people related to
their opinions or views of Indonesian Lawyer Club (ILC) television program which won
the 2018 Panasonic Gobel Awards. However in 2019 ILC did not win the award because it
was won by Mata Najwa television program in the first place. This research was conducted
because of the defeat of ILC in 2019. The results of the sentiment analysis will be in the
form of a percentage of positive and negative sentiments and also a comparison between
ILC and Mata Najwa.
This sentiment analysis research uses Python programming and Rapidminer software
tools that are used to retrieve Twitter tweets and pre-process from cleansing, case folding,
tokenization, filtering, stemming, word weighting, to classification. The classification
process is done to determine the class of sentiments using three algorithm methods, K-NN,
Naïve Bayes Classifier, and Decision Tree. These algorithms will be used to evaluate the
best accuracy of the research.
Keywords: data mining, Decision Tree, K-NN, Naïve Bayes Classifier, sentiment
analysis.
vi
KATA PENGANTAR
Segala hormat, puji dan syukur kepada Tuhan Yang Maha Esa sehingga
proposal skripsi yang berjudul “Analisis Sentimen Program Televisi Indonesia
Lawyers Club Menggunakan K-Nearest Neighbor, Naive Bayes Classifier, Dan
Decision Tree“ dapat diselesaikan tepat waktu. Proposal skripsi ini disusun dan
diajukan sebagai salah satu syarat dalam menyelesaikan mata kuliah metode riset
sistem informasi, dan untuk memenuhi kelulusan Strata 1, Program Studi Sistem
Informasi, Fakultas Teknik dan Informatika Universitas Multimedia Nusantara.
Maka dari itu, tidak lupa juga untuk mengucapkan terima kasih kepada:
1. Bapak Ir. Raymond Sunardi Oetama, M.C.I.S. sebagai dosen pembimbing skripsi
yang telah membantu membimbing, memberikan arahan dan saran selama
penelitian ini berlangsung.
2. Bapak Johan Setiawan, S.Kom., M.M., M.B.A. dan Bapak Iwan Prasetiawan,
S.Kom., M.M. yang telah membantu memberi masukan dalam penulisan skripsi.
3. Calvin yang telah membantu memfilter dan memilih cuitan yang merupakan
opini secara manual dan sebagai responden sentimen.
4. Cornelius Anipar, Ridho Al Qodari, dan Calvin yang telah menjadi responden
mengisi sentimen.
Tidak lupa penulis mengucapkan terima kasih kepada orang tua dan keluarga
yang telah memberikan semangat dan doa kepada penulis dalam penyelesaian
skripsi ini.
vii
Semoga skripsi ini dapat memberikan informasi dan inspirasi yang
bermanfaat bagi para pembaca.
Tangerang, 05 Mei 2020
Nico Nathanael Wilim
viii
DAFTAR ISI
PERNYATAAN...................................................................................................... ii
HALAMAN PENGESAHAN................................................................................ iii
ABSTRAK ............................................................................................................. iv
ABSTRACT .............................................................................................................v
KATA PENGANTAR ........................................................................................... vi
DAFTAR ISI ........................................................................................................ viii
DAFTAR GAMBAR ............................................................................................ xii
DAFTAR TABEL ............................................................................................... xvii
DAFTAR RUMUS .............................................................................................. xix
PENDAHULUAN ........................................................................................1
1.1. Latar Belakang ................................................................................... 1
1.2. Rumusan Masalah .............................................................................. 4
1.3. Tujuan Penelitian. .............................................................................. 4
1.4. Manfaat Penelitian ............................................................................. 4
1.5. Batasan Masalah ................................................................................ 5
LANDASAN TEORI ..................................................................................7
2.1. Big Data ............................................................................................. 7
2.2. Data Mining ....................................................................................... 8
2.3. Twitter Crawling .............................................................................. 11
2.4. Python .............................................................................................. 12
2.5. Rapidminer Studio ........................................................................... 15
2.6. Analisis Sentimen ............................................................................ 16
ix
2.7. Cleansing ......................................................................................... 17
2.8. Case Folding .................................................................................... 17
2.9. Tokenization ..................................................................................... 18
2.10. Filtering ......................................................................................... 18
2.11. Stemming ........................................................................................ 18
2.12. K-Fold Cross Validation ................................................................ 18
2.13. TF-IDF ........................................................................................... 19
2.14. Algoritma Klasifikasi ..................................................................... 22
2.14.1. K-Nearest Neighbor (K-NN) ............................................... 22
2.14.2. Naïve Bayes Classifier ......................................................... 23
2.14.3. Decision Tree ....................................................................... 23
2.15. Sosial Media................................................................................... 24
2.16. Twitter ............................................................................................ 25
2.16.1. Beranda ................................................................................ 25
2.16.2. Profil .................................................................................... 26
2.16.3. Following ............................................................................. 26
2.16.4. Followers ............................................................................. 26
2.16.5. Mentions .............................................................................. 27
2.16.6. Favorite ................................................................................ 27
2.16.7. Pesan Langsung ................................................................... 27
2.16.8. Tagar (Hashtag) ................................................................... 27
2.16.9. Trending Topic .................................................................... 28
METODOLOGI PENELITIAN ..............................................................29
3.1. Objek Penelitian ............................................................................... 29
x
3.2. Data .................................................................................................. 30
3.2.1. Variabel Independen .............................................................. 31
3.2.2. Variabel dependen ................................................................. 31
3.3. Alur Penelitian ................................................................................. 32
3.3.1. Pengumpulan Data ................................................................. 32
3.3.2. Pra-proses Data ...................................................................... 34
3.3.3. Klasifikasi Sentimen .............................................................. 38
ANALISA DAN HASIL PENELITIAN .................................................43
4.1. Crawling Tweet ................................................................................ 43
4.2. Klasifikasi Manual ........................................................................... 46
4.3. Pra-proses Data ................................................................................ 47
4.3.1. Cleansing ............................................................................... 48
4.3.2. Case Folding .......................................................................... 49
4.3.3. Tokenization ........................................................................... 50
4.3.4. Filtering ................................................................................. 51
4.3.5. Stemming ................................................................................ 53
4.3.6. Weighting Word ..................................................................... 54
4.4. Klasifikasi Sentimen ........................................................................ 55
4.4.1. K-Nearest Neighbor ............................................................... 57
4.4.2. Naïve Bayes Classifier ........................................................... 63
4.4.3. Decision Tree ......................................................................... 69
4.5. Hasil Analisa Manual ....................................................................... 77
4.5.1. Sentimen ILC 2018-2019 Manual ......................................... 78
4.5.2. Sentimen Mata Najwa 2018-2019 Manual ............................ 82
xi
4.5.3. Perbandingan Sentimen ILC Dengan Mata Najwa ................ 84
4.6. Hasil Analisa Menggunakan Rapidminer ........................................ 85
4.6.1. Sentimen ILC Tahun 2018 Menggunakan Rapidminer ......... 85
4.6.2. Sentimen ILC Tahun 2019 Menggunakan Rapidminer ......... 87
4.6.3. Mata Najwa Tahun 2018 Menggunakan Rapidminer ............ 88
4.6.4. Mata Najwa Tahun 2019 Menggunakan Rapidminer ............ 89
4.6.5. Perbandingan ILC Tahun 2018 Dengan 2019 Menggunakan
Rapidminer ....................................................................................... 90
4.6.6. Perbandingan Mata Najwa Tahun 2018 Dengan 2019 .......... 91
4.6.7. Perbandingan Algoritma ........................................................ 93
4.7. Frequency Word............................................................................... 94
KESIMPULAN DAN SARAN.................................................................96
DAFTAR PUSTAKA ............................................................................................98
LAMPIRAN .........................................................................................................101
xii
DAFTAR GAMBAR
Gambar 2. 1 Relasi data mining, big data, artificial intelligence, machine learning,
dan deep learning. ................................................................................................... 9
Gambar 2. 2. Logo Python. ................................................................................... 14
Gambar 2. 3. Logo Rapidminer............................................................................. 16
Gambar 3. 1. Alur Penelitian................................................................................. 32
Gambar 3. 2. Metode K-NN dengan memilih tetangga terdekat. ......................... 39
Gambar 3. 3. Pohon keputusan yang dihasilkan fungsi ID3. ................................ 42
Gambar 4. 1. Rangkaian operator sentimen analisis ILC dan Mata Najwa. ......... 43
Gambar 4. 2. Package twitterscrapper taspinar. ................................................... 44
Gambar 4. 3. Data mentah dari proses crawling. .................................................. 45
Gambar 4. 4. Data mentah setelah dihapus atribut yang tidak dibutuhkan. .......... 46
Gambar 4. 5. Hasil rata-rata sentimen dari tiga orang berbeda. ............................ 47
Gambar 4. 6. Operator-operator pra-proses data. .................................................. 47
Gambar 4. 7. Suboperator dalam pra-proses. ........................................................ 48
Gambar 4. 8. Operator-operator untuk proses Cleansing. .................................... 48
Gambar 4. 9. Contoh kalimat sebelum dan sesudah cleansing. ............................ 49
Gambar 4. 10. Operator Case Folding .................................................................. 49
Gambar 4. 11. Contoh kalimat sebelum dan sesudah dilakukan case folding. ..... 49
Gambar 4. 12. Operator Tokenize. ........................................................................ 50
Gambar 4. 13. Kalimat sebelum dan sesudah dipotong-potong dalam operator
Tokenize................................................................................................................. 50
Gambar 4. 14. Operator-operator dari proses filtering. ......................................... 51
xiii
Gambar 4. 15. Filter by length minimal karakter dan maksimal karakter. ........... 51
Gambar 4. 16. Hasil dari kalimat sebelum dan sesudah melewati filter stopwords.
............................................................................................................................... 52
Gambar 4. 17. Operator stemming. ....................................................................... 53
Gambar 4. 18. Operator weighting word. .............................................................. 54
Gambar 4. 19. Pembobotan kata yang ada dalam kalimat. ................................... 54
Gambar 4. 20. Operator-operator klasifikasi sentimen. ........................................ 55
Gambar 4. 21. Contoh sentimen manual dan sentimen prediksi dari Rapidminer. 56
Gambar 4. 22. Suboperator k-NN Dalam Operator Cross Validation. ................. 57
Gambar 4. 23. Confusion Matrix dari Cross Validation menggunakan algoritma k-
NN untuk sentimen ILC tahun 2018 dengan k=7. ................................................ 58
Gambar 4. 24. Model k-NN untuk sentimen ILC tahun 2018 dengan k=7. .......... 58
Gambar 4. 25. Informasi model algoritma k-NN untuk sentimen ILC tahun 2018
dengan k=7 ............................................................................................................ 58
Gambar 4. 26. Confusion Matrix dari Cross Validation menggunakan algoritma k-
NN untuk sentimen ILC tahun 2019 dengan k=9. ................................................ 59
Gambar 4. 27. Model k-NN untuk sentimen ILC tahun 2019 dengan k=9. .......... 59
Gambar 4. 28. Informasi model algoritma k-NN untuk sentimen ILC tahun 2019
dengan k=9. ........................................................................................................... 60
Gambar 4. 29. Confusion Matrix dari Cross Validation menggunakan algoritma k-
NN untuk sentimen Mata Najwa tahun 2018 dengan k=13. ................................. 60
Gambar 4. 30. Model k-NN untuk sentimen Mata Najwa tahun 2018 dengan k=13.
............................................................................................................................... 61
Gambar 4. 31. Informasi model algoritma k-NN untuk sentimen Mata Najwa tahun
2018 dengan k=13. ................................................................................................ 61
xiv
Gambar 4. 32. Confusion Matrix dari Cross Validation menggunakan algoritma k-
NN untuk sentimen Mata Najwa tahun 2019 dengan k=3. ................................... 61
Gambar 4. 33. Model k-NN untuk sentimen Mata Najwa tahun 2019 dengan k=3.
............................................................................................................................... 62
Gambar 4. 34. Informasi model algoritma k-NN untuk sentimen Mata Najwa tahun
2019 dengan k=3. .................................................................................................. 62
Gambar 4. 35. Suboperator Naïve Bayes Classifier Dalam Operator Cross
Validation. ............................................................................................................. 63
Gambar 4. 36. Confusion Matrix dari Cross Validation menggunakan algoritma
Naïve Bayes Classifier untuk sentimen ILC tahun 2018. ..................................... 63
Gambar 4. 37. Model Naïve Bayes Classifier untuk sentimen ILC tahun 2018. .. 64
Gambar 4. 38. Informasi model algoritma Naïve Bayes Classifier untuk sentimen
ILC tahun 2018. .................................................................................................... 64
Gambar 4. 39. Confusion Matrix dari Cross Validation menggunakan algoritma
Naïve Bayes Classifier untuk sentimen ILC tahun 2019. ..................................... 65
Gambar 4. 40. Model Naïve Bayes Classifier untuk sentimen ILC tahun 2019. .. 65
Gambar 4. 41. Informasi model algoritma Naïve Bayes Classifier untuk sentimen
ILC tahun 2019. .................................................................................................... 66
Gambar 4. 42. Confusion Matrix dari Cross Validation menggunakan algoritma
Naïve Bayes Classifier untuk sentimen Mata Najwa tahun 2018. ........................ 66
Gambar 4. 43. Model Naïve Bayes Classifier untuk sentimen Mata Najwa tahun
2018. ...................................................................................................................... 67
Gambar 4. 44. Informasi model algoritma Naïve Bayes Classifier untuk sentimen
Mata Najwa tahun 2018. ....................................................................................... 67
Gambar 4. 45. Confusion Matrix dari Cross Validation menggunakan algoritma
Naïve Bayes Classifier untuk sentimen Mata Najwa tahun 2019. ........................ 68
xv
Gambar 4. 46. Model Naïve Bayes Classifier untuk sentimen Mata Najwa tahun
2019. ...................................................................................................................... 68
Gambar 4. 47. Informasi model algoritma Naïve Bayes Classifier untuk sentimen
Mata Najwa tahun 2019. ....................................................................................... 69
Gambar 4. 48. Suboperator Decision Tree Dalam Operator Cross Validation. .... 69
Gambar 4. 49. Confusion Matrix dari Cross Validation menggunakan algoritma
Decision Tree untuk sentimen ILC tahun 2018. ................................................... 70
Gambar 4. 50. Model Decision Tree untuk sentimen ILC tahun 2018. ................ 71
Gambar 4. 51. Informasi sebagian model pohon dari Decision Tree untuk sentimen
ILC tahun 2018. .................................................................................................... 71
Gambar 4. 52. Confusion Matrix dari Cross Validation menggunakan algoritma
Decision Tree untuk sentimen ILC tahun 2019. ................................................... 72
Gambar 4. 53. Model Decision Tree untuk sentimen ILC tahun 2019 ................. 72
Gambar 4. 54. Informasi sebagian model pohon dari Decision Tree untuk sentimen
ILC tahun 2019. .................................................................................................... 73
Gambar 4. 55. Confusion Matrix dari Cross Validation menggunakan algoritma
Decision Tree untuk sentimen Mata Najwa tahun 2018. ...................................... 73
Gambar 4. 56. Model Decision Tree untuk sentimen Mata Najwa tahun 2018. ... 74
Gambar 4. 57. Informasi sebagian model pohon dari Decision Tree untuk sentimen
Mata Najwa tahun 2018. ....................................................................................... 74
Gambar 4. 58. Confusion Matrix dari Cross Validation menggunakan algoritma
Decision Tree untuk sentimen Mata Najwa tahun 2019. ...................................... 75
Gambar 4. 59. Model Decision Tree untuk sentimen Mata Najwa tahun 2019. ... 75
Gambar 4. 60. Informasi sebagian model pohon dari Decision Tree untuk sentimen
Mata Najwa tahun 2019. ....................................................................................... 76
xvi
Gambar 4. 61. Grafik dan Trend Line dari Sentimen Positif ILC dan Mata Najwa.
............................................................................................................................... 77
Gambar 4. 62. Perbandingan sentimen positif ILC tahun 2018 dengan 2019. ..... 79
Gambar 4. 63. Kekecewaan publik pada bulan Maret 2019 karena ketidakhadiran
Rocky Gerung di acara ILC. ................................................................................. 80
Gambar 4. 64. Berita tentang warganet minta revisi topik ILC dan rindu Rocky
Gerung. .................................................................................................................. 81
Gambar 4. 65. Berita tentang alasan Rocky Gerung tidak hadir lagi di ILC. ....... 81
Gambar 4. 66. Perbandingan sentimen positif Mata Najwa tahun 2018 dengan 2019.
............................................................................................................................... 83
Gambar 4. 67. Sentimen positif ILC VS Mata Najwa 2018. ................................ 84
Gambar 4. 68. Sentimen positif ILC VS Mata Najwa 2019. ................................ 85
Gambar 4. 69. Sentimen positif Mata Najwa 2018 VS 2019. ............................... 91
Gambar 4. 70. Sentimen positif Mata Najwa 2018 VS 2019 ................................ 92
xvii
DAFTAR TABEL
Tabel 2. 1. Atribut-atribut yang didapatkan setelah crawling. .............................. 12
Tabel 2. 2. Contoh kalimat sebelum diproses. ...................................................... 20
Tabel 2. 3. Contoh kalimat yang sudah melewati proses. ..................................... 20
Tabel 2. 4. Term Occurences. ............................................................................... 20
Tabel 2. 5. Term Frequency. ................................................................................. 21
Tabel 2. 6. Inverse Document Frequency. ............................................................ 21
Tabel 2. 7. Term Frequency - Inverse Document Frequency. .............................. 21
Tabel 3. 1. Hasil dari nilai aktual dan prediksi. .................................................... 31
Tabel 4. 1. Contoh kata-kata yang termasuk stopwords. ...................................... 52
Tabel 4. 2. Contoh kata-kata yang dimasukkan ke dalam library stemming. ....... 53
Tabel 4. 3. Total data sentimen terhadap ILC. ...................................................... 79
Tabel 4. 4. Total data sentimen terhadap Mata Najwa. ......................................... 82
Tabel 4. 5. Hasil analisa sentimen ILC tahun 2018 menggunakan Rapidminer. .. 86
Tabel 4. 6. Hasil analisa sentimen ILC tahun 2019 menggunakan Rapidminer. .. 87
Tabel 4. 7. Hasil analisa sentimen Mata Najwa tahun 2018 menggunakan
Rapidminer. ........................................................................................................... 88
Tabel 4. 8. Hasil analisa sentimen Mata Najwa tahun 2019 menggunakan
Rapidminer. ........................................................................................................... 89
Tabel 4. 9. Hasil analisa ILC Tahun 2018 VS 2019 Menggunakan Rapidminer.. 90
Tabel 4. 10. Hasil analisa ILC Tahun 2018 VS 2019 Menggunakan Rapidminer.91
Tabel 4. 11. Nilai k yang digunakan pada k-NN................................................... 93
Tabel 4. 12. Urutan algoritma terbaik. .................................................................. 94
Tabel 4. 13. Frequency word ILC 2018 dan 2019. ............................................... 95
xviii
Tabel 4. 14. Frequency word ILC 2018 dan 2019. ............................................... 95
xix
DAFTAR RUMUS
Rumus 2. 1. Rumus weighting word pada umumnya. .......................................... 19
Rumus 3. 1. Rumus Naïve Bayes Classifier. ......................................................... 39