Upload
others
View
14
Download
0
Embed Size (px)
Citation preview
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer (S.Kom.)
Hapsara Deo Saputra
00000009383
PROGRAM STUDI INFORMATIKA
FAKULTAS TEKNIK DAN INFORMATIKA
UNIVERSITAS MULTIMEDIA NUSANTARA
TANGERANG
2021
IMPLEMENTASI METODE MULTILAYER PERCEPTRON
DENGAN FASTTEXT WORD EMBEDDING UNTUK
KLASIFIKASI UJARAN KEBENCIAN
IMPLEMENTASI METODE MULTILAYER PERCEPTRON
DENGAN FASTTEXT WORD EMBEDDING UNTUK
KLASIFIKASI UJARAN KEBENCIAN
iii
PERNYATAAN TIDAK MELAKUKAN PLAGIAT
Dengan ini saya:
Nama : Hapsara Deo Saputra
NIM : 00000009383
Fakultas : Teknik dan Informatika
Program Studi : Informatika
menyatakan bahwa skripsi yang berjudul “Implementasi Metode Multilayer
Perceptron Dengan FastText Word Embedding Untuk Klasifikasi Ujaran
Kebencian” ini adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah
yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain
atau lembaga lain yang dirujuk dalam skripsi ini telah disebutkan sumber
kutipannya serta dicantumkan di Daftar Pustaka. Jika di kemudian hari terbukti ditemukan kecurangan/penyimpangan, baik dalam
pelaksanaan skripsi maupun dalam penulisan laporan skripsi, saya bersedia
menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang
telah saya tempuh.
Tangerang, 2 Januari 2021
Hapsara Deo Saputra
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA IMLIAH
UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda
tangan di bawah ini:
Nama : Hapsara Deo Saputra
NIM : 00000009383
Program Studi : Informatika
Fakultas : Teknik dan Informatika
Jenis Karya : Skripsi
Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada
Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non-
exclusive Royalty-free Right) atas karya ilmiah saya yang berjudul: Implementasi
Metode Multilayer Perceptron Dengan FastText Word Embedding Untuk
Klasifikasi Ujaran Kebencian beserta perangkat yang diperlukan. Dengan Hak
Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia Nusantara berhak
menyimpan, mengalihmedia atau format-kan, mengelola dalam bentuk pangkalan
data (database), merawat, dan mendistribusi dan menampilkan atau
mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan
akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada
saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.
Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan
sebagaimana mestinya.
Tangerang, 2 Januari 2021
Hapsara Deo Saputra
v
KATA PENGANTAR
Puji syukur pada Tuhan Yang Mahakuasa karena atas rahmat-Nya skripsi
berjudul “Implementasi Metode Multilayer Perceptron Dengan FastText Word
Embedding Untuk Klasifikasi Ujaran Kebencian” ini dapat selesai tepat waktu.
Laporan ini disusun dengan kesungguhan hati sebagai salah satu syarat meraih gelar
Sarjana Komputer pada Program Studi Informatika Fakultas Teknik dan
Informatika Universitas Multimedia Nusantara
Dalam penyusunan laporan ini, tentu tidak lepas dari pengarahan dan
bimbingan dari berbagai pihak. Dengan segala hormat, penulis ucapkan terima kasih
kepada:
1. Anggota keluarga yang telah memberi dukungan selama proses pembuatan
skripsi,
2. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara,
3. Marlinda Vasty Overbeek, S.Kom, M.Kom., selaku Ketua Program Studi
Informatika,
4. Julio Cristian Young, S.Kom., M.Kom. dan Alethea Suryadibrata, S.Kom.,
M.Eng., yang membimbing pembuatan skripsi dan yang telah mengajar penulis
tata cara menulis karya ilmiah dengan benar,
5. M. Naufal Randhika, Reza Fadhilah Khan, Benyamin Pratama dan teman-
teman lainnya yang tetap memberi semangat penulis selama proses pembuatan
skrpsi.
6. Ilona Juwita, Willy Janitra serta rekan-rekan kantor PT Promedia Punggawa
Satu yang telah memberi dukungan dan semangat selama proses pembuatan
vi
skripsi.
Semoga skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun
sumber inspirasi, bagi para pembaca.
Tangerang, 2 Januari 2021
Hapsara Deo Saputra
vii
IMPLEMENTASI METODE MULTILAYER PERCEPTRON
DENGAN FASTTEXT WORD EMBEDDING UNTUK
KLASIFIKASI UJARAN KEBENCIAN
ABSTRAK
Penelitian ini menjabarkan pembuatan aplikasi klasifikasi ujaran kebencian dengan multilayer perceptron classifier dan fasttext word embeding berbasis web. Aplikasi klasifikasi dibuat berdasarkan dataset yang telah dibuat sebelumnya oleh Ibrohim dan Budi untuk klasifikasi ujaran kebencian dalam Bahasa Indonesia pada sosial media Twitter. Perancangan dan pembuatan aplikasi klasifikasi ini dilakukan dengan menggunakan bahasa pemrograman python, CSS, dan HTML. Hasil implementasi yang memiliki performa terbaik adalah model dengan jumlah dataset yang seimbang dengan pembagian train dan test set 80:20 dan hyperparameter tuning menggunakan GridSearchCV dengan 3 stratified cross validation yang memperoleh model fitur tanpa melalui tahap stemming dan stopwords removal dan proses ekstraksi fitur menggunakan fastText yang dilatih dengan dimensi fitur sebesar 200, batch_size 40, hidden_layer_sizes 100, learning_rate_init 0.0005 dan mas_iter 150 dan diperoleh tingkat performa F1 Score sebesar 82.09%.
Kata Kunci: ujaran kebencian , fastText, multilayer perceptron
viii
IMPLEMENTATION OF THE MULTILAYER PERCEPTRON
METHOD WITH FASTTEXT WORD EMBEDDING FOR
HATESPEECH CLASSIFICATION
ABSTRACT
This thesis describes the making of a classification application that is useful for classifying hate speech with a multilayer perceptron classifier and web-based fasttext word embedding. The classification application is based on a dataset previously made by Ibrohim and Budi for classification of hate speech in Indonesian on Twitter social media. The design and manufacture of this classification application is carried out using the python programming language, CSS, and HTML. The implementation results that have the best performance are a model with a balanced number of datasets by dividing the train and test set 80:20 and hyperparameter tuning using GridSearchCV with 3 stratified cross validation which obtains a feature model without going through the stemming and stopwords removal stages and the feature extraction process using the fastText trained with feature dimensions of 200, batch_size 40, hidden_layer_sizes 100, learning_rate_init 0.0005 and mas_iter 150 and obtained an F1 Score performance level of 82.09%.
Keywords: hatespeech, fastText, multilayer perceptron
ix
DAFTAR ISI
LEMBAR PENGESAHAN .................................................................................... ii PERNYATAAN TIDAK MELAKUKAN PLAGIAT .......................................... iii PERNYATAAN PERSETUJUAN PUBLIKASI KARYA IMLIAH UNTUK KEPENTINGAN AKADEMIS ............................................................................. iv KATA PENGANTAR ............................................................................................ v ABSTRAK ............................................................................................................ vii ABSTRACT ......................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR GAMBAR ............................................................................................. xi DAFTAR TABEL ................................................................................................. xii DAFTAR RUMUS .............................................................................................. xiii BAB 1 PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang Masalah ........................................................................... 1 1.2 Rumusan Masalah ..................................................................................... 5 1.3 Batasan Masalah ....................................................................................... 5 1.4 Tujuan Penelitian ...................................................................................... 6 1.5 Manfaat Penelitian .................................................................................... 6 1.6 Sistematika Penulisan ............................................................................... 7
BAB 2 TINJAUAN PUSTAKA ............................................................................. 9 2.1 Text Classification dan Text Processing ................................................... 9 2.2 FastText................................................................................................... 10 2.3 Multilayer Perceptron ............................................................................. 11 2.4 Evaluasi Klasifikasi ................................................................................ 13
BAB 3 METODOLOGI DAN PERANCANGAN SISTEM ................................ 16 3.1 Metodologi Penelitian ............................................................................. 16 3.2 Pengumpulan Data .................................................................................. 17 3.3 Perancangan Sistem ................................................................................ 17 3.3.1 Flowchart Umum Proses Training dan Evaluation ................................. 18 3.3.2 Flowchart Modul Data Preparation ......................................................... 19 3.3.3 Flowchart Modul Case Folding .............................................................. 21 3.3.4 Flowchart Modul Transform Alay Sentence ........................................... 22 3.3.5 Flowchart Modul Stopwords Removal ................................................... 23 3.3.6 Flowchart Modul Tokenizing ................................................................. 24 3.3.7 Flowchart Modul Stemming ................................................................... 25 3.3.8 Flowchart Modul FastText Training Model ........................................... 26 3.3.9 Flowchart Modul Vectorized Word Embeding....................................... 28 3.3.10 Flowchart Modul Training Multilayer Perceptron Classification ........... 29 3.3.11 Flowchart Modul Multilayer Perceptron ................................................ 31 3.3.12 Flowchart Aplikasi Hatespeech Classification ....................................... 32
A. Flowchart Prediksi Input Kalimat Tweet ................................................ 33 B. Flowchart Prediksi File Kalimat Tweet .................................................. 34
3.4 Rancangan Antarmuka Aplikasi Website Hatespeech Classifier ........... 34 BAB 4 HASIL DAN DISKUSI ............................................................................ 37
4.1 Spesifikasi Perangkat .............................................................................. 37
x
4.2 Implementasi Aplikasi Training dan Evaluation .................................... 37 4.2.1 Implementasi Preprocessing ................................................................... 38
A. Case Folding ........................................................................................... 39 B. Stopwords Removal dan Tokenization ................................................... 41 C. Stemming ................................................................................................ 42
4.2.2 Implementasi Training dan Evaluasi Model ........................................... 42 A. Case Folding ........................................................................................... 43 B. Vectorized Model FastText..................................................................... 43 C. Implementasi Multilayer Perceptron Classifier ...................................... 44
4.2.3 Implementasi Save Model....................................................................... 45 4.2.4 Implementasi Aplikasi Hatespeech Classifier ........................................ 46 4.3 Skenario Uji Coba ................................................................................... 53 4.4 Analisa Implementasi.............................................................................. 55 4.4.1 Confusion Matrix .................................................................................... 56 4.4.2 Evaluasi F1 Score ................................................................................... 57
BAB 5 SIMPULAN DAN SARAN ..................................................................... 59 5.1 Simpulan ................................................................................................. 59 5.1 Saran ....................................................................................................... 59
DAFTAR PUSTAKA ........................................................................................... 61 DAFTAR LAMPIRAN ......................................................................................... 63
xi
DAFTAR GAMBAR
Gambar 3.1 Flowchart Umum Aplikasi Training dan Evaluation dengan Full Data Preparation ............................................................................................................ 18 Gambar 3.2 Flowchart Modul Data Preparation ................................................... 20 Gambar 3.3 Flowchart Modul Case Folding ......................................................... 21 Gambar 3.4 Flowchart Modul Transform Alay Sentence ..................................... 22 Gambar 3.5 Flowchart Modul Stopwords Removal ............................................. 23 Gambar 3.6 Flowchart Modul Tokenizing ............................................................ 24 Gambar 3.7 Flowchart Modul Stemming ............................................................. 25 Gambar 3.8 Flowchart Fasttext Training Model ................................................... 27 Gambar 3.9 Flowchart Vectorized Word Embeding............................................. 28 Gambar 3.10 Flowchart Modul Training Multilayer Perceptron .......................... 29 Gambar 3.11 Flowchart Modul Multilayer Perceptron ......................................... 31 Gambar 3.12 Flowchart Prediksi Input Kalimat Tweet ........................................ 33 Gambar 3.13 Flowchart Prediksi File Kalimat Tweet .......................................... 34 Gambar 3.14 Rancangan Antarmuka Aplikasi Website Hatespeech Classification ............................................................................................................................... 35 Gambar 4.1 Implementasi Case Folding ............................................................... 39 Gambar 4.2 Implementasi Mengubah Huruf Alay ................................................ 40 Gambar 4.3 Implementasi Case Folding 2 ............................................................ 40 Gambar 4.4 Implementasi stopwords removal dan tokenization .......................... 41 Gambar 4.5 Implementasi Stemming .................................................................... 42 Gambar 4.6 Inisiasi dan Training model FastText Not Full Preprocessing .......... 43 Gambar 4.7 Inisiasi dan Training model FastText Full Preprocessing Gambar ... 43 Gambar 4.8 Implementasi Vektorisasi Model FastText ....................................... 44 Gambar 4.9 Implementasi Multilayer Perceptron Classifier................................. 44 Gambar 4.10 Set Hyperparameter Multilayer Perceptron..................................... 45 Gambar 4.11 Implementasi Training Multilayer Perceptron Classifier ................ 45 Gambar 4. 12 Implementasi save model ............................................................... 46 Gambar 4.13 Implementasi Load FastText Model dan Multilayer Perceptron Model .................................................................................................................... 47 Gambar 4.14 Implementasi Predict by Input Tweet ............................................. 48 Gambar 4.15 Implementasi Predict by File........................................................... 49 Gambar 4.16 Implementasi Aplikasi Hatespeech Classifier ................................. 50 Gambar 4.17 Contoh melakukan input Kalimat Tweet ........................................ 51 Gambar 4. 18 Hasil Prediksi Hatespeech .............................................................. 51 Gambar 4. 19 Upload File TXT Tweet ................................................................. 52 Gambar 4.20 Hasil Prediksi Klasifikasi Hatespeech Upload File......................... 53 Gambar 4.21 Contoh Keluaran Hasil Confusion Matrix ...................................... 56 Gambar 4.22 Contoh Keluaran Hasil Pencarian Parameter .................................. 57 Gambar 4.23 Performa Implementasi Algoritma .................................................. 58
xii
DAFTAR TABEL
Tabel 1.1 Hasil perbandingan metode pembelajaran mesin.................................... 4 Tabel 2.1 Confusion Matrix Table ........................................................................ 15 Tabel 4.1 Hasil Latih Model Multilayer Perceptron ............................................. 55 Tabel 4.2 Confusion Matrix Hatespeech ............................................................... 56 Tabel 4.3 Perhitungan Confusion Matrix Non Hatespeech .................................. 56 Tabel 4.4 Perhitungan Confusion Matrix Hatespeech .......................................... 57
xiii
DAFTAR RUMUS
Rumus 2.1 Rumus MLP 1 ..................................................................................... 12 Rumus 2.2 Rumus MLP 2 ..................................................................................... 12 Rumus 2.3 Rumus MLP 3 ..................................................................................... 12 Rumus 2.4 Rumus MLP 4 ..................................................................................... 12 Rumus 2.5 Rumus MLP 5 ..................................................................................... 13 Rumus 2.6 Rumus MLP 6 ..................................................................................... 13 Rumus 2.7 Rumus MLP 7 ..................................................................................... 13 Rumus 2.8 Rumus MLP 8 ..................................................................................... 13 Rumus 2.9 Rumus MLP 9 ..................................................................................... 13 Rumus 2.10 Rumus MLP 10 ................................................................................. 13 Rumus 2.11 Rumus MLP 11 ................................................................................. 13 Rumus 2.12 Rumus Precision ............................................................................... 15 Rumus 2.13 Rumus Recall .................................................................................... 15 Rumus 2.14 Rumus F1-Score ............................................................................... 15