13
SKRIPSI Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer (S.Kom.) Hapsara Deo Saputra 00000009383 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN INFORMATIKA UNIVERSITAS MULTIMEDIA NUSANTARA TANGERANG 2021 IMPLEMENTASI METODE MULTILAYER PERCEPTRON DENGAN FASTTEXT WORD EMBEDDING UNTUK KLASIFIKASI UJARAN KEBENCIAN

IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

  • Upload
    others

  • View
    14

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

SKRIPSI

Diajukan sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer (S.Kom.)

Hapsara Deo Saputra

00000009383

PROGRAM STUDI INFORMATIKA

FAKULTAS TEKNIK DAN INFORMATIKA

UNIVERSITAS MULTIMEDIA NUSANTARA

TANGERANG

2021

IMPLEMENTASI METODE MULTILAYER PERCEPTRON

DENGAN FASTTEXT WORD EMBEDDING UNTUK

KLASIFIKASI UJARAN KEBENCIAN

Page 2: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

IMPLEMENTASI METODE MULTILAYER PERCEPTRON

DENGAN FASTTEXT WORD EMBEDDING UNTUK

KLASIFIKASI UJARAN KEBENCIAN

Stamp
Page 3: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

iii

PERNYATAAN TIDAK MELAKUKAN PLAGIAT

Dengan ini saya:

Nama : Hapsara Deo Saputra

NIM : 00000009383

Fakultas : Teknik dan Informatika

Program Studi : Informatika

menyatakan bahwa skripsi yang berjudul “Implementasi Metode Multilayer

Perceptron Dengan FastText Word Embedding Untuk Klasifikasi Ujaran

Kebencian” ini adalah karya ilmiah saya sendiri, bukan plagiat dari karya ilmiah

yang ditulis oleh orang lain atau lembaga lain, dan semua karya ilmiah orang lain

atau lembaga lain yang dirujuk dalam skripsi ini telah disebutkan sumber

kutipannya serta dicantumkan di Daftar Pustaka. Jika di kemudian hari terbukti ditemukan kecurangan/penyimpangan, baik dalam

pelaksanaan skripsi maupun dalam penulisan laporan skripsi, saya bersedia

menerima konsekuensi dinyatakan TIDAK LULUS untuk mata kuliah Skripsi yang

telah saya tempuh.

Tangerang, 2 Januari 2021

Hapsara Deo Saputra

Page 4: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

iv

PERNYATAAN PERSETUJUAN PUBLIKASI KARYA IMLIAH

UNTUK KEPENTINGAN AKADEMIS

Sebagai sivitas akademik Universitas Multimedia Nusantara, saya yang bertanda

tangan di bawah ini:

Nama : Hapsara Deo Saputra

NIM : 00000009383

Program Studi : Informatika

Fakultas : Teknik dan Informatika

Jenis Karya : Skripsi

Demi pengembangan ilmu pengetahuan, menyetujui dan memberikan izin kepada

Universitas Multimedia Nusantara hak Bebas Royalti Non-eksklusif (Non-

exclusive Royalty-free Right) atas karya ilmiah saya yang berjudul: Implementasi

Metode Multilayer Perceptron Dengan FastText Word Embedding Untuk

Klasifikasi Ujaran Kebencian beserta perangkat yang diperlukan. Dengan Hak

Bebas Royalti Non-eksklusif ini, pihak Universitas Multimedia Nusantara berhak

menyimpan, mengalihmedia atau format-kan, mengelola dalam bentuk pangkalan

data (database), merawat, dan mendistribusi dan menampilkan atau

mempublikasikan karya ilmiah saya di internet atau media lain untuk kepentingan

akademis, tanpa perlu meminta izin dari saya maupun memberikan royalti kepada

saya, selama tetap mencantumkan nama saya sebagai penulis karya ilmiah tersebut.

Demikian pernyataan ini saya buat dengan sebenarnya untuk dipergunakan

sebagaimana mestinya.

Tangerang, 2 Januari 2021

Hapsara Deo Saputra

Page 5: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

v

KATA PENGANTAR

Puji syukur pada Tuhan Yang Mahakuasa karena atas rahmat-Nya skripsi

berjudul “Implementasi Metode Multilayer Perceptron Dengan FastText Word

Embedding Untuk Klasifikasi Ujaran Kebencian” ini dapat selesai tepat waktu.

Laporan ini disusun dengan kesungguhan hati sebagai salah satu syarat meraih gelar

Sarjana Komputer pada Program Studi Informatika Fakultas Teknik dan

Informatika Universitas Multimedia Nusantara

Dalam penyusunan laporan ini, tentu tidak lepas dari pengarahan dan

bimbingan dari berbagai pihak. Dengan segala hormat, penulis ucapkan terima kasih

kepada:

1. Anggota keluarga yang telah memberi dukungan selama proses pembuatan

skripsi,

2. Dr. Ninok Leksono, selaku Rektor Universitas Multimedia Nusantara,

3. Marlinda Vasty Overbeek, S.Kom, M.Kom., selaku Ketua Program Studi

Informatika,

4. Julio Cristian Young, S.Kom., M.Kom. dan Alethea Suryadibrata, S.Kom.,

M.Eng., yang membimbing pembuatan skripsi dan yang telah mengajar penulis

tata cara menulis karya ilmiah dengan benar,

5. M. Naufal Randhika, Reza Fadhilah Khan, Benyamin Pratama dan teman-

teman lainnya yang tetap memberi semangat penulis selama proses pembuatan

skrpsi.

6. Ilona Juwita, Willy Janitra serta rekan-rekan kantor PT Promedia Punggawa

Satu yang telah memberi dukungan dan semangat selama proses pembuatan

Page 6: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

vi

skripsi.

Semoga skripsi ini dapat bermanfaat, baik sebagai sumber informasi maupun

sumber inspirasi, bagi para pembaca.

Tangerang, 2 Januari 2021

Hapsara Deo Saputra

Page 7: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

vii

IMPLEMENTASI METODE MULTILAYER PERCEPTRON

DENGAN FASTTEXT WORD EMBEDDING UNTUK

KLASIFIKASI UJARAN KEBENCIAN

ABSTRAK

Penelitian ini menjabarkan pembuatan aplikasi klasifikasi ujaran kebencian dengan multilayer perceptron classifier dan fasttext word embeding berbasis web. Aplikasi klasifikasi dibuat berdasarkan dataset yang telah dibuat sebelumnya oleh Ibrohim dan Budi untuk klasifikasi ujaran kebencian dalam Bahasa Indonesia pada sosial media Twitter. Perancangan dan pembuatan aplikasi klasifikasi ini dilakukan dengan menggunakan bahasa pemrograman python, CSS, dan HTML. Hasil implementasi yang memiliki performa terbaik adalah model dengan jumlah dataset yang seimbang dengan pembagian train dan test set 80:20 dan hyperparameter tuning menggunakan GridSearchCV dengan 3 stratified cross validation yang memperoleh model fitur tanpa melalui tahap stemming dan stopwords removal dan proses ekstraksi fitur menggunakan fastText yang dilatih dengan dimensi fitur sebesar 200, batch_size 40, hidden_layer_sizes 100, learning_rate_init 0.0005 dan mas_iter 150 dan diperoleh tingkat performa F1 Score sebesar 82.09%.

Kata Kunci: ujaran kebencian , fastText, multilayer perceptron

Page 8: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

viii

IMPLEMENTATION OF THE MULTILAYER PERCEPTRON

METHOD WITH FASTTEXT WORD EMBEDDING FOR

HATESPEECH CLASSIFICATION

ABSTRACT

This thesis describes the making of a classification application that is useful for classifying hate speech with a multilayer perceptron classifier and web-based fasttext word embedding. The classification application is based on a dataset previously made by Ibrohim and Budi for classification of hate speech in Indonesian on Twitter social media. The design and manufacture of this classification application is carried out using the python programming language, CSS, and HTML. The implementation results that have the best performance are a model with a balanced number of datasets by dividing the train and test set 80:20 and hyperparameter tuning using GridSearchCV with 3 stratified cross validation which obtains a feature model without going through the stemming and stopwords removal stages and the feature extraction process using the fastText trained with feature dimensions of 200, batch_size 40, hidden_layer_sizes 100, learning_rate_init 0.0005 and mas_iter 150 and obtained an F1 Score performance level of 82.09%.

Keywords: hatespeech, fastText, multilayer perceptron

Page 9: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

ix

DAFTAR ISI

LEMBAR PENGESAHAN .................................................................................... ii PERNYATAAN TIDAK MELAKUKAN PLAGIAT .......................................... iii PERNYATAAN PERSETUJUAN PUBLIKASI KARYA IMLIAH UNTUK KEPENTINGAN AKADEMIS ............................................................................. iv KATA PENGANTAR ............................................................................................ v ABSTRAK ............................................................................................................ vii ABSTRACT ......................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR GAMBAR ............................................................................................. xi DAFTAR TABEL ................................................................................................. xii DAFTAR RUMUS .............................................................................................. xiii BAB 1 PENDAHULUAN ...................................................................................... 1

1.1 Latar Belakang Masalah ........................................................................... 1 1.2 Rumusan Masalah ..................................................................................... 5 1.3 Batasan Masalah ....................................................................................... 5 1.4 Tujuan Penelitian ...................................................................................... 6 1.5 Manfaat Penelitian .................................................................................... 6 1.6 Sistematika Penulisan ............................................................................... 7

BAB 2 TINJAUAN PUSTAKA ............................................................................. 9 2.1 Text Classification dan Text Processing ................................................... 9 2.2 FastText................................................................................................... 10 2.3 Multilayer Perceptron ............................................................................. 11 2.4 Evaluasi Klasifikasi ................................................................................ 13

BAB 3 METODOLOGI DAN PERANCANGAN SISTEM ................................ 16 3.1 Metodologi Penelitian ............................................................................. 16 3.2 Pengumpulan Data .................................................................................. 17 3.3 Perancangan Sistem ................................................................................ 17 3.3.1 Flowchart Umum Proses Training dan Evaluation ................................. 18 3.3.2 Flowchart Modul Data Preparation ......................................................... 19 3.3.3 Flowchart Modul Case Folding .............................................................. 21 3.3.4 Flowchart Modul Transform Alay Sentence ........................................... 22 3.3.5 Flowchart Modul Stopwords Removal ................................................... 23 3.3.6 Flowchart Modul Tokenizing ................................................................. 24 3.3.7 Flowchart Modul Stemming ................................................................... 25 3.3.8 Flowchart Modul FastText Training Model ........................................... 26 3.3.9 Flowchart Modul Vectorized Word Embeding....................................... 28 3.3.10 Flowchart Modul Training Multilayer Perceptron Classification ........... 29 3.3.11 Flowchart Modul Multilayer Perceptron ................................................ 31 3.3.12 Flowchart Aplikasi Hatespeech Classification ....................................... 32

A. Flowchart Prediksi Input Kalimat Tweet ................................................ 33 B. Flowchart Prediksi File Kalimat Tweet .................................................. 34

3.4 Rancangan Antarmuka Aplikasi Website Hatespeech Classifier ........... 34 BAB 4 HASIL DAN DISKUSI ............................................................................ 37

4.1 Spesifikasi Perangkat .............................................................................. 37

Page 10: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

x

4.2 Implementasi Aplikasi Training dan Evaluation .................................... 37 4.2.1 Implementasi Preprocessing ................................................................... 38

A. Case Folding ........................................................................................... 39 B. Stopwords Removal dan Tokenization ................................................... 41 C. Stemming ................................................................................................ 42

4.2.2 Implementasi Training dan Evaluasi Model ........................................... 42 A. Case Folding ........................................................................................... 43 B. Vectorized Model FastText..................................................................... 43 C. Implementasi Multilayer Perceptron Classifier ...................................... 44

4.2.3 Implementasi Save Model....................................................................... 45 4.2.4 Implementasi Aplikasi Hatespeech Classifier ........................................ 46 4.3 Skenario Uji Coba ................................................................................... 53 4.4 Analisa Implementasi.............................................................................. 55 4.4.1 Confusion Matrix .................................................................................... 56 4.4.2 Evaluasi F1 Score ................................................................................... 57

BAB 5 SIMPULAN DAN SARAN ..................................................................... 59 5.1 Simpulan ................................................................................................. 59 5.1 Saran ....................................................................................................... 59

DAFTAR PUSTAKA ........................................................................................... 61 DAFTAR LAMPIRAN ......................................................................................... 63

Page 11: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

xi

DAFTAR GAMBAR

Gambar 3.1 Flowchart Umum Aplikasi Training dan Evaluation dengan Full Data Preparation ............................................................................................................ 18 Gambar 3.2 Flowchart Modul Data Preparation ................................................... 20 Gambar 3.3 Flowchart Modul Case Folding ......................................................... 21 Gambar 3.4 Flowchart Modul Transform Alay Sentence ..................................... 22 Gambar 3.5 Flowchart Modul Stopwords Removal ............................................. 23 Gambar 3.6 Flowchart Modul Tokenizing ............................................................ 24 Gambar 3.7 Flowchart Modul Stemming ............................................................. 25 Gambar 3.8 Flowchart Fasttext Training Model ................................................... 27 Gambar 3.9 Flowchart Vectorized Word Embeding............................................. 28 Gambar 3.10 Flowchart Modul Training Multilayer Perceptron .......................... 29 Gambar 3.11 Flowchart Modul Multilayer Perceptron ......................................... 31 Gambar 3.12 Flowchart Prediksi Input Kalimat Tweet ........................................ 33 Gambar 3.13 Flowchart Prediksi File Kalimat Tweet .......................................... 34 Gambar 3.14 Rancangan Antarmuka Aplikasi Website Hatespeech Classification ............................................................................................................................... 35 Gambar 4.1 Implementasi Case Folding ............................................................... 39 Gambar 4.2 Implementasi Mengubah Huruf Alay ................................................ 40 Gambar 4.3 Implementasi Case Folding 2 ............................................................ 40 Gambar 4.4 Implementasi stopwords removal dan tokenization .......................... 41 Gambar 4.5 Implementasi Stemming .................................................................... 42 Gambar 4.6 Inisiasi dan Training model FastText Not Full Preprocessing .......... 43 Gambar 4.7 Inisiasi dan Training model FastText Full Preprocessing Gambar ... 43 Gambar 4.8 Implementasi Vektorisasi Model FastText ....................................... 44 Gambar 4.9 Implementasi Multilayer Perceptron Classifier................................. 44 Gambar 4.10 Set Hyperparameter Multilayer Perceptron..................................... 45 Gambar 4.11 Implementasi Training Multilayer Perceptron Classifier ................ 45 Gambar 4. 12 Implementasi save model ............................................................... 46 Gambar 4.13 Implementasi Load FastText Model dan Multilayer Perceptron Model .................................................................................................................... 47 Gambar 4.14 Implementasi Predict by Input Tweet ............................................. 48 Gambar 4.15 Implementasi Predict by File........................................................... 49 Gambar 4.16 Implementasi Aplikasi Hatespeech Classifier ................................. 50 Gambar 4.17 Contoh melakukan input Kalimat Tweet ........................................ 51 Gambar 4. 18 Hasil Prediksi Hatespeech .............................................................. 51 Gambar 4. 19 Upload File TXT Tweet ................................................................. 52 Gambar 4.20 Hasil Prediksi Klasifikasi Hatespeech Upload File......................... 53 Gambar 4.21 Contoh Keluaran Hasil Confusion Matrix ...................................... 56 Gambar 4.22 Contoh Keluaran Hasil Pencarian Parameter .................................. 57 Gambar 4.23 Performa Implementasi Algoritma .................................................. 58

Page 12: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

xii

DAFTAR TABEL

Tabel 1.1 Hasil perbandingan metode pembelajaran mesin.................................... 4 Tabel 2.1 Confusion Matrix Table ........................................................................ 15 Tabel 4.1 Hasil Latih Model Multilayer Perceptron ............................................. 55 Tabel 4.2 Confusion Matrix Hatespeech ............................................................... 56 Tabel 4.3 Perhitungan Confusion Matrix Non Hatespeech .................................. 56 Tabel 4.4 Perhitungan Confusion Matrix Hatespeech .......................................... 57

Page 13: IMPLEMENTASI METODE MULTILAYER PERCEPTRON …

xiii

DAFTAR RUMUS

Rumus 2.1 Rumus MLP 1 ..................................................................................... 12 Rumus 2.2 Rumus MLP 2 ..................................................................................... 12 Rumus 2.3 Rumus MLP 3 ..................................................................................... 12 Rumus 2.4 Rumus MLP 4 ..................................................................................... 12 Rumus 2.5 Rumus MLP 5 ..................................................................................... 13 Rumus 2.6 Rumus MLP 6 ..................................................................................... 13 Rumus 2.7 Rumus MLP 7 ..................................................................................... 13 Rumus 2.8 Rumus MLP 8 ..................................................................................... 13 Rumus 2.9 Rumus MLP 9 ..................................................................................... 13 Rumus 2.10 Rumus MLP 10 ................................................................................. 13 Rumus 2.11 Rumus MLP 11 ................................................................................. 13 Rumus 2.12 Rumus Precision ............................................................................... 15 Rumus 2.13 Rumus Recall .................................................................................... 15 Rumus 2.14 Rumus F1-Score ............................................................................... 15