Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
IMPLEMENTASI VECTOR SPACE MODEL DENGAN
METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program
Studi Informatika
Disusun oleh :
ADE IRAWAN
M0510001
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
library.uns.ac.id digilib.uns.ac.id
i
HALAMAN JUDU L
SKRIPSI
IMPLEMENTASI VECTOR SPACE MODEL DENGAN
METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA
Disusun Oleh :
ADE IRAWAN
M0510001
ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh
gelar Strata Satu Program Studi Informatika
PROGRAM STUDI INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2016
library.uns.ac.id digilib.uns.ac.id
ii
HALAMAN P ERSETUJUAN
SKRIPSI
IMPLEMENTASI VECTOR SPACE MODEL DENGAN
METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA
Disusun oleh :
ADE IRAWAN
M0510001
Telah disetujui oleh pembimbing pada tanggal
Pembimbing I Pembimbing II
Ristu Saptono, S.Si.,M.T. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D.
NIP. 19790210 200212 1 001 NIP. 19830302 2016 1 001
library.uns.ac.id digilib.uns.ac.id
iii
HALAMAN P ENGESA HAN
SKRIPSI
IMPLEMENTASI VECTOR SPACE MODEL DENGAN
METODE COSINE SIMILARITY DAN CONDITIONAL
PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME
DOKUMEN SKRIPSI MAHASISWA
Disusun oleh :
ADE IRAWAN
M0510001
Skripsi ini telah disetujui untuk dipertahankan di hadapan dewan penguji pada
tanggal :
Susunan Dewan Penguji
1. Ristu Saptono, S.Si.,M.T.
NIP. 19790210 200212 1 001
( )
2. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D.
NIP. 19830302 2016 1 001
( )
3. Dr.techn. Dewi Wisnu Wardani, S.Kom,M.S.
NIP. 19781026 200501 2 002
( )
4. Haryono Setiadi, ST., M.Eng
NIP. 19800327 200501 1 002
( )
Disahkan Oleh :
Kepala Program Studi Informatika
Drs. Bambang Harjito, M.App.Sc.,Ph.D.
NIP. 19621130 199103 1 002
library.uns.ac.id digilib.uns.ac.id
iv
HALAMAN MOTTO
“Life is like riding a bicycle. To keep your balance you must keep moving”
(Albert Einstein)
library.uns.ac.id digilib.uns.ac.id
v
HALAMAN PERSEMBAHAN
“Skripsi ini saya persembahkan untuk orang tua dan keluarga tercinta, serta kepada seluruh pembaca karya ini”
library.uns.ac.id digilib.uns.ac.id
vi
KATA PENGANTAR
Segala puji penulis panjatkan kehadirat Allah SWT atas limpahan rahmat
dan hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul
“Implementasi Vector Space Model dengan Metode Cosine Similarity dan
Conditional Probability untuk Sistem Deteksi Plagiarisme Dokumen Skripsi
Mahasiswa”.
Penulis mengucapkan terima kasih kepada beberapa pihak yang telah
meluangkan waktu untuk memberikan bimbingan, dukungan, dan saran, sehingga
laporan ini dapat terselesaikan sebagaimana yang diharapkan, terutama kepada:
1. Allah SWT atas segala limpahan rahmat dan karunia-Nya sehingga skripsi
ini dapat diselesaikan.
2. Orang tua dan keluarga Penulis, yang selalu memberikan dukungan dan
doa kepada Penulis.
3. Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D selaku Kepala Program
Studi Informatika, Fakultas MIPA, Universitas Sebelas Maret.
4. Bapak Ristu Saptono, S.Si.,M.T. selaku dosen pembimbing I yang telah
memberikan bimbingan dalam penyusunan skripsi ini.
5. Bapak Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D. selaku dosen
pembimbing II yang telah memberikan bimbingan dalam penyusunan
skripsi ini.
6. Bapak dan Ibu Dosen Program Studi Informatika FMIPA UNS yang telah
memberikan pengajaran kepada Penulis selama menempuh masa studi.
7. Teman-teman S1 Informatika yang telah memberikan semangat dalam
penyelesaian skripsi ini.
Penulis berharap agar skripsi ini dapat bermanfaat bagi berbagai pihak.
Surakarta,
Penulis
library.uns.ac.id digilib.uns.ac.id
vii
ABSTRACT
Plagiarism is one of negative impact derived from the internet growth. It can takes place in various place, one of the example is higher education environment. Plagiarism can cause many disadvantageous to another parties. So, there must be a detection system to avoid this kind of bad thing. In this proposed research, there will be made a plagiarism detection system by implementing Vector Space Model (VSM). Cosine Similarity used to make the rank of the pragraphs based on the formed angle from query vector and collection vector. The number of the taken words from the query paragraph will derived from the calculation of the conditional probability value. After testing phase has been finished, there will be a conclusion that VSM can be implemented in the system. There are 10 testing paragraph that compared with the collection paragraphs. The result of the comparation are 65.05% for the number of the average precision and 98.57% for the average recall with threshold 0.3 for the conditional probability and 0.25 for cosine similarity.
Keywords : plagiarism, paragraph, Vector Space Model; Cosine Similarity; Conditional Probability; precision; recall; threshold
library.uns.ac.id digilib.uns.ac.id
viii
ABSTRAK
Plagiarisme merupakan salah satu contoh dari dampak negatif yang muncul akibat perkembangan internet yang sangat cepat. Plagiarisme dapat terjadi di berbagai tempat, salah satu contohnya yaitu di Perguruan Tinggi. Hal ini tentunnya dapat merugikan berbagai pihak. Oleh karena itu, diperlukan sistem deteksi yang dapat mencegah terjadinya tindak plagiarisme. Pada penelitian ini, akan dibuat suatu sistem deteksi plagiarisme dengan mengimplementasikan Vector Space Model. Cosine Similarity digunakan untuk meranking paragraf-paragraf berdasarkan pada nilai sudut yang terbentuk antara vector query dan vector library. Banyak kata yang diambil oleh paragraf query akan dihitung dengan menggunakan teori Conditional Probability. Setelah dilakukan pengujian, maka dapat diambil kesimpulan bahwa VSM dapat diimplementasikan pada sistem. Terdapat 10 paragraf testing yang akan dibandingkan dengan paragraf koleksi. Hasil perbandingan menunjukkan nilai sebesar 65.05% untuk rata-rata nilai precision dan 98.57% untuk rata-rata recall dengan threshold yang digunakan adalah 0.3 untuk conditional probability dan 0.25 untuk Cosine Similarity.
Kata Kunci : plagiarisme, paragraf, Vector Space Model, Cosine Similarity, Conditional Probability, precision, recall, threshold
library.uns.ac.id digilib.uns.ac.id
ix
DAFTAR ISI
Table of Contents HALAMAN JUDUL ................................................................................................ i
HALAMAN PERSETUJUAN ................................................................................ ii
HALAMAN PENGESAHAN ................................................................................ iii
HALAMAN MOTTO ............................................................................................ iv
HALAMAN PERSEMBAHAN ............................................................................. v
KATA PENGANTAR ........................................................................................... vi
ABSTRACT .......................................................................................................... vii
ABSTRAK ........................................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL .................................................................................................. xi
DAFTAR GAMBAR ........................................................................................... xii
DAFTAR LAMPIRAN ........................................................................................ xiii
1 BAB I. PENDAHULUAN .............................................................................. 1
1.1 Latar Belakang .......................................................................................... 1
1.2 Rumusan Masalah ..................................................................................... 4
1.3 Batasan Masalah ....................................................................................... 4
1.4 Tujuan Penelitian ...................................................................................... 4
1.5 Manfaat Penelitian .................................................................................... 5
1.6 Sistematika Penulisan ............................................................................... 5
2 BAB II. TINJAUAN PUSTAKA .................................................................... 6
2.1 Dasar Teori................................................................................................ 6
2.1.1 Plagiarisme ...................................................................................... 6
2.1.2 Text Preprocessing .......................................................................... 7
library.uns.ac.id digilib.uns.ac.id
x
2.1.3 Algoritma Nazief Adriani ................................................................ 8
2.1.4 Pembobotan Term Frequency-Inverse Document Frequency (TF-
IDF) ....................................................................................................... 10
2.1.5 Vector Space Model ....................................................................... 11
2.1.6 Cosine Similarity ........................................................................... 13
2.1.7 Conditional Probability ................................................................. 15
2.2 Penelitian Terkait .................................................................................... 17
3 BAB III. METODOLOGI PENELITIAN .................................................... 23
3.1 Pengumpulan Data .................................................................................. 23
3.2 Preprocessing dan Indexing Library ....................................................... 23
3.3 Implementasi Vector Space Model ......................................................... 25
3.4 Implementasi Sistem ............................................................................... 27
3.5 Pengujian dan Analisis Hasil .................................................................. 28
4 BAB IV. PEMBAHASAN ............................................................................ 29
4.1 Pengumpulan Data .................................................................................. 29
4.2 Preprocessing dan Indexing Library ....................................................... 29
4.3 Implementasi Vector Space Model ......................................................... 34
4.4 Implementasi Sistem ............................................................................... 39
4.5 Pengujian dan Analisis Hasil .................................................................. 40
5 BAB V. PENUTUP ....................................................................................... 53
5.1 Kesimpulan ............................................................................................. 53
5.2 Saran ....................................................................................................... 53
DAFTAR PUSTAKA ........................................................................................... 54
LAMPIRAN .......................................................................................................... 57
library.uns.ac.id digilib.uns.ac.id
xi
DAFTAR TABEL
Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan (Agusta, 2009) ..... 10
Tabel 2.2 PenelitianTerkait ................................................................................... 20
Tabel 4.1 Detail Jumlah Data ................................................................................ 29
Tabel 4.2 Contoh Hasil Tokenization .................................................................... 31
Tabel 4.3 Index kata dasar hasil stemming ........................................................... 32
Tabel 4.4 Contoh hasil pembobotan TF-IDF ........................................................ 33
Tabel 4.5 Contoh hasil pembobotan TF-IDF pada query ..................................... 38
Tabel 4.6 Contoh hasil perihitungan Cosine dan Conditional .............................. 39
Tabel 4.7 Data paragraf testing ............................................................................. 40
Tabel 4.8 Paragraf terambil Id 1630 ..................................................................... 44
Tabel 4.9 Paragraf terambil Id 2507 ..................................................................... 46
Tabel 4.10 Paragraf terambil Id 3701 ................................................................... 48
Tabel 4.11 Hasil precision, recall, dan F-measure skenario I ............................... 49
Tabel 4.12 Hasil precision, recall, dan F-measure skenario II .............................. 50
Tabel 4.13 Hasil precision, recall, dan F-measure skenario III ............................ 50
Tabel 4.14 Hasil precision, recall, dan F-measure skenario IV ............................ 51
library.uns.ac.id digilib.uns.ac.id
xii
DAFTAR GAMBAR
Gambar 2.1 Representasi Dokumen dan Vektor pada Ruang Vektor (Mandala &
Setiawan, 2002) ..................................................................................................... 12
Gambar 2.2 Matriks Term-Dokumen (Mandala, 2006) ........................................ 13
Gambar 2.3 Ilustrasi Peluang Bersyarat (Sahoo, 2013) ........................................ 16
Gambar 3.1 Diagram Metodologi Penelitian ........................................................ 23
Gambar 3.2 Tahap Preprocessing dan Indexing Library ...................................... 25
Gambar 3.3 Tahap Implementasi Vector Space Model ........................................ 27
Gambar 4.1 Contoh salah satu paragraf hasil parsing .......................................... 30
Gambar 4.2 Contoh hasil Case Folding ................................................................ 30
Gambar 4.3 Contoh 100 kata pada daftar StopWord Tala (Tala, 2003) ............... 32
Gambar 4.4 User Interface halaman testing untuk Id dokumen library 123 ........ 35
Gambar 4.5 Detail paragraf query Id 20 dengan paragraf nomor 1 pada library . 36
Gambar 4.6 User Interface halaman testing untuk Id dokumen library 63 .......... 37
Gambar 4.7 Detail paragraf query Id 10 dengan paragraf nomor 2 pada library . 37
Gambar 4.8 Contoh Parsing Paragraf Query ........................................................ 38
Gambar 4.9 Isi paragraf dengan id :1630 .............................................................. 44
Gambar 4.10 Isi paragraf dengan id :2507 ............................................................ 46
Gambar 4.11 Isi paragraf dengan id :3701 ............................................................ 47
library.uns.ac.id digilib.uns.ac.id
xiii
DAFTAR LAMPIRAN
Lampiran 1 Data StopWord Tala .......................................................................... 57
Lampiran 2 Hasil Pengujian pada Skenario 1 ....................................................... 64
Lampiran 3 Hasil Pengujian pada Skenario 2 ....................................................... 73
Lampiran 4 Hasil Pengujian pada Skenario 3 ....................................................... 80
Lampiran 5 Hasil Pengujian pada Skenario 4 ....................................................... 85
Lampiran 6 Tipe Awalan dan Aturan Pemenggalannya ....................................... 90
Lampiran 7 User Interface Aplikasi ..................................................................... 92
library.uns.ac.id digilib.uns.ac.id