14
IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE COSINE SIMILARITY DAN CONDITIONAL PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME DOKUMEN SKRIPSI MAHASISWA SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program Studi Informatika Disusun oleh : ADE IRAWAN M0510001 PROGRAM STUDI INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2016 library.uns.ac.id digilib.uns.ac.id

IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

Page 1: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Program

Studi Informatika

Disusun oleh :

ADE IRAWAN

M0510001

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2016

library.uns.ac.id digilib.uns.ac.id

Page 2: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

i

HALAMAN JUDU L

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

Disusun Oleh :

ADE IRAWAN

M0510001

ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh

gelar Strata Satu Program Studi Informatika

PROGRAM STUDI INFORMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2016

library.uns.ac.id digilib.uns.ac.id

Page 3: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

ii

HALAMAN P ERSETUJUAN

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

Disusun oleh :

ADE IRAWAN

M0510001

Telah disetujui oleh pembimbing pada tanggal

Pembimbing I Pembimbing II

Ristu Saptono, S.Si.,M.T. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D.

NIP. 19790210 200212 1 001 NIP. 19830302 2016 1 001

library.uns.ac.id digilib.uns.ac.id

Page 4: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

iii

HALAMAN P ENGESA HAN

SKRIPSI

IMPLEMENTASI VECTOR SPACE MODEL DENGAN

METODE COSINE SIMILARITY DAN CONDITIONAL

PROBABILITY UNTUK SISTEM DETEKSI PLAGIARISME

DOKUMEN SKRIPSI MAHASISWA

Disusun oleh :

ADE IRAWAN

M0510001

Skripsi ini telah disetujui untuk dipertahankan di hadapan dewan penguji pada

tanggal :

Susunan Dewan Penguji

1. Ristu Saptono, S.Si.,M.T.

NIP. 19790210 200212 1 001

( )

2. Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D.

NIP. 19830302 2016 1 001

( )

3. Dr.techn. Dewi Wisnu Wardani, S.Kom,M.S.

NIP. 19781026 200501 2 002

( )

4. Haryono Setiadi, ST., M.Eng

NIP. 19800327 200501 1 002

( )

Disahkan Oleh :

Kepala Program Studi Informatika

Drs. Bambang Harjito, M.App.Sc.,Ph.D.

NIP. 19621130 199103 1 002

library.uns.ac.id digilib.uns.ac.id

Page 5: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

iv

HALAMAN MOTTO

“Life is like riding a bicycle. To keep your balance you must keep moving”

(Albert Einstein)

library.uns.ac.id digilib.uns.ac.id

Page 6: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

v

HALAMAN PERSEMBAHAN

“Skripsi ini saya persembahkan untuk orang tua dan keluarga tercinta, serta kepada seluruh pembaca karya ini”

library.uns.ac.id digilib.uns.ac.id

Page 7: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

vi

KATA PENGANTAR

Segala puji penulis panjatkan kehadirat Allah SWT atas limpahan rahmat

dan hidayah-Nya, sehingga penulis dapat menyelesaikan skripsi yang berjudul

“Implementasi Vector Space Model dengan Metode Cosine Similarity dan

Conditional Probability untuk Sistem Deteksi Plagiarisme Dokumen Skripsi

Mahasiswa”.

Penulis mengucapkan terima kasih kepada beberapa pihak yang telah

meluangkan waktu untuk memberikan bimbingan, dukungan, dan saran, sehingga

laporan ini dapat terselesaikan sebagaimana yang diharapkan, terutama kepada:

1. Allah SWT atas segala limpahan rahmat dan karunia-Nya sehingga skripsi

ini dapat diselesaikan.

2. Orang tua dan keluarga Penulis, yang selalu memberikan dukungan dan

doa kepada Penulis.

3. Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D selaku Kepala Program

Studi Informatika, Fakultas MIPA, Universitas Sebelas Maret.

4. Bapak Ristu Saptono, S.Si.,M.T. selaku dosen pembimbing I yang telah

memberikan bimbingan dalam penyusunan skripsi ini.

5. Bapak Heri Prasetyo, S.Kom., M.Sc.Eng., Ph.D. selaku dosen

pembimbing II yang telah memberikan bimbingan dalam penyusunan

skripsi ini.

6. Bapak dan Ibu Dosen Program Studi Informatika FMIPA UNS yang telah

memberikan pengajaran kepada Penulis selama menempuh masa studi.

7. Teman-teman S1 Informatika yang telah memberikan semangat dalam

penyelesaian skripsi ini.

Penulis berharap agar skripsi ini dapat bermanfaat bagi berbagai pihak.

Surakarta,

Penulis

library.uns.ac.id digilib.uns.ac.id

Page 8: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

vii

ABSTRACT

Plagiarism is one of negative impact derived from the internet growth. It can takes place in various place, one of the example is higher education environment. Plagiarism can cause many disadvantageous to another parties. So, there must be a detection system to avoid this kind of bad thing. In this proposed research, there will be made a plagiarism detection system by implementing Vector Space Model (VSM). Cosine Similarity used to make the rank of the pragraphs based on the formed angle from query vector and collection vector. The number of the taken words from the query paragraph will derived from the calculation of the conditional probability value. After testing phase has been finished, there will be a conclusion that VSM can be implemented in the system. There are 10 testing paragraph that compared with the collection paragraphs. The result of the comparation are 65.05% for the number of the average precision and 98.57% for the average recall with threshold 0.3 for the conditional probability and 0.25 for cosine similarity.

Keywords : plagiarism, paragraph, Vector Space Model; Cosine Similarity; Conditional Probability; precision; recall; threshold

library.uns.ac.id digilib.uns.ac.id

Page 9: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

viii

ABSTRAK

Plagiarisme merupakan salah satu contoh dari dampak negatif yang muncul akibat perkembangan internet yang sangat cepat. Plagiarisme dapat terjadi di berbagai tempat, salah satu contohnya yaitu di Perguruan Tinggi. Hal ini tentunnya dapat merugikan berbagai pihak. Oleh karena itu, diperlukan sistem deteksi yang dapat mencegah terjadinya tindak plagiarisme. Pada penelitian ini, akan dibuat suatu sistem deteksi plagiarisme dengan mengimplementasikan Vector Space Model. Cosine Similarity digunakan untuk meranking paragraf-paragraf berdasarkan pada nilai sudut yang terbentuk antara vector query dan vector library. Banyak kata yang diambil oleh paragraf query akan dihitung dengan menggunakan teori Conditional Probability. Setelah dilakukan pengujian, maka dapat diambil kesimpulan bahwa VSM dapat diimplementasikan pada sistem. Terdapat 10 paragraf testing yang akan dibandingkan dengan paragraf koleksi. Hasil perbandingan menunjukkan nilai sebesar 65.05% untuk rata-rata nilai precision dan 98.57% untuk rata-rata recall dengan threshold yang digunakan adalah 0.3 untuk conditional probability dan 0.25 untuk Cosine Similarity.

Kata Kunci : plagiarisme, paragraf, Vector Space Model, Cosine Similarity, Conditional Probability, precision, recall, threshold

library.uns.ac.id digilib.uns.ac.id

Page 10: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

ix

DAFTAR ISI

Table of Contents HALAMAN JUDUL ................................................................................................ i

HALAMAN PERSETUJUAN ................................................................................ ii

HALAMAN PENGESAHAN ................................................................................ iii

HALAMAN MOTTO ............................................................................................ iv

HALAMAN PERSEMBAHAN ............................................................................. v

KATA PENGANTAR ........................................................................................... vi

ABSTRACT .......................................................................................................... vii

ABSTRAK ........................................................................................................... viii

DAFTAR ISI .......................................................................................................... ix

DAFTAR TABEL .................................................................................................. xi

DAFTAR GAMBAR ........................................................................................... xii

DAFTAR LAMPIRAN ........................................................................................ xiii

1 BAB I. PENDAHULUAN .............................................................................. 1

1.1 Latar Belakang .......................................................................................... 1

1.2 Rumusan Masalah ..................................................................................... 4

1.3 Batasan Masalah ....................................................................................... 4

1.4 Tujuan Penelitian ...................................................................................... 4

1.5 Manfaat Penelitian .................................................................................... 5

1.6 Sistematika Penulisan ............................................................................... 5

2 BAB II. TINJAUAN PUSTAKA .................................................................... 6

2.1 Dasar Teori................................................................................................ 6

2.1.1 Plagiarisme ...................................................................................... 6

2.1.2 Text Preprocessing .......................................................................... 7

library.uns.ac.id digilib.uns.ac.id

Page 11: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

x

2.1.3 Algoritma Nazief Adriani ................................................................ 8

2.1.4 Pembobotan Term Frequency-Inverse Document Frequency (TF-

IDF) ....................................................................................................... 10

2.1.5 Vector Space Model ....................................................................... 11

2.1.6 Cosine Similarity ........................................................................... 13

2.1.7 Conditional Probability ................................................................. 15

2.2 Penelitian Terkait .................................................................................... 17

3 BAB III. METODOLOGI PENELITIAN .................................................... 23

3.1 Pengumpulan Data .................................................................................. 23

3.2 Preprocessing dan Indexing Library ....................................................... 23

3.3 Implementasi Vector Space Model ......................................................... 25

3.4 Implementasi Sistem ............................................................................... 27

3.5 Pengujian dan Analisis Hasil .................................................................. 28

4 BAB IV. PEMBAHASAN ............................................................................ 29

4.1 Pengumpulan Data .................................................................................. 29

4.2 Preprocessing dan Indexing Library ....................................................... 29

4.3 Implementasi Vector Space Model ......................................................... 34

4.4 Implementasi Sistem ............................................................................... 39

4.5 Pengujian dan Analisis Hasil .................................................................. 40

5 BAB V. PENUTUP ....................................................................................... 53

5.1 Kesimpulan ............................................................................................. 53

5.2 Saran ....................................................................................................... 53

DAFTAR PUSTAKA ........................................................................................... 54

LAMPIRAN .......................................................................................................... 57

library.uns.ac.id digilib.uns.ac.id

Page 12: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

xi

DAFTAR TABEL

Tabel 2.1 Kombinasi Awalan Akhiran yang Tidak Diijinkan (Agusta, 2009) ..... 10

Tabel 2.2 PenelitianTerkait ................................................................................... 20

Tabel 4.1 Detail Jumlah Data ................................................................................ 29

Tabel 4.2 Contoh Hasil Tokenization .................................................................... 31

Tabel 4.3 Index kata dasar hasil stemming ........................................................... 32

Tabel 4.4 Contoh hasil pembobotan TF-IDF ........................................................ 33

Tabel 4.5 Contoh hasil pembobotan TF-IDF pada query ..................................... 38

Tabel 4.6 Contoh hasil perihitungan Cosine dan Conditional .............................. 39

Tabel 4.7 Data paragraf testing ............................................................................. 40

Tabel 4.8 Paragraf terambil Id 1630 ..................................................................... 44

Tabel 4.9 Paragraf terambil Id 2507 ..................................................................... 46

Tabel 4.10 Paragraf terambil Id 3701 ................................................................... 48

Tabel 4.11 Hasil precision, recall, dan F-measure skenario I ............................... 49

Tabel 4.12 Hasil precision, recall, dan F-measure skenario II .............................. 50

Tabel 4.13 Hasil precision, recall, dan F-measure skenario III ............................ 50

Tabel 4.14 Hasil precision, recall, dan F-measure skenario IV ............................ 51

library.uns.ac.id digilib.uns.ac.id

Page 13: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

xii

DAFTAR GAMBAR

Gambar 2.1 Representasi Dokumen dan Vektor pada Ruang Vektor (Mandala &

Setiawan, 2002) ..................................................................................................... 12

Gambar 2.2 Matriks Term-Dokumen (Mandala, 2006) ........................................ 13

Gambar 2.3 Ilustrasi Peluang Bersyarat (Sahoo, 2013) ........................................ 16

Gambar 3.1 Diagram Metodologi Penelitian ........................................................ 23

Gambar 3.2 Tahap Preprocessing dan Indexing Library ...................................... 25

Gambar 3.3 Tahap Implementasi Vector Space Model ........................................ 27

Gambar 4.1 Contoh salah satu paragraf hasil parsing .......................................... 30

Gambar 4.2 Contoh hasil Case Folding ................................................................ 30

Gambar 4.3 Contoh 100 kata pada daftar StopWord Tala (Tala, 2003) ............... 32

Gambar 4.4 User Interface halaman testing untuk Id dokumen library 123 ........ 35

Gambar 4.5 Detail paragraf query Id 20 dengan paragraf nomor 1 pada library . 36

Gambar 4.6 User Interface halaman testing untuk Id dokumen library 63 .......... 37

Gambar 4.7 Detail paragraf query Id 10 dengan paragraf nomor 2 pada library . 37

Gambar 4.8 Contoh Parsing Paragraf Query ........................................................ 38

Gambar 4.9 Isi paragraf dengan id :1630 .............................................................. 44

Gambar 4.10 Isi paragraf dengan id :2507 ............................................................ 46

Gambar 4.11 Isi paragraf dengan id :3701 ............................................................ 47

library.uns.ac.id digilib.uns.ac.id

Page 14: IMPLEMENTASI VECTOR SPACE MODEL DENGAN METODE …€¦ · ade irawan m0510001 program studi informatika fakultas matematika dan ilmu pengetahuan alam universitas sebelas maret surakarta

xiii

DAFTAR LAMPIRAN

Lampiran 1 Data StopWord Tala .......................................................................... 57

Lampiran 2 Hasil Pengujian pada Skenario 1 ....................................................... 64

Lampiran 3 Hasil Pengujian pada Skenario 2 ....................................................... 73

Lampiran 4 Hasil Pengujian pada Skenario 3 ....................................................... 80

Lampiran 5 Hasil Pengujian pada Skenario 4 ....................................................... 85

Lampiran 6 Tipe Awalan dan Aturan Pemenggalannya ....................................... 90

Lampiran 7 User Interface Aplikasi ..................................................................... 92

library.uns.ac.id digilib.uns.ac.id