Upload
hoangtram
View
230
Download
0
Embed Size (px)
Citation preview
SISTEM PENDETEKSI PLAGIAT HARFIAH PADA
DOKUMEN TEKS BERBAHASA INDONESIA
DENGAN MEMANFAATKAN
MESIN PENCARI
FUAD DAVIRATMA HUSNI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Sistem Pendeteksi
Plagiat pada Dokumen Teks Berbahasa Indonesia dengan Memanfaatkan Mesin
Pencari adalah benar karya saya dengan arahan dari komisi pembimbing dan
belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber
informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak
diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam
Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juli 2013
Fuad Daviratma Husni
NIM G64104002
ABSTRAK
FUAD DAVIRATMA HUSNI. Sistem Pendeteksi Plagiat Harfiah pada Dokumen
Teks Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari. Dibimbing oleh
AHMAD RIDHA.
Mesin pencari dapat dimanfaatkan untuk mendeteksi plagiat karena mesin
pencari adalah salah satu pintu gerbang untuk mendapatkan dokumen sumber
plagiat. Penelitian ini bertujuan untuk membentuk korpus dokumen plagiat dan
membuat sistem pendeteksi plagiat dengan memanfaatkan mesin pencari. Korpus
dokumen plagiat dibuat dengan menyalin 1-3 dokumen sumber dan
merestrukturisasi dokumen sumber dengan menerjemahkan bolak-balik
menggunakan Google Translate. Korpus dokumen plagiat terdiri atas 100
dokumen. Teks diekstraksi menjadi segmen-segmen yang terdiri atas 4-20 kata.
Segmen-segmen tersebut diboboti berdasarkan ada tidaknya kata dalam kamus
dengan bobot lebih besar diberikan pada kata yang tidak ada dalam kamus.
Penelitian ini berhasil mendeteksi 100% korpus dokumen plagiat dengan
maksimal 31% segmen dokumen dan memanfaatkan mesin pencari Google,
sedangkan dengan mesin pencari Bing, penggunaan hingga 40% segmen dokumen
hanya berhasil mendeteksi 30% korpus dokumen plagiat. Hasil penelitian ini
menunjukkan hasil deteksi plagiat tergantung pada kualitas hasil pencarian yang
dilakukan mesin pencari.
Kata kunci: deteksi plagiat, mesin pencari, segmentasi
ABSTRACT
FUAD DAVIRATMA HUSNI. Literal Plagiarism Detection System for
Indonesian Text Document Using Search Engine. Supervised by AHMAD
RIDHA.
Search engines can be used to detect plagiarism because search engines are
one of the gateways to get source documents. This research aims to establish a
corpus of document plagiarism and develops a system that can detect plagiarism
by utilizing search engines. The corpus is created by copying passages from 1-3
source documents and restructuring the source documents by translating back and
forth with Google Translate. The corpus consists of 100 documents. The
documents are extracted into segments consisting of 4-20 words. The segments
will be weighted based on the words existence in Indonesian dictionary where
words not found in dictionary are given higher weights. Using Google’s search
engine, this study successfully detects 100% of the plagiarized documents using
only a maximum of 31% segments. On the other hand, using Bing and 40%
segment documents only detects 30% of the corpus. The results of this study show
that the performance of online plagiarism detection depends on the quality of the
search results provided by search engines.
Keywords: plagiarism detection, search engines, segmentation
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer
SISTEM PENDETEKSI PLAGIAT HARFIAH PADA
DOKUMEN TEKS BERBAHASA INDONESIA
DENGAN MEMANFAATKAN
MESIN PENCARI
FUAD DAVIRATMA HUSNI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2013
Judul Skripsi : Sistem Pendeteksi Dokumen Plagiat Harfiah pada Dokumen Teks
Berbahasa Indonesia dengan Memanfaatkan Mesin Pencari
Nama : Fuad Daviratma Husni
NIM : G64104002
Disetujui oleh
Ahmad Ridha, SKom MS
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya
ilmiah ini. Topik pada penelitian ini adalah Pendeteksian Plagiat dengan Mesin
Pencari.
Terima kasih penulis ucapkan kepada bapak Ahmad Ridha, SKom MS
selaku pembimbing. Terima kasih juga penulis ucapkan kepada ayah, ibu, istri
serta seluruh keluarga, atas segala doa dan kasih sayangnya.
Bogor, Juli 2013
Fuad Daviratma Husni
DAFTAR ISI
DAFTAR TABEL vi
DAFTAR GAMBAR vi
DAFTAR LAMPIRAN vi
PENDAHULUAN 1
Latar Belakang 1
Tujuan Penelitian 1
Ruang Lingkup Penelitian 2
METODE 2
Dokumen Uji 2
Praproses Dokumen 4
Segmentasi Dokumen 4
Pembobotan Segmen dan Pemeringkatan Segmen 5
Pencarian Online 6
Pencatatan dan Identifikasi Alamat 6
Ekstraksi Dokumen Sumber dan Dokumen Uji 7
Perhitungan Jarak 7
Perhitungan Akurasi 8
HASIL DAN PEMBAHASAN 8
Pembentukan Korpus Dokumen Uji 8
Praproses Dokumen Uji dan Dokumen Sumber 10
Segmentasi Dokumen 10
Pembobotan dan Pemeringkatan Segmen 11
Pencarian Online 11
Pencatatan dan Identifikasi Alamat 12
Perhitungan Jarak 13
Akurasi Deteksi Plagiat 14
SIMPULAN DAN SARAN 16
Simpulan 16
Saran 16
DAFTAR PUSTAKA 17
DAFTAR TABEL
1 Nilai kesamaan kosinus dokumen uji dengan sumber plagiat 9 2 Hasil segmentasi dokumen uji 10 3 Hasil pencarian Google 11 4 Hasil pencarian Bing 12 5 Perbandingan hasil kesamaan kosinus maksimum dokumen uji dengan
cara identifikasi alamat dokumen sumber 12 6 Hasil rata-rata deteksi plagiat dengan 40% segmen dan mesin pencari
Google 13 7 Hasil rata-rata deteksi plagiat dengan 40% segmen dan mesin pencari
Bing 13 8 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik)
dengan mesin pencari Google 15 9 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik)
dengan mesin pencari Bing 15
DAFTAR GAMBAR
1 Aliran sistem deteksi plagiat 2 2 Metode penelitian 3 3 Penggunaan segmen sebagai kueri dan akurasi deteksi plagiat dengan
Google 14
DAFTAR LAMPIRAN
1 Dokumen uji 18 2 Rata-rata kesamaan dokumen uji dengan satu dokumen sumber 19
3 Rata-rata kesamaan dokumen uji dengan lebih dari satu dokumen
sumber 20 4 Hasil segmentasi dokumen uji dengan satu dokumen sumber 21 5 Hasil segmentasi dokumen uji dengan lebih dari satu dokumen sumber 22
6 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
hampir sama persis) 23 7 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
gabungan berbagai sumber) 24 8 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
sedikit bagian sumber) 25 9 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji jenis
restrukturisasi) 26
10 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
hampir sama persis) 27 11 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
gabungan berbagai sumber) 28
12 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
sedikit bagian sumber) 29
13 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
restrukturisasi) 30 14 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan
mesin pencari Google (detik) 31 15 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber
dengan mesin pencari Google (detik) 32 16 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan
mesin pencari Google (detik) 33 17 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin
pencari Google (detik) 34 18 Waktu deteksi plagiat dokumen uji jenis hampir sama persis dengan
mesin pencari Bing (detik) 35 19 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber
dengan mesin pencari Bing (detik) 36 20 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber dengan
mesin pencari Bing (detik) 37 21 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin
pencari Bing (detik) 38
PENDAHULUAN
Latar Belakang
Kemajuan teknik mesin pencari memudahkan orang-orang dalam mencari
apa yang mereka inginkan di internet. Di sisi lain, kesempatan untuk melakukan
plagiat meningkat drastis jika orang-orang memanfaatkan mesin pencari dengan
tidak semestinya. Skenario khas plagiat adalah seseorang melakukan pencarian di
mesin pencari dan kemudian melakukan copy-paste tanpa memahami bahan yang
diambil untuk menyelesaikan tugas mereka (Liu et al. 2007). Hal ini merupakan
kesalahan yang sering dilakukan oleh orang-orang terutama saat waktu yang
dimiliki untuk menyelesaikan tugas tinggal sedikit.
Keseriusan masalah plagiarisme di kalangan akademisi ditunjukkan oleh
hasil penelitian Honig dan Bedi (2012) dengan memeriksa 279 makalah yang
disajikan di International Management Division pada Academy of Management
Conference 2009. Hasil penelitian menunjukkan bahwa 25% dari sampel
merupakan hasil plagiarisme, dan lebih dari 13% menunjukkan plagiarisme yang
signifikan.
Berdasarkan perilaku plagiator, plagiat dibagi menjadi dua bagian yaitu
plagiat harfiah dan plagiat kecerdasan. Plagiat harfiah adalah yang umum
dilakukan dan dalam praktiknya si plagiator tidak menghabiskan banyak waktu
untuk melakukan plagiat, sedangkan plagiat kecerdasan adalah mengakui
kontribusi orang lain sebagai kontribusi si plagiator. Plagiat harfiah terbagi atas
plagiat sama persis, mendekati persis, dan restrukturisasi, sedangkan plagiat
kecerdasan terbagi atas manipulasi teks, terjemah, dan adopsi ide (Alzahrani et al.
2011).
Plagiat harfiah dapat dideteksi dengan menggunakan sistem. Sistem untuk
melakukan deteksi plagiat terdapat dua jenis, yaitu sistem pendeteksi online dan
sistem pendeteksi offline (Mozgovoy 2006). Mozgovoy mengungkapkan bahwa
sistem pendeteksi online masih sulit untuk dilakukan karena butuh banyak waktu
dan perbandingan dokumen tetap dilakukan dengan sistem offline. Oleh sebab itu,
penelitian ini bermaksud untuk membuat sistem pendeteksi plagiat harfiah online
menjadi lebih mudah. Adanya sistem pendeteksi plagiat dengan memanfaatkan
mesin pencari diharapkan dapat menghemat waktu dan tenaga yang digunakan
jika dibandingkan dengan pendeteksian plagiat secara manual menggunakan
mesin pencari.
Tujuan Penelitian
Penelitian ini bertujuan:
1 Membentuk korpus dokumen plagiat harfiah untuk bahasa Indonesia
2 Membuat sistem pendeteksi plagiat harfiah untuk dokumen teks bahasa
Indonesia dengan mesin pencari
3 Mendapatkan hasil deteksi dari sistem pendeteksi plagiat harfiah untuk
dokumen teks dengan memanfaatkan mesin pencari
2
Gambar 1 Aliran sistem deteksi plagiat
Ruang Lingkup Penelitian
Ruang lingkup dari penelitian ini adalah
1 Bahasa yang digunakan adalah bahasa Indonesia
2 Jenis plagiat yang dideteksi adalah plagiat harfiah
3 Mesin pencari yang digunakan adalah Google dan Bing
4 Ekstraksi teks tidak memperhatikan format asli
METODE
Penelitian Liu et. al. (2011) menggunakan suatu aliran deteksi plagiat yang
dapat dilihat pada Gambar 1 untuk mendeteksi suatu dokumen plagiat. Aliran
sistem pendeteksi plagiat pada penelitian Liu et al. (2011) diadopsi menjadi
metode pada penelitian ini (lihat Gambar 2). Terdapat 4 proses inti dalam aliran
tersebut, yaitu (a) ekstraksi segmen atau potongan kata dari dokumen uji
(dokumen yang ingin diketahui plagiat atau tidak), (b) pemeringkatan segmen
sesuai dengan bobotnya, (c) identifikasi sumber plagiat untuk menentukan apakah
dokumen uji plagiat atau tidak, dan (d) ekspansi jangkauan sebagai pilihan proses
dalam mendapatkan dokumen sumber yaitu dokumen yang dicurigai adalah
dokumen sumber plagiat dari dokumen uji.
Dokumen Uji
Dokumen uji pada penelitian ini diperoleh dari korpus dokumen
plagiat yang dibentuk pada penelitian ini. Dokumen uji dibentuk menjadi
dokumen teks format PDF. Pembentukan dokumen plagiat dilakukan
dengan (a) menyalin suatu dokumen sumber, (b) menyalin 2-3 dokumen
sumber menjadi sebuah dokumen, (c) mengambil hanya sedikit bagian
suatu dokumen sumber dan (d) menggunakan 1-2 dokumen sumber yang
diterjemahkan ke bahasa Inggris yang diterjemahkan kembali ke bahasa
Indonesia. Keempat jenis dokumen tersebut adalah dokumen plagiat
harfiah. Dokumen jenis (a) dan (b) adalah plagiat sama persis, dokumen
jenis (c) adalah plagiat mendekati sama persis dan dokumen jenis (d)
adalah plagiat restrukturisasi.
3
Gambar 2 Metode penelitian
Segmentasi Dokumen
Mulai Dokumen
Uji
Pembobotan dan
Pemeringkatan Segmen
Pencarian Online
Sebagian Teks
Dokumen Uji
Ekstraksi
Dokumen Sumber
Selesai
Dicurigai
Plagiat
Tidak
Iya
Daftar
Segmen
Terperingkat
Alamat
Sumber
Pencatatan dan
Identifikasi Alamat
Kosong
Tidak
Iya
Sebagian Teks
Dokumen Sumber
Ekstraksi
Dokumen Uji
Perhitungan Jarak dengan Kesamaan
Kosinus
Telah Diproses
Semua
Iya
Tidak
Ekstraksi Pdf
dengan Xpdf
Normalisasi
Sukses
Iya
Konversi Pdf ke Tif
dengan Ghostscript
Konversi Tif ke Teks dengan
Tesseract
Praproses Dokumen
Tidak
Dokumen
Plagiat
Bukan Dokumen
Plagiat
Identifikasi Sumber Plagiat
Ekspansi Jangkauan
Laporan-laporan
4
Praproses Dokumen
Pada tahap ini dilakukan ekstraksi teks dan normalisasi dokumen. Ekstraksi
dokumen teks format PDF menggunakan aplikasi Xpdf (GCL 2011). Namun, ada
pula dokumen yang tidak dapat diekstrak dengan Xpdf karena terproteksi. Jika
dokumen terproteksi, maka dilakukan rekognisi karakter optik dengan cara
mengkonversikan dokumen menjadi dokumen format TIFF menggunakan aplikasi
Ghostscript (ASI 2012) dan mengkonversikan dokumen format TIFF menjadi
dokumen teks dengan aplikasi Tesseract-ocr. Aplikasi Tesseract-ocr adalah mesin
rekognisi karakter optik yang dikembangkan di Google saat ini (Google 2011).
Penggunaan Ghostscript dilakukan dengan perintah “gs -dBATCH -
dNOPAUSE -sDEVICE=tiffg4 -r600x600 -sPAPERSIZE=a4 -
sOutputFile=namafilebaru.tif namafile.pdf”. Opsi dnopause dan
dbatch digunakan supaya interaksi dengan pengguna ditiadakan dan tidak
berhenti saat akhir setiap halaman. Opsi sdevice dengan tiffg4 berarti dokumen
dikonversikan menjadi jenis dokumen gambar TIFF hitam putih. Opsi r600x600
berarti resolusi dokumen gambar yang diinginkan adalah 600x600 dpi. Opsi
spapersize dengan a4 berarti dokumen gambar dibuat seukuran kertas A4
(Artofcode 2002). Setelah dokumen berhasil dikonversikan menjadi dokumen
gambar TIFF, dokumen gambar TIFF akan dikonversikan menjadi dokumen teks
menggunakan Tesseract-ocr dan dapat diekstrak teksnya.
Daftar pustaka tidak termasuk teks yang diperiksa karena yang menjadi
acuan dalam pemeriksaan plagiat adalah bagian sebelumnya. Daftar pustaka tidak
disertakan karena dapat menyebabkan kesalahan saat melakukan deteksi plagiat.
Dokumen dengan topik yang sama meskipun bukan plagiat dapat memiliki daftar
pustaka yang mirip sehingga akan terdeteksi sebagai plagiat. Daftar pustaka
dihilangkan dengan cara memotong teks yang diawali “DAFTAR PUSTAKA”
atau “REFERENSI” atau “BIBLIOGRAFI” pada 80% bagian akhir dokumen.
Pemilihan pemotongan pada 80% bagian akhir dokumen bertujuan untuk tidak
memotong teks pada daftar isi yang dapat menghilangkan isi dokumen.
Tahap berikutnya adalah normalisasi dokumen teks. Langkah-langkah yang
dilakukan adalah dengan membuang karakter selain tanda petik tunggal, titik,
angka dan huruf, dan spasi yang lebih dari 1. Langkah-langkah ini dilakukan
untuk mendapatkan teks dengan kata-kata tanpa ada simbol atau tanda baca lain
selain titik. Tanda baca titik tidak dihilangkan karena diperlukan pada segmentasi
dokumen.
Segmentasi Dokumen
Metode deteksi plagiat dengan pendekatan segmentasi diperkenalkan Liu et
al. (2012) dengan alasan utama yaitu waktu yang dimiliki plagiator untuk
memeriksa dan mengubah setiap kalimat dalam dokumen hanya sedikit. Oleh
sebab itu, kalimat yang tidak diubah dapat dengan mudah diidentifikasi sebagai
plagiat. Oleh sebab itu, cukup diambil beberapa bagian saja untuk diperiksa.
Pada penelitian Liu et al. (2012) semua tanda baca menjadi pemisah segmen.
Jumlah minimal segmen adalah 2 kata dan tidak ada batas maksimal jumlah kata.
Pada penelitian ini segmentasi dokumen berdasarkan pada tanda titik yang diikuti
5
1 spasi. Batasan jumlah kata yang baik untuk segmen adalah 20 kata. Oleh sebab
itu, jumlah kata maksimum yang diterima adalah 20 kata. Jumlah minimum kata
yang diterima adalah 5 kata karena jumlah kata yang terlalu sedikit kurang baik
untuk menemukembalikan dokumen yang relevan (Fathi 2012). Algoritme untuk
mengimplementasikan aturan segmentasi dokumen adalah seperti berikut
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
AT = daftar teks yang dipisahkan ". "
countAT = jumlah teks dalam AT
ctx = 0
for( ctx < countAT ){
array_kata = daftar kata pada array teks ke-'ctx'
jumlah_kata = jumlah kata pada array_kata
if ( jumlah_kata > 20 ) {
AT ke-[ctx-1] = teks dengan array_kata pertama
hingga ke-14
AT ke-[$ctx] = teks dengan array_kata ke-15
hingga terakhir
ctx = ctx-2;
}else if(jumlah_kata>4){
daftar_segmen <- AT ke-[ctx]
}
ctx = ctx + 1
}
Pembobotan Segmen dan Pemeringkatan Segmen
Pada penelitian ini dilakukan pembobotan kata yang berguna untuk
pembobotan segmen. Pembobotan kata dilakukan dengan ketentuan sebagai
berikut.
1 Kata yang terdapat di kamus diberikan nilai bobot 1
2 Kata yang berupa angka diberikan nilai bobot 1
3 Kata yang merupakan bahasa Indonesia dengan awalan “di” diberikan nilai
bobot 1
4 Jika tidak termasuk poin 1, 2 dan 3, maka pemberian bobot berdasarkan
jumlah huruf pada kata tersebut; (a) lebih dari 5 huruf diberikan nilai bobot
10, (b) 4-5 huruf diberikan nilai bobot 5, dan (c) selainnya diberikan nilai
bobot 3.
Kamus bahasa Indonesia yang digunakan pada penelitian ini adalah Kamus
Besar Bahasa Indonesia edisi III. Ketentuan (1), (2), dan (3) hanya diberikan
bobot 1 karena kata tersebut terdapat pada bahasa Indonesia. Ketentuan (2) dan
(3) perlu dibuat terpisah dari ketentuan (1) karena pada kamus bahasa Indonesia
tidak terdapat kata dengan awalan di. Ketentuan (4) dilakukan supaya semakin
panjang kata yang tidak terdapat pada bahasa Indonesia, maka semakin tinggi
bobotnya dan akan menjadikan kata tersebut lebih menentukan bobot segmen.
Pembobotan segmen dilakukan dengan menjumlahkan seluruh bobot kata
pada segmen tersebut. Ketentuan pembobotan kata akan membuat segmen yang
terdiri atas kata yang bukan dari bahasa Indonesia mendapatkan bobot lebih besar.
Pemeringkatan segmen dilakukan berdasarkan nilai bobot segmen.
Peringkat suatu segmen digunakan sebagai urutan segmen untuk melalui
pencarian online.
6
Pemeringkatan segmen perlu dilakukan karena tidak semua segmen perlu
digunakan pada pencarian online. Penelitian Butakov dan Shcherbinin (2009)
mendapatkan fakta bahwa 5% segmen cukup untuk menilai apakah suatu
dokumen plagiat atau tidak. Penggunaan lebih dari 40% segmen tidak
meningkatkan hasil pendeteksian dokumen plagiat. Oleh sebab itu, segmen yang
digunakan pada penelitian ini dibatasi maksimal 40%.
Pencarian Online
Pencarian online adalah pencarian pada mesin pencari untuk mendapatkan
daftar alamat serta cuplikan masing-masing hasil pencarian. Alamat serta cuplikan
yang diambil maksimal 10 peringkat teratas pencarian. Pencarian online akan
berhenti jika dokumen terdeteksi plagiat atau semua segmen yang ditetapkan
sebagai kueri telah diproses namun dokumen belum terdeteksi plagiat. Pencarian
online dengan mesin pencari Google menggunakan True Google Search
(Technofreak 2012), sedangkan pencarian online dengan mesin pencari Bing
menggunakan Bing Search API (Microsoft 2012).
Pencarian online dengan mesin pencari mengambil hasil pencarian yang
telah disesuaikan untuk negara Indonesia. Penyesuaian pada mesin pencari
Google menggunakan domain Indonesia yaitu “.co.id” sedangkan pada mesin
pencari Bing menggunakan parameter pasar Indonesia yaitu “en-ID”.
Pencatatan dan Identifikasi Alamat
Pencarian online akan menghasilkan daftar alamat dan cuplikan. Alamat dan
cuplikan akan dicatat beserta segmen yang menjadi kueri. Selain itu, frekuensi
kemunculan suatu alamat juga dicatat terpisah.
Identifikasi alamat adalah tahap untuk mendapatkan alamat dokumen yang
harus diperiksa selanjutnya. Alamat diidentifikasi berdasarkan (1) frekuensi
kemunculan suatu alamat dokumen (2) atau kemunculan kata segmen kueri pada
cuplikan hasil pencarian online. Ketentuan (1) dilakukan dengan cara
mendapatkan alamat yang telah tercatat lebih dari 1. Ketentuan (2) dilakukan
dengan cara mendapatkan alamat yang cuplikannya memiliki minimal 70% kata
pada kueri dan maksimal hanya 30% kata di cuplikan alamat tersebut yang tidak
terdapat pada kueri. Ketentuan (1) dilakukan karena jika suatu alamat ada pada
hasil pencarian dengan kueri berbeda maka dokumen pada alamat tersebut
memiliki kemungkinan keterkaitan dengan dokumen uji, sehingga perlu dilakukan
pemeriksaan. Ketentuan (2) dilakukan karena suatu cuplikan memiliki minimal
70% kata yang sama dan maksimal hanya 30% kata yang berbeda memiliki
kemungkinan kesamaan yang tinggi. Oleh sebab itu, pemeriksaan tidak harus
menunggu ketentuan (1) melainkan dapat langsung melakukan pemeriksaan
antara dokumen uji dan dokumen sumber.
Identifikasi alamat akan menghasilkan daftar alamat untuk diperiksa. Jika
daftar alamat kosong, maka dilakukan pencarian online kembali dengan segmen
berikutnya. Jika daftar alamat tidak kosong, maka dokumen-dokumen pada daftar
alamat tersebut akan diperiksa pada tahap selanjutnya.
7
Ekspansi Jangkauan
Ekspansi jangkauan adalah tahap yang dilakukan ketika suatu alamat telah
dirujuk sebelumnya. Sistem tidak perlu melakukan pengunduhan ulang untuk
mendapatkan dokumen sumber yang mempengaruhi kecepatan proses deteksi.
Ekstraksi dokumen sumber cukup mengambil dokumen yang telah diunduh
sebelumnya jika alamat tersebut telah dirujuk.
Ekstraksi Dokumen Sumber dan Dokumen Uji
Setelah mendapatkan daftar alamat, dokumen pada daftar alamat akan
diunduh dan diproses seperti dokumen uji untuk pengambilan teks. Selanjutnya
dokumen sumber disegmentasi dengan aturan yang sama dengan dokumen uji.
Setiap segmen pada dokumen sumber akan diberikan bobot berdasarkan
banyaknya kata pada kueri yang terdapat pada segmen dokumen sumber.
Banyaknya kata yang sama tidak diperhatikan untuk pembobotan segmen.
Segmen dengan bobot terbesar atau dengan kemunculan kata terbanyak akan
dijadikan acuan untuk mengekstraksi sebagian teks dokumen sumber.
Sebagian teks dokumen sumber yang diambil adalah minimal 20 kata
sebelum dan setelah segmen acuan serta segmen acuan tersebut. Pengambilan teks
dilakukan dengan mengambil teks sebelum dan sesudahnya hingga memenuhi
ketentuan minimal 20 kata atau hingga segmen terakhir yang tersedia jika tidak
memenuhi ketentuan minimal 20 kata. Ekstraksi pada dokumen uji juga
mengambil minimal 20 kata sebelum dan setelah segmen kueri serta segmen kueri.
Pembatasan minimal 20 kata ini dilakukan supaya dapat mendeteksi suatu
dokumen yang hanya memiliki sedikit teks plagiat.
Ekstraksi dokumen sumber dan dokumen uji menghasilkan dua teks yaitu
sebagian teks dokumen uji dan sebagian teks dokumen sumber. Kedua teks ini
akan menjadi penentu apakah dokumen uji memplagiat dokumen sumber.
Perhitungan Jarak
Langkah selanjutnya adalah membandingkan sebagian teks dokumen uji dan
dokumen sumber. Metode untuk menghitung kesamaan sebagian teks dokumen
menggunakan ukuran kesamaan kosinus dengan pembobotan yang dilakukan
dengan aturan (Manning et al. 2009)
{
Asumsikan adalah bobot suatu kata pada suatu dokumen, sedangkan
adalah frekuensi suatu kata pada suatu dokumen.
Perhitungan ukuran kesamaan kosinus pada penelitian ini dilakukan dengan
rumus ukuran kesamaan kosinus (Manning et al. 2009)
sim d d d d
| d || d |
Asumsikan sim d d adalah ukuran kesamaan kosinus dari d yaitu dokumen uji
dan d yaitu dokumen sumber, adalah vektor dokumen untuk d. Pembilang
8
d d didefinisikan dengan ∑ ni dengan n adalah banyaknya kata unik
pada dokumen uji dan dokumen sumber, adalah bobot kata pada dokumen uji
dan adalah bobot kata pada dokumen sumber. Penyebut | | didefinisikan
dengan
√∑
.
Simbol adalah kuadrat dari bobot suatu kata pada dokumen uji (d ) atau
dokumen sumber (d ).
Pada sebagian dokumen teks uji dan sumber, terdapat 3 bagian yaitu (a)
sebelum segmen acuan, (b) segmen acuan dan (c) setelah segmen acuan. Bagian-
bagian ini akan digunakan dalam 3 perhitungan antara sebagian teks dokumen uji
dan sumber. Perhitungan pertama membandingkan ketiga bagian tersebut.
Perhitungan kedua membandingkan bagian pertama (a) dan kedua (b).
Perhitungan ketiga membandingkan bagian kedua (b) dan ketiga (c). Jika di antara
ketiga perbandingan tersebut mendapatkan hasil di atas 70%, dokumen uji
dianggap plagiat terhadap dokumen sumber. Perhitungan jarak dilakukan dengan
3 perhitungan karena posisi segmen plagiat dapat berada di awal, akhir atau
pertengahan teks dokumen uji.
Perhitungan Akurasi
Setelah seluruh dokumen uji diujicobakan, maka dilakukan proses
perhitungan akurasi secara manual. Perhitungan akurasi dapat dilakukan dengan
rumus:
akurasi ∑ dokumen u i dengan klasi ikasi benar
∑ dokumen u i 00%
Spesifikasi Perangkat Lunak dan Perangkat Keras
Perangkat lunak yang digunakan dalam pengembangan sistem adalah Net
Beans IDE 7.2, Apache 2.2, PHP 5.3, dan MySqL 5.5. Perangkat keras yang
digunakan dalam pengembangan sistem adalah Laptop HP 4430s dengan
spesifikasi prosesor Intel Core i3-2330M 2.2 GHz dan Memori RAM 4GB, dan
jaringan internet dengan penyedia layanan PT Indosat Mega Media.
HASIL DAN PEMBAHASAN
Pembentukan Korpus Dokumen Uji
Dokumen uji pada penelitian ini menggunakan korpus dokumen plagiat
yang dibentuk pada penelitian ini. Korpus dokumen plagiat terdiri atas 4 jenis
yaitu dokumen hampir sama persis, gabungan beberapa sumber, sedikit bagian
sumber dan restrukturisasi. Setiap jenis dokumen plagiat dibentuk 25 dokumen.
9
Tabel 1 Nilai kesamaan kosinus dokumen uji dengan sumber plagiat
Jenis dokumen Nilai
rata-rata
kesamaan
Nilai
maksimum
kesamaan
Nilai
minimum
kesamaan
Standar
deviasi
kesamaan
Hampir sama persis
0.913 0.996 0.505 0.0520
Gabungan beberapa
sumber
0.638 0.720 0.567 0.0685
Sedikit bagian sumber
0.505 0.580 0.382 0.0717
Restrukturisasi 0.720 0.833 0.583 0.0800
Pembentukan korpus dokumen plagiat menghasilkan 100 dokumen. Untuk
detailnya dapat dilihat pada Lampiran 1.
Pembentukan dokumen hampir sama persis dengan cara menyalin sebagian
besar isi dokumen sumber. Pembentukan dokumen gabungan beberapa sumber
dengan cara menyalin isi dari 2-3 dokumen berbeda. Pada dokumen jenis sedikit
bagian sumber, dokumen dibentuk dengan menyalin beberapa paragraf dari
dokumen sumber kemudian menggabungkannya dengan dokumen yang bukan
plagiat. Dokumen bukan plagiat yang digunakan adalah dokumen teks yang
dibentuk dan teruji bukan dokumen plagiat. Dokumen jenis restrukturisasi
dibentuk dengan menyalin suatu dokumen sumber kemudian mengubah
strukturnya menjadi berbeda dengan dokumen sumbernya.
Pembentukan dokumen jenis restrukturisasi memanfaatkan layanan Google
Translate1. Hal ini dapat dilakukan karena ketika suatu teks diterjemahkan ke
suatu bahasa lain dan kemudian diterjemahkan kembali ke bahasa aslinya pada
Google Translate, hasil akhir tidak sama persis dengan teks awal. Sebagai contoh,
terjemahan bolak-balik (Indonesia-Inggris dari “Strategi dalam dunia
pemeliharaan di industri mulai mengarah pada predictive maintenance PdM ”
adalah “Strategi perawatan di dunia dalam industri mulai mengarah pada
pemeliharaan predikti PDM ”. Perbedaan beberapa kata pada kalimat tersebut
dapat menghasilkan perbedaan signifikan pada pencarian di mesin pencari.
Penggunaan teks awal pada contoh akan memberikan hasil alamat sumber aslinya
pada mesin pencari, sedangkan penggunaan teks hasil restrukturisasi pencarian
pada mesin pencari tidak mendapatkan hasil alamat sumber aslinya.
Jenis dokumen plagiat hampir sama persis memiliki rata-rata kemiripan
yang paling tinggi dengan dokumen sumber, sedangkan plagiat dengan sedikit
bagian sumber memiliki rata-rata kemiripan yang terendah (lihat Tabel 1). Hal ini
karena pembentukan dokumen hampir sama persis hanya menulis ulang sumber
dengan sedikit perubahan. Dokumen dengan jenis gabungan beberapa sumber
mengambil dua atau tiga dokumen sebagai sumber plagiat, sehingga kemiripannya
dengan suatu dokumen sumber plagiat secara spesifik menjadi turun. Dokumen
dengan sedikit bagian dokumen hanya mengambil sedikit bagian dokumen yang
kemudian digabungkan dengan dokumen bukan plagiat, sehingga rata-rata
kemiripannya paling kecil. Dokumen jenis restrukturisasi memiliki rata-rata
1 http://translate.google.com/
10
Tabel 2 Jumlah segmen hasil segmentasi dokumen uji
Jenis dokumen uji Jumlah
segmen rata-
rata per
dokumen uji
Jumlah
segmen
maksimum
dokumen uji
Jumlah
segmen
minimum
dokumen uji
Hampir sama persis
178.48 335 66
Gabungan beberapa sumber
153.20 367 82
Sedikit bagian sumber
141.36 154 130
Restrukturisasi 137.76 243 66
kemiripan yang cukup tinggi namun dengan nilai standar deviasi yang paling
besar dibandingkan dengan yang lainnya. Hal ini menunjukkan bahwa dokumen
jenis restrukturisasi lebih beragam daripada dokumen plagiat jenis lainnya. Untuk
detail nilai kesamaan kosinus setiap dokumen uji dapat dilihat pada Lampiran 2
dan 3.
Praproses Dokumen Uji dan Dokumen Sumber
Tahap praproses dokumen dilakukan untuk mengekstraksi teks. Dokumen
uji menggunakan dokumen jenis PDF, sedangkan dokumen sumber yang dapat
diekstrak adalah dokumen jenis PDF dan dokumen jenis HTML. Pada dokumen
uji tidak terdapat dokumen yang terproteksi karena pembentukan korpus dokumen
uji tidak melakukan proteksi dokumen uji. Namun, dokumen sumber plagiat dapat
berupa dokumen yang terproteksi sehingga harus dilakukan upaya untuk
mendapatkan teks yaitu dengan menggunakan Ghostscript dan Tesseract.
Segmentasi Dokumen
Segmentasi dokumen uji menghasilkan jumlah segmen rata-rata untuk
setiap jenis dokumen uji antara 141-179, maksimum 335 dan minimum 66
segmen (lihat Tabel 2). Detail jumlah segmen setiap dokumen uji dapat dilihat
pada Lampiran 4 dan 5.
Jumlah segmen menentukan jumlah kueri yang digunakan pada pencarian
online. Segmen yang digunakan sebagai kueri dibatasi maksimal 40%, sehingga
rata-rata setiap jenis dokumen memiliki daftar kueri antara 55-72 segmen.
Segmentasi dengan tanda titik yang diikuti dengan spasi sudah cukup baik
dalam mendapatkan segmen karena kalimat umumnya diakhiri oleh titik dan
menggunakan spasi untuk mengawali kalimat. Pembatasan maksimum 20 kata
dan minimum 5 kata untuk setiap segmen dapat membuat segmen menjadi
kalimat yang tidak lengkap dan menghilangkan sebagian teks dari dokumen.
Namun, hal ini tidak mempengaruhi hasil deteksi karena teks pada dokumen uji
dan dokumen sumber plagiat diperoleh dari aturan segmentasi yang sama.
11
Tabel 3 Hasil pencarian Google
Jenis dokumen
Rata-rata
frekuensi
pencarian
Rata-rata persentase
jumlah segmen yang
digunakan
Hampir sama persis
2.72 1.79
Gabungan beberapa sumber
2.72 2.22
Sedikit bagian sumber
9.32 6.62
Restrukturisasi 8.04 6.68
Pembobotan dan Pemeringkatan Segmen
Pembobotan dan pemeringkatan yang dilakukan dinilai dari banyaknya
kueri yang digunakan atau banyaknya pencarian yang dilakukan hingga suatu
dokumen terdeteksi plagiat. Berdasarkan hasil deteksi dengan mesin pencari
Google (lihat Tabel 3), rata-rata pencarian yang dilakukan adalah 5.7 kali
pencarian. Hal ini menunjukkan bahwa aturan pembobotan segmen yang
dilakukan sudah memberikan hasil yang baik karena penggunaan kueri dengan
bobot tinggi dapat menemukan dokumen sumber plagiat. Penilaian pembobotan
segmen yang dilakukan hanya berdasarkan hasil deteksi dengan mesin pencari
Google karena dengan mesin pencari Google seluruh dokumen terdeteksi plagiat,
sedangkan hasil deteksi dengan mesin pencari Bing tidak dapat dijadikan acuan
karena tidak seluruh dokumen terdeteksi plagiat.
Pencarian Online
Pencarian online dilakukan selama daftar kueri yang digunakan masih
belum diproses seluruhnya dan dokumen uji belum terdeteksi sebagai plagiat.
Pencarian online dengan Google memerlukan rata-rata 2.72-9.32 kali pencarian
(lihat Tabel 3) untuk setiap jenis dokumen, sedangkan pencarian online dengan
Bing memerlukan rata-rata 38.28-49.04 kali pencarian (lihat Tabel 4). Pencarian
dengan mesin pencari Google menggunakan rata-rata 1.79-6.68% segmen untuk
setiap jenis dokumen. Pencarian terbanyak dengan mesin pencari Google terjadi
pada suatu dokumen restrukturisasi yang menggunakan 27.27% segmen sebagai
kueri, sedangkan pada mesin pencari Bing pada setiap jenis dokumen rata-rata
menggunakan lebih dari 27% segmen.
Tahap pencarian online menghasilkan alamat dan cuplikan untuk
diidentifikasi apakah harus diperiksa. Setiap pencarian online mengambil
maksimal 10 alamat teratas. Jumlah pencarian mempengaruhi banyaknya alamat
yang dicatat. Oleh sebab itu, pada mesin pencari Google rata-rata alamat yang
didapatkan lebih sedikit daripada mesin pencari Bing. Rata-rata alamat yang
didapatkan pada mesin pencari Google hanya 31.37 (lihat Tabel 6), sedangkan
rata-rata alamat yang didapatkan pada mesin pencari Bing sebanyak 323.29 (lihat
Tabel 7).
12
Tabel 4 Hasil pencarian Bing
Jenis dokumen
Rata-rata
frekuensi
pencarian
Rata-rata persentase
jumlah segmen yang
digunakan
Hampir sama persis
49.04 27.92
Gabungan beberapa sumber
38.28 27.56
Sedikit bagian sumber
46.64 33.01
Restrukturisasi 45.52 34.79
Tabel 5 Perbandingan hasil kesamaan kosinus maksimum dokumen uji dengan
cara identifikasi alamat dokumen sumber
Aturan identifikasi
alamat dokumen sumber
Google Bing
Dokumen
dengan
kesamaan
≥ 0.7
Dokumen
dengan
kesamaan
≥ 0.7
Dokumen
dengan
kesamaan
< 0.7
Frekuensi alamat telah
diperoleh lebih dari 1
54 10 69
Cuplikan minimum 70%
kata kueri, maksimum
30% bukan kata kueri
46 18 1
Pencatatan dan Identifikasi Alamat
Identifikasi alamat yang dilakukan dengan aturan pertama yaitu dengan
memperhatikan apakah alamat telah diperoleh dari hasil pencarian sebelumnya
atau frekuensi alamat lebih dari 1, merupakan aturan yang paling banyak
digunakan (lihat Tabel 5). Meskipun demikian, aturan tersebut memberikan hasil
dengan kesamaan kurang dari 0.7 terbanyak dengan 69 dokumen uji, sedangkan
aturan kedua hanya memberikan 1 hasil yang kurang dari 0.7. Pada umumnya,
semakin tinggi suatu alamat dokumen sumber didapatkan dari hasil pencarian,
maka semakin besar kemungkinan dokumen sumber tersebut memiliki keterkaitan
dengan dokumen uji. Namun, keterkaitan tersebut tidak berarti dokumen uji
memplagiat dokumen sumber karena hal yang terkait dapat juga berupa
pembahasan mengenai topik yang sama sehingga alamat dokumen sumber
diperoleh lebih dari 1.
Aturan kedua lebih sedikit dilakukan karena tidak banyak hasil pencarian
online yang dapat memenuhi aturan tersebut. Meskipun pada aturan kedua
cuplikan dokumen sumber harus memiliki minimum 70% kata kueri dan
13
Tabel 6 Hasil deteksi plagiat menggunakan 40% segmen dan mesin pencari
Jenis dokumen Jumlah rata-
rata alamat
yang
digunakan
Jumlah rata-
rata
perhitungan
jarak
Nilai rata-
rata
kesamaan
kosinus
Nilai
rata-rata
Akurasi
(%)
Hampir sama persis
10.00 1.00 0.97 100
Gabungan beberapa
sumber
15.72 1.00 0.97 100
Sedikit bagian sumber
43.76 1.00 0.99 100
Restrukturisasi 49.88 1.16 0.84 100
Tabel 7 Hasil deteksi plagiat menggunakan 40% segmen dan mesin pencari Bing
Jenis dokumen Jumlah rata-
rata alamat
yang
digunakan
Jumlah rata-
rata
perhitungan
jarak
Nilai rata-
rata
kesamaan
kosinus
Nilai
rata-rata
akurasi
(%)
Hampir sama persis
332.56 15.64 0.54 32
Gabungan beberapa
sumber
276.16 7.44 0.55 40
Sedikit bagian sumber
349.92 3.28 0.40 24
Restrukturisasi 334.52 6.60 0.37 16
maksimum 30% bukan kata kueri, kesamaan kosinus yang diperoleh bisa
mendapatkan hasil kurang dari 0.7. Hal ini karena aturan kedua tidak
merepresentasikan kesamaan kosinus namun sebatas untuk mendapatkan
dokumen yang akan diuji.
Perhitungan Jarak
Perhitungan jarak deteksi plagiat dengan mesin pencari Google dilakukan
rata-rata hanya 1.04 kali perhitungan (lihat Tabel 6), sedangkan dengan mesin
pencari Bing dilakukan rata-rata 8.24 kali perhitungan (lihat Tabel 7). Kesamaan
kosinus setiap jenis dokumen uji yang diperoleh deteksi plagiat dengan mesin
pencari Google memperoleh nilai rata-rata antara 0.84-0.97, sedangkan dengan
mesin pencari Bing hanya memperoleh 37.32-55.36. Nilai ini diperoleh dari nilai
maksimum kesamaan kosinus yang diperoleh setiap dokumen uji.
Pada deteksi plagiat dengan mesin pencari Google, rata-rata kesamaan
kosinus terendah diperoleh dokumen restrukturisasi. Hal ini disebabkan perubahan
14
Gambar 3 Perbandingan penggunaan segmen sebagai kueri dan akurasi
deteksi plagiat dengan mesin pencari
0
10
20
30
40
50
60
70
80
90
100
1 6 11 16 21 26 31 36
Akura
si d
etek
si p
lagia
t (%
)
Persentase penggunaan segmen (%)
Bing
kata-kata pada dokumen uji jika dibandingkan dengan dokumen sumber. Jenis
dokumen sedikit bagian sumber memiliki rata-rata kesamaan kosinus yang tinggi
yaitu 0.99. Perhitungan jarak teks dokumen yang dilakukan dengan 3 cara
membuat keberadaan teks yang bukan plagiat menjadi tidak terpengaruh terhadap
hasil perhitungan jarak. Dokumen jenis hampir sama persis dan gabungan
beberapa sumber memiliki rata-rata kesamaan kosinus yang tinggi dan tidak
berbeda. Hasil ini menunjukkan bahwa banyaknya sumber tidak membuat
dokumen lebih sulit untuk dideteksi.
Pada deteksi plagiat dengan mesin pencari Bing, kesamaan kosinus dihitung
dari nilai terbesar ketika suatu dokumen dilakukan perhitungan jarak. Rendahnya
nilai kesamaan kosinus dengan mesin pencari Bing disebabkan banyaknya
dokumen yang hingga penggunaan 40% segmen tidak mendapatkan sumber
plagiat.
Akurasi Deteksi Plagiat
Deteksi plagiat dengan 40% segmen teratas dan mesin pencari Google
mendapatkan rata-rata hasil akurasi 100% (lihat Tabel 6). Namun, deteksi plagiat
dengan mesin pencari Bing hanya mendapatkan rata-rata akurasi 28% (lihat Tabel
7). Akurasi tertinggi dengan mesin pencari Bing dihasilkan jenis dokumen
gabungan beberapa sumber, sedangkan akurasi terendah dihasilkan jenis dokumen
restrukturisasi.
Akurasi deteksi plagiat pada Bing mendapatkan akurasi rendah karena
hanya 10% dari korpus dokumen uji yang dokumen sumbernya terindeks di mesin
pencari Bing. Pemeriksaan apakah dokumen uji terindeks atau tidak adalah
dengan melakukan pencarian pada mesin pencari dengan judul dokumen sumber
dan teks pada halaman yang berisi tautan dokumen sumber. Detail hasil deteksi
plagiat dengan mesin pencari Google dapat dilihat pada Lampiran 6, 7, 8 dan 9,
sedangkan detail hasil deteksi plagiat dengan mesin pencari Bing dapat dilihat
pada Lampiran 10,11,12, dan 13.
15
Tabel 8 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik) dengan
mesin pencari Google
Jenis dokumen Waktu
rata-rata
ekstraksi
Waktu
rata-rata
segmentasi
Waktu
rata-rata
pembobotan
Waktu
rata-rata
pencarian
Hampir sama persis
0.05 0.55 0.75 11.10
Gabungan beberapa
sumber
0.05 0.40 0.61 11.32
Sedikit bagian sumber
0.05 0.44 0.54 32.91
Restrukturisasi 0.05 0.52 0.55 39.67
Tabel 9 Waktu rata-rata pendeteksian plagiat dengan 40% segmen (detik) dengan
mesin pencari Bing
Jenis dokumen Waktu
rata-rata
ekstraksi
Waktu
rata-rata
segmentasi
Waktu
rata-rata
pembobotan
Waktu
rata-rata
pencarian
Hampir sama persis
0.07 0.79 1.47 311.30
Gabungan beberapa
sumber
0.06 0.60 0.62 331.54
Sedikit bagian sumber
0.05 0.45 0.50 378.01
Restrukturisasi 0.07 0.49 0.63 351.44
Pendeteksian dokumen plagiat dengan mesin pencari Google berhasil 100%
mendeteksi seluruh dokumen plagiat dengan 28% segmen. Hasil ini sesuai dengan
pernyataan Butakov dan Shcherbinin (2009) bahwa penggunaan lebih dari 40%
segmen tidak meningkatkan tingkat akurasi deteksi plagiat (lihat Gambar 3). Pada
pendeteksian dengan mesin pencari Bing, penggunaan 40% segmen pendeteksian
hanya dapat mendeteksi 28% dari keseluruhan dokumen karena dokumen sumber
belum terindeks pada mesin pencari.
Waktu untuk melakukan pendeteksian suatu dokumen plagiat relatif singkat
dengan mesin pencari Google. Rata-rata pencarian yang terlama adalah untuk
dokumen jenis restrukturisasi dengan 39.67 detik (lihat Tabel 8). Dengan mesin
pencari Bing yang tidak berhasil mendeteksi keseluruhan korpus pun, rata-rata
hasil deteksi sudah dapat diketahui paling lama 378.01 detik (lihat Tabel 9). Hasil
ini dapat dikatakan lebih baik karena deteksi plagiat secara manual membutuhkan
waktu lebih lama. Proses yang paling berpengaruh pada waktu pendeteksian
adalah proses pengunduhan dokumen sumber dan pencarian pada mesin pencari.
Oleh sebab itu, dokumen sumber telah diunduh sebelumnya untuk meminimalisir
waktu dan konsistensi dokumen sumber karena suatu alamat dokumen pada
16
internet dapat saja berubah atau tidak dapat diakses. Detail waktu deteksi plagiat
dengan mesin pencari Google dapat dilihat pada Lampiran 14, 15, 16 dan 17,
sedangkan detail waktu deteksi plagiat dengan mesin pencari Bing dapat dilihat
pada Lampiran 18, 19, 20 dan 21.
Hasil sistem pendeteksi online ini masih melalui tahap offline seperti yang
diutarakan Mozgovoy (2006). Namun, otomatisasi sistem menunjukkan bahwa
saat ini sistem pendeteksi online tidak lagi sulit untuk dilakukan.
Hasil yang diperoleh pada penelitian ini merupakan indikasi plagiat
sebenarnya. Terdapat beberapa hal yang belum didukung oleh sistem, sehingga
dapat membuat dokumen yang seharusnya bukan plagiat teridentifikasi sebagai
dokumen plagiat seperti kutipan langsung. Kutipan langsung pada dokumen uji
pasti akan sama persis dengan dokumen sumber, sehingga jika sistem
membandingkan antara dokumen uji dan dokumen sumber maka akan terindikasi
plagiat.
SIMPULAN DAN SARAN
Simpulan
Penelitian ini menghasilkan sistem pendeteksi dokumen plagiat untuk
dokumen berbahasa Indonesia dengan memanfaatkan mesin pencari. Sistem ini
berhasil mendeteksi seluruh korpus dokumen plagiat dengan mesin pencari
Google. Namun, perlu dilakukan pemeriksaan manual untuk memastikan
dokumen tersebut adalah dokumen plagiat.
Jika dokumen sumber dari dokumen plagiat belum terindeks pada mesin
pencari, maka dokumen sumber tersebut tidak dapat dideteksi. Sebaliknya, jika
dokumen sumber telah terindeks oleh mesin pencari, sistem ini dapat mendeteksi
dokumen tersebut sebagai dokumen plagiat. Jadi, kualitas hasil sistem pendeteksi
dokumen plagiat ini tergantung pada hasil pencarian yang dihasilkan oleh mesin
pencari.
Saran
Beberapa saran untuk penelitian selanjutnya yaitu:
1 Menambahkan korpus dokumen uji berupa dokumen yang bukan plagiat
untuk mendeteksi apakah suatu dokumen uji yang bukan plagiat
dikategorikan dokumen plagiat.
2 Menggunakan ukuran kesamaan teks lainnya untuk mencari ukuran kesamaan
teks yang paling efektif untuk membandingkan teks plagiat dengan sumber
plagiat. Ukuran kesamaan teks lainnya yang dapat diterapkan misalnya
Longest Common Subsequence (LCS) yang memperhatikan urutan kata
dalam teks.
17
DAFTAR PUSTAKA
Alzahrani S M, Salim N B, Abraham A. 2012. Understanding plagiarism
linguistic patterns, textual features, and detection methods. Sys, Man, Cyber,
Part C: Appl Rev. 42(2):133-249.doi:10.1109/TSMCC.2011.2134847.
Artofcode. 2002. Details of Ghostscript output devices [internet]. [diunduh 2013
April 26]. Tersedia pada: http://pages.cs.wisc.edu/~ghost/doc/AFPL/8.00/
Devices.htm
[ASI] Artifex Software, Inc. c2012. Ghostscript [internet]. [diunduh 2013 April
24]. Tersedia pada: http://www.ghostscript.com/Ghostscript.html
Butakov S, Shcherbinin V. 2009. On the number of search queries required for
internet plagiarism detection. Di dalam: Advanced Learning Technologies;
2009 Jul 15-17; Riga. Riga (LV): [IEEE]. Hlm 482-483.
Fathi S. 2012. Pembentukan passage dalam question answering system untuk
dokumen bahasa Indonesia [skripsi]. Bogor (ID): Institut Pertanian Bogor.
[GCL] Glyph & Cog, LLC. c2011. Xpdf: A PDF Viewer for X [internet].
[diunduh 2013 April 24]. Tersedia pada: http://www.foolabs.com/xpdf/
home.html
Google. c2011. Tesseract-ocr [internet]. [diunduh 2013 Maret 4]. Tersedia pada:
https://code.google.com/p/tesseract-ocr/
Honig B, Bedi A. 2012. The fox in the hen house: a critical examination of
plagiarism among members of the academy of management. Acad Manag
Learn & Educ. 11(1):101–123.doi:10.5465/amle.2010.0084.
Liu Y, Zhang H, Chen T, Teng W . 2007. Extending Web Search for Online
Plagiarism Detection. Di dalam: Information Reuse and Integration; 2007
Aug 13-15; Las Vegas. Las Vegas (US): [IEEE]. Hlm 164-169.
Manning C D, Raghavan P, Schütze H. 2009. An Introduction to Information
Retrieval. Cambridge Univ Press (GB): Cambrigde.
Microsoft. c2012. Bing Search API [internet]. [diunduh 2013 April 10]. Tersedia
pada: http://datamarket.azure.com/dataset/bing/search
Mozgovoy M. 006. Desktop tools or o fline plagiarism detection in computer
programs. Inform Educ. [Internet]. [diunduh 2013 Mar 16]; 5(1):97-112.
Tersedia pada: http://www.mii.lt/informatics_in_education/pdf/INFE067.
Technofreak. c2012. True Google Search API - Google Search Results
Parser/Scraper [internet]. [diunduh 2013 April 10]. Tersedia pada:
http://thetechnofreak.com/downloads/true-google-search-api-google-search-
results-parser-scraper/
18
Lampiran 1 Dokumen uji
Dokumen
hampir sama
persis
106.pdf
107.pdf
128.pdf
129.pdf
130.pdf
131.pdf
132.pdf
133.pdf
134.pdf
137.pdf
139.pdf
140.pdf
142.pdf
143.pdf
144.pdf
146.pdf
148.pdf
149.pdf
151.pdf
153.pdf
155.pdf
165.pdf
167.pdf
168.pdf
170.pdf
Gabungan beberapa
sumber
d2-130-132.pdf
d2-133-140.pdf
d2-143-148.pdf
d2-151-167.pdf
d2-153-142.pdf
d2-153-154.pdf
d2-165-154.pdf
d2-165-166.pdf
d2-168-146.pdf
d2-170-141.pdf
d3-106-144-137.pdf
d3-107-153-167.pdf
d3-129-146-151.pdf
d3-130-131-132.pdf
d3-130-134-142.pdf
d3-133-136-140.pdf
d3-140-139-168.pdf
d3-143-144-148.pdf
d3-151-167-128.pdf
d3-153-142-131.pdf
d3-153-154-165.pdf
d3-165-154-149.pdf
d3-166-167-170.pdf
d3-168-146-155.pdf
d3-170-141-143.pdf
Sedikit bagian
sumber
e-106.pdf
e-107.pdf
e-128.pdf
e-129.pdf
e-130.pdf
e-131.pdf
e-132.pdf
e-133.pdf
e-134.pdf
e-137.pdf
e-139.pdf
e-140.pdf
e-142.pdf
e-143.pdf
e-144.pdf
e-146.pdf
e-148.pdf
e-149.pdf
e-151.pdf
e-153.pdf
e-155.pdf
e-165.pdf
e-167.pdf
e-168.pdf
e-170.pdf
Restrukturisasi
tr-128.pdf
tr-131.pdf
tr-132.pdf
tr-133.pdf
tr-139.pdf
tr-140.pdf
tr-142.pdf
tr-143.pdf
tr-144.pdf
tr-146.pdf
tr-148.pdf
tr-149.pdf
tr-155.pdf
tr-165.pdf
tr-170.pdf
tr2-130-132.pdf
tr2-133-140.pdf
tr2-143-148.pdf
tr2-151-167.pdf
tr2-153-142.pdf
tr2-153-154.pdf
tr2-165-154.pdf
tr2-165-166.pdf
tr2-168-146.pdf
tr2-170-141.pdf
19
Lampiran 2 Rata-rata kesamaan dokumen uji dengan 1 dokumen sumber
Nama
dokumen
Kesamaan kosinus
106 94.09
107 75.36
128 88.94
129 95.11
130 99.62
131 84.52
132 90.42
133 93.88
134 94.38
137 95.38
139 93.51
140 92.40
142 84.32
143 89.03
144 94.52
146 95.20
148 88.82
149 85.78
151 95.06
153 96.55
155 87.26
165 89.39
167 96.91
168 94.28
170 86.69
e-106 51.43
e-107 38.22
e-128 53.71
e-129 57.97
e-130 50.99
e-131 49.74
e-132 51.45
Nama
dokumen
Kesamaan kosinus
e-133 49.16
e-134 51.95
e-137 55.61
e-139 51.12
e-140 45.60
e-142 54.55
e-143 42.28
e-144 50.40
e-146 51.11
e-148 53.15
e-149 49.70
e-151 53.85
e-153 50.81
e-155 49.33
e-165 51.70
e-167 53.01
e-168 43.92
e-170 51.76
tr-128 79.02
tr-131 74.52
tr-132 79.17
tr-133 83.29
tr-139 80.52
tr-140 79.89
tr-142 75.42
tr-143 74.81
tr-144 82.35
tr-146 81.78
tr-148 79.37
tr-149 76.73
tr-155 79.57
tr-165 78.74
tr-170 74.66
20
Lampiran 3 Rata-rata kesamaan dokumen uji dengan lebih dari 1 dokumen
sumber
Nama dokumen Kesamaan Kosinus
d2-130-132 68.18
d2-133-140 72.02
d2-143-148 71.96
d2-151-167 66.50
d2-153-142 69.13
d2-153-154 71.96
d2-165-154 65.06
d2-165-166 69.70
d2-168-146 65.32
d2-170-141 59.49
d3-106-144-137 63.64
d3-107-153-167 57.29
d3-129-146-151 66.11
d3-130-131-132 59.96
d3-130-134-142 65.33
d3-133-136-140 58.07
d3-140-139-168 62.93
d3-143-144-148 60.55
d3-151-167-128 60.52
d3-153-142-131 59.36
d3-153-154-165 63.94
d3-165-154-149 62.89
d3-166-167-170 61.57
d3-168-146-155 57.80
d3-170-141-143 56.65
tr2-130-132 62.44
tr2-133-140 65.19
tr2-143-148 62.15
tr2-151-167 58.26
tr2-153-142 61.22
tr2-153-154 63.30
tr2-165-154 60.28
tr2-165-166 63.66
tr2-168-146 58.98
tr2-170-141 64.49
21
Lampiran 4 Hasil segmentasi dokumen uji dengan suatu dokumen sumber
Nama dokumen Jumlah Segmen
106 325
107 103
128 179
129 209
130 344
131 137
132 172
133 167
134 277
137 142
139 128
140 158
142 165
143 108
144 231
146 206
148 168
149 133
151 194
153 246
155 66
165 129
167 256
168 142
170 153
e-106 145
e-107 136
e-128 142
e-129 140
e-130 146
e-131 140
e-132 142
Nama dokumen Jumlah Segmen
e-133 139
e-134 140
e-137 151
e-139 139
e-140 134
e-142 148
e-143 136
e-144 142
e-146 147
e-148 143
e-149 153
e-151 137
e-153 143
e-155 139
e-165 142
e-167 141
e-168 133
e-170 141
tr-128 174
tr-131 130
tr-132 155
tr-133 165
tr-139 129
tr-140 151
tr-142 162
tr-143 109
tr-144 248
tr-146 200
tr-148 174
tr-149 131
tr-155 66
tr-165 120
tr-170 133
22
Lampiran 5 Hasil segmentasi dokumen uji dengan lebih dari 1 dokumen sumber
Nama dokumen Jumlah segmen
d2-130-132 148
d2-133-140 167
d2-143-148 132
d2-151-167 108
d2-153-142 127
d2-153-154 201
d2-165-154 90
d2-165-166 122
d2-168-146 100
d2-170-141 89
d3-106-144-137 372
d3-107-153-167 147
d3-129-146-151 267
d3-130-131-132 122
d3-130-134-142 371
d3-133-136-140 119
d3-140-139-168 197
d3-143-144-148 112
d3-151-167-128 108
d3-153-142-131 108
d3-153-154-165 169
d3-165-154-149 129
d3-166-167-170 148
d3-168-146-155 84
d3-170-141-143 134
tr2-130-132 133
tr2-133-140 159
tr2-143-148 129
tr2-151-167 100
tr2-153-142 121
tr2-153-154 195
tr2-165-154 91
tr2-165-166 116
tr2-168-146 94
tr2-170-141 95
23
Lampiran 6 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji
jenis hampir sama persis)
Nama dokumen Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang digunakan
Kesamaan
kosinus
(%)
106 1 0.31 2 81.69
107 1 0.99 2 100.00
128 1 0.56 2 100.00
129 1 0.49 2 100.00
130 3 0.90 1 100.00
131 3 2.22 1 98.90
132 4 2.37 1 100.00
133 3 1.81 1 98.84
134 3 1.09 1 100.00
137 1 0.71 2 100.00
139 3 2.44 1 100.00
140 3 2.00 1 80.86
142 3 1.82 1 100.00
143 1 0.93 2 88.34
144 2 0.88 1 100.00
146 5 2.51 1 100.00
148 2 1.22 2 98.67
149 3 2.22 2 88.23
151 3 1.60 1 100.00
153 5 2.05 1 94.57
155 5 7.58 1 100.00
165 1 0.79 2 100.00
167 2 0.80 1 100.00
168 6 4.35 1 100.00
170 3 1.99 1 100.00
24
Lampiran 7 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji
jenis gabungan berbagai sumber)
Nama dokumen Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang
digunakan
Kesamaan
kosinus
(%)
d2-130-132 1 0.68 2 97.09
d2-133-140 3 1.82 1 98.37
d2-143-148 3 2.31 1 96.30
d2-151-167 4 3.70 1 97.31
d2-153-142 3 2.40 1 80.19
d2-153-154 4 2.01 1 100.00
d2-165-154 1 1.12 2 100.00
d2-165-166 1 0.82 2 100.00
d2-168-146 5 5.10 1 99.38
d2-170-141 10 11.36 2 84.16
d3-106-144-137 2 0.54 2 81.69
d3-107-153-167 1 0.68 2 100.00
d3-129-146-151 2 0.76 2 100.00
d3-130-131-132 3 2.48 2 98.99
d3-130-134-142 1 0.27 2 100.00
d3-133-136-140 4 3.36 1 99.09
d3-140-139-168 3 1.59 2 100.00
d3-143-144-148 5 4.50 1 100.00
d3-151-167-128 2 1.85 2 99.06
d3-153-142-131 3 2.78 1 100.00
d3-153-154-165 2 1.18 2 100.00
d3-165-154-149 2 1.56 2 100.00
d3-166-167-170 1 0.68 2 100.00
d3-168-146-155 1 1.22 2 100.00
d3-170-141-143 1 0.75 2 100.00
25
Lampiran 8 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji
jenis sedikit bagian sumber)
Nama dokumen Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang
digunakan
Kesamaan
kosinus
(%)
e-106 7 4.90 2 100.00
e-107 13 9.56 2 92.12
e-128 12 8.39 1 100.00
e-129 3 2.13 2 100.00
e-130 7 4.76 2 97.81
e-131 12 8.51 2 100.00
e-132 22 15.49 1 100.00
e-133 10 7.14 2 100.00
e-134 20 14.29 2 100.00
e-137 3 2.00 2 98.50
e-139 12 8.63 1 100.00
e-140 4 2.99 2 100.00
e-142 3 2.03 2 100.00
e-143 3 2.26 2 100.00
e-144 9 6.43 1 95.47
e-146 5 3.38 2 100.00
e-148 7 4.90 1 100.00
e-149 5 3.25 1 85.59
e-151 14 10.14 2 100.00
e-153 9 6.25 2 100.00
e-155 17 12.41 1 97.49
e-165 21 14.79 1 100.00
e-167 6 4.23 1 100.00
e-168 3 2.31 2 100.00
e-170 6 4.32 2 97.07
26
Lampiran 9 Hasil deteksi plagiat dengan mesin pencari Google (dokumen uji
jenis restrukturisasi)
Nama dokumen Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang
digunakan
Kesamaan
kosinus
(%)
tr-128 1 0.58 2 83.87
tr-131 2 1.55 2 82.85
tr-132 11 7.10 1 83.73
tr-133 6 3.61 1 78.38
tr-139 10 8.13 1 91.75
tr-140 3 2.13 1 85.09
tr-142 17 10.43 1 85.00
tr-143 9 8.26 1 79.10
tr-144 6 2.47 1 82.87
tr-146 5 2.60 2 89.92
tr-148 5 2.87 1 89.36
tr-149 3 2.29 1 78.50
tr-155 18 27.27 1 75.34
tr-165 5 4.27 1 81.96
tr-170 6 4.55 1 82.11
tr2-130-132 6 4.48 1 81.09
tr2-133-140 1 0.63 2 87.81
tr2-143-148 24 18.75 1 77.43
tr2-151-167 16 16.00 1 85.06
tr2-153-142 4 3.31 1 86.25
tr2-153-154 17 8.67 1 80.39
tr2-165-154 3 3.30 1 88.19
tr2-165-166 4 3.51 1 88.17
tr2-168-146 18 19.15 1 83.64
tr2-170-141 1 1.06 2 100.00
27
Lampiran 10 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
hampir sama persis)
Nama dokumen Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang digunakan
Kesamaan
kosinus
(%)
106 1 0.31 2 87.47
107 1 0.99 2 100.00
128 71 39.89 1 28.18
129 82 40.00 1 31.94
130 134 40.00 1 41.24
131 1 0.74 2 98.31
132 67 39.64 1 31.08
133 3 1.81 2 91.91
134 110 39.86 1 33.36
137 1 0.71 2 94.31
139 49 39.84 1 40.42
140 60 40.00 1 25.39
142 1 0.61 2 80.88
143 43 39.81 1 24.34
144 1 0.44 2 98.50
146 79 39.70 1 46.24
148 65 39.63 1 52.83
149 54 40.00 1 39.31
151 75 39.89 1 61.12
153 97 39.75 1 55.97
155 26 39.39 1 24.45
165 50 39.37 1 21.01
167 40 16.06 1 86.57
168 55 39.86 1 27.51
170 60 39.74 1 32.25
28
Lampiran 11 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
gabungan berbagai sumber)
Nama Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang digunakan
Kesamaan
kosinus
(%)
d2-130-132 59 39.86 1 32.02
d2-133-140 31 18.79 1 73.18
d2-143-148 52 40.00 1 34.67
d2-151-167 43 39.81 1 50.51
d2-153-142 3 2.40 1 76.49
d2-153-154 79 39.70 1 39.11
d2-165-154 31 34.83 1 72.49
d2-165-166 48 39.34 1 28.05
d2-168-146 39 39.80 2 37.97
d2-170-141 35 39.77 1 31.55
d3-106-144-137 2 0.54 2 87.47
d3-107-153-167 6 4.11 2 100.00
d3-129-146-151 105 39.77 1 32.35
d3-130-131-132 5 4.13 1 99.39
d3-130-134-142 9 2.47 2 98.54
d3-133-136-140 23 19.33 2 98.95
d3-140-139-168 75 39.68 1 29.48
d3-143-144-148 1 0.90 2 98.50
d3-151-167-128 43 39.81 1 10.53
d3-153-142-131 6 5.56 2 97.96
d3-153-154-165 67 39.64 1 11.90
d3-165-154-149 51 39.84 1 20.73
d3-166-167-170 59 39.86 1 54.22
d3-168-146-155 32 39.02 1 27.05
d3-170-141-143 53 39.85 1 40.87
29
Lampiran 12 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
sedikit bagian sumber)
Nama dokumen Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang digunakan
Kesamaan
kosinus
(%)
e-106 7 4.90 2 92.69
e-107 9 6.62 2 100.00
e-128 57 39.86 1 27.87
e-129 56 39.72 - -
e-130 58 39.46 1 26.33
e-131 56 39.72 1 27.87
e-132 56 39.44 1 28.84
e-133 27 19.29 2 96.44
e-134 56 40.00 1 27.87
e-137 60 40.00 1 37.13
e-139 55 39.57 1 15.02
e-140 53 39.55 1 18.98
e-142 3 2.03 2 99.44
e-143 53 39.85 1 28.84
e-144 9 6.43 1 95.47
e-146 59 39.86 1 26.33
e-148 57 39.86 1 34.67
e-149 61 39.61 1 29.16
e-151 55 39.86 1 24.34
e-153 57 39.58 1 27.87
e-155 54 39.42 1 27.87
e-165 45 31.69 1 73.27
e-167 56 39.44 1 18.69
e-168 52 40.00 - -
e-170 55 39.57 1 27.87
30
Lampiran 13 Hasil deteksi plagiat dengan mesin pencari Bing (dokumen uji jenis
restrukturisasi)
Nama Frekuensi
Pencarian
Persentase
penggunaan
segmen
Aturan
identifikasi
yang digunakan
Kesamaan
kosinus
(%)
tr-128 69 39.88 1 31.31
tr-131 51 39.53 1 24.52
tr-132 62 40.00 1 29.89
tr-133 7 4.22 1 83.25
tr-139 49 39.84 1 30.85
tr-140 56 39.72 1 39.35
tr-142 1 0.61 2 77.14
tr-143 43 39.45 1 17.89
tr-144 6 2.47 1 82.87
tr-146 76 39.58 1 48.54
tr-148 69 39.66 1 44.05
tr-149 52 39.69 1 27.58
tr-155 26 39.39 1 22.13
tr-165 46 39.32 1 24.40
tr-170 52 39.39 1 39.71
tr2-130-132 53 39.55 1 33.61
tr2-133-140 48 30.38 1 78.97
tr2-143-148 51 39.84 1 32.84
tr2-151-167 40 40.00 1 35.27
tr2-153-142 48 39.67 1 22.11
tr2-153-154 78 39.80 1 22.50
tr2-165-154 36 39.56 1 0.00
tr2-165-166 45 39.47 1 22.26
tr2-168-146 37 39.36 1 20.65
tr2-170-141 37 39.36 1 41.43
31
Lampiran 14 Waktu deteksi plagiat dokumen uji jenis hampir sama persis
dengan mesin pencari Google (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
106 0.08 1.33 0.85 5.88
107 0.04 0.27 0.73 5.42
128 0.05 0.36 0.82 4.97
129 0.05 0.83 0.76 6.07
130 0.08 0.99 1.43 8.32
131 0.05 0.63 0.35 6.37
132 0.06 0.33 0.54 11.96
133 0.05 0.47 0.62 7.90
134 0.07 1.18 0.96 8.84
137 0.05 0.51 0.44 3.30
139 0.05 0.29 0.31 8.91
140 0.05 0.53 0.53 25.23
142 0.05 0.36 0.49 10.04
143 0.05 0.39 0.41 5.00
144 0.06 0.93 1.02 7.52
146 0.06 0.35 0.60 10.26
148 0.06 0.46 0.49 5.46
149 0.05 0.61 0.98 9.36
151 0.05 0.48 0.99 6.51
153 0.06 0.77 0.58 9.44
155 0.04 0.17 0.50 11.85
165 0.05 0.35 0.74 3.76
167 0.07 0.45 1.80 7.46
168 0.04 0.48 0.77 13.65
170 0.05 0.35 1.11 73.94
32
Lampiran 15 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa sumber
dengan mesin pencari Google (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
d2-130-132 0.05 0.37 0.89 51.31
d2-133-140 0.05 0.29 0.57 33.34
d2-143-148 0.05 0.23 0.85 6.41
d2-151-167 0.04 0.26 0.62 8.31
d2-153-142 0.05 0.33 1.61 7.30
d2-153-154 0.06 0.52 0.50 10.01
d2-165-154 0.04 0.31 0.26 3.54
d2-165-166 0.05 0.40 0.32 5.54
d2-168-146 0.04 0.32 0.73 10.83
d2-170-141 0.04 0.22 0.23 16.73
d3-106-144-137 0.09 0.86 1.72 6.99
d3-107-153-167 0.05 0.28 0.54 6.03
d3-129-146-151 0.07 0.70 1.02 6.06
d3-130-131-132 0.04 0.36 0.31 6.20
d3-130-134-142 0.08 1.03 0.97 4.47
d3-133-136-140 0.05 0.40 0.40 37.70
d3-140-139-168 0.06 0.55 0.57 7.96
d3-143-144-148 0.05 0.29 0.41 12.28
d3-151-167-128 0.05 0.34 0.29 7.31
d3-153-142-131 0.05 0.20 0.30 8.45
d3-153-154-165 0.06 0.33 0.45 4.49
d3-165-154-149 0.05 0.25 0.48 7.06
d3-166-167-170 0.06 0.28 0.52 3.78
d3-168-146-155 0.04 0.34 0.26 4.58
d3-170-141-143 0.06 0.55 0.49 6.40
33
Lampiran 16 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber
dengan mesin pencari Google (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
e-106 0.17 0.66 1.04 11.78
e-107 0.05 0.39 0.58 18.43
e-128 0.05 0.39 0.43 17.50
e-129 0.05 0.49 0.50 5.74
e-130 0.05 0.60 0.66 13.21
e-131 0.05 0.41 0.36 16.06
e-132 0.05 0.32 0.60 28.60
e-133 0.05 0.26 0.73 15.85
e-134 0.05 0.50 0.42 30.61
e-137 0.05 0.28 0.80 6.31
e-139 0.05 0.35 0.44 19.34
e-140 0.05 0.32 0.54 6.99
e-142 0.05 0.32 0.49 7.13
e-143 0.05 0.39 0.68 6.05
e-144 0.05 0.32 0.49 55.24
e-146 0.05 0.40 0.50 219.20
e-148 0.05 0.82 0.41 33.30
e-149 0.05 0.51 0.45 17.56
e-151 0.05 0.36 0.61 156.01
e-153 0.05 0.64 0.50 51.08
e-155 0.05 0.45 0.40 23.41
e-165 0.05 0.42 0.35 36.17
e-167 0.05 0.81 0.51 10.46
e-168 0.05 0.24 0.67 4.72
e-170 0.05 0.31 0.35 11.95
34
Lampiran 17 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin
pencari Google (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
tr-128 0.11 1.60 0.62 5.86
tr-131 0.04 0.27 0.48 9.30
tr-132 0.05 1.14 0.48 44.50
tr-133 0.05 0.42 0.85 16.01
tr-139 0.05 0.33 0.58 22.42
tr-140 0.05 0.50 0.75 14.22
tr-142 0.05 0.35 0.53 176.93
tr-143 0.05 1.01 0.42 55.18
tr-144 0.06 0.84 0.98 34.20
tr-146 0.06 1.47 0.66 15.26
tr-148 0.06 0.36 0.46 11.79
tr-149 0.05 0.54 0.62 10.82
tr-155 0.03 0.13 0.18 240.61
tr-165 0.05 0.20 0.71 11.50
tr-170 0.05 0.29 0.59 13.86
tr2-130-132 0.05 0.40 0.62 10.39
tr2-133-140 0.05 0.53 0.76 4.89
tr2-143-148 0.05 0.30 0.43 45.68
tr2-151-167 0.04 0.28 0.48 31.44
tr2-153-142 0.04 0.42 0.39 9.26
tr2-153-154 0.05 0.73 0.77 52.54
tr2-165-154 0.04 0.22 0.38 105.06
tr2-165-166 0.04 0.22 0.35 15.14
tr2-168-146 0.04 0.28 0.31 29.47
tr2-170-141 0.04 0.17 0.25 5.35
35
Lampiran 18 Waktu deteksi plagiat dokumen uji jenis hampir sama persis
dengan mesin pencari Bing (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
106 0.63 3.61 2.14 17.37
107 0.62 1.58 3.99 20.92
128 0.06 2.00 3.30 298.04
129 0.05 2.77 4.16 266.84
130 0.09 3.84 2.52 525.95
131 0.32 0.35 0.74 3.16
132 0.69 0.76 0.60 289.71
133 0.09 0.81 1.11 10.34
134 0.08 1.13 1.71 435.14
137 0.05 0.62 1.99 2.83
139 0.28 1.32 2.69 169.10
140 0.05 0.35 1.58 190.80
142 0.08 1.37 1.43 2.71
143 0.08 0.75 1.10 170.35
144 0.06 2.00 2.32 2.13
146 0.06 3.56 2.83 252.10
148 0.11 1.35 1.36 391.32
149 0.05 1.00 0.99 216.08
151 0.06 1.41 1.41 245.17
153 0.07 2.63 1.83 62.86
155 0.04 0.85 0.37 77.03
165 0.08 2.59 1.75 132.09
167 0.11 1.97 2.48 153.89
168 0.06 1.05 1.71 277.12
170 0.05 0.97 0.76 292.17
36
Lampiran 19 Waktu deteksi plagiat dokumen uji jenis gabungan beberapa
sumber dengan mesin pencari Bing (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
d2-130-132 0.05 0.44 0.52 233.54
d2-133-140 0.06 0.40 0.62 177.86
d2-143-148 0.25 0.50 0.52 193.47
d2-151-167 0.05 0.32 0.30 129.83
d2-153-142 0.05 0.39 0.34 28.40
d2-153-154 0.08 0.87 0.70 281.76
d2-165-154 0.04 0.31 0.30 84.21
d2-165-166 0.05 0.48 0.53 185.97
d2-168-146 0.04 0.34 0.34 122.34
d2-170-141 0.04 0.28 0.27 185.18
d3-106-144-137 0.11 1.64 1.71 12.66
d3-107-153-167 0.07 0.28 0.72 24.82
d3-129-146-151 0.07 0.82 1.02 553.10
d3-130-131-132 0.04 0.24 0.53 22.37
d3-130-134-142 0.08 0.92 1.47 18.55
d3-133-136-140 0.04 0.27 0.42 66.06
d3-140-139-168 0.06 0.41 0.65 206.75
d3-143-144-148 0.05 0.23 0.27 1.84
d3-151-167-128 0.06 0.32 0.41 164.53
d3-153-142-131 0.05 0.42 0.58 12.57
d3-153-154-165 0.06 0.92 0.55 180.56
d3-165-154-149 0.05 0.94 0.51 139.28
d3-166-167-170 0.06 0.41 0.50 265.49
d3-168-146-155 0.04 0.18 0.21 169.59
d3-170-141-143 0.04 0.43 0.35 260.95
37
Lampiran 20 Waktu deteksi plagiat dokumen uji jenis sedikit bagian sumber
dengan mesin pencari Bing (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
e-106 0.06 1.08 0.74 14.13
e-107 0.07 1.27 1.04 20.72
e-128 0.07 1.18 1.07 223.92
e-129 0.06 1.03 0.66 202.13
e-130 0.07 1.01 0.72 621.37
e-131 1.34 0.80 0.81 230.21
e-132 0.05 0.35 0.68 158.52
e-133 0.05 0.82 0.88 140.63
e-134 0.05 0.36 0.63 259.78
e-137 0.05 0.42 0.92 6.10
e-139 0.05 0.36 0.81 179.95
e-140 0.05 0.55 0.49 230.90
e-142 0.05 0.53 0.76 6.42
e-143 0.05 0.41 0.34 125.39
e-144 0.05 1.20 0.97 18.11
e-146 0.07 1.40 0.71 282.35
e-148 0.05 0.85 0.78 172.86
e-149 0.05 1.13 0.66 165.80
e-151 0.07 0.90 1.09 132.97
e-153 0.07 0.41 0.75 146.50
e-155 0.05 0.72 0.75 171.83
e-165 0.07 1.35 0.80 176.00
e-167 0.06 0.86 0.49 241.05
e-168 0.06 21.69 0.61 151.52
e-170 0.06 0.84 0.45 235.46
38
Lampiran 21 Waktu deteksi plagiat dokumen jenis restrukturisasi dengan mesin
pencari Bing (detik)
Nama dokumen Ekstraksi Segmentasi Pembobotan Pencarian
tr-128 0.05 1.04 0.88 452.88
tr-131 0.05 0.75 0.98 276.31
tr-132 0.06 0.89 1.16 2592.31
tr-133 0.06 0.95 0.78 40.67
tr-139 0.06 0.68 0.87 208.25
tr-140 0.08 23.30 0.71 568.28
tr-142 0.06 0.93 0.84 2.18
tr-143 0.06 0.86 0.52 268.21
tr-144 0.07 1.82 1.67 35.22
tr-146 0.07 1.59 0.94 477.77
tr-148 0.07 0.73 0.87 650.47
tr-149 0.06 1.20 0.43 162.66
tr-155 0.04 0.28 0.19 88.87
tr-165 0.05 0.72 0.71 129.54
tr-170 0.06 0.65 0.44 301.55
tr2-130-132 0.06 0.76 0.58 238.46
tr2-133-140 0.08 23.32 0.89 153.21
tr2-143-148 0.09 0.39 0.92 246.19
tr2-151-167 0.04 1.78 0.75 135.02
tr2-153-142 0.08 0.75 0.87 174.66
tr2-153-154 0.06 1.27 1.79 964.75
tr2-165-154 0.04 0.41 0.86 147.31
tr2-165-166 0.05 0.55 0.49 144.28
tr2-168-146 0.04 0.53 0.41 261.75
tr2-170-141 0.05 0.86 1.14 114.34
39
RIWAYAT HIDUP
Penulis dilahirkan di Pangkalpinang, 11 Desember 1989 dari ayah Yadi dan
ibu Sylvia Ratna Ningsih. Penulis merupakan anak pertama dari tiga bersaudara.
Penulis menempuh sekolah menengah atas di Sekolah Menengah Atas
Negeri 1 Pemali. Selama masa sekolah menengah atas, penulis aktif dalam
organisasi yaitu sebagai pengurus Organisasi Siswa Intra Sekolah dan Organisasi
Siswa Intra Asrama. Pada tahun 2007 penulis lulus seleksi IPB Diploma melalui
jalur Undangan Seleksi Masuk IPB. Penulis menyelesaikan pendidikan
diplomanya pada tahun 2010 dengan tugas akhir berjudul “Pembangunan Website
PT Prima Agro Perkasa”. Pada tahun yang sama penulis melanjutkan pendidikan
sarjana di IPB. Penulis diterima di Departemen Ilmu Komputer, Fakultas
Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.