14
ANALISIS DAN IMPLEMENTASI LATENT SEMANTIC INDEXING UNTUK PENCARIAN MAKALAH (PAPER) PADA WEB PORTAL JURNAL ILMU KOMPUTER SKRIPSI TITO HANAFI 111401072 PROGRAM STUDI S-1 ILMU KOMPUTER FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2016 Universitas Sumatera Utara

analisis dan implementasi latent semantic indexing untuk pencarian

Embed Size (px)

Citation preview

Page 1: analisis dan implementasi latent semantic indexing untuk pencarian

ANALISIS DAN IMPLEMENTASI LATENT SEMANTIC INDEXING

UNTUK PENCARIAN MAKALAH (PAPER) PADA WEB PORTAL

JURNAL ILMU KOMPUTER

SKRIPSI

TITO HANAFI

111401072

PROGRAM STUDI S-1 ILMU KOMPUTER

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2016

Universitas Sumatera Utara

Page 2: analisis dan implementasi latent semantic indexing untuk pencarian

ANALISIS DAN IMPLEMENTASI LATENT SEMANTIC INDEXING UNTUK

PENCARIAN MAKALAH (PAPER) PADA WEB PORTAL

JURNAL ILMU KOMPUTER

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah

Sarjana Ilmu Komputer

TITO HANAFI

111401072

PROGRAM STUDI S-1 ILMU KOMPUTER

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2016

Universitas Sumatera Utara

Page 3: analisis dan implementasi latent semantic indexing untuk pencarian

ii

PERSETUJUAN

Judul : ANALISIS DAN IMPLEMENTASI LATENT SEMANTIC

INDEXING UNTUK PENCARIAN MAKALAH (PAPER)

PADA WEB PORTAL JURNAL ILMU KOMPUTER

Kategori : SKRIPSI

Nama : TITO HANAFI

Nomor Induk Mahasiswa : 111401072

Program Studi : SARJANA (S-1) ILMU KOMPUTER

Departemen : ILMU KOMPUTER

Fakultas : FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI UNIVERSITAS SUMATERA UTARA

Diluluskan di

Medan, Juli 2016

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dian Rachmawati, S.Si., M.Kom. Dr. Poltak Sihombing, M.Kom.

NIP. 198307232009122004 NIP. 197510082008011011

Diketahui/disetujui oleh

Program Studi S-1 Ilmu Komputer

Ketua,

Dr. Poltak Sihombing, M.Kom.

NIP. 196203171991031001

Universitas Sumatera Utara

Page 4: analisis dan implementasi latent semantic indexing untuk pencarian

iii

PERNYATAAN

ANALISIS DAN IMPLEMENTASI LATENT SEMANTIC INDEXING UNTUK

PENCARIAN MAKALAH (PAPER) PADA WEB PORTAL

JURNAL ILMU KOMPUTER

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa

kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Juli 2016

Tito Hanafi

111401072

Universitas Sumatera Utara

Page 5: analisis dan implementasi latent semantic indexing untuk pencarian

iv

UCAPAN TERIMA KASIH

Puji dan syukur penulis ucapkan kehadirat Allah SWT, karena rahmat dan izin-Nya

penulis dapat menyelesaikan skripsi ini. Banyak bantuan berupa uluran tangan, budi

baik, buah pikiran dan kerjasama yang telah penulis terima selama menempuh studi

sampai dengan penyelesaian studi (skripsi) ini. Oleh karena itu, seyogianya penulis

menyampaikan ucapan terima kasih kepada pihak-pihak yang telah membantu.

Ucapan terima kasih penulis sampaikan kepada:

1. Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum. selaku Rektor Universitas

Sumatera Utara.

2. Bapak Prof. Dr. Opim Salim Sitompul, M.Si. selaku Dekan Fasilkom-TI USU.

3. Bapak Dr. Poltak Sihombing, M.Kom. selaku Ketua Program Studi S-1 Ilmu

Komputer Universitas Sumatera Utara dan Dosen Pembimbing I yang telah

memberikan bimbingan dan dukungan kepada penulis.

4. Ibu Maya Silvi Lydia, B.Sc., M.Sc. selaku Sekretaris Program Studi S-1 Ilmu

Komputer Universitas Sumatera Utara.

5. Ibu Dian Rachmawati, S.Si., M.Kom. selaku Dosen Pembimbing II yang telah

memberikan bimbingan dan dukungan kepada penulis.

6. Bapak Drs. Marihat Situmorang, M.Kom. selaku Dosen Pembanding I yang

telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.

7. Bapak Ade Candra, S.T., M.Kom. selaku Dosen Pembanding II yang telah

memberikan kritik dan saran dalam penyempurnaan skripsi ini.

8. Bapak M. Andri Budiman, S.T., M.Comp.Sc., M.E.M. selaku Dosen

Pembimbing Akademik yang telah memberikan bimbingan dan dukungan

kepada penulis.

9. Yang teristimewa, Ayahanda Alm. Chairul dan Ibunda Tuti Hariani, serta

Kakanda dan Abangda drg. Chitra Chairunnisah, Tirza Hafiz, S.Kom.,

Chairunnisa Sari, S.Pd yang selalu memberikan kasih sayang dan dukungan

kepada penulis.

Universitas Sumatera Utara

Page 6: analisis dan implementasi latent semantic indexing untuk pencarian

v

10. Seluruh tenaga pengajar dan pegawai di Fakultas Ilmu Komputer dan Teknologi

Informasi USU, terkhususnya di Program Studi S-1 Ilmu Komputer.

11. Teman-teman kuliah, khususnya Kom B Ilmu Komputer USU 2011 yang telah

memberikan semangat, teman diskusi yang menyenangkan dan teman

seperjuangan dalam menggapai gelar Sarjana Komputer.

12. Rekan-rekan di PEMA Fasilkom-TI USU, UKMI Al-Khuwarizmi Fasilkom-TI

USU, Sobat Bumi Medan, Garuda Creative, dan Indonesia Positif yang juga

membantu dengan memberikan semangat kepada penulis.

13. Saudara-saudara Halaqoh Buya Hamka dan Bung Tomo yang telah memberikan

bantuan moral, nasihat dan pengetahuan kepada penulis.

14. Adik-adik Asisten Laboratorium IKLC, dan penghuni Startup Center yang telah

memberikan motivasi dan dukungannya kepada penulis.

15. Semua pihak yang terlibat langsung atau tidak langsung yang penulis tidak dapat

tuliskan satu per satu.

Semoga Allah SWT melimpahkan berkah dan kasih sayang-Nya kepada semua

pihak yang telah memberikan bantuan, semangat, dukungan dan perhatian kepada

penulis dalam menyelesaikan skripsi ini. Semoga skripsi ini bermanfaat bagi penulis,

pendidikan, dan masyarakat.

Medan, Juli 2016

Penulis

Universitas Sumatera Utara

Page 7: analisis dan implementasi latent semantic indexing untuk pencarian

vi

ABSTRAK

Jumlah makalah (paper) di Indonesia mengalami peningkatan yang signifikan tiap

tahunnya. Banyaknya makalah atau karya tulis ilmiah ini tentu memberikan kemudahan

dalam mendapatkan informasi, namun disisi lain, dapat menimbulkan masalah dalam

menemukan makalah yang sesuai dengan keinginan. Dengan adanya web portal yang

menyimpan makalah–makalah hasil penelitian secara online akan sangat membantu

pengguna dalam menemukan makalah sesuai dengan apa yang diinginkan melalui fitur

pencarian. Latent Semantic Indexing (LSI) adalah salah satu metode dalam sistem temu

balik informasi (Information Retrieval System) dengan teknik matematika yang disebut

Singular Value Decomoposition. Pada proses pencarian dengan metode LSI kata-kata

yang unik yang didapat setelah dilakukan proses praprocessing pada setiap dokumen

akan direpresentasikan sebagai baris matriks dan dokumen-dokumen akan

direpresentasikan sebagai kolom matriks. Kemudian matriks kata-dokumen yang

terbentuk didekomposisi dengan algoritma SVD. Hasil SVD matriks dapat

dioptimalkan dengan melakukan pengurangan dimensi matriks tersebut. Jumlah

dimensi matriks yang dipertahankan adalah sebanyak k, dimana nilai 𝑘 <𝑟𝑎𝑛𝑘 𝑚𝑎𝑡𝑟𝑖𝑘𝑠. Dalam penelitian ini terdapat 51 buah makalah dengan kasus uji nilai 𝑘

= 10, k = 20, k = 30, k = 40, k = 50, menunjukkan nilai 𝑘 = 50 memberikan hasil

pencarian yang paling baik dengan rata-rata f-measure dari 2 kali percobaan pencarian

dengan kata kunci yang berbeda adalah 0,7651. Hasil penelitian menunjukkan semakin

banyak nilai 𝑘 yang dipertahankan memberikan hasil pencarian yang lebih optimal.

Kata Kunci: Information Retrieval, Latent Semantic Indexing (LSI), Singular Value

Decomposition (SVD), Web Portal, Makalah (Paper)

Universitas Sumatera Utara

Page 8: analisis dan implementasi latent semantic indexing untuk pencarian

vii

ANALYSIS AND IMPLEMENTATION OF LATENT SEMANTIC INDEXING

FOR PAPER SEARCHING ON WEB JOURNAL PORTAL OF

COMPUTER SCIENCE

ABSTRACT

The number of papers in Indonesia has increased significantly each year. The number

of these papers certainly provides ease in obtaining information, but on the other hand,

can cause problems in finding papers which relevan with users needed. With the web

portal that stores papers online, research will greatly assist users in finding the papers

in accordance with what is desired through the search feature. Latent Semantic Indexing

(LSI) is one method of information retrieval systems (Information Retrieval System)

with a mathematical technique called Singular Value Decomposition. In the search

process by the method of LSI, unique words that come after praprocessing process from

each document will be represented as a matrix of rows and the documents will be

represented as a matrix column. Then the word-document matrix formed is decomposed

with SVD algorithm. The results of SVD matrix can be optimized by reducing the

dimensions of the matrix. The number of dimensional matrix is preserved as much as k,

where k < rank matrix. In this study there were 51 pieces of paper with test cases k =

10, k = 20, k = 30, k = 40, k = 50, demonstrating the value of k = 50 provide the search

results most good with average f-measure of 2 trials search with different keywords is

0.7651. The results showed the more value of k that retained provide the more optimal

searching results.

Keywords: Information Retrieval, Latent Semantic Indexing (LSI), Singular Value

Decomposition (SVD), Web Portal, Paper

Universitas Sumatera Utara

Page 9: analisis dan implementasi latent semantic indexing untuk pencarian

viii

DAFTAR ISI

Halaman

Persetujuan ii

Pernyataan iii

Ucapan Terima Kasih iv

Abstrak vi

Abstract vii

Daftar Isi viii

Daftar Tabel x

Daftar Gambar xi

Daftar Lampiran xiii

Bab 1 Pendahuluan

1.1. Latar Belakang 1

1.2. Rumusan Masalah 2

1.3. Batasan Masalah 2

1.4. Tujuan Penelitian 3

1.5. Manfaat Penelitian 3

1.6. Metodologi Penelitian 3

1.7. Sistematika Penulisan 4

Bab 2 Landasan Teori

2.1. Information Retrieval 6

2.2. Latent Semantic Indexing (LSI) 7

2.2.1. Pemrosesan Awal (Praprocessing) 9

2.2.1.1. Parsing 9

2.2.1.2. Pembuangan Stopword 9

2.2.1.3. Stemming 9

2.2.2. Matriks Kata-Dokumen (Terms-Documents Matrix) 12

2.2.3. Pembobotan 13

2.2.4. Nilai Eigen (Eigenvalue) dan Vektor Eigen (Eigenvector) 14

2.2.5. Singular Value Decomposition (SVD) 15

2.2.6. Query Vector Mapping 18

2.2.7. Relevansi Dokumen dan Query 19

2.3. Evaluasi Metode LSI 23

2.4. Penelitian yang Relevan 24

Bab 3 Analisis dan Perancangan

3.1. Analisis Sistem 25

3.1.1. Analisis masalah 25

3.1.2. Analisis kebutuhan 28

3.2. Pemodelan Sistem 29

3.2.1. Use-case diagram 29

3.2.2. Activity diagram 31

3.2.3. Sequence diagram 34

Universitas Sumatera Utara

Page 10: analisis dan implementasi latent semantic indexing untuk pencarian

ix

3.2.4. Class diagram 36

3.2.5. Flowchart pencarian 36

3.2.6. Kamus Data 38

3.2.6. Perancangan antarmuka 40

Bab 4 Implementasi dan Pengujian

4.1. Implementasi 47

4.1.1. Tampilan antarmuka halaman beranda 47

4.1.2. Tampilan antarmuka halaman pencarian 48

4.1.3. Tampilan antarmuka halaman hasil pencarian 48

4.1.4. Tampilan antarmuka halaman pencarian tidak ditemukan 49

4.1.5. Tampilan antarmuka halaman arsip 49

4.1.6. Tampilan antarmuka halaman detail makalah 49

4.1.7. Tampilan antarmuka halaman log in 50

4.1.8. Tampilan antarmuka halaman dashboard 50

4.1.9. Tampilan antarmuka halaman tambah makalah 51

4.2. Pengujian 51

4.2.1. Tujuan Pengujian 52

4.2.2. Data Pengujian 52

4.2.3. Skenario pengujian 56

4.2.4. Hasil dan analisis pengujian kata kunci I 56

4.2.5. Hasil dan analisis pengujian kata kunci II 60

Bab 5 Kesimpulan dan Saran

5.1. Kesimpulan 64

5.2. Saran 64

Daftar Pustaka 65

Universitas Sumatera Utara

Page 11: analisis dan implementasi latent semantic indexing untuk pencarian

x

DAFTAR TABEL

Halaman

Tabel 2.1. Daftar Prefiks yang Meluluh 12

Tabel 2.2. Daftar Kemungkinan Perubahan Prefiks 12

Tabel 2.3. Daftar Kombinasi Prefiks dan Sufiks yang Tidak

Diperbolehkan 12

Tabel 3.1. Pengkajian Diagram Ishikawa (I) 26

Tabel 3.2. Pengkajian Diagram Ishikawa (II) 27

Tabel 3.3. Kamus Data tb_dokumen 38

Tabel 3.4. Kamus Data tb_kata 38

Tabel 3.5. Kamus Data tb_mkd 39

Tabel 3.6. Kamus Data tb_stopword 39

Tabel 3.7. Kamus Data tb_user 39

Tabel 4.1. Data Pengujian (I) 52

Tabel 4.2. Data Pengujian (II) 53

Tabel 4.3. Data Pengujian (III) 54

Tabel 4.4. Data Pengujian (IV) 55

Tabel 4.5. Hasil Pengujian Perankingan untuk kata kunci I (I) 56

Tabel 4.6. Hasil Pengujian Perankingan untuk kata kunci I (II) 57

Tabel 4.7. Klasifikasi Tingkat Relevansi Dokumen untuk Kata Kunci I 58

Tabel 4.8. Hasil perhitungan Recal, Precission dan F-Measure kata

kunci I 59

Tabel 4.9. Hasil Pengujian Perankingan untuk Kata Kunci II 60

Tabel 4.10. Klasifikasi Tingkat Relevansi Dokumen untuk Kata Kuni II (I) 61

Tabel 4.11. Klasifikasi Tingkat Relevansi Dokumen untuk Kata

Kuni II (II) 62

Tabel 4.12. Hasil perhitungan Recal, Precission dan F-Measure kata

kunci II 63

Universitas Sumatera Utara

Page 12: analisis dan implementasi latent semantic indexing untuk pencarian

xi

DAFTAR GAMBAR

Halaman

Gambar 2.1. Proses dalam Information Retrieval System 6

Gambar 2.2. Alur proses dari metode latent semantic indexing 8

Gambar 2.3. Contoh Tahapan Praprcessing Pada Dokumen dan Query 10

Gambar 2.4. Format Kata Berimbuhan dalam Bahasa Indonesia 10

Gambar 2.5. Representasi Matriks Kata-Dokumen 13

Gambar 2.6. Ilustrasi Singular Value Decomposition (SVD) dari

Matriks A 15

Gambar 3.1. Diagram Ishikawa 25

Gambar 3.2. Use-Case Diagram 30

Gambar 3.3. Use-Case Diagram Metode LSI 30

Gambar 3.4. Activity Diagram Pencarian Makalah 31

Gambar 3.5. Activity Diagram Log In 31

Gambar 3.6. Activity Diagram Lihat dan Download Makalah 32

Gambar 3.7. Activity Diagram Tambah Makalah 32

Gambar 3.8. Activity Diagram Edit Makalah 33

Gambar 3.9. Activity Diagram Hapus Makalah 33

Gambar 3.10. Sequence Diagram Proses Pencarian Makalah 34

Gambar 3.11. Sequence Diagram Log In 34

Gambar 3.12. Sequence Diagram lihat arsip 35

Gambar 3.13. Sequence Diagram Kelola Arsip 35

Gambar 3.14. Class Diagram 36

Gambar 3.15. Flowchart Pencarian 37

Gambar 3.16. Rancangan Tampilan Halaman Beranda 40

Gambar 3.17. Rancangan Tampilan Halaman Pencarian 41

Gambar 3.18. Rancangan Tampilan Halaman Hasil Pencarian 41

Gambar 3.19. Rancangan Tampilan Halaman Pencarian Tidak Ditemukan 42

Gambar 3.20. Rancangan Tampilan Halaman Arsip 43

Gambar 3.21. Rancangan Tampilan Halaman Detail Makalah 44

Gambar 3.22. Rancangan Tampilan Halaman Log In 44

Gambar 3.23. Rancangan Tampilan Halaman Dashboard 45

Gambar 3.24. Rancangan Tampilan Halaman Tambah Makalah 46

Gambar 4.1. Antarmuka Halaman Beranda 47

Gambar 4.2. Antarmuka Halaman Pencarian 48

Gambar 4.3. Antarmuka Halaman Hasil Pencarian 48

Gambar 4.4. Antarmuka Halaman Pencarian Tidak Ditemukan 49

Gambar 4.5. Antarmuka Halaman Arsip 49

Gambar 4.6. Antarmuka Halaman Detail Makalah 50

Gambar 4.7. Antarmuka Halaman Log In 50

Gambar 4.8. Antarmuka Halaman Dashboard 51

Gambar 4.9. Antarmuka Halaman Tambah Makalah 51

Gambar 4.10. Grafik Perbandingan nilai recall, precission, dan f-measure

untuk setiap nilai 𝑘 pada kata kunci I 58

Universitas Sumatera Utara

Page 13: analisis dan implementasi latent semantic indexing untuk pencarian

xii

Gambar 4.11. Grafik Perbandingan nilai recall, precission, dan f-measure

untuk setiap nilai 𝑘 pada kata kunci II 60

Universitas Sumatera Utara

Page 14: analisis dan implementasi latent semantic indexing untuk pencarian

xiii

DAFTAR LAMPIRAN

Halaman

Lampiran 1 Perhitungan Matriks A-1

Lampiran 2 Listing Program B-1

Lampiran 3 Daftar Riwayat Hidup (Curriculum Vitae) C-1

Universitas Sumatera Utara