135
i SISTEM PEMROLEHAN INFORMASI PUISI DENGAN MENGGUNAKAN QUERY EXPANSION BERDASARKAN THESAURUS SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Infomatika Oleh: Yovita Metty Nurcahyani NIM: 105314112 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2015 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

  • Upload
    hakhanh

  • View
    226

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

SISTEM PEMROLEHAN INFORMASI PUISI DENGAN MENGGUNAKAN

QUERY EXPANSION BERDASARKAN THESAURUS

SKRIPSI

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Infomatika

Oleh:

Yovita Metty Nurcahyani

NIM: 105314112

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2015

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 2: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

ii 

 

POETRY INFORMATION RETRIEVAL SYSTEM BY USING QUERY

EXPANSION BASED THESAURUS

THESIS

Presented as Partial Fullfilment of the Requirements

To Obtain Sarjana Komputer Degree

Informatics Engineering Study Program

By :

Yovita Metty Nurcahyani

105314112

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2015

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 3: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

iii 

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 4: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

iv 

 

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 5: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 6: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

vi 

 

ABSTRAKSI 

Proses pencarian dokumen, termasuk untuk pencarian dokumen puisi seperti

di internet pada umumnya dirasa belum cukup membantu menemukan dokumen puisi

seperti yang diharapkan. Seringkali dalam melakukan pencarian puisi, puisi-puisi

yang ditampilkan hanya sesuai dengan kata kunci yang dimasukkan, namun

sebenarnya kita dapat memperoleh puisi-puisi yang mengandung thesaurus. 

Penulis tertarik untuk meneliti tingkat relevansi data yang diperoleh dari hasil

pencarian dokumen puisi, menggunakan metode query expansion berdasarkan pada

thesaurus yaitu dalam hal ini thesaurus umum dan thesaurus konteks puisi. 

Beberapa tahap metode dilakukan dalam pengembangan sistem ini, tahap-

tahap tersebut adalah melakukan pendalaman pustaka dari dokumen-dokumen puisi,

mengumpulkan 101 dokumen puisi berekstensi .txt sebagai koleksi dokumen.

Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data

inverted index dan pembobotan tf-idf menurut Savoy dan menggunakan Oracle

sebagai media penyimpanan data. Pengujian dan evaluasi menggunakan recall and

precision yang dibantu oleh lima orang responden. 

Hasil pengujian menunjukkan bahwa sistem pencarian yang menggunakan

Query Expansion mengalami perbaikan, baik untuk sistem yang menggunakan

thesaurus umum maupun thesaurus konteks puisi. Ditemukan juga bahwa sistem yang

menggunakan thesaurus umum dapat memunculkan lebih banyak dokumen daripada

sistem pencarian biasa, namun juga memunculkan banyak dokumen yang tidak

relevan. 

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 7: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

vii 

 

ABSTRACTION

Search documents process, including poetry documents such in the internet in

general are still not enough to help find poetry documents as expected. Often in

searching poems, poems that appear only in accordance with the keywords entered,

but in fact we can obtain the poems that contain thesaurus.

Authors interested in examining the level of relevance of the data

obtained from the search results poetry document, using the method of query

expansion based on a thesaurus that in this case the general thesaurus and thesaurus

poetry context.

Several stages in the development of methods made this system, these

stages are deepening library of documents poetry, collected 101 documents poetry as

a .txt extension document collection. Implementation of the application of

information retrieval system using inverted index data structure and tf-idf weighting

according to the Savoy and use Oracle as data storage media. Testing and evaluation

using recall and precision are assisted by five respondents.

The results show that the retrieval system using Query Expansion

improved, both for systems that use general thesaurus and thesaurus poetry context. It

was also found that the system uses a general thesaurus can bring more documents

than the regular search system, but it also raises a lot of irrelevant documents.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 8: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

viii 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 9: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

ix 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 10: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 11: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xi 

 

DAFTAR ISI

HALAMAN JUDUL BAHASA INDONESIA .................................................. i

HALAMAN JUDUL BAHASA INGGRIS ........................................................ ii

HALAMAN PERSETUJUAN ............................................................................ iii

HALAMAN PENGESAHAN ............................................................................. iv

PERNYATAAN KEASLIAN KARYA ILMIAH .............................................. v

ABSTRAKSI ...................................................................................................... vi

ABSTRACT ........................................................................................................ vii

PUBLIKASI KARYA ILMIAH UNTUK KEPERLUAN AKADEMIS ........... viii

KATA PENGANTAR ........................................................................................ ix

DAFTAR ISI ....................................................................................................... xi

DAFTAR TABEL…………. .............................................................................. xvii

DAFTAR GAMBAR .......................................................................................... xx

DAFTAR LISTING ............................................................................................ xxiii

BAB I PENDAHULUAN ................................................................................... 1

1.1 Latar Belakang ........................................................................................ 1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 12: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xii 

 

1.2 Rumusan Masalah ................................................................................... 2

1.3 Tujuan ..................................................................................................... 3

1.4 Batasan Masalah ..................................................................................... 3

1.5 Metodologi Penelitian ............................................................................. 3

1.6 Sistematika Penulisan ............................................................................. 4

BAB II LANDASAN TEORI ............................................................................. 6

2.1 Pemerolehan Informasi ........................................................................... 6

2.1.1 Pemisahan Kata(Tokenizing) .................................................. 8

2.1.2 Penghapusan Kata Umum(Stopwords) ................................... 9

2.1.3 Stemming ................................................................................ 9

2.2 Query Formulation .................................................................................. 14

2.2.1 Query Expansion .................................................................... 14

2.2.1.1 Manual Query Expansion ................................... 14

2.2.1.2 Automatic Query Expansion ............................... 14

2.2.1.2.1 Global Analisis ............................. 15

2.2.1.2.2 Local Analisis ............................... 16

2.2.1.3 Interactive Query Expansion............................... 16

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 13: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xiii 

 

2.3 Pengindeksan(Indexing) .......................................................................... 16

2.3.1 Inverted Index ......................................................................... 19

2.4 Searching ................................................................................................ 19

2.4.1 Pembobotan TF-IDF ............................................................... 19

2.5 Recall and Precision ............................................................................... 22

BAB III ANALISIS DAN PERANCANGAN ................................................... 23

3.1 Deskripsi Kasus ....................................................................................... 23

3.2 Gambaran Sistem yang Dikembangkan .................................................. 23

3.3 Model Use Case ...................................................................................... 26

3.3.1 Skenario Login ........................................................................ 28

3.3.2 Skenario Menambah Dokumen .............................................. 29

3.3.3 Skenario Menambah Tesaurus ................................................ 30

3.3.4 Skenario Mencari Dokumen ................................................... 31

3.3.5 Skenario Logout ...................................................................... 32

3.4 Perancangan Diagram Aktivitas .............................................................. 34

3.4.1 Diagram Aktivitas Login ........................................................ 34

3.4.2 Diagram Aktivitas Menambah Dokumen ............................... 35

3.4.3 Diagram Aktivitas Menambah Tesaurus ................................ 36

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 14: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xiv 

 

3.4.4 Diagram Aktivitas Mencari Dokumen ................................... 37

3.4.5 Diagram Aktivitas Logout ...................................................... 38

3.5 Perancangan Diagram Sekuensial ........................................................... 39

3.5.1 Diagram Sekuensial Login ...................................................... 39

3.5.2 Diagram Sekuensial Menambah Dokumen ............................ 40

3.5.3 Diagram Sekuensial Menambah Tesaurus ............................. 41

3.5.4 Diagram Sekuensial Mencari Dokumen ................................. 43

3.5.5 Diagram Sekuensial Logout .................................................... 44

3.6 Perancangan Basisdata ............................................................................ 45

3.6.1 Entity Relational Diagram ...................................................... 45

3.6.2 Relational Model Design Database ........................................ 45

3.7 Physical Design Database ....................................................................... 46

3.7.1 Tabel Dictionary ..................................................................... 46

3.7.2 Tabel General Thesaurus ........................................................ 46

3.7.3 Tabel Poem Thesaurus ............................................................ 46

3.7.4 Tabel Stopwords ..................................................................... 47

3.8 Perancangan Inverted Index .................................................................... 47

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 15: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xv 

 

3.9 Perancangan Diagram Kelas ................................................................... 50

3.9.1 Aplikasi Searching ................................................................. 50

3.9.1.1 Package textoperation ......................................... 50

3.9.2 Aplikasi Indexing .................................................................... 51

3.10 Perancangan Antar Muka ........................................................................ 51

3.10.1 Perancangan Antar Muka Halaman Login .............................. 52

3.10.2 Perancangan Antar Muka Halaman Tambah Dokumen ......... 52

3.10.3 Perancangan Antar Muka Halaman Tambah Tesaurus .......... 53

3.10.4 Perancangan Antar Muka Halaman Pencarian ....................... 54

BAB IV IMPLEMENTASI SISTEM ................................................................. 57

4.1 Implementasi Program ............................................................................ 57

4.1.1 Proses Inverted Index .............................................................. 57

4.1.2 Proses Perluasan Kueri pada QE ............................................ 59

4.1.3 Proses Searching ..................................................................... 59

4.2 Implementasi Antar Muka ...................................................................... 63

4.2.1 Halaman Login ....................................................................... 63

4.2.2 Halaman Tambah Dokumen ................................................... 63

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 16: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xvi 

 

4.2.3 Halaman Tambah Tesaurus .................................................... 64

4.2.4 Halaman Pencarian ................................................................. 65

BAB V ANALISA HASIL ................................................................................. 68

5.1 Analisa Hasil Sistem ............................................................................... 68

5.1.1 Responden Pertama ................................................................ 68

5.1.2 Responden Kedua ................................................................... 74

5.1.3 Responden Ketiga ................................................................... 81

5.1.4 Responden Keempat ............................................................... 93

5.1.5 Responden Kelima .................................................................. 100

BAB VI KESIMPULAN DAN SARAN ............................................................ 110

6.1 Kesimpulan ............................................................................................. 110

6.2 Saran ........................................................................................................ 111

DAFTAR PUSTAKA ......................................................................................... 112

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 17: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xvii 

 

DAFTAR TABEL

Tabel 2.1 Kombinasi awalan akhiran yang tidak diijinkan ................................... 9

Tabel 2.2 Cara menemukan tipe awalan untuk kata diawali de “te-“ ................... 10

Tabel 2.3 Jenis awalan berdasarkan tipe awalannya ............................................. 10

Tabel 3.1 Skenario Use Case Login ...................................................................... 23

Tabel 3.2 Skenario Use Case Menambah Dokumen ............................................ 24

Tabel 3.3 Skenario Use Case Menambah Tesaurus .............................................. 25

Tabel 3.4 Skenario Use Case Mencari Dokumen ................................................. 26

Tabel 3.5 Skenario Logout .................................................................................... 27

Tabel 3.6 Tabel Dictionary ................................................................................... 39

Tabel 3.7 Tabel General Thesaurus ...................................................................... 39

Tabel 3.8 Tabel Poem Thesaurus .......................................................................... 40

Tabel 3.9 Tabel Stopwords ................................................................................... 40

Tabel 5.1 Recall Precision Sistem A: Responden Pertama .................................. 62

Tabel 5.2 Interpolasi Recall Precision Sistem A: Responden Pertama ................ 62

Tabel 5.3 Recall Precision Sistem B: Responden Pertama ................................... 63

Tabel 5.4 Interpolasi Recall Precision Sistem B: Responden Pertama ................ 63

Tabel 5.5 Recall Precision Sistem C: Responden Pertama ................................... 64

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 18: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xviii 

 

Tabel 5.6 Interpolasi Recall Precision Sistem C: Responden Pertama ................ 65

Tabel 5.7 Recall Precision Sistem A: Responden Kedua ..................................... 67

Tabel 5.8 Interpolasi Recall Precision Sistem A:Responden Kedua ................... 67

Tabel 5.9 Recall Precision Sistem B: Responden Kedua ..................................... 68

Tabel 5.10 Interpolasi Recall Precision Sistem B: Responden Kedua ................. 68

Tabel 5.11 Recall Precision Sistem C: Responden Kedua ................................... 69

Tabel 5.12 Interpolasi Recall Precision Sistem C: Responden Kedua ................. 70

Tabel 5.13 Recall Precision Sistem A: Responden Ketiga ................................... 72

Tabel 5.14 Interpolasi Recall Precision Sistem A: Responden Ketiga ................ 72

Tabel 5.15 Recall Precision Sistem B: Responden Ketiga ................................... 73

Tabel 5.16 Interpolasi Recall Precision Sistem B: Responden Ketiga ................ 74

Tabel 5.17 Recall Precision Sistem C: Responden Ketiga ................................... 75

Tabel 5.18 Interpolasi Recall Precision Sistem C: Responden Ketiga ................ 75

Tabel 5.19 Recall Precision Sistem B(revisi): Responden Ketiga ....................... 77

Tabel 5.20 Interpolasi Recall Precision Sistem B(revisi): Responden Ketiga ..... 77

Tabel 5.21 Recall Precision Sistem C(revisi): Responden Ketiga ....................... 78

Tabel 5.22 Interpolasi Recall Precision Sistem C(revisi): Responden Ketiga ..... 79

Tabel 5.23 Recall Precision Sistem A: Responden Keempat ............................... 82

Tabel 5.24 Interpolasi Recall Precision Sistem A: Responden Keempat ............ 82

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 19: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xix 

 

Tabel 5.25 Recall Precision Sistem B: Responden Keempat ............................... 83

Tabel 5.26 Interpolasi Recall Precision Sistem B: Responden Keempat ............. 84

Tabel 5.27 Recall Precision Sistem C: Responden Keempat ............................... 85

Tabel 5.28 Interpolasi Recall Precision Sistem C: Responden Keempat ............. 85

Tabel 5.29 Recall Precision Sistem A: Responden Kelima .................................. 87

Tabel 5.30 Interpolasi Recall Precision Sistem A: Responden Kelima ............... 88

Tabel 5.31 Recall Precision Sistem B: Responden Kelima .................................. 88

Tabel 5.32 Interpolasi Recall Precision Sistem B: Responden Kelima ............... 89

Tabel 5.33 Recall Precision Sistem C: Responden Kelima .................................. 89

Tabel 5.34 Interpolasi Recall Precision Sistem C: Responden Kelima ............... 90

Tabel 5.35 Rata-rata Interpolasi Recall Precision Sistem A, B dan C ................. 92

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 20: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xx 

 

DAFTAR GAMBAR

Gambar 2.1 Proses Menuju Pengindeksan(Baeza,1999) ................................... 6

Gambar 2.2 Konsep Sistem Pemerolehan Informasi(Baeza,1999) .................... 6

Gambar 2.3 Proses Pemotongan Kata ................................................................ 7

Gambar 2.4 Proses Penghapusan Kata Umum ................................................... 8

Gambar 2.5 Proses Indexing .............................................................................. 15

Gambar 2.6 Inverted Index ................................................................................ 16

Gambar 2.7 Skema Pembobotan TF-IDF........................................................... 16

Gambar 2.8 Perhitungan W ................................................................................ 16

Gambar 2.9 Perhitungan NTF ............................................................................ 17

Gambar 2.10 Perhitungan NIDF ........................................................................ 17

Gambar 3.1 Peta Sistem Keseluruhan ................................................................ 20

Gambar 3.2 Gambaran Proses Pencarian Melalui Proses QE ............................ 21

Gambar 3.3 Use Case Diagram .......................................................................... 22

Gambar 3.4 Diagram Aktivitas Login ................................................................ 28

Gambar 3.5 Diagram Aktivitas Menambah Dokumen ...................................... 29

Gambar 3.6 Diagram Aktivitas Menambah Tesaurus ........................................ 30

Gambar 3.7 Diagram Aktivitas Mencari Dokumen ........................................... 31

Gambar 3.8 Diagram Aktivitas Logout .............................................................. 32

Gambar 3.9 Diagram Sekuensial Login ............................................................. 33

Gambar 3.10 Diagram Sekuensial Menambah Dokumen .................................. 34

Gambar 3.11 Diagram Sekuensial Menambah Tesaurus ................................... 35

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 21: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xxi 

 

Gambar 3.12 Diagram Sekuensial Mencari Dokumen ...................................... 36

Gambar 3.13 Diagram Sekuensial Logout ......................................................... 37

Gambar 3.14 Entity Rational Diagram............................................................... 38

Gambar 3.15 Relational Model Design .............................................................. 38

Gambar 3.16 Perancangan Inverted Index ......................................................... 41

Gambar 3.17 Diagram UML: Aplikasi Searching: textoperation ...................... 43

Gambar 3.18 Diagram UML: Aplikasi Indexing ............................................... 44

Gambar 3.19 Halaman Login ............................................................................. 45

Gambar 3.20 Halaman Tambah Dokumen......................................................... 46

Gambar 3.21 Halaman Tambah Tesaurus .......................................................... 47

Gambar 3.22 Halaman Pencarian. Sebelum dilakukan Pencarian ..................... 48

Gambar 3.23 Halaman Pencarian. Setelah Hasil Pencarian ditemukan ............. 49

Gambar 4.1 GUI: Halaman Login ...................................................................... 56

Gambar 4.2 GUI: Halaman Tambah Dokumen ................................................. 57

Gambar 4.4 GUI: Halaman Tambah Tesaurus ................................................... 58

Gambar 4.5 GUI: Halaman Pencarian ............................................................... 59

Gambar 5.1 Interpolasi: Responden Pertama ..................................................... 65

Gambar 5.2 Interpolasi: Responden Kedua ....................................................... 70

Gambar 5.3 Interpolasi: Responden Ketiga ....................................................... 76

Gambar 5.4 Interpolasi: Responden Ketiga(revisi) ............................................ 80

Gambar 5.5 Interpolasi: Responden Keempat ................................................... 86

Gambar 5.6 Interpolasi: Responden Kelima ...................................................... 90

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 22: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xxii 

 

Gambar 5.7 Perbandingan Grafik Interpolasi 11 Titik Rata-rata Sistem A, B, dan C ............................................................................................................................ 92

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 23: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

xxiii 

 

DAFTAR LISTING

Listing program 4.1 Proses Inverted Index ......................................................... 51

Listing program 4.2 Query Expansion ................................................................ 52

Listing program 4.3 Querying_1 ......................................................................... 53

Listing program 4.4 Querying_2 ......................................................................... 53

Listing program 4.5 Querying_3 ......................................................................... 53

Listing program 4.6 Proses Penjumlahan ........................................................... 54

Listing program 4.7 Proses Pengurutan Dokumen ............................................. 55

 

 

 

 

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 24: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

BAB I

PENDAHULUAN

1.1 Latar Belakang

Kemajuan teknologi dewasa ini, tidak dapat dipungkiri lagi, ikut memberikan

andil bagi perkembangan dunia sastra, termasuk dalam dunia sastra puisi. Dengan

diiringi banyak bermunculannya media komunikasi seperti jejaring sosial, website,

blog, dan lain sebagainya, banyak pembuat, penggemar dan seniman puisi yang

mengkomunikasikan buah-buah karyanya melalui media komunikasi tersebut.

Sehingga tidaklah mengherankan bila banyak pencari puisi saat ini yang mencoba

memanfaatkan sebuah sistem pencarian seperti di google, untuk mencari inspirasi

bagi pembuatan puisi maupun sekedar ingin menikmati atau membaca puisi-puisi.

Sistem pencarian seperti di google memang dibuat untuk menghasilkan

informasi yang relevan dengan kata dari keyword yang dimasukkan. Seperti misalnya

pencari puisi ingin menemukan puisi-puisi dengan keyword ‘perjuangan’, dan sistem

akan segera menampilkan seluruh puisi yang mengandung kata-kata ‘juang,

berjuang, perjuangan.’ Namun, sebenarnya para pencari puisi dapat memperoleh

puisi-puisi yang mengandung thesaurus umum, maupun thesaurus konteks puisi.

Thesaurus merupakan pemberian informasi tentang sinonim dan kata-kata serta frase

secara semantik yang berkaitan. Dalam hal ini, thesaurus umum yang dimaksud yaitu

puisi yang mengandung thesaurus secara umum dari keyword yang dimasukkan, yaitu

untuk kata ‘perjuangan’ tadi, kemudian sistem akan menampilkan seluruh puisi yang

mengandung kata-kata ‘perlawanan, pertempuran, peperangan’. Sedangkan untuk

thesaurus konteks puisi sebenarnya merupakan tambahan dari penulis sendiri yaitu

thesaurus konteks puisi yang dimaksud dapat berupa puisi-puisi yang mengandung

kata-kata yang seringkali muncul dalam topik-topik tertentu, yaitu untuk kata

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 25: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

‘perjuangan’ tadi, kemudian sistem akan menampilkan seluruh puisi yang

mengandung kata-kata ‘darah, api, maju’.

Pencarian puisi dilakukan dengan meng-input-kan keyword berdasarkan topik-

topik puisi. Hasil pencarian yang pertama akan menunjukkan dokumen puisi yang

relevan dengan kata dari keyword, hasil yang kedua akan menunjukkan dokumen

puisi yang memiliki thesaurus umum, sedangkan hasil yang ketiga akan menunjukkan

dokumen puisi yang memiliki thesaurus konteks puisi. Hasil pencarian yang kedua

dan ketiga dari pemerolehan informasi ini menggunakan query expansion yaitu

dengan me-reformulasi-kan kembali query awal dengan melakukan penambahan

beberapa term atau kata pada query.

Setelah didapatkan ketiga hasil tersebut dalam sistem pemerolehan informasi,

kemudian ketiganya dibandingkan tingkat relevansinya. Tujuannya untuk

menentukan sejauh mana tingkat relevansi sistem pemerolehan informasi yang

menghasilkan dokumen puisi yang relevan dengan kata dari keyword dan yang

memiliki thesaurus umum maupun thesaurus konteks puisi dari keyword.

Sebagaimana latar belakang yang telah diuraikan di atas, itulah yang menarik

perhatian penulis dalam penulisan skripsi ini. Harapannya dengan adanya penelitian

ini, dapat membantu para pencari puisi untuk menemukan puisi-puisi yang sesuai

dengan kebutuhannya.

1.2 Rumusan Masalah

Ditarik dari latar belakang yang telah disampaikan di atas, penulis mencoba

menyampaikan rumusan masalah sebagai berikut:

1. Bagaimanakah mengimplementasikan sistem pemerolehan informasi

pencarian puisi yang menghasilkan dokumen puisi yang relevan dengan kata dari

keyword, yang memiliki thesaurus umum dan yang memiliki thesaurus konteks puisi?

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 26: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

2. Sejauh manakah tingkat relevansi sistem pemerolehan informasi

pencarian puisi yang menghasilkan dokumen puisi yang relevan dengan kata dari

keyword, yang memiliki thesaurus umum dan yang memiliki thesaurus konteks puisi?

1.3 Tujuan

Dengan penulisan tugas akhir ini, penulis bertujuan untuk membangun sistem

pemerolehan informasi puisi yang menggunakan query expansion berdasarkan

thesaurus umum maupun thesaurus konteks puisi untuk meningkatkan relevansi data.

1.4 Batasan Masalah

Untuk memudahkan dalam penggalian masalah, maka diperlukan suatu

batasan-batasan masalah. Batasan masalah tersebut adalah :

1. Koleksi dokumen yang disediakan adalah dokumen puisi berjumlah

101 dokumen dengan tipe dokumen yang dapat dicari adalah file .txt

2. Puisi yang disediakan adalah puisi berbahasa Indonesia.

3. Koleksi dokumen puisi diambil dari periode sastra tahun 1945-1980

4. Data-data thesaurus umum yang dipergunakan diambil dari website

milik www.sinonimkata.com

1.5 Metodologi Penelitian

Metode yang dipergunakan dalam penelitian ini adalah sebagai berikut :

a) Studi Pustaka

Pada tahap ini dilakukan pendalaman pustaka dari dokumen-dokumen puisi,

dan metode query expansion.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 27: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

b) Analisa Perancangan Sistem

Melakukan analisis terhadap masalah dan kebutuhan sistem yang dibangun,

kemudian melakukan perancangan sistem

c) Pengumpulan Data

Pada tahap ini dilakukan pengumpulan dokumen puisi-puisi yang akan

digunakan sebagai corpus dalam sistem information retrieval.

d) Implementasi Sistem

Diterapkan implementasi information retrieval menggunakan metode query

expansion dalam proses pencarian dokumen.

e) Pengujian dan Evaluasi Sistem

Sistem ini akan diujikan ke 5 orang yang suka membaca puisi. Setelah itu

pengujian hasil sistem akan diuji menggunakan metode recall dan precision.

1.6 Sistematika Penulisan

BAB I : PENDAHULUAN

Bab ini memberikan gambaran secara umum tentang penelitian yang berisikan

: latar belakang, rumusan masalah, tujuan dan manfaat penelitian, batasan masalah,

metode penelitian dan sistematika penulisan.

BAB II : LANDASAN TEORI

Bab ini memberikan gambaran tentang konsep dasar information retrieval,

pembobotan tf-idf, query expansion dan evaluasi sistem menggunakan recall dan

precision.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 28: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

BAB III : ANALISA DAN PERANCANGAN SISTEM

Bab ini berisi tentang perancangan kebutuhan sistem dan database.

BAB IV : IMPLEMENTASI SISTEM

Bab ini berisi tentang penjelasan fungsi-fungsi metode yang digunakan dalam

sistem pemerolehan informasi dokumen jurnal ilmiah.

BAB V : ANALISIS HASIL

Bab ini berisi tentang analisis sistem yang dibuat dengan memberikan segala

kelebihan dan kekurangan sistem.

BAB VI : KESIMPULAN DAN SARAN

Bab ini berisi tentang kesimpulan dan saran dari pembuatan sistem pencarian

informasi menggunakan metode query expansion.

DAFTAR PUSTAKA

LAMPIRAN

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 29: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

BAB II

LANDASAN TEORI

2.1 Pemerolehan Informasi

Pemerolehan Informasi (Information Retrieval) adalah menemukan bahan

(umumnya dokumen) dari sesuatu tidak terstruktur (biasanya teks) yang memenuhi

kebutuhan informasi dari kumpulan berskala besar (biasanya disimpan pada

komputer) (Manning, 2009). Dalam Pemerolehan Informasi, mendapatkan dokumen

yang relevan tidaklah cukup. Tujuan yang harus dipenuhi adalah bagaimana

mendapatkan dokumen relevan dan tidak mendapatkan dokumen yang tidak relevan.

ISO 2382/1 mendefinisikan Information Retrieval (IR) sebagai tindakan,

metode dan prosedur untuk menemukan kembali data yang tersimpan, kemudian

menyediakan informasi mengenai subyek yang dibutuhkan. Tindakan tersebut

mencakup text indexing, inquiry analysis, dan relevance analysis. Data mencakup

teks, tabel, gambar, ucapan, dan video. Informasi termasuk pengetahuan terkait yang

dibutuhkan untuk mendukung penyelesaian masalah dan akuisisi pengetahuan (Cios;

2007).

Sebelum dilakukan pencarian, maka diperlukan langkah-langkah yang dilakukan

terhadap dokumen, sehingga dokumen menghasilkan sekumpulan partikel-partikel

yang lebih kecil, yaitu daftar istilah. Metode tersebut adalah metode Teks

Operasi(Text Operations).

Teks Operasi bertujuan mengurangi kompleksitas dari representasi dokumen

dan mengizinkan memproses data teks menuju pengindeksan istilah (Baeza et al,

1999). Proses tersebut dapat dilakukan dengan cara pemisahan kata, penghapusan

istilah umum dan pencarian akar kata. Berikut adalah gambaran untuk Teks Operasi,

Gambar 2.1

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 30: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

Gambar 2.1 Proses Menuju Pengindeksan (Baeza, 1999)

Dalam hal ini, tidak hanya dokumen yang akan mengalami Teks Operasi,

tetapi juga kebutuhan pengguna atau kata-kunci yang telah dimasukkan. Hasil dari

Teks Operasi, yaitu daftar istilah kemudian digunakan untuk proses selanjutnya yaitu

Indexing, merupakan proses persiapan yang dilakukan terhadap dokumen sehingga

dokumen siap untuk di retrieve. Sebagai ilustrasi sistem Pemerolehan Informasi dapat

dilihat pada, Gambar 2.2

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 31: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

Gambar 2.2 Konsep Sistem Pemerolehan Informasi(Baeza, 1999)

2.1.1 Pemisahan Kata (Tokenizing)

Pemisahan Kata bertugas untuk memotong unit dokumen menjadi potongan-

potongan kata yang lebih detail, hasil potongan tersebut adalah token, hal yang serupa

juga diberlakukan untuk karakter spesial seperti tanda baca (Manning et al. 2009).

Berikut adalah contoh proses pemotongan kata, Gambar 2.3.

Input Friend, Romans, Countrymen, Lend me your ears

Output

Gambar 2.3 Proses Pemotongan Kata

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 32: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

 

2.1.2 Penghapusan Kata Umum (Stopwords)

Beberapa kata yang umum untuk digunakan akan mengakibatkan membuat

suatu nilai menjadi kecil dalam membantu memilih dokumen yang sesuai dengan

kebutuhan pengguna. Kata yang umum tersebut adalah stopwords. Terdapat beberapa

cara untuk menentukan kata umum tersebut adalah stopwords atau bukan, salah

satunya adalah dengan cara mengurutkan collection frequency (jumlah setiap

kemunculan kata dari koleksi dokumen) dan kemudian mengambil frekuensi yang

tertinggi untuk mengkategorikan kata stopwords. Atau sering kali digunakan cara

dengan menyaring kata/ stopwords berdasarkan daftar yang sudah ditentukan

sebelumnya, kemudian stopwords akan dihapus selama dilakukannya pengindeksan

(Manning et al. 2009).

Contoh kata umum tersebut adalah yang, ini, dan, itu. Berikut ini merupakan contoh

penghapusan kata umum, pada Gambar 2.4

Input Sesuai dengan perjanjian ini saya

umumkan

Output Sesuai perjanjian saya umumkan

Gambar 2.4 Proses Penghapusan Kata Umum

2.1.3 Stemming

Stemming merupakan proses mengubah kata-kata yang terdapat dalam suatu

dokumen dalam bentuk kata dasar (rootword) (Agusta, 2009).

Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-

tahap sebagai berikut:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 33: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

10 

 

1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan

bahwa kata tesebut adalah root word. Maka algoritma berhenti.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa

particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk

menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus,

maka algoritma berhenti. Jika tidak maka ke langkah 3a

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-

k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma

berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi

ke langkah 4a, jika tidak pergi ke langkah 4b.

a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka

algoritma berhenti, jika tidak pergi ke langkah 4b.

b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum

juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika

awalan kedua sama dengan awalan pertama algoritma berhenti.

5. Melakukan Recoding.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal

diasumsikan sebagai root word. Proses selesai.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 34: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

11 

 

Tipe awalan ditentukan melalui langkah-langkah berikut:

1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara

berturut-turut adalah “di-”, “ke-”, atau “se-”.

2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah

proses tambahan untuk menentukan tipe awalannya.

3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau “pe-”

maka berhenti.

4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan

“none” maka awalan dapat dilihat pada Tabel 2.2 Hapus awalan jika ditemukan.

Tabel 2.1 Kombinasi awalan akhiran yang tidak diijinkan

Awalan Akhiran yang tidak diijinkan

be- -i

di- -an

ke- -I, -kan

me- -an

se- -i, -kan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 35: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

12 

 

Tabel 2.2 Cara menemukan tipe awalan untuk kata diawali de “te-”

Following

Characters

Tipe

Awalan

set 1 set 2 set 3 set 4

“-r-“ “-r-“ - - none

“-r-“ vowel - - ter-luluh

“-r-“ not(vowel

or “-r-”)

“-er-“ vowel ter

“-r-“ not(vowel

or “-r-”)

“-er-“ not vowel ter

“-r-“ not(vowel

or “-r-”)

not “-er-“ - ter

not(vowel or “-

r-”)

“-er-“ vowel - none

not(vowel or “-

r-”)

“-er-“ not vowel - te

Tabel 2.3 Jenis awalan berdasarkan tipe awalannya

Tipe Awalan Awalan yang harus dihapus

di- ke-

ke- ke-

se- Se-

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 36: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

13 

 

te- te-

ter- ter-

ter-luluh ter

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan

aturan-aturan di bawah ini:

1. Aturan untuk reduplikasi.

Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang

sama maka root word adalah bentuk tunggalnya, contoh : “buku-buku” root word-nya

adalah “buku”.

Kata lain, misalnya “bolak-balik”, “berbalas-balasan, dan ”seolah-olah”.

Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika

keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal,

contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang

sama yaitu “balas”, maka root word “berbalas-balasan” adalah “balas”. Sebaliknya,

pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka

root word-nya adalah “bolak-balik”.

2. Tambahan bentuk awalan dan akhiran serta aturannya.

Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-”

memiliki tipe awalan “mem-”.

Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-” memiliki

tipe awalan “meng-”.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 37: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

14 

 

2.2 Query Formulation

Proses Query formulation adalah sekumpulan teknik untuk memodifikasi

kueri dengan tujuan untuk memenuhi sebuah kebutuhan informasi. Seringnya

modifikasi dilakukan dengan penambahan istilah kedalam kueri. Salah satu metode

perluasan kueri adalah menggunakan query expansion (Selberg; 1997).

2.2.1 Query Expansion

Query expansion atau perluasan query adalah proses me-reformulasikan

kembali query awal dengan melakukan penambahan beberapa term atau kata pada

query untuk meningkatkan perfoma dalam proses information retrieval. Bentuk query

expansion yang paling umum adalah global analisis, yang menggunakan beberapa

bentuk thesaurus. Untuk setiap kata, t, pada suatu query perluas query itu dengan

sinonim dan kata lain t dari thesaurus. Metode yang dilakukan dalam perluasan

adalah dengan menambahkan istilah-istilah yang mengandung thesaurus sesuai topik

puisi. Adapun dalam metode query expansion sendiri dibagi menjadi 3, yaitu :

2.2.1.1 Manual Query Expansion (MQE)

Menggunakan metode ini pengguna memodifikasi kueri secara manual.

Sistem tidak memberikan bantuan sama sekali kepada pengguna.

2.2.1.2 Automatic Query Expansion (AQE)

Menggunakan metode ini sistem akan memodifikasi kueri secara otomatis

tanpa perlu bantuan kendali dari pengguna.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 38: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

15 

 

Beberapa teknik yang biasa digunakan antara lain:

2.2.1.2.1 Global Analysis (GA)

GA beroperasi dengan cara memeriksa seluruh dokumen yang ada dalam

koleksi untuk membangun suatu struktur yang mirip dengan thesaurus. Menggunakan

thesaurus ini, kueri akan diperluas dengan istilah-istilah yang dianggap berhubungan

erat dengan istilah kueri dalam ruang lingkup koleksi. Suatu thesaurus memberikan

informasi tentang sinonim dan kata-kata serta frase yang secara semantik berkaitan

(Baeza-Yates; 1999). Terdapat thesaurus untuk domain kesehatan, matematika, ilmu

komputer, dll (Chevallet; 2002). Cara membuat thesaurus untuk query expansion

antara lain sebagai berikut:

a) Thesaurus manual. Editor manusia membuat daftar sinonim untuk setiap konsep

secara manual.

Relasi yang sering digunakan untuk perluasan kueri adalah sinonim. Sinonim

adalah dua istilah atau lebih yang maknanya sama atau mirip, tetapi bentuknya

berlainan. Penggunaan sinonim yang telah ditetapkan dalam hal ini merupakan

thesaurus.

Sebagai contoh, kata cinta memiliki thesaurus secara umum yaitu ’kasih,

sayang, cita’.

b) Thesaurus yang diturunkan secara otomatis. Thesaurus dibangun secara otomatis

berdasarkan data statistik dari kemunculan kata pada dokumen dalam domain

tertentu.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 39: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

16 

 

2.2.1.2.2 Local Analysis (LA)

Dalam LA, sistem menemukembalikan dokumen dengan sebuah kueri awal,

memilih dan memeriksa sejumlah dokumen dengan ranking teratas, mengasumsi

bahwa dokumen-dokumen teratas tersebut relevan, untuk kemudian membangkitkan

sebuah kueri baru (Baeza-Yates; 1999).

2.2.1.3 Interactive Query Expansion (IQE)

IQE mencakup metode-metode yang didalamnya pengguna melakukan

interaksi dengan system dalam perluasan kueri. Teknik yang tercakup didalamnya

adalah relevance feedback. Relevance feedback (RF) adalah metode yang sudah

diterima secara luas untuk meningkatkan keefektifan penemukembalian secara

interaktif. Sebuah pencarian awal dilakukan oleh sistem menggunakan kueri yang

diberikan oleh pengguna dan sebagai hasilnya menemukembalikan sejumlah

dokumen. Pengguna memeriksa dokumen-dokumen tersebut dan menandai dokumen

yang dianggap relevan. Sistem kemudian secara otomatis memodifikasi kueri

berdasar penilaian relevansi pengguna tadi. Kueri baru dijalankan untuk

menemukembalikan kumpulan dokumen yang lebih relevan. Proses ini dapat

berulang hingga pengguna merasa kebutuhan informasinya terpenuhi (Buckley;

1994). Dalam sebuah penelitian, simulasi yang dilakukan pada pengguna

berpengalaman, menyimpulkan bahwa IQE memberikan kinerja yang lebih stabil

daripada AQE (Ruthven; 2003).

2.2 Pengindeksan (Indexing)

Pengindeksan adalah proses penyimpanan kembali dokumen secara urut

dengan aturan tertentu. Proses penyimpanan tersebut ditujukan guna mempercepat

proses pencarian suatu dokumen yang sesuai dengan kebutuhan pengguna. Sebagai

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 40: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

17 

 

cara untuk dapatkan keuntungan dalam percepatan dalam melakukan proses

pengindeksan, dapat membangun indeks terlebih dahulu. Untuk langkah proses

tersebut adalah sebagai berikut (Manning et al. 2009) :

1. Kumpulkan dokumen terlebih dahulu yang akan di indeks.

2. Lakukan proses pemisahan kata guna mendapatkan daftar token.

3. Dapat dilakukan aturan tertentu untuk mendapat daftar token yang sudah

dinormalisasikan sebelum dilakukan pengindeksan.

4. Indeks dokumen untuk masing-masing istilah yang dimilikinya dengan

membuat Inverted Index.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 41: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

18 

 

Sebagai gambaran proses indexing dapat dilihat pada Gambar 2.5 dibawah ini.

 

Gambar 2.5 Proses Indexing

Pada ilustrasi tersebut dapat dilihat pada bagian atas (Doc 1 dan Doc 2) adalah

kumpulan dokumen yang akan di indeks. Bagian kiri mempresentasikan bahwa setiap

dokumen yang akan di indeks sudah di pecah menjadi unit yang lebih kecil, melanjuti

proses pada bagian kiri pada bagian tengah adalah pengurutan berdasarkan abjad (a-

z). Bagian kanan adalah penyatuan pada istilah yang muncul beberapa kali dan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 42: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

19 

 

menuliskan kembali jumlah kemunculan istilah tersebut dengan menunjuk kumpulan

dokumen yang memiliki istilah tersebut.

2.3.1 Inverted Index

Salah satu cara dalam melakukan pengindeksan adalah dengan cara Inverted

Index. Indeks yang sebenarnya adalah pemetaan kembali istilah/ terms pada suatu

dokumen dimana mereka muncul (Manning et al, 2009).

Gambar 2.6 Inverted Index

2.4 Searching

2.4.1 Pembobotan tf-idf

Sekarang akan menggabungkan definisi dari frekuensi istilah (tf) dan invers

frekuensi dokumen (idf) untuk dapat menghasilkan penggabungan bobot pada setiap

istilah dari setiap dokumen(Manning et al, 2009). Skema pembobotan tf-idf yang

menunjukkan bahwa bobot istilah t pada dokumen d, sebagai berikut

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 43: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

20 

 

Gambar 2.7 Skema Pembobotan TF-IDF

Bobot suatu istilah semakin besar jika istilah tersebut sering muncul dalam

suatu dokumen dan semakin kecil jika istilah tersebut muncul dalam banyak

dokumen (Grossman; 1998). Berikut adalah skema normalisasi tf-idf menurut Savoy

(1993):

Gambar 2.8 Perhitungan W

dimana aturan ntf dan nidf adalah sebagai berikut:

Gambar 2.9 Perhitungan NTF

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 44: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

21 

 

Gambar 2.10 Perhitungan NIDF

Keterangan:

Wik adalah bobot istilah k pada dokumen i.

tfik merupakan frekuensi dari istilah k dalam dokumen i.

n adalah jumlah dokumen dalam kumpulan dokumen.

dfk adalah jumlah dokumen yang mengandung istilah k.

Maxj tfij adalah frekuensi istilah terbesar pada satu dokumen.

Pada teknik pembobotan ini, bobot istilah telah dinormalisasi. Dalam

menentukan bobot suatu istilah tidak hanya berdasarkan frekuensi kemunculan istilah

di satu dokumen, tetapi juga memperhatikan frekuensi terbesar pada suatu istilah

yang dimiliki oleh dokumen bersangkutan. Hal ini untuk menentukan posisi relatif

bobot dari istilah dibanding dengan istilah-istilah lain di dokumen yang sama. Selain

itu teknik ini juga memperhitungkan jumlah dokumen yang mengandung istilah yang

bersangkutan dan jumlah keseluruhan dokumen. Hal ini berguna untuk mengetahui

posisi relatif bobot istilah bersangkutan pada suatu dokumen dibandingkan dengan

dokumen-dokumen lain yang memiliki istilah yang sama. Sehingga jika sebuah

istilah mempunyai frekuensi kemunculan yang sama pada dua dokumen belum tentu

mempunyai bobot yang sama (Hasibunan. 2001).

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 45: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

22 

 

2.5 Recall dan Precision

Keefektifitasan dari pemerolehan informasi dapat diukur. Dalam pemerolehan

informasi terdapat banyak metode yang digunakan untuk melakukan pengukuran.

Pengukuran akan dilakukan dengan menggunakan recall dan precicion (Nugraha,

2010).

1. Recall adalah perbandingan jumlah dokumen relevan yang di retrieve

terhadap jumlah dokumen yang relevan.

recall =

   

 

2. Precision adalah perbandingan jumlah dokumen relevan yang di retrieve

terhadap jumlah dokumen yang ditemukembalikan.

precision =

 

Semakin tingginya nilai recall, jumlah dokumen yang dicari semakin banyak.

Pada mesin pencari yang baik adalah semua hasil pencarian merupakan dokumen

yang relevan atau nilai recall dan precision adalah 1 (A.H, 2004).

jumlah dokumen relevan yang berhasil ditemukan

jumlah seluruh dokumen yang relevan

jumlah dokumen relevan yang berhasil ditemukan

jumlah seluruh dokumen yang ditemukan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 46: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

23 

 

BAB III

ANALISIS DAN PERANCANGAN

3.1 Deskripsi Kasus

Untuk mencari dokumen dalam sebuah sistem, termasuk untuk dokumen puisi

terkadang tidak hanya diperlukan sistem pencarian yang biasa. Yaitu sistem pencarian

yang membantu pengguna dalam menemukan dokumen relevan dengan kata kunci

yang dimasukkan. Tetapi juga pengguna dapat menemukan dokumen puisi yang

mengandung thesaurus didalamnya. Berdasarkan hasil pencarian, penulis ingin

meneliti apakah dengan menggunakan Query Expansion berdasarkan Thesaurus ini

dapat lebih membantu pengguna dalam mencari dokumen puisi.

3.2 Gambaran Sistem yang Dikembangkan

Arsitektur sistem ini ditunjukkan pada gambar. Koleksi dokumen berupa

dokumen puisi dengan eksistensi .txt. Proses yang pertama kali dilakukan, yaitu text

operation dijalankan menggunakan algoritma stemming Nazief dan Adrini.

Selanjutnya dilakukan proses Indexing pada seluruh dokumen yaitu menggunakan

Inverted Index. Kemudian untuk pembobotan dokumen dalam proses searching

menggunakan rumus tf-idf menurut Savoy. Untuk menemukan thesaurus sesuai kata

kunci yang dimasukkan, dilakukan proses perluasan kueri menggunakan Query

Expansion yaitu berdasarkan thesaurus.

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 47: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

24 

 

 

Gambar 3.1 Peta Sistem Keseluruhan

Query Expansion yang digunakan dalam hal ini menggunakan perluasan

query pada thesaurus. Thesaurus pada sistem ini yaitu ada thesaurus umum dan

thesaurus konteks puisi. Pada saat pengguna menjalankan proses pencarian

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 48: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

25 

 

berdasarkan kata-kunci, pengguna kemudian memilih jenis pencarian yang akan

dilakukan, apakah akan melakukan pencarian dokumen puisi biasa atau pencarian

dokumen puisi yang memiliki thesaurus, setelah itu sistem akan segera mengecek

berdasarkan jenis pencarian, apakah kata kunci yang telah dimasukkan memiliki

thesaurus atau tidak dalam database. Jika mempunyai thesaurus, maka sistem akan

langsung mengeksekusi sesuai dengan kata-kunci yang dimasukkan.

Gambar 3.2 Gambaran Proses Pencarian Melalui Proses QE

Dalam proses searching, QE dalam sistem ini menggunakan fungsi AND OR

dalam eksekusi kueri. Maksudnya adalah kata kunci dari pengguna menggunakan

fungsi operator AND. Hasil query yang sudah melalui proses QE sendiri juga

menggunakan Proses AND. Selanjutnya kedua kata kunci tersebut digabung

menggunakan fungsi operator OR. Contoh : Kata-kunci dari user adalah : “Puisi

Cinta”. Sistem akan mengecek dalam database apakah memiliki thesaurus dari kata

tersebut. Ternyata ditemukan kata cinta memiliki thesaurus “sayang”, sedangkan kata

puisi tidak mempunyai thesaurus, maka hasil setelah melalui proses QE adalah “Puisi

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 49: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

26 

 

Sayang”. Dalam proses searching, kueri tersebut akan diproses menjadi (Puisi AND

Cinta) OR (Puisi AND Sayang).

3.3 Model Use Case

Dalam sistem ini, melibatkan dua aktor, yaitu administrator dan pengguna.

Administrator bertugas yaitu menambah kamus thesaurus dan menambah data puisi

yang baru dalam format file .txt. Administrator harus melakukan login dahulu

sebelum menggunakan sistem dan mengakhirinya dengan cara logout. Pengguna

adalah aktor yang ingin mencari dokumen puisi. Berikut adalah Diagram Use Case

untuk kedua aktor, pada Gambar 3.3.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 50: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

27 

 

Gambar 3.3 Use Case Diagram

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 51: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

28 

 

3.3.1 Skenario Login

Berikut adalah penjelasan langkah dasar dan kondisi-kondisi yang terjadi saat

administrator menjalankan operasi Login.

Tabel 3.1 Skenario Use Case Login

Aktor Administrator

Kondisi awal -

Kondisi akhir Administrator berhasil melakukan

verifikasi identitas

Aksi Aktor Reaksi Sistem

Skenario Utama

Langkah 1:

Administrator memasukan

username dan password

Langkah 2:

Username dan password akan dikelola

untuk dilakukan validasi

*Jika tidak ada kesesuaian antara

username dan password, lanjutkan ke

Skenario Alternatif

Langkah 3:

Administrator berhasil melakukan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 52: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

29 

 

verifikasi identitas

Skenario Alternatif

Langkah 2.1:

Tampil pesan yang menunjukkan

username/ password yang dimasukkan

tidak sesuai

3.3.2 Skenario Menambah Dokumen

Berikut adalah penjelasan langkah dasar dan kondisi-kondisi yang terjadi saat

administrator menjalankan operasi Menambah Dokumen.

Tabel 3.2 Skenario Use Case Menambah Dokumen

Aktor Administrator

Kondisi awal Administrator sudah melakukan Login

Kondisi akhir Bertambahnya dokumen baru dalam

basis data

Aksi Aktor Reaksi Sistem

Skenario Utama

Langkah 1:

Administrator memasukan judul

dan dokumen puisi yang akan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 53: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

30 

 

ditambahkan

Langkah 2:

Sistem menambahkan dokumen baru ke

dalam basis data

3.3.3 Skenario Menambah Tesaurus

Berikut adalah penjelasan langkah dasar dan kondisi-kondisi yang terjadi saat

administrator menjalankan operasi Menambah Tesaurus.

Tabel 3.3 Skenario Use Case Menambah Tesaurus

Aktor Administrator

Kondisi awal Administrator memilih jenis tesaurus

yang akan ditambah

Kondisi akhir Berhasil menambah tesaurus

Aksi Aktor Reaksi Sistem

Skenario Utama

Langkah 1:

Administrator memasukkan kata

dan tesaurus baru yang akan

ditambahkan

Langkah 2:

Sistem menambahkan tesaurus baru

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 54: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

31 

 

kedalam basisdata

3.3.4 Skenario Mencari Dokumen

Berikut adalah penjelasan langkah dasar dan kondisi-kondisi yang terjadi saat

administrator menjalankan operasi Mencari Dokumen.

Tabel 3.4 Skenario Use Case Mencari Dokumen

Aktor Pengguna

Kondisi awal User memasukkan kata kunci pada

laman pencarian

Kondisi akhir Dokumen yang relevan tertampil pada

laman pengguna

Aksi Aktor Reaksi Sistem

Skenario Utama

Langkah 1:

Pengguna memasukkan kata kunci

Langkah 2:

Sistem melakukan Teks Operasi untuk

kata kunci

Langkah 3:

Pencarian di- menggunakan Indeks

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 55: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

32 

 

*Jika tidak maka menuju

SkenarioAlternatif

Langkah 4:

Sejumlah hasil pencarian

ditampilkan

Skenario Alternatif

Langkah 3.1:

Hasil pencarian tidak ditemukan

3.3.5 Skenario Logout

Berikut adalah penjelasan langkah dasar dan kondisi-kondisi yang terjadi saat

administrator menjalankan operasi Logout.

Tabel 3.5 Skenario Use Case Logout

Aktor Administrator

Kondisi awal Administrator sudah melakukan Login

Kondisi akhir Berhasil keluar dari hak akses sebagai

administrator

Aksi Aktor Reaksi Sistem

Skenario Utama

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 56: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

33 

 

Langkah 1:

Menekan tombol untuk keluar

Langkah 2:

Sistem keluar dari halaman admin

Langkah 3:

Administrator kembali pada

halaman utama

3.4 Perancangan Diagram Aktivitas

3.4.1 Diagram Aktivitas Login

Administrator dapat melakukan login dengan cara memasukan username dan

password yang sudah ditentukan. Namun jika username dan password tidak sesuai

maka sistem akan mengembalikan ke halaman yang sama dengan sebelumnya.

Berikut adalah Diagram Aktivitas Login, Gambar 3.4.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 57: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

34 

 

User

Sistem

Gambar 3.4 Diagram Aktivitas Login

3.4.2 Diagram Aktivitas Menambah Dokumen

Setelah Login, Administrator dapat menambah dokumen puisi dengan cara

memasukan judul, lokasi file beserta dokumen puisinya secara langsung pada form

untuk menambah dokumen. Berikut adalah Diagram Menambah Dokumen, pada

Gambar 3.5.

Masukkan username & 

password 

Cek username & 

password

Masuk ke 

halaman utama  

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 58: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

35 

 

User

Sistem

Gambar 3.5 Diagram Aktivitas Menambah Dokumen

3.4.3 Diagram Aktivitas Menambah Tesaurus

Administrator juga dapat menambahkan tesaurus baru pada kamus. Berikut

adalah Diagram Aktivitas Menambah Tesaurus, pada Gambar 3.6.

Masukkan judul & dokumen Salin Dokumen 

Simpan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 59: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

36 

 

User

Sistem

Gambar 3.6 Diagram Aktivitas Menambah Tesaurus

Pilih jenis tesaurus yang 

akan ditambahkan 

Tambah Tesaurus

Simpan 

Masukkan kata dan 

tesaurus baru yang akan 

ditambahkan 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 60: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

37 

 

3.4.4 Diagram Aktivitas Mencari Dokumen

Pengguna dapat mencari dokumen dengan cara memasukan kata kunci yang

diinginkan. Berikut adalah Diagram Aktivitas Mencari Dokumen, Gambar 3.7.

Gambar 3.7 Diagram Aktivitas Mencari Dokumen

User

Sistem

Masukkan kata kunci Operasi 

Teks 

Inverted 

Index 

Cari kata kunci 

Pencarian tidak 

ditemukan

Pencarian ditemukan 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 61: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

38 

 

3.4.5 Diagram Aktivitas Logout

Administrator dapat menghentikan tugasnya menambah dokumen dengan cara

menekan tombol ’logout’, pada Gambar 3.8.

User

Sistem

Gambar 3.8 Diagram Aktivitas Logout

Request logout Keluar dari halaman 

admin 

Halaman utama

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 62: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

39 

 

3.5 Perancangan Diagram Sekuensial

Diagram Sekuensial adalah diagram yang menjelaskan bagaimana suatu

operasi dijalankan secara tahap demi tahap.

3.5.1 Diagram Sekuensial Login

Username dan password yang sudah dilakukan akan divalidasi oleh sistem,

jika sesuai maka administrator akan dihadapkan pada halaman tambah. Berikut

adalah tahapan proses Login, Gambar 3.9

Gambar 3.9 Diagram Sekuensial Login

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 63: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

40 

 

3.5.2 Diagram Sekuensial Menambah Dokumen

Administrator menambahkan dokumen dengan cara memasukan judul dan

dokumen. Sebelum dokumen baru dimasukkan dalam basis data, dokumen tersebut

disalin kembali ke lokasi baru dengan folder yang sesuai dengan ID Dokumen.

Berikut adalah tahapan proses Menambah Dokumen, Gambar 3.10.

Gambar 3.10 Diagram Sekuensial Menambah Dokumen

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 64: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

41 

 

3.5.3 Diagram Sekuensial Menambah Tesaurus

Administrator menambahkan tesaurus dengan cara memasukan judul dan

dokumen. Sebelum dokumen baru dimasukkan dalam basis data, dokumen tersebut

disalin kembali ke lokasi baru dengan folder yang sesuai dengan ID Dokumen.

Berikut adalah tahapan proses Menambah Tesaurus , Gambar 3.11.

Gambar 3.11 Diagram Sekuensial Menambah Tesaurus

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 65: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

42 

 

3.5.4 Diagram Sekuensial Mencari Dokumen

Pengguna dapat mencari dokumen dengan memasukan kata kunci. Pencarian

dilakukan berdasarkan kata kunci dengan menggunakan struktur data Inverted Index.

Berikut adalah tahapan proses Mencari Dokumen, Gambar 3.12.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 66: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

43 

 

Gambar 3.12 Diagram Sekuensial Mencari Dokumen

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 67: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

44 

 

3.5.5 Diagram Sekuensial Logout

Sistem akan memindahkan administrator ke halaman Utama saat menekan

tombol Logout. Berikut adalah tahapan proses Logout, Gambar 3.13.

Gambar 3.13 Diagram Sekuensial Logout

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 68: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

45 

 

3.6 Perancangan Basisdata

3.6.1 Entity Relational Diagram

Berikut adalah Entity Relational Diagram, Gambar 3.14.

Gambar 3.14 Entity Rational Diagram

3.6.2 Relational Model Design Database

Berikut merupakan Relational Model Design, yang menjelaskan model

database untuk tiap table disertai dengan atribut dalam setiap tabel, Gambar 3.15

Gambar 3.15 Relational Model Design

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 69: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

46 

 

3.7 Physical Design Database

3.7.1 Tabel Dictionary

Berikut adalah tabel perancangan implementasi untuk tabel documents beserta

tipe data dan ukuran field yang dimiliki, Table 3.6:

Tabel 3.6 Dictionary

Nama Field  Tipe Data 

INDEX_TERM 

ROOT_WORD 

NUMBER(38,0) 

VARCHAR2(20 BYTE) 

3.7.2 Tabel General Thesaurus

Berikut adalah tabel perancangan implementasi untuk tabel general_thesaurus

beserta tipe data dan ukuran field yang dimiliki, Table 3.7:

Tabel 3.7 General Thesaurus

Nama Field  Tipe Data 

ID_TERM 

INDEX_SYNONYM 

NUMBER(38,0) 

NUMBER(38,0) 

3.7.3 Tabel Poem Thesaurus

Berikut adalah tabel perancangan implementasi untuk tabel poem_thesaurus

beserta tipe data dan ukuran field yang dimiliki, Table 3.8:

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 70: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

47 

 

Tabel 3.8 Poem Thesaurus

Nama Field  Tipe Data 

ID_TERM 

INDEX_THESAURUS 

NUMBER(38,0) 

NUMBER(38,0) 

 

3.7.4 Tabel Stopwords

Berikut adalah tabel perancangan implementasi untuk tabel stopwords beserta

tipe data dan ukuran field yang dimiliki, Table 3.9:

Tabel 3.9 Stopwords

Nama Field  Tipe Data 

ID_STOPWORD 

STOPWORD 

 

NUMBER(38,0) 

VARCHAR2(20 BYTE) 

3.8 Perancangan Inverted Index

Inverted index adalah indeks yang digunakan dalam banyak search engine.

Inverted file index adalah mekanisme untuk pengindeksan kata dari koleksi teks yang

digunakan untuk mempercepat proses pencarian (Baeza Yates;1999). Inverted index

terdiri dari dua bagian, yaitu dictionary dan posting list. Pada sistem ini, dictionary

list diimplementasikan dalam struktur data LinkedList<String> dan posting list dalam

struktur data LinkedList<LinkedList<Integer>>. LinkedList yang berada paling luar

dalam posting list merupakan index dari seluruh dokumen untuk masing-masing kata

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 71: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

48 

 

yang terdapat dalam dictionary list, dan LinkedList yang berada di dalam LinkedList

merupakan frekuensi dari kata tersebut. Sebagai gambaran dari perancangan dapat

dilihat pada Gambar 3.16

Gambar 3.16 Perancangan Inverted Index

Sebagai gambaran, berikut merupakan algoritma dalam pembuatan inverted index

pada sistem ini :

 

1. Jika dictionaryFile.contains(word)){

a. Ambil indeks kata tersebut int idx = dictionaryFile.indexOf(word);

i. Jika (!postingList.get(idx).contains(docID)){

ii. Maka tambahkan indeknya postingList.get(idx).add(docID);

iii. Tambah juga frekuensi yang pertama kali termFrekuensi.get(idx).add(1);

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 72: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

49 

 

}else {

i. Ambil indeks kata int idxDocId = postingList.get(idx).indexOf(docID);

ii. int total = termFrekuensi.get(idx).get(idxDocId).intValue();

iii. total++;

iv. Set total dari indek kata tersebut termFrekuensi.get(idx).set(idxDocId, total);

}

}

} else {

} else {

2. Bila kata tersebut belum ada dalam kamus maka masukkan kata ke dalam kamus

a. dictionaryFile.add(word);

b. Buat array untuk posting LinkedList<Integer> arrDocID = new LinkedList<Integer>();

c. Masukkan docID ke array arrDocID.add(docID);

d. Tambahkan array tersebut ke dalam posting postingList.add(arrDocID);

e. Buat array untuk frekuensi kata-kata LinkedList<Integer> arrayFrekuensi = new LinkedList<Integer>();

f. arrayFrekuensi.add(1);

g. Tambahkan array frekuensi tadi ke dalam termFrekuensi termFrekuensi.add(arrayFrekuensi);

}

}

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 73: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

50 

 

Dalam hal ini, posting list dan dictionary list sebenarnya tidak terhubung,

namun mereka dihubungkan dengan menggunakan index. Index pada algoritma diatas

merupakan idx, yang kemudian akan dicari indexnya sesuai dengan kata(word), yaitu

int idx=dictionaryFile.indexOf(word). Indeks yang telah didapatkan tadi kemudian

akan digunakan untuk mendapatkan posting list.

3.9 Perancangan Diagram Kelas

Perancangan diagram kelas ini adalah sebagai bentuk gambaran untuk melihat

keterhubungan antar kelas pada suatu aplikasi. Dalam sistem yang akan dibangun

terdapat dua aplikasi yaitu Aplikasi Searching dan Aplikasi Indexing.

3.9.1 Aplikasi Indexing

Aplikasi Indexing adalah sistem yang digunakan sebagai pengindeksan, pada Gambar

3.18

Gambar 3.18 Diagram UML: Aplikasi Indexing

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 74: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

51 

 

3.9.2 Aplikasi Searching

Aplikasi Searching adalah sistem yang digunakan sebagai pencarian

dokumen, pada Gambar 3.17.

3.9.1.2 Package textoperation

 

Gambar 3.17 Diagram UML: Aplikasi Searching: textoperation

3.10 Perancangan Antar Muka

Sistem yang akan dibangun adalah sistem yang sudah memiliki kelengkapan

GUI(Graphical user interface), yaitu sistem tersebut sudah memiliki tampilan grafis

sehingga memudahkan pengguna dalam berinteraksi dalam menjalankan segala

perintah yang sudah disediakan. Tampilan yang akan digunakan dalam melakukan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 75: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

52 

 

interaksi adalah sebagai berikut; Halaman Pencarian, Halaman Menambah Dokumen

dan Halaman Login.

3.10.1 Perancangan Antar Muka Halaman Login

Pada halaman login, admin harus memasukkan username dan password yang

telah disediakan, pada Gambar 3.19.

 

Gambar 3.19 Halaman Login

3.10.2 Perancangan Antar Muka Halaman Tambah Dokumen

Pada halaman tambah dokumen, admin harus mengisi judul puisi, dan puisi

yang akan ditambahkan, pada Gambar 3.20.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 76: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

53 

 

Gambar 3.20 Halaman Tambah Dokumen

3.10.2 Perancangan Antar Muka Halaman Tambah Tesaurus

Pada halaman Tambah Tesaurus, admin harus memilih terlebih dahulu

jenis thesaurus yang akan ditambahkan, kemudian memasukkan kata yang akan

ditambahkan thesaurusnya. Tombol cek thesaurus berguna untuk melihat thesaurus

apa saja yang telah dimiliki oleh kata tersebut, pada Gambar 3.21

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 77: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

54 

 

Gambar 3.21 Halaman Tambah Tesaurus

3.10.2 Perancangan Antar Muka Halaman Pencarian

Pada halaman pencarian, disediakan field untuk mengisi kata kunci dan 3

pilihan pencarian, pengguna dapat memilih pencarian sesuai dengan kebutuhan. Dan

digunakan tombol search untuk mengeksekusi kata pencarian tersebut, pada Gambar

3.22.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 78: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

55 

 

Gambar 3.22 Halaman Pencarian. Sebelum dilakukan Pencarian

Setelah pencarian dieksekusi, maka hasil pencarian akan ditampilkan. Hasil

pencarian berupa indek dokumen beserta bobot dokumen, pada gambar 3.23.

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 79: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

56 

 

Gambar 3.23 Halaman Pencarian. Setelah Hasil Pencarian ditemukan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 80: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

57 

 

BAB IV

IMPLEMENTASI SISTEM

4.1 Implementasi Program

4.1.1 Proses Inverted Index

` Listing program dibawah ini merupakan implementasi sesuai dengan

perancangan inverted index yang telah dibuat. Method processWord() merupakan

proses pencarian kata sebelum dapat sebuah kata ditempatkan pada tempatnya

masing-masing, baik dalam dictionaryFile maupun postingList, listing 4.1

  public void processWord(String word, int docID) {//proses mencari kata tertentu 

        if (dictionaryFile.contains(word)) {//jika dalam kamus mengandung kata tsb 

            int idx = dictionaryFile.indexOf(word);//maka ambil indek kata tsb dari 

dictionaryFile 

 

            if (!postingList.get(idx).contains(docID)) {//jika dalam posting tidak ada indek 

dari kata tsb 

                postingList.get(idx).add(docID);//maka tambahkan dulu 

                termFrekuensi.get(idx).add(1);// dan tambahkan juga frekuensinya yang 

pertama kali yaitu 1 

 

            } else {//jika kata tersebut ada dalam posting 

                int idxDocId = postingList.get(idx).indexOf(docID);//ambil di indeks ke brp 

kata tsb yang ada di posting 

                int total = termFrekuensi.get(idx).get(idxDocId).intValue();//hitung seluruh 

jumlah frekuensi kata tersebut baik dalam dictionaryFile maupun posting 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 81: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

58 

 

Listing program 4.1 Proses Inverted Index

Dalam sistem ini, proses indexing dilakukan oleh Admin setiap kali

menambah dokumen baru. Hasil dari proses indexing akan disimpan di dalam sebuah

obj file. Yang kemudian nanti akan digunakan untuk proses searching.

                  total++;//jika ada yang baru tinggal tambah total 

                termFrekuensi.get(idx).set(idxDocId, total);//set total daripada indek kata tsb 

            } 

        } else {//jika dalam kamus tidak ada kata tsb 

            dictionaryFile.add(word);//masukkan kata ke dalam kamus 

            LinkedList<Integer> arrDocID = new LinkedList<Integer>();// buat array untuk 

posting 

            arrDocID.add(docID);//lalu masukkan docID nya ke array tadi 

            postingList.add(arrDocID);//lalu tambahlah array tadi ke posting 

            LinkedList<Integer> arrayFrekuensi = new LinkedList<Integer>();//buat array 

untuk frekuensi kata2 

            arrayFrekuensi.add(1);//tambahkan 1 untuk pertama kali menambah 

            termFrekuensi.add(arrayFrekuensi);//tambah array frekuensi tadi ke 

termfrekuensi 

        } 

    } 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 82: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

59 

 

4.1.2 Proses Perluasan Kueri pada QE

Dalam proses ini, kata kunci akan diterjemahkan menjadi lebih luas sehingga

dapat menghasilkan banyak data yang semakin relevan. Menggunakan method

rekursif kombinasi kata pada listing program 4.2, yaitu digunakan untuk

menggabungkan seluruh kata yang ada dalam list.

Listing program 4.2 Query Expansion

4.1.3 Proses Searching

Pencarian dokumen puisi dicari berdasarkan kata kunci yang telah di inputkan

dan jenis pencarian yang dipilih oleh user. Proses pencarian dokumen dijalankan

melalui method querying_1, querying_2 dan querying_3. Perbedaan method ini

hanya terletak pada looping pertama pada seluruh method querying, dimana method

querying_1 merupakan pencarian tanpa QE, querying_2 merupakan pencarian

public class QueryExpansion { 

            public void kombinasiKata(List<List<String>> kata, int indeks, List<String> hasil, 

String tempHasil) { 

        if (indeks == kata.size() ‐ 1) { 

            for (int i = 0; i < kata.get(indeks).size(); i++) { 

                String temp = tempHasil + " " + kata.get(indeks).get(i) + ""; 

                hasil.add(temp); } 

        } else { 

            for (int i = 0; i < kata.get(indeks).size(); i++) { 

                String temp = tempHasil + "" + kata.get(indeks).get(i); 

                kombinasiKata(kata, indeks + 1, hasil, temp);      }  }  } } 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 83: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

60 

 

thesaurus umum, dan querying_3 merupakan pencarian thesaurus konteks puisi,

ditunjukkan pada ketiga listing di bawah ini,

Listing program 4.3 Querying_1

Listing program 4.4 Querying_2

Listing program 4.5 Querying_3

for (int i = 0; i < katas.length; i++) { 

            String string = katas[i]; 

            steam.setWord(string); 

            string = steam.getWord(); 

            katas[i] = string; 

            kata.add(con.get_Tesaurus_Umum(string));} 

for (int i = 0; i < katas.length; i++) { 

            String string = katas[i]; 

            steam.setWord(string); 

            string = steam.getWord(); 

            katas[i] = string; 

            kata.add(con.get_Tesaurus_Puisi (string));   } 

for (int i = 0; i < katas.length; i++) { 

            String string = katas[i]; 

            steam.setWord(string); 

            string = steam.getWord(); 

            katas[i] = string; 

            kata.add(string);} 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 84: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

61 

 

Secara keseluruhan untuk ketiga method ini memiliki tahapan yang sama.

Kemudian setelah didapatkan seluruh dokumen beserta bobotnya. Hasil tersebut akan

melewati proses penjumlahan seluruh dokumen pada listing dibawah ini, yaitu

apabila pencarian dengan kueri lebih dari 1 maka hasil/bobot dari dokumen akan

ditambah, untuk masing-masing kata, maupun kata dengan kombinasi kata.

Kemudian setelah dijumlahkan, hasil seluruh dokumen yang muncul, akan di urutkan

berdasarkan bobot, Listing 4.6.

Listing program 4.6 Proses Penjumlahan

LinkedList<Object[]> hasilKombinasi = new LinkedList<Object[]>(); 

        for (int m = 0; m < hasilSemuaKueri.size(); m++) { 

            LinkedList<Object[]> linkedList = hasilSemuaKueri.get(m); 

            for (int j = 0; j < linkedList.size(); j++) { 

                Object[] gabungan = linkedList.get(j); 

                boolean baru = true; 

                for (int k = 0; k < hasilKombinasi.size(); k++) { 

                    Object[] objects1 = hasilKombinasi.get(k); 

                    if (objects1[0] == gabungan[0]) { 

                        baru = false; 

                        float a1 = (Float) gabungan[1]; 

                        float a2 = (Float) objects1[1]; 

                        objects1[1] = a1 + a2; } } 

                if (baru) { 

                    hasilKombinasi.add(gabungan); } } }

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 85: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

62 

 

Seluruh hasil akhir dokumen, kemudian akan diurutkan berdasarkan bobot,

diimplementasikan pada listing dibawahi ini :

Listing program 4.7 Proses Pengurutan Dokumen

 LinkedList<Object[]> hasilSortKombinasi = new LinkedList<Object[]>(); 

        while (hasilKombinasi.size() > 0) { 

            float max = Float.MIN_VALUE; 

            int index = ‐1; 

            for (int n = 0; n < hasilKombinasi.size(); n++) { 

                Object[] objects = hasilKombinasi.get(n); 

 

                if ((Float) objects[1] > max) { 

                    index = n; 

                    max = (Float) objects[1]; 

                } 

            } 

            hasilSortKombinasi.add(hasilKombinasi.remove(index)); 

        } 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 86: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

63 

 

4.3 Implementasi Antar Muka

Sebagai media yang dapat mempermudah pengguna dalam berinteraksi dalam

menggunakan sistem maka GUI(Graphical User Interface) dibuat bersadarkan

perancangan yang sebelumnya ditentukan.

4.3.1 Halaman Login

Pengguna dapat akses sebagai administrator dengan cara memasukan

username dan password yang sudah ditentukan, Gambar 4.1.

Gambar 4.1 GUI:Halaman Login

4.3.2 Halaman Tambah Dokumen

Agar mudah untuk menambah koleksi dokumen, maka pada Halaman Tambah

Dokumen ini administrator cukup memasukan judul dan dapat langsung menuliskan

puisi yang akan ditambah ke dalam koleksi, Gambar 4.2

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 87: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

64 

 

Gambar 4.2 GUI: Halaman Tambah Dokumen

4.3.3 Halaman Tambah Tesaurus

Pada halaman Tambah Tesaurus, admin harus memilih terlebih dahulu jenis thesaurus

yang akan ditambahkan, kemudian memasukkan kata yang akan ditambahkan

thesaurusnya. Tombol cek thesaurus berguna untuk melihat thesaurus apa saja yang

telah dimiliki oleh kata tersebut, pada Gambar 3.21

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 88: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

65 

 

Gambar 4.3 GUI: Halaman Tambah Tesaurus

4.3.4 Halaman Pencarian

Untuk dapat melakukan pencarian pengguna dapat berinteraksi dengan

Halaman Pencarian, Gambar 4.4, namun sebelum dapat menampilkan hasil pencarian

pengguna diminta untuk memasukan kata kunci yang diinginkan, dan memilih jenis

pencarian, yaitu A, B atau C. Jenis pencarian hanya diberikan dengan huruf saja

untuk obyektifitas pencarian. Kemudian hasil pencarian akan ditampilkan dalam

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 89: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

66 

 

sebuah tabel, dan pengguna dapat langsung membaca puisi yang dicari dengan double

klik pada judul puisi, Gambar 4.5.

Gambar 4.4 GUI: Halaman Pencarian

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 90: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

67 

 

 

 

Gambar 4.5 GUI: Halaman Hasil Pencarian

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 91: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

68 

 

BAB V

ANALISA HASIL

Bagian ini menjelaskan mengenai sistematika dan hasil dari pengujian.

5.1 Analisa Hasil Sistem

Pada tahap pengujian ini, akan dijelaskan mengenai sistematika dan analisa

hasil dari pengujian. Pengujian ini dilaksanakan oleh 5(lima) responden yang

memiliki ketertarikan dan pengetahuan mengenai puisi. Responden kemudian diminta

menjalankan proses pencarian. Kemudian responden akan mengisi kuesioner untuk

menentukan puisi yang relevan maupun tidak relevan pada seluruh dokumen yang

terdapat dalam koleksi. Jumlah dokumen yang tersedia adalah 101 dokumen. Pada

saat pengujian, sebenarnya responden menguji 3 sistem yaitu, sistem A, B dan C.

Responden tidak mengetahui bahwa sistem A adalah sistem pemerolehan informasi

tanpa QE, sistem B adalah sistem pemerolehan informasi menggunakan QE

berdasarkan thesaurus umum, dan sistem C adalah sistem pemerolehan informasi

menggunakan QE berdasarkan thesaurus konteks puisi. Hal ini dimaksudkan agar

responden tetap obyektif saat hendak melakukan pencarian.

5.1.1 Responden Pertama

Nama : Arif Widodo

Kata Kunci : Perjuangan

a. Pengujian Sistem A

Dokumen ditemukan : 4

Dokumen relevan : 4

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 92: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

69 

 

Dokumen relevan dari seluruh dokumen : 19

Pada tabel 5.1, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 4, jumlah dokumen yang relevan

pada saat pengujian adalah 4 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 19.

Tabel 5.1 Recall Precision Sistem A

Berdasarkan perhitungan recall dan precision pada tabel 5.1, maka

dibuatlah 11 titik interpolasi recall dan precision sistem A, pada tabel 5.2.

Tabel 5.2 Interpolasi Recall Precision Sistem A

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 93: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

70 

 

b. Pengujian Sistem B

Dokumen ditemukan : 9

Dokumen relevan : 7

Dokumen relevan dari seluruh dokumen : 19

Pada tabel 5.3, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 9, jumlah dokumen yang relevan

pada saat pengujian adalah 7 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 19.

Tabel 5.3 Recall Precision Sistem B

Berdasarkan perhitungan recall dan precision pada tabel 5.3, maka

dibuatlah 11 titik interpolasi recall dan precision sistem A, pada tabel 5.4.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 94: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

71 

 

Tabel 5.4 Interpolasi Recall Precision Sistem B

b. Pengujian Sistem C

Dokumen ditemukan : 30

Dokumen relevan : 13

Dokumen relevan dari seluruh dokumen : 19

Pada tabel 5.5, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 30, jumlah dokumen yang relevan

pada saat pengujian adalah 13 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 19.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 95: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

72 

 

Tabel 5.5 Recall Precision Sistem C

Berdasarkan perhitungan Recall and Precision, Tabel 5.5, dapat dihitung 11

titik untuk mencari Interpolasi dari sistem A, B dan C. Kemudian di

representasikan melalui grafik pada gambar 5.1.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 96: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

73 

 

Tabel 5.6 Interpolasi Recall Precision Sistem C

Gambar 5.1 Interpolasi: Responden Pertama

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 97: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

74 

 

Analisa :

Pada gambar diatas, sistem A langsung memperoleh 3 nilai 100%

untuk precision pada recall 0%-20%, namun langsung berakhir di nilai

precision 0% untuk recall seterusnya yaitu 30%-100%.

Pada sistem B, untuk nilai precision 100% ada pada recall 0%-10%,

menurun menjadi 88% pada recall 20%-30%, dan diakhiri dengan nilai

precision 0% pada recall 40%-100%

Pada sistem C, di nilai recall ke 0%-20% diperoleh nilai precision

100%, terus menurun hingga di recall ke 60% dengan nilai precision 52%.

Dan pada titik recall 70%-100% ditutup dengan nilai precision 0%.

Dapat dibandingkan bahwa sistem C lebih baik dibandingkan sistem A

dan B, sistem A dan B mengembalikan dokumen relevan cukup jauh

dibandingkan dengan sistem C yang mengembalikan 13 dokumen relevan dari

19 dokumen relevan menurut responden, sedangkan sistem A hanya

mengembalikan 4 dokumen dan sistem B mengembalikan 7 dokumen. Sistem

C menggunakan perluasan kueri “darah, api, maju” sehingga memungkinkan

kemunculan lebih banyak dokumen.

5.1.2 Responden Kedua

Nama : Armada Nurliansyah

Kata Kunci : Alam

a. Pengujian Sistem A

Dokumen ditemukan : 4

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 98: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

75 

 

Dokumen relevan : 3

Dokumen relevan dari seluruh dokumen : 22

Pada tabel 5.7, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 4, jumlah dokumen yang relevan

pada saat pengujian adalah 3 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 22.

Tabel 5.7 Recall Precision Sistem A

Berdasarkan perhitungan recall dan precision pada tabel 5.7, maka

dibuatlah 11 titik interpolasi recall dan precision sistem A, pada tabel 5.8.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 99: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

76 

 

Tabel 5.8 Interpolasi Recall Precision Sistem A

b. Pengujian Sistem B

Dokumen ditemukan :19

Dokumen relevan : 7

Dokumen relevan dari seluruh dokumen : 22

Pada tabel 5.9, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 19, jumlah dokumen yang relevan

pada saat pengujian adalah 7 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 22.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 100: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

77 

 

Tabel 5.9 Recall Precision Sistem B

Berdasarkan perhitungan recall dan precision pada tabel 5.9, maka

dibuatlah 11 titik interpolasi recall dan precision sistem B, pada tabel 5.10.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 101: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

78 

 

Tabel 5.10 Interpolasi Recall Precision Sistem B

b. Pengujian Sistem C

Dokumen ditemukan : 30

Dokumen relevan : 15

Dokumen relevan dari seluruh dokumen : 22

Pada tabel 5.11, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 30, jumlah dokumen yang relevan

pada saat pengujian adalah 15 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 22.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 102: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

79 

 

Tabel 5.11 Recall Precision Sistem C

Berdasarkan perhitungan Recall and Precision, Tabel 5.11, dapat dihitung 11

titik untuk mencari Interpolasi dari sistem A, B dan C. Kemudian di

representasikan melalui grafik pada gambar 5.2.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 103: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

80 

 

Tabel 5.12 Interpolasi Recall Precision Sistem C

Gambar 5.2 Interpolasi: Responden Kedua

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 104: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

81 

 

Analisa :

Pada gambar diatas, sistem A memperoleh nilai precision 100% hanya

pada titik recall 0%. Turun pada nilai 75% pada recall 10%, dan selanjutnya

turun pada nilai 0% hingga recall 100%.

Pada sistem B, nilai precision terbesar hanya pada nilai 50% pada

recall 0%, terus mengalami penurunan hingga recall 30% pada nilai precision

37%, dan berakhir dengan nilai 0% pada recall 40%-100%.

Pada sistem C, nilai precision terbesar sedikit lebih baik daripada

sistem B yaitu 63% berada pada titik recall 0%-20%, kemudian menurun

dengan 58% pada recall 30%-50%, dan 54% pada recall 60%, ditutup dengan

0% pada recall 70%-100%. Walaupun dengan nilai precision stabil di rata-rata

nilai sekitar 63%. Sistem C jauh lebih baik daripada sistem A dan B, karena

berhasil memunculkan lebih banyak dokumen, dan dokumen relevan lebih

banyak.

5.1.3 Responden Ketiga

Nama : Agus Agung Pribadi

Kata Kunci : Kemanusiaan

a. Pengujian Sistem A

Dokumen ditemukan : 13

Dokumen relevan : 10

Dokumen relevan dari seluruh dokumen : 47

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 105: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

82 

 

Pada tabel 5.13, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 13, jumlah dokumen yang relevan

pada saat pengujian adalah 10 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 47.

Tabel 5.13 Recall Precision Sistem A

 

Berdasarkan perhitungan recall dan precision pada tabel 5.13, maka

dibuatlah 11 titik interpolasi recall dan precision sistem a, pada tabel 5.14.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 106: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

83 

 

Tabel 5.14 Interpolasi Recall Precision Sistem A

b. Pengujian Sistem B

Dokumen ditemukan : 21

Dokumen relevan : 18

Dokumen relevan dari seluruh dokumen : 47

Pada tabel 5.15, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 21, jumlah dokumen yang relevan

pada saat pengujian adalah 18 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 47.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 107: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

84 

 

Tabel 5.15 Recall Precision Sistem B

Berdasarkan perhitungan recall dan precision pada tabel 5.15, maka

dibuatlah 11 titik interpolasi recall dan precision sistem A, pada tabel 5.16.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 108: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

85 

 

Tabel 5.16 Interpolasi Recall Precision Sistem B

b. Pengujian Sistem C

Dokumen ditemukan : 27

Dokumen relevan : 20

Dokumen relevan dari seluruh dokumen : 47

Pada tabel 5.17, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 27, jumlah dokumen yang relevan

pada saat pengujian adalah 20 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 47.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 109: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

86 

 

Tabel 5.17 Recall Precision Sistem C

Berdasarkan perhitungan Recall and Precision, Tabel 5.17, dapat dihitung 11

titik untuk mencari Interpolasi dari sistem A, B dan C. Kemudian di

representasikan melalui grafik pada gambar 5.3.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 110: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

87 

 

Tabel 5.18 Interpolasi Recall Precision Sistem C

Gambar 5.3 Interpolasi: Responden Ketiga

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 111: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

88 

 

c. Pengujian Sistem B (revisi)

Dokumen ditemukan : 23

Dokumen relevan : 19

Dokumen relevan dari seluruh dokumen : 47

Pada tabel 5.19, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 23, jumlah dokumen yang relevan

pada saat pengujian adalah 19 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 47.

Tabel 5.19 Recall Precision Sistem B

 

Berdasarkan perhitungan recall dan precision pada tabel 5.19, maka

dibuatlah 11 titik interpolasi recall dan precision sistem A, pada tabel 5.20.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 112: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

89 

 

Tabel 5.20 Interpolasi Recall Precision Sistem B

 

 

c. Pengujian Sistem C (revisi)

Dokumen ditemukan : 49

Dokumen relevan : 35

Dokumen relevan dari seluruh dokumen : 47

Pada tabel 5.21, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 49, jumlah dokumen yang relevan

pada saat pengujian adalah 35 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 47.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 113: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

90 

 

Tabel 5.21 Recall Precision Sistem C

      

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 114: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

91 

 

Berdasarkan perhitungan Recall and Precision, Tabel 5.21, dapat dihitung 11

titik untuk mencari Interpolasi dari sistem A, B dan C. Kemudian di

representasikan melalui grafik pada gambar 5.4.

Tabel 5.22 Interpolasi Recall Precision Sistem C

Gambar 5.4 Interpolasi: Responden Ketiga(revisi)

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 115: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

92 

 

Analisa :

Pada gambar diatas, sistem A memperoleh nilai precision 100% hanya

pada titik recall ke 0%, terus menurun pada recall ke 20% dengan nilai

precision 77%, dan langsung berakhir dengan 0% pada recall 100%.

Ditemukan 10 dokumen saja dari 13 dokumen yang dikembalikan oleh sistem

A, dari 47 dokumen yang relevan dari seluruh dokumen.

Pada sistem B, nilai precision 100% diperoleh pada recall 0%-10%,

menurun hingga nilai precision 86% pada recall 30% dan langsung berakhir

di nilai precision 0% sampai recall ke 100%. Ditemukan 18 dokumen relevan

dari 21 dokumen yang dikembalikan oleh sistem B, dari 47 dokumen yang

relevan dari seluruh dokumen.

Pada sistem C, untuk recall 0%-10% diperoleh nilai precision 100%,

terus menurun hingga titik recall 50% pada nilai precision 78% dan langsung

berakhir dengan 0% pada recall 50%-100%. Ditemukan 20 dokumen relevan

dari 27 dokumen yang dikembalikan oleh sistem C, dari 47 dokumen yang

relevan dari seluruh dokumen. Grafik menunjukkan sistem B memiliki nilai

precision sedikit lebih tinggi dibandingkan sistem C meskipun sistem C

mengembalikan 2 dokumen lebih banyak. Hal ini dikarenakan untuk query

“kemanusiaan” pada sistem B yang menggunakan thesaurus umum “orang,

khalayak, umat”, menurut responden, lebih banyak memunculkan dokumen

relevan. Dari hasil pada sistem C yang menggunakan thesaurus “ibu, anak,

darah” hanya menemukan dokumen relevan 20 dari 47 dokumen relevan

menurut responden, ditemukan bahwa 27 dokumen lainnya menurut

responden memang masuk dalam topik kemanusiaan, karena responden

mendefinisikan kemanusiaan yaitu manusia dengan segala kompleksitasnya,

tidak hanya berbicara tentang masalah sosial seperti ketidakadilan, kekerasan,

dan lain-lain. Sehingga banyak puisi yang dapat masuk dalam topik

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 116: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

93 

 

kemanusiaan. Kemudian setelah diteliti lagi, ternyata thesaurus umum dan

thesaurus konteks puisi yang disediakan belum cukup membantu dalam

menemukan dokumen relevan lebih banyak, maka ditambahkan 3 thesaurus

tambahan lagi pada kedua sistem tersebut, yaitu untuk sistem B(revisi) diberi

thesaurus “sosok, insan, makhluk” dan sistem C(revisi) diberi thesaurus

“mati, hati, merdeka” dan setelah dilakukan perhitungan recall precision

kembali, grafik interpolasi pada gambar menunjukkan perbaikan pada sistem

B dan C.

5.1.4 Responden Keempat

Nama : Muhammad Sodhiq

Kata Kunci : Cinta

a. Pengujian Sistem A

Dokumen ditemukan : 22

Dokumen relevan : 13

Dokumen relevan dari seluruh dokumen : 26

Pada tabel 5.23, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 22, jumlah dokumen yang relevan

pada saat pengujian adalah 13 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 26.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 117: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

94 

 

Tabel 5.23 Recall Precision Sistem A

Berdasarkan perhitungan recall dan precision pada tabel 5.23, maka

dibuatlah 11 titik interpolasi recall dan precision sistem A, pada tabel 5.24.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 118: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

95 

 

Tabel 5.24 Interpolasi Recall Precision Sistem A

b. Pengujian Sistem B

Dokumen ditemukan : 24

Dokumen relevan : 13

Dokumen relevan dari seluruh dokumen : 26

Pada tabel 5.25, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 24, jumlah dokumen yang relevan

pada saat pengujian adalah 13 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 26.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 119: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

96 

 

Tabel 5.25 Recall Precision Sistem B

Berdasarkan perhitungan recall dan precision pada tabel 5.25, maka

dibuatlah 11 titik interpolasi recall dan precision sistem B, pada tabel 5.26.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 120: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

97 

 

Tabel 5.26 Interpolasi Recall Precision Sistem B

b. Pengujian Sistem C

Dokumen ditemukan : 28

Dokumen relevan : 19

Dokumen relevan dari seluruh dokumen : 26

Pada tabel 5.27, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 28, jumlah dokumen yang relevan

pada saat pengujian adalah 19 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 26.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 121: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

98 

 

Tabel 5.27 Recall Precision Sistem C

Berdasarkan perhitungan Recall and Precision, Tabel 5.27, dapat dihitung 11

titik untuk mencari Interpolasi dari sistem A, B dan C. Kemudian di

representasikan melalui grafik pada gambar 5.5.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 122: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

99 

 

Tabel 5.28 Interpolasi Recall Precision Sistem C

Gambar 5.5 Interpolasi: Responden Keempat

Pada gambar 5.5 Diatas, sistem A memperoleh nilai precision 100%

dari nilai recall 0-10%. Kemudian berturut-turut menurun dari recall 20%-

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 123: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

100 

 

50% dengan nilai precision 86%, 80%, 67%, 62%. Dan pada recall 60%-

100% diakhiri dengan nilai precision 0%.

Pada sistem B, diperoleh nilai precision 100% hanya pada nilai recall 0%.

Kemudian menurun nilai precision menjadi 75% pada recall ke 10%-20%.

Terus menurun hingga nilai precision 0% pada recall ke 60%-100%.

Pada sistem C, nilai precision 100% diperoleh hanya pada nilai recall 0%.

Namun ditemukan pada recall ke 10%-60%, nilai precision stabil di nilai

94%. Kemudian turun pada nilai recall 70% dengan precision 73%. Dan

berakhir dengan nilai precision 0% pada recall 80%-100%. Dapat

dibandingkan bahwa sistem C jauh lebih baik daripada sistem A dan B, namun

ternyata sistem A masih lebih baik daripada sistem B. Sistem A dan sistem B

mengembalikan sama-sama mengembalikan 13 dokumen relevan, namun nilai

precision sistem A lebih tinggi. Sistem C menggunakan perluasan kueri

“madu, bunga, bibir” memungkinkan kemunculan banyak dokumen dan hasil

relevan yang lebih banyak. Diketahui bahwa dokumen relevan menurut

responden pada sistem C ada 19, sedangkan ada 26 dokumen relevan dari

seluruh dokumen.

5.1.5 Responden Kelima

Nama : Muhammad Qadhafi

Kata Kunci : Politik

a. Pengujian Sistem A

Dokumen ditemukan : 3

Dokumen relevan : 2

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 124: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

101 

 

Dokumen relevan dari seluruh dokumen : 22

Pada tabel 5.29, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 3, jumlah dokumen yang relevan

pada saat pengujian adalah 2 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 22.

Tabel 5.29 Recall Precision Sistem A

Berdasarkan perhitungan recall dan precision pada tabel 5.29, maka

dibuatlah 11 titik interpolasi recall dan precision sistem A, pada tabel 5.30.

Tabel 5.30 Interpolasi Recall Precision Sistem A

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 125: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

102 

 

b. Pengujian Sistem B

Dokumen ditemukan : 4

Dokumen relevan : 2

Dokumen relevan dari seluruh dokumen : 22

Pada tabel 5.31, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 4, jumlah dokumen yang relevan

pada saat pengujian adalah 2 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 22.

Tabel 5.31 Recall Precision Sistem B

 

Berdasarkan perhitungan recall dan precision pada tabel 5.31, maka

dibuatlah 11 titik interpolasi recall dan precision sistem B, pada tabel 5.32.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 126: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

103 

 

Tabel 5.32 Interpolasi Recall Precision Sistem B

b. Pengujian Sistem C

Dokumen ditemukan : 11

Dokumen relevan : 9

Dokumen relevan dari seluruh dokumen : 22

Pada tabel 5.33, dihitung recall dan precision setelah mengetahui

jumlah dokumen yang ditemukan adalah 11, jumlah dokumen yang relevan

pada saat pengujian adalah 9 dan jumlah dokumen yang relevan dari seluruh

dokumen adalah 22.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 127: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

104 

 

Tabel 5.33 Recall Precision Sistem C

Berdasarkan perhitungan Recall and Precision, Tabel 5.33, dapat dihitung 11

titik untuk mencari Interpolasi dari sistem A, B dan C. Kemudian di

representasikan melalui grafik pada gambar 5.6.

Tabel 5.34 Interpolasi Recall Precision Sistem B

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 128: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

105 

 

Gambar 5.6 Interpolasi: Responden Kelima

Analisa :

Pada gambar diatas, sistem A dan B sama-sama belum pernah

mencapai nilai precision 100%, keduanya sama-sama hanya memperoleh 1

buah nilai precision pada titik recall 0% yaitu sistem A pada 67% dan B pada

50%, langsung berakhir dengan nilai precision 0% pada recall ke 10%-100%.

Sistem A mengembalikan 3 dokumen dengan 2 dokumen relevan menurut

responden, dan sistem B  mengembalikan 4 dokumen dengan 2 dokumen

relevan menurut responden. Padahal ada 22 dokumen relevan dari seluruh

dokumen, hal ini disebabkan karena sangat jarang ditemukan puisi yang

bertema politik menggunakan kata politik. Begitu juga pada sistem B yang

menggunakan perluasan query “tatanegara, kebijakan, strategi”, juga sama

sekali tidak menemukan ketiga kata tersebut untuk membantu menemukan

dokumen relevan yang lebih banyak. Hal ini disebabkan mungkin untuk puisi-

puisi bertopik politik dalam dokumen puisi yang disediakan jarang sekali

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 129: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

106 

 

menggunakan kata politik itu sendiri maupun sinonim dari kata politik, tetapi

menggunakan metafor tertentu untuk mengungkapkan sebuah puisi yang

bertema politik.

Pada sistem C, diperoleh nilai precision 100% pada recall 0%-10%,

kemudian menurun hingga pada nilai precision 82% pada recall 30%-40%,

dan berakhir dengan nilai precision 0% pada recall 50%-100%. Sistem C

mengembalikan dokumen relevan lebih banyak dari sistem A dan B. Sehingga

dapat dibandingkan bahwa sistem C lebih baik daripada sistem A dan B.

Tabel dibawah ini merupakan tabel rata-rata dari 5 data interpolasi

sistem A, B dan C. Hal ini dimaksudkan agar dapat membandingkan sistem A,

B dan C yang memiliki nilai interpolasi precision terbaik dalam pengujian ini.

Setelah itu digambarkan dalam bentuk grafik pada gambar.

Tabel 5.35 Rata-rata Interpolasi Recall Precision Sistem A, B dan C

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 130: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

107 

 

Gambar 5.7 Perbandingan Grafik Interpolasi 11 titik rata-rata Sistem A, B,

dan C

Dengan melihat gambar 5.6 dapat diketahui bahwa sistem B dan C

lebih baik dibandingkan dengan sistem A. Hal ini menunjukkan tingkat

relevansi sistem yang menggunakan QE jauh lebih baik. Namun pada kurva

sistem A dan C merupakan yang terdekat dengan sudut kanan grafik.

Walaupun sistem B membantu memungkinkan kemunculan banyak dokumen,

ternyata juga banyak memunculkan dokumen yang tidak relevan. Sebaliknya,

sistem A memunculkan sedikit dokumen, namun terkadang lebih banyak

dokumen yang dianggap relevan. Dapat dilihat nilai perbaikan rata-rata

precision dari sistem A ke B hanya 3%, jauh lebih signifikan perbandingannya

pada sistem A dan sistem C dengan 25% nilai perbaikan rata-rata precision,

begitu juga sistem B dan sistem C dengan 22% nilai perbaikan rata-rata

precision.

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 131: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

108 

 

Sistem B dan C yang menggunakan perluasan kueri yaitu QE,

sehingga dapat memungkinkan kemunculan dokumen lebih banyak, dan juga

dokumen relevan lebih banyak. Penggunaan QE pada sistem pemerolehan

informasi pencarian puisi ini memang dirasa membantu dalam pencarian

dokumen puisi, namun ada beberapa resiko yang perlu diperhatikan, yaitu

nilai recall maupun precision yang cukup rendah.

Hal ini disebabkan karena tidak selalu sebuah puisi yang memiliki topik

politik misalnya, dapat mengandung kata politik itu sendiri, ataupun sinonim

dari politik itu sendiri. Bisa jadi kata politik dalam sebuah puisi dapat

menggambarkan puisi itu masuk dalam topik lain. Kebanyakan puisi-puisi

menggunakan kata unik, atau metafora-metafora tertentu untuk

menggambarkan sebuah puisi dapat masuk dalam topik tertentu. Misalnya

pada puisi dibawah ini:

AKULAH SI TELAGA

Sapardi Djoko Damono

akulah si telaga: berlayarlah di atasnya;

berlayarlah menyibakkan riak-riak kecil yang menggerakkan

bunga-bunga padma;

berlayarlah sambil memandang harumnya cahaya;

sesampai di seberang sana, tinggalkan begitu saja

-- perahumu biar aku yang menjaganya 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 132: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

109 

 

Metafora yang terdapat pada puisi diatas merupakan ‘si telaga’, si

telaga pada puisi ini dapat diartikan seseorang, atau dapat juga diartikan alam

itu sendiri. Puisi ini sebenarnya dapat mengartikan sebuah pengorbanan cinta

seseorang atau juga pengorbanan dari alam untuk manusia.

Selain itu, puisi sebenarnya bersifat subjektif dan multi-interpretasi,

seperti contoh puisi diatas, puisi tersebut sebenarnya dapat masuk ke dalam

dua tema, yaitu cinta dan alam. Maka penilaian sebuah puisi dapat masuk

dalam topik tertentu sangat tergantung dari pandangan maupun pengetahuan

dari pembaca itu sendiri. Sebuah puisi misalnya bagi seseorang dapat masuk

dalam topik alam, namun belum tentu bagi orang lain puisi tersebut dapat

masuk dalam topik alam. Sifat dari puisi tersebutlah yang secara tidak

langsung mempengaruhi hasil recall maupun precision pada ketiga sistem

pemerolehan informasi pencarian puisi. Pada sistem B dan C yang

menggunakan perluasan kueri, nilai recall yang dihasilkan cukup tinggi dan

kemungkinan precisionnya cenderung baik daripada sistem A. Untuk

meningkatkan nilai recall dan precision pada sistem B dan C dapat

menambahkan daftar thesaurus pada kamus thesaurus di database.

 

 

 

 

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 133: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

110 

 

BAB VI

KESIMPULAN DAN SARAN

6.1 Kesimpulan

Sistem pemerolehan informasi puisi yang menggunakan metode query

expansion berdasarkan thesaurus dalam pencarian dokumen puisi, berhasil

dikembangkan dengan koleksi dokumen sebanyak 101 dokumen, dan menggunakan

thesaurus sebanyak 100 persamaan kata. Dari hasil pengujian recall dan precision,

sistem pemerolehan informasi puisi yang menggunakan metode query expansion

mempunyai tingkat relevansi lebih baik dibandingkan sistem pemerolehan informasi

biasa. Sehingga penggunaan QE yang menggunakan thesaurus pada sistem

pemerolehan informasi pencarian puisi dapat lebih membantu dalam pencarian

dokumen puisi. Terbukti pada kurva 11 titik interpolasi recall dan precision sistem

yang menggunakan metode query expansion, lebih mendekati dengan sudut kanan,

dalam hal ini menunjukan tingkat relevansi yang lebih baik. Rata-rata nilai precision

sistem yang tidak menggunakan QE adalah 24 % sedangkan sistem yang

menggunakan QE dengan thesaurus umum adalah 27% dan sistem yang

menggunakan QE dengan thesaurus konteks puisi adalah 49%. Terjadi perbaikan

relevansi data 3% untuk sistem pemerolehan informasi tanpa menggunakan QE

dengan sistem pemerolehan informasi yang menggunakan thesaurus umum. Jauh

lebih signifikan untuk relevansi data sistem pemerolehan informasi yang

menggunakan thesaurus konteks puisi yaitu selisih 25%.

Penggunaan QE memang dapat meningkatkan hasil recall, namun untuk

sistem pemerolehan informasi pada pencarian puisi, hasil recall cenderung lebih

rendah dibandingkan dengan sistem pemerolehan informasi selain puisi yaitu seperti

pada pencarian dokumen semacam jurnal, artikel, dan lain-lain. Untuk meningkatkan

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 134: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

111 

 

hasil recall maupun precision pada sistem pemerolehan informasi puisi yang

menggunakan QE berdasarkan thesaurus, dapat dilakukan dengan menambahkan

thesaurus yang baik sesuai topik.

6.2 Saran

Berdasarkan hasil pengujian yang sudah dilakukan dapat dilihat bahwa sistem

masih belum sempurna. Masih banyak kekurangan dalam setiap bagian. Saran dari

penulis yang mungkin berguna untuk pengembangan selanjutnya :

1. Penambahan daftar kamus untuk keperluan pengindeksan, semakin lengkap

daftar kamus yang tersedia maka semakin banyak daftar kata yang di indeks.

2. Penambahan daftar thesaurus yang baik pada database, dan semakin banyak

daftar thesaurus yang tersedia maka semakin banyak kemunculan dokumen

relevan.

3. Perbaikan performa waktu akses yang lumayan lama, sehingga perlu

dikembangkan lagi agar lebih cepat.

 

 

 

 

 

 

 

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

Page 135: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI - core.ac.uk · Implementasi penerapan sistem pemerolehan informasi menggunakan struktur data inverted index dan pembobotan tf-idf menurut

112 

 

DAFTAR PUSTAKA

Agusta Ledy, Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani

untuk Stemming Dokumen Teks Bahasa Indonesia, Konferensi Nasional Sistem dan

Informatika, Fakultas Teknologi Informasi, Universitas Kristen Satya Wancana, 2009.

Baeza, Ricardo dan Berthier Ribeiro, Modern Information Retrival, Copyright © 1999 by the

ACM Press, A Division of the Association for Computing Machinary, Inc (ACM),

1999.

Collins, William J, Data Structures and the java Collections Framework, The McGraw-Hill

Companies Inc, Americas, New York 2002.

Hasibuan, Zainal A dan Zofi Andri, Penerapan Berbagai Teknik Sistem Temu-Kembali

Informasi Berbasis Hiperteks, Universitas Indonesia, Indonesia, Jakarta.

Intan, Rolly dan Andrew Dafeng, Hard: Subject-Based Search Engine Menggunakan TF-IDF

dan Jaccard’s Coefficient, Jurnal Teknik Industri, Teknologi Industri, Universitas

Kristen Petra Surabaya, 2006.

Lafore, Robert. Data Structures and Algorithms in Java, Second Edition. Sams Publishing.

United States of America. 2002.

Manning, Christoper D, Prabhakar Raghavan, Hinrich Schütze , An Introduction to

Information Retrieval, Online Edition © 2009, Cambrige University Press, 2009.

Nugroho, Adi, Algoritma dan Struktur Data dengan Java, ANDI Yogyakarta, Indonesia,

Yogyakarta, 2008

Sommerville, Ian. Software Engineering, 9th Edition. Pearson Education. United States of

America. 2011.

 

 

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI