Upload
voanh
View
217
Download
0
Embed Size (px)
Citation preview
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
METODE SIMILARITY - MASHUP UNTUK FRAMEWORK
MODUL RELEVANT CONTENT
PADA CONTENT MANAGEMENT SYSTEM (CMS)
SKRIPSI
Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu
Jurusan Informatika
Disusun Oleh :
RIKY BAGUS MUHAJIR
M0508117
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
Oktober, 2012
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
i
METODE SIMILARITY - MASHUP UNTUK FRAMEWORK
MODUL RELEVANT CONTENT
PADA CONTENT MANAGEMENT SYSTEM (CMS)
SKRIPSI
Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu
Jurusan Informatika
Disusun Oleh :
RIKY BAGUS MUHAJIR
M0508117
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
Oktober, 2012
HALAMAN JUDUL
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
MOTTO
Sesungguhnya sesudah kesulitan itu pasti ada kemudahan. Maka apabila
kamu telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh
urusan yang lain. Dan hanya kepada Tuhanmulah hendaknya kamu berharap.
(Q.S. 94 : 6-8)
Hai orang-orang yang beriman, Jadikanlah sabar dan shalatmu sebagai
penolongmu, sesungguhnya Allah beserta orang-orang yang sabar” (Q.S. 1 : 153)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
PERSEMBAHAN
Dipersembahkan untuk:
1. Ayah dan Ibu tercinta
2. Jurusan Informatika UNS
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
Metode Similarity - Mashup Untuk Modul Relevant Content Pada
Content Management System (CMS)
RIKY BAGUS MUHAJIR
Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret
ABSTRAK
Manajemen konten yang baik atau yang lebih dikenal dengan smart content
management system dapat dilakukan dengan berbagai cara, salah satunya dengan
menyajikan berbagai informasi yang berkaitan dengan konten utama (relevant
content). Berbagai Informasi tersebut dapat berupa artikel, gambar, banner, dan
juga video.
Kandidat relevant content dapat berasal dari dalam maupun luar sistem (mashup),
yang dimaksud dari dalam sistem disini adalah bahwa kandidat relevant content
diperoleh dari database sistem sendiri sedangkan yang dimaksud dari luar sistem
adalah bahwa kandidat relevant content diperoleh dari berbagai website di
internet. Relevant Content didapatkan dengan menghitung kemiripan metadata
antara kandidat relevant content dengan konten utama.
Dari hasil serangkaian uji coba didapatkan bahwa metode similarity – mashup
untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik.
Selain itu juga dapat dilihat bahwa sering kali berbagai kandidat relevant content
yang berasal dari luar sistem (mashup) memiliki nilai similarity yang lebih tinggi
dibandingkan kandidat yang berasal dari dalam sistem.
Kata Kunci : CMS, cosine, mashups, metadata, relevant content, similarity
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
Metode Similarity - Mashup Untuk Modul Relevant Content Pada
Content Management System (CMS)
RIKY BAGUS MUHAJIR
Department of Informatic. Mathematic and Science Faculty. Sebelas Maret
University
ABSTRACT
A good content management or better known as smart content management
system can be done in various ways, one of them by presenting a variety of
information related to the main content (relevant content). A variety of
information can be articles, pictures, banners, and video.
Candidates relevant content are got from internal and external system (mashup),
from internal system means that the candidate relevant content are got from the
database system and then from the external system means that the candidate
relevant content are got from various websites on the internet. Relevant Content is
obtained by calculating the similarity between candidates relevant content
metadata with main content metadata.
The results from the series of testing are found that the method of similarity -
mashups for relevant content module has been well integrated into the CMS. It
can also be seen that the candidates relevant content from the external system
(mashup) often has a higher similarity value than candidates from the internal
system.
Keywords: CMS, cosine, mashups, metadata, relevant content, similarity
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Allah Subhanahu Wa Ta’ala yang
senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat
menyelesaikan skripsi dengan judul Metode Similarty - Mashup Untuk Modul
Relevant Content Pada Content Management System (CMS), yang menjadi salah
satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas
Sebelas Maret (UNS) Surakarta.
Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak
bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan
skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :
1. Ibu Umi Salamah, M.Kom, ketua Jurusan Informatika FMIPA UNS.
2. Ibu Dewi Wisnu Wardani, S. Kom, M.S., dosen pembimbing I yang penuh
kesabaran membimbing, mengarahkan, dan memberi motivasi kepada
penulis selama proses penyusunan skripsi ini.
3. Bapak Meiyanto Eko Sulistyo, S.T, M, Eng., selaku dosen pembimbing II
yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi
kepada penulis selama proses penyusunan skripsi ini.
4. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS
yang telah mengajar penulis selama masa studi dan membantu dalam proses
penyusunan skripsi ini.
5. Seluruh keluarga terutama Ayah dan Ibu, untuk setiap kasih sayang dan
pengorbanan yang tak mungkin terbalas.
6. Seluruh teman terutama mahasiswa angkatan 2008 Jurusan Informatika
FMIPA UNS dan Rima Dhian Permata Hendry yang setia menemani
perjalanan dengan dukungan dan semangatnya.
Penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang
berkepentingan.
Surakarta, Oktober 2012
Penulis
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
HALAMAN PERSETUJUAN ................................................................................ ii
HALAMAN PENGESAHAN ................................................................................ iii
HALAMAN MOTTO ............................................................................................ iv
HALAMAN PERSEMBAHAN ............................................................................. v
ABSTRAK ............................................................................................................. vi
ABSTRACT ............................................................................................................ vii
KATA PENGANTAR ......................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL ................................................................................................. xii
DAFTAR GAMBAR ........................................................................................... xiii
DAFTAR LAMPIRAN ........................................................................................ xiv
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 2
1.3 Batasan Masalah ....................................................................................... 3
1.4 Tujuan Penelitian ...................................................................................... 3
1.5 Manfaat Penelitian .................................................................................... 3
1.6 Sistematika Penulisan ............................................................................... 3
BAB II TINJAUAN PUSTAKA ............................................................................. 5
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
x
2.1 Dasar Teori ............................................................................................... 5
2.1.1 Sistem Manajemen Konten ................................................................... 5
2.1.2 Text Mining ........................................................................................... 6
2.1.2.1 Text Preprocessing .................................................................... 6
2.1.2.2 Text Transformation .................................................................. 6
2.1.2.3 Pattern Discovery ...................................................................... 7
2.1.3 Stemming ............................................................................................... 7
2.1.4 Term Frequency (tf) - Inverse Dokumen Frequency (idf)..................... 9
2.1.5 Vector Space Model ............................................................................ 11
2.1.6 Matching Document ............................................................................ 12
2.1.7 Teknologi Mashup .............................................................................. 13
2.1.8 Google API ......................................................................................... 14
2.2 Penelitian Terkait ................................................................................... 15
2.3 Rencana Penelitian ................................................................................. 19
BAB III METODOLOGI PENELITIAN.............................................................. 20
3.1 Studi Literatur ......................................................................................... 20
3.2 Perancangan Framework ........................................................................ 20
3.3 Pengumpulan Data ................................................................................. 21
3.4 Experimental .......................................................................................... 21
3.5 Experimental Result ............................................................................... 21
BAB IV PEMBAHASAN ..................................................................................... 22
4.1 Perancangan Framework ........................................................................ 22
4.1.1 Text Preprocessing ............................................................................. 24
4.1.2 Text Transformation ........................................................................... 25
4.1.3 Pattern Discovery /Analysis................................................................ 25
4.2 Pengumpulan Data ................................................................................. 26
4.2.1 Data Internal ....................................................................................... 26
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xi
4.2.2 Data External ...................................................................................... 26
4.2.2.1 Konten artikel .......................................................................... 28
4.2.2.2 Konten gambar ......................................................................... 30
4.2.2.3 Konten video ............................................................................ 31
4.3 Experimental .......................................................................................... 34
4.3.1 Lingkungan Implementasi .................................................................. 34
4.3.1.1 Lingkungan Prangkat Keras..................................................... 34
4.3.1.2 Lingkungan Perangkat Lunak .................................................. 34
4.3.2 Pengujian ............................................................................................ 34
4.4 Experimental Result ............................................................................... 35
BAB V PENUTUP ................................................................................................ 38
5.1 Kesimpulan ............................................................................................. 38
5.2 Saran ....................................................................................................... 39
DAFTAR PUSTAKA ........................................................................................... 40
LAMPIRAN A ...................................................................................................... 42
LAMPIRAN B ...................................................................................................... 62
LAMPIRAN C ...................................................................................................... 71
LAMPIRAN D ...................................................................................................... 87
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xii
DAFTAR TABEL
Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity ................ 25
Tabel 4. 2 Argument Batasan Pencarian Pada Google Search API............................ 27
Tabel 4. 3 Metadata Kandidat Relevant Content Artikel ........................................... 29
Tabel 4. 4 Metadata Kandidat Relevant Content Gambar ......................................... 31
Tabel 4. 5 Metadata Kandidat Relevant Content Video ............................................. 33
Tabel 4. 6 Website Acuan Konten Mashup ................................................................ 33
Tabel 4. 7 Jumlah Relevant Content Yang Ditampilkan ............................................ 35
Tabel 4. 8 Nilai Rata-Rata Hasil Relevant Content Internal Dan External ............... 36
Tabel 4. 9 Selisih Antara Nilai Rata-Rata Relevant Content Internal Dan External . 36
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiii
DAFTAR GAMBAR
Gambar 2. 1 Ilustrasi Algoritma Pembobotan tf-idf ..................................................... 9
Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta
query Q (Mandala, 2006) .................................................................................... 11
Gambar 2. 3 Matrik Representasi VSM ..................................................................... 12
Gambar 3. 1 Diagram Metodologi Penelitian ............................................................ 20
Gambar 4. 1 Framework Modul Relevant Content .................................................... 23
Gambar 4. 2 Proses Similarity - Mashup ................................................................... 23
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiv
xiv
DAFTAR LAMPIRAN
LAMPIRAN A ...................................................................................................... 42
LAMPIRAN B ...................................................................................................... 62
LAMPIRAN C ...................................................................................................... 71
LAMPIRAN D ...................................................................................................... 87
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Website memberi sumbangan besar dalam pemberian berbagai informasi.
Banyak informasi yang ada disuatu website akan tetapi cara penyampaian
informasi tersebut sering kali kurang efektif. Informasi yang kurang efektif ini
dapat dilihat dari banyaknya konten pada suatu halaman web seperti iklan,
gambar, link, dan berbagai konten lainnya yang sering kali tidak ada hubungannya
dengan isi dari konten utama (Mulendra dan Liu, 2009). Konten-konten seperti ini
justru membuat penguna merasa terganggu dan kesulitan dalam memperoleh
informasi. Oleh karena itu diperlukan manajemen konten yang baik untuk
mengelola berbagai konten tersebut.
Manajemen konten yang baik diharapkan dapat menjadikan suatu website
menjadi lebih inovatif dan kaya akan informasi sehingga dapat memudahkan
pengunjung situs dalam memperoleh informasi. Manajemen konten yang baik
atau yang lebih dikenal dengan smart content management system dapat dilakukan
dengan berbagai cara, salah satunya dengan menyajikan berbagai informasi yang
berkaitan dengan konten utama (relevant content). Pada (Broder et al., 2007)
manajemen konten dilakukan dengan menampilkan berbagai iklan yang berkaitan
dengan konten utama pada website.
Disamping mengunakan relevant content, manajemen konten yang baik
juga bisa dilakukan dengan mengunakan mashup. Mashup merupakan cara baru
dalam dunia aplikasi web yang menggabungkan data dan informasi dari berbagai
sumber kemudian menampilkannya dalam sajian informasi yang baru (Thor,
2007). Isi dari website yang menerapkan konsepsi mashup biasanya berasal dari
penyedia layanan pihak ke tiga dengan antarmuka yang disebut sebagai API
(application programming interface) (Zang dan Rosson, 2008). Saat ini sudah
terdapat beberapa CMS yang menggunakan mashup akan tetapi mashup tersebut
hanya berupa kolom pencarian atau mashup hanya menampikan informasi dari
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
2
suatu website lain tanpa memperhatikan isi dari informasi tersebut. Seperti hanya
pengunaan RSS Feed. RSS Feed hanya memungkinkan kita untuk memperoleh
informasi terbaru dari suatu website tanpa dapat mengontrol isi dari informasi
tersebut. Pada (Rohmatulloh et al., 2009) telah dilakukan penerapan teknologi
mashup, yakni dengan cara melalukan pencarian melalui kolom pencarian untuk
mendapatkan artikel yang terkait dengan keyword yang dimasukkan.
Penelitian pada tugas akhir ini mencoba mengembangkan aplikasi
pariwisata Indonesia berbasis online dengan menerapkan metode similarity-
mashup untuk memperoleh berbagai informasi yang relevant degan konten utama.
Berbagai ulasan, gambar, dan video diharapkan dapat mampu menberikan
informasi yang lebih informatif sehingga membuat wisatawan tertarik untuk
mengunjungi objek wisata di Indonesia.
Dalam tugas akhir ini akan dikaji metode similarity-mashup untuk modul
relevant content pada CMS yang mana modul tersebut mampu menyajikan
konten-konten yang berkaitan denggan konten utama. Relevant content ini akan
diletakkan disamping konten utama. Relevant content diperoleh setelah
melakukan proses penyamaan (similarity) antara konten utama dengan berbagai
kandidat relevant content baik yang berasal dari dalam maupun luar sistem. Untuk
proses similarity digunakan metode Cosine Similarity. Kandidat relevant content
dari luar sistem diperoleh dari berbagai website di internet. Adapun berbagai
konten dari luar sistem diantaranya; artikel dan gambar dari Google, Video dari
Youtube, informasi dari Wikipedia, dan juga berbagai konten dari website yang
lain.
1.2 Rumusan Masalah
Berdasarkan ulasan yang telah dijabarkan pada latar belakang dapat
dirumuskan permasalahan yakni bagaimana memanfaatkan metode similarity –
mashup untuk memperoleh berbagai konten yang relevant dengan konten utama
pada suatu website.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
3
1.3 Batasan Masalah
1. Untuk website yang memakai bahasa Indonesia
2. Artikel pada website tidak terbatas oleh waktu
3. Content management system yang digunakan adalah Lokomedia
4. Relevant content berupa artikel, gambar, dan video bukan berupa file (doc,
pdf)
5. Domain yang digunakan adalah tentang pariwisata
1.4 Tujuan Penelitian
Tujuan dari tugas akhir ini adalah memanfaatkan metode similarity –
mashup untuk mendapatkan berbagai konten yang relevant dengan konten utama
pada suatu website.
1.5 Manfaat Penelitian
Manfaat dari penelitian pada tugas akhir ini adalah untuk memperkaya
kajian pembuatan modul relevant content dengan pemanfaatkan metode similarity
- mashup, yang mana modul ini secara otomatis mampu menyajikan berbagai
konten yang relevant dengan konten utama pada suatu website.
1.6 Sistematika Penulisan
Penelitian ini akan disusun menurut sistematika penulisan sebagai berikut :
BAB I PENDAHULUAN
Pendahuluan berisi mengenai latar belakang, rumusan masalah,
pembatasan masalah, tujuan, manfaat, dan sistematika penulisan. Keseluruhan
dari bagian ini memberikan gambaran umum dari penelitian yang dilakukan.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
4
BAB II TINJAUAN PUSTAKA
Tinjauan pustaka memuat penjelasan secara rinci mengenai teori-teori
yang digunakan sebagai dasar dalam penelitian ini. Bagian ini juga memuat
mengenai penelitian terdahulu dan rencana penelitian yang akan dilakukan oleh
penulis.
BAB III METODE PENELITIAN
Pada bab ini membahas metode yang digunakan dalam penelitian ini.
Metode dalam penelitian ini terdiri atas lima tahapan, yaitu studi literatur,
perancangan framework, pengumpulan data, experimental, dan experimental
result.
BAB IV PEMBAHASAN
Bagian ini berisi pembahasan dari hasil yang diperoleh dari penelitian ini,
meliputi penjelasan mengenai perancangan framework, pengumpulan data,
experimental, dan experimental result
BAB V PENUTUP
Penutup berisi kesimpulan penelitian dan saran sebagai bahan pertimbangan
untuk penelitian selanjutnya
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
5
BAB II
TINJAUAN PUSTAKA
2.1 Dasar Teori
2.1.1 Sistem Manajemen Konten
Sistem manajemen konten yang biasa dikenal dengan Content
Management System, disingkat CMS, adalah sistem perangkat lunak yang
memungkinkan seseorang untuk mengatur proses berjalannya suatu situs Web
(Simarmata, 2010). Sistem manajemen konten (Nakano, 2001) memungkinkan
administrator mengelola informasi seperti membuat, melakukan perubahan,
merilis, menyimpan, menghapus, dan lain-lain.
Sebelum ada CMS, seseorang pengembang web harus mengerti ilmu yang
diperlukan untuk membuat dan mengelola suatu Web. Beberapa ilmu tersebut
diantaranya PHP, HTML, CSS, dan lain-lain. Namun dengan adanya CMS seperti
sekarang ini tidak perlu mesti belajar berbagai ilmu tersebut secara mendalam
lagi. Dengan kata lain CMS dapat mempermudah dalam mengelola suatu web.
Disamping memudahkan bagi pengembang web, suatu CMS juga harus
menyajikan suatu web yang inovatif dan kaya akan informasi sehingga dapat
memudahkan pengunjung situs dalam memperoleh informasi. Website yang
inovatif dan kaya akan informasi ini dapat diperoleh dengan manajemen konten
yang baik atau biasa dikenal dengan smart content manajemen system.
Manajemen konten yang baik dilakukan dengan menampilkan berbagai
iklan yang berkaitan dengan konten utama pada website (Broder et al., 2007).
Pada (Rohmatulloh et al., 2009) manajemen koten yang baik dilakukan dengan
menerapankan teknologi mashup, yakni dengan cara melalukan pencarian melalui
kolom pencarian untuk mendapatkan artikel yang terkait dengan keyword yang
dimasukkan. Sedangkan pada (Himawan, 2010) juga digunakan teknologi
mashup, yakni dengan menampilkan rute terpendek menuju tempat wisata dengan
memanfaatkan Google Map Api dan algoritma Dijkstra.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
6
2.1.2 Text Mining
Sebelum melakukan proses similarity antar dokumen perlu dilakukan
proses pengolahan terlebih dahulu. Text mining digunakan untuk menggali
informasi pada dokumen tidak terstruktur (Dorre et al., 1999). Sebelum
melakukan text mining, terlebih dahulu diperlukan proses pengubahan bentuk
menjadi data yang terstruktur sesuai kebutuhan. Biasanya akan dilakukan
perubahan menjadi nilai-nilai numerik. Setelah data menjadi data terstruktur dan
berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat
diolah lebih lanjut. Dalam text mining ini dibagi dalam 3 proses utama, yaitu Text
Preprocessing, Text Transformation dan Pattern Discovery.
2.1.2.1 Text Preprocessing
Dalam text mining, tahapan awal yang dilakukan adalah text
preprocessing. Tahap ini bertujuan untuk mempersiapkan teks menjadi data yang
akan diproses pada tahap selanjutnya. Terdapat beberapa hal yang dilakukan
dalam tahap ini, baik itu berupa tindakan yang bersifat kompleks seperti part-of-
speech (pos), tagging, parse tree, maupun tindakan sederhana seperti tokenization.
Tokenization merupakan proses pengolahan token yang terdapat dalam rangkaian
teks (Grossman, 2001). Dalam pembuatan indexs istilah dokumen dipecah
menjadi unit-unit lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit
pemrosessan tersebut disebut token. Tahapan ini juga menghilangkan karakter-
karakter tertentu seperti tanda baca, html tag dan mengubah semua token
kebentuk huruf kecil (case folding).
2.1.2.2 Text Transformation
Pada tahap ini dilakukan proses penyaringan (filtration) dengan
menghilangkan stop-word. Stop-word merupakan kata yang sering muncul dalam
dokumen tetapi tidak memiliki makna yang berarti. Filtering berfungsi untuk
mengurangi daftar kata indexs dan mempercepat indexing (Grossman, 2001).
Penghapusan stop-word dari dalam suatu koleksi dokumen pada satu waktu
membutuhkan banyak waktu. Solusinya adalah dengan menyusun suatu pustaka
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
7
stop-word atau stop-list dari term yang akan dihapus. Beberapa contoh stop-word
diantaranya; yang, dari, di, hingga, dan dengan. Konversi term ke bentuk akar
(stemming) juga merupakan tindakan yang dapat dilakukan dalam tahap ini.
Stemming merupakan proses penghilangan prefix dan suffix dari kata untuk
mendapatkan kata dasar (Grossman, 2001). Efektifitas algoritma stemming dapat
diukur berdasarkan beberapa parameter, seperti proses, keakuratan, dan kesalahan.
2.1.2.3 Pattern Discovery
Tahap ini merupakan tahap terpenting dari seluruh proses text mining.
Pada penelitian ini, operasi yang dilakukan adalah pengukuran kemiripan teks
(similarity). Teknik yang digunakan pada tahap ini adalah dengan melakukan
pembobotan (weighting) terhadap term dari hasil tahap text transformation. Setiap
term diberikan bobot sesuai dengan skema pembobotan yang dipilih, baik itu
pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi menerapkan
pembobotan kombinasi berupa perkalian bobot lokal term frequency dan global
inverse document frequency, ditulis . Di sini peneliti akan menggunakan
. Dalam kemiripan antar dokumen didefinisikan berdasarkan representasi
bag-of-words dan dikonversi ke suatu model ruang vektor (vector space model).
Setelah merepresentasi term ke dalam bentuk vektor akan dilakukan proses
pencarian kemiripan dengan menghitung nilai cosinus antar vektor yang dalam
penelitian ini menggunakan metode Cosine Similarity yang akan di jelaskan pada
pembahasan berikutnya.
2.1.3 Stemming
Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti
Algoritma Porter untuk teks berbahasa inggris, Algoritma Porter untuk teks
berbahasa Indonesia, dan juga Algoritma Nazief & Adriani untuk teks berbahasa
Indonesia. Dalam (Agusta, 2009) ditunjukkna bahwa algoritma Nazief & Adriani
memiliki keakuratan yang lebih tinggi. Algoritma ini didahului dengan
pembacaan tiap kata dari dokumen sampel. Sehingga input dari algoritma ini
berupa kata.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
8
Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki
tahap-tahap sebagai berikut:
1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka
diasumsikan bahwa kata tesebut adalah root word. Maka algoritma
berhenti.
2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang.
Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah
ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”,
atau “-nya”), jika ada.
3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata
ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke
langkah 3a
a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah
“-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan
dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka
lakukan langkah 3b.
b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan,
lanjut ke langkah 4.
4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus
maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.
a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika
ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.
b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika
root word belum juga ditemukan lakukan langkah 5, jika sudah
maka algoritma berhenti. Catatan: jika awalan kedua sama dengan
awalan pertama algoritma berhenti.
5. Melakukan Recoding.
6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata
awal diasumsikan sebagai root word. Proses selesai.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
9
2.1.4 Term Frequency (tf) - Inverse Dokumen Frequency (idf)
Term Frequency (tf) merupakan frekuensi kemunculan suatu kata (term)
dalam dokumen. Oleh sebab itu, tf memiliki nilai yang bervariasi dari satu
dokumen ke dokumen yang lain bergantung pada tingkat kepentingan sebuah term
dalam sebuah dokumen yang diberikan. Semakin sering suatu term muncul dalam
sebuah dokumen, maka term tersebut akan memiliki nilai tf yang lebih besar
daripada term yang jarang muncul dan hal ini berarti semakin penting term-term
tersebut.
Pengunaan faktor tf saja dalam menentukan pembobotan suatu term belum
mencukupi. Untuk itu digunakan juga faktor Inverse Document Frequency (idf)
yang merupakan sebuah statistik “global” yang mengkarakteristikkan sebuah term
dalam keseluruhan koleksi dokumen. Idf merupakan sebuah perhitungan dari
bagaimana term yang didistribusikan secara luas pada koleksi dokumen yang
bersangkutan. Semakin sedikit dokumen yang mengandung term yang dimaksud,
maka nilai idf semakin besar. Jika setiap dokumen dalam koleksi mengandung
term yang bersangkutan, maka nilai idf dari term tersebut adalah nol. Hal ini
menunjukkan bahwa sebuah term yang muncul pada setiap dokumen dalam
koleksi tidak berguna untuk membedakan dokumen berdasarkan topik tertentu.
Ilustrasi algoritma tf-idf (Harlian, 2006) ditunjukkan pada gambar 4.2.
…..
…..
…..
…..
…..
aku
.aku
.….
aku
.….
aku
…..
.….
…..
.….
…..
…..
…..
…..
…..
aku
.aku
aku
aku
.….
D1 D2 D3 D4 D5
tf = 0 tf = 3 tf = 0 tf = 1 tf = 4
df = 3
idf = log (N/df) = 0.2218
N = 5
Gambar 2. 1 Ilustrasi Algoritma Pembobotan tf-idf
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
10
Keterangan :
= dokumen
= banyaknya term yang dicari pada sebuah dokumen
= total dokumen
= banyaknya dokumen yang mengandung term yang dicari
Dalam penelitian ini, algoritma pembobotan Term Frequency (tf) – Inverse
Document Frequency (idf) diterapkan pada tahap similarity document. Nilai tf-idf
diperoleh dengan menggunakan persamaan (Lee, 1997) :
(1)
Dimana :
= bobot term ke-j terhadap dokumen ke-i
= jumlah kemunculan term j dalam dokumen i
= jumlah seluruh dokumen
= jumlah dokumen yang mengandung term j
Berdasarkan pada persamaan (1), berapapun besarnya nilai , apabila N =
maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat
ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi :
(2)
Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan
menggunakan menunjukkan bahwa deskripsi terbaik dari dokumen
adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit
muncul pada dokumen yang lain.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
11
2.1.5 Vector Space Model
Model Ruang Vektor ( Vector Space Model ) merupakan suatu metode
yang cukup banyak digunakan dalam sistem Information Retrieval. Dengan
menggunakan Model Ruang Vektor, dokumen–dokumen yang ada akan
direpresentasikan kedalam n dimensi vektor.
Banyaknya dimensi dari ruang vektor akan ditentukan oleh jumlah kata
signifikan yang terdapat dalam dokumen. Misalkan terdapat sejumlah n kata
yang berbeda sebagai kamus kata (vocabulaty) atau indeks kata (terms index).
Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n.
Setiap kata i dalam dokumen atau query diberikan bobot sebesar wi. Baik
dokumen maupun query direpresentasikan sebagai vektor berdimensi n.
Sebagai contoh terdapat 3 buah kata (t1, t2, dan t3), 2 buah dokumen (D1 dan
D2) serta sebuah query Q. Masing-masing bernilai:
D1 = 2t1+3t2+5t3
D2 = 3t1+7t2+0t3
Q = 0t1+0t2+2t3
Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta
query Q (Mandala, 2006)
Koleksi dari n buah dokumen dapat direpresentasikan dalam Model
Ruang Vektor dengan sebuah matrik term-document (Mandala, 2006) yang
ditunjukkan pada gambar 2.3.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
12
Document space
t1 t2 t3 t.. tn
D1 w11 w12 w13 .. w1n
D2 w21 w22 w23 .. w2n
D.. .. .. .. .. ..
Dm wm1 wm2 wm3 .. wmn
Gambar 2. 3 Matrik Representasi VSM
2.1.6 Matching Document
Matching document merupakan tahap dimana akan dilakukan
penghitungan kemiripan (similarity) antara dokumen acuan dengan kandidat
dokumen. Dalam penelitian ini dokumen berupa metadata yang mana akan
dihitung kemiripannya dengan metode Cosine Similarity.
Dimana Cosine Similarity dirumuskan dengan (Lee, 1997):
D = Dokumen acuan
= Dokumen ke-i
= Bobot term j pada dokumen acuan
= Bobot term j pada dokumen i
Similarity atau 1 jika D = Di, sebaliknya similarity
= 0 ketika D dan Di tidak memiliki kesamaan sama sekali.
Term vector space
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
13
2.1.7 Teknologi Mashup
Mashup merupakan cara baru dalam dunia aplikasi web yang
menggabungkan data dan informasi dari berbagai sumber kemudian
menampilkannya dalam sajian informasi yang baru (Thor, 2007). Atau dengan
kata lain, teknologi mashup menjadikan keseluruhan data di internet sebagai
basisdata universal yang dengan mudah data tersebut dapat diambil sesuai dengan
apa yang diinginkan. Arsitektur dari apliaksi web mashup terdiri dari 3 bagian
utama yaitu content provider, mashup hosting site, dan client web browser
(Marrill, 2006).
1. Content Povider
Sumber data dari mashup. Data biasanya didapatkan dengan
menggunakan API atau protokol web lain seperti REST atau RSS.
2. Mashup hosting site
Web yang menyediakan layanan baru dari bermacam sumber data yang
tidak dipunyai oleh web tersebut.
3. Client Web Browser
Konsumen yang menggunakan layanan mashup biasanya berbentuk
web browser yang menampilkan web mashup.
Menurut (Ankolekar et al., 2007) ada empat alasan mengapa digunakan
teknologi mashup, yakni reusing data from the web, dynamic data resources,
personalization of website, dan giving back to the word. Adapun penjelasan dari
empat alasan tersebut adalah sebagai berikut:
1. Reusing data from the web
Informasi yang ditampilkan diambil dari internet. Dengan kata lain
tidak memerlukan database sendiri untuk kasus ini karea ahanya
menggunakan kembali data yang sudah ada di internet.
2. Dynamic data sources
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
14
Informasi yang ditampilkan berasal dari berbagai sumber yang ada di
internet. Dengan kondisi seperti ini membuat informasi menjadi
dinamis.
3. Personalisation of website
Dengan website yang didukung oleh teknologi relevant content dan
mashup seolah-olah membuat website milik pribadi si pengunjung. Hal
ini dikarenakan dapat ditampilkannya berbagai informasi yang terkait
dengan informasi yang ingin dicari pengunjung.
4. Giving back to the word
Disamping pengembang web dapat memperoleh berbagai informasi
dari berbagai sumber di internet dengan menggunakan teknologi
mashup, hal lain yang dapat dilihat adalah manfaat bagi website yang
dijadikan sebagai sumber informasi. Dengan menjadikan suatu website
sebagai sumber informasi dapat menambah rating daripada website itu
sendiri. Oleh karena rating web menjadi naik dan bagus, maka
semakin mudah pula pencarian akan situs tersebut menggunakan mesin
pencari seperti Google maupun Yahoo.
Selain kelebihan kelebihan yang ditawarkan, mashup sendiri mempunyai
beberapa kekurangan sebagai timbal balik dari keuntungan yang didapatkan.
Kekurangan tersebut antara lain adalah ketergantungan aplikasi terhadap sumber
data mashup dan koneksi internet.
2.1.8 Google API
Google menyediakan berbagai API (Application Programming Interface)
yang sangat berguna bagi pengembang web maupun aplikasi desktop untuk
memanfaatkan berbagai fitur yang disediakan oleh Google.
API secara sederhana bisa diartikan sebagai kode program yang
merupakan antarmuka atau penghubung antara aplikasi atau web yang kita buat
dengan fungsi-fungsi yang dikerjakan. Ada beberapa Google APIs diantaranya:
Google Maps API, Google Search API, Google Feeds API, Google Language
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
15
API, Google Data API, Google Earth API, Google Visualizaion API, Google
Picker API, dan Google Youtube API.
2.2 Penelitian Terkait
2.2.1 Web Document Text and Images Extraction using DOM Analysis and
Natural Language Processing (Mulendra dan Liu, 2009)
Pada penelitian ini dilakukan teknik HTML DOM analysis dan Natural
Language Proccesing (NPL) untuk secara otomatis melakukan ekstraksi artikel
utama dan gambar yang berhubungan dengan artikel tersebut dari suatu halaman
web.
Aplikasi yang akan dibuat mempunyai masukan (input) berupa halaman
web (HTML Document). Aplikasi mempunyai kemampuan untuk memisahkan
konten-konten yang menggangu atau konten-konten yang tidak ada hubungannya
dengan artikel utama. Dengan cara ini akan dihasilkan output berupa artikel dan
gambar yang efektif sehingga lebih mudah dibaca dan dimengerti oleh penguna.
Sistem bekerja dengan mengunakan DOM tree untuk melakukan ekstraksi
berbagai konten yang ada pada halaman web. DOM object digunakan untuk
melakukan ekstraksi artikel text pada body html dalam bentuk blok konten.
Kemudian blok konten tersebut dibagi lagi menjadi sub blok konten. Setiap sub
blok konten selanjutnya dianalisis lagi sehingga terbentuk DOM tree. Setiap node
pada DOM tree merupakan elemen tag-HTML. Adapun elemen tag-HTML yang
digunakan untuk ekstraksi text adalah ; div, p, br, li, ul, ol, td, tr, table, h1-6, dan
hr. Sedangkan untuk ektraksi gambar dari halaman web juga dengan mudah dapat
dilakukan dengan DOM, yakni dengan mengunakan elemen <img> pada tag
html.
Setelah menjalankan penelitian ini didapatkan hasil bahwa ekstraksi
halaman HTML mengunakan DOM menghasilkan akuransi lebih dari 90%.
Sedangkan untuk ke akurasian ekstraksi gambar sekitar 85%.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
16
2.2.2 Mining Contents in Web Page Using Cosine Similarity (Nyein, 2011)
Dalam sebuah halaman web memuat banyak informasi yang bukan
merupakan bagian dari konten utama. Informasi tersebut seperti barner ads,
navigation bars, copy right and privacy notices, dan juga iklan yang tidak sesuai
dengan konten utama. Pada penelitian ini akan dilakukan ekstrasi untuk
mendapatkan konten utama dari suatu halaman web.
Ekstraksi konten dilakukan dengan mengunakan HTML Pharse untuk
merepresentasikan halaman web dalam bentuk DOM Tree. Proses selanjutnya
adalah menemukan informasi yang berhubungan dari halaman web. Untuk itu
dibuatlah Content Structure Tree (CST) yang berbasis pada DOM Tree.
Selanjutnya dilakukan proses similarity dengan mengunakan metode cosine
similarity. Dengan menggunakan proses similarity pada CST kita dapat dengan
mudah mengetahui blok informasi yang ingin kita tahu.
Pada penelitian ini menghasilkan hasil yang lebih karena biasanya
penelitian sejenis hanya berbasis pada DOM tree sedangakan pada penelitian ini
berbasis pada CST yang dibentuk melalui DOM tree dan juga dapat melakukan
ekstraksi dokumen yang saling berhubungan dari suatu halaman web.
2.2.3 An Approach in Web Content Mining for Clustering Web Pages
(Etemadi dan Moghaddam, 2010)
Saat ini website dan internet memberi sumbangan besar dalam pemberian
berbagai informasi. Ada banyak sekali data di internet, oleh sebab itu dibutuhkan
suatu alat untuk memperoleh data-data tersebut dan mengubahnya menjadi
informasi yang berguna. Pengelompokan halaman web menjadi salah satu cara
yang dapat digunakan.
Pana jurnal ini digunakan pendekatan baru untuk melakukan
pengelompokan halaman web berdasarkan isi (content), yakni dengan
menggunakan expressions dan key term yang ada pada halaman web sebagai
acuan. Dari key term tersebut selanjutnya dibentuk ke dalam vector, kemudian
melakukan perbandingan antara nilai similarity mengunakan gabungan antara
algoritma Jaccard – Cosine Similarity dengan algoritma Cosine Similarity.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
17
Dari hasil pengujian didapatkan bahwa dengan mengunakan algoritma
Jaccard – Cosine similarity didapatkan hasil index yang lebih tinggi, yakni
dengan rata-rata perbedaan index sebesar 0.4019
2.2.4 Penerapan Teknologi Marshup Pada Aplikasi Pariwisata Berbasis
Web Nusantara View : Modul Transportasi Dengan Pendekatan
Algoritma Dijkstra (Himawan, 2010)
Dengan kemajuan teknologi informasi saat ini dimungkinkan untuk
memberikan informasi lebih kepada para wisatawan, salah satunya dengan
menggunakan teknologi mashup. Pada jurnal ini akan diambil informasi
transportasi dari berbagai situs guna menunjukkan rute ke objek wisata yang
ingin dikunjungi wisatawan. Dengan adanya informasi transportasi ini, maka
calon wisatawan tidak perlu membuka website lain untuk mendapatkan informasi
mengenai sarana transportasi yang akan mereka gunakan. Adapun sumber yang
akan diguanakan untuk membuat aplikasi mashup adalah Google Map Api dengan
menambahkan algoritma Dijkstra.
Dari penelitian ini telah berhasil dibuat suatu aplikasi mashup dengan
memanfaatkan Google Map Api dan dengan penambahan algoritma dijkstra pada
Google Map Api sehingga dapat membuat sistem nenunjukkan jalur terpendek
untuk menuju tempat pariwisata yang ingin dikunjungi wisatawan.
2.2.5 Penerapan Teknologi Mashup Pada Aplikasi Pariwisata Berbasis
WEB NusantaraView: Modul Blog & Berita dan Facebook
(Rohmatulloh et al., 2009)
Informasi atau ulasan mengenai objek pariwisata beserta berita-berita
tentang pariwisata sangat dibutuhkan oleh calon wisatawan. Disisi lain, sebagian
besar situs pariwisata Indonesia masih menyediakan informasi atau ulasan dan
berita pariwisata yang bersifat statis dan tidak aktual. Untuk itu dibuatlah suatu
aplikasi berbasis web yang disebut NusantaraView.
NusantaraView dikembangakan dengan mengunakan CMS Joomla serta
dilengkapi dengan teknologi Mashup. Dengan mengunakan teknologi mashup
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
18
dibuatlah fitur pencarian informasi mengenai ulasan (review) beserta berita-berita
terkait objek pariwisata yang ada di Indonesia. Ulasan dan berita tersebut diambil
dari Wikipedia, blog Wordpress, situs berita online, dan Facebook. Mashup pada
Blog dan Berita didapatkan dengan menggunakan Yahoo! Pipes. Sedangkan
mashup pada Wikipedia dan Facebook didapatkan melalui API masing-masing.
Pada penelitian ini menghasilkan sebuah komponen Joomla! yang
menyediakan informasi mengenai ulasan dan berita tentang objek pariwisata
Indonesia. Dengan tambahan penerapan teknologi Mashup, komponen tersebut
tidak membutuhkan basisdata dikarenakan data diambil langsung dari internet.
2.2.6 An information-theoretic definition of similarity (Lin, 1998)
Similarity merupakan konsep penting yang sering kali digunakan. Ada
beberapa macam pendekatan dalam similarity yang dapat diterapkan dalam
berbagai bidang. Pada jurnal ini akan dijelaskan definisi dari similarity dan
berbagai pendekatan dalam similarity itu sendiri.
Intuisi yang perlu dipahami terkait similarity:
a. Intuisi 1: A dan B dianggap similarity apabila ada kesamaan antar
keduanya. Semakin banyak kesamaan maka semakin similar
b. Intuisi 2: A dan B dianggap tidak similarity apabila ada perbedaan
antar keduanya. Semakin banyak perbedaan maka semakin tidak
similar
c. Intuisi 3: Maximum similarity antara A dan B diperoleh apabila A
dan B identik. Tidak peduli berapa banyak kesamaan diantara
mereka.
2.2.7 A Semantic Approach to Contextual Advertising (Broder et al., 2007)
Pada penelitian ini akan dilakukan pendekatan untuk menghasilkan suatu
sistem yang mampu menampilkan iklan yang sesuai dengan isi artikel utama pada
suatu halaman web.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
19
Sistem bekerja dengan melakukan ekstraksi konten pada halaman web,
konten tersebut seperti tittle, body, dan bid phrase. Selanjutnya sistem melakukan
matching (mencocokkan) kesamaan antara hasil ekstraksi konten halaman web
dengan konten yang ada pada iklan. Klasifikasi halaman web dan iklan akan
digunakan tiga metode. Metode pertama dan kedua dilakukan dengan melakukan
training pada halaman dengan menjalankan query taksonomi pada web pencarian
dan memberikan label pada 10 hasil pencarian setelah dilakukan filtering.
Sedangkan pada sisi iklan juga dilakukan pelatihan dengan mengunakan SVM
hirarki dan klasifikasi log-regresi. Metode ketiga sama denga metode pertama
bedanya hanya pada proses penyaringan. Dimana yang disaring adalah halaman
dengan konten rendah dan halaman yang tidak cocok dengan iklan. Pada
penelitian ini berhasil didapatkan iklan yang berkaitan dengan konten pada
halaman web.
2.3 Rencana Penelitian
Penelitian ini akan mengkaji metode similarity – mashup untuk modul
relevant content pada CMS. Metode similarity – mashup diharapkan dapat
memberikan berbagai konten yang berkaitan (relevant) dengan konten utama.
Berbagai konten tersebut meliputi artikel, gambar, video, dan banner. Kandidat
relevant content berasal dari internal dan external sistem (mashup). Relevant
Content didapatkan dengan menghitung kemiripan metadata antara kandidat
relevant content dengan konten utama.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
20
BAB III
METODOLOGI PENELITIAN
Dalam penelitian ini terdapat beberapa tahap dalam pengerjaan untuk
digunakan sebagai awal dalam menyelesaikan penelitian. Acuan ini menjelaskan
apa yang harus dilakukan dalam penelitian hingga pembuatan laporan akhir.
Tahap-tahap dalam penelitian adalah sebagai berikut:
Gambar 3. 1 Diagram Metodologi Penelitian
3.1 Studi Literatur
Pada tahap ini akan dilakukan studi literatur berkaitan dengan masalah
sistem informasi retrieval, text mining, dan metode pencocokan (similarity)
melalui berbagai macam media, antara lain melalui internet, jurnal-jurnal dan
berbagai buku. Informasi yang telah diperoleh dalam tahap studi literatur
selanjutnya digunakan sebagai dasar dalam menjalankan penelitian ini.
3.2 Perancangan Framework
Pada tahap ini akan dilakukan perancangan framework metode similarity –
mashup untuk modul relevant content pada CMS. Cara kerja modul relevant
content ini adalah dengan menampilkan berbagai konten yang mempunyai
keterkaitan dengan konten utama. Konten-konten tersebuat berasal dari hasil
proses text mining antara metadata dari konten utama dengan metadata dari
berbagai kandidat relevant content baik itu yang berasal dari internal maupun
external sistem.
Studi Literatur
Perancangan
Framework
Pengumpulan Data
Experimental Experimental
Result
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
21
3.3 Pengumpulan Data
Pada tahap ini akan dilakukan pengumpulan data yang nantinya akan
dijadikan sebagai kandidat relevant konten. Data kandidat relevant content berasal
dari dua sumber yaitu internal dan external sistem. Data internal sistem yang
berupa artikel, gambar, banner, dan video didapatkan dari berbagai website di
internet dan selanjutnya di simpan ke dalam database. Sedangkan data dari
external sistem merupakan data yang secara langsung diambil dari berbagai
website di internet ketika modul relevant content berjalan (mashup). Data dari
external sistem berupa artikel, gambar, dan video.
3.4 Experimental
Pada tahap ini akan dilakukan experiment terhadap modul relevant
content. Experiment akan dilakukan dengan melakukan input data berupa artikel
selanjutnya melihat apakah modul relevant content bisa menampilkan konten-
konten yang relevant dengan artikel yang diinputkan tersebut. Apabila modul
relevant content dapat menapilkan konten-konten yang relevant dengan konten
utama berarti modul telah berjalan dengan baik.
3.5 Experimental Result
Pada tahap ini akan dilakukan analisa pada hasil experiment dengan
melihat kesuksesan berjalannya modul relevant content dan hasil dari relevant
content yang dihasilkan. Adapun beberapa kriteria yang akan dianalisa
diantaranya :
1. Pertama akan dilihat apakah modul relevant content dapat terintegrasi
pada CMS dengan baik.
2. Melihat apakah konten-konten yang dihasilkan memiliki keterkaitan
dengan konten utama pada website.
3. Dan yang terakir melihat seberapa besar tingkat kemiripan konten-
konten yang dihasilkan dari score yang dihasilkan setelah proses
similarity.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
22
BAB IV
PEMBAHASAN
3.1 Perancangan Framework
Framework Modul Relevant Content digambarkan pada gambar 4.1 dan
gambar 4.2. Garis besar framework digambarkan pada gambar 4.1 sedangkan
gambar 4.2 menggambarkan proses similarity – mashup secara lebih detail. Dari
gambar 4.1 dapat dilihat bahwa framework terdiri atas 4 bagian, yakni Similarity –
Mashup, Database Internal, Internet, dan Web Page. Seperti yang telah dijelaskan
sebelumnya bahwa framework bekerja dengan memanfaatkan dua data resource,
yakni dari internal dan external sistem. Data dari internal digambarkan pada
bagian Database Internal. Sedangkan data dari external digambarkan pada bagian
Internet.
Data dari external (konten mashup) tersebut diperoleh dari berbagai
website yang ada di internet. Pada tugas akhir ini akan digunakan salah satu dari
Google API yakni Google Search API dalam memperoleh konten mashup.
Berbagai konten yang diperoleh dengan mengunakan Google Search API berupa
artikel, gambar, dan video. Berbagai konten tersebut diperoleh dengan mengirim
query request berupa metadata (judul) dari konten utama. Metadata dari konten
utama ini selanjutnya digunakan untuk melakukan pencarian pada Google Search
Engine.
Data dari kedua data resources tersebut bersama dengan konten utama
selanjutnya diproses dengan mengunakan metode similarity – mashup untuk
mendapatkan beberapa kandidat relevant content dengan nilai similarity tertinggi.
Proses ini digambarkan pada bagian Similarity – Mashup. Setelah didapatkan
beberapa kandidat relevant content dengan nilai similarity tertinggi selanjutnya
kandidat relevant konten tersebut ditampilkan pada halaman web tepat disamping
konten utama. Proses menampilkan kandidat relevant content ini digambarkan
pada bagian Web Page.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
23
Internet
Similarity - Mashup
Database
Internal
Web Page
Gambar 4. 1 Framework Modul Relevant Content
Teks Dokumen
Bahasa
Indonesia
Input Data
Case Folding Tokenization
Filtering Stemming
Pembobotan tf-idf
VSM (Vector Space
Model)
Matching Document
(Cosine Similarity)
Hasil Similarity
Document
Text Preprocessing
Pattern Discovery /
Analysis
Hasil
Similarity - Mashup
Text Transformation
InternetDatabase
Internal
Gambar 4. 2 Proses Similarity - Mashup
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
24
Gambar 4.2 mengambakan proses similariy – mashup secara lebih detail.
Seperti yang telah dijelaskan sebelumnya bahwa framework memanfaatkan dua
jenis data resources, yakni data dari internal dan external sistem. Kedua jenis data
resources ini akan dihitung kemiripannya dengan konten utama melalui proses
yang terdiri dari beberapa tahapan, yaitu tahap preprocessing, tahap
transformation, dan tahap pattern discovery/analysis. Akan tetapi perhitungan
nilai similarity ini tidak berlangsung secara bersamaan, untuk perhitungan nilai
similarity antara konten utama dengan artikel internal dilakukan pada saat admin
website melakukan perubahan pada data artikel. Sedangkan untuk perhitungan
nilai similarity antara konten utama dengan gambar internal, video internal,
banner internal, artikel external, gambar external, dan juga video external
dilakukan pada saat halaman website dibuka. Perbedaan waktu perhitungan ini
dilakukan agar perhitungan nilai similarity bisa lebih cepat.
Berikut keterangan lebih detail dari masing-masing tahapan dalam proses
similarity - mashup:
3.1.1 Text Preprocessing
Seperti yang telah dijelaskan sebelumnya bahwa pada tahap preprosessing
dilakukan proses case folding dan tokenization. Sebelum dilakukan proses ini
terlebih dulu dilakukan proses penyaringan dengan menghilangkan berbagai tanda
baca, berbagai karakter khusus dan berbagai tag html. Berbagai tanda baca dan
karakter khusus tersebut seperti "?", "@", "#", "$", "%", "^", "*", "-", "_", "+",
"=", dan lain-lain.
Setelah melewati dua proses tersebut barulah dilakukan proses
pengubahan kata kedalam bentuk huruf kecil (case folding). Setelah melewati
proses case folding selanjutnya dilakukan proses tokenization. Proses ini
dilakukan dengan memisah dokumen menjadi kata dengan mengunakan spasi
sebagai pemisah.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
25
3.1.2 Text Transformation
Seperti yang telah dijelaskan sebelumnya bahwa pada tahap text
transformation ini dilakukan proses filtering dan stemming. Proses filtering
dilakukan untuk menghilangkan stop-word yang mana daftar stop-word diperoleh
dari (Tala, 2003). Sedangkan untuk proses stemming yang bertujuan untuk
mendapatkan kata dasar dilakukan dengan mengunakan algoritma stemming
Nazief & Andriani. Pada tugas akhir ini kata dasar yang akan digunakan sebagai
acuan pada proses stemming diambil dari website bahtera
(http://www.bahtera.org). Bahtera merupakan kamus bahasa Indonesia yang
menjadi rujukan sesuai Kamus Besar Bahasa Indonesia (KBBI). Dimana kata
dasar tersebut terdiri dari 28.526 kata.
3.1.3 Pattern Discovery /Analysis
Pada tahap ini dilakukan representasi nilai numerik yaitu dengan
melakukan pembentukan model ruang vektor dan pembobotan pada setiap kata
dari setiap dokumen. Setelah selesai perhitungan bobot selanjutnya dilakukan
proses perhitungan similarity dengan menggunakan metode Cosine Similarity
seperti yang telah dijelaskan sebelumnya.
Perhitungan kemiripan antara konten utama dengan semua kandidat
relevant content didasarkan pada kesamaan metadata konten. Dengan kata lain,
pada penelitian ini metadata diibaratkan sebagai dokumen ketika proses
perhitungan similarity. Tiap jenis konten memiliki metadata tersendiri dalam
perhitungan similarity. Hal ini bertujuan untuk mendapatkan nilai similarity yang
tinggi. Adapun metadata dari setiap jenis konten yang dipakai dalam menghitung
kesamaan ditunjukkan pada tabel 4.1.
Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity
No Artikel
utama
Internal resources External resources
Artikel Gambar Video Banner Artikel Gambar Video
1
judul, isi
artikel, tag
judul, isi
artikel, tag - - - - - -
2 Judul - Judul Judul Judul Judul Snippet Judul
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
26
Hasil dari perhitungan nilai similarity antara konten utama dengan
kandidat relevant content akan disimpan dalam cache khusus. Masing-masing
jenis relevant content memiliki batas waktu penyimpanan cache yang berbeda-
beda, untuk relevant content yang berasal dari internal sistem akan disimpan
selama 24 jam sedangkan untuk relevant content yang berasal dari external sistem
akan disimpan selama 6 jam. Ketika batas waktu penyimpanan cache habis maka
akan dilakukan perhitugan kembali nilai similarity antara konten utama dengan
kandidat relevant content. Penyimpanan cache hasil relevant content ini dilakukan
karena perhitungan similarity antara konten utama dengan kandidat relevant
content dalam rentang waktu yang kecil sering kali menghasilkan relevant content
yang sama sehingga dengan adanya penyimpanan cache diharapkan user dapat
langsung melihat hasil relevant content tanpa perlu menunggu perhitungan nilai
similarity. Selain itu dengan adanya pembatasan waktu dalam penyimpanan cache
ini diharapkan dapat menjaga relevant content agar tetap dinamis.
Batas waktu penyimpanan cache tidak berlaku untuk artikel internal. Hal
ini karena nilai similarity antara konten utama dengan artikel internal hanya akan
berubah ketika admin website melakukan perubahan pada data artikel.
3.2 Pengumpulan Data
Data yang digunakan dalam penelitian ini berasal dari dua jenis data yakni
dari internal dan external sistem.
3.2.1 Data Internal
Data dari internal sistem berupa 30 artikel, 100 gambar, 10 banner, dan 50
video yang diambil dari beberapa website di internet dan selanjutnya disimpan
kedalam database sistem.
3.2.2 Data External
Data dari external sistem merupakan data yang secara langsung diambil
dari berbagai website di internet ketika modul relevant content berjalan
(mashup). Pada tugas akhir ini akan digunakan salah satu dari Google API yakni
Google Search API dalam memperoleh konten mashup. Berbagai konten tersebut
diperoleh dengan mengirim query request berupa metadata (judul) dari konten
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
27
utama. Metadata dari konten utama ini digunakan untuk melakukan pencarian
pada Google Search Engine. Selanjutnya akan diperoleh berbagai jenis konten
seperti artikel, gambar, dan video.
Data yang dihasilkan Google Search API berupa data JSON. Data JSON
hasil dari Google Search API mempunyai format khusus. Adapun format data
JSON tersebut adalah sebagai berikut :
{
"responseData" : {
"results" : [],
"cursor" : {}
},
"responseDetails" : null | string-on-error,
"responseStatus" : 200 | error-code
}
Dalam mendapatkan konten berupa artikel, gambar , dan video digunakan
tiga tipe Google Search API. Untuk mendapatkan konten berupa artikel digunakan
Google web search, untuk konten berupa gambar digunakan Google Image Search
, dan untuk mendapatkan konten berupa video digunakan Google Video Search.
Pada saat melakukan suatu pencarian pastilah ada batasan tertentu, begitu
juga pada pencarian dengan memanfaaatkan Google Web Search, Google Image
Search, maupun Google Video Search. Pada tiga tipe Google Search API tersebut
ada banyak argument dalam menentukan batasan pencarian. Namun pada tugas
akhir ini hanya akan digunakan beberapa argument saja. Beberapa argument
tersebut ditunjukkan pada tabel 4.2.
Tabel 4. 2 Argument Batasan Pencarian Pada Google Search API
No Argument Contoh Keterangan
1 key? key = ' ' Merupakan API key yang bisa diperoleh di
http://code.google.com/apis/ajaxsearch/signup.ht
ml
2 Q q=Paris%20Hilton Argument ini digunakan untuk mengirim query
pencarian (query request). q=Paris%20Hilton
merupakan argument untuk mengirim query
"Paris Hilton".
3 V v=1.0 Argument ini digunakan untuk menentukan versi
dari API pencarian. Saat ini hanya tersedia versi
1.0
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
28
Tabel 4.2 Lanjutan
No Argument Contoh Keterangan
4 rsz? rsz=4 Argument ini digunakan untuk menentukan
berapa jumlah hasil yang diterima. Nilainya dapat
berupa bilangan 1 sampai 8. Atau dengan
mengunakan kata "smal" untuk mendapatkan 4
hasil dan kata "large" untuk mendapatkan 8 hasil.
5 hl? hl=fr Argument ini menentukan host bahasa yang
digunakan untuk mengirim query request. Pada
penelitian ini digunakan host bahasa indonesia
(hl=id)
6 as_sitesearch as_sitesearch=travel.
kompas.com
Argument ini digunakan untuk menentutan alamat
website yang digunakan sebagai acuan dalam
melakukan pencarian
7 filter? filter=1 Argument ini digunakan untuk mematikan dan
mengaktifkan penyaringan duplikasi konten.
Filter=1 untuk mengaktifkan penyaringan
duplikasi konten sedangkan filter=0 untuk
mematikan penyaringan duplikasi konten
3.2.2.1 Konten artikel
Konten artikel diperoleh dengan memanfaatkan Google Web Search.
Setiap pencarian di internet pastilah menpunyai acuan pencarian. Pada Google
Web Search alamat acuan yang digunakan dalam melakukkan pencarian adalah :
https://ajax.googleapis.com/ajax/services/search/web
Sebagai contoh akan dikirimkan query request = “Paris Hilton” pada
Google Web Search dengan url sebagai berikut :
https://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=Paris
%20Hilton
Maka query tersebut akan memberikan hasil sebagai berikut :
{"responseData": {
"results": [
{
"GsearchResultClass": "GwebSearch",
"unescapedUrl": "http://en.wikipedia.org/wiki/Paris_Hilton",
"url": "http://en.wikipedia.org/wiki/Paris_Hilton",
"visibleUrl": "en.wikipedia.org",
"cacheUrl": "http://www.google.com/search?q\u003dcache:TwrPfhd22hYJ:en.wikipedia.org",
"title": "\u003cb\u003eParis Hilton\u003c/b\u003e - Wikipedia, the free encyclopedia",
"titleNoFormatting": "Paris Hilton - Wikipedia, the free encyclopedia",
"content": "\[1\] In 2006, she released her debut album..."
},
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
29
{
"GsearchResultClass": "GwebSearch",
"unescapedUrl": "http://www.imdb.com/name/nm0385296/",
"url": "http://www.imdb.com/name/nm0385296/",
"visibleUrl": "www.imdb.com",
"cacheUrl": "http://www.google.com/search?q\u003dcache:1i34KkqnsooJ:www.imdb.com",
"title": "\u003cb\u003eParis Hilton\u003c/b\u003e",
"titleNoFormatting": "Paris Hilton",
"content": "Self: Zoolander. Socialite \u003cb\u003eParis Hilton\u003c/b\u003e..."
},
...
],
"cursor": {
"pages": [
{ "start": "0", "label": 1 },
{ "start": "4", "label": 2 },
{ "start": "8", "label": 3 },
{ "start": "12","label": 4 }
],
"estimatedResultCount": "59600000",
"currentPageIndex": 0,
"moreResultsUrl": "http://www.google.com/search?oe\u003dutf8\u0026ie\u003dutf8..."
}
}
, "responseDetails": null, "responseStatus": 200}
Dari hasil Google Web Search tersebut dapat dilihat ada banyak properties
dari tiap konten seperti url,visibleUrl,cacheUrl, dan lain-lain. Namun pada tugas
akhir ini hanya akan digunakan beberapa properties saja. Nilai dari properties
yang digunakan akan disimpan ke dalam database sistem yang selanjutnya akan
diolah sesuai dengan metode/algoritma yang telah ditentukan sebelumnya guna
mendapatkan kandidat relevant content terbaik. Properties ini akan digunakan
sebagai metadata konten. Berikut beberapa properties yang digunakan :
Tabel 4. 3 Metadata Kandidat Relevant Content Artikel
No Property Keterangan
1 url Property ini menyimpan alamat link dari konten artikel
2 Title Property ini menyimpan judul dari konten artikel
3 Content Property ini menyimpan snippet dari konten. Snippet
merupakan uraian singkat tentang isi konten artikel
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
30
3.2.2.2 Konten gambar
Konten gambar diperoleh dengan memanfaatkan Google Image Search.
Seperti hanya pada Google Web Search, Google Image Search juga memiliki
alamat acuan yang digunakan dalam melakukkan pencarian. Adapun alamat acuan
tersebut adalah :
https://ajax.googleapis.com/ajax/services/search/images
Sebagai contoh akan dikirimkan query request = “Fuzzy Monkey” pada
Google Image Search API dengan url sebagai berikut :
https://ajax.googleapis.com/ajax/services/search/images?v=1.0&q=fuzzy%20monkey
Maka query request tersebut akan memberikan hasil sebagai berikut :
{"responseData": {
"results": [
{
"GsearchResultClass": "GimageSearch",
"width": "450",
"height": "450",
"imageId": "Yt3TRC1vxzhazM",
"tbWidth": "127",
"tbHeight": "127",
"unescapedUrl": "http://www.touchnote.com/files/assets/STAN009.jpg",
"url": "http://www.touchnote.com/files/assets/STAN009.jpg",
"visibleUrl": "www.touchnote.com",
"title": "Touchnote - Personalised \u003cb\u003eFuzzy Monkey\u003c/b\u003e greeting cards
design by Dan \u003cb\u003e...\u003c/b\u003e",
"titleNoFormatting": "Touchnote - Personalised Fuzzy Monkey greeting cards design by Dan
...",
"originalContextUrl": "http://www.touchnote.com/photo/card-design/Fuzzy+Monkey",
"content": "Card Design \u003cb\u003eFuzzy Monkey\u003c/b\u003e",
"contentNoFormatting": "Card Design Fuzzy Monkey",
"tbUrl":
"http://images.google.com/images?q\u003dtbn:Yt3TRC1vxzhazM:www.touchnote.com/files/
assets/STAN009.jpg"
},
{
"GsearchResultClass": "GimageSearch",
"width": "640",
"height": "480",
"imageId": "c6093fGTdNvKOM",
"tbWidth": "137",
"tbHeight": "103",
"unescapedUrl":
"http://stuff.fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg",
"url": "http://stuff.fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg",
"visibleUrl": "www.fuzzymonkeyphotography.com",
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
31
"title": "\u003cb\u003eFuzzy Monkey\u003c/b\u003e Photography",
"titleNoFormatting": "Fuzzy Monkey Photography",
"originalContextUrl": "http://www.fuzzymonkeyphotography.com/",
"content": "Welcome to \u003cb\u003eFuzzy Monkey\u003c/b\u003e",
"contentNoFormatting": "Welcome to Fuzzy Monkey",
"tbUrl": "http://images.google.com/images?q\u003dtbn:c6093fGTdNvKOM:stuff.
fuzzymonkeyphotography.com/front_page/NEW_NEW_logo3_480px.jpg"
}
],
"cursor": {
"pages": [
{"start": "0","label": 1},
{"start": "4","label": 2},
{"start": "8","label": 3},
{"start": "12","label": 4}
],
"estimatedResultCount": "578000",
"currentPageIndex": 0,
"moreResultsUrl":
"http://www.google.com/images?oe\u003dutf8\u0026ie\u003dutf8\u0026source\u003duds\
u0026start\u003d0\u0026hl\u003den\u0026q\u003dfuzzy+monkey"
}
}
, "responseDetails": null, "responseStatus": 200}
Dari hasil Google Image Search tersebut juga didapati berbagai properties.
Namun hanya beberapa saja yang akan digunakan sebagai metadata pada kandidat
relevant content yang berupa gambar. Beberapa properties tersebut diantaranya :
Tabel 4. 4 Metadata Kandidat Relevant Content Gambar
No Property Keterangan
1 url Property ini menyimpan alamat link dari konten gambar
2 Title Property ini menyimpan judul dari konten gambar
3 Content Property ini menyimpan snippet dari konten. Snippet
merupakan uraian singkat tentang isi konten gambar
4 tbUrl Property tbUrl menyimpan alamat link dari thumbnail gambar
3.2.2.3 Konten video
Konten video diperoleh dengan memanfaatkan Google Video Search API.
Alamat acuan yang digunakan dalam melakukan pencarian pada Google Video
Search adalah :
https://ajax.googleapis.com/ajax/services/search/video
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
32
Sebagai contoh akan dikirimkan query request = “Fuzzy Monkey” pada
Google Video Search dengan url sebagai berikut :
https://ajax.googleapis.com/ajax/services/search/video?v=1.0&q=drywall%20repair
Maka query request tersebut akan memberikan hasil sebagai berikut :
{"responseData": {
"results": [
{
"GsearchResultClass": "GvideoSearch",
"title": "Easy Drywall Repair a typical home improvement",
"titleNoFormatting": "Easy Drywall Repair a typical home improvement",
"published": "Mon, 05 Feb 2007 20:10:38 PST",
"content": "An easy way to repair holes in drywall. With this method of repair no nails/screws
wood required!do it youself and save dollars!",
"publisher": "www.youtube.com",
"tbUrl": "http://2.gvt0.com/vi/-zop6ND1h4o/default.jpg",
"tbWidth": "320",
"tbHeight": "240",
"videoType": "YouTube",
"url": "http://www.google.com/url?q\u003dhttp://www.youtube.com/watch%3Fv%3D-
zop6ND1h4o\u0026source\u003dvideo\u0026vgc\u003drss\u0026usg\u003dAFQjCN
GzJTbL6mJ5nn-B_q41Of9EFSKe2Q",
"playUrl": "http://www.youtube.com/v/-
zop6ND1h4o\u0026fs\u003d1\u0026source\u003duds\u0026autoplay\u003d1",
"rating": "4.6581631",
"duration": "230"
},
{
"GsearchResultClass": "GvideoSearch",
"title": "How To Patch a Small Hole in Drywall",
"titleNoFormatting": "How To Patch a Small Hole in Drywall",
"published": "Fri, 23 Oct 2009 05:01:27 PDT",
"content": "Learn how to patch a small hole in drywall so you don\u0026#39;t have to pay
someone to do it.",
"publisher": "www.youtube.com",
"tbUrl": "http://3.gvt0.com/vi/dqsIzriVgn8/default.jpg",
"tbWidth": "320",
"tbHeight": "240",
"videoType": "YouTube",
"url": "http://www.google.com/url?q\u003dhttp://www.youtube.com/watch%3Fv%3DdqsIzriVgn
8\u0026source\u003dvideo\u0026vgc\u003drss\u0026usg\u003dAFQjCNE3sdTecOdP29y
SuEJL_tqTOlT8eg",
"playUrl": "http://www.youtube.com/v/dqsIzriVgn8\u0026fs\u003d1\u0026source\u003duds
\u0026autoplay\u003d1",
"rating": "4.65",
"duration": "110"
}
],
"cursor": {
"pages": [
{"start": "0", "label": 1},
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
33
{"start": "4","label": 2},
{"start": "8","label": 3},
{"start": "12","label": 4}
],
"estimatedResultCount": "218",
"currentPageIndex": 0,
"moreResultsUrl": "http://video.google.com/videosearch?source\u003duds\u0026type\u003
dsearch\u0026q\u003dhow+to+patch+drywall+%28site%3Avideo.google.com+OR+site%3
Ayoutube.com+%29\u0026hl\u003den\u0026start\u003d0"
}
}
, "responseDetails": null, "responseStatus": 200}
Properties hasil dari Google Video Search yang akan digunakan sebagai
metadata pada kandidat relevant content yang berupa video sama dengan
properties yang digunakan pada hasil dari Google Image Search, yakni :
Tabel 4. 5 Metadata Kandidat Relevant Content Video
No Property Keterangan
1 url Property ini menyimpan alamat link dari konten video
2 Title Property ini menyimpan judul dari konten video
3 content Property ini menyimpan snippet dari konten. Snippet
merupakan uraian singkat tentang isi konten video
4 tbUrl Property tbUrl menyimpan alamat link dari thumbnail video.
Thumbnail video merepresentasikan isi dari video.
Website yang akan digunakan dalam memperoleh kandidat relevant
content dari external sistem dapat berasal dari website mana saja namun dalam
penelitian ini hanya akan digunakan beberapa website saja. Adapun beberapa
website yang digunakan dalam memperoleh data dari external sistem yang berupa
artikel dan gambar ditunjukkan pada tabel 4.6. Sedangkan website untuk
memperoleh data external sistem yang berupa video digunakan situs Youtube.
Tabel 4. 6 Website Acuan Konten Mashup
No Nama Website Url
1 Detik travel http://travel.detik.com
2 Indonesia Travel http://wisatamelayu.com/id
3 Wisata melayu http://indonesia.travel
4 Wikipedia http://id.wikipedia.com
5 Solo pos http://solopos.com
6 Google http://google.co.id
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
34
3.3 Experimental
3.3.1 Lingkungan Implementasi
Lingkungan implementasi meliputi lingkungan perangkat keras dan
perangkat lunak
3.3.1.1 Lingkungan Prangkat Keras
Dalam mengkaji metode similarity – mashup untuk modul relevant
content ini digunakan laptop dengan spesifikasi:
1. Prosesor Intel® Core(TM) 2 Duo CPU T5800 @2.00 GHz 2.00GHz
2. VGA Intel® 45 Express Chipset Family
3. Memory 3 GB
4. Harddisk 320 GB
5. Monitor 14”
3.3.1.2 Lingkungan Perangkat Lunak
Perangkat lunak yang digunakan dalam mengkaji metode similarity –
mashup untuk modul relevant content ini adalah:
1. Sistem Operasi Windows 7 Ultimate 32-bit (6.1, Build 7600)
2. WAMPSERVER 2.2
3. PHP Version 5.3.8
4. Apache 2.2.21
5. MySQL 5.5.16
6. Microsoft Office Visio 2007
7. Google Chrome 20.0.1132.57m
3.3.2 Pengujian
Pengujian pada penelitian ini dilakukan dengan cara melakukan input data
berupa artikel sebanyak 20 kali dan melihat hasil relevant content yang dihasilkan
oleh setiap artikel yang diinputkan, baik itu hasil relevant content yang bersumber
dari internal maupun external sistem. Data artikel uji coba selanjutnya akan
diolah bersama dengan data kandidat relevant conent menggunakan metode yang
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
35
telah dijelaskan sebelumnya guna mendapatkan konten-konten yang paling
relevant dengan konten utama.
Relevent content yang dihasilkan akan ditampilkan melalui halaman
website. Relevant content diurutkan terlebih dahulu berdasarkan nilai similarity
sebelum ditampilkan melalui website. Konten dengan nilai nol tidak akan
ditampilkan. Jumlah relevant content yang akan ditampilkan pada halaman web
ditunjukkan pada tabel 4.7.
Tabel 4. 7 Jumlah Relevant Content Yang Ditampilkan
No Konten Sumber Jumlah tampil
1 Artikel Internal 3
2 Gambar Internal 6
3 Video Internal 3
4 Banner Internal 2
5 Artikel External 6
6 Gambar External 6
7 Video External 6
3.4 Experimental Result
Dari hasil uji coba dapat dilihat bahwa modul relevant content telah dapat
terintegrasi pada CMS Lokomedia. Modul Relevant Content dapat memberikan
serta menampilkan konten-konten yang terkait dengan konten utama, baik itu
konten yang berasal dari dalam maupun luar sistem.
Dari hasil uji coba juga dapat dilihat bahwa konten-konten yang berasal
dari luar sistem memberikan nilai similarity yang lebih tinggi dibandingkan
dengan konten-konten yang berasal dari dalam sistem. Hal ini dapat dilihat dari
nilai rata-rata hasil relevant content internal dan external seperti yang ditunjukkan
pada tabel 4.8. Nilai rata-rata dari semua jenis relevant content baik internal
maupun external dihitung dari jumlah nilai similarity setiap konten dibagi dengan
banyaknya konten. Namun khusus untuk relevant content artikel dan gambar
external, nilai rata-rata dihitung dengan menghitung nilai rata-rata relevant
content dari setiap website acuan terlebih dahulu kemudian baru menghitung rata-
rata totalnya. Sebagai contoh misal ada 6 website acuan maka nilai rata-rata
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
36
dihitung dengan menjumlahkan nilai rata-rata dari setiap website acuan tersebut
kemudian dibagi 6.
Tabel 4. 8 Nilai Rata-Rata Hasil Relevant Content Internal Dan External
Percobaan Nilai rata-rata Internal Nilai rata-rata External
Artikel Gambar Video Banner Artikel Gambar Video
1 0.0602 0.0697 0.0969 0.1297 0.2281 0.4916 0.5748
2 0.0568 0.0668 0.0750 0 0.3080 0.4132 0.5218
3 0.0350 0.0477 0.0344 0 0.1668 0.4694 0.2550
4 0.0412 0.0498 0.0384 0 0.1859 0.4557 0.3157
5 0.0639 0.0607 0.0381 0 0.1529 0.5225 0.4096
6 0.0551 0.0599 0.0599 0.0420 0.1727 0.3963 0.2858
7 0.0513 0.0693 0.0762 0 0.1991 0.4260 0.3401
8 0.0718 0.0586 0.0559 0.0363 0.1726 0.3066 0.4551
9 0.0587 0.0277 0.0437 0 0.2554 0.7836 0.2767
10 0.0675 0.0573 0.0682 0 0.1554 0.4603 0.3420
11 0.0794 0.0654 0.0713 0 0.3639 0.5097 0.4329
12 0.0334 0.0291 0.0363 0 0.1906 0.3522 0.1885
13 0.0640 0.0336 0.0407 0 0.2554 0.3323 0.1725
14 0.0472 0.0583 0.0150 0 0.2596 0.3879 0
15 0.0561 0.0694 0.0806 0 0.2042 0.6269 0.2669
16 0.0678 0.0492 0.0849 0 0.1256 0.3498 0.3536
17 0.0269 0.0309 0.0485 0 0.1347 0.2639 0.2956
18 0.0527 0.0432 0.0394 0 0.2238 0.1500 0.0385
19 0.0843 0.0575 0.0671 0 0.1235 0.8926 0.1936
20 0.0203 0.0591 0.0796 0.0666 0.1064 0.3617 0.4160
Rata – Rata 0.0547 0.0532 0.0575 0.0137 0.1992 0.4476 0.3067
Dari tabel 4.8 dapat diketahui selisih nilai rata-rata dari setiap jenis
relevant content yang dihasilkan. Adapun selisih tersebut ditunjukkan pada tabel
4.9.
Tabel 4. 9 Selisih Antara Nilai Rata-Rata Relevant Content Internal Dan External
Jenis
Konten
Nilai rata-rata Selisih
Internal External
Artikel 0.0547 0.1992 0.1445
Gambar 0.0532 0.4476 0.3944
Video 0.0575 0.3067 0.2492
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
37
Selisih nilai rata-rata relevant content artikel external lebih besar 0,1445
dari nilai rata-rata relevant content artikel internal. Kemudian nilai rata-rata untuk
relevant content gambar external lebih besar 0,3944 dan nilai rata-rata untuk
relevant content video external lebih besar 0.2492.
Dalam mendapatkan kandidat relevant content external sangatlah
dipengaruhi oleh website acuan. Apabila website yang dijadikan sebagai acuan
dalam mendapatkan relevant content mengalami down atau website tersebut tidak
memiliki konten yang berkaitan dengan konten utama pada sistem maka secara
otomatis tidak akan ada konten yang dapat diambil untuk dijadikan sebagai
kandidat relevant content.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
38
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil penelitian tugas akhir yang dilakukan, maka dapat
disimpulkan beberapa hal sebagai berikut:
1. Metode similarity – mashup untuk modul relevant content telah dapat
terintegrasi pada CMS Lokomedia. Terbukti dari hasil relevant content
yang telah dihasilkan
2. Setiap jenis konten memiliki metadata tersendiri dalam perhitungan nilai
similarity. Untuk menghitung nilai similarity antara konten utama dengan
artikel internal digunakan judul, isi berita, dan tag, sedangkan untuk
gambar dan video internal digunakan judul. Kemudian untuk menghitung
nilai similarity antara konten utama dengan gambar external digunakan
snippet dan untuk artikel maupun video external digunakan judul.
3. Relevant Content yang berasal dari luar sistem memiliki nilai similarity
yang lebih tinggi dari pada relevant content yang berasal dari dalam
sistem. Hal tersebut dikarenakan konten dari luar sistem lebih banyak dari
pada konten dari dalam sistem sehingga konten dari luar sistem memiliki
kemungkinan kesamaan metadata yang lebih besar dengan konten utama.
Hal ini dapat dilihat dari selisih nilai rata-rata, yang mana nilai rata-rata
relevant content artikel external lebih besar 0,1445 dari nilai rata-rata
relevant content artikel internal. Kemudian rata-rata untuk relevant
content gambar external lebih besar 0,3944 dan rata-rata untuk relevant
content video external lebih besar 0.2492.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
39
5.2 Saran
Berikut ini adalah beberapa saran yang dapat dipertimbangkan jika tugas
akhir ini akan dikembangkan lebih lanjut:
1. Dalam penelitian ini relevant content yang dihasilkan terbatas pada konten
yang berbahasa Indonesia, maka dari itu untuk penelitian selanjutnya bisa
ditambahkan fitur multi language seperti dengan memanfaatkan Google
Translate API untuk mendapatkan relevant content dalam berbagai bahasa.
2. Dalam penelitian tugas akhir ini relevant content didapatkan berdasarkan
kemiripan metadata konten. Untuk penelitian ke depan bisa ditambahkan
metode image processing untuk mendapatkan relevant content gambar
yang lebih akurat.
3. Penerapan teknologi mashup dapat menjadikan konten dari aplikasi web
menjadi lebih dinamis. Namun masalah yang muncul adalah sisi penyedia
data mashup. Ketika penyedia data mengalami masalah atau tidak ada
konten yang terkait dengan konten utama pada sistem, maka sistem juga
akan mengalami masalah yang menyebabkan sistem tidak berjalan
semestinya. Permasalahan ini dapat diminimalisasi dengan menjadikan
penyedia layanan data yang terpercaya sebagai sumber mashup sehingga
kontinuitas dan masalah dengan data bisa dicegah dan konten yang
dinamis dapat terjaga.
4. Pada saat mendapatkan konten mashup juga sangat dipengaruhi oleh
penyedia API, dalam tugas akhir ini Google Search API. Terutama dalam
cara penggunaan API, hal ini karena Google Search API masih terus
dikembangkan. Oleh karena itu diharapkan dalam pengembangan
selanjutnya, atau dalam pengembangan yang lain yang terkait dengan
mashup, pengembang dapat melakukan pemeriksaan berkala terhadap
penyedia API sebagai tindakan preventif demi mengetahui perubahan
informasi yang terjadi, baik dalam format data atau dalam hal yang lain.