8
PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN CLUSTERING Vidya Ayuningtias¹, M. Arif Bijaksana², Rimba Widhiana Ciptasari³ ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak Seiring dengan pesatnya pertambahan jumlah dan keanekaragaman dokumen yang dapat berdampak besar pada saat pencarian suatu dokumen. Pencarian dokumen yang ada pada saat sekarang ini adalah dengan menampilkan hasil pencarian terurut berdasarkan peringkat kecocokan (document ranking). Hasil yang ditampilkan terkadang tidak sesuai (relevan) dengan yang diinginkan oleh pengguna. Salah satu cara untuk mempermudah pengguna dalam mencari dokumen adalah dengan menggunakan pengkategorian dokumen. Dengan adanya nama kategori dari setiap pengelompokkan dapat memudahkan pengguna karena nama kategori dapat mencerminkan isi dari suatu kumpulan dokumen. Salahsatu cara untuk mengelompokkan dokumen adalah dengan clustering. Pada Tugas Akhir ini akan dilakukan pengelompokkan dokumen berbahasa Indonesi dengan algoritma K Means. Sebelum melakukan pengelompokkan diperlukan proses pre processing yaitu case folding, parsing, pembuangan stopword dan stemming. Proses ini diperlukan untuk mengurangi jumlah kata yang diproses. Nama kategori diberikan pada masing- masing kluster. Penamaan kategori dihitung dari frekuensi kemunculan kata terbanyak dari setiap kluster. Analisis yang dilakukan pada tugas akhir ini adalah membandingkan dua metode pembobotan dan korelasi jarak antar objek. Selain itu, analisis juga dilakukan untuk mengetahui kesesuaian nama kategori dengan dokumen dalam satu kluster dan menganalisis hasil kluster yang dihasilkan dengan melihat nilai convergence, precision dan recall. Kata Kunci : nama kategori, k means, clustering, dokumen, pre processing. Abstract The growth of variety and number of document that give impact in file searching process. File searching which available now just appear the sequence searching result based on level of compatibility (document ranking). The result were appeared occasionally inappropriate (inrelevan) with that was wanted by the user. One of the methods of facilitating the user in looking for the document was by using categorizing of the document. With the existence of the name of the category from each cluster could facilitate the user because the name of the category could reflect the contents from a document collection. One of the methods of grouping the document was with clustering. In this final project will be carried out cluster the Indonesian document with the K Means algorithm. Before clustered was needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce the number of words that was processed. The name of the category was given to each cluster. The naming of the category was counted from the frequency the of the words from each cluster. The analysis that have done in this final project is compare two methods weight and the distance correlation between the object. Moreover, the analysis done to know the compatibility of the name of the category with document in each cluster and analysed results cluster that was produced by seeing the value convergence, precision and recalled. Keywords : name of category, k means, clustering, document, pre processing Powered by TCPDF (www.tcpdf.org) Tugas Akhir - 2008 Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN CLUSTERING

Vidya Ayuningtias¹, M. Arif Bijaksana², Rimba Widhiana Ciptasari³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

AbstrakSeiring dengan pesatnya pertambahan jumlah dan keanekaragaman dokumen yang dapatberdampak besar pada saat pencarian suatu dokumen. Pencarian dokumen yang ada pada saatsekarang ini adalah dengan menampilkan hasil pencarian terurut berdasarkan peringkatkecocokan (document ranking). Hasil yang ditampilkan terkadang tidak sesuai (relevan) denganyang diinginkan oleh pengguna.Salah satu cara untuk mempermudah pengguna dalam mencari dokumen adalah denganmenggunakan pengkategorian dokumen. Dengan adanya nama kategori dari setiappengelompokkan dapat memudahkan pengguna karena nama kategori dapat mencerminkan isidari suatu kumpulan dokumen. Salahsatu cara untuk mengelompokkan dokumen adalah denganclustering. Pada Tugas Akhir ini akan dilakukan pengelompokkan dokumen berbahasa Indonesidengan algoritma K Means. Sebelum melakukan pengelompokkan diperlukan proses preprocessing yaitu case folding, parsing, pembuangan stopword dan stemming. Proses inidiperlukan untuk mengurangi jumlah kata yang diproses. Nama kategori diberikan pada masing-masing kluster. Penamaan kategori dihitung dari frekuensi kemunculan kata terbanyak darisetiap kluster.Analisis yang dilakukan pada tugas akhir ini adalah membandingkan dua metode pembobotandan korelasi jarak antar objek. Selain itu, analisis juga dilakukan untuk mengetahui kesesuaiannama kategori dengan dokumen dalam satu kluster dan menganalisis hasil kluster yangdihasilkan dengan melihat nilai convergence, precision dan recall.

Kata Kunci : nama kategori, k means, clustering, dokumen, pre processing.

AbstractThe growth of variety and number of document that give impact in file searching process. Filesearching which available now just appear the sequence searching result based on level ofcompatibility (document ranking). The result were appeared occasionally inappropriate(inrelevan) with that was wanted by the user.One of the methods of facilitating the user in looking for the document was by using categorizingof the document. With the existence of the name of the category from each cluster could facilitatethe user because the name of the category could reflect the contents from a document collection.One of the methods of grouping the document was with clustering. In this final project will becarried out cluster the Indonesian document with the K Means algorithm. Before clustered wasneeded pre processing process that was case folding, parsing, the disposal stopword andstemming.This process was needed to reduce the number of words that was processed. The nameof the category was given to each cluster. The naming of the category was counted from thefrequency the of the words from each cluster.The analysis that have done in this final project is compare two methods weight and the distancecorrelation between the object. Moreover, the analysis done to know the compatibility of the nameof the category with document in each cluster and analysed results cluster that was produced byseeing the value convergence, precision and recalled.

Keywords : name of category, k means, clustering, document, pre processing

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Page 2: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

1

1. Pendahuluan

1.1 Latar belakang Pesatnya pertambahan jumlah dan keanekaragaman dokumen dapat

berdampak besar pada saat pencarian suatu dokumen. Pencarian dokumen yang ada sekarang ini adalah dengan menampilkan hasil pencarian terurut berdasarkan peringkat kecocokan (document ranking). Pada referensi [4] menyatakan bahwa, terkadang hasil yang ditampilkan dengan pencarian berdasarkan document ranking terdiri dari beberapa halaman dan pengguna biasanya hanya melihat hasil pencarian maksimal pada 10 halaman pertama (Gambar 1-1.a).

Pada tugas akhir ini, dokumen dari hasil pencarian dikategorikan sesuai dengan query yang diinputkan oleh user. Pengkategorian dokumen dapat menguntungkan user pada saat hasil pencarian yang diinginkan lebih dari satu. Dengan adanya pengkategorian dokumen, user tidak perlu membuka halaman terlalu banyak karena dokumen hasil pencarian telah dikelompokkan berdasarkan kategori yang dapat mencerminkan isi dari suatu dokumen, sehingga user lebih mudah dalam menemukan beberapa dokumen yang diinginkan (Gambar 1-1.b).

( a ) ( b ) Gambar 1-1 : Hasil Pencarian dengan document ranking (a) dan pengkategorian (b)

Clustering merupakan salah satu teknik dalam pengkategorian dokumen. Ide

dasarnya adalah dengan mengelompokan dokumen-dokumen ke dalam grup-grup atau clusters berdasarkan kemiripan (similarity) antar dokumen, sehingga dokumen yang berhubungan dengan suatu topik tertentu ditempatkan pada cluster yang sama. Saat ini ada beberapa algoritma clustering yang dikenal yaitu partitional (K Means) dan hierarchical. Clustering dengan metode K means merupakan algoritma sederhana yang dikembangkan oleh Mac Queen pada tahun 1967. Algoritma ini sangat terkenal dengan kemampuannya untuk mengklaster data yang besar dan dapat menangani data outlier. K-means merupakan metode pengklasteran yang memisahkan data kedalam k kelompok yang berbeda artinya sebelum dilakukan klasterisasi maka user harus menentukan jumlah k yang diinginkan. Selain itu k means merupakan center based clustering yang menentukan setiap kluster dari titik pusat klasternya.

Sebelum melakukan pengkategorian dokumen diperlukan proses pre-processing, yaitu case folding, parsing, pembuangan stopwords, dan stemming.

Kategori :

Kucing Jaguar

Jl.Jaguar

Mobil Jaguar

Restoran Jaguar

Query yang dicari : jaguar

Page 1

Document 1

…….mobil jaguar terbaru seharga Rp.100 juta merupakan…….Document 2

…...mobil merk jaguar terbaru dikeluarkan oleh Paris memiliki…..Document 3

………..Document 4

………..………..

Document 10

1 2 3 next >>

Page 1

Document 1…….kucing jaguar seharga Rp.100 juta merupakan…….

Document 2…...Pets shop di Blok M Mall menjual kucing jaguar yang memiliki…..

Document 3………..……….……….

Document 10

Page 2

Doc 11…….kucing jaguar seharga Rp.100 juta merupakan…….

Doc 12…...Jl.jaguar yang memiliki…..

Doc 13………..……….……….

Doc 20

Query yang dicari : jaguar

Page 10

Doc 101…….mobil jaguar terbaru seharga Rp.100 juta merupakan…….

Doc 102…...baju merk jaguar terbaru dikeluarkan oleh Paris memiliki…..

Doc 103………..

Doc 104

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Page 3: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

2

Hal ini diperlukan untuk mengurangi jumlah kata yang diproses. Selain itu diperlukan suatu pembobotan dari setiap kata dalam dokumen sebagai representasi dokumen. Pada Tugas Akhir ini, pembobotan pada sebuah term yang digunakan adalah TF-IDF yang merupakan kombinasi antara TF (Term Frequency) dengan IDF (Invers Document Frequency). Pada saat pembobotan dibutuhkan normalisasi karena setiap dokumen mempunyai panjang yang tidak sama. Salah satu normalisasi yang digunakan adalah normalisasi dengan Maximum Frequency, nilai frekuensi tertinggi dari semua atribut pada sebuah dokumen. Sedangkan untuk menentukan nama kategori dari suatu klaster adalah dengan mencari term yang memiliki frekuensi kemunculan terbesar (Max

( ){ }dtf , ) dari tiap kluster.

1.2 Perumusan masalah Dengan mengacu pada latar belakang masalah di atas, maka permasalahan

yang dibahas dan diteliti adalah : 1. Setiap dokumen mempunyai panjang yang tidak sama, sehingga

diperlukan normalisasi pembobotan pada setiap term. Salah satu normalisasi yang digunakan adalah normalisasi dengan Maximum Frequency. Untuk mengelompokkan dokumen, maka setiap kata yang telah memiliki bobot direpresentasikan kedalam vector space.

2. Kata yang dihasilkan dari mesin pencarian memiliki dimensi kata yang tinggi dan tidak semua kata merupakan kata pembeda (dan, di, ke, yang, dan sebagainya), sehingga perlu dilakukan pre processing untuk mengatasi jumlah dimensi kata yang tinggi dan mengurangi waktu yang digunakan dalam pemrosesan setiap katanya.

3. Penamaan kategori pada masing-masing klusternya memudahkan pengguna dalam mencari dokumen yang diinginkan. Hal ini dikarenakan dengan melihat nama kategori, pengguna dapat mendeskripsikan isi dokumen yang ada dalam tiap kluster.

4. Mengklusterkan dokumen berbahasa Indonesia dari hasil mesin pencarian dengan menerapkan Algoritma K Means. Menganalisis nilai convergence dan tingkat akurasi tiap kluster yang dihasilkan dan relevansi nama kategori dengan tiap dokumen yang ada dalam tiap kluster.

Dalam Tugas Akhir ini batasan masalahnya sebagai berikut: 1. Tidak membahas sistem data mining secara keseluruhan, hanya salah

satu metode data mining yaitu clustering. 2. Dokumen yang digunakan adalah dokumen berbahasa Indonesia. 3. Proses stemming mengacu pada Ejaan Yang Disempurnakan (EYD). 4. Tidak menangani kesalahan penulisan kata yang tidak sesuai dengan

EYD. 5. Menggunakan mesin pencarian (search engine) bantuan. 6. Menggunakan algoritma K Means dalam clustering. 7. Tidak menangani pre processing pada kata-kata yang merupakan istilah

bahasa asing. 8. Nama kategori yang ditampilkan hanya satu kata. 9. Studi kasus yang digunakan adalah dokumen jurnal Tugas Akhir

departemen Informatika.

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Page 4: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

3

10. Menghilangkan abstraksi dan judul yang berbahasa Inggris dalam jurnal Tugas akhir.

1.3 Tujuan Berdasarkan rumusan masalah di atas, maka tujuan dari tugas akhir ini antara

lain: 1. Menerapkan Algoritma K Means pada Clustering sebagai suatu metode

dalam mengkategorikan dokumen dari hasil pencarian. 2. Menganalisis kesesuaian nama kategori dengan melihat tingkat relevansi

nama kategori dengan dokumen yang ada pada tiap klaster. 3. Menganalisis hasil klasterisasi yang dihasilkan dengan melihat nilai

convergence tiap kluster dan tingkat relevansinya dengan cara membandingkan hasil clustering dengan hasil pengelompokan secara manual.

1.4 Metodologi penyelesaian masalah Metode yang digunakan dalam penyelesaian tugas akhir ini adalah :

1. Studi Literatur Mencari referensi dan sumber-sumber lain yang layak yang berhubungan dengan data mining, Clustering, K Means, JSE (Java Search Engine) dan pengkategorian yang baik.

2. Pendalaman Materi Mempelajari konsep clustering dan algoritma K Means sehingga dapat menentukan tujuan yang ingin dicapai berdasarkan parameter-parameter inputan.

3. Perancangan dan Implementasi Merancang program dengan perancangan terstruktur dan mengimplementasikan hasil perancangan menggunakan bahasa pemrograman JSP (Java Server Pages).

4. Analisis dan Evaluasi Melakukan pengujian perangkat lunak dengan menganalisis performansi metode Klasterisasi dengan K Means berdasarkan parameter input berupa jumlah klaster yang diinginkan (k), jumlah kata yang digunakan (snippet), jenis pembobotan dan ukuran kesamaan objek yang digunakan dalam penentuan klaster dari masing – masing dokumen.

5. Penyusunan Laporan Tugas Akhir Menyusun laporan hasil analisis yang dirangkum ke dalam sebuah buku Laporan Tugas Akhir.

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Page 5: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

43

6. Kesimpulan dan Saran

6.1 Kesimpulan Berdasarkan percobaan dan analisis yang telah dibahas dan dilaksanakan

pada bab lima, maka dapat disimpulkan beberapa hal sebagai berikut : 1 Algoritma K Means pada clustering dapat diterapkan pada

pengelompokkan dokumen. Hal tersebut dibuktikan dari pengujian pada sub bab 5.2.5 dimana kluster tersebut menghasilkan maksimum convergence 0,0026 pada inputan jumlah kluster dua, pembobotan TFIDF, dan jarak antar objek dengan kesamaan cosine.

2 Keefektifitasan algoritma k means dalam pengelompokkan dokumen pada TA ini mencapai nilai rata-rata precision 0,7464 dan nilai rata-rata recall 0,6750 yang diambil dari sepuluh kali percobaan. Sedangkan jika dilihat dari nilai maksimum dari sepuluh percobaan adalah 0,8571 untuk precision dan 1 untuk recall.

3 Penggunaan pembobotan TFIDF pada pengelompokkan dokumen lebih menghasilkan nilai convergence dan recall yang lebih bagus dibandingkan dengan normalisasi TFIDF.

4 Penggunaan perhitungan korelasi antar objek dengan menggunakan kesaman cosine pada pengelompokkan dokumen memiliki nilai convergence yang bagus dan persebaran dokumen yang lebih seimbang dibandingan dengan menggunakan jarak euclidean.

5 Penggunaan kombinasi inputan yang terbaik dalam pengelompokkan dokumen pada TA ini adalah dengan TFIDF dan menggunakan kesamaan cosine untuk menghitung korelasi antar objek. Pengujian ini menghasilkan nilai convergence 0,0026, nilai precision 0,8571 dan nilai recall 1.

6 Penentuan jumlah kluster terbaik tidak dapat dilakukan. Hal ini dikarenakan nilai convergence terbaik pada penentuan jumlah kluster bergantung pada query yang diinputkan pengguna. Pada percobaan dengan query ”rekayasa”, “java”, “citra”, “stt telkom”, dan “klasifikasi” didapatkan jumlah kluster terbaik adalah lima jika dilihat dari nilai convergence rata-rata. Sedangkan pada percobaan dengan query ”sms” didapatkan jumlah kluster terbaik yaitu dua dan empat untuk query ”wireless”.

7 Kualitas hasil kluster pengelompokkan dokumen pada TA ini tidak dipengaruhi oleh banyaknya jumlah dokumen. Hal tersebut dibuktikan pada sub bab 5.2.4

8 Penaman kategori dengan memilih maksimum frekuensi kata pada suatu kluster cukup relevan. Hal ini dibuktikan pada sub bab 5.2.6 yang menghasilkan ketidakcocokan dokumen sebesar 28%. Selain itu, juga didukung oleh penilaian subjektif yang menyimpulkan bahwa 81% pengguna merasa terbantu dengan adanya penamaan kategori dalam pencarian dokumen

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Page 6: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

44

6.2 Saran Sebagai acuan dalam melengkapi atau memperbaiki hasil analisis data

yang dilakukan dalam tugas akhir ini. Ada beberapa saran yang dapat dijadikan pertimbangan bagi analisis data selanjutnya, diantaranya :

1. Aplikasi yang dibuat tidak hanya terbatas untuk dokumen berbahasa Indonesia

2. Adanya pembandingan terhadap pengaruh penggunaan stemming pada pengelompokkan dokumen.

3. Penamaan kategori sebaiknya tidak terbatas hanya satu kata dan berdasarkan riset yang telah dilakukan.

4. Pengelompokkan dokumen sebaiknya tidak diambil dari besarnya jumlah snippet (hasil JSE), melainkan dari isi dokumen yang ditentukan (abstraksi, pendahuluan atau yang lainnya).

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Page 7: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

45

Daftar Pustaka [1] Tan, Pang-Ning. and Kumar, Vipin. Introduction to Data Mining. Pearson

Education, Inc., Boston, 2006.

[2] Rosary, Suci. ”Pembangunan Aplikasi Pengelompokan Dokumen dengan Metode Suffix Tree Clustering pada Kumpulan Hasil dari Mesin Pencarian ”, STT Telkom, Bandung, 2003.

[3] Käki, M. and Aula, A.: Findex: Search Results Categories Help Users when Document Raking Fails.

[4] Jansen, B., Pooch, U. A Review of Web Searching Studies and a Framework for Future Research. Journal of the American Society for Information Science and Technology, Vol.52, No.3, 2001, 235-246.

[5] Zamir, O. and Etzioni, O.: Grouper: A Dynamic Clustering Interface to Web Search Results. Proceedings of the 8th International World Wide Web Conference WWW8 (Toronto, Canada), Elsevier Science 1999.

[6] Tala, Fadillah.:A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and Computation Universiteit van Amsterdam The Netherlands.

[7] Zeng, Hua, Jun., Hi, Cei, Qi., Chen,Zheng. Learning to Cluster Web Cluster Search Results.

[8] Jiawei Han and Micheline Kamber. Data Mining : Concepts and Techniques. Intelligent Database Systems Research Lab, School of Computing Science, Simon Fraser University.

[9] Purwatiningsih, Oky. Perangkat Lunak Kamus Berintelegensia untuk Bahasa Indonesia untuk Menentukan Kelas Kata Berdasarkan Kelas Akar Kata dan Imbuhan, STT Telkom Bandung, 2006.

[10] Manning, Christopher., Raghavan, Prabhakar., and Schütze, Hinrich. An Introduction to Information Retrieval.Cambridge University Press Cambridge, England. 2007.

[11] http://ilps.science.uva.nl/Resource/Bi

[12] Departemen Pendidikan dan Kebudayaan 2001.Kamus Besar Bahasa Indonesia. Edisi ketiga. Jakarta : Balai Pustaka.

[13] Pusat Pembinaan dan Pengembangan Bahasa Departemen Pendidikan Nasional Republik Indonesia. 2001 . Pedoman Umum Ejaan Bahasa Indonesia yang Disempurnakan dan Pedoman Umum Pembentukan Istilah.Bandung : CV.

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Page 8: PENGKATEGORIAN HASIL PENCARIAN DOKUMEN DENGAN … · needed pre processing process that was case folding, parsing, the disposal stopword and stemming.This process was needed to reduce

46

Yrama Widya.

[14] Dubes, R. C. and Jain, A. K., Algorithms for Clustering Data, Prentice Hall (1988).

[15] Pirolli, P., Schank, P., Hearst, M., and Diehl, C.: Scatter/Gather Browsing Communicates the Topics Structure of a Very Large Text Collection. Proceedings of CHI’96 (Vancouver, Canada), ACM Press 1996, 213-220.

[16] Asian, Jelita., Williams, Hugh., Tahaghoghi, S,M,M, Stemming Indonesia, School of Computer Science and Information Technology, Melbourne 3001 Australia.

[17] Kadir, Abdul, Pemrograman Web Dinamis denga JSP, Andi Offset. Yogyakarta, 2004.

[18] Hermawan, Beny, Menguasai Java 2 & Pemrograman Object Oriented Programming, Andi Yogyakarta. 2004.

[19] L Madiceo, “A New Way To Explore Patent Databases”, Italy

[20] Hariyanto, Bambang, Esensi-esensi Pemrograman Java, Informatika, Bandung, 2005

[21] Wong, Wai-chiu. and Ada, Wai-chee. Fu.(2000).”Incremental Document Clustering for Web Page Classification”. Department of Computer Science and Engineering The Chinese University of Hong Kong.

Powered by TCPDF (www.tcpdf.org)

Tugas Akhir - 2008

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika