Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
PENGARUH PEMBOBOTAN PADA TWEET DI MESIN
PENCARI MENGGUNAKAN METODE TF-IDF
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1
Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh :
PUTRI FITRIYAH
09560483
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2013
LEMBAR PERSETUJUAN
PENGARUH PEMBOBOTAN PADA TWEET DI MESIN
PENCARI MENGGUNAKAN METODE TF-IDF
TUGAS AKHIR
Oleh :
Putri Fitriyah
0 9 5 6 0 4 8 3
Telah Direkomendasikan Untuk Diajukan Sebagai Judul Tugas Akhir Di
Teknik Informatika Universitas Muhammadiyah Malang
Menyetujui,
Pembimbing I
Yuda Munarko, S.kom., M.Sc.
NIP : 108.0611.0443
Pembimbing II
Gita Indah Marthasari, ST
NIP : 108.0611.0442
LEMBAR PENGESAHAN
PENGARUH PEMBOBOTAN PADA TWEET DI MESIN
PENCARI MENGGUNAKAN METODE TF-IDF
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1
Teknik Informatika Universitas Muhammadiyah Malang
Disusun Oleh :
Putri Fitriyah
0 9 5 6 0 4 8 3
Tugas Akhir ini telah diuji dan dinyatakan lulus oleh tim penguji pada
tanggal 18 Oktober 2013
Mengetahui/Menyetujui
Penguji I Penguji II
(Ir. Lailis Syafa'ah, MT) (Sofyan Arifianto, S.Si, M.Kom)
Mengetahui
Ketua Jurusan Teknik Informatika
Eko Budi Cahyono, S.Kom, MT
NIP : 108.9504.0330
LEMBAR PERNYATAAN
Yang bertanda tangan di bawah ini:
Nama : Putri Fitriyah
Tempat / Tgl Lahir : Lamongan, 18 Maret 1990
NIM : 0 9 5 6 0 4 8 3
Fakulats / Jurusan : Teknik / Teknik Informatika
Dengan ini saya menyatakan bahwa Tugas Akhir dengan judul
“PENGARUH PEMBOBOTAN PADA TWEET DI MESIN PENCARI
MENGGUNAKAN METODE TF-IDF” beserta seluruh isinya adalah karya
saya sendiri dan bukan merupakan karya tulis orang lain, baik sebagian maupun
keseluruhan, kecuali dalam bentuk kutipan yang telah disebutkan sumbernya.
Demikian surat pernyataan ini saya buat dengan sebenar-benarnya.
Apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam
karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini
maka saya siap menanggung segala bentuk resiko/sanksi yang berlaku.
Malang, 9 Oktober 2013
Yang Membuat Pernyataan
Putri Fitriyah
Mengetahui,
Dosen Pembimbing I
Yuda Munarko, S.kom., M.Sc.
NIP : 108.0611.0443
Dosen Pembimbing II
Gita Indah Marthasari, ST
NIP : 108.0611.0442
KATA PENGANTAR
Puji syukur kehadirat Allah SWT, yang telah memberi kekuatan dan petunjuk
serta melimpahkan rahmat, dan hidayah-Nya, sehingga penulis dapat
menyelesaikan Tugas Akhir yang berjudul “PENGARUH PEMBOBOTAN
PADA TWEET DI MESIN PENCARI MENGGUNAKAN METODE TF-IDF”.
Dengan menyadari adanya keterbatasan kemampuan, pengetahuan,
referensi dan pengalaman, Tugas Akhir ini masih jauh dari sempurna. Untuk itu
saran dan masukkan untuk kesempurnaan sangat penulis harapkan.
Akhir kata penulis berharap semoga Tugas Akhir ini dapat bermanfaat dan
menjadi tambahan ilmu pengetahuan.
Malang, 9 Oktober 2013
Penulis
LEMBAR PERSEMBAHAN
Dalam penulisan tugas akhir ini tidak akan terselesaikan dengan baik tanpa
adanya bimbingan dan motivasi dari berbagai pihak. Pada kesempatan ini
penulis ingin menyampaikan terima kasih kepada :
• Ir. Sudarman, MT, selaku Dekan Fakultas Teknik, yang telah mengijinkan
peneliti untuk mengikuti Ujian Skripsi sehingga dapat memperlancar
terselesaikannya skripsi ini.
• Eko Budi Cahyono, S.Kom, MT, selaku Ketua Jurusan Teknik Informatika
yang telah mengijinkan peneliti untuk mengikuti Ujian Skripsi sehingga dapat
memperlancar terselesaikannya skripsi ini.
• Ir. Hj. Lailis Syafa'ah, MT, dan Sofyan Arifianto, S.Si, M.Kom, Selaku
dosen penguji yang telah memberikan masukan guna kesempurnaan skripsi
ini.
• Yuda munarko, S.kom., M.Sc. selaku dosen pembimbing I yang telah
mengorbankan waktu dan tenaga untuk membimbing, mengarahkan,
memotivasi, dan memberi bantuan dengan penuh kesabaran dan ketulusan.
• Gita Indah Marthasari, ST selaku dosen pembimbing II yang telah membantu,
membimbing, mengarahkan dan memotivasi penulis dengan iklas.
• Kedua orang tua saya ( Ayahanda tercinta H.Jembar dan Ibunda tersayang
Hj.Suliyanah ) serta saudara-saudara saya beserta keluarga besar saya di
rumah yang sering memberikan doa, semangat dan dukungan baik moril
maupun materil sehingga membuat penulis termotivasi untuk menyelesaikan
skripsi ini.
• AbieQ (Mahfudi, S.Pd,) yang selalu memberi motivasi, inspirasi, dan
semangat dalam menyelesaikan skripsi ini.
• Teman-teman seperjuangan s1 Neny, bude (Lina), Hanum, mbak les (Tari)
dan Bedebah-bedebah Informatika kelas J. Selaku teman yang banyak
membantu dalam menyelesaikan skripsi ini.
DAFTAR ISI
Lembar Persetujuan .................................................................................................. i
Lembar Pengesahan ................................................................................................ ii
Lembar Pernyataan................................................................................................. iii
Abstraksi ................................................................................................................ iv
Abstract ................................................................................................................... v
Kata Pengantar ....................................................................................................... vi
Lembar Persembahan ............................................................................................ vii
Daftar Isi.................................................................................................................. 7
Daftar Gambar ......................................................................................................... 9
Daftar Tabel .......................................................................................................... 10
BAB I PENDAHULUAN ....................................................................................... 1
1.1 LATAR BELAKANG ..................................................................................... 1
1.2 RUMUSAN MASALAH ................................................................................. 2
1.3 TUJUAN ..................................................................................................... 2
1.4 BATASAN MASALAH .................................................................................. 3
1.5 METODE PENELITIAN ................................................................................. 3
1.6 SISTEMATIKA PENULISAN .......................................................................... 5
BAB II LANDASAN TEORI ................................................................................. 6
2.1 TWITTER .................................................................................................... 6
2.2 TEXT MINING ............................................................................................ 6
2.2.1 Definisi Text Mining ............................................................................ 6
2.2.2 Tahapan Text Mining............................................................................ 7
2.3 PEMBOBOTAN .......................................................................................... 11
2.4 ALGORITMA TF-IDF ............................................................................... 11
2.4.1 Definisi Metode TF-IDF ...................................................................... 11
2.4.2 Term Frequency ( TF ) ........................................................................ 12
2.4.3 Inverted Document Frequency (IDF) .................................................. 12
2.4.4 Ilustrasi Algoritma TF-IDF ................................................................. 13
2.4.5 BM25 ................................................................................................... 15
2.4.6 Cosine Similarity ................................................................................ 15
2.5 EVALUASI ................................................................................................ 16
2.5.1 Confusion Matrik ................................................................................ 16
2.5.2 Recall .................................................................................................. 16
2.5.3 Precision.............................................................................................. 16
2.6 MESIN PENCARI ....................................................................................... 17
2.6.1 Definisi Mesin Pencari........................................................................ 17
2.6.2 Cara Kerja Mesin Pencari ................................................................... 18
BAB III ANALISA DAN PERANCANGAN SISTEM ....................................... 19
3.1 ANALISA MASALAH ................................................................................ 19
3.2 ANALISA SISTEM ..................................................................................... 20
3.2.1 Use Case Diagram .............................................................................. 20
3.3 PERANCANGAN SISTEM ........................................................................... 25
3.3.1 Perancangan Data ............................................................................... 25
3.3.2 Class Diagram ..................................................................................... 27
3.3.3 Entity Relationship Diagram .............................................................. 30
3.3.4 Sequence Diagram .............................................................................. 31
3.4 PERANCANGAN DATABASE ..................................................................... 32
3.5 PERANCANGAN PENGUJIAN ..................................................................... 38
3.6 DESAIN INTERFACE ................................................................................. 38
3.6.1 Form Menu Pencarian ......................................................................... 38
BAB IV IMPLEMENTASI DAN HASIL PENGUJIAN ..................................... 40
4.1 SPESIFIKASI KEBUTUHAN HARDWARE DAN SOFTWARE .......................... 40
4.2 IMPLEMENTASI SISTEM ............................................................................ 40
4.2.1. Pembuatan Basis Data ..................................................................... 41
4.2.2. Pembuatan Fungsi Koneksi Database ............................................. 44
4.2.3. Pembuatan Class-Class yang Dibutuhkan ....................................... 44
4.3 IMPLEMENTASI KODE PROGRAM ............................................................. 45
4.3.1 Kode Program Preprocessing.............................................................. 45
4.3.2 Kode Program Pembobotan ................................................................ 47
4.3.3 Kode Program Pencarian .................................................................... 49
4.4 PENGUJIAN .............................................................................................. 53
4.4.1 Pengujian Sistem................................................................................. 53
4.4.1.1 Pengujian Class Preprocessing untuk Data Training .................. 53
4.4.1.2 Pengujian Class Pembobotan ...................................................... 54
4.4.1.3 Pengujian Class Pencarian ........................................................... 55
4.4.2 Analisa Hasil Pengujian ...................................................................... 57
BAB V KESIMPULAN DAN SARAN ................................................................ 63
5.1 KESIMPULAN ........................................................................................... 63
5.2 SARAN ..................................................................................................... 64
DAFTAR PUSTAKA ........................................................................................... 65
LAMPIRAN-LAMPIRAN .................................................................................... 67
BIOGRAFI PENULIS .......................................................................................... 79
DAFTAR GAMBAR
Gambar 2. 1 Tahapan Text Mining ......................................................................... 7
Gambar 2. 2 Contoh Case Folding .......................................................................... 8
Gambar 2. 3 Contoh Tokenizing ............................................................................. 9
Gambar 2. 4 Contoh Filtering ................................................................................. 9
Gambar 2. 5 Contoh Stemming ............................................................................. 10
Gambar 2. 6 Ilustrasi Algoritma TF-IDF .............................................................. 13
Gambar 3. 1 Use Case Diagram Sistem ................................................................ 20
Gambar 3. 2 Activity Diagram Proses Data Training ........................................... 21
Gambar 3. 3 Activity Diagram Melakukan Pencarian .......................................... 24
Gambar 3. 4 Class Diagram Pengaruh Pembobotan pada Tweet di Mesin Pencari
............................................................................................................................... 28
Gambar 3. 5 Entity Relationship Diagram ............................................................ 30
Gambar 3. 6 Sequence Diagram Proses Data Training ........................................ 31
Gambar 3. 7 Sequence Diagram Melakukan Pencarian ........................................ 32
Gambar 3. 8 Form Pencarian ................................................................................ 38
Gambar 4. 1 Data Tabel MySQL .......................................................................... 41
Gambar 4. 2Script Koneksi Basis Data ................................................................. 44
Gambar 4. 3 Class-Class yang Dibutuhkan .......................................................... 45
Gambar 4. 4 Kode Program Kode Program Preprocessing Data (Case Folding,
Tokenizing dan Filtering) ...................................................................................... 45
Gambar 4. 5 Kode Program Preprocessing Data (Stemming) .............................. 46
Gambar 4. 6 Kode Program Preprocessing Data (Pemanggilan method-method) 47
Gambar 4. 7 Kode Program Mapping Data Membaca file txt ............................. 58
Gambar 4. 8 Kode Program Mapping Data untuk Memproses Data ................... 48
Gambar 4. 9 Kode Program Mapping Data menyimpan ke Database ................. 49
Gambar 4. 10 Kode Program Preprocessing pada Class Pencarian ..................... 49
Gambar 4. 11 Kode Program Pencarian .............................................................. 50
Gambar 4. 12 Kode Program Query Perhitungan ................................................ 50
Gambar 4. 13 Kode Program Perhitungan IDF .................................................... 51
Gambar 4. 14 Kode Program Scoring dalam Pencarian menggunkan BM25....... 51
Gambar 4. 15 Kode Program method view pada Class Pencarian ....................... 52
Gambar 4. 16 Data Mentah yang belum di preprocess ........................................ 53
Gambar 4. 17 Data hasil Filtering ........................................................................ 54
Gambar 4. 18 Data hasil Stemming ...................................................................... 54
Gambar 4. 19 Tabel TF hasil mapping kata dari stemming.txt ............................ 55
Gambar 4. 20 Tampilan Awal Form Pencarian .................................................... 55
Gambar 4. 21 Tampilan Form Pencarian User Menginputkan kata kunci ............ 56
Gambar 4. 22 Tampilan Hasil Form Pencarian ..................................................... 56
Gambar 4. 23 Hasil Aplikasi Pencarian Tweet ..................................................... 60
Gambar 4. 24 Tampilan Hasil Pencarian di Twitter ............................................. 61
Gambar 4. 25 Tampilan Hasil Pencarian di Twitter ............................................. 61
DAFTAR TABEL
Tabel 3. 1 Contoh Pembobotan TF-IDF ............................................................ 23
Tabel 3. 2 Kriteria Tweet Subjective dan Objective ............................................ 26
Tabel 3. 3 Contoh Anotasi Tweet ........................................................................ 27
Tabel 3. 4 Daftar Tabel yang digunakan dalam Aplikasi .................................... 33
Tabel 3. 5 Tabel Tweet ......................................................................................... 33
Tabel 3. 6 Tabel Tf ............................................................................................... 34
Tabel 3. 7 Tabel Kata ........................................................................................... 35
Tabel 3. 8 Tabel Pencarian ................................................................................... 35
Tabel 3. 9 Tabel Idf ............................................................................................... 36
Tabel 3. 10 Tabel Tweet_Baru ............................................................................. 37
Tabel 3. 11 Tabel Hasil_Pencarian ...................................................................... 37
Tabel 4. 1 Pengujian dengan Kata Kunci Chatib Basri ......................................... 58
Tabel 4. 2 Pengujian dengan Menghitung Recall dan Precision .......................... 59
DAFTAR PUSTAKA
[1] Abror, Fikri K., dan Suadi Wahyu. Komputasi Pembobotan Dokumen
Berbahasa Indonesia Menggunakan Mapreduce. Jurnal Komputasi
Modern. [Online] Unduh: http://thiodream.blogspot.com/2012/03/1.pdf
[maret 2013]
[2] Cosine Similarity (TF-idf) universitas trunojoyo [Online]
http://myblackparade.files.wordpress.com [april 2013]
[3] Definisi Text Mining-member of EEPIS-ITS [Online] http://lecture.eepis-
its.edu/../text%20mining [april 2013]
[4] Dwi, Hendratmo, W., Sunni, Ismail. Analisis Sentimen dan Ekstrasi Topik
PenentuSentimen pada Opini Terhadap Tokoh Publik. Jurnal Sarjana
Institut Teknologi Bandung Bidang Elektro dan Informatika, 2012.
[Online] Unduh: http://stei.itb.ac.id/jurnal/ [maret 2013]
[5] Fitri, Meisya. Perancangan Sistem Temu Balik Informasi dengan Metode
Pembobotan Kombinasi TF-IDF untuk Pencarian Dokumen Berbahasa
Indonesia. Jurnal Informatika, 2013. [Online] Unduh:
http://jurnal.untan.ac.id/index.php/justin/11.pdf [maret 2013]
[6] Jenis-jenis Search Engine TPA www.upp-tpa.com/../menakar-urgensi
[april 2013]
[7] Karmayasa, Oka, dan Bagus, Ida,M. Implementasi Vector Space Model
dan Beberapa Notasi Metode Term Frequency Inverse Documen
Frequency (TF-IDF) Pada Sistem Temu Kembali Informasi. Jurnal.
[Online] unduh : http://ojs.unud.ac.id/index.php/JLK/../2787 [maret 2013]
[8] Mandala, Rila, dan Setiawan, Hendra. Peningkatan Performansi Sistem
Temu Kembali Informasi dengan Perluasan Query secara Otomatis. Jurnal,
2002 . [Online] unduh : http://mirror.kios.undip.ac.id/.. [april 2013]
[9] Okapi BM25 BAB III Metode Penelitian_G11kpa.pdf
http://repository.ipb.ac.id/../.. [maret 2013]
[10] Pembobotan TF-IDF Belajar TKI
http://temukembaliinformasi.wordpress.com/2009/08/26/pembobotan-tf-
idf [maret 2013]
[11] Pembobotan (WEIGHTING) ibprastdp.staff.ipb.ac.id/../10-Skoring.pdf
[april 2013]
[12] Recall & Precision|ilmu perpustakaan
http://iperpin.wordpress.com/2008/03/27/ recall-precisio/
[13] REST API v1.1 Resources Twitter Developers.html
[14] Romelta, Edwin. Opinion Mining di Twitter untuk Customer
FeedbackSmartphone dengan Pembelajaran Mesin. Jurnal Sarjana Institut
Teknologi Bandung Bidang Elektro dan Informatika, 2012. [Online]
Unduh: http://stei.itb.ac.id/jurnal/ [februari 2013]
[15] Safriadi, Novi, dan Wibowo, Ari. Uji Relevansi dan Performansi Sistem
Temu Balik Informasi pada Giggle Search Engine. Jurnal ELKHA, 2011.
[Online] unduh : http://jurnal.untan.ac.id/index.php/Elkha/../33 [maret
2013].
[16] Saraswati, Ni.W.S. Text Mining dengan Metode Naïve Bayes Classified
an Support Vector Machine untuk Sentiment Analys. Tesis, 2011. [Online]
Unduh: www.pps.unud.ac.id/../unud-209 [april 2013]
[17] Suriadnyana, S.G., dan Widiartha.I.M. Perancangan dan Implementasi
Customer Information Gathering Menggunakan Model Ruang Vektor dan
Perluasan Query. Proceeding Seminar Nasional Teknologi Informasi
&Aplikasinya, 2012. [Online] unduh :
http://staff.unud.ac.id/../file/../sang%gede [april 2013]
[18] Susanto, Budi. Text Mining – Kuliah Teknik Informatika UKDW
Yogyakarta lecturer.ukdw.ac.id/../textwebmining. [april 2013]
[19] Text Mining
http://digilib.ittelkom.ac.id/index.php?view=article&catid=20% [april
2013]
[20] Twitter-wikipedia http://id.m.wikipedia.org/wiki/Twitter [maret 2013]
[21] Vemby : Text Mining http://vemby-yoel.blogspot.com/2011/05/text-
mining.html?m=1 [april 2013]