KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL BUKU ... · BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

i

KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL

BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN

BACKPROPAGATION

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana

Komputer Program Studi Teknik Informatika

Oleh :

I Putu Budhi Darma Purwanta

145314063

TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2018

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

BOOK CLASSIFICATION BASED ON IT’S COVER USING

BACKPROPAGATION ATRIFICIAL NEURAL NETWORK

FINAL PROJECT

Presented as Partial Fulfillment of Requirements to Obtain Sarjana

Komputer Degree in Informatics Engineering Department

By :


145314063

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2018


iii

HALAMAN PERSETUJUAN PEMBIMBING


iv

HALAMAN PENGESAHAN PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

v

MOTO

Hidup itu pilihan, jika sudah memilih, hidup

anda akan dimulai, jika belum memilih, hidup

anda akan terhenti.



vi

PERNYATAAN KEASLIAN KARYA

Saya menyatakan sesungguhnya bahwa di dalam skripsi yang saya tulis ini

tidak memuat karya atau bagian karya orang lain, kecuali telah disebutkan dalam

kutipan dan daftar pustaka, sebagaimana layaknya karya ilmiah.

Yogyakarta, 6 September 2018

Penulis



vii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI

ILMIAH UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma:

Nama : I Putu Budhi Darma Purwanta

NIM : 145314063

Demi pengembangan ilmu pengetahuan, saya memberikan kepada

Perpustakaan Universitas Sanata Dharma karya ilmiah yang berjudul :

KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL

BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN

BACKPROPAGATION

Beserta perangkat yang diperlukan (bila ada). Dengan demikian saya

memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk

menyimpan, mengalihkan daam bentuk media lain, mengelolanya dalam bentuk

pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di

internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari

saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama

saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Yogyakarta

Pada Tanggal 6 September 2018

Yang Menyatakan



viii

ABSTRAK

Pada perpustakaan sering terjadi kesalahan untuk mengelompokkan buku,

karena judul sampul tidak sama dengan isi dari buku tersebut. Analisa dapat

dilakukan pada data – data multimedia, dari data multimedia tersebut akan diproses,

pada data gambar akan dilakukan pemrosesan citra untuk mengidentifikasi gambar

tersebut.

Penelitian ini memproses gambar sampul buku menggunakan pemrosesan

citra dan MSER (Maximally Stable Extermal Regions). Mencari tulisan judul

menggunakan OCR (Optical Character Recognition) Tesseract. Hasil tulisan

diproses menggunakan pemerolehan informasi. Tulisan dibandingkan untuk

membentuk matriks numerik, matrik tersebut dimasukkan ke jarigan syaraf tiruan

backpropagation untuk klasifikasi.

Percobaan klasifikasi dengan jaringan syaraf tiruan backpropagation,

dengan optimalisasi arsitektur jaringan, dihasilkan akurasi terbaik satu hidden layer

dengan 15 neuron sebesar 61,2069% dan 2 hidden layer dengan 15 dan 35 neuron

sebesar 63.3053%

Kata Kunci: Klasifikasi, Pemrosesan Citra, MSER, Tesseract,

Pemerolehan Informasi, Jaringan Syaraf Tiruan Backpropagation


ix

ABSTRACT

On library commonly wrong for clustering book cause the tittle of the book

different with the content of the book. Analysis can do it on multimedia data, from

multimedia data will be processed, on image data will doing image processing for

identification that image.

This research processed image book cover using image processing and

MSER (Maximally Stable Extermal Regions). Find word on tittle using Tesseract

OCR (Optical Character Recognition). Word result processed by information

retrieval. Word compares for creating matrix numeric, that matrix using for

classification on the backpropagation artificial neural network.

Classification experiment using the backpropagation artificial neural

network, with optimization network architecture, produce best accuracy 61.2069%

for one hidden layer on 15 neurons and 63.3053% for two hidden layers 15 neurons

and 35 neurons.

Keyword: Classification, Image Processing, MSER, Tesseract,

Information Retrieval, Backpropagation Artificial Neural Network.


x

KATA PENGANTAR

Puji syukur penulis panjatkan kepada Ida Sang Hyang Widhi Wasa atau

Tuhan Yang Maha Esa, yang telah memberikan karunia berlimpah sehingga penulis

dapat menyelesaikan tugas akhir dengan sangat baik.

Penulis menyadari bahwa pada saat pengerjaan tugas akhir ini penulis

mendapatkan banyak bantuan dari berbagai pihak, baik berupa perhatian, kritik, dan

saran serta da yang sangat penulis butuhkan untuk kelancaran dan mendapatkan

hasil yang baik. Pada kesempatan ini penulis akan menyapaikan ucapan terima

kasih kepada:

1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan

Teknologi Universitas Sanata Dharma Yogyakarta.

2. Dr. Cyprianus Kuntoro Adi, S.J., M.A., M.Sc., selaku dosen pembimbing

tugas akhir yang telah sabar dan penuh perhatian membimbing saya dalam

penyusunan tugas akhir.

3. Dr. Anastasia Rita Widiarti, M.Kom., selaku Ketua Program Studi Teknik

Informatika yang selalu memberikan dukungan dan perhatian serta saran

kepada mahasiswa tugas akhir dan pengerjaan tugas akhir.

4. Kedua orang tua tercinta Bapak I Made Sudiana dan Ibu Ni Nyoman

Sutrisnawati yang selalu mendoakan dan memberikan dukungan berupa

moral maupun materi kepada penulis, sehingga penulis dapat

menyelesaikan tugas akhir ini.

5. Seluruh dosen Teknik Informatika atas ilmu yang telah diberikan selama

perkuliahan dan pengalaman yang sangat berarti bagi penulis.

6. JackRakkan, DonatKeju, Sekamir, Jones, serta seluruh teman – teman

sesama peminatan komputasi yang berjuang bersama dan saling

mendukung dalam penyusunan tugas akhir ini.

7. Jarkom Oye ’14 yang selalu mestimulus dopamin penulis ketika

mengerjakan tugas akhir ini.


xi

8. Teman – teman Teknik Informatika Sanata Dharma angkatan 2014,

terimakasih atas semangat dan perjuangan bersama yang telah diberikan

kepada satu sama lain.

9. Anak Ilung dan Nyaik sebagai anak rantau tempat bernaung dalam suka

dan duka selama di Jogja.

10. Big Mom yang selalu memberikan stimulus dan kasih sayang selama

penulisan tugas akhir ini.

Yogyakarta, 6 September 2018

Penulis



xii

DAFTAR ISI

SAMPUL ..................................................................................................... i

COVER ....................................................................................................... ii

HALAMAN PERSETUJUAN PEMBIMBING ........................................ iii

HALAMAN PENGESAHAN ................................................................... iv

MOTO ......................................................................................................... v

PERNYATAAN KEASLIAN KARYA .................................................... vi

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI ILMIAH

UNTUK KEPENTINGAN AKADEMIS ................................................. vii

ABSTRAK ............................................................................................... viii

ABSTRACT ............................................................................................... ix

KATA PENGANTAR ................................................................................ x

DAFTAR ISI ............................................................................................. xii

DAFTAR TABEL .................................................................................... xiv

DAFTAR GAMBAR ............................................................................... xiv

BAB I .......................................................................................................... 1

1.1. Latar Belakang ........................................................................... 1

1.2. Rumusan Masalah ...................................................................... 3

1.3. Tujuan ........................................................................................ 3

1.4. Luaran ........................................................................................ 3

1.5. Batasan Masalah ........................................................................ 4

BAB II ......................................................................................................... 5

2.1. Buku ........................................................................................... 5

2.2. Bahasa ........................................................................................ 7

2.2.1. Kata Dasar .............................................................................. 7

2.2.2. Kata Bentukan ........................................................................ 8

2.3. RGB ......................................................................................... 14

2.4. Grayscale ................................................................................. 14

2.5. Binerisasi Otsu ......................................................................... 14

2.6. Deteksi Maximally Stable Extremal Regions (MSER) ............ 18

2.7. Tesseract OCR ......................................................................... 19

2.8. Pemerolehan Informasi ............................................................ 20

2.8.1. Case-folding ......................................................................... 20

2.8.2. Tokenization ......................................................................... 21

2.8.1. Stop Word Removing ............................................................ 21

2.8.2. Stemming .............................................................................. 21

2.9. Jaringan Syaraf Tiruan ............................................................. 22

2.9.1. Arsitektur Jaringan ............................................................... 22


xiii

2.9.2. Backpropagation .................................................................. 24

BAB III ..................................................................................................... 31

3.1. Gambaran Umum .................................................................... 31

3.1.1. Data ...................................................................................... 31

3.1.2. Preprocessing ....................................................................... 32

3.1.3. Ekstraksi Ciri ........................................................................ 34

3.1.4. Pemerolehan Informasi......................................................... 34

3.1.5. Jaringan Syaraf Tiruan ......................................................... 37

3.1.6. Arsitektur Jaringan Syaraf Tiruan ........................................ 37

3.1.7. Metode Pengujian ................................................................. 42

3.1.8. Model Pembanding .............................................................. 42

3.2. Algoritma ................................................................................. 43

3.2.1. Preprocessing Judul Buku .................................................... 43


3.2.3. Klasifikasi ............................................................................. 44

3.3. Kebutuhan Sistem .................................................................... 44

3.4. Perancangan Antar Muka Sistem............................................. 45

BAB IV ..................................................................................................... 48

4.1. Preprocessing ........................................................................... 48

4.1.1. Pemrosesan Citra .................................................................. 48

4.1.2. Optical Character Recognition ............................................ 50


4.2. Klasifikasi ................................................................................ 53

4.4.1. Satu Hidden Layer ................................................................ 53

4.4.2. Dua Hidden Layer ................................................................ 55

4.4.3. Arsitektur Optimal ................................................................ 57

4.3. Uji Data Tunggal ..................................................................... 58

BAB V ...................................................................................................... 65

5.1. Gambaran Proses ..................................................................... 65

5.2. Kesimpulan .............................................................................. 66

5.3. Saran ........................................................................................ 66

DAFTAR PUSTAKA ............................................................................... 67

LAMPIRAN .............................................................................................. 69

A. Lampiran Program ....................................................................... 70

B. Lampiran Basis Data ................................................................... 90


xiv

DAFTAR TABEL

Tabel 3.1 Ilustrasi perubahan kata ke numerik ......................................... 34

Tabel 3.2 Daftar Perubahan Awalan ......................................................... 35

Tabel 3.3 Gambaran singkat data yang akan masuk JST .......................... 36

Tabel 4.1 Perbandingan Tulisan................................................................ 51

Tabel 4.3 Fold Pertama ............................................................................. 57

Tabel 4.4 Fold Kedua................................................................................ 57

Tabel 4.5 Fold Ketiga ............................................................................... 58

DAFTAR GAMBAR

Gambar 2.1 Gambaran Tata Letak pada Cover Buku ................................. 6

Gambar 2.2 Ilustrasi Perubahan Kata Awalan Ber- .................................. 11

Gambar 2.3 Ilustrasi Perubahan Kata Awalan Per- .................................. 11

Gambar 2.4 Ilustrasi Perubahan Kata Awalan Ter- .................................. 12

Gambar 2.5 Ilustrasi MSER (Dokumentasi Matlab 2010b) ...................... 19

Gambar 2.6 Ilustrasi Jaringan Lapis Tunggal (Hagan & Demuth, 2014) 23

Gambar 2.7 Ilustrasi Jaringan Lapis Majemuk (Hagan and Beale, 2014) 23

Gambar 2.8 Jaringan 3 Layer (Hagan and Beale, 2014) ........................... 24

Gambar 2.9 Contoh Jaringan Fungsi Aprokmasi ...................................... 25

Gambar 2.10 Jaringan 3 Lapis, dengan notasi ringkas ............................. 26

Gambar 3.1 Diagram Blok Sistem ............................................................ 31

Gambar 3.2 Contoh Cover Buku .............................................................. 32

Gambar 3.3 Preprocessing I ...................................................................... 33

Gambar 3.4 Hasil Deteksi Objek Menggunakan MSER .......................... 33

Gambar 3.5 Gambar setelah koordinat selain MSER diubah menjadi 0 .. 33

Gambar 3.6 Tampilan menu utama ........................................................... 45

Gambar 3.7 Tampilan jendela preprocessing uji tunggal ......................... 47


file:///C:/Users/budhidarmap/Desktop/KLASIFIKASI%20BUKU%20BERDASARAKAN%20GAMBAR%20SAMPUL%20BUKU%20MENGGUNAKAN%20JARINGAN%20SYARAF%20TIRUAN%20BACKPROPAGATION%20.docx%23_Toc524166455

xv

Gambar 4.1 Menggunakan region area 20-1200 dan thershold delta 12 . 49

Gambar 4.2 Menggunakan region area 20-800 dan thershold delta 5 ...... 49

Gambar 4.3 Contoh gambar setelah diproses grayscale yang tidak bisa

dideteksi MSER ........................................................................................ 49

Gambar 4.4 Contoh hasil MSER grayscale gambar yang baik ................ 50

Gambar 4.5 Contoh hasil setelah piksel koordinat selain nilai MSER diubah

menjadi 0 ................................................................................................... 50

Gambar 4.6 Arsitektur JST satu hidden layer ........................................... 53

Gambar 4.7 Arsitektur JST dua hidden layer dengan layer pertama 15

neuron ....................................................................................................... 55

Gambar 4.8 Arsitektur JST dua hidden layer dengan layer pertama 25

neuron ....................................................................................................... 56

Gambar 4.9 Arsitektur JST optimal .......................................................... 57

Gambar 4.10 Preprocessing Data 1 .......................................................... 58

Gambar 4. 11 Hasil Data 1 ........................................................................ 59

Gambar 4. 12 Preprocessing Data 2 ......................................................... 59











1

BAB I

PENDAHULUAN

1.1. Latar Belakang

Buku merupakan jenis literatur tua yang masih digunakan hingga kini,

terdapat banyak perpustakaan dan percetakan di dunia, setiap buku mungkin

membahas hal yang sama tetapi tidak akan memiliki informasi yang sama persis.

Selain informasi yang menarik, buku juga memiliki bagian unik yakni sampul.

Buku memiliki sampul yang berbagai macam, sampul tersebut berisikan informasi

tentang buku tersebut, terkadang judul pada sampul tersebut tidak mirip dengan isi

dari sebuah buku.

Pada perpustakaan sering terjadi kesalahan untuk mengelompokkan buku,

tidak dimungkinkan untuk mengetahui secara detail buku – buku yang dimiliki oleh

perpustakaan, hal tersebut membuat pengelompokan hanya dilakukan berdasarkan

judul pada sampul bukunya saja, karena judul sampul tidak sama dengan isi dari

buku tersebut, sering terjadi kesalahan penempatan buku.

Banyak perusahaan besar bernaung pada penjualan buku seperti Amazon

yang memiliki refrensi penjualan buku yang sangat banyak, tujuan untuk

memudahkan pembeli dalam memilih buku yang dibantu oleh sistem rekomendasi

dari Amazon, dilakukan pemetaan karakteristik pembeli atau pembaca, dengan

menambang informasi yang ada pada akun pembeli, masyarakat mengunggah data

multimedia misalnya sampul buku, dari sampul tersebut bisa dicari hubungan

antara pembeli dengan data yang mereka unggah.

Upaya untuk melakukan analisa pembeli dapat dilakukan pada data – data

multimedia pengguna, dari data multimedia tersebut akan diproses, pada data

gambar akan dilakukan pemrosesan citra untuk mengidentifikasi gambar tersebut,

pada kasus sampul buku, gambar akan diproses untuk mendapatkan judulnya, judul

diprosesan untuk mengetahui judul buku, dari judul tersebut dilakukan analisa


2

untuk mengetahui buku yang dicari dan kekerabatannya, dari data tersebut maka

akan ditemukan buku yang sesuai dengan data pengguna.

(Iwana et al., 2016) telah melakukan penelitian serupa untuk sampul buku.

Pada penelitian tersebut dilakukan deep learning menggunakan Jaringan Syaraf

Tiruan dan dilakukan pada seluruh sampul buku dengan hasil akurasi yang hanya

dibawah 70%, pada penelitian tersebut umumnya menggunakan tiga jenis ciri yakni

ciri warna, ciri gambar, dan ciri tulisan. Pada ciri warna pada umumnya semakin

muda warna sampul mengindikasikan semakin muda juga calon pembaca buku

tersebut. Pada ciri gambar di penelitian tersebut dikatakan gambar akan

mempengaruhi topik yang cenderung sama dengan gambar sampul. Pada ciri

tulisan sebuah buku yang berisikan tentang ilmu filsafat, sosial, hukum dan misteri

akan cenderung memiliki tulisan yang banyak pada sampulnya.

Penulis melihat perbedaan yang sudah dijelaskan sebelumnya sebagai

sebuah masalah yang ingin diteliti penulis, dengan mencari tahu hubungan antara

judul pada sampul buku dengan informasi yang akan dipaparkan dalam buku

tersebut dengan mengelompokan buku – buku berdasarkan judul pada sampulnya

dan membandingkannya dengan informasi yang didapat melalui metode penulis

gunakan dan membandingkannya dengan informasi isi dari buku tersebut, sehingga

dapat menjawab pertanyaan apakah sampul tersebut dapat digunakan untuk

mengelompokkan buku dan mengetahui genre buku tersebut.

Ada beberapa metode untuk melakukan klasifikasi yakni Naïve Bayes,

Dessicion Tree, Support Vector Machine, dan Jaringan Syaraf Tiruan. Terdapat

beberapa metode klasifikasi dengan Jaringan Syaraf Tiruan. Metode CNN untuk

klasifikasi buku (Iwana et al., 2016) dan Backpropagation untuk klasifikasi burung

(Putera, 2016)

Penulis ingin membuat model klasifikasi buku, model ini akan melakukan

identifikasi secara otomatis judul pada sampul buku. Preprocessing sebelum

dilakukan klasifikasi menggunakan pemrosesan citra dan pemerolehan informasi.


3

1.2. Rumusan Masalah

Rumusan masalah yang ingin dijawab penulis dalam penelitian ini adalah

sebagai berikut:

1. Apakah pemerolehan informasi mampu mengektraksi ciri pada

setiap judul buku?

2. Apakah metode Backpropagation dapat mengklasifikasi buku

berdasarkan ekstraksi ciri dari sampul buku?

1.3. Tujuan

Tujuan yang ingin dicapai dari penelitian ini adalah sebagai berikut:

1. Melakukan identifikasi gambar tulisan menggunakan optical

character recognition.

2. Menggunakan pemerolehan informasi untuk mendapatkan

ekstraksi ciri judul buku.

3. Membangun model klasifikasi buku menggunakan jaringan

syaraf tiruan backpropagation.

1.4. Luaran

Dengan penelitian ini diharapkan mendapat luaran sebagai berikut:

1. Klasifikasi judul pada sampul buku dapat dilakukan dan

mendapat akurasi yang baik sehingga luaranya dapat

dipertanggung jawabkan

2. Klasifikasi dapat dilakukan dengan menggunakan judul pada

sampul buku untuk dikelompokkan.


4

1.5. Batasan Masalah

Batasan masalah yang penulis akan pakai dalam penelitian ini sebagai

berikut:

1. Penulis menggunakan data sampul buku dari percetakan

Kanisius untuk melakukan penelitian ini dengan tinggi gambar

180px.

2. Data Sampul yang digunakan hanya sampul kerohanian, filsafat,

dan pelajaran.

3. Penulis akan mebandingkan informasi yang sudah ada pada data

dari nama buku dengan hasil dari klasifikasi untuk mengetahui

kecocokan antara sampul dan topik buku

4. Penulis hanya akan membatasi pemrosesan citra pada judul buku

pada sampulnya saja.


5

BAB II

TINJAUAN PUSTAKA

2.1. Buku

Buku modern disusun menurut format tertentu yang disebut tata letak buku.

Meskipun ada variasi tata letak yang banyak, buku modern cenderung mematuhi

seperangkat peraturan berkaitan dengan bagian tata letak dan isi konten mereka

biasanya. Tata letak dasar akan mencakup sampul depan, penutup belakang, dan isi

buku yang disebut halaman salinan atau konten tubuhnya. Sampul depan sering

memakai judul buku (dan sub judul, jika ada) dan nama pengarang atau editornya.

Bagian depan sampul depan biasanya kosong pada buku hardcover dan paperback

(Shelly, Gary B.; Starks, 2011).

Buku memiliki tiga bagian yakni sampul depan, belakang, dan isi, pada

sampul depan terdapat grafis dan tulisan judul dari buku tersebut, pada umumnya

tulisan pada cover menggunakan font Times New Roman, Arial, dan Trebuchet MS,

pada judul sampul buku memiliki karakteristik yang berbeda - beda tidak sama satu

sama lain, pada posisi judul buku tidaklah menentu, pada umumnya posisi judul

pada sampul buku terletak pada seperempat bagian atas sampul menggunakan rata

tengah, dan pengarang terletak pada seperempat bagian pojok bawah sampul.


6

Gambar 2.1 Gambaran Tata Letak pada Cover Buku

Sebagai prasyarat penting untuk pencarian gambar berbasis teks, teks dalam

gambar harus ditempatkan dengan baik. Namun, menjadi menantang karena

beragamnya tampilan teks, seperti variasi font dan gaya, distorsi geometrik dan

fotometrik, oklusi parsial, dan kondisi pencahayaan yang berbeda. Deteksi teks

telah dipertimbangkan dalam banyak penelitian terkini dan berbagai metode

dilaporkan dalam literatur (Chen et al., 2011).

Buku memiliki variasi dalam tampilan teks, seperti variasi font dan gaya,

distorsi geometrik dan fotometrik, oklusi parsial, dan kondisi pencahayaan yang

berbeda hal ini tak lepas dari keinginan penerbit untuk meningkatkan daya tarik

pembeli sehingga sampul buku disisipkan berbagai macam unsur seni dan

keindahan, kreasi tersebut bisa membuat perbedaan antara satu buku dengan buku

yang lain atau setiap buku memiliki ciri khas tertentu.

Judul Lokasi umum Judul

Pengarang Lokasi umum pengarang


7

2.2. Bahasa

Bahasa mempunyai dua aspek, yaitu aspek bentuk dan aspek makna

(Mustakim, 2014). Aspek bentuk berupa wujud suara atau wujud visual suatu

bahasa. Wujud suara dapat diketahui dari bunyi-bunyi bahasa yang didengar, wujud

visual berupa lambang-lambang bunyi bersistem yang tampak jika bahasa itu

dituliskan. Aspek makna merujuk pada pengertian yang ditimbulkan oleh wujud

audio atau wujud visual bahasa itu. Dengan contoh sebagai berikut:

(1) Indonesia merupakan negara kepulauan yang berbentuk republik.

Contoh (1) tersebut memperlihatkan wujud visual suatu bahasa yang

berbentuk kalimat. Kalimat adalah satuan bahasa yang terdiri dari rangkaian

beberapa kata yang mengandung informasi cukup lengkap.

Kata-kata yang membentuk kalimat (1) terdiri atas tujuh kata, ketujuh kata

yang dimaksud adalah sebagai berikut.

Indonesia (kata dasar)

merupakan (kata bentukan)

negara (kata dasar)

kepulauan (kata bentukan)

yang (kata dasar/penghubung)

berbentuk (kata bentukan)

republik. (kata dasar)

2.2.1. Kata Dasar

Kata dasar selain dapat digunakan sebagai dasar bagi bentukan kata lain

yang lebih luas, dapat pula digunakan tanpa ditambah dengan imbuhan apa pun.

Beberapa kata yang tergolong sebagai kata dasar sudah diketahui dan sudah

tersimpan di dalam memori para pengguna bahasa. Jika akan digunakan, kata-kata

tinggal dikeluarkan dari memori atau ingatan. Demikian dalam berbahasa tidak ada


8

masalah jika informasi yang disampaikan seluruhnya dinyatakan dalam bentuk kata

dasar.

2.2.2. Kata Bentukan

Pembentukan kata adalah proses membentuk kata dengan menambahkan

imbuhan atau unsur lain pada kata dasar. Dalam bahasa Indonesia, pembentukan

kata dapat dilakukan dengan menggunakan berbagai cara. Cara yang dimaksud

adalah sebagai berikut.

2.2.2.1. Pengimbuhan

Imbuhan dalam bahasa Indonesia terdiri atas empat macam dibagi

berdasarkan tata letaknya. Pertama, imbuhan pada awal kata lazim disebut awalan

(prefiks). Kedua, imbuhan pada akhir kata lazim disebut akhiran (sufiks). Ketiga,

imbuhan pada tengah kata lazim disebut sisipan (infiks). Keempat, imbuhan pada

awal kata dan akhir kata sekaligus lazim disebut gabungan imbuhan (konfiks).

Beberapa contoh imbuhan itu dapat diperhatikan sebagai berikut.

a. Awalan

meng- → menulis, melamar, memantau

di- → ditulis, dilamar, dipantau

peng- → penulis, penyanyi, peramal

ber- → berkebun, bermain, bermimpi

ter- → terpaksa, terpadu, tersenyum

se- → serupa, senada, seiring

b. Akhiran

ian- → tulisan, tatapan, tantangan

i- → temui, sukai, pandangi

kan- → tumbuhkan, sampaikan, umumkan


9

c. Sisipan

el- → geletar, geligi, gelantung

em- → gemuruh, gemetar

er- → gerigi

d. Gabungan Imbuhan

meng-...-kan → menemukan, meratakan

meng-...-i → memandangi, mengunjungi

peng-...-an → pendidikan, pemandian

ke-...-an → kehujanan, kemajuan

se-...-nya → seandainya, sebaiknya

per-...-an → peraturan, persimpangan

A. Pembentukan Kata dengan Awalan

Awalan meng- dan peng- dapat mengalami perubahan bentuk jika

digabungkan dengan kata dasar yang berawal dengan fonem tertentu. Awalan

meng-, misalnya, dapat berubah bentuknya menjadi me-, meny-, men-, mem-, dan

menge-. Begitu dengan awalan peng-. Seperti awalan meng-, awalan peng- juga

dapat berubah menjadi pe-, peny-, pen-, pem-, dan penge-.

I. Perubahan Awalan Meng- dan Peng-

1) Awalan meng- dan peng- berubah menjadi me- dan pe- jika

dirangkaikan dengan kata dasar yang berawal fonem /r, l, m, n, w, y,

ng, ny/. Misalnya:

meng-/peng - + nyanyi → menyanyi, penyanyi

2) Awalan meng- dan peng- berubah menjadi mem- dan pem- jika

dirangkaikan dengan kata dasar yang berawal dengan fonem /p, b, f,

v/. Misalnya:

meng-/peng - + bawa → membawa, pembawa


10

3) Awalan meng- dan peng- berubah menjadi men- dan pen- jika

dirangkaikan dengan kata dasar yang berawal dengan fonem /t, d, c,

j, z, sy/. Misalnya:

meng-/peng - + tuduh → menuduh, penuduh

4) Awalan meng- dan peng- tetap menjadi meng- dan peng- jika

dirangkaikan dengan kata dasar yang berawal dengan fonem /k, g,

h, kh, dan vokal/. Misalnya:

meng-/peng- + karang → mengarang, pengarang

5) Awalan meng- dan peng- berubah menjadi meny- dan peny- jika

dirangkaikan dengan kata dasar yang berawal dengan fonem /s/.

Misalnya:

meng-/peng- + sayang → menyayang, penyayang

6) Awalan meng- dan peng- berubah menjadi menge- dan penge- jika

dirangkaikan dengan kata dasar yang hanya terdiri atas satu suku

kata. Misalnya:

meng-/peng- + tes → mengetes, pengetes

7) Fonem /k, p, t, s/ pada awal kata dasar luluh jika mendapat awalan

meng- dan peng-. Misalnya:

meng-/peng- + kikis → mengikis, pengikis


11

II. Perubahan Awalan ber-

Awalan ber- dapat berubah menjadi be- dan bel- atau tetap menjadi ber-.

Awalan ber- berubah menjadi be- jika digabungkan dengan kata dasar yang berawal

dengan fonem /r/ atau kata dasar yang suku kata pertamanya mengandung bunyi

[er].

Ber-

Be-

Bel-

Ber-

Beroda

Belajar

Bertanya

Gambar 2.2 Ilustrasi Perubahan Kata Awalan Ber-

III. Perubahan Awalan per-

Awalan per- dapat berubah menjadi pe- dan pel- atau tetap menjadi per-.

Dalam hal ini, awalan per- berubah menjadi pe- jika digabungkan dengan kata yang

mempunyai pertalian bentuk dengan kata lain yang berawalan ber- atau jika

digabungkan dengan kata yang berawal dengan fonem /r/.

Per-

Pe-

Pel-

Per-

Petani

Pelajar

Pertanda

Gambar 2.3 Ilustrasi Perubahan Kata Awalan Per-

IV. Perubahan Awalan ter-

Awalan ter- hanya dapat berubah menjadi te- jika digabungkan dengan kata

dasar yang berawal dengan fonem /r/ atau suku kata pertamanya mengandung bunyi

[er]. Awalan ter- tetap menjadi ter- jika digabungkan dengan kata dasar yang lain.


12

Ter-

Te-

Ter-

Terasa

Terbaik

Gambar 2.4 Ilustrasi Perubahan Kata Awalan Ter-

V. Pertalian Bentuk

Dalam pembentukan kata terdapat pertalian bentuk antara awalan peng- dan

meng- serta awalan per- dan ber-. Contohnya pada bentukan kata pengembangan

dan perkembangan.

B. Pembentukan Kata dengan Akhiran

Akhiran dalam bahasa Indonesia sebagaimana telah disebutkan di atas

adalah –an, -kan, dan –i. Imbuhan –isasi yang sering digunakan dalam bahasa

Indonesia berasal dari –isatie (Belanda) atau –ization (Inggris). Imbuhan asing –ir

menggunakan unsur serapan yang berasal dari bahasa Inggris. Imbuhan –wan dan

–man semula juga berasal dari bahasa asing, yakni bahasa Sanskerta.

C. Pembentukan Kata dengan Sisipan

Sisipan dalam bahasa Indonesia jumlahnya sangat terbatas yakni –em-, -el-

, –er-,dan –in-.

D. Pembentukan Kata dengan Gabungan Imbuhan

Imbuhan di-...-kan atau meng-...-kan jika ditambahkan pada kata-kata dasar

yang berakhir dengan huruf /k/, kata bentukannya akan mengandung dua huruf /k/.

Imbuhan peng- jika diikuti akhiran, akhiran yang mengikutinya adalah –an,

bukan –kan, sehingga gabungan imbuhan itu menjadi peng-...-an, sama seperti

imbuhan ke-...an.


13

2.2.2.2. Penggabungan kata dasar dan kata dasar

Pembentukan kata dalam bahasa Indonesia juga dapat dilakukan

dengan menggabungkan kata dasar dan kata dasar. Misalnya, dari kata dasar

tanda dan kata dasar tangan dapat digabungkan sehingga menjadi tanda tangan.

Beberapa kata lain yang dibentuk dengan penggabungan kata dasar dan kata dasar

dapat dilihat pada contoh berikut.

kerja sama

tanggung jawab

terima kasih

serah terima

sumber daya

terima kasih

serah terima

sebar luas

2.2.2.3. Penggabungan unsur terikat dan kata dasar

Unsur terikat yang dimaksud adalah unsur yang keberadaannya tidak dapat

berdiri sendiri sebagai kata. Dengan demikian, unsur itu selalu terikat pada unsur

yang lain, antara lain swa-, pra-, pasca-, sub-, non-, multi-, tuna-, maha-, multi-,

antar-, nara-, semi- purna-, ultra-, dan adi-.

Di samping yang telah disebutkan di atas, kata-kata bilangan dalam bahasa

Indonesia yang berasal dari bahasa Sanskerta, seperti eka, dwi-, tri- , catur-, panca-

, sad-, sapta-, hasta-, nawa-, dan dasa-, juga dipandang sebagai unsur terikat. Oleh

karena itu, unsur-unsur tersebut juga ditulis serangkai.


14

2.3. RGB

RGB merupakan singkatan dari merah (red), hijau (green), dan biru (blue),

setiap perpaduan warna dasar tersebut akan menghasilkan warna baru dengan

memperhatikan terang gelapnya juga, suatu tulisan pada umumnya memiliki warna

hitam, untuk kasus sampul buku ini, warna tulisan pada judul buku memiliki warna

yang bervariasi, ragam warnanya pun bisa warna tegas dan gradasi.

Ruang warna RGB tertentu didefinisikan oleh tiga kromatisitas warna

merah, hijau, dan biru, dan dari warna dasar tersebut menghasilkan kromatisitas

segitiga yang ditentukan oleh warna primer tersebut (Hunt, 2004).

2.4. Grayscale

Dalam fotografi, komputasi, dan kolorimetri, gambar grayscale atau

greyscale adalah satu di mana nilai setiap piksel adalah sampel tunggal yang hanya

mewakili jumlah cahaya, hanya informasi intensitas saja. Gambar semacam ini,

juga dikenal sebagai hitam-putih atau monokrom, terdiri dari nuansa abu-abu,

bervariasi dari hitam pada intensitas paling lemah hingga putih pada yang terkuat

(Johnson, 2006). Citra grayscale merupakan citra yang memiliki rentang 0-255,

untuk citra sampul buku memiliki warna yang tidak tegas, namun pada judul buku

memiliki warna gradasi pada tulisannya.

Algortima rgb2gray pada Matlab 2014b:

𝐺𝑟𝑎𝑦𝑠𝑐𝑎𝑙𝑒 = 0.2989 ∗ 𝑅𝑒𝑑 + 0.5870 ∗ 𝐺𝑟𝑒𝑒𝑛 + 0.1140 ∗ 𝐵𝑙𝑢𝑒 (2.1)

2.5. Binerisasi Otsu

Metode untuk memilih ambang secara otomatis dari tingkat abu-abu

histogram telah diturunkan dari analisis sudut pandang diskriminan. Hal ini secara

langsung berkaitan dengan masalah evaluasi ambang batas terbaik, dan solusi

terbaik menerapkan multithreshold (Noboyuki, 1979).

Binerisasi otsu merupakan teknik binerisasi yang menerapkan tingkat

binarisasi yang berbeda setiap bagiannya, pada sampul buku binerasisasi dilakukan


15

setelah mendapatkan objek tulisan pada sampul buku, untuk memudahkan

identifikasi tulisan.

Gray level histogram dari Otsu, dimana L merupakan level keabu-abuan dan

N merupakan total dari jumlah piksel citra

𝑝𝑖 = 𝑛𝑖 𝑁⁄ , 𝑝𝑖 ≥ 0,∑𝑝𝑖 = 1

𝐿

𝑖=1

(2.2)

Mengotomisasi piksel menjadi dua kelas C0 dan C1 (latar belakang dan

objek, atau sebaliknya) dengan ambang batas pada tingkat k; C0 menunjukkan

piksel dengan tingkat [1, ..., k], dan C1 menunjukkan piksel dengan tingkat [k + 1,

..., L]. Maka probabilitas kejadian kelas dan kelas rata-rata, masing-masing,

diberikan oleh

𝜔0 = Pr(𝐶0) = ∑ 𝑝𝑖 = 𝜔(𝑘)

𝑘

𝑖=𝑘+1

(2.3)

𝜔1 = Pr(𝐶1) = ∑ 𝑝𝑖 = 1 − 𝜔(𝑘)

𝑘

𝑖=𝑘+1

(2.4)

dan

𝜇0 = Pr(𝑖|𝐶0) = ∑𝑝𝑖 𝜔0⁄ = 𝜇(𝑘) 𝜔(𝑘)⁄

𝑘

𝑖=1

(2.5)

𝜇1 = Pr(𝑖|𝐶1) = ∑ 𝑝𝑖 𝜔1⁄ =𝜇𝑇 − 𝜇(𝑘)

1 − 𝜔(𝑘)

𝑘

𝑖=1+1

(2.6)

dimana

𝜔(𝑘) = ∑𝑝𝑖

𝑘

𝑖=1

(2.7)

𝜇(𝑘) = ∑𝑖𝑝𝑖

𝑘

𝑖=1

(2.8)


16

adalah saat kumulatif orde pertama dan histogram orde pertama sampai ke-

k, masing-masing, dan

𝜇𝑇 = 𝜇(𝐿) = ∑𝑖𝑝𝑖

𝑘

𝑖=1

(2.9)

adalah tingkat rata-rata total dari gambar aslinya. Dapat dengan mudah

memverifikasi relasi berikut untuk pilihan k:

𝜔0𝜇0 + 𝜔1𝜇1 = 𝜇𝑇, 𝜔0 + 𝜔1 = 1 (2.10)

Variasi kelas diberikan oleh:

𝜎02 = ∑(𝑖 − 𝜇0)

2

𝑘

𝑖=1

Pr(𝑖|𝐶0) = ∑(𝑖 − 𝜇0)2

𝑘

𝑖=1

𝑝𝑖 𝜔0⁄ (2.11)

𝜎12 = ∑ (𝑖 − 𝜇1)

2

𝐿

𝑖=𝑘+1

Pr(𝑖|𝐶1) = ∑ (𝑖 − 𝜇1)2

𝑘

𝑖=𝑘+1

𝑝𝑖 𝜔1⁄ (2.12)

Menurut Fukunage (Otsu, 1979) diperlukan momen kumulatif orde dua

(statistik). Untuk mengevaluasi "kebaikan" ambang batas (pada tingkat k), kami

akan memperkenalkan ukuran kriteria diskriminan berikut (atau ukuran

keterpisahan kelas) yang digunakan dalam analisis diskriminan:

𝜆 = 𝜎𝐵2 𝜎𝑊

2 ,⁄ Κ = 𝜎𝑇2 𝜎𝑊

2 ,⁄ 𝜂 = 𝜎𝐵2 𝜎𝑇

2,⁄ (2.13)

dimana

𝜎𝑊2 = 𝜔0𝜎0

2 + 𝜔1𝜎12

(2.14)

𝜎𝐵2 = 𝜔0(𝜇0 − 𝜇𝑇)

2 + 𝜔1(𝜇1 − 𝜇𝑇)2

= 𝜔0𝜔1(𝜇1 − 𝜇0)2 (2.15)

(disebabkan oleh (2.10) dan

𝜎𝑇2 = ∑(𝑖 − 𝜇𝑇)

2𝑃𝑖

𝐿

𝑖=1

(2.16)


17

total varians level masing-masing. Kemudian masalah dikurangi menjadi

masalah optimasi untuk mencari ambang batas k yang memaksimalkan salah satu

fungsi objek (ukuran kriteria) di (12).

Sudut pandang ini dimotivasi oleh dugaan bahwa kelas ambang yang baik

akan dipisahkan dalam tingkat abu-abu, dan sebaliknya, ambang batas yang

memberikan pemisahan terbaik kelas dengan tingkat abu-abu akan menjadi ambang

terbaik.

Kriteria diskriminan yang memaksimalkan 𝜆, 𝜅, dan 𝜂, masing-masing,

bagaimanapun, setara satu sama lain; misalnya, 𝜅 = 𝜆 + 1 dan 𝜂 = 𝜆/(𝜆/+1)

dalam hal 𝜆 tersebut, karena relasi dasar berikut selalu berlaku:

𝜎𝑊2 + 𝜎𝐵

2 = 𝜎𝑇2

(2.17)

Hal ini memperhatikan bahwa 𝜎𝑊2 dan 𝜎𝐵

2 adalah fungsi dari tingkat ambang

k, namun 𝜎𝑇2 tidak bergantung pada k. Juga dicatat bahwa 𝜎𝑇

2 didasarkan pada

statistik orde kedua (varians kelas), sedangkan (𝜎𝐵2 didasarkan pada statistik orde

pertama (mean kelas). Oleh karena itu, 𝜂 adalah ukuran paling sederhana

sehubungan dengan k. Jadi, diadopsi 𝜂 sebagai ukuran kriteria untuk mengevaluasi

"kebaikan" (atau keterpisahan) ambang batas pada tingkat k.

Batas optimal k * yang memaksimalkan 𝜂, atau ekuivalen memaksimalkan

𝜎𝐵2 dipilih dalam pencarian sekuensial berikut dengan 6 menggunakan jumlah

kumulatif sederhana (6) dan (7), atau secara eksplisit menggunakan (2) - (5):

𝜂 = 𝜎𝐵2(𝑘) 𝜎𝑇

2⁄ (2.18)

𝜎𝐵2(𝑘) =

[𝜇𝑇𝜔(𝑘) − 𝜇(𝑘)]2

𝜔(𝑘)[1 − 𝜔(𝑘)] (2.19)

dan ambang optimal k * adalah

𝜎𝐵2(𝑘∗) = max

1≤𝑘≤𝐿𝜎𝐵

2(𝑘) (2.20)


18

Dari masalah ini, kisaran k di mana maksimum yang dicari bisa dibatasi

𝑆∗ = {𝑘; 𝜎𝐵2 = 𝜔0𝜔1 = 𝜔(𝑘)[1 − 𝜔(𝑘)] > 0,

𝑜𝑟 0 < 𝜔(𝑘) < 1} (2.21)

Disebut rentang efektif dari histogram tingkat abu-abu. Dari definisi di (14),

ukuran kriteria 𝜎𝐵2 (atau 𝜂) mengambil nilai minimum nol untuk k seperti k e S - S

* = {k; 𝜔(k) = 0 atau 1} (yaitu membuat semua piksel baik C1 atau C0, yang tentu

saja bukan diperhatikan) dan mengambil nilai positif dan terikat untuk ke S *. Oleh

karena itu, jelas bahwa maksimal selalu ada.

2.6. Deteksi Maximally Stable Extremal Regions (MSER)

Dokumentasi Matlab 2014b menjelaskan deteksi MSER meningkatkan

tingkatan berdasarkan rentang campuran warna gambar dan memasukkan gambar

untuk mendeteksi bagian yang stabil. Parameter ThresholdDelta digunakan unutk

mengatur perubahan degradasi grayscale, diibaratkan sebuah ember mengkrucut

dengan yang diisi dengan air berwarna dimana warna pada bagian pinggir akan

terlihat lebih terang daripada bagian tengah.

Parameter RegionArea digunakan untuk membatasi rentang pengambilan

area atau luas wilayah, semakin rentang areanya semakin luas cakupan wilayahnya.


19

Gambar 2.5 Ilustrasi MSER (Dokumentasi Matlab 2010b)

Objek MSER akan memiliki nilai maksimum pada titik pinggirnya dan nilai

minimum pada titik tengahnya, kumpulan bagian tersebut bisa memiliki berbagai

bentuk tapi saling berkaitan satu sama lainnya membentuk suatu area (Matas et al.,

2002).

2.7. Tesseract OCR

Optical Charater Reognition ini dikembangkan pertama kali oleh Ray

Smith pada tahun 90’an dengan pendanaan dari Google, kemampuan OCR ini

memang mengalami perkembangan pesat, dengan bantuan basisdata dari setiap

bahasa memperkuat kemampuan Tesseract untuk melakukan pengenalan huruf,

dengan melakukan pemotongan tiap karakter membuat kemampuannya lebih akurat

dalam pengenalan karakter, menggunakan algoritma neuro-fuzzy pada pengenalan

sangat mudah dilakukan pada tulisan hitam putih (Smith, 2007).


20

Urutan proses yang dilakukan Tesseract:

o Pencarian Baris dan Tulisan

1. Pencarian Baris

2. Baseline Fitting

3. Fixed Pitch Detection dan Chopping

4. Pencarian Proporsi Kata

o Rekognasi Kata

1. Menggabungkan Potongan Karakter

2. Associating Broken Characters

o Klasifikasi Karakter Statis

1. Ciri

2. Klasifikasi

3. Data Uji

o Analisis Linguistik

o Adaptive Classifier

o Hasil

2.8. Pemerolehan Informasi

Pemerolehan Infromasi (PI) adalah menemukan materi atau dokumen dari

sifat tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari

dalam koleksi besar yang biasanya disimpan di komputer (Manning, Raghavan and

Schutze, 2009).

2.8.1. Case-folding

Setiap karakter pada kata diubah menjadi kapital dan tidak kapital, fungsi

dari case-folding untuk menghindari case-sensitve dari sebuah kata. Contoh kata

Automobile akan berbeda dengan automobile, untuk menyamakannya dilakukan

case-folding menjadi capital atau tidak capital. Teknik ini memiliki kelemahan pada

penggunaan akronim dan merk, contohnya seperti C.A.T menjadi CAT memiliki arti

sama dengan cat.


21

2.8.2. Tokenization

Teknik ini dilakukan pengurutan kata dan membagi sebuah dokumen,

tokenization adalah melakukan pemotongan menjadi potongan – potongan kecil

yang disebut token, pada saat yang sama dilakuakan penghilangan beberapa

karakter seperti tanda baca. Berikut merupakan contoh dari tokenization:

Input : Friends, Romans, Countrymen, lend me your ears;

Output : Friends Romans Countrymen lend me your ears

2.8.1. Stop Word Removing

Terkadang, beberapa kata sering muncul tetapi kata tersebut memiliki nilai

yang kecil untuk mengidentifikasi dokumen, pengguna perlu mengcualikan kata -

kata tersebut dengan membuat sebuah daftar vocabulary. Kumpulan kata tersebut

biasa disebut stop word. Pada umumnya strateginya untuk menentukan sebuah

daftar berhenti sementara menggunakan koleksi frekuensi.

Pada umumnya tren dari sistem pemerolehan informasi menggunakan

standar dari daftar pemberhentian besar (200-300 kata) hingga daftar

pemberhentian kecil (7-12 kata) hingga tanpa daftar pemberhentian. Mesin

pencarian web pada umumnya tidak mengggunakan daftar pemberhentian.

Beberapa desain dari modern pemerolehan informasi berfokus pada bagaimana

dapat mengolah statistik bahasa untuk dapat menggunakan bahasa dengan kata

yang umum secara baik.

2.8.2. Stemming

Beberapa kata memiliki makna yang sama satu sama lainnya hanya

dibedakan oleh penggunaan imbuhan, seperti demokrasi, demokratik, dan

demokratisasi.

Di dalam bahasa Indonesia beberapa imbuhan diberikan untuk membuat

kata menjadi aktif atau pasif, tetapi sebenarnya memiliki makna yang sama.

Contohnya bekerja, dikerjakan, dan mengerjakan, pada kata tersebut memiliki satu


22

kata dasar yakni kerja. Bahasa Indonesia juga memiliki kata hubung yang

digunakan untuk membantu penyusunan kata atau disebut kata konjugasi.

Stemming merupakan proses dimana dilakukan pemotongan sufiks, infiks,

prefiks serta penghilangan kata-kata konjugasi, untuk mendapatkan makna

sebenarnya.

2.9. Jaringan Syaraf Tiruan

Jaringan syaraf tiruan yakni suatu sistem pengolahan data menggunakan

model jaringan syaraf manusia, dimana prosesnya pertama input masuk kedalam

neuron, pada neuron tersebut terdapat fungsi aktivasi, pemrosesan informasi

tersebut ada pada neuron – neuron dengan bantuan bias untuk memperkuat atau

memperlemah fungsi aktivasi pada neuron untuk mendapatkan output yang sesuai

(Hagan and Beale, 2014).

2.9.1. Arsitektur Jaringan

Pada jaringan syaraf tiruan terdapat 2 jenis yakni lapis tunggal dan lapis

majemuk.

1. Jaringan Lapis Tunggal

Jaringan ini memiliki arsitektur dimana input dihubungkan dengan lapisan

neuron tunggal sehingga pemrosesan data hanya dilakukan sekali untuk

mendapatkan output.


23

Gambar 2.6 Ilustrasi Jaringan Lapis Tunggal (Hagan & Demuth, 2014)

2. Jaringan Lapis Majemuk

Gambar 2.7 Ilustrasi Jaringan Lapis Majemuk (Hagan and Beale, 2014)

Jaringan dengan lapis majemuk dimana lapisan neuron dimiliki oleh

jaringan tersebut lebih dari satu tetapi tidak membuat banyak hasil hanya berupa

proses berantai yang sering disebut layer tersembunyi, jaringan ini bisa memproses

informasi yang kompleks sehingga diharapkan menghasilkan akurasi yang lebih

baik dari lapis tunggal.


24

2.9.2. Backpropagation

Backpropagation, bisa digunakan untuk melatih jaringan lapis majemuk.

Seperti halnya aturan pembelajaran Learning Management System (LMS),

backpropagation adalah perkiraan algoritma keturunan terakhir, di mana indeks

kinerja adalah kuadrat dari mean error. Perbedaan antara Algoritma LMS dan

backpropagation hanya berupa perhitungan turunannya. Untuk jaringan linier

single-layer error merupakan linear eksplisit fungsi bobot jaringan, dan turunannya

sehubungan dengan bobot dapat dengan mudah dihitung. Dalam jaringan multilayer

dengan nonlinier fungsi transfer, hubungan antara bobot jaringan dan kesalahannya

lebih kompleks. Untuk menghitung turunannya perlu menggunakan aturan rantai

kalkulus (Hagan and Beale, 2014)

Notasi multilayer porpagasi balik,

R-S1-S2-S3 (2.22)

Gambar 2.8 Jaringan 3 Layer (Hagan and Beale, 2014)

Ilustrasi klasifikasi ciri menggunakan multilayer perceptron,

{𝑃1 = [00] , 𝑡1 = 0} {𝑃2 = [

01] , 𝑡2 = 1} {𝑃3 = [

10] , 𝑡1 = 1} {𝑃4 = [

11] , 𝑡1 = 0}


25

1. Fungsi Aktivasi

Berikut contoh jaringan fungsi aprokmasi,

Gambar 2.9 Contoh Jaringan Fungsi Aprokmasi (Hagan and Beale, 2014)

dengan rumus logsig,

𝑓1(𝑛) =1

1 + 𝑒−𝑛 𝑑𝑎𝑛 𝑓2 = 𝑛 (2.23)

Fungsi purelin merupakan fungsi aktivasi dengan hasil output sesuai dengan

perhitungan pada neuronnya

2. Propagasi Maju dan Mundur

Pada saat propagasi maju, masukan (wi) akan dipropagasikan ke lapisan

tersembunyi menggunakan fungsi aktivasi yang telah ditentukan, keluaran dari

setiap unit lapisan tersembunyi tersebut dipropagasikan maju lagi ke lapisan

tersembunyi selanjutnya, proses tersebut berlanjut sampai mencapai hasil tetapi

hasil luaran dibandingkan dengan target output atau minimum target, perbaikan

dilakukan jika hasil tidak mencapai target untuk mencapai taget atau minimum

target, untuk perbaikan tersebut dilakukan propagasi mundur.

Algoritma backpropagation digambarkan dengan rumus,

Am+1 = fm+1(Wm+1am + bm+1) untuk m = 0, 1,

…, M-1, (2.24)


26

dimana M adalah jumlah layer pada jaringan tersebut. Pada neuron pertama

diberikan nilai input

a0 = p, (2.25)

dan input neuron terakhir diberikan

a = a𝑚, (2.26)

Gambar 2.10 Jaringan 3 Lapis, dengan notasi ringkas(Hagan and Beale, 2014)

3. Perbaikan Bobot dan Bias

Untuk mengetahui hasil sesuai dengan label maka dilakukan perhitungan

index performa atau mean square error (MSE) dengan membandingkan hasil dari

input (p) dan output (t)

{𝑝1, 𝑡1}, {𝑝2, 𝑡2}, … , {𝑝𝑄 , 𝑡𝑄} (2.27)

rumus algoritma untuk mengurangi MSE

(2.28)

jika output berupa luaran jamak maka rumusnya,

(2.29)

dengan algoritma LMS, dengan iterasi sebanyak k, maka menggunakan

rumus

(2.30)


27

Secara umum algoritma pelatihan jaringan backpropagation sebagai

berikut:

1. Inisialisasi bilangan bobot dengan nilai kecil

2. Jika kondisi untuk pemberhentian belum terpenuhi, lakukan langkah

3-10

3. Untuk setiap pasang data pelatihan, lakukan langkah 4-9

4. Setiap neuron menerima sinyal dan meneruskannya ke neuron

tersembunyi selanjutnya

5. Hitung semua luaran di neuron tersembunyi 𝑧𝑗 (j = 1, 2, 3, … , p)

𝑧_𝑛𝑒𝑡𝑗 = 𝑣𝑗0 + ∑ 𝑥𝑖𝑛

𝑖=1𝑣𝑗𝑖 (2.31)

𝑧𝑗 = 𝑓 (𝑧𝑛𝑒𝑡𝑗) =1

1 + 𝑒−𝑧_𝑛𝑒𝑡𝑗 (2.32)

6. Hitung semua luaran jaringan di neuron 𝑦𝑘 (k = 1, 2, 3, … , m)

𝑦_𝑛𝑒𝑡𝑘 = 𝑤𝑘0 + ∑ 𝑥𝑗𝑛

𝑗=1𝑤𝑘𝑖 (2.33)

𝑦𝑘 = 𝑓(𝑦𝑛𝑒𝑡𝑘) =1

1 + 𝑒−𝑦_𝑛𝑒𝑡𝑘 (2.34)

7. Hitung faktor 𝛿 neuron luaran berdasarakan error disetiap neuron

luaran 𝑦𝑘 (k = 1, 2, 3, … , m)

𝛿𝑘 = (𝑡𝑘 − 𝑦𝑘)𝑓′(𝑦𝑛𝑒𝑡𝑘) = (𝑡𝑘 − 𝑦𝑘)𝑦𝑘(1 − 𝑦𝑘) (2.35)

Hitung suku perubahan bobot 𝑤𝑘𝑗 dengan laju percepatan 𝛼

∆𝑤𝑘𝑗 = 𝛼𝛿𝑘𝑧𝑗 ; 𝑘 = 1, 2,… , 𝑚 ; 𝑗 = 0, 1,… , 𝑝 (2.36)

8. Hitung faktor 𝛿 neuron luaran berdasarakan error disetiap neuron

luaran 𝑧𝑗 (j = 1, 2, 3, … , p)

𝛿_𝑛𝑒𝑡𝑗 = ∑ 𝛿𝑘𝑚

𝑘=1𝑤𝑘𝑗 (2.37)

Faktor 𝛿 neuron tersembunyi :


28

𝛿𝑗 = 𝛿_𝑛𝑒𝑡𝑗𝑓′(𝑧𝑛𝑒𝑡𝑗) = 𝛿𝑛𝑒𝑡𝑗𝑧𝑗(1 − 𝑧𝑗) (2.38)

Hitung suku perubahan bobot 𝑣𝑖𝑗

∆𝑣𝑖𝑗 = 𝛼𝛿𝑗𝑥𝑖 ; 𝑗 = 1, 2, … , 𝑝 ; 𝑥 = 0, 1, … , 𝑛 (2.39)

9. Hitung semua perubahan bobot

Perubahan bobot garis yang menuju ke neuron luaran:

𝑤𝑘𝑗(𝑏𝑎𝑟𝑢) = 𝑤𝑘𝑗(𝑙𝑎𝑚𝑎)∆𝑤𝑘𝑗(𝑘 = 1, 2,… ,𝑚 ; 𝑗 = 0, 1,… , 𝑝) (2.40)

Perubahan bobot garis yang menuju ke neuron tersembunyi:

𝑣𝑗𝑖(𝑏𝑎𝑟𝑢) = 𝑣𝑗𝑖(𝑙𝑎𝑚𝑎)∆𝑣𝑗𝑖(𝑗 = 1, 2,… , 𝑝 ; 𝑖 = 0, 1,… , 𝑛) (2.41)

10. Bandingkan kondisi penghentian.

Untuk mengilustrasikan algortima backpropagation, digunakan contoh dari

Hagan, dengan menggunakan jaringan 1-2-1 dan bilangan acak kecil,

𝑊1(0) = [−0.27−0.41

] , 𝑏1(0) = [−.048−.013

] , 𝑊2(0) = [0.09 −0.17], 𝑏2(0) = [0.48]

𝑎0 = 𝑝 = 1

Luaran lapis pertama

𝑎1 = 𝑓1(𝑊1𝑎0 + 𝑏1) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([−0.27−0.41

] [1] + [−0.48−0.13

]) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([−0.75−0.54

])

= [

1

1 + 𝑒0.75

1

1 + 𝑒0.54

] = [−0.321−0.368

]

𝑎2 = 𝑓2(𝑊2𝑎1 + 𝑏2) = 𝑝𝑢𝑟𝑒𝑙𝑖𝑛 ([0.09 −0.17] [−0.321−0.368

] + [0.48])

= [0.446]

Perbaikan error

𝑒 = 𝑡 − 𝑎 = {1 + sin (𝜋

4𝑝)} − 𝑎2 = {1 + sin (

𝜋

41)} − 0.446 = 1.261


29

Langkah selanjutnya dari algoritma yakni sensitivitas backpropagation,

untuk memanggil kembali diperlukan turunan fungsi transfer dari 𝑓1(𝑛) dan 𝑓2(𝑛)

untuk lapis pertama

𝑓1(𝑛) =𝑑

𝑑𝑛(

1

1 + 𝑒𝑛) =

𝑒−𝑛

(1 + 𝑒−𝑛)2= (1 −

1

1 + 𝑒−𝑛) (

1

1 + 𝑒−𝑛)

= (1 − 𝑎1)(𝑎1)

Untuk lapis kedua,

𝑓2(𝑛) =𝑑

𝑑𝑛(𝑛) = 1

Backpropagation dimulai dari lapis kedua

𝑠2 = −2𝐹2(𝑛2)(𝑡 − 𝑎) = −2[𝑓2(𝑛2)](1.261) = −2[1](1.261) = −2.522

Sensitifitas layer pertama merupakan komputasi dari backpropagation

sensitifitas lapis kedua

𝑠1 = 𝐹1(𝑛1)(𝑊2)𝑇𝑠2 = [1 − 𝑎1

1 0

0 (1 − 𝑎21)(𝑎2

1)] [

0.09−0.17

] [−2.522]

= [(1 − 0.321)(0.321) 0

0 (1 − 0.368)(0.368)] [

0.09−0.17

] [−2.522]

= [0.218 0

0 0.233] [

−0.227−0.429

] = [−0.0495−0.997

]

Langkah terakhir yakni memperbarui bobot dengan menggunakan laju

pembelajaran α = 0.1

𝑊2(1) = 𝑊2(0) − αs2(a1)𝑇 = [0.09 −0.17] − 0.1[−2.522][0.321 0.268]

= [0.171 −0.0772],

𝑏2(1) = 𝑏2(0) − αs2 = [0.48] − 0.1[−2.522] = [0.732],

𝑊1(1) = 𝑊1(0) − αs1(a0)𝑇 = [−0.27−0.41

] − 0.1 [−0.04950.0997

] [1] = [−0.265−0.420

],


30

𝑏1(1) = 𝑏1(0) − αs1 = [−0.48−0.13

] − 0.1 [−0.04950.0997

] = [−0.475−0.140

],

Hasil dari iterasi pertama, untuk mencari nilai optimal diperlukan beberapa

kali iterasi lagi sehingga didapatkan nilai yang mencapai target atau mendekati

target.


31

BAB III

METODOLOGI

Bab ini membahas analisa kebutuhan sistem mencangkup metode yang

digunakan untuk ekstraksi ciri sampul buku, klasifikasi, dan pengujian sistem.

Selain kebutuhan sistem, bab ini juga berisi perancangan sistem mencangkup

ekstraksi ciri, klasifikasi, pengujian dan perancangan sistem.

3.1. Gambaran Umum

Gambar 3.1 Diagram Blok Sistem

Penelitian ini dilakukan bertujuan untuk membantu proses identifikasi

sebuah pencarian buku berdasarkan gambar sampul buku tersebut, kemudian proses

tersebut dapat membantu pencarian dengan memberikan rekomendasi buku sejenis.

Pengambilan data sampul tersebut terkait dengan topik judul buku tersebut,

sehingga rekomendasi akan terkait dengan topik buku.

3.1.1. Data

Data yang digunakan adalah data sampul buku dari percetakaan buku

Kansius Yogyakarta yang diambil pada bulan Agustus 2017, dengan rincian

penggunaan data yakni sampul buku filsafat sebanyak 53 gambar, buku kerohanian


32

sebanyak 101 gambar, dan buku pelajaran sekolah sebanyak 200 gambar, serta

masing – masing 2 gambar untuk setiap jenis sampul yang akan digunakan data uji.

Gambar tersebut memiliki ukuran tinggi 300 cm dan lebar 130 cm dengan resolusi

gambar sebesar 96 dpi, setiap gambar memiliki label masing – masing untuk

pengenalan jenis buku tersebut.

Data kedua yakni data judul buku tersebut dalam bentuk xlsx, setiap judul

dibuatkan teks secara manual dengan melihat pada setiap gambar sampul, jumlah

data yang dibuat sama dengan jumlah data yang digunakan dalam pemrosesan citra,

untuk pelabelan data juga menggunakan label data sebagaimana seperti data yang

digunakan pada permrosesan citra.

3.1.2. Preprocessing

Preprocessing yang dilakukan adalah mendapatkan citra tulisan dari cover

tersebut dengan proses pertama yakni mengubah citra gambar sampul menjadi citra

abu – abu, kemudian dari citra abu – abu tersebut diubah menjadi citra biner

menggunakan metode Otsu.

Gambar 3.2 Contoh Cover Buku Gambar 3.2. Contoh Cover Buku


33

Gambar 3.3 Preprocessing I

Hasil dari binerisasi dideteksi menggunakan MSER, dimana tulisan akan

memiliki warna gradasi yang berbeda dengan latar pada sampul tersebut, pada

umumnya tulisan judul dibuat tegas namun sebernanya terdapat gradasi warna yang

stabil pada tulisan judul di sampul tersebut sehingga dideteksi terdapat gradasi yang

stabil oleh fungsi MSER, dari hasil MSER didapatkan objek – objek tulisan dengan

menggunakan threshold 12 dan RegionArea sebesar 20 sampai dengan 1200, dari

hasil MSER yang berupa letak objek, dilakukan pencarian posisi maksimum dan

posisi minimum dari objek tersebut untuk menentukan koordinat objek.

Gambar 3.4 Hasil Deteksi Objek

Menggunakan MSER

Gambar 3.5 Gambar setelah koordinat selain

MSER diubah menjadi 0


34

Dilakukan perubahan citra pada citra asli menggunakan koordinat objek

MSER sebelumnya, selain hasil dari koordinat MSER nilainya dijadikan 0, data

tersebut disimpan dalam format .jpg.

3.1.3. Ekstraksi Ciri

Dari hasil preprocessing dilakukan identifikasi hasil dari preprocessing

menggunakan Optical Character Recognition (OCR) menggunakan perangkat

lunak Tesseract, pada prosesnya hasil dari identifikasi dari setiap karakter atau

huruf akan disatukan kemudian dilakukan pembandingan antara hasil dengan basis

data Tesseract, jika terjadi kecocokan dengan data pada basis data maka hasil yang

ditampilkan adalah kata yang ada di basis data.

3.1.4. Pemerolehan Informasi

Basisdata kata – kata judul unik akan dibuat berdasarkan informasi yang

didapatkan pada judul buku, ketika judul tersebut mengandung kata – kata tersebut

maka akan diberikan nilai 1 jika tidak mengandung kata – kata tersebut akan

diberikan nilai 0 pada kata tersebut dan jika terdapat kata yang sama akan

ditambahkan nilainya sebanyak 1.

Tabel 3.1 Ilustrasi perubahan kata ke numerik

Basisdata

Data “Satu” “Dua” “Lima”

“Satu Dua Satu” 2 1 0

“Dua Tiga” 0 1 0

Dari ilustrasi diatas maka dihasilkan matriks [2 1 00 1 0

] yang akan

dimasukan ke dalam JST.

Pada bagian ini akan dilakukan penyimpanan data sebanyak 10, 15, dan 20

kata untuk disimpan pada database dengan memperhitungkan kata kata yang akan

sering keluar pada ekstraksi ciri tetapi tidak dapat di stemming secara baik, sehingga


35

jika kata tersebut muncul maka akan dicocokan dengan basis data, jika ditemukan

data tersebut maka proses stemming tidak akan diproses untuk kata tersebut atau

dikenal dengan stop word.

Dilakukan stemming dengan beberapa fonem dan syarat perubahan yang

menyebabkan pemenggalan karakter berbeda – beda pada setiap kata dasar. Berikut

tabel perubahan awalan.

Tabel 3.2 Daftar Perubahan Awalan

Prefiks Fonem atau Syarat Perubahan

meng-

/r, l, m, n, w, y, ng, ny/ me-

/p, b, f, v/ mem-

/t, d, c, j, z, sy/ meng-

Kata dasar < satu suku kata menge-

peng-

/r, l, m, n, w, y, ng, ny/ pe-

/p, b, f, v/ pem-

/t, d, c, j, z, sy/ peng-

Kata dasar < satu suku kata menge-

ber- /r/ be-

/ajar/ bel-

per- Pertalian bentuk pe-

/ajar/ pel-

ter- /r/ te-


36

Tabel 3.3 Gambaran singkat data yang akan masuk JST

No Basisdata

Data 'PAHNARGYAN' 'BOJANA' 'KURBAN' 'RAKA' … 'MANUSIA'

1 'PAHNARGYAN BOJANA KURBAN' 1 1 1 0 … 0

2 'RAKA AGUNG SEBUAH

RENUNGAN' 0 0 0 1 … 0

2 'KURBAN UNTUK ALLAH' 0 0 1 0 … 0

4 'MENCINTAI EKARISTI' 0 0 0 0 … 0

5 'BIARLAH KEMULIAAN ALLAH

TERPANCAR' 0 0 0 0 … 0

6 'MILENIUM KETIGA BENCANA

ATAU HARAPAN' 0 0 0 0 … 0

7 'MENGHIDUPKAN KOMUNITAS

BASIS KRISTIANI BERDASARKAN

PANCAPRAMANA'

0 0 0 0 … 0

8 'BISIKAN DAUN - DAUN SABDA' 0 0 0 0 … 0

…

…

…

…

…

…

…

…

354 'FILSAFAT MANUSIA' 0 0 0 0 … 1


37

Hasil kata baru dari pemerolehan informasi disimpan ke basis data

dbKata.mat, dan setiap kata hasil pemerolehan informasi disimpan kedalam

datas.mat. Setelah seluruh data diproses, hasil pemrosesan diubah menjadi nilai

numeric, dengan membandingkan dbKata dengan datas jika data sama maka akan

diberikan nilai dan jika ditemukan kembali akan pada dbKata maka nilai akan

ditambahkan kembali, matriks yang dihasilkan seperti tabel yang akan masuk

dipilih hanya data numerik saja (pada baris kolom berwarna abu – abu), sehingga

seluruh data menghasilkan matriks numerik 348×489 dengan tipe double, jadi ciri

yang akan diproses oleh JST sebanyak 489 ciri perdata.

3.1.5. Jaringan Syaraf Tiruan

Jaringan syaraf tiruan digunakan karena kemampuannya dalam menangani

decision boundary yang kompleks. Parameter yang diatur dalam backpropagation

yakni neuron dan input ciri pengaturan neuron dan ciri masukan pada penelitian ini

dilakukan dengan nilai 5, 10, 15, 20, 25, dan 30 neuron dan masukan sebanyak ciri

masukan dari hasil pemerolehan informasi.

3.1.6. Arsitektur Jaringan Syaraf Tiruan

Gambar 3.6 Arsitektur Jaringan untuk Pelatihan dan Pengujian

Ada 16 jenis arsitektur jaringan syaraf tiruan yang akan digunakan pada

proses pelatihan dan pengujian arsitektur, yaitu dengan 5, 10, 20, 15, 25, 30, 35,


38

dan 40 neuron, untuk jumlah neuron pada sistem mengikuti feature dari sistem,

pada sistem ini menggunakan 3 kelas jadi akan ada 2 neuron output untuk

mendapatkan luaran yakni [11], [

01] ,[

10]

Pada gambar 3.6 dijelaskan bahwa masukan ciri berupa P maksimum

masukan sebanyak n dimana feature yang akan diinputkan bergantung pada jumlah

data hasil pemerolehan informasi dan jumlah data gambar, pada kasus ini akan

digunakan data input sebanyak 489 ciri, divariasikan dengan nilai variasi

maksimum 40 neuron dan dikombinasikan menggunakan 2 hidden layer dengan

fungsi aktivasi logsig, menghasilkan a3 dengan fungsi aktivasi pureline

merupakan luaran tetap yakni sebanyak 2 luaran untuk menghasilkan luaran yang

dapat memisahkan 3 jenis label.

Hidden layer pertama menggunakan kombinasi dengan 5, 10, 20, 15, 25,

30, 35, dan 40 neuron, dengan jumlah input atau ciri sebanyak 489 data, pada luaran

percobaan satu hidden layer akan diteruskan ke neuron luaran, neuron pada hidden

layer pertama dengan hasil akurasi tertinggi akan digunakan kembali pada

percobaan 2 hidden layer.

Hidden layer kedua digunakan menggunakan kombinasi neuron yang sama

dari hidden layer pertama, namun masukan data berasal dari hasil hidden layer

pertama, jadi data ciri sebanyak 489 akan masuk ke hidden layer pertama, luaran

sebanyak neuron dari hidden layer pertama masuk ke hidden layer kedua, hasil dari

hidden layer kedua ini yang akan masuk ke neuron luaran.

Contoh perhitungan, jika gambar sebelumnya akan menghasilkan tulisan

“Komputer saat ini” maka hasil tersebut akan diberikan nilai, pada contoh ini akan

diberikan nilai W = [1 0 0], setelah itu masuk ke dalam jaringan syaraf tiruan

dengan bobot dan bias bilangan random dengan nilai kecil, dilakukan pelatihan

hingga mendapatkan nilai mencapai target yang diinginkan yakni sesuai dengan

label asli.

Contoh perhitungan,


39

𝑊1(0) = [100] , 𝑏1(0) = [

100] ,𝑊2(0) = [0 1 0], 𝑏2(0) = [0],

𝑊3(0) = [100] , 𝑏3(0) = [

100],

𝑎0 = 𝑝 = 1

Luaran lapis pertama

𝑎1 = 𝑓1(𝑊1𝑎0 + 𝑏1) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([100] [1] + [

100]) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([

200])

=

[

1

1 + 𝑒−2

1

1 + 𝑒0

1

1 + 𝑒0 ]

= [0,8822

]

𝑎2 = 𝑓2(𝑊2𝑎1 + 𝑏2) = 𝑙𝑜𝑔𝑠𝑖𝑔 ([0 1 0] [0,8822

] + [0]) = 𝑙𝑜𝑔𝑠𝑖𝑔([2])

= [1

1 + 𝑒−2] = [0,88]

𝑎3 = 𝑓3(𝑓2(𝑊3𝑎0 + 𝑏3) + 𝑏2)+𝑏3 = 𝑝𝑢𝑟𝑒𝑙𝑖𝑛 ([100] [0,88] + [

100])

= [0.8800

]

Perbaikan error

𝑒 = 𝑡 − 𝑎 = {1 + sin (𝜋

4𝑝)} − 𝑎3 = {1 + sin (

𝜋

41)} − 0,88 = 1,88


40

Langkah selanjutnya dari algoritma yakni sensitivitas backpropagation,

untuk memanggil kembali diperlukan turunan fungsi transfer dari 𝑓1(𝑛), 𝑓2(𝑛) dan

𝑓3(𝑛) untuk lapis pertama

𝑓1(𝑛) =𝑑

𝑑𝑛(

1

1 + 𝑒𝑛) =

𝑒−𝑛

(1 + 𝑒−𝑛)2= (1 −

1

1 + 𝑒−𝑛) (

1

1 + 𝑒−𝑛)

= (1 − 𝑎1)(𝑎1)

untuk lapis kedua

𝑓2(𝑛) =𝑑2

𝑑𝑛2(

1

1 + 𝑒𝑛) =

(𝑒𝑛 − 1)𝑒𝑛

(1 + 𝑒𝑛)3= (1 −

1

1 + 𝑒−𝑛) (2

1

1 + 𝑒−𝑛) (

1

1 + 𝑒−𝑛)3

= (1 − 𝑎2)(2𝑎2)(𝑎2)3

Untuk lapis ketiga,

𝑓3(𝑛) =𝑑

𝑑𝑛(𝑛) = 1

Backpropagation dimulai dari lapis ketiga

𝑠3 = −2𝐹3(𝑛3)(𝑡 − 𝑎) = −2[𝑓3(𝑛3)] [0,8800

] = −2[1] [0,8800

] = [−1,76

00

]

Sensitifitas layer pertama dan kedua merupakan komputasi dari

backpropagation sensitifitas lapis ketiga

𝑠2 = 𝐹2(𝑛2)(𝑊3)𝑇𝑠3

= [

(1 − 𝑎11) 0 0

0 (1 − 𝑎21)(𝑎2

1) 0

0 0 (1 − 𝑎31)(2𝑎3

1)(𝑎31)

] [1 0 0] [0,8800

]

= [

(1 − 0,88) 0 00 (1 − 0)(0) 00 0 (1 − 0)(2(0))(0)

] [1 0 0] [0,1936

00

]

= [0,22 0 0] [0,8800

] = [1,76]


41

𝑠1 = 𝐹1(𝑛1)(𝑊2)𝑇𝑠2

= [

(1 − 𝑎11) 0 0

0 (1 − 𝑎21)(𝑎2

1) 0

0 0 (1 − 𝑎31)(2𝑎3

1)(𝑎31)

] [100] [0,1936]

= [

(1 − 0,88) 0 00 (1 − 2)(2) 00 0 (1 − 2)(2(2))(2)

] [100] [0.1936]

= [0,22 0 00 −2 00 0 −8

] [100] [0.1936]

= [0,2200

] [0.1936] = [0,0496

00

]

Langkah terakhir yakni memperbarui bobot dengan menggunakan laju

pembelajaran α = 1

𝑊2(1) = 𝑊2(0) − αs2(a1)𝑇 = [100] − 1[0.1936][0.88 2 2]

= [0.728 0 0],

𝑏2(1) = 𝑏2(0) − αs2 = [0] − 1[0.1936] = [−0.1936],

𝑊1(1) = 𝑊1(0) − αs1(a0)𝑇 = [112] − 1 [

0.049600

] [1] = [0.9504

00

],

𝑏1(1) = 𝑏1(0) − αs1 = [100] − 1 [

0.049600

] = [0.9504

00

],

Hasil dari iterasi pertama, untuk mencari nilai optimal diperlukan beberapa

kali iterasi lagi sehingga didapatkan nilai yang mencapai target atau mendekati

target.


42

3.1.7. Metode Pengujian

Metode Pengujian menggunakan K-Fold Cross Validation dengan k = 3,

hasil dari pengujian menggunakan menggunakan confusion matrix, tahap

penghitungan akurasi dimana hasil label dibandingkan dengan hasil luaran, untuk

kerohanian menggunakan 34 data pelatihan, 34 data validasi, dan 33 data tes uji,

pendidikan menggunakan 67 data pelatihan, 67 data validasi, dan 66 data uji,

filsafat menggunakan 18 data pelatihan, 18 data validasi, dan 17 data uji.

Table 3.2 3-Fold Validation

Percobaan Train Validation Test

1 3 1 2

2 1 2 3

3 2 3 1

Table 3.3 Confusion Matrix

Label\

Luaran [1 1] [1 0] [0 1]

[1 1]

[1 0]

[0 1]

3.1.8. Model Pembanding

INPUT DATA

BACKPROPAGATION

DATA TRAINING

LABEL TRAINING LABEL TESTING

DATA TESTING

LUARAN

AKURASI

MODEL

Information Retrieval

Gambar 3.7 Diagram Blok Sistem Pembanding


43

Pembanding yang digunakan merupakan model yang mirip hanya berbeda

pada data yang digunakan, pada model sebelumnya menggunakan data gambar,

sedangkan pada model ini menggunakan data judul berupa teks.

Data yang dihasilkan merupakan data input asli atau sama dengan judul

pada gambar sampul, sehingga model ini hanya menghilangkan pemrosesan citra

dari model sebelumnya. Adapun model ini akan digunakan sebagai pembanding

kinerja adalah sistem dengan adanya pemrosesan citra dan tanpa adanya

pemrosesan citra.

3.2. Algoritma

3.2.1. Preprocessing Judul Buku

➢ Baca citra menggunakan imread

➢ Ubah citra RGB ke citra abu – abu menggunakan rgb2gray

➢ Cari Maximally Stable Extremal Regions (MSER)

detectMESRFeatures dengan parameter regionArea 20 – 1200 dan

tresholdDelta 12

➢ Jika nilai MSER kurang dari 7, mengubah nilai parameter

regionArea 20 – 800 dan thresholdDelta 5

➢ Potong daerah yang telah dideteksi dengan MSER mengunakan

regioncorps

➢ Ubah citra hasil pemotongan menjadi citra jika tidak dideteksi maka

dijadikan 0 pada setiap pikselnya.

➢ Deteksi menggunakan OCR Tesseract


➢ Membandingkan hasil OCR dengan database

➢ Melakukan tokenizing, stemming, stop word

➢ Menyimpan data jika data tersebut data baru

➢ Membuat matriks dengan ukuran sesuai dengan ukuran database

➢ Membandingkan data dengan database kembali

➢ Jika data ada maka nilai pada cirinya akan ditambahkan


44

➢ Jika tidak maka nilai pada cirinya tidak ditambahkan

➢ Menyimpan data.

3.2.3. Klasifikasi

➢ Membagi data menjadi 3 fold

➢ Melakukan perulangan untuk mencoba setiap fold data

➢ Memasukkan nilai masukan kedalam neuron

➢ Membandingkan hasil luaran dengan label

➢ Jika belum sesuai, memperbarui bobot dan bias hingga sesuai

dengan target.

➢ Menampilkan hasil klasifikasi.

3.3. Kebutuhan Sistem

Spesifikasi software dan hardware yang digunakan dalam

pengimplementasian jaringan syaraf tiruan backpropagation pada klasifikasi

menggunakan sampul buku:

3.4.1. Perangkat Keras

Perangkat keras yang digunakan dengan spesifikasi berikut:

1) Processor : Intel® CoreTM i5-5200U (4 CPUs), @ 2.20 GHz

2) Memori : 4096 MB RAM

3) Display : Intel® HD Graphics 5500 ~Approx. Total Memory

2127 MB ~ Display Memory (VRAM ) 128 MB

4) Render : NVIDIA GeForce 930M ~Approx. Total Memory

3996 MB ~Display Memory (VRAM ) 1999 MB

3.4.2. Perangkat Lunak

Perangkat lunak yang digunakan sebagai berikut:

1) Microsoft Windows 10 Pro 64-bit

Sistem operasi yang digunakan untuk menjalankan perangkat lunak

lainya


45

2) Matlab 2014b 64-bit

Perangkat lunak yang digunakan untuk melakukan preprocessing citra

gambar, pembuatan sistem, dan menjalankan sistem.

3) Tesseract

Perangkat lunak Optical Character Recognition untuk melakukan

ekstraksi ciri.

3.4. Perancangan Antar Muka Sistem

Gambar 3.6 Tampilan menu utama

Gambar 3.5 merupakan tampilan antar muka utama sistem, terbagi menjadi

2 panel yakni panel pembentukan model dan panel uji data. Terdapat 1 jendela

untuk menampilkan hasil preprocessing.

3.4.1. Panel Pembentukan Model

Terdapat 2 drop down panel yakni Hidden Layer 1 dan Hidden Layer 2 yang

berfungsi untuk mengatur jumlah neuron yang akan dipakai pada JST dengan nilai

rentang nilai pada Hidden Layer 1 5, 10, 15, 20, 25, 30. Pada Hidden Layer 2

memiliki rentang nilai 0, 5, 10, 15, 20, 25.

Tombol Train berfungsi sebagai tombol ekseskusi perintah menjalankan

proses dari preprocessing, OCR, pemerolehan informasi dan uji data. Akurasi hasil

uji akan ditampilkan pada kotak tulisan diatas tombol Train.


46

3.4.2. Panel Uji Data

Panel Uji Data memiliki 5 tombol dan dan 4 kotak tulisan, panel ini

diperuntukkan pengujian data tunggal.

Tombol Browse digunakan untuk memilih file, ketika ditekan akan muncul

jendela baru untuk memilih gambar yang akan diproses, setelah memilih maka akan

muncul alamat file beserta nama file pada kotak tulisan disebelah kanan tombol.

Tombol Citra digunakan untuk menampilkan hasil setiap langkah

preprocessing, ketika ditekan akan muncul jendela baru menampilkan gambar yang

diproses pada setiap langkahnya.

Tombol OCR digunakan untuk mejalankan proses identifikasi tulisan pada

gambar, ketika ditekan hasilnya akan muncul pada kotak tulisan sebelah kanan

tombol.

Tombol Pem. Informasi merupakan tombol yang digunakan untuk

menjalankan proses pemerolehan informasi dari hasil OCR sebelumnya, hasil

pemerolehan informasi akan ditampilkan pada boks tulisan sebelah kanan tombol.

Tombol Test berfungsi menjalankan klasifikasi tunggal, dimana hasil dari

pemerolehan informasi diproses melalui JST untuk mengetahui klasifikasi buku.


47

3.4.3. Jendela Preprocessing

Gambar 3.7 Tampilan jendela preprocessing uji tunggal

Jendela ini menampilkan 4 axes untuk menampung setiap langkah

gambar preprocessing, serta 1 tombol Back untuk kembali ke halaman utama

sistem.


48

48

BAB IV

IMPLEMENTASI DAN ANALISA

Bab ini akan membahas uraian implementasi perancangan sistem yang

berupa hasil penelitian dalam melakukan pengujian kombinasi penggunaan data,

kombinasi neuron dan hidden layer, serta uraian mengenai hasil output terkait hasil

data dari OCR (Optical Character Recognition) dari Teserract.

4.1. Preprocessing

Berikut merupakan pembahasan dari preprocessing dimana dibagian ini

dilakukan pengekstrakan data dari data gambar menjadi data teks dengan melalui

tahap pemrosesan citra, OCR, dan pemrolehan infrormasi.

4.1.1. Pemrosesan Citra

Proses yang pertama dilakukan yakni imread dengan memasukkan alamat

gambar, untuk membaca gambar menjadikan matriks 3 keping dengan tipe unit8.

Selanjutnya rgb2gray memproses gambar menjadi matriks 1 keping dengan tipe

double, gambar grayscale ini digunakan dalam identifikasi MSER.

4.1.1.1. MSER

Penggunaan awal threshold 12 dan RegionArea 20 hingga 1200 mampu

menangani sebagian besar gambar, akan tetapi beberapa gambar tidak dapat

ditangani secara baik bahkan cenderung menghilangkan tulisan, kemudian penulis

mencoba merubah dengan menggunakan threshold RegionArea yang lebih kecil

yakni threshold 5 dan RegionArea 20 hingga 800, dari hasil tersebut memang

mendapatkan kinerja MSER lebih optimal akan tetapi lebih banyak noise yang

ditangkap daripada menggunakan threshold 12, jadi penulis mengkombinasi kedua

threshold tersebut dengan menggunakan threshold 12 dan RegionArea 20 hingga

1200 pada awal, jika nilai MSER pada threshold kurang dari 1 maka akan

dikenakan threshdold 5 dan RegionArea 20 hingga 800.


49

Gambar 4.1 Menggunakan region area 20-

1200 dan thershold delta 12

Gambar 4.2 Menggunakan region area 20-800

dan thershold delta 5

Beberapa proses dari pemrosesan citra beberapa gambar belum mampu

diproses secara baik.

Gambar 4.3 Contoh gambar setelah diproses grayscale yang tidak bisa

dideteksi MSER


50

Gambar dengan 96px diatas sulit untuk mendeteksi tulisannya hal tersebut

disebabkan oleh warna tulisan pada gambar tersebut mirip dengan warna latar

tulisannya.

Gambar 4.4 Contoh hasil MSER grayscale

gambar yang baik

Gambar 4.5 Contoh hasil setelah piksel

koordinat selain nilai MSER diubah menjadi 0

Gambar diatas merupakan salah satu contoh gambar yang baik digunakan

untuk proses OCR, karena hasil deteksi tulisannya yang sangat baik dan hanya

menangkap sedikit noise.

4.1.2. Optical Character Recognition

Kemampuan OCR Tesseract dibatasi untuk ukuran gambar minimal 70px,

keseluruhan data gambar berukuran 96px, dengan ukuran dan jenis tulisan sangat

bervariasi, dalam pengujian ini didapatkan contoh beberapa tulisan yang dapat

diidentifikasi dan tidak dapat diidentifikasi oleh Tesseract pada Tabel 4.1.


51

Tabel 4.1 Perbandingan Tulisan

Gambar Penjelasan Identifikasi

Gambar dengan

tinggi 17 px dan

tebal garis 4 px

Teridentifikasi

Tinggi dan tebal garis cukup

untuk diidentifikasi

Gambar dengan

tinggi 14 px dan

tebal garis 4 px

Teridentifikasi

Tinggi dan tebal garis cukup

untuk diidentifikasi

Gambar dengan

tinggi 10 px dan

tebal garis 1 px

Tidak Teridentifikasi

Terlalu kecil untuk

diidentifikasi

Gambar dengan

tinggi 11 px dan

tebal garis 2 px

Tidak Teridentifikasi

Tebal garis terlalu tipis untuk

diidentifikasi

Dilihat dari tabel diatas, untuk ukuran tulisan dengan tinggi kurang dari 11

px dan tebal garis kurang dari 2 px tidak dapat diidentifikasi secara baik.

4.1.2.1. Hasil Dari OCR

Dari data label A (Kerohanian) didapatkan 65 hasil kata dari 101 data

gambar, dari data label B (Pendidikan) didapatkan 122 hasil dari 200 data gambar,

dari data label C (Filsafat) didapatkan 34 hasil dari 53 data gambar.


52

Grafik 4.1 Perbandingan Perbandingan Data dengan Hasil OCR

Total penggabungan ketiga data tersebut menghasilkan keberhasilan

untuk dilakukan proses OCR sebesar 61%, demikian data yang tidak berhasil untuk

dilakukan OCR sebanyak 138 data.


Proses ini dilakukan untuk mendapatkan judul yang sudah diekstrak dari

gambar sehingga, hanya menghasilkan kata – kata yang memiliki makna pada

gambar tersebut. Pertama yakni case-folding seluruh kata diubah menjadi huruf

capital untuk mengatasi case sensitive dan menghilangkan tanda baca yang tidak

perlu, diproses tokenizing untuk memproses kalimat pada hasil OCR menjadi kata

– perkata, stop word untuk menemukan kata dasar tanpa imbuhan sehingga tidak

diproses lebih lanjut. Setelah stop word masih ditemukan kata – kata yang

berbentuk kata berimbuhan dilakukan proses stemming untuk menghilangkan

imbuhan kata sehingga menjadi kata dasar.

Untuk nama dalam penelitian ini digunakan akhiran –us dan –es sebagai

indikator dalam pengenalan nama, namun dikecualikan untuk kata ‘khusus’ yang

tidak berarti nama tetapi mengandung akhiran -us, hasil dari nama ini diberi tanda

dengan kata ‘nama’ , untuk bentuk data yang akan diproses JST bisa dilihat pada

Tabel 3.3.

0

20

40

60

80

100

120

140

160

180

200

Kerohanian Pendidikan Filsafat

Perbandingan Data dengan Hasil OCR

Data Hasil


53

4.2.Klasifikasi

Data dari pemerolehan informasi yang berbentuk numerik sebanyak 348

data dan 489 ciri perdata kemudian disatukan dengan label, data

Documents

KLASIFIKASI BUKU BERDASARKAN GAMBAR SAMPUL BUKU ... · BUKU MENGGUNAKAN JARINGAN SYARAF TIRUAN BACKPROPAGATION SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana