ALIH AKSARA BATAK TOBA TULISAN TANGAN MENGGUNAKAN …repository.usd.ac.id/34805/2/155314125_full.pdf · FCC 600 tanpa normalisasi rumus dan dengan model klasifikasi multi SVM 1v1

ALIH AKSARA BATAK TOBA TULISAN TANGAN MENGGUNAKAN

METODE EKSTRAKSI CIRI FREEMAN CHAIN CODE (FCC) DAN

METODE KLASIFIKASI SUPPORT VECTOR MACHINE (SVM)

SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh :

Jan William Sianturi

155314125

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

2019

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

ii

CHARACTER'S RECOGNITION OF BATAK TOBA’S HANDWRITTEN

LITERACY USING FREEMAN CHAIN CODE (FCC) FEATURE’S

EXTRACTION METHODE AND SUPPORT VECTOR MACHINE (SVM)

CLASSIFICATION’S METHODE

A THESIS

Submitted in Partial Fulfillment of The Requirements

for The Degree of Sarjana Komputer

In Informatics Engineering Study Program

By:

Jan William Sianturi

155314125

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

2019



iv


v


vi


vii

ABSTRAK

Indonesia terdiri dari banyak suku bangsa dan banyak dari suku bangsa

tersebut memiliki aksara sendiri dalam menulis menggunakan bahasa daerahnya

masing-masing, salah satunya adalah aksara Batak Toba. Dewasa ini, aksara Batak

Toba mulai sulit untuk ditemukan keberadaannya. Hanya sedikit saja orang yang

mampu membaca aksara Batak Toba bahkan dari kalangan orang bersuku Batak

Toba sekalipun. Dewasa ini, teknologi membuat gambar dapat digitalisasi untuk

berikutnya dilakukan pengolahan-pengolahan tertentu guna mengambil sebuah

pengetahuan (knowledge) dari citra tersebut, metode ini disebut dengan pemrosesan

citra dan pengenalan pola.

Pada penelitian ini, akan dibangun sebuah sistem yang mampu membaca dan

mengenali gambar aksara Batak Toba tulisan tangan serta menerjemahkan gambar

aksara tersebut ke dalam tulisan dalam bahasa latin. Tahap awal dalam penelitian

ini adalah akuisisi data. Gambar aksara batak toba diperoleh dari responden yang

mengisi angket pengumpulan data, lalu di-scan untuk selanjutnya di-crop dan

menjadi data. Tahap berikutnya adalah Preprocessing dengan tahapan binerisasi,

deteksi tepi, profil proyeksi, pengisian pixel kosong dan reduksi noise. Data yang

siap diolah kemudian diekstraksi ciri Freeman Chain Code (FCC)-nya lalu akan

dibawa ke tahap klasifikasi dengan model klasifikasi adalah Support Vector

Machine (SVM). Adapun jumlah data yang digunakan adalah 30 dataset yang setiap

set data terdiri dari 39 jenis aksara.

Tahap berikutnya adalah evaluasi, yaitu pengujian akurasi sistem dalam

melakukan klasifikasi. Berdasarkan penelitian yang dilakukan, akurasi sistem

dalam melakukan klasifikasi adalah sebesar 83.7607 % dengan menggunakan ciri

FCC 600 tanpa normalisasi rumus dan dengan model klasifikasi multi SVM 1v1

dengan pengelompokan kelas berdasarkan jumlah connected component.

Kata kunci: pemrosesan citra, pengenalan pola, Freeman Chain Code (FCC),

Support Vector Machine (SVM).


viii

ABSTRACT

Indonesia consists of many ethnic groups and many of these ethnic groups

have their own characters in writing using their respective regional languages, one

of which is the Batak Toba’s script. Today, the Batak Toba’s script has become

difficult to find. Only a few people are able to read the Batak Toba’s script even

among Batak Toba’s people. Today, technology makes images can be digitized for

the next can be processed to take a knowledge from the image, this method is called

image processing and pattern recognition.

In this study, a system that is able to read and recognize handwritten Batak

Toba’s characters and translate images of the characters into writing in Latin will

be built. The initial stage in this research is data acquisition. Batak Toba’s literacy

images were obtained from respondents who filled out data collection

questionnaires, then scanned to then be extracted and become data. The next stage

is preprocessing with binary stages, edge detection, projection profiles, blank pixel

filling and noise reduction. Data that is ready to be processed and then extracted

from the characteristics of Freeman Chain Code (FCC) will then be taken to the

classification stage with a classification model that is Support Vector Machine

(SVM). The amount of data used is 30 datasets, each data set consisting of 39 types

of characters.

The next stage is evaluation, which is testing the accuracy of the system in

carrying out classification. Based on the research conducted, the accuracy of the

system in carrying out the classification is 83.7607% using the FCC 600 feature

without normalizing the formula and with the multi classification model SVM 1v1

with classifications based on the number of connected components.

Keywords: Freeman Chain Code (FCC), Support Vector Machine (SVM).


ix

KATA PENGANTAR

Puji dan syukur penulis panjatkan kehadirat Tuhan Yesus Kristus atas rahmat

dan karunia-Nya, sehingga penulis dapat menyelesaikan tugas akhir dengan judul

“Alih Aksara Batak Toba Tulisan Tangan Menggunakan Metode Ekstraksi Ciri

Freeman Chain Code (FCC) Dan Metode Klasifikasi Support Vector Machine

(SVM)” dengan baik dan tepat waktu. Tugas akhir ini merupakan salah satu

persyaratan yang wajib untuk ditempuh sebagai syarat akademik untuk memperoleh

gelar sarjana komputer program studi Teknik Informatika Universitas Sanata

Dharma Yogyakarta.

Selama proses penelitian, penulis mendapat banyak dukungan dari berbagai

pihak sehingga sudah sepantasnya penulis menyampaikan terima kasih yang

sebesar-besarnya kepada:

1. Ibu Dr. Anastasia Rita Widiarti, M.Kom selaku dosen pembimbing tugas

akhir yang telah bersedia memberikan arahan, masukan, waktu serta motivasi

kepada penulis selama menyelesaikan skripsi.

2. Keluarga tercinta yang selalu memberikan dukungan dan doa sehingga

membuat penulis semakin semangat dalam mengerjakan serta menyelesaikan

tugas akhir ini.

3. Bapak Sudi Mungkasi, S.Si., M.Math.Sc.,Ph.D. selaku dekan Fakultas Sains

dan Teknologi.

4. Seluruh dosen Teknik Informatika Universitas Sanata Dharma yang telah

mendidik dan memberikan ilmu pengetahuan yang penulis gunakan sebagai

bekal untuk menyelesaikan tugas akhir ini.

5. Teman-teman yang sudah meluangkan waktu dan tenaganya dalam

membantu penulis dalam mengisi angket pengumpulan data. Tanpa kalian,

penelitian ini tidak akan bisa dimulai.

6. Saudara Yohanes Adi Purnomo Batlayeri, Tubagus Rendy S. I. R. K., Jery

Ferdiano, Lendra Riady dan Risky Simaremare yang telah meluangkan waktu

dan tenaga untuk menemani, memberi semangat dan motivasi dan sebagai

tempat bertukar pikiran dalam pengerjaan tugas akhir ini.


x


xi

DAFTAR ISI

HALAMAN JUDUL .......................................................................................... i

TITLE PAGE ..................................................................................................... ii

HALAMAN PERSETUJUAN ........................................................................... iii

HALAMAN PENGESAHAN ............................................................................ iv

PERNYATAAN KEASLIAN KARYA ............................................................ v

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH

UNTUK KEPENTINGAN AKADEMIS .......................................................... vi

ABSTRAK ......................................................................................................... vii

ABSTRACT .......................................................................................................viii

KATA PENGANTAR ....................................................................................... ix

DAFTAR ISI ...................................................................................................... xi

DAFTAR TABEL ..............................................................................................xiii

DAFTAR GAMBAR .........................................................................................xiv

BAB I PENDAHULUAN ............................................................................ 1

1.1. Latar Belakang ............................................................................ 1

1.2. Rumusan Masalah ...................................................................... 3

1.3. Tujuan Penelitian ........................................................................ 3

1.4. Manfaat Penelitian ...................................................................... 4

1.5. Batasan Masalah ......................................................................... 4

1.6. Metodologi Penelitian ................................................................ 4

1.7. Sistematika Penulisan ................................................................. 5

BAB II LANDASAN TEORI ....................................................................... 7

2.1. Pengenalan Pola .......................................................................... 7

2.2. Support Vector Machine (SVM) ................................................ 8

2.3. Multi Class SVM ........................................................................ 13

2.3.1. One-Against-All ............................................................... 13

2.3.2. One-Against-One .............................................................. 14

2.4. Freeman Chain Code (FCC) ....................................................... 15


xii

2.5. Aksara Batak Toba ..................................................................... 16

2.5.1. Ina Ni Surat ....................................................................... 17

2.5.2. Anak Ni Surat ................................................................... 18

2.6. K-Fold Cross Validation ............................................................. 19

2.7. Confusion Matrix ........................................................................ 20

BAB III METODE PENELITIAN ............................................................... 22

3.1. Pengumpulan Data ...................................................................... 22

3.2. Perancangan Sistem .................................................................... 23

3.2.1. Preprocessing .................................................................... 25

3.2.2. Ekstraksi Ciri .................................................................... 29

3.2.3. Klasifikasi ......................................................................... 37

3.2.4. Pengujian .......................................................................... 41

3.3. Kebutuhan Sistem ....................................................................... 43

3.3.1. Perangkat Keras ................................................................ 43

3.3.2. Perangkat Lunak ............................................................... 44

3.4. Desain Alat Uji ........................................................................... 44

BAB IV IMPLEMENTASI DAN ANALISIS HASIL ................................ 46

4.1. Akuisisi Data .............................................................................. 46

4.2. Preprocessing .............................................................................. 47

4.3. Ekstraksi Ciri .............................................................................. 54

4.4. Pembuatan Database Data Training ........................................... 58

4.5. Klasifikasi ................................................................................... 62

4.6. Evaluasi ...................................................................................... 65

BAB V PENUTUP ........................................................................................ 74

5.1. Kesimpulan .................................................................................. 74

5.2. Saran ........................................................................................... 75

DAFTAR PUSTAKA ........................................................................................ 76


xiii

DAFTAR TABEL

Tabel 2.1. Ina Ni Surat ....................................................................................... 17

Tabel 2.2. Anak Ni Surat .................................................................................... 18

Tabel 3.1. Pengelompokan Kelas ....................................................................... 39

Tabel 3.2. Kelompok Pengujian Data ................................................................ 42

Tabel 3.3. Pembagian Data Training dan Testing setiap percobaan .................. 43

Tabel 3.4. Tabel Spesifikasi PC ......................................................................... 43

Tabel 4.1. Perbandingan Label Data Uji dengan Hasil Pediksi Sistem ............. 71


xiv

DAFTAR GAMBAR

Gambar 2.1. Ilustrasi penentuan hyperplane terbaik ........................................... 9

Gambar 2.2. Pemetaan data ke ruang vektor berdimensi yang lebih tinggi ....... 11

Gambar 2.3. Titik Data dengan tiga kelas .......................................................... 13

Gambar 2.4. Ilustrasi penggunaan metode one-againts-all ................................ 14

Gambar 2.5. Klasifikasi metode One-against-all ............................................... 14

Gambar 2.6. Klasifikasi metode One-against-one ............................................. 15

Gambar 2.7. Jenis Ketetanggaan ........................................................................ 15

Gambar 2.8. Kode perpindahan titik menuju titik tentangga berikutnya ........... 16

Gambar 2.9. Silsilah Aksara ............................................................................... 16

Gambar 2.10. Pembagian Kelompok untuk Setiap Model ................................. 19

Gambar 2.11. Confusion Matrix ........................................................................ 20

Gambar 3.1. Kolom Pengisian Aksara Responden ............................................. 22

Gambar 3.2. Angket Pengumpulan Data ........................................................... 23

Gambar 3.3. Diagram Blok Sistem .................................................................... 24

Gambar 3.4. Diagram Blok Preprocessing ......................................................... 25

Gambar 3.5. Contoh Pixel yang kosong ............................................................. 28

Gambar 3.6. Diagram Blok Ekstraksi Ciri ......................................................... 29

Gambar 3.7. FCC sebelum normalisasi ............................................................. 33

Gambar 3.8. FCC sesudah penghilangan kode berfrequensi 1 .......................... 33

Gambar 3.8. FCC yang paling sederhana .......................................................... 33

Gambar 3.9. Hasil perhitungan normalisasi ....................................................... 34

Gambar 3.10. Pembangunan Model SVM ......................................................... 37

Gambar 3.11. Prototype GUI Program .............................................................. 44

Gambar 4.1. Contoh Pengisian Angket oleh Repsonden ................................... 46

Gambar 4.2. Penyimpanan Hasil Crop Aksara Tulisan Tangan ........................ 47

Gambar 4.3. Aksara Tulisan Tangan dalam Setiap Folder ................................ 47

Gambar 4.4. Hasil Baca Data Aksara Ju dari set ke 4 ........................................ 48

Gambar 4.5. Hasil Binerisasi variabel gambar ................................................... 48

Gambar 4.6 Deteksi tepi pada variabel gambar ................................................. 49


xv

Gambar 4.7. Proyeksi Vertikal pada Variabel Gambar ..................................... 50

Gambar 4.8. Hasil Crop Baris pada Variabel gambar ........................................ 50

Gambar 4.9. Proyeksi Horizontal pada Variabel Gambar .................................. 51

Gambar 4.10. Hasil Crop Kolom pada Variabel gambarbaru ............................ 51

Gambar 4.11. Hasil Crop citra pada variabel gambar ........................................ 52

Gambar 4.12 Piksel kosong pada gambar .......................................................... 52

Gambar 4.13. Pengisian pixel kosong pada gambar .......................................... 53

Gambar 4.14 Penghapusan noise pada gambar .................................................. 53

Gambar 4.15. Titik start pencarian FCC ............................................................ 54

Gambar 4.16. Hasil Pencarian FCC Pertama ..................................................... 55

Gambar 4.17. Hasil Final Pencarian FCC .......................................................... 56

Gambar 4.18. Ciri FCC 100 citra aksara Ju ....................................................... 56

Gambar 4.19. Ciri FCC 200 citra aksara Ju ........................................................ 57




Gambar 4.23. Ciri FCC 600 normalisasi ukuran citra aksara Ju ........................ 58

Gambar 4.24. Aksara A pada dataset 1 sampai 5 ............................................... 59

Gambar 4.25. FCC 100 dari Aksara A data set 1, 2 dan .................................... 59

Gambar 4.26. FCC 100 dari Aksara A data set 4 dan 5 ..................................... 60

Gambar 4.27. Penggabungan ciri FCC aksara A dataset 1 sampai 5 ................. 60

Gambar 4.28. Penyimpanan FCC pada file A.xls .............................................. 61

Gambar 4.29. Hasil voting dari 741 model klasifikasi biner .............................. 63

Gambar 4.30. Hasil klasifikasi menggunakan SVM model 1 ............................ 63

Gambar 4.31. Hasil voting dari 253 model klasifikasi biner .............................. 65

Gambar 4.32. Hasil klasifikasi menggunakan SVM model 2 ............................ 65

Gambar 4.33. Grafik Perubahan Akurasi 100 FCC ........................................... 66






xvi


Gambar 4.39. Perbandingan Akurasi Tertinggi Model 1 dan Model 2 .............. 70

Gambar 4.40. Confusion Matrix hasil klasifikasi data uji ke 6 .......................... 72

Gambar 4.41. Hasil Uji Klasifikasi dengan Data Tunggal ................................. 73


1

BAB I

PENDAHULUAN

1.1.Latar Belakang

Indonesia terkenal dengan ragam budaya, dengan 1.340 suku bangsa

menurut sensus BPS pada tahun 2010 dan banyak dari suku bangsa tersebut

memiliki aksara tersediri dalam menulis menggunakan bahasa daerahnya

masing-masing. Salah satu dari jenis aksara tersebut adalah Aksara Batak Toba

yang akan dibahas pada penelitian ini. Jika dilihat dari asalnya, Aksara Batak

merupakan rumpun dari tulisan Brahmi (India), khususnya termasuk dalam

kelompok tulisan India Selatan. Aksara Batak diklasifikasikan sebagai abugida

(jenis tulisan fonetis yang setiap bunyi bahasanya dapat dilambangkan secara

akurat). Terdapat dua jenis perangkat huruf aksara batak yaitu : ina ni surat

(huruf utama) dan anak ni surat (huruf turunan) (Kozok, 2009). Seiring

berjalannya waktu, aksara Batak Toba ini mulai sulit untuk ditemukan

keberadaannya. Jika dihitung kuantitasnya, hanya sedikit saja orang yang

mampu membaca aksara Batak Toba bahkan dari kalangan orang bersuku

Batak Toba sekalipun. Berkaca dari kasus diatas, penulis merasa prihatin

dengan eksistensi dari aksara Batak Toba ini kedepannya.

Perkembangan teknologi yang sangat pesat belakangan ini membuat

gambar dapat digitalisasi untuk berikutnya dilakukan pengolahan-pengolahan

tertentu guna mengambil sebuah pengetahuan (knowledge) dari citra tersebut,

metode ini disebut dengan pemrosesan citra dan pengenalan pola. Salah satu

contoh penerapan dari pemrosesan citra adalah sistem yang dapat mengenali

sebuah citra aksara serta dapat menerjemahkan citra aksara tersebut kedalam

bahasa latin. Pengenalan pola dapat diartikan sebagai suatu langkah yang

dilakukan guna melakukan klasifikasi terhadap suatu objek menjadi dua atau

lebih kelas. Dalam melakukan klasifikasi terhadap suatu objek, tahapan yang

perlu dilakukan dalam pengenalan pola adalah preprocessing, ekstraksi ciri dan

klasifikasi. Tahap preprocessing adalah tahapan yang dilakukan untuk

mempersiapkan data menjadi bentuk yang paling optimal untuk dilakukan


2

klasifikasi nantinya. Tahap berikutnya adalah ekstraksi ciri yang merupakan

tahapan untuk mengambil ciri dari suatu objek yang sudah di-preprocessing

sebelumnya. Ada banyak ciri yang dapat diperoleh dari sebuah objek baik

aksara maupun objek lainnya, contohnya ciri bentuk, ciri warna, ciri tekstur,

dan masih banyak lagi, sehingga perlu dilakukan pemilihan ciri yang tepat guna

dibawa ke tahapan berikutnya. Adapun tahap akhir dari pengenalan pola adalah

klasifikasi. Sama dengan tahap ekstraksi ciri, ada banyak metode klasifikasi

yang dapat ditemui pada saat ini seperti K-Nearest Neighbor, Support Vector

Machine, Neural Network dan banyak lagi, sehingga perlu dipertimbangkan

metode yang dapat digunakan guna menghasilkan hasil klasifikasi yang terbaik

dengan menggunakan ciri yang sudah dipilih sebelumnya.

Pada penelitian ini, akan dibangun sebuah sistem yang mampu membaca

dan mengenali gambar aksara Batak Toba tulisan tangan serta menerjemahkan

gambar aksara tersebut kedalam tulisan dalam bahasa latin. Adapun penelitian

ini akan menggunakan Freeman Chain Code (FCC) sebagai ciri, serta Support

Vector Machine (SVM) sebagai metode klasifikasi. FCC merupakan salah satu

contoh ciri bentuk yang dapat diambil dari sebuah citra yang sebelumnya sudah

diperkenalkan oleh Freeman pada tahun 1961 (Sinaga, D., 2013). FCC akan

merepresentasi bentuk dari aksara yang akan dikenali dengan deretan angka

nol sampai tujuh. Adapun pemilihan metode SVM sebagai metode klasifikasi

adalah karena SVM memiliki keunggulan dalam melakukan klasifikasi dengan

data yang terbatas, mampu melakukan proses untuk meminimalisir error pada

data training, serta tidak memiliki curse of dimensionality dimana

dimensionality yang dimaksud adalah parameter inputan ke dalam metode

klasifikasi yang dapat mempengaruhi hasil klasifikasi, contohnya adalah

jumlah hidden neuron pada metode klasifikasi neural network (Nugroho A.S.,

2013).

Penelitian yang sama juga sudah dilakukan oleh Safrizal dkk. (2016)

tentang mengenali aksara Jawi menggunakan ciri FCC serta metode SVM

sebagai metode klasifikasi dengan judul “Pengenalan Aksara Jawi Tulisan

Tangan Menggunakan Freeman Chain Code (FCC), Support Vector Machine


3

(SVM) Dan Aturan Pengambilan Keputusan”. Dalam penelitian tersebut,

Safrizal dkk. (2016) berhasil membuat sebuah sistem yang mampu mengenali

Aksara Jawi dengan tingkat akurasi sebesar sebesar 80 %. Sedikit berbeda

dengan penelitian tersebut, sistem ini akan mengimplementasikan metode FCC

sebagai ciri yang digunakan serta metode SVM sebagai metode klasifikasi

dengan menggunakan objek Aksara Batak Toba yang sebelumnya pada

penelitian tersebut menggunakan Aksara Jawi. Penelitian ini akan mengenali

dan menerjemahkan gambar aksara Batak Toba tulisan tangan menjadi tulisan

dalam bahasa latin. Sesuai dengan tahapan pengenalan pola, maka gambar

aksara inputan akan di-preprocessing terlebih dahulu guna menghilangkan

derau. Tahap berikutnya adalah mengambil ciri FCC dari gambar yang sudah

di-preprocessing kemudian mengklasifikasikan menggunakan metode SVM.

Besar harapan penulis, dengan penelitian yang dilakukan, orang lain akan lebih

terbantu untuk lebih melestarikan budaya indonesia khususnya aksara Batak

Toba serta menjadi lebih mudah dalam mempelajari aksara Batak Toba.

1.2.Rumusan Masalah

Berapa persentase keberhasilan yang diperoleh dalam proses alih aksara

Batak Toba tulisan tangan dengan menggunakan metode ekstraksi ciri Freeman

Chain Code (FCC) dan metode klasifikasi Support Vector Machine (SVM) ?

1.3.Tujuan Penelitian

Untuk mengetahui apakah masalah yang dihadapi pada rumusan masalah

dapat diselesaikan atau tidak, dimana tujuan dari penelitian ini adalah untuk

mengetahui akurasi yang berhasil didapatkan dalam alih aksara Batak Toba

dengan menggunakan metode ekstraksi ciri Freeman Chain Code (FCC) dan

metode klasifikasi Support Vector Machine (SVM) dimana aksara yang

digunakan adalah aksara Batak Toba yang ditulis tangan.


4

1.4.Manfaat Penelitian

Manfaat dari penelitian ini adalah dapat digunakan oleh masyarakat luas

sebagai media pembelajaran aksara Batak Toba sehingga dapat lebih mudah

untuk dipelajari, dan jika dikembangkan lagi harapannya dapat melakukan

transliterasi secara otomatis terhadap naskah kuno beraksara Batak Toba yang

jelas nantinya akan membantu dalam melakukan dokumentasi terhadap

dokumen-dokumen tersebut.

1.5.Batasan Masalah

Adapun program yang dibuat memiliki beberapa batasan-batasan berikut :

1. Aksara yang digunakan adalah Aksara Batak Toba yang dimana merupakan

bagian dari Aksara Batak, dimana Aksara Batak sendiri terbagi atas lima

jenis aksara yang berbeda.

2. Aksara yang digunakan adalah Aksara Batak Toba Modern dimana

memiliki beberapa perbedaan dalam penulisan aksara antara Aksara Batak

Toba Modern dengan Aksara Batak Toba Tradisional.

3. Adapun aksara yang dikenali berupa aksara adalah a, ha, na, ra, ta, ba, wa,

i, ma, nga, la, pa, sa, da, ga, ja, ya, u dan nya untuk ina ni surat atau induk

kalimat dan hatadingan (e), haluaian (i), siala (o), haborotan (u), haminsaran

(ng) dan pangolat (tanda bunuh) untuk anak ni surat (tanda diakratik).

4. Inputan berupa citra dengan ekstensi file *.jpg ataupun *.png

5. Citra Aksara yang digunakan adalah merupakan hasil scan dari tulisan

tangan beberapa orang.

1.6.Metodologi Penelitian

1. Pengumpulan Data

Tahap ini adalah tahap untuk mengumpulkan seluruh data-data yang akan

digunakan dalam sistem yang akan dibuat. Data dikumpulkan menggunakan

angket pengumpulan data yang dibagikan kepada responden. Angket

tersebut nantinya akan di-scan menggunakan mesin scanner.


5

2. Pembuatan Alat Uji

Tahap ini adalah tahap untuk merancang sistem yang akan dibangun sebagai

alat uji sehingga dapat mengetahui tingkat akurasi dari metode-metode yang

digunakan..

3. Pengujian dan Analisis

Tahap ini adalah tahap untuk menguji akurasi sistem dalam melakukan alih

aksara Batak Toba tulisan tangan dengan menggunakan metode ekstraksi

ciri FCC dan metode klasifikasi SVM dan melakukan analisis terhadap

akurasi yang dihasilkan.

1.7.Sistematika Penulisan

BAB I : PENDAHULUAN

Bab ini berisi tentang latar belakang masalah, rumusan masalah,

tujuan, manfaat, batasan masalah serta sistematika penulisan dari

sistem yang akan diteliti.

BAB II : LANDASAN TEORI

Bab ini berisi tentang teori-teori dasar yang berkaitan dengan

penelitian yang dikerjakan, yang meliputi objek yang digunakan,

yaitu Aksara Batak Toba, metode segmentasi, yaitu Profil

Proyeksi, metode ekstraksi ciri, yaitu Freeman Chain Code (FCC),

dan Support Vector Machine (SVM) yang merupakan metode

untuk melakukan klasifikasi.

BAB III : METODOLOGI PENELITIAN

Bab ini berisi langkah-langkah yang dilakukan dalam penelitan

yang bertujuan untuk menjawab dan menyelesaikan rumusan

masalah yang dimiliki.


6

BAB IV : IMPLEMENTASI DAN ANALISA HASIL

Bab ini berisi penjelasan mengenai implementasi sistem yang

dibangun, penerapan algoritma serta rancangan yang sudah dibuat,

cara penggunaan sistem, serta analisa hasil berupa analisis dan

evaluasi.

BAB V : PENUTUP

Bab ini berisikan kesimpulan dari seluruh penelitian serta saran

yang diusulkan untuk pengembangan lebih lanjut.


7

BAB II

LANDASAN TEORI

Bab ini berisikan tentang teori-teori yang digunakan dalam penelitian ini.

Adapun teori-teori tersebut adalah Pengenalan Pola, Support Vector Machine

(SVM), Freeman Chain Code (FCC), Aksara Batak Toba, K-Fold Cross Validation,

dan Confusion Matrix.

2.1. Pengenalan Pola

Dalam pengenalan pola terdapat lima tahapan, diantaranya adalah

pengumpulan data, pemilihan ciri, pemilihan model klasifikasi, training

system, dan evaluate system. Pengumpulan data adalah proses yang dilakuakan

oleh peneliti untuk mengumpulkan seluruh data yang relefan dengan

penelitiannya. Beberapa hal yang perlu diperhatikan dalam tahapan ini adalah

cara memperoleh data serta jumlah data yang berhasil diperoleh nantinya akan

mempengaruhi langkah langkah berikutnya.

Tahap berikutnya dalah pemilihan ciri serta pemilihan model klasifikasi.

Dari data yang digunakan nantinya, akan banyak ciri yang bisa ditemukan,

contohnya ciri rambut, ciri warna kulit serta ciri tinggi badan pada manusia.

Namun apakah ciri tersebut dapat digunakan dalam melakukan klasifikasi

gender (jenis kelamin) seseorang dengan baik ? Hal tersebutlah yang perlu

dipertimbangkan pada tahap pemilihan ciri. Sama seperti tahap pemilihan ciri,

udah banyak sekali model klasifikasi yang dapat digunakan dalam melakukan

klasifikasi. Masalah yang harus dihadapi adalah memilih model klasifikasi

yang tepat guna mengklasifikasikan suatu objek menggunakan ciri yang sudah

dipilih sebelumnya.

Ciri yang sudah dipilih sebelumnya kemudian di latih kedalam sistem

menggunakan model klasifikasi yang juga sudah dipilih. Seluruh data akan

dievaluasi guna melihat performa sistem dalam melakukan klasifikasi. Adapun

performa dari sistem dapat dilihat dari besar akurasi yang dihasilkan dalam

melakukan klasifikasi. Sebelum melakukan evaluasi sistem, data terlebih


8

dahulu dibagi menjadi dua kelompok bagian yang disebut sebagai kelompok

data latih (training) dan kelompok data uji (testing), lalu seluruh data uji akan

diklasifikasi dengan menggunakan data latih menggunakan model klasifikasi

yang sama. Hasil prediksi sitem akan dibandingkan dengan kenyataan,

sehingga dapat diperoleh tingkat akurasi dari sistem dalam melakukan

klasifikasi.

2.2. Support Vector Machine (SVM)

Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada

tahun 1992 sebagai rangkaian harmonis konsep-konsep unggulan dalam bidang

pattern recognition. Konsep dasar SVM sebenarnya merupakan kombinasi

harmonis dari teori-teori komputasi yang telah ada puluhan tahun sebelumnya,

seperti margin hyperplane (Duda & Hart tahun 1973, Cover tahun 1965,

Vapnik 1964, dsb.), kernel diperkenalkan oleh Aronszajn tahun 1950, dan

demikian juga dengan konsep-konsep pendukung yang lain. Akan tetapi hingga

tahun 1992, belum pernah ada upaya merangkaikan komponen-komponen

tersebut. SVM adalah metode learning machine yang bekerja atas prinsip

Structural Risk Minimization (SRM) dengan tujuan menemukan hyperplane

terbaik yang memisahkan dua buah class pada input space. Berbeda dengan

strategi neural network yang berusaha mencari hyperplane pemisah antar class,

SVM berusaha menemukan hyperplane yang terbaik pada input space yang

pada awalnya memiliki prinsip dasar linear clasifier, namun kemudian

dikembangkan untuk dapat bekerja pada masalah non-linear (Nugroho, 2003).

Gambar 2.1. menunjukkan bahwa ada banyak decrimination boundaries

(hyperplane) yang dapat digunakan dalam menyelesaikan masalah klasifikasi.

Seperti pada Gambar 2.1. (a) terdapat tiga yang seharusnya bahkan lebih

banyak discrimination boundaries yang dapat digunakan untuk memisahkan

kelas -1 (berwarna merah) dengan kelas +1 (berwarna kuning). Namun masalah

pada SVM adalah memilih hyperplane terbaik yang ditandai dengan margin

hyperplane dengan pattern terdekat untuk setiap kelas, seperti pada Gambar

2.1. (b) margin hyperplane ke kelas -1 memiliki jarak yang sama dengan


9

hyperplane ke kelas +1. Pattern yang paling dekat dengan hyperplane ini

disebut sebagai support vector.

Gambar 2.1. Ilustrasi penentuan hyperplane terbaik (Nugroho, 2003)

Data yang tersedia dinotasikan sebagai x ∈ Rd sedangkan label masing-masing

dinotasikan yi ∈ {-1,+1} untuk i = 1,2,3,...n yang mana n adalah banyaknya

data. Diasumsikan kedua class –1 dan +1 dapat terpisah secara sempurna oleh

hyperplane berdimensi d , yang didefinisikan dengan:

�⃗⃗� . 𝑥 + 𝑏 = 0

Pattern 𝑥𝑖⃗⃗ ⃗ yang termasuk class –1 (sampel negatif) dapat dirumuskan sebagai

pattern yang memenuhi pertidaksamaan

�⃗⃗� . 𝑥 + 𝑏 ≤ −1

sedangkan pattern 𝑥𝑖⃗⃗ ⃗ yang termasuk class +1 (sampel positif)

�⃗⃗� . 𝑥 + 𝑏 ≥ +1

Keterangan:

w = vector bobot x = nilai masukan atribut b = bias

Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara

hyperplane dan titik terdekatnya, yaitu 1

‖�⃗⃗� ‖ . Hal ini dapat dirumuskan sebagai

(2.1.)

(2.2.)

(2.3.)


10

Quadratic Programming (QP) problem, yaitu mencari titik minimal persamaan

(2.6.), dengan memperhatikan constraint persamaan (2.5.).

𝑚𝑖𝑛�⃗⃗� 𝜏(𝑤) = 1

2 ‖�⃗⃗� ‖2

𝑦𝑖(𝑥 𝑖 . �⃗⃗� + 𝑏 ) − 1 ≥ 0

Problem ini dapat dipecahkan dengan berbagai teknik komputasi, di antaranya

Lagrange Multiplier

𝐿(�⃗⃗� , 𝑏, 𝛼) = 1

2‖�⃗⃗� ‖2 − ∑𝛼𝑖(𝑦𝑖((𝑥𝑖⃗⃗ ⃗

𝑙

𝑖=1

. �⃗⃗� + 𝑏) − 1))

Dengan α adalah Lagrange multipliers, yang bernilai nol atau positif ( α > 0 ).

Nilai optimal dari persamaan (2.6.) dapat dihitung dengan meminimalkan L

terhadap �⃗⃗� dan b , dan memaksimalkan L terhadap αi. Dengan memperhatikan

sifat bahwa pada titik optimal gradient L=0, persamaan (2.6.) dapat

dimodifikasi sebagai maksimalisasi problem yang hanya mengandung αi saja ,

sebagaimana persamaan (2.7.) dan (2.8.) berikut.

𝐿𝑑 = ∑𝛼𝑖 − 1

2 ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗𝑥𝑖⃗⃗ ⃗. 𝑥𝑗⃗⃗ ⃗

𝑙

𝑖,𝑗=1

𝑙

𝑖=1

𝛼 ≥ 0 (𝑖 = 1,2, … , 𝑙)∑𝛼𝑖

𝑙

𝑖=1

𝑦𝑖 = 0

Dari hasil dari perhitungan ini diperoleh 𝛼𝑖 yang kebanyakan bernilai positif.

Data yang berkorelasi dengan 𝛼𝑖 positiflah yang disebut sebagai support

vector.

Pada kenyataannya, masalah di dunia nyata sangat jarang untuk dapat

diselesaikan secara linear. Untuk menyelesaikan problem non-linear, SVM

dimodifikasi sedemikian rupa dengan cara memasukkan fungsi Kernel. Dalam

non linear SVM, pertama-tama data 𝑥 dipetakan oleh fungsi Φ( 𝑥 ) ke ruang

(2.4.)

(2.5.)

(2.6.)

(2.7.)

(2.8.)


11

vektor yang berdimensi lebih tinggi. Pada ruang vektor yang baru ini,

hyperplane yang memisahkan kedua class tersebut dapat dikonstruksikan. Hal

ini sejalan dengan teori Cover yang menyatakan “Jika suatu transformasi

bersifat non linear dan dimensi dari feature space cukup tinggi, maka data

pada input space dapat dipetakan ke feature space yang baru, dimana pattern-

pattern tersebut pada probabilitas tinggi dapat dipisahkan secara linear”.

Ilustrasi dari konsep ini dapat dilihat pada Gambar 2.2. Pada gambar Gambar

2.2. (a) diperlihatkan data pada class kuning dan data pada class merah yang

berada pada input space berdimensi dua tidak dapat dipisahkan secara linear.

Selanjutnya gambar Gambar 2.2. (b) menunjukkan bahwa fungsi Φ memetakan

tiap data pada input space tersebut ke ruang vektor baru yang berdimensi lebih

tinggi (dimensi 3), dimana kedua class dapat dipisahkan secara linear oleh

sebuah hyperplane. Adapun notasi matematika dari mapping ini ditunjukkan

pada persamaan (2.5.)

Φ ∶ ℜ𝑑 → ℜ𝑞 𝑑 < 𝑞

Gambar 2.2. Pemetaan data ke ruang vektor berdimensi yang lebih tinggi

(Nugroho, 2003)

Selanjutnya proses pembelajaran pada SVM dalam menemukan titik-titik

support vector, hanya bergantung pada dot product dari data yang sudah

ditransformasikan pada ruang baru yang berdimensi lebih tinggi, yaitu Φ ( 𝑥𝑖⃗⃗ ⃗ )

. Φ ( 𝑥𝑗⃗⃗ ⃗ ) . Karena umumnya transformasi Φ ini tidak diketahui, dan sangat

sulit untuk difahami secara mudah, maka perhitungan dot product tersebut

(2.9.)


12

sesuai teori Mercer dapat digantikan dengan fungsi kernel yang terlihat pada

persamaan (2.10.)

K(𝑥𝑖⃗⃗ ⃗, 𝑥𝑗⃗⃗ ⃗) = Φ(𝑥𝑖⃗⃗ ⃗). Φ(𝑥𝑗⃗⃗ ⃗)

Dalam implementasinya, terdapat tiga kernel yang sering dipakai dalam

menyelesaikan kasus SVM diantaranya:

1. Linear

𝐾(𝑥 𝑖, 𝑥 𝑗) = 𝑥 𝑖, 𝑥 𝑗

2. Quadratic

𝐾(𝑥 𝑖, 𝑥 𝑗) = (𝑥 𝑖, 𝑥 𝑗)2

3. Polynomial

𝐾(𝑥 𝑖, 𝑥 𝑗) = (𝑥. 𝑦 + 1)𝑝

4. Gaussian atau Radial Basis Function

𝐾(𝑥 𝑖 , 𝑥 𝑗) = 𝑒−(

‖𝑥 𝑖,𝑥 𝑗‖2

2𝜎2 )

5. Sigmoid

𝐾(𝑥, 𝑦) = tanh(𝛼𝑥𝑖⃗⃗ ⃗ 𝑥𝑗⃗⃗ ⃗ + 𝛽)

Kernel trick memberikan beberapa kemudahan, karena dalam proses

pembelajaran SVM, untuk menentukan support vector, pengguna hanya cukup

mengetahui fungsi kernel trick yang dipakai, tanpa perlu mengetahui wujud

dari fungsi non-linier. Dari keseluruhan kernel trick tersebut, kernel trick radial

basis function merupakan kernel trick yang memberikan hasil terbaik pada

proses klasifikasi khususnya untuk data yang tidak bisa dipisahkan secara

linear. Selanjutnya hasil klasifikasi dari data 𝑥 diperoleh dari persamaan

berikut:

(2.10.)

(2.11.)

(2.12.)

(2.13.)

(2.14.)

(2.15.)


13

𝑓(𝑥) = ∑ 𝛼𝑖 𝑦𝑖 𝐾(

𝑛

𝑖=1,𝑥𝑖⃗⃗ ⃗ ∈𝑆𝑉

𝑥𝑖⃗⃗ ⃗. 𝑥𝑗⃗⃗ ⃗) + 𝑏

2.3. Multi Class SVM

Pada awalnya, SVM dirancang untuk menyelesaikan masalah klasifikasi biner,

namun kini SVM telah dikembangkan sehingga mampu menyelesaikan

masalah klasifikasi non-biner. Adapun metode yang sering digunakan adalah

one-against-one dan one-against-all.

2.3.1. One-Against-All

Metode ini membandingkan setiap model klasifikasi ke-i terhadap

seluruh data yang ada selain yang memiliki kelas yang sama.

Gambar 2.3. Titik Data dengan tiga kelas (Haritama, 2017)

Dapat dilihat pada Gambar 2.6. data tersebut dibagi menjadi tiga buah

kelas, diantaranya kelas 1 yang berwarna hitam, kelas 2 yang berwarna

merah dan kelas 3 yang berwarna ungu. Saat akan melakukan klasifikasi

terhadap kelas 1, seluruh kelas lain selain kelas 1 akan digabungkan

sehingga terbentuk kelas biner yang dapat ditemukan hyperplane nya.

Hal yang sama juga dapat dilakukan terhadap penentuan hyperplane

untuk kelas lainnya. Ilustrasi dari metode one-against-all dapat dilihat

pada Gambar 2.4.

(2.16.)


14

Gambar 2.4. Ilustrasi penggunaan metode one-againts-all (Haritama,

2017)

Jika digambarkan dengan menggunakan bagan, pengklasifikasian

menggunakan metode one-against-all ini dapat ditunjukkan pada Gambar

2.8. berikut:

Gambar 2.5. Klasifikasi metode One-against-all (Riyanda, 2015)

2.3.2. One-Against-One

Metode ini akan menggabungkan seluruh kelas dalam model, sehingga

akan terbentuk (k(k-1))/2 buah klasifikasi biner (k adalah jumlah kelas).

Seperti pada contoh sebelumnya terdapat 3 buah kelas, maka akan

dibentuk 3 pasang klasifikasi biner yaitu 1-2, 1-3, dan 2-3.

Jika digambarkan dengan menggunakan bagan, pengklasifikasian

menggunakan metode one-against-all ini dapat ditunjukkan pada Gambar

2.6. berikut:


15

Gambar 2.6. Klasifikasi metode One-against-one (Riyanda, 2015)

2.4. Freeman Chain Code (FCC)

Pengenalan bentuk dari suatu gambar dengan menggunakan chain code

pertama sekali diperkenalkan oleh Freeman pada tahun 1961 yang disebut

sebagai Freeman Chain Code (FCC). Kode yang dihasilkan berasal dari

perpindahan dari suatu titik hitam ke titik hitam tetangga dari titik sebelumnya

yang akan dilakukan pengecekan nilai tetangga searah dengan jarum jam

(Sinaga, 2013). Terdapat beberapa jenis ketetanggaan dalam chain code, dapat

dilihat pada Gambar 2.7. berikut:

Gambar 2.7. Jenis Ketetanggaan: 8 (a) dan 4 (b) titik tetangga

(Sumber: https://ars.els-cdn.com/content/image/1-s2.0-

S0031320304003723-gr1.jpg)

Pembuatan kode rantai dilakukan dengan cara melakukan perpindahan

dari suatu titik hitam ke titik hitam tetangga yang dilakuan searah dengan jarum

jam. Perpindahan titik tersebut akan selesai saat perpindahan berikutnya

kembali ke titik awal. Adapun titik awal yang digunakan adalah titik hitam

xi

f12(x) f13(x) f23(x)

Kelas 1 Kelas 1 Kelas 3

Kelas 1


16

yang berada paling kiri atas dari citra tersebut. Pengimplementasian chain code

dalam sistem ini akan menggunakan jenis ketetanggaan 8 titik ketetanggaan,

dimana setiap perpindahan yang terjadi akan menghasilkan sebuah kode angka

yang dapat dilihat pada Gambar 2.8. berikut:

Gambar 2.8. Kode perpindahan titik menuju titik tentangga berikutnya

(Sumber: https://ars.els-cdn.com/content/image/1-s2.0-S1047320316300050-

gr1.jpg)

2.5. Aksara Batak Toba

Aksara (surat) Batak termasuk keluarga tulisan India. Aksara India yang

tertua adalah aksara Brahmi yang menurunkan dua kelompok tulisan, yakni

kelompok India Utara (Nagari) dan kelompok India Selatan (Palawa). Semua

tulisan asli Indonesia berinduk pada aksara Palawa yang menjadikan aksara ini

menjadi aksara yang paling berpengaruh bagi tulisan asli Indonesia (Kozok.

2009).

Gambar 2.9. Silsilah Aksara (Kozok, 2009)

7 6 5

1 2 3

4


17

Tulisan Nusantara asli dapat dibagi atas lima kelompok, diantaranya:

1. Aksara Hanacaraka (Jawa, Sunda, Bali)

2. Surat Ulu (Kerinci, Rejang, Lampung, Lembak, Pasemah dan Serawi)

3. Surat Batak (Angkola-Mandailing, Toba, Simalungun, Pakpak Dairi,

Karo)

4. Aksara Sulawesi (Bugis, Makasar dan Bima)

5. Aksara Filipina (Bisaya, Tagalog, Tagbanwa, Mangyan)

2.5.1. Ina Ni Surat

Ina ni surat dalam bahasa indonesia diartikan sebagai induk aksara

memiliki akhiran bunyi /a/ kecuali untuk aksara i dan aksara u. Adapun

urutan penulisan ina ni surat yang paling sering digunakan di sekolah-

sekolah adalah a, ha, na, ra, ta, ba, wa, i, ma, nga, la, pa, sa, da, ga, ja, ya

u, nya. Dapat diduga bahwa urutan ini adalah ciptaan baru, khusus untuk

tujuan mempelajari surat Batak di sekolah-sekolah dan tidak memiliki

dasar tradisional. Urutan ini mudah untuk diingat oleh anak-anak sekolah

karena mebentuk kalimat: aha na rata baoa i mangalapa sada gaja yang

memiliki arti “apa yang hijau orang itu memotong seekor gajah”. Adapun

bentuk aksara dari seluruh ina ni surat tersebut dapat dilihat pada Tabel

2.1. berikut.

Tabel 2.1. Ina Ni Surat

Aksara Arti Aksara Arti

A Wa

Ha Ga

Ba Ja

Pa Da

Na Ra

Ma Sa


18

Ta Ya

Nga La

Nya I

U

2.5.2. Anak Ni Surat

Akhiran bunyi /a/ pada ina ni surat dapat diubah dengan

menambahkan tanda diakratik yang pada Aksara Batak disebut sebagai

anak ni surat. Untuk Aksara Batak Toba sendiri, terdapat enam tanda

diakratik untuk mengubah a → e, a → i, a → o, a → u, a → ang dan

menghapus akhiran a. Adapun penjelasan mengenai anak ni surat

(pangolat) tersebut dapat dilihat pada Tabel 2.2 berikut.

Tabel 2.2. Anak Ni Surat

Nama Anak Ni

Surat Fungsi

Gabungan dengan

Ina ni Surat

Hatadingan Mengganti akhiran a → e /pa/ /pe/

/ga/ /ge/

Haluaian,

Hauluan,

Haulian, Siulu

atau Uluwa

Mengganti akhiran a → i

/la/ /li/

/a/ /i/

Siala atau

Sihora Mengganti akhiran a → o

/ha/ /ho/

/sa/ /so/

Haborotan atau

Haboruan Mengganti akhiran a → u

/sa/ /su/

/da/ /du/


19

Haminsaran,

Hamisaran atau

Paminggil

Mengganti akhiran a → ang /nga/ /ngang/

/sa/ /sang/

Pangolat Menghapus akhiran a /ra/ /r/

/na/ /n/

2.6. K-Fold Cross Validation

K-Fold Cross Validation merupakan metode yang digunakan untuk melakukan

pembagian data menjadi data latih (training) dan menjadi data uji (testing)

dengan cara membagi seluruh data yang ada menjadi K kelompok dimana K

merupakan angka yang lebih besar sama dengan 2. Adapun tujuan pembagian

data disini adalah untuk melakukan pengujian secara silang keseluruhan data

yang digunakan guna melihat tingkat akurasi sebuah model klasifikasi yang

berhasil dibangun. Konsep pembagian data latih dan data uji adalah 1 dari total

K kelompok akan digunakan sebagai data uji dan sisanya akan digunakan

sebagai data latih, sehingga dalam penerapannya akan tercipta sejumlah K buah

model.

Gambar 2.10. Pembagian kelompok untuk setiap model

Seperti dapat dilihat pada Gambar 2.10, dengan menggunakan metode 3-Fold

Cross Validation, seluruh data yang ada akan dikelompokkan terlebih dahulu


20

menjadi 3 kelompok bagian. Dapat dilihat pada Gambar 2.10. Model 1,

terdapat 3 kotak yang merepresentasikan jumlah kelompok data setelah seluruh

data dibagi menjadi 3 kelompok. Dapat pula dilihat bahwa pada Model 1

terdapat dua warna yang berbeda yang merepresentasikan penggunaan dari

kelompok data yang sudah dibagi menjadi 3 kelompok tadi. Pada Model 1,

Kelompok data 1 digunakan sebagai data uji sedangkan kelompok data 2 dan

3 digunakan sebaga data latih. Model 2 menggunakan kelompok data 1 dan 3

menjadi data latih sedangkan kelompok data 2 digunakan sebagai data uji.

Sedangkan Model 3 menggunakan kelompok data 1 dan 2 menjadi data latih

dan kelompok data 3 menjadi data uji. Setelah melakukan pembagian data

menjadi data latih dan data uji, dengan menggunakan seluruh data latih

termasuk ciri dan label, akan dibangun sebuah model klasifikasi yang akan

digunakan untuk mencoba mengklasifikasikan data uji nantinya. Seluruh ciri

yang ada pada data uji akan diinputkan kedalam model klasifikasi yang sudah

berhasil dibangun, dan sistem akan mengeluarkan output berupa hasil

klasifikasi. Hasil klasifikasi dari sistem akan dibandingkan dengan label yang

terdapat pada data uji sehingga dapat dilihat performa dari model klasifikasi

yang berhasil dibangun dalam melakukan klasifikasi.

2.7. Confusion Matrix

Perbandingan antara label pada data uji dengan hasil klasifikasi sistem akan

melahirkan sebuah confusion matrix. Confusion matrix merupakan metode

yang dapat digunakan guna mengukur performa sistem dalam melakukan

klasifikasi. Confusion Matrix merupakan matrix yang berukuran N x N dimana

N merupakan jumlah kelas target klasifikasi yang diisi dengan angka-angka.

Gambar 2.11. Confusion Matrix


21

Seperti yang terlihat pada Gambar 2.11., kelas yang menjadi target klasifikasi

adalah 2 yaitu Yes dan No sehingga confusion matrix yang terbentuk adalah

berukuran 2 x 2. Seperti dapat dilihat pada kolom 1 baris 1, terdapat angka 19

yang merepresentasikan jumlah data uji yang diklasifikasi sebagai Yes dan

label yang dimiliki data uji tersebut juga merupakan Yes, begitu juga dengan

angka yang lain. Sehingga dapat dilihat bahwa seluruh diagonal utama dari

convusion matrix dapat dinyatakan sebagai jumlah data yang benar

diklasifikasikan oleh sistem sesuai dengan kenyataannya sedangkan bagian

yang lain merupakan hasil klasifikasi sistem yang tidak sesuai dengan

kenyataannya. Berdasarkan hal tersebut, maka akurasi dari sistem dapat dilihat

dengan menggunakan rumus:

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑑𝑖𝑎𝑔𝑜𝑛𝑎𝑙 𝑢𝑡𝑎𝑚𝑎

𝐽𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑑𝑎𝑡𝑎∗ 100

(2.17.)


22

BAB III

METODE PENELITIAN

Bab ini berisikan tentang pengumpulan data yang akan dilakukan, perancangan

sistem yang dibuat, meliputi proses ekstraksi ciri, pelatihan serta pengujian,

kebutuhan sistem baik perangkat keras maupun perangkat lunak, desain alat uji

yang menunjukkan prototype dari aplikasi yang akan dibangun.

3.1. Pengumpulan Data

Data diperoleh dari hasil scan tulisan tangan para responden yang di-crop. Data

citra Aksara Batak Toba yang digunakan dalam penelitian ini berjumlah 39

aksara, diantaranya aksara A, Ha/Ka, Ba, Pa, Na, Wa, Ga, Ja, Da, Ra, Ma, Ta,

Sa, Ya, Nga, La, Nya, I, U, Hu, Ku, Bu, Pu, Nu, Wu, Gu, Ju, Du, Ru, Mu, Tu,

Su, Yu, Ngu, Lu, Nyu, Diakratik A-I, Diakratik A-E, Diakratik A-O, Diakratik

A-Ang, Diakratik penghapus A untuk setiap satu set data. Pada kenyataannya,

aksara batak hanya berjumlah 19 aksara untuk ina ni surat dan 5 aksara untuk

anak ni surat. Namun dikarenakan pada anak ni surat u menempel langsung ke

ina ni surat, maka penelitian ini mengambil 39 buah aksara sebagai data

training sehingga dapat mencakup seluruh kemungkinan pemakaian tanda anak

ni surat. Untuk setiap aksara, terdapat tiga buah kotak seperti pada Gambar 3.1.

kotak pertama pada bagian kiri merupakan contoh aksara yang akan digambar,

kotak kedua pada bagian yang kosong merupakan tempat responden untuk

menggambar aksara, serta kotak ke 3 yang bagian bawah berisikan nama dari

aksara yang digambar tersebut.

Gambar 3.1. Kolom Pengisian Aksara Responden

2.1 cm

3.9 cm

1.3 cm

1.7 cm


23

Adapun nantinya akan dibuat sebanyak 30 set data untuk setiap 39 buah aksara

yang sudah disebutkan diatas.

Gambar 3.2. Angket Pengumpulan Data

3.2. Perancangan Sistem

Sub bab ini berisikan tentang perancangan sistem yang dibangun. Adapun

proses yang terjadi dimulai dari preprocessing data, ekstraksi ciri, proses

training dan proses testing, hingga proses pengklasifikasian.


24

Gambar 3.3. Diagram Blok Sistem

Pada Gambar 3.3., ditunjukkan bahwa sistem yang dibangun akan melakukan

2 bagian besar yaitu tahap Training dan tahap Testing. Fase training dan testing

disini sama sama melakukan tahap akuisisi data, preprocessing dan tahap

ekstraksi ciri. Tahap akuisisi adalah tahapan untuk mendapatkan seluruh data

yang akan digunakan dalam pembangunan sistem. Tahap preprocessing adalah

tahap untuk mengolah data mentah yang sudah diperoleh sebelumnya menjadi

data yang siap untuk dipakai. Tahap Ekstraksi ciri adalah tahapan untuk

mengambil ciri yang diperlukan dari data yang sudah di-preprocessing. Pada

fase training, seluruh ciri yang digunakan sebagai model data yang akan

dimasukkan kedalam model klasifikasi akan disimpan kedalam sebuah tempat

penyimpanan, yang nantinya akan dipanggil pada saat sistem akan melakukan

klasifikasi terhadap data baru pada fase testing. Seluruh data hasil klasifikasi

sistem akan dievaluasi dengan cara membandingkan hasil prediksi sistem

dengan label data testing yang ada.

Akuisisi Data

Preprocessing

Ekstraksi Ciri

Klasifikasi

Data Training Evaluasi

Akuisisi Data

Preprocessing

Ekstraksi Ciri

Testing Training


25

3.2.1. Preprocessing

Tahap preprocessing adalah tahapan yang dilakukan guna mengubah

data mentah menjadi data siap pakai yang nantinya akan diekstrak

cirinya. Adapun tahapan preprocessing yang dilakukan adalah sebagai

berikut :

Gambar 3.4. Diagram Blok Preprocessing

Dapat dilihat pada Gambar 3.4., tahap pertama yang dilakukan dalam

tahap preprocessing adalah tahap binerisasi yang akan mengubah

gambar inputan menjadi gambar biner (gambar yang hanya berisikan 1

atau 0). Tahap berikutnya adalah deteksi tepi yang akan menghitamkan

seluruh tepian citra hasil binerisasi dan bagian yang lain menjadi putih.

Tahap Profil Proyeksi adalah tahapan untuk memisahkan background

dengan foreground gambar dan membuang background tersebut. Tahap

pengisian pixel kosong ditujukan untuk mengisi pixel-pixel tertentu

yang mengakibatkan putusnya pixel gambar setelah dilakukan deteksi

tepi yang sebenarnya saling terhubung. Tahap berikutnya adalah

reduksi noise yang ditujukan untuk menghilangkan seluruh noise

(derau) yang terdapat pada citra.

Binerisasi

Deteksi Tepi

Profil Proyeksi

Reduksi Noise

Pengisian Pixel Kosong


26

A. Binerisasi

Tahap ini mengubah citra yang akan diproses dari citra warna

(memiliki 3 layer) menjadi citra biner. Adapun pada tahapan ini,

sistem menggunakan function im2bw yang sudah tersedia pada

toolbox Matlab untuk melakukan binerisasi.

B. Deteksi Tepi

Tahap ini melakukan pendeteksian tepi terhadap bentuk dari citra

yang akan diproses, yang akan menghasilkan tepi dari aksara saja.

Metode yang digunakan dalam penelitian ini adalah metode deteksi

tepi log yang tersedia pada fungsi edge pada toolbox matlab.

Namun output dari fungsi edge ini akan menghasilkan citra negatif

sehingga perlu dikalukan konversi nilai 0 menjadi 1 dan 1 menjadi

0 pada hasil citra.

C. Profil Proyeksi (Segmentasi)

Tahap ini akan memisahkan antara background dengan aksara yang

ada, dan juga memisahkan induk aksara (ina ni surat) dengan anak

aksara (anak ni surat).

Adapun algoritma untuk melakukan Profil Proyeksi adalah :

1. Hitung jumlah Baris dan Kolom citra

2. Set treshold berisi jumlah minimum piksel 0 pada setiap baris

3. Buat variabel jumlah berukuran baris x 1 berisi angka 0

4. Perulangan dari i=1 sampai jumlah baris citra

5. Perulangan dari j=1 sampai jumlah kolom citra

6. Jika citra pada indeks ke i dan j bernilai 0,maka jumlah pada

indeks ke i ditambahkan nilainya 1.

7. Buat variabel bernama idx dan idy bernilai 1

8. Perulangan dari i = 1 sampai ukuran jumlah -1

9. Jika jumlah pada indeks ke i > 0, maka

10. Jika idx == 1, maka Set nilai idx = i

11. Jika jumlah pada indeks ke i + 1 < treshold dan idx > 1 dan idy

== 1, maka Set nilai idy = i


27

12. Jika jumlah pada indeks ke i > treshold dan idy > 1, maka Set

nilai idy = i

13. Buat citra_baru menjadi seluruh citra pada baris ke idx – idy

14. Hitung baris dan kolom citra_baru

15. Buat variabel jumlah2 berukuran kolom x 1 berisi angka 0

16. Perulangan dari i=1 sampai jumlah kolom citra_baru

17. Perulangan dari j=1 sampai jumlah baris citra_baru

18. Jika citra pada indeks ke j dan i bernilai 0,maka jumlah2 pada

indeks ke i ditambahkan nilainya 1.

19. Buat variabel bernama ixx dan ixy bernilai 1

20. Perulangan dari i = 1 sampai ukuran jumlah2 -1

21. Jika jumlah2 pada indeks ke i > 0, maka

22. Jika ixx == 1, maka Set nilai ixx = i

23. Jika jumlah2 pada indeks ke i + 1 < treshold dan ixx > 1 dan

ixy == 1, maka Set nilai ixy = i

24. Jika jumlah2 pada indeks ke i > treshold dan ixy > 1, maka

25. Set nilai ixy = i

26. Buat citra_final menjadi seluruh citra_baru pada kolom ke ixx

sampai ixy.

27. Return citra_final.


28

D. Mengisi piksel kosong

Tahap ini dilakukan guna mengisi piksel kosong yang terdapat

pada citra yang dihasilkan. Prinsip dari fungsi ini adalah melihat

apakah ada pixel yang bernilai 0 yang memiliki tetangga yang tidak

terhubung seperti pada Gambar 4.10. Pada gambar tersebut dapat

dilihat bahwa piksel yang berada ditengah tidak terhubung dengan

piksel hitam lainnya sehingga menjadikan piksel hitam 1 dengan

lainnya menjadi bagian yang tidak sama.

1 1 1 1 0 1

0 1 0 1 1 1

1 1 1 1 0 1

Gambar 3.5. Contoh Pixel yang kosong

Adapun algoritma untuk melakukan pengisian piksel adalah :

1. Hitung jumlah kolom dan baris gambar

2. Perulangan dari i = 1 sampai jumlah baris

3. Perulangan dari j = 1 sampai jumlah kolom

4. Jika gambar pada baris ke i dan kolom ke j bernilai 1

5. Cek apakah tetangga atas, bawahnya bernilai 0

6. Jika ya, maka ganti isi dari variabel gambar pada baris ke i dan

kolom ke j menjadi 0.

7. Return gambar.

E. Reduksi Noise

Tahap ini dilakukan guna membersihkan noise yang ada pada citra

inputan. Adapun algoritma untuk mereduksi noise adalah :


2. Set nilai ulang = 0;

3. Perulangan selama ulang = 0

4. Set nilai ulang = 1


29

5. Perulangan dari i = 1 sampai jumlah baris

6. Perulangan dari j = 1 sampai jumlah kolom

7. Jika gambar pada baris ke i dan kolom ke j = 0, maka

jumlahkan seluruh tetangga dari piksel tersebut, simpan di

variabel jumlah.

8. Jika jumlah bernilai lebih besar sama dengan 7, set gambar

pada baris ke i dan kolom ke j menjadi 1 dan set nilai ulang =

0;

9. Return gambar.

3.2.2. Ekstraksi Ciri

Tahap ini adalah tahapan untuk mendapatkan seluruh ciri yang akan

digunakan dari gambar hasil preprocessing sebelumnya. Adapun

tahapan ekstraksi ciri yang dilakukan adalah sebagai berikut :

Gambar 3.6. Diagram Blok Ekstraksi Ciri

Tahap ekstraksi ciri terbagi atas 3 tahapan, diantaranya tahapan

pencarian titik start yang akan mencari piksel hitam yang berada paling

kiri atas dari sebuah citra. Tahap pencarian ciri FCC adalah tahapan

untuk pengambilan ciri FCC dimulai dari titik start yang sudah

ditemukan sebelumnya. Tahap berikutnya adalah tahap normalisasi ciri

FCC yang ditujukan untuk menormalisasi ciri FCC yang ditemukan

guna menyederhanakan atau menyamakan ukuran dari FCC tersebut.

1. Pencarian Titik Start

Pencarian titik start

Pencarian Ciri FCC

Normalisasi Ciri FCC


30

Tahapan pertama yang perlu dilakukan dalam mengekstraksi ciri

adalah dengan mencari titik P0 atau titik start pengambilan Freeman

Chain Code (FCC). Titik P0 yang dimaksud adalah piksel hitam

yang berada paling kiri atas dari sebuah citra.

Adapun algoritma untuk menemukan titik P0 adalah :


2. Perulangan selama i = 1 sampai jumlah baris

3. Perulangan selama j = 1 sampai jumlah kolom

4. Jika gambar pada baris ke i dan kolom ke j = 0, maka

5. Set nilai startX = i dan startY = j

6. Hentikan seluruh perulangan

7. Return nilai startX dan startY.

2. Pencarian Ciri FCC

Setelah ditemukan titik P0, maka tahapan berikutnya adalah

mencari ciri FCC yang terdapat pada gambar tersebut.

Adapun algoritma untuk menemukan FCC adalah :

1. Set cc = ‘’

2. Set ref = gambar

3. Ambil nilai startX dan startY dari piksel 0 pada titik paling kiri

atas.

4. Set nowX = startX

5. Set nowY = startY

6. Cek ketetanggaan dari gambar pada indeks ke startX dan

startY berurutan dari 0,7,6,5,4,3,2,1. Jika ketemu, maka

tambahkan cc dengan nilai kode chaincode, lalu ganti nilai

nowX dan nowY menjadi nilai pada piksel berikutnya.

7. Perulangan selama nilai nowX tidak sama dengan startX dan

nilai nowY tidak sama dengan nilai startY

8. Cek ketetanggaan dari gambar pada indeks ke nowX dan

nowY berurutan dari kode 0,7,6,5,4,3,2,1. Jika ketemu, maka


31

9. Set nilai isTetanggaexist = 0

10. Set nilai nextX dan nextY sesuai dengan perpindahan piksel

pada kode 0,7,6,5,4,3,2,1. Jika ketemu set nilai

isTetanggaexist = 1

11. Cek kemungkinan ketetanggan berikutnya dari nextX dan

nextY berurutan dari kode 0,7,6,5,4,3,2,1. Jika ketemu maka

hentikan seluruh perulangan.

12. Jika isTetanggaexist = 1. maka

13. Tambahkan cc dengan kode perpindahan chaincode

14. Set nilai nowX dan nowY sesuai dengan perpindahan tetangga

15. Jika tidak, maka

16. Set nilai ref pada indeks ke nextX dan nextY = 1

17. return nilai cc dan ref.

Pada praktiknya, gambar aksara mungkin saja terdiri dari lebih dari

1 komponen yang terkoneksi sehingga pada fungsi pengambilan

chaincode diatas perlu dimodifikasi sedikit dengan algoritma

berikut :

1. Membuat variabel bernama temp dengan isi 0 berukuran

10x10

2. Membuat variabel count bernilai 1

3. Membuat variabel coba dengan isi jumlah piksel 0 temp

4. Perulangan selama isi dari variabel coba lebih besar dari 5

5. Jika count = 1, maka

6. Panggil fungsi getchaincode dengan parameter gambar. Lalu

tampung nilai chaincode pada cc dan gambar hasil

penjelajahan chaincode kedalam variabel temp.

7. Hapus noise dari temp

8. Jika tidak, maka


32

9. Panggil fungsi getchaincode dengan parameter temp. Lalu

tampung nilai chaincode pada cctemp dan gambar hasil

penjelajahan chaincode kedalam variabel temp.

10. Hapus noise dari temp

11. Tambahkan 1 pada nilai count

12. Hitung seluruh piksel 0 dari temp

Pada algoritma diatas, count digunakan untuk menyatakan jumlah

connected component yang akan dipakai untuk klasifikasi

menggunakan SVM versi 2.

3. Normalisasi Ciri Freeman Chain Code (FCC)

Normalisasi FCC dilakukan guna membuat panjang dari FCC yang

berhasil ditemukan, karena pada praktiknya jumlah FCC yang

diperoleh untuk setiap objek pasti memiliki perbedaan jumlah yang

membuat ciri tersebut tidak dapat dibawa ke tahap klasifikasi

nantinya. Penelitian ini menggunakan dua versi normalisasi,

diantaranya normalisasi menggunakan rumus serta normalisasi

tanpa menggunakan rumus.

A. Normalisasi Versi 1 (Menggunakan Rumus)

Untuk normalisasi tipe pertama, langkah yang perlu dilakukan

adalah menjumlahkan seluruh kode yang berderetan sama.

Gambar 3.6. menunjukkan contoh hasil FCC yang berhasil

diperoleh dari suatu citra, dan Gambar 3.7. menunjukkan contoh

perhitungan FCC yang berderetan sama dan kemudian

menghilangkan kode yang hanya berjumlah 1.


33

Gambar 3.7. FCC sebelum normalisasi

Gambar 3.8. FCC sesudah penghilangan kode berfrequensi 1

Dapat dilihat pada Gambar 3.7., setelah penghilangan FCC

berfrequensi 1, terdapat lagi FCC yang masih berderetan. Tahap

berikutnya adalah mengulangi proses penghilangan kode

berderetan, sehingga hasil FCC yang paling sederhana adalah

seperti yang terdapat pada Gambar 3.8.

Gambar 3.8. FCC yang paling sederhana.


34

Langkah berikutnya yang harus dilakukan adalah melakukan

normalisasi agar jumlah chaincode yang dihasilkan menjadi

sama untuk setiap citra aksara nantinya menggunakan rumus

3.1. berikut

𝐹𝑖𝑛 =

𝑓𝑖∑𝑓

𝑖

× 𝑁

Keterangan :

𝑓𝑖 : Frekuensi pada kode ke i

∑𝑓𝑖 : Total frekuensi semua kode

𝑁: Nilai frekuensi yang diinginkan

Dari Gambar 3.8., didapat nilai ∑𝑓𝑖 adalah sebesar 95, didapat

dari (15 + 5 + 10 + 8 + ... + 4). Sebagai contoh, nilai N yang

digunakan adalah 25, atau dengan kata lain chaincode

akan dinormalisasi menjadi berukuran 25. Untuk indeks

pertama, perhitungan 𝐹𝑖𝑛 akan menjadi seperti dibawah ini :

𝐹𝑖𝑛 =

15

95× 100 = 8

Setelah dilakukan perhitungan menggunakan rumus 𝐹𝑖𝑛 diatas,

untuk seluruh indeks, lalu hasil yang didapatkan akan

dibulatkan, sehingga didapatkan nilai seperti pada Gambar 3.9.

Gambar 3.9. Hasil perhitungan normalisasi

(3.1.)


35

Maka hasil akhir dari normalisasi chaincode dengan cara

pertama adalah :

00000000777666665555321112344444444555555566644444

22211121111244444444554432244321100000000000000000

0100

Adapun algoritma untuk melakukan normalisasi versi pertama

ini adalah :

1. Hitung panjang dari chaincode

2. Set counter = 1

3. Set data = ‘’

4. Set freq = 0

5. Perulangan selama i = 1 sampai panjang chaincode

6. Jika i = 1, maka

7. data = chaincode pada indeks ke i

8. Tetapi jika data tidak sama dengan chaincode pada indeks

ke i, maka

9. Isikan nilai dari variabel data kedalam variabel kode pada

baris ke counter dan kolom ke 1

10. Isikan nilai dari variabel freq kedalam variabel kode pada

baris ke counter dan kolom ke 2

11. Set data = chaincode pada indeks ke i

12. Set freq = 0

13. Tambahkan 1 pada nilai counter

14. Tambahkan nilai 1 pada nilai freq.

15. Hitung panjang dari kode

16. Set counter = 1

17. Perulangan selama i = 1 sampai panjang kode

18. Jika kode pada baris ke i dan kolom ke 2 lebih besar dari 1

19. Isikan nilai dari variabel kode pada baris ke i ke variabel

nkode pada baris ke counter.


36

20. Tambahkan nilai 1 pada nilai counter

21. Set kode = nkode

22. Hapus variabel nkode

23. Set jumlah = jumlah seluruh kolom ke 2 dari variabel kode

24. Hitung jumlah panjang dari kode

25. Perulangan selama i = 1 sampai panjang kode

26. kode pada baris ke i dan kolom ke 2 diisikan dengan hasil

pembulatan dari kolom ke 2 baris ke 1 dari variabel kode

dibagi dengan nilai dari variabel jumlah lalu dikali dengan

jumlah chaincode yang diinginkan.

27. Ubah kode yang berbentuk frekuensi menjadi deret seperti

kode FCC yang sebelumnya dan tampung ke variabel

output

28. Return output.

B. Normalisasi Versi 2 (Tanpa Rumus)

Normalisasi ini adalah untuk menyamakan jumlah chaincode

sejumlah yang diinginkan tanpa membuang chaincode seperti

pada versi sebelumnya dengan cara membuat terlebih dahulu

array bernilai 1 berukuran jumlah data * jumlah FCC yang

diinginkan, lalu nilai tersebut akan digantikan dengan nilai FCC

lama yang dimulai dari kode FCC yang paling akhir sampai ke

kode FCC paling pertama.

Adapun algoritma untuk melakukan Normalisasi Versi ke 2 ini

adalah :

1. Hitung ukuran panjang FCC lama

2. set nilai start = jumlah FCC baru – panjang + 1

3. Set nilai ix = 1

4. Buat sebuah array dengan ukuran jumlah FCC baru * 1

5. Perulangan selama i = start sampai jumlah FCC baru

6. Set output pada indeks ke i = FCC lama pada indeks ke ix


37

7. Tambahkan 1 pada nilai ix

8. Return output.

3.2.3. Klasifikasi

Dalam penelitian ini, ada dua jenis cara pemodelan model SVM,

diantaranya model multisvm dengan seluruh kelas, dan model multisvm

dengan pengelompokan berdasarkan jumlah connected component.

Adapun jenis multi svm yang digunakan adalah multi svm 1v1.

A. Pemodelan menggunakan seluruh kelas

Pada pemodelan yang pertama, model yang dibangun adalah

sejumlah 39 kelas dengan menggunakan metode one-against-one,

maka dibangun sebanyak (39*(39-1))/2 = 741 model klasifikasi

biner, dimana (39 merupakan jumlah kelas). Adapun pengujian

nantinya menggunakan metode votting untuk hasil yang didapat

sehingga dapat memutuskan hasil pengklasifikasiannya, sehingga

ilustrasi pembangunan model-nya adalah sebagai berikut :

Jumlah kelas = 39 kelas dan penamaannya akan diubah menjadi

numerik sesuai dengan urutan abjad.

Gambar 3.10. Pembangunan Model SVM

Adapun algoritma model klasifikasi SVM pertama adalah

1. Cari seluruh kelas yang unik dari seluruh label simpan di

variabel u.

xi

f1,2(x) f1,3(x) f1..n(x)

Kelas 1

f2,3(x) f2,4(x) f2..n(x)

Kelas 1 Kelas 1 Kelas 1 Kelas 2 Kelas 4 Kelas 2

fm..n(x)

Kelas m


38

2. Hitung jumlah kelas yang ada lalu simpan ke variabel

numclasses.

3. Set ix = 1

4. Perulangan selama i=1 sampai numclasses-1

5. Cari indeks dari seluruh label_training yang sama dengan u(i)

simpan di variabel data1.

6. Set awal1 nilai pada indeks pertama data1

7. Set akhir1 nilai pada indeks terakhir data1

8. Perulangan selama j=i+1 sampai numclasses

9. Cari indeks dari seluruh label_training yang sama dengan u(j)




12. Gabungkan seluruh datatraining pada baris ke awal1 sampai

akhir1 dan datatraining pada baris ke awal2 sampai akhir2

simpan ke variabel datamasuk.

13. Gabungkan labeltraining pada baris ke awal1 sampai akhir1

dan datatraining pada baris ke awal2 sampai akhir2 simpan ke

variabel label.

14. Bangun model svm dengan menggunakan datamasuk dan label

sebagai parameter

15. Simpan nilai i kedalam variabel hasil pada index ke ix,1

16. Simpan nilai j kedalam variabel hasil pada index ke ix,2

17. Prediksi hasil dari datatesting jika diklasifikasi menggunakan

model svm tersebut kemudian simpan ke variabel hasil pada

index ke ix,3

18. Perulangan dari i=1:numclasses

19. Jika i = 1, maka

20. Set nilai terbesar = jumlah dari seluruh hasil yang pada indeks

ke 3 nya sama dengan nilai u(i)

21. Set nilai output = i


39


23. Jika nilai terbesar bernilai lebih kecil dari jumlah dari seluruh

hasil yang pada indeks ke 3 nya sama dengan nilai u(i), maka



25. Set output = i

26. Set rank pada indeks ke i,1 = i

27. Set rank pada indeks ke 2,1 = jumlah dari seluruh hasil yang

pada indeks ke 3 nya sama dengan nilai u(i).

28. Return nilai output dan rank.

B. Pemodelan menggunakan kelompok kelas.

Pada pemodelan jenis ini, kelas dikelompokkan terlebih dahulu

berdasarkan jumlah connected component pada citra hasil

preprocessing-nya. Pengelompkan kelas terlebih dahulu seperti ini

dapat menjadikan sistem semakin cepat dalam melakukan

klasifikasi serta keakuratan sistem dalam melakukan klasifikasi

juga dapat ditingkatkan. Kelompok kelas berdasarkan connected

component dapat dilihat pada Tabel 3.1. berikut :

Tabel 3.1. Pengelompokan Kelas

Jumlah Connected

Component Kelompok Kelas

1

A, Ha, Pa, Wa, Ga, Da, Ma, Sa, Ya, Nga,

La, Nya, Hu, Pu, Wu, Gu, Du, Mu, Ngu,

Nyu, Ae, Ao, Ax

2 Ba, Ja, Ra, Ta, Bu, Ju, Ru, Tu, Su, Yu, Lu,

Ai

3 Na, I, U, Nu

Sebelum pembuatan model SVM, terlebih dahulu dicek jumlah

connected component dari sebuah data uji, sehingga hanya perlu

membangun model SVM menggunakan jumlah kelas yang

tergabung dalam kelompok kelas yang sudah disebutkan diatas.


40

Adapun Algoritma untuk model SVM berkelompok adalah

1. Hitung jumlah connected component dari gambar, simpan di

variabel jumlah.

2. Cari semua kelas yang memiliki connected component yang

sama dengan connected component pada gambar tersebut

3. Masukkan semua data training yang memiliki connected

component yang sama dengan gambar ke dalam variabel

DataPakai

4. Masukkan semua label training yang memiliki connected

component yang sama dengan gambar ke dalam variabel

LabelPakai.

5. Cari seluruh kelas yang unik dari seluruh Labelpakai simpan

di variabel u.

6. Hitung jumlah kelas yang ada di variabel u lalu simpan ke

variabel numclasses.

7. Set ix = 1

8. Perulangan selama i=1 sampai numclasses-1

9. Cari indeks dari seluruh Labelpakai yang sama dengan u(i)




12. Perulangan selama j=i+1 sampai numclasses

13. Cari indeks dari seluruh Labelpakai yang sama dengan u(j)




16. Gabungkan seluruh Datapakai pada baris ke awal1 sampai

akhir1 dan Datapakai pada baris ke awal2 sampai akhir2

simpan ke variabel datamasuk.

17. Gabungkan LabelPakai pada baris ke awal1 sampai akhir1 dan

LabelPakai pada baris ke awal2 sampai akhir2 simpan ke


41

variabel label.Bangun model svm dengan menggunakan

datamasuk dan label sebagai parameter

18. Simpan nilai i kedalam variabel hasil pada index ke ix,1

19. Simpan nilai j kedalam variabel hasil pada index ke ix,2

20. Prediksi hasil dari datatesting jika diklasifikasi menggunakan

model svm tersebut kemudian simpan ke variabel hasil pada

index ke ix,3

21. Perulangan dari i=1:numclasses

22. Jika i = 1, maka



24. Set nilai output = i


26. Jika nilai terbesar bernilai lebih kecil dari jumlah dari seluruh

hasil yang pada indeks ke 3 nya sama dengan nilai u(i), maka



28. Set output = i

29. Set rank pada indeks ke i,1 = i

30. Set rank pada indeks ke 2,1 = jumlah dari seluruh hasil yang

pada indeks ke 3 nya sama dengan nilai u(i).

31. Return nilai output dan rank.

3.2.4. Pengujian

Dengan menggunakan metode 10-Fold Cross Validation, maka

dilakukan pembagian data menjadi 10 bagian dan dilakukan pengujian

terhadap data sebanyak 10 kali. Penelitian ini menggunakan 30 data

yang akan dibagi menjadi 10 kelompok, dengan pembagian kelompok

seperti pada tabel berikut


42

Tabel 3.2. Kelompok Pengujian Data

Kelompok Data ke-

1 1, 2, 3

2 4, 5, 6

3 7, 8, 9

4 10, 11, 12

5 13, 14, 15

6 16, 17, 18

7 19, 20, 21

8 22, 23, 24

9 25, 26, 27

10 28, 29, 30

Hasil luaran dari metode tersebut adalah Confusion Matrix yang

menunjukkan jumlah hasil prediksi sistem terhadap seluruh data testing

baik yang terdeteksi benar maupun yang tidak. Adapun jumlah hasil

klasifikasi sistem yang benar dapat dilihat pada diagonal utama

Confusion Matrix dan sisanya merupakan kesalahan prediksi sistem.

Adapun akurasi sitem dalam melakukan klasifikasi dapat dihitung

dengan rumus 3.2. berikut

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝐽𝑢𝑚𝑙𝑎ℎ ℎ𝑎𝑠𝑖𝑙 𝑘𝑙𝑎𝑠𝑖𝑓𝑖𝑘𝑎𝑠𝑖 𝑏𝑒𝑛𝑎𝑟

𝐽𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑑𝑎𝑡𝑎 × 100%

Karena menggunakan 10-cross fold validation, jumlah percobaan yang

dilakukan adalah sebanyak 10 kali dengan pembagian penggunaan

kelompok adalah seperti pada tabel berikut

(3.2.)


43

Tabel 3.3. Pembagian Data Training dan Testing Setiap Percobaan

Percobaan Data Training Data Testing

1 2,3,4,5,6,7,8,9,10 1

2 1,3,4,5,6,7,8,9,10 2

3 1,2,4,5,6,7,8,9,10 3

4 1,2,3,5,6,7,8,9,10 4

5 1,2,3,4,6,7,8,9,10 5

6 1,2,3,4,5,7,8,9,10 6

7 1,2,3,4,5,6,8,9,10 7

8 1,2,3,4,5,6,7,9,10 8

9 1,2,3,4,5,6,7,8,10 9

10 1,2,3,4,5,6,7,8,9 10

3.3. Kebutuhan Sistem

Untuk menunjang kinerja dari sistem yang dibangun, sistem memerlukan

bantuan dari perangkat keras dan perangkat lunak, diantaranya

3.3.1. Perangkat Keras (Hardware)

- Personal Computer (PC)

Adapun spesifikasi dari Personal Computer yang digunakan dalam

pembuatan sistem ini adalah:

Tabel 3.4. Tabel Spesifikasi PC

Model HP 15-bw064AX

Platform Notebook-PC

Hard Disk Drive 1 Terabyte

Graphic Processing Unit AMD Radeon R5 Graphics


44

Operating System Microsoft Windows 10 Pro

Memory 8 Gigabyte

- Scanner

Scanner diperlukan guna melakukan proses pengubahan data set

berupa lembaran kertas angket yang sudah ditulis oleh responden

kedalam bentuk citra digital yang siap diproses oleh komputer.

3.3.2. Perangkat Lunak (Software)

Adapun perangkat lunak (Software) yang diperlukan adalah Matlab

versi 2018a guna membuat dan menjalankan sistem yang dibuat serta

aplikasi Paint guna melakukan cropping citra dari hasil scan templete

pengumpulan data.

3.4. Desain Alat Uji

Gambar 3.11. Prototype GUI Program

Berikut adalah penjelasan mengenai GUI program :

1. Axes1 - Digunakan untuk menampilkan logo Universitas Sanata Dharma

2. Browse - Meminta user untuk memilih citra aksara yang akan diklasifikasi,

dan akan langsung melakukan proses preprocessing terhadap citra inputan

tersebut.

3. Klasifikasi – Mengklasifikasikan citra inputan user.


45

4. Axes2 – Menampilkan citra aksara inputan user

5. Axes6 – Menampilkan citra hasil deteksi tepi dari citra inputan

6. Axes5 – Menampilkan citra hasil crop dari citra hasil deteksi tepi.

7. Gambar Hasil Segmentasi – Akan muncul jika hasil segmentasi lebih dari

1 dan akan digunakan untuk memilih gambar hasil segmentasi ke berapa

yang akan ditampilkan.


46

BAB IV

IMPLEMENTASI DAN ANALISIS HASIL

Bab ini berisikan penjelasan mengenai tahapan-tahapan dari pengenalan aksara

Batak Toba tulisan tangan yang dikerjakan sesuai dengan diagram blok sistem pada

Gambar 3.3. tentang blog diagram sistem yang terbagi menjadi 5 bagian, yaitu

Akuisisi Data, Preprocessing, Ekstraksi Ciri, Klasifikasi dan Evaluasi untuk tahap

Testing dan Akuisisi Data, Preprocessing, Ekstraksi Ciri serta pembuatan database

data Training saja untuk tahap Training.

4.1. Akuisisi Data

Data berupa gambar aksara tulisan tangan diperoleh dari melakukan scanning

terhadap angket pengumpulan data seperti Gambar 3.2. yang sudah diisi oleh

responden dengan resolusi sebesar 300 dpi dan scanner di set untuk melakukan

scanning dengan warna hitam dan putih. Adapun jumlah data yang diambil

adalah sebanyak 30 set data. Gambar 4.1. merupakan contoh pengisian angket

oleh responden.

Gambar 4.1. Contoh Pengisian Angket oleh Repsonden


47

Angket yang sudah discan kemudian dicrop secara manual menggunakan

aplikasi Paint, untuk mengambil seluruh aksara yang ditulis oleh responden.

Adapun setiap aksara akan disimpan kedalam folder yang berbeda-beda sesuai

dengan nomor data set yang sudah dituliskan pada bagian kanan atas.

Gambar 4.2. Penyimpanan Hasil Crop Aksara Tulisan Tangan

Setiap folder berisikan file berupa gambar tulisan tangan yang sudah di crop

yang dinamai sama seperti nama dari aksaranya masing masing.

Gambar 4.3. Aksara Tulisan Tangan dalam Setiap Folder

4.2. Preprocessing

Seperti dapat dilihat pada Gambar 3.4. tentang diagram blok preprocessing,

data dalam penelitian ini menjalani proses binerisasi, deteksi tepi, profil

proyeksi, Pengisian Pixel Kosong dan Reduksi Noise.

A. Baca citra aksara.

Pembacaan citra aksara dilakukan menggunakan fungsi imread. Adapun

dalam prakteknya, menggunakan code seperti berikut


48

gambar = imread([Data/4/Ju.jpg]);

Maksud dari code tersebut adalah membaca citra aksara Ju pada dataset

4 kemudian memasukkannya kedalam variabel gambar.

Gambar 4.4. Hasil Baca Data Aksara Ju dari set ke 4

B. Binerisasi

Binerisasi citra aksara dilakukan menggunakan fungsi im2bw dengan

code seperti berikut

gambar = im2bw(gambar);

Gambar 4.5. Hasil Binerisasi variabel gambar

C. Deteksi tepi

Deteksi tepi dilakukan menggunakan fungsi edge dan dengan

menggunakan metode log sehingga penggunaan fungsinya seperti pada

code berikut

gambar = edge(gambar,log);


49

Adapun keluaran dari pemanggilan metode tersebut adalah citra dengan

latar belakang hitam, maka perlu dilakukan penegasian gambar

menggunakan code berikut :

gambar = ~gambar;

Gambar 4.6 Deteksi tepi pada variabel gambar

D. Profil Proyeksi

Crop citra menggunakan metode profil proyeksi menggunakan prinsip

histogram yang menjumlahkan seluruh piksel 0 yang berada pada setiap

baris (proyeksi vertikal) dan menjumlahkan seluruh piksel 0 yang beada

pada setiap kolom (proyeksi horizontal).

Tahap pertama yang dilakukan adalah proyeksi secara vertikal yang akan

menjumlahkan seluruh piksel 0 yang ada pada setiap baris. Dapat dilihat

pada Gambar 4.6. jumlah baris pada variabel gambar adalah 105

sehingga nantinya akan ada 105 baris yang akan dijumlahkan setiap

piksel 0 nya.


50

Gambar 4.7. Proyeksi Vertikal pada Variabel Gambar

Tahap berikutnya adalah penentuan ambang batas yang menyatakan

jumlah piksel 0 yang merupakan bagian dari aksara. Program ini

menggunakan ambang batas 1 sehingga baris 11 sudah dapat dinyatakan

sebagai awal bagian dari objek aksara yang diinginkan, serta baris 95

sebagai akhir dari bagian objek aksara yang diinginkan. Langkah

selanjutnya adalah memotong gambar sehingga hanya baris 11 sampai

baris 95 saja yang diambil dan menyimpannya ke variabel gambarbaru.

Gambar 4.8. Hasil Crop Baris pada Variabel gambar


51

Langkah berikutnya yang dilakukan adalah proyeksi secara vertikal yang

akan menjumlahkan seluruh piksel 0 yang ada pada setiap kolom gambar

yang sudah dipotong barisnya tadi. Dapat dilihat pada Gambar 4.9.

jumlah kolom pada variabel gambarbaru adalah 123 sehingga nantinya

akan ada 123 kolom yang akan dijumlahkan setiap piksel 0 nya.

Gambar 4.9. Proyeksi Horizontal pada Variabel Gambar

Tahap berikutnya adalah penentuan ambang batas yang menyatakan

jumlah piksel 0 yang merupakan bagian dari aksara. Program ini

menggunakan ambang batas 1 sehingga kolom 9 sudah dapat dinyatakan

sebagai awal bagian dari objek aksara yang diinginkan, serta kolom 108

sebagai akhir dari bagian objek aksara yang diinginkan. Langkah

selanjutnya adalah memotong gambar sehingga hanya kolom 9 sampai

baris 108 saja yang diambil dan menyimpannya ke variabel output.

Gambar 4.10. Hasil Crop Kolom pada Variabel gambarbaru


52

Seluruh langkah-langkah profil proyeksi diatas dimasukkan kedalam

sebuah fungsi bernama crop sehingga untuk pemanggilannya adalah

inputan berupa gambar aksara yang kemudian fungsi tersebut akan

mengirimkan variabel output yang sudah dicrop baris dan kolomnya.

gambar = crop(gambar);

Gambar 4.11. Hasil Crop citra pada variabel gambar

E. Pengisian Pixel Kosong

Fungsi pengisian pixel kosong mencari pixel yang kosong dari citra hasil

deteksi tepi kemudian mengisi pixel kosong tersebut. Seperti yang sudah

ditunjukkan sebelumnya pada Gambar 3.5. tentang piksel kosong,

Gambar 4.12. disini memiliki pixel yang bolong pada bagian sudut

tengah seperti dapat dilihat pada Gambar 4.12.

Gambar 4.12 Piksel kosong pada gambar


53

Dengan mengimplementasikan algoritma pengisian piksel kosong

sebelumnya kedalam fungsi isikosong, maka code untuk menjalankan

fungsi tersebut adalah seperti berikut :

gambar = isikosong(gambar);

Gambar 4.13. Pengisian pixel kosong pada gambar

F. Reduksi Noise

Adapun fungsi tersebut sudah dibuat sebelumnya dengan nama fungsi

delNoise sebelumnya, sehingga code untuk menjalankan fungsi tersebut

adalah seperti berikut :

gambar = delNoise(gambar);

Gambar 4.14 Penghapusan noise pada gambar


54

4.3. Ekstraksi Ciri

Seperti yang sudah disebutkan sebelumnya, adapun ciri yang digunakan adalah

ciri bentuk yaitu ciri Freeman Chain Code (FCC).

A. Pencarian Titik Start.

Adapun P0 atau titik start citra adalah piksel hitam yang berada paling

kiri atas. Adapun fungsi untuk menjalankan perintah tersebut sudah

dibuat sebelumnya dengan nama getP0, sehingga code untuk

menjalankan fungsinya adalah :

[x,y] = getP0(gambar);

Gambar 4.15. Titik start pencarian FCC

B. Pencarian Ciri FCC

Algoritma untuk mencari FCC sudah diimplementasikan kedalam fungsi

bernama getChaincode. Pada penelitian ini methode FCC yang dibuat

memberikan dua nilai balik berupa FCC yang disimpan di variabel cc

beserta gambar setelah pengambilan FCC yang disimpan di variabel

temp. Adapun code untuk menjalankan perintah diatas adalah :

[cc,temp] = getChaincode(gambar);


55

Gambar 4.16. Hasil Pencarian FCC Pertama

Dapat dilihat pada Gambar 4.16. variabel temp dikenakan fungsi

penghapusan noise guna menghilangkan sisa piksel yang dilewati saat

pencarian ciri FCC. Dapat juga dilihat bahwa walau sesudah

penghapusan noise, yang pada penelitian ini dapat dilihat dari jumlah

piksel 0 yang terdapat pada gambar. Jika jumlah piksel 0 nya sudah

kurang dari 5, yang tersisa pada gambar hanyalah noise sehingga

perulangan pencarian FCC akan selesai. Karena masih banyak jumlah

piksel 0 nya, maka pencarian FCC akan kembali dilakukan dengan

tahapan pencarian P0, pencarian nilai FCC kembali lalu menggabungkan

hasil pencarian FCC lama dengan pencarian FCC baru dengan urutan

FCC lama diikuti FCC baru. Maka setelah pencarian berikutnya akan

menghasilkan FCC yang lebih banyak dari sebelumnya seperti yang

terlihat pada Gambar 4.17. Karena jumlah piksel 0 pada variabel temp

sudah kurang dari 5, maka perulangan pencarian FCC akan berhenti.


56

Gambar 4.17. Hasil Final Pencarian FCC

C. Normalisasi Ciri FCC

Setelah seluruh tahapan pencarian FCC selesai, maka akan diperoleh

FCC yang sangat panjang dan setiap citra memiliki panjang FCC yang

berbeda beda, sehingga perlu dilakukan normalisasi. Pada penelitian ini

ciri FCC yang akan digunakan adalah 100, 200, 300, 400, 500 untuk FCC

yang dinormalisasi dengan rumus dan 600 FCC hanya normalisasi

ukuran saja.

Gambar 4.18. Ciri FCC 100 citra aksara Ju


57





58


Gambar 4.23. Ciri FCC 600 normalisasi ukuran citra aksara Ju

4.4. Pembuatan Database Data Training

Pada tahap pembuatan database data training ini, seluruh langkah-langkah

preprocessing dan ekstraksi ciri dilakukan untuk seluruh aksara yang ada.

Program sudah dapat melakukan perulangan untuk mencari ciri dari seluruh

gambar aksara. Adapun database data training akan disimpan kedalam file

excel untuk setiap aksaranya, sehingga ada 39 file excel yang akan dibuat.

Setiap file excel terdiri dari jumlahFCC * 30, dimana jumlahFCC bervariasi

seperti yang sudah disebutkan pada bagian ekstraksi ciri dan 30 merupakan

jumlah data yang ada. Adapun urutan penyimpanan ciri FCC adalah sesuai


59

dengan nomor dataset sesuai dengan yang tersimpan di folder dataset pada

Gambar 4.2. Sebagai contoh dalam pembuatan database aksara A dengan

normalisasi FCC menjadi 100, seperti yang sudah diketahui, seluruh aksara

yang tersimpan dalam folder tersebut ada sejumlah 30 buah yang berasal dari

30 dataset. Berikut adalah contoh gambar dari aksara A dari dataset 1, 2, 3, 4

dan 5.

Gambar 4.24. Aksara A pada dataset 1 sampai 5

Setiap aksara tersebut akan dikenakan proses yang sama mulai dari

preprocessing sampai ekstraksi ciri.

Gambar 4.25. FCC 100 dari Aksara A data set 1, 2 dan 3


60

Gambar 4.26. FCC 100 dari Aksara A data set 4 dan 5

Seluruh ciri yang telah diperoleh akan ditampung kedalam sebuah array

bernama FCC. Adapun cara penyimpanan adalah kolom 1 baris 1 sampai 100

adalah posisi penyimpanan FCC dari dataset 1, kolom 2 baris 1 sampai 100

adalah posisi penyimpanan FCC dari dataset 2 dan seterusnya sampai 5.

Sehingga menghasilkan FCC seperti berikut :

Gambar 4.27. Penggabungan ciri FCC aksara A dataset 1 sampai 5


61

Langkah berikutnya adalah menyimpan ciri tersebut sebagai data testing

kedalam file excel yang dinamai sama dengan nama aksara tersebut kedalam

sebuah folder yang nantinya akan berisi 39 file excel sesuai dengan jumlah

kelas aksara yang ada. Adapun kode untuk menyimpan FCC tersebut kedalam

file excel adalah :

xlswrite([Chaincode/Chaincode100/A.xls], FCC);

Perintah diatas digunakan untuk memasukkan nilai dari variabel FCC kedalam

file bernama A.xls yang akan diletakkan di folder Chaincode100 yang berada

pada folder Chaincode. Adapun hasil penyimpanan FCC pada file A.xls dapat

dilihat pada gambar berikut :

Gambar 4.28. Penyimpanan FCC pada file A.xls

Pada kenyataannya, jumlah data yang disimpan bukan sebanyak 5 seperti yang

ditampilkan pada Gambar 4.20 karena jumlah dataset yang ada sebanyak 30

dataset sehingga langkah preprocessing, ekstraksi ciri, penggabungan ciri lalu

penyimpanan ciri akan dilakukan untuk dataset 6 sampai 30 nantinya.


62

4.5. Klasifikasi

Seperti yang sudah disebutkan sebelumnya pada nomor 3.2.4. tentang

klasifikasi, pembuatan model klasifikasi dibedakan menjadi dua jenis yaitu

jenis yang pertama pemodelan dengan seluruh kelas yang ada, dan jenis yang

kedua adalah pemodelan dengan seluruh kelas yang memiliki connected

component yang sama.

1. Model klasifikasi 1 ( Pemodelan dengan seluruh kelas )

Langkah pertama yang dilakukan adalah mengubah label dari seluruh kelas

yang ada menjadi numerik sesuai urutan abjad sehingga A menjadi 1, AE

menjadi 2 begitu seterusnya sampai Yu menjadi 39. Karena kelas yang

digunakan adalah sebanyak 39 kelas, maka akan dibangun sebanyak

(39*(39-1))/2 = 741 kelas model klasifikasi biner, kemudian hasil

klasifikasinya akan ditampung untuk kemudian di voting kelas yang paling

banyak frekuensinya. Dengan menggunakan data aksara A pada dataset 1

dengan ciri seperti pada Gambar 4.17. (1) sebagai data uji, maka fungsi

multisvm yang sebelumnya sudah dibuat akan dipanggil dengan kode

berikut :

[output,rank] = multisvm1v1(DataTr,LabelTr,DataTs(1,:));

Variabel output akan digunakan untuk menampung hasil klasifikasi yang

merupakan kelas yang memiliki hasil voting terbanyak dan rank adalah

hasil perhitungan jumlah vote dari 741 hasil klasifikasi biner yang ada.

DataTs(1,:) adalah perintah untuk menginputkan seluruh kolom pada baris

ke 1 yang dimana merupakan tempat penyimpanan dari aksara A dataset 1.

Isi dari variabel rank dapat dilihat pada Gambar 4.20. berikut :


63

Gambar 4.29. Hasil voting dari 741 model klasifikasi biner

Seperti yang dapat dilihat dari Gambar 4.29, kolom 1 merupakan label

kelas, dan kolom 2 merupakan frekuensi dari hasil voting yang dimiliki

oleh kelas tersebut. Dapat pula dilihat pada gambar tersebut, kelas berlabel

1 merupakan kelas yang paling banyak jumlah vote-nya yaitu 38, sehingga

hasil klasifikasi multisvm dari gambar inputan tadi adalah 1 yang dimana

1 adalah label dari aksara A.

Gambar 4.30. Hasil klasifikasi menggunakan SVM model 1


64

2. Model Klasifikasi 2 ( Pemodelan dengan kelas yang memiliki jumlah

connected component yang sama)

Model klasifikasi ini akan mengurangi jumlah kelas yang ada guna

meningkatkan akurasi, menurunkan waktu yang diperlukan untuk

melakukan 1 kali klasifikasi. Seperti dapat dilihat pada Tabel 3.1., seluruh

kelas yang ada dikelompokkan kedalam 3 kelompok berdasarkan jumlah

connected component-nya. Pada Gambar 4.17. (1) tentang ciri dari aksara

A pada dataset 1, dapat dilihat bahwa gambar tersebut hanya terdiri dari 1

connected component, sehingga untuk pembangunan model svm hanya

menggunakan kelas yang jumlah connected component-nya sama dengan

1. Seperti yang dapat dilihat pada Tabel 3.1. kelas yang tergabung dalam

kelompok ber-connected component 1 adalah A, Ha, Pa, Wa, Ga, Da, Ma,

Sa, Ya, Nga, La, Nya, Hu, Pu, Wu, Gu, Du, Mu, Ngu, Nyu, Ae, Ao dan Ax

dengan jumlah 23 sehingga model klasifikasi biner yang akan dibangun

adalah sebanyak (23*(23-1))/2 = 253 model. Dengan

mengimplementasikan fungsi untuk metode multisvm versi 2, maka code

untuk menjalankan fungsi tersebut adalah

[output,rank]=multisvm1v1V2(DataTr,LabelTr,DataTs(1,:),100)

Variabel output akan digunakan untuk menampung hasil klasifikasi yang

merupakan kelas yang memiliki hasil voting terbanyak dan rank adalah

hasil perhitungan jumlah vote dari 253 hasil klasifikasi biner yang ada.

DataTs(1,:) adalah perintah untuk menginputkan seluruh kolom pada baris

ke 1 yang dimana merupakan tempat penyimpanan dari aksara A dataset 1,

serta parameter 100 merupakan jumlah FCC yang akan digunakan untuk

klasifikasi ini. Adapun isi dari variabel rank dapat dilihat pada Gambar

4.22. berikut :


65

Gambar 4.31. Hasil voting dari 253 model klasifikasi biner

Seperti yang dapat dilihat dari Gambar 4.31, kolom 1 merupakan label

kelas, dan kolom 2 merupakan frekuensi dari hasil voting yang dimiliki

oleh kelas tersebut. Dapat pula dilihat pada gambar tersebut, kelas berlabel

1 merupakan kelas yang paling banyak jumlah vote-nya yaitu 22, sehingga

hasil klasifikasi multisvm dari gambar inputan tadi adalah 1 yang dimana

1 adalah label dari aksara A.

Gambar 4.32. Hasil klasifikasi menggunakan SVM model 2

4.6. Evaluasi

Seperti yang sudah disebutkan pada nomor 3.2.4. tentang klasifikasi, sistem

akan dibangun dengan pemodelan menggunakan seluruh kelas serta pemodelan

dengan pengelompokan berdasarkan jumlah connected component. Untuk

setiap jenis model klasifikasi, akan dihitung tingkat akurasi sistem dalam

mengklasifikasikan setiap data uji. Data uji dan data latih diperoleh


66

menggunakan 10-Fold Cross Validation seperti yang sudah ditunjukkan pada

nomor 3.2.5.

Menggunakan FCC 100 dengan normalisasi rumus, diperoleh tingkat akurasi

sistem dalam melakukan klasifikasi menggunakan dua model klasifikasi yaitu

pemodelan menggunakan seluruh kelas serta pemodelan dengan

pengelompokan berdasarkan jumlah connected component seperti yang terlihat

pada gambar grafik perubahan akurasi 100 FCC berikut:

Gambar 4.33. Grafik Perubahan Akurasi 100 FCC

Dapat juga dilihat pada Gambar 4.33., akurasi tertinggi diperoleh dengan

menggunakan data uji ke 6 dan model klasifikasi ke-2 yaitu dengan

mengelompokkan kelas menggunakan jumlah connected component dengan

akurasi sebesar 74.359 %. Menggunakan FCC 200 dengan normalisasi rumus,

diperoleh tingkat akurasi sistem dalam melakukan klasifikasi menggunakan

dua model klasifikasi yaitu pemodelan menggunakan seluruh kelas serta

pemodelan dengan pengelompokan berdasarkan jumlah connected component

seperti yang terlihat pada gambar grafik perubahan akurasi 200 FCC berikut:

57.26552.9915 58.1197 61.538563.2479

70.9402 67.5214 64.9573 65.81260.6838

60.683858.9744

64.1026 65.812 62.3932

74.359 71.794968.3761 68.3761 64.9573

0

10

20

30

40

50

60

70

80

1 2 3 4 5 6 7 8 9 10

AK

ura

si s

iste

m

Data Testing ke

Grafik Perubahan Akurasi 100 FCC

Model Klasifikasi 1 Model Klasifikasi 2


67











58.9744 58.9744 57.265 59.8291

61.5385

75.2137

72.6496

67.521470.9402

64.1026

59.8291 58.829164.1026 67.5214

74.359

76.068468.3761

73.504367.5214

0

10

20

30

40

50

60

70

80

1 2 3 4 5 6 7 8 9 10

AK

ura

si s

iste

m

Data Testing ke



64.9573 58.974464.9573 65.812

59.8291

76.923168.3761

68.376170.0855 65.812

66.666764.9573

70.0855 66.666766.6667

78.632571.7949

67.521476.0684

69.2308

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

AK

ura

si s

iste

m

Data Testing ke




68











menggunakan data uji ke 6 dan data uji ke 9 menggunakan model klasifikasi

ke-2 yaitu dengan mengelompokkan kelas menggunakan jumlah connected

component dengan akurasi sebesar 76.9321 %. Menggunakan FCC 500 dengan

normalisasi rumus, diperoleh tingkat akurasi sistem dalam melakukan

klasifikasi menggunakan dua model klasifikasi yaitu pemodelan menggunakan

seluruh kelas serta pemodelan dengan pengelompokan berdasarkan jumlah

connected component seperti yang terlihat pada gambar grafik perubahan

akurasi 500 FCC berikut:

58.1197 60.6838 60.683867.5214

61.538575.213766.6667 70.0855

73.504367.5214

62.394364.102667.521470.940264.9573

76.932172.649670.9402

76.923168.2308

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

AK

ura

si s

iste

m

Data Testing ke




69



menggunakan data uji ke 6 menggunakan model klasifikasi ke-2 yaitu dengan


akurasi sebesar 77.7778 %. Menggunakan FCC 600 tanpa normalisasi rumus,






61.5385 56.4103 60.663866.6667

59.829170.0855 69.2308 70.9402 68.3761

64.102659.8291

63.247970.0855

60.6838

77.777871.7949

70.0855

76.923170.0855

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

AK

ura

si s

iste

m

Data Testing ke



58.1197 64.957370.9402

56.4103 63.2479

82.051376.923172.6496 70.9402

76.923161.538568.3761 75.2137

58.974465.812

83.760780.3419

76.923173.504377.7778

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

AK

ura

si s

iste

m

Data Testing ke




70


menggunakan data uji ke 6 menggunakan model klasifikasi ke-2 yaitu dengan


akurasi sebesar 83.7607 %. Berdasarkan seluruh diagram diatas, dapat dibuat

sebuah grafik perbandingan nilai akurasi yang dihasilkan oleh kedua jenis

pemodelan SVM untuk setiap nilai FCC yang digunakan, seperti pada Gambar

4.39. berikut:

Gambar 4.39. Perbandingan Akurasi Tertinggi Model 1 dan Model 2

Dapat disimpulkan bahwa akurasi yang dihasilkan oleh sistem dalam

melakukan klasifikasi, cenderung lebih baik jika menggunakan model 2 yaitu

dengan melakukan pengelompokan terhadap kelas yang ada berdasarkan

jumlah connected component-nya. Adapun akurasi yang paling diperoleh

dengan menggunakan model klasifikasi 2 dan dengan menggunakan chaincode

600 tanpa normalisasi rumus dengan tingkat akurasi sebesar 83.7607 %, yang

seperti dapat dilihat pada Gambar 4.39. menggunakan data uji ke 6. Adapun

beberapa contoh hasil prediksi sistem dengan menggunakan model klasifikasi

2 dengan 600 FCC dan dengan data uji ke 6 dapat dilihat pada Tabel 4.1

70.9402

75.213776.9231 75.2137

77.777882.0513

74.35976.0684

78.632576.9231 77.7778

83.7607

60

65

70

75

80

85

100 200 300 400 500 600

AK

ura

si s

iste

m

Jumlah FCC

Perbandingan Akurasi Tertinggi Model 1 dan Model 2



71

Tabel 4.1. Perbandingan Label Data Uji dengan Hasil Prediksi Sistem

No Gambar Aksara Actual Predicted Status Waktu (sec)

1

A A T 3.99

28

Ga Ga T 3.63

31

Gu Ga F 4.38

32

Gu Gu T 3.77

47

Ju Ju T 0.94

48

Ju Bu F 0.98

104

U I F 0.09

107

Wa Wa T 3.62

109

Wu Wu T 3.39

114

Ya A F 3.97

117

Yu Yu T 1.03

98 2.64

Tot. T AVG

Dapat dilihat dari Tabel 4.1., bahwa rata-rata waktu pengerjaan program dalam

melakukan satu kali klasifikasi adalah 2.64 detik dimana waktu yang paling

lama dimiliki oleh seluruh data yang berada pada kelompok data yang memiliki

1 connected component. Hal ini dikarenakan model SVM yang dibangun akan

mengklasifikasikan dengan kelas yang cukup banyak, yaitu 23 kelas dengan

jumlah model klasifikasi biner sejumlah 253 . Sedangkan untuk waktu yang


72

paling cepat adalah kelas yang tegabung dalam kelompok kelas dengan

connected component 3 karena hanya memiliki 4 kelas yang tergabung

didalamnya dengan jumlah model klasifikasi biner hanya 6. Dapat juga dilihat

jumlah kelas yang dimiliki adalah sejumlah 39 kelas, sehingga confusion

matrix yang akan dibangun nantinya akan berukuran 39 x 39. Adapun potongan

bentuk confusion matix yang terbentuk dapat dilihat pada Gambar 4.40.

Gambar 4.40. Confusion Matrix hasil klasifikasi data uji ke 6

Gambar 4.40. berisi tentang Confusion Matrix yang diperoleh pada percobaan

ke 6 dengan klasifikasi menggunakan pengelompokan kelas. Adapun dari

gambar diatas dapat dilihat bahwa sistem dapat mengenali seluruh data

training karena pada kolom A baris A berisi angka 3 dimana artinya 3 buah

aksara inputan dideteksi sebagai A dan kenyataannya aksara tersebut

merupakan aksara A. Dapat juga dilihat bahwa pada bagian aksara Wa, sistem

hanya berhasil memprediksi aksara inputan Wa sebanyak 2 kali, dapat dilihat

pada baris Wa kolom Wa, dan salah memprediksi 1 kali dimana Aksara yang

seharusnya Wa diprediksi sebagai Wu. Berdasarkan rumus untuk menentukan

akurasi dari sebuah confusion matrix, seperti yang tertulis pada rumus 2.17.,

maka Akurasi sistem yang dibangun adalah sebesar:

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 98

117∗ 100 = 83.7607 %


73

Pengujian selanjutnya adalah pengujian data tunggal. Dalam pengujian ini,

gambar aksara akan diinputkan kedalam sistem, dimana gambar aksara tersebut

sebelumnya tidak dijadikan data training model klasifikasi. Adapun GUI

sistem yang dibuat adalah hasil implementasi prototype GUI yang terdapat

pada Gambar 3.11.

Gambar 4.41. Hasil Uji Klasifikasi dengan Data Tunggal

Tahap pertama yang dilakukan adalah mengklik tombol Browse dimana

tombol tersebut memiliki fungsi untuk meminta inputan dari user untuk

menginputkan gambar aksara yang akan diklasifikasi. Selanjutnya sistem akan

melakukan tahapan preprocessing seperti yang sudah disebutkan pada nomor

3.2.1. tentang Preprocessing dan akan menampilkan citra inputan user pada

kolom Citra Inputan, citra hasil deteksi tepi dari citra tersebut ke kolom Tepi

Citra. Adapun langkah selanjutnya yang dilakukan sistem adalah mencari ciri

FCC dari gambar. Dengan mengklik tombol klasifikasi, sistem akan

mengklasifikasikan gambar inputan tersebut menggunakan ciri yang diperoleh

dan hasil klasifikasi akan ditampilkan pada kolom Hasil Klasifikasi. Sebagai

tambahan, waktu yang diperlukan untuk melakukan klasifikasi tersebut akan

ditampilkan pada kolom Waktu klasifikasi. Adapun dapat dilihat pada Gambar

4.41., citra inputan pada sistem adalah citra aksara Ra, dan sistem

mengklasifikasikan citra tersebut sebagai citra dari aksara Ra.


74

BAB V

PENUTUP

5.1.KESIMPULAN

Berdasarkan penelitian tentang Alih Aksara Batak Toba Tulisan Tangan

menggunakan Freeman Chain Code (FCC) dan Support Vector Machine

(SVM) yang sudah dilakukan, maka kesimpulan yang didapatkan adalah :

1. Akurasi yang berhasil didapatkan sistem dalam melakukan klasifikasi

adalah sebesar 83.7607 % dengan model klasifikasi menggunakan

pengelompokan kelas aksara berdasarkan jumlah connected component dan

dengan menggunakan normalisasi ciri FCC tanpa menggunakan rumus

(versi 2).

2. Berdasarkan tingkat akurasi yang didapatkan, dapat disimpulkan bahwa

sistem yang dibangun dapat mengklasifikasikan aksara Batak Toba tulisan

tangan dengan baik dengan menggunakan metode ekstraksi ciri Freeman

Chaincode (FCC) dan metode klasifikasi Support Vector Machine (SVM).

3. Normalisasi ciri FCC dengan menggunakan rumus (versi 1) mengakibatkan

banyak informasi yang terdapat pada ciri FCC menjadi hilang dan

mengakibatkan tingkat akurasi sistem dalam melakukan klasifikasi menjadi

menurun.

4. Ciri FCC cukup baik digunakan dalam mencari ciri bentuk dari sebuah

objek. Namun FCC memiliki kelemahan, yaitu ciri FCC sangat tergantung

dengan citra hasil deteksi tepi yang didapatkan. Jika terdapat pixel yang

kosong atau terputus, maka akan mengakibatkan rusaknya pencarian ciri

FCC yang sudah dimulai sebelumnya. Ciri FCC juga akan menghasilkan

ciri yang sangat panjang sehingga akan mengakibatkan proses komputasi

dalam tahapan klasifikasi yang cenderung lama.

5. Konsep multi SVM untuk klasifikasi aksara Batak Toba dapat ditingkatkan

akurasi dan kecepatan waktunya dengan cara melakukan preprocessing

untuk pengelompokan aksara berdasarkan jumlah komponen penyusun

aksara tersebut.


75

5.2.SARAN

Demi mengembangkan sistem yang sudah dibangun ini, adapun saran yang

dapat diberikan untuk membuat sistem ini semakin baik kedepannya adalah :

1. Mengembangkan aplikasi smartphone yang mampu mengalih aksarakan

aksara Batak Toba tulisan tangan dengan mengamplikasikan metode FCC

sebagai ciri dan SVM sebagai metode klasifikasi.

2. Meneruskan penelitian ini sehingga mampu digunakan untuk

mentransliterasikan manuskrip-manuskrip aksara Batak Toba sehingga

lebih mudah untuk melakukan pendigitalisasian naskah Batak Toba.

3. Menambahkan data yang akan digunakan dari yang sebelumnya hanya

berjumlah 30 set data, dengan semakin banyaknya data yang digunakan,

harapannya adalah tingkat akurasi yang dihasilkan oleh sistem akan

semakin tinggi.


76

DAFTAR PUSTAKA

Aronszajn, N. (1950). Theory of Reproducing Kernels. Transactions of the

American Mathematical Society 66(3) pp. 337-404.

Cover, T.M. (1965). Geometrical and Statistical Properties of Systems of Linear

Inequalities with Applications in Pattern Recognition. IEEE Transactions

on Electronic Computer.

Duda, R.O. dan Hart, P.E. (1973). Pattern Classification. New York : John Wiley

and Sons Inc.

Haritama, A. A. (2017). Penerapan Model Mesin Belajar Support Vector Machines

Pada Automatic Scoring Untuk Jawaban Singkat. Tugas Akhir. Program

Studi Teknik Informatika. Fakultas Teknologi Industri. Universitas Atma

Jaya. Yogyakarta.

Kozok, U. (2009). Surat Batak. Jakarta : Kepustakaan Populer Gramedia.

Nugroho, A.S., Witarto, A. B. dan Handoko, D. (2003). Support Vector Machine

Teori dan Aplikasinya dalam Bioinformatika. Kuliah Umum

IlmuKomputer.com.

Riyanda, R. (2015). Pembangunan Aplikasi Pengenalan Aksara Arab Melayu

Menggunakan Algoritma Freeman Chain Code Dan Support Vector

Machine (SVM). Skripsi. Program Studi Teknik Informatika. Fakultas

Teknik Dan Ilmu Komputer. Universitas Komputer Indonesia.

Safrizal, Arnia, F. dan Muharar, R. (2016). Pengenalan Aksara Jawi Tulisan Tangan

Menggunakan Freemen Chain Code (FCC), Support Vector Machine

(SVM) Dan Aturan Pengambilan Keputusan. Jurnal Nasional Teknik

Elektro 5(1).

Sinaga, D. dan Pramunendar, R. A. (2013). Pengenalan Aksara Batak Toba dengan

Chain Code dan Jaringan Saraf Tiruan Propagasi Balik. Laporan Akhir

Penelitian Dosen Pemula. Fakultas Ilmu Komputer. Universitas Dian

Nuswantoro. Semarang.

Vapnik V.N. (1995). The Nature of Statistical Learning Theory, 2nd edition.

Heidelberg : Springer Science.


Documents

ALIH AKSARA BATAK TOBA TULISAN TANGAN MENGGUNAKAN …repository.usd.ac.id/34805/2/155314125_full.pdf · FCC 600 tanpa normalisasi rumus dan dengan model klasifikasi multi SVM 1v1