35
ADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM PENGENALAN UCAPAN BAHASA INDONESIA BAKU MENGGUNAKAN PENDEKATAN BOOTSTRAPPING TERMODIFIKASI NAMA : Arif Wicaksono KELAS : S1 Sistem Informasi Transfer 2A NIM : 07.22.0788

makalah+sistem+pakar

Embed Size (px)

Citation preview

ADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM PENGENALAN UCAPAN

BAHASA INDONESIA BAKU MENGGUNAKAN PENDEKATAN BOOTSTRAPPING TERMODIFIKASI

NAMA : Arif Wicaksono KELAS : S1 Sistem Informasi Transfer 2ANIM : 07.22.0788

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTERAMIKOM

YOGYAKARTA

2008

1. PENDAHULUANSistem pengenalan ucapan pada dasarnya merupakan sistem yang

mendengarkan ucapan seseorang dan membandingkan ucapan tersebut dengan data

kata-kata atau frase yang telah disiapkan sebelumnya agar diperoleh data kata yang

paling mendekati tepat dengan ucapan yang diterima. Kedengarannya memang mudah,

namun banyak hal yang perlu disesuaikan dengan budaya bahasa manusia, sehingga

muncul banyak tantangan yang dihadapi agar sistem pengenalan ucapan memberikan

kinerja yang baik, terutama pengolahan data yang cepat dan akurat. Kecepatan dan

keakuratan sistem pengenalan ucapan seharusnya mampu menyesuaikan diri dan

membentuk interaksi manusia dan komputer seperti layaknya percakapan alamiah

sesama manusia [1].

Didalam dunia bahasa, banyak terdapat kasus-kasus ambiguitas yang masih sulit

diproses oleh komputer. Ambiguitas tersebut muncul pada tingkat yang berbeda-beda,

mulai dari simbol (misalnya simbol titik), kata, frasa, bahkan kalimat. Beberapa

penelitian telah berusaha memecahkan masalah bahasa ini. Penelitian tersebut

mencoba dari berbagai sudut pandang atau gabungannya.

Para peneliti telah mencoba memecahkan masalah-masalah bahasa pada

penerapannya di sistem pengenalan ucapan. Pemecahan dilakukan dengan sudut

pandang global, seperti pengembangan sistem pengenalan multi-bahasa yang

diharapkan mampu memecahkan masalah semua bahasa. Hal ini telah dilakukan oleh

[2,3,4,5,6,7]. Telah diteliti pula penerapan sistem pengenalan ucapan pada FPGA [8],

yang sangat mungkin dibangun pada sistem tertanam (Embedded System). Bahkan

beberapa peneliti mencoba mengadopsi data fonem satu bahasa ke bahasa lain

dikarenakan belum tersedianya data fonem pada bahasa yang bersangkutan. Diantara

para peneliti ini adalah Kumar [9] yang mengembangkan pengenalan ucapan Bahasa

India dan Yuen [10] yang mengembangkan pengenalan ucapan Bahasa Cina. Kedua

peneliti menggunakan pendekatan bootstrapping dalam membuat data fonem baru

untuk bahasa yang belum memiliki atau belum lengkap data fonem dan data

pelatihannya. Keduanya mempunyai maksud yang sama yaitu mempercepat

pengembangan sistem pengenalan ucapan, tanpa direpotkan dengan pelatihan data

kosakata yang begitu besar jumlahnya.

Sementara itu, bahasa Indonesia sampai saat ini belum diimplementasikan ke dalam

sistem pengenalan ucapan, tidak seperti bahasa negara maju. Ketertinggalan ini dapat

dimengerti karena memang tingkat kesulitannya tinggi, baik dalam pengembangan

sistem pengenalan ucapan maupun ketersediaan data dan struktur bahasa itu sendiri.

Walaupun demikian, tidaklah perlu berpangku tangan, berbagai langkah untuk

pengembangan sekecil apapun dalam upaya meningkatkan kualitas bahasa akan

berdampak positif secara luas pada bidang lain.

Oleh karena itu, peneliti mulai menerapkan wacana penelitian di bidang sistem

pengenalan ucapan bahasa Indonesia dimulai dari titik awal dengan melihat aspek

pemetaan fonem seperti yang dilakukan oleh Kumar dengan memodifikasi pendekatan

bootstrapping. Disamping itu, hal ini sangat sesuai dengan kondisi bahasa Indonesia

yang belum menyiapkan data fonem dan data pelatihan khusus untuk sistem

pengenalan ucapan bahasa Indonesia.

1.1. Perumusan MasalahPenelitian ini termasuk pada Kelompok Penelitian Intelijensi Buatan dan Sistem

Pakar. Bidang ilmu yang erat terkait pada penelitian ini diantaranya adalah Pengolahan

Sinyal Digital, Sistem Kendali, Statistika dan Linguistik.

Penelitian ini akan mengkaji masalah-masalah yang berhubungan dengan

pengembangan sistem pengenalan ucapan dengan obyek Bahasa Indonesia

menggunakan pendekatan bootstrapping. Masalah-masalah tersebut adalah sebagai

berikut :

1. Bagaimana mengembangkan secara cepat prototipe suatu sistem pengenalan

ucapan Bahasa Indonesia dengan memanfaatkan sistem pengenalan ucapan

Bahasa Inggris yang sudah ada.

2. Bagaimana merancang pemetaan antara fonem Bahasa Indonesia dengan

fonem Bahasa Inggris.

3. Bagaimana merancang algoritma penyesuaian akibat perbedaan fonem Bahasa

Indonesia dan Bahasa Inggris untuk membangun notasi fonem Bahasa

Indonesia.

1.2. Tujuan PenelitianPenelitian ini mempunyai tujuan sebagai berikut :

1. Agar terbangunnya prototipe sistem pengenalan ucapan bahasa Indonesia

menggunakan pendekatan bootstrapping yang dimodifikasi untuk penyesuaian

pemetaan antara fonem Bahasa Indonesia dengan fonem Bahasa Inggris.

2. Tercapainya hasil pengujian yang memenuhi kriteria “baik” terhadap algoritma

penyesuaian untuk menyelaraskan notasi fonem hasil pemetaan menjadi notasi

fonem Bahasa Indonesia baku.

1.3. Batasan PenelitianPenelitian ini dibatasi pada beberapa spesifikasi yang dijekaskan berikut ini.

1. Sistem pengenalan ucapan Bahasa Inggris yang diadaptasikan berupa paket

program berbasiskan open source.

2. Pengembangan sistem pengenalan ucapan Bahasa Indonesia mengacu pada

kaidah Bahasa Indonesia baku.

3. Fonem Bahasa Indonesia mengacu pada kamus Bahasa Indonesia dan kamus

terjemahan Bahasa Indonesia – Inggris.

4. Fonem Bahasa Inggris mengacu pada International Phonetic Alphabet (IPA).

Prototipe sistem pengenalan ucapan yang dibangun hanya ditujukan sampai pada

notasi fonem Bahasa Indonesia.

2. TINJAUAN PUSTAKABagian ini menjelaskan tentang konsep sistem pengenalan ucapan, beberapa

masalah penting pada pengenalan ucapan dan penelitian pengembangan sistem

pengenalan ucapan yang dijadikan sebagai acuan untuk penelitian ini.

2.1. Konsep Sistem Pengenalan Ucapan Pengenalan Ucapan yang dimaksudkan disini dalam istilah bahasa Inggris

adalah Speech Recognition. Pengenalan Ucapan merupakan suatu proses dimana

suatu komputer atau suatu jenis mesin mampu mengidentifikasi kata yang diucapkan

seseorang. Gambaran mudahnya, seperti layaknya seseorang berbicara dengan

komputer dan komputer mampu mengenali apa yang sedang dikatakannya.

Pada umumnya, Sistem Pengenalan dan Sintesis Ucapan dibentuk dengan proses

seperti tampak pada Gambar 1 berikut ini [11].

Gambar 1. Model Sistem Pengenalan dan Sintesis Ucapan

Gambar disadur dari [11]

Gambar 1 menjelaskan adanya hubungan antara dua entitas yaitu manusia dan

komputer. Manusia mengucapkan suatu kata, kemudian dilakukan proses Recognition.

Proses Recognition mengubah ucapan manusia, dalam hal ini Speech, menjadi

bentuk yang dimengerti oleh komputer dan menghasilkan suatu data berupa Text. Text

ini belum memberikan pengertian sehingga diperlukan proses berikutnya yaitu

Understanding. Proses inilah yang menganalisis Text menjadi sesuatu yang memiliki

arti secara simantik.

Proses Synthesis membangkitkan suara sintetik hasil dari pengolahan komputer.

Proses ini memerlukan bahan Text yang biasanya hasil pengembangan dari

pengetahuan, dalam hal ini Meaning, yang telah disiapkan sebelumnya oleh manusia.

Proses Synthesis pada umumnya lebih mudah dibanding proses Recognition. Seperti

yang diungkapkan [1,12].

Lebih mendalam, proses Pengenalan Ucapan diselesaikan melalui beberapa tahap

seperti tampak pada Gambar 2 berikut ini [11].

Gambar 2. Proses Pengenalan Ucapan

Gambar disadur dari [11]

Pada Gambar 2, Speech Signal direkam oleh komputer. Hasil rekaman sinyal ini

dianalisis oleh proses Representation. Analisis representasi disesuaikan dengan data

referensi yang telah disiapkan sebelumnya pada Training Data. Penyesuaian ini

dilakukan dengan berbagai metode normalisasi dan filter agar dapat diperoleh hasil

yang mempunyai format yang sama dengan Training Data. Hasil Representasi

kemudian dibandingkan pada proses Search dengan data dari Training Data dengan

menerapkan beberapa model, baik hanya satu model atau gabungan beberapa model

dari Acustic, Lexical atau Language Model. Proses perbandingan ini ditujukan untuk

memilih “Kata” yang paling mendekati tepat (Recognized Words). Keseluruhan proses

pada Gambar 2 tersebut akan diulang untuk mengolah ucapan berikutnya.

Khusus pada bagian Training Data, data perlu disiapkan sebelum adanya implementasi

dari Sistem Pengenalan Ucapan. Proses yang digunakan untuk menyediakan data

dilakukan dengan pengumpulan data. Tidak sekedar dikumpulkan saja, namun juga

dilakukan proses pelatihan agar didapat pengolahan data yang cepat dalam

pencariannya. Pelatihan dilakukan dengan menerapkan Jaringan Syaraf Tiruan.

Secara teknis, Sistem Pengenalan Ucapan dapat dijabarkan menggunakan contoh

seperti pada Gambar 3 berikut [11].

Gambar 3. Contoh Penjabaran Teknis Sistem Pengenalan Ucapan

Gambar disadur dari [11]

Sumber sinyal yang berasal dari ucapan seseorang, dinyatakan sebagai Speech Waveform pada Gambar 3. Sumber sinyal ini kemudian dicari ciri pentingnya yang

dapat membedakan antara satu sinyal dengan sinyal lain. Pengungkapan ciri dilakukan

dengan pengolahan sinyal.

Terdapat banyak cara dalam melakukan pengolahan sinyal untuk pengungkapan ciri,

diantara yang terkenal adalah :

Mel Frequency Cepstral Coefficients (MFCC). Analisis Transformasi Fourier

menghasilkan frekuensi diskrit terhadap waktu dan dapat ditampilkan

gambarnya. Biasanya nilai frekuensi dinyatakan menggunakan skala Mel,

dimana skala skala ini linier untuk rentang dibagian yang rendah dan berbentuk

logaritmik pada rentang bagian tinggi. Hal ini sesuai dengan karakteristik

pendengaran manusia. Koefisien Sepstral frekuensi-Mel inilah yang dijadikan ciri.

Linear Predictive Coding (LPC). Cara ini menghasilkan koefisien dari persamaan

linier yang memperkirakan nilai data ucapan beberapa saat terakhir. Vektor

koefisien inilah yang dijadikan ciri.

Hasil dari pengolahan dan analisis sinyal adalah deretan vektor ciri ucapan, dinyatakan

sebagai spectral feature vector pada Gambar 3. Vektor-vektor ini dilatih

menggunakan Jaringan Syaraf Tiruan. Pelatihan dimaksudkan agar pemrosesan vektor

dapat dilakukan dengan cepat. Hasil dari pelatihan berupa deretan fonem-fonem yang

membentuk data ucapan. Pemodelan fonem ini menggunakan model akustik Hidden

Markov Model (HMM).

Proses pencarian kesamaan data fonem dilakukan dengan menggunakan Grammar N-Gram dan dikodekan kembali menggunakan algoritma Viterbi. Proses ini melihat nilai

total penjajaran terbaik. Dari penjajaran ini diperoleh deretan kata yang terpilih dan

diasumsikan yang paling benar, tampak hasil “I need a” pada Gambar 3.

2.2. Masalah-Masalah Penting Pada Sistem Pengenalan UcapanPada kenyataannya, Sistem Pengenalan Ucapan sampai saat ini masih perlu

meningkatkan beberapa hal guna memperbaiki kinerjanya, terutama masalah akurasi.

Dalam thesis [13] disebutkan beberapa masalah mengapa sulit menigkatkan akurasi.

Masalah tersebut dijelaskan sebagai berikut.

1. Semakin besar ukuran kosakata, semakin tinggi kesalahan dalam pengenalan

ucapan. Sebagai contoh, 10 digit dari “nol” sampai “sembilan” dapat dengan

mudah dikenali [14]. Tetapi dengan meningkatnya ukuran vocabulary menjadi

200, 5000, atau 100000 maka bisa terjadi rata-rata kesalahan 3%, 7%, atau 45%

[15,16,17]. Sementara itu, setiap bahasa mempunyai huruf ketika diucapkan sulit

untuk dibedakan. Sebagai contoh huruf C, D, J dalam kasus Bahasa Indonesia.

2. Tingkat ketergantungan kepada pembicara. Sistem pengenalan ucapan Speaker

Dependence hanya ditujukan untuk pembicara tunggal. Sedangkan Speaker

Independence ditujukan untuk siapapun. Jenis Speaker Independence sulit

untuk dilakukan karena parameter suatu sistem pengenalan ucapan biasanya

dilatih menggunakan Speaker tertentu, yang sangat spesifik ucapannya. Hasil

penelitian [18] menunjukkan bahwa Speaker Independence mempunyai

kesalahan rata-rata 3 sampai 5 kali lebih besar dibanding Speaker Dependence.

3. Penggalan ucapan. Isolated Speech berarti ucapan kata tunggal. Discontinuous

Speech berarti satu kalimat penuh tetapi kata dipilah berdasarkan keadaan diam

(silence). Continuous Speech berarti ucapan kalimat secara alamiah. Isolated

dan Discontinuous Speech relatif lebih mudah karena penggalan kata dapat

dikenali dan kata per kata dapat diucapkan lebih “bersih”. Sedangkan

Continuous Speech lebih sulit dilakukan karena tidak diketahui penggalan kata

dan juga dipengaruhi oleh artikulasi gabungan kata.

4. Persyaratan bahasa. Berbagai pekerjaan sulit untuk dilakukan bilamana tidak

memenuhi syarat-syarat penggunaan bahasa. Termasuk didalamnya adalah

Sintaks, Simantik dan Grammarnya. Sebagai contoh, query terhadap jasa

penerbangan dengan pernyataan ‘Pesawat itu berwarna merah’, diterima oleh

Sintaks, Simantik maupun Grammar. Sedangkan pernyataan ‘Pesawat itu

sedang marah’, diterima Sintaks dan Grammar tetapi ditolak oleh Simantik.

Sehingga, semua struktur bahasa perlu ditinjau dalam membangun sistem

pengenalan ucapan.

5. Ucapan Spontanitas. Sistem pengenalan ucapan dapat ditinjau dari pembicara

yang sedang membaca skrip atau berbicara secara spontan. Pembicaraan

spontan seperti emm, uh, e dan lain-lain, lebih sulit dikenali.

6. Kondisi lingkungan. Kinerja sistem pengenalan ucapan dapat juga diuji melalui

lingkungan alamiah yang terdapat banyak interferensi, derau dan lain-lain.

Sehingga usaha untuk dapat mengenali ucapan dari pembicara yang

dimaksudkan dengan suara bersih telah banyak diteliti dengan berbagai metode.

Diantaranya, penghilangan derau, penggandaan mikrofon, pembatasan lebar

pita frekuensi, dan perubahan gaya ucapan.

Bahkan [19] menyebutkan kelemahan Sistem Pengenalan Ucapan yang mendasar,

yaitu bahasa pembicaraan akan lebih efektif bila digunakan antar manusia dan akan

mempunyai banyak kekurangan bila diterapkan pada interaksi antara manusia dengan

komputer. Hal ini diakibatkan oleh lambatnya komputer merepresentasikan informasi

dan sulitnya melakukan review dan edit. Sehingga perancangan Sistem Pengenalan

Ucapan harus mengerti tentang acustic memory dan prosody.

2.3. Penelitian AcuanPenelitian yang akan dilakukan penulis mengacu pada metode pengembangan

sistem pengenalan ucapan standar yang secara umum banyak digunakan pada

berbagai penelitian sebelumnya, seperti telah dijelaskan pada Subbab 3.1. Tahap

pertama adalah penyediaan Data Terlatih yang dijadikan referensi untuk proses

perbandingan sesuai dengan Model Data yang digunakan. Tahap kedua adalah

penentuan Model Akustik, Model Bahasa dan Model Lainnya yang digunakan dalam

persyaratan bahasa. Tahap ketiga adalah proses perbandingan antara ucapan yang

diolah terhadap Data referensi menggunakan ciri-ciri Model yang diterapkan. Hasil yang

diharapkan adalah kata yang diucapkan seseorang dapat dikenali dengan benar

berdasarkan Data referensi yang ada.

Penelitian yang akan penulis lakukan menggunakan teknik-teknik yang dilakukan pada

penelitian Kumar. Kumar bersama dua rekannya meneliti tentang pengembangan Large

Vocabulary Continuous Speech Recognition System (LVCSR) untuk bahasa India [9].

Para peneliti ini mempunyai kerangka penelitian sebagai berikut :

Pemodelan Akustik dilakukan dengan mengadopsi data Phone Set bahasa

Inggris yang terdapat di International Phonetic Alphabet (IPA) untuk pemodelan

Phone Set bahasa India menggunakan pendekatan Bootstrapping.

o Bootstrapping dilakukan dengan penjajaran data ucapan bahasa tujuan.

Ide baru yang dimunculkan berbentuk modifikasi Bootstrapping, yaitu

dilakukan dengan menambahkan lexeme context comparator dengan

tujuan supaya data ucapan bahasa tujuan yang mempunyai fonem yang

mirip dan mempunyai arti berbeda dapat diketahui bedanya dengan jelas.

Konsep ini tampak pada Gambar 4.

Gambar 4. Penjajaran Data Bahasa Tujuan

Gambar disadur dari [9]

o Pemetaan fonem didefinisikan menggunakan pengetahuan linguistik dari

kedua bahasa. Pemetaan ini dibagi ke dalam 3 kategori. Kategori

pertama, Pemetaan Tepat (exact mapping) untuk kondisi kedua bahasa

mempunyai fonem yang benar-benar sama. Kategori kedua,

Penggabungan (Merging) untuk kondisi beberapa fonem bahasa tujuan

mempunyai suara berasal dari beberapa fonem bahasa sumber. Kategori

ketiga, Aproksimasi untuk kondisi beberapa fonem bahasa tujuan sama

sekali tidak terdapat didalam fonem bahasa sumber.

Peningkatan kinerja pemetaan dilakukan dengan metode pengukuran kesamaan

fonetik. Hal ini dilakukan dengan mengukur jarak diantara fonem-fonem yang

terdapat didalam domain MFCC dengan rumus sebagai berikut.

dimana vi menyatakan vektor MFCC 24-Dimensi yang dimiliki oleh dan m adalah

rata-rata vektor yang bersesuaian dengan Lihat Gambar 4 untuk mengetahui

arti simbol-simbol pada rumus ini.

Pemodelan Bahasa dilakukan dengan membuat Bentuk Dasar bahasa

(Baseform) dengan teknik pendekatan Hybrid yang menggabungkan pendekatan

Basis Aturan (Rule-Based) dan pendekatan Statistik.

o Pendekatan Berbasis-Aturan digunakan untuk membuat semua

kemungkinan Bentuk Dasar kata. Penelitian ini menerapkannya pada

kasus aturan yang sederhana dan mudah diturunkan tanpa pengetahuan

linguistik yang mendalam.

o Pendekatan Statistik digunakan untuk menyelesaikan kasus aturan yang

kompleks dan kasus yang terdapat keraguan didalamnya.

Percobaan dilakukan dengan beberapa parameter sebagai berikut.

o 24-Dimensi MFCC sebagai vektor ciri dari data ucapan. 4 vektor sebelum

dan sesudah vektor MFCC digabungkan dan vektor yang digabungkan ini

dianalisis menggunakan Linear Discriminant Analysis (LDA) agar dimensi

vektor ciri dapat diturunkan dari 24x9 menjadi 60 dimensi.

o Model akustik diterapkan menggunakan Hidden Markov Model (HMM).

o Model akustik telah dilatih selama lebih dari 200 jam dan menggunakan

data ucapan lebih dari 500 pembicara.

o Sistem pengenal ucapan yang digunakan adalah ViaVoice dari IBM.

o 12350 kata dibuat oleh ahli bahasa. Sebanyak 11510 kata digunakan

untuk pelatihan dan 840 kata untuk pengujian sistem.

Hasil yang diperoleh dari penelitian tersebut adalah sebagai berikut :

Pemetaan yang telah dimodifikasi menghasilkan peningkatan relatif 13% pada

kecepatan klasifikasi.

Penambahan Lexeme-Context Comparator mempercepat pembuatan data label

untuk bahasa tujuan. Dibuktikan hasilnya dengan peningkatan rata-rata

klasifikasi sebesar 23,82% dibanding tanpa Lexeme-Context Comparator.

Pada pembuatan Bentuk Dasar, pendekatan statistik (85,38%) memberikan

peningkatan lebih besar dibanding pendekatan Berbasis-Aturan (68,51%).

Salah satu kelebihan utama yang dihasilkannya sesuai dengan arah penelitian ini

adalah peningkatan kecepatan dalam penyediaan model fonem, yang dilakukan

dengan modifikasi pendekatan Bootstrapping. Hal ini sangat sesuai untuk bahasa-

bahasa baru yang belum mempunyai Training Data dan data Fonem khusus untuk

sistem pengenalan ucapan, termasuk bahasa Indonesia.

Melihat kenyataan bahwa hasil penelitian tersebut memberikan peningkatan kinerja

sistem pengenalan ucapan, maka penulis mengadopsi teknik-teknik yang digunakan

sesuai dengan Batasan Penelitian yang dijelaskan pada Subbab 2.3.

3. METODE PENELITIANPada bab ini akan dijelaskan tentang kerangka penelitian, modifikasi

bootstrapping yang diajukan, metodologi penelitian dan penurunan topik penelitian

strata satu yang akan digunakan.

3.1. Kerangka PenelitianKerangka penelitian yang akan penulis gunakan disesuaikan dengan metode

penelitian acuan. Perbedaan yang ada tampak pada Gambar 5 berikut.

Gambar 5. Perbedaan Kerangka Penelitian

Pada Gambar 5, kolom kiri merupakan rangkuman dari kerangka penelitian Kumar yang

dijadikan sebagai acuan untuk penelitian penulis. Kolom tengah merepresentasikan

kembali metodologi pengenalan ucapan yang umum banyak digunakan oleh para

peneliti. Kolom kanan merupakan kerangka rencana penelitian yang akan penulis

lakukan.

Gambar 5 menjelaskan bahwa perbedaan kerangka penelitian terjadi pada bagian

Ucapan, Data Pelatihan dan Bootstrapping. Ketiga bagian ini menerapkan obyek

bahasa yang berbeda. Penelitian acuan menerapkan bahasa India, sedangkan

penelitian yang diajukan penulis menggunakan obyek bahasa Indonesia. Disamping itu,

penulis menyederhanakan kerangka penelitian yang akan dilakukan, dengan

menghilangkan tahap Model Bahasa, dengan asumsi bahwa sistem pengenalan

ucapan berbahasa Indonesia relatif belum ada, sehingga berbagai data pendukung

pengenalan ucapan sangatlah terbatas. Hal ini dapat diperkirakan bahwa pengadaan

data pendukung menjadikan perjalanan penelitian ini sangat panjang waktunya jika

dilakukan semua tahapan yang ada.

3.2. Modifikasi BootstrappingKontribusi yang dijadikan ide baru untuk penelitian ini, yang akan penulis ajukan,

mengarah pada modifikasi pendekatan bootstrapping dengan penjajaran notasi fonem

Bahasa Indonesia. Bentuk modifikasi ini tampak pada Gambar 6 berikut.

Gambar 6. Modifikasi Pendekatan Bootstrapping

Gambar 6 menjelaskan bahwa kosakata Bahasa Indonesia yang perlu disiapkan

sebelumnya akan dilakukan pemetaan. Pemetaan didasarkan pada unit bunyi

pengucapan terkecil yaitu fonem. Pemetaan ini dilakukan dengan melihat hubungan

fonem satu-satu dan satu-banyak antara fonem Bahasa Indonesia ke Bahasa Inggris.

Hasil pemetaan digunakan sistem pengenalan ucapan untuk diolah menggunakan

produk pengenal ucapan Bahasa Inggris yang sudah ada di pasaran global berbasiskan

open source.

Selanjutnya, Ucapan Bahasa Indonesia yang dikeluarkan oleh mulut manusia akan

diolah bersama data pemetaan oleh Sistem Pengenal Ucapan Bahasa Inggris. Hasil

dari Sistem Pengenal Ucapan Bahasa Inggris berupa data notasi fonem terjajar Bahasa

Indonesia. Jika terdapat data terjajar yang mempunyai keraguan, baik pengucapan

sama tetapi label berbeda maupun pengucapan berbeda tetapi label sama, maka diolah

oleh bagian Klasifikasi. Bagian ini mengidentifikasi perlu tidaknya label dipilih sesuai

dengan konteks kata yang diucapkan. Proses klasifikasi dilakukan dengan pendekatan

statistik. Peluang terbesar kemunculan data terjajar yang terpilih, akan memperoleh

prioritas utama. Informasi peluang diambil dari Data Klasifikasi. Data klasifikasi

diperlukan untuk menampung secara historis data terjajar yang terpilih.

3.3. Metodologi PenelitianSecara khusus, metodologi penelitian yang diterapkan pada penelitian ini

ditampilkan pada Gambar 7 berikut ini.

Gambar 7. Metodologi Penelitian

Tahap Identifikasi digunakan untuk mengumpulkan data dan menentukan kriterianya.

Tahap ini dilakukan dengan melakukan eksplorasi beberapa hal sebagai berikut :

Standar Fonem Bahasa Inggris yang ada, termasuk International Phonetic

Alphabet (IPA) dan WordNet yang mengacu pada karakter ASCII.

Standar Fonem bahasa Indonesia berdasarkan beberapa jenis kamus bahasa

Indonesia dan sumber informasi dari Masyarakat Linguistik Indonesia (Linguistic

Indonesian Society).

Sistem Pengenalan Ucapan berbasis open-source. Saat ini, sistem yang akan

digunakan telah diprioritaskan pada produk Pengenal Ucapan, yaitu CMU Sphinx

Versi 3.5 dari Carnegie Mellon University.

Sumber data ucapan. Variasi data menggunakan kriteria umur dan jenis kelamin.

Disamping itu, data ucapan juga direncanakan akan diambil dari rekaman berita

radio dan televisi yang memenuhi pengucapan kata yang baik. Pemilihan berita

disesuaikan dengan topik domain sederhana yang akan ditentukan kemudian.

Tahap Klasifikasi digunakan untuk menentukan “kelas” fonem Bahasa Indonesia

dengan pendekatan statistik. Kelas fonem ini akan digunakan untuk mengelompokkan

jenis-jenis fonem berdasarkan artikulasinya, yaitu konsonan, vokal, harakat dan gaya

pengucapan (narasi). Pengelompokan ini juga dilakukan untuk fonem Bahasa Inggris

berdasarkan jenis kelompok dari pemetaan. Tahap ini juga digunakan untuk merancang

Data Klasifikasi awal yang digunakan pada modifikasi Bootstrapping proses penjajaran

bagian Klasifikasi dari Gambar 7.

Tahap Pemetaan Fonem melakukan pembuatan peta fonem bahasa Indonesia

ke fonem bahasa Inggris. Pada tahap ini, akan dicari keterhubungan setiap fonem yang

ada, baik hubungan satu-satu dan satu-banyak. Metode yang digunakan untuk

melakukan pemetaan mengacu pada metode pemetaan penelitian acuan, yaitu

Pemetaan Tepat, Penggabungan dan Aproksimasi. Pemetaan Tepat diterapkan bila

terdapat fonem yang sama persis dari kedua bahasa Inggris dan Indonesia.

Penggabungan diterapkan bila fonem Bahasa Indonesia berasal dari gabungan

beberapa fonem Bahasa Inggris. Aproksimasi diterapkan bila fonem Bahasa Indonesia

tidak terdapat pada fonem Bahasa Inggris.

Tahap Penyesuaian diperlukan untuk melihat kembali apakah hasil Pemetaan

Fonem sudah memenuhi kriteria yang diharapkan. Jika ditemukan kekurangan, maka

perlu diubah kembali dan disesuaikan dengan klasifikasi yang ditentukan pada tahap

sebelumnya dari proses Klasifikasi kemudian dipetakan kembali pada proses Pemetaan

Fonem.

Tahap Klasifikasi, Pemetaan Fonem dan Penyesuaian akan memerlukan

bantuan tenaga ahli bidang Ilmu Linguistik yang mempunyai kompetensi bidang Bahasa

Indonesia skala nasional. Keterlibatan tenaga ahli ini sangat diperlukan terutama pada

kegiatan perancangan fonem Bahasa Indonesia. Sampai saat ini belum ditemukan

tenaga ahli yang bersedia secara intensif membantu penelitian ini.

Tahap Pengujian melakukan beberapa hal sebagai berikut :

1. Ujicoba terhadap hasil pemetaan dengan melihat tingkat kemiripannya. Tingkat

kemiripan diukur dengan Teknik Pengukuran-Jarak antar fonem yang

dibandingkan pada domain MFCC. Teknik pengukuran ini mengadopsi cara yang

digunakan pada penelitian acuan menggunakan Rumus Jarak yang dijelaskan

pada Sub bab 3.3.

2. Penerapan pemetaan fonem yang dihasilkan pada penelitian ini akan

diujicobakan ke sistem pengenalan ucapan berbasis open-source untuk melihat

apakah hasil penelitian ini memberikan kontribusi yang memadai atau tidak,

terutama dalam hal peningkatan akurasi.

3. Melibatkan pihak sumber data kosakata, terutama pembicara. Direncanakan

pada penelitian ini akan menyewa tenaga pengucap kosakata sebanyak 20

orang dari berbagai tingkat usia dan jenis kelamin yang berbeda. Juga, akan

diujicobakan dengan menggunakan sumber data kosakata dari pembawa berita

hasil rekaman media elektronik.

4. Menerapkan pelatihan data dengan menggunakan jaringan syaraf tiruan.

5. Ujicoba terhadap metode yang diajukan pada modifikasi pendekatan

bootstrapping, baik menggunakan proses Klasifikasi maupun tidak dengan tujuan

agar diperoleh hasil apakah modifikasi yang diajukan memberikan penjajaran

yang lebih baik atau tidak.

Hasil pengujian menentukan apakah perlu atau tidak melakukan perbaikan

terhadap rancangan pemetaan yang telah dilakukan. Jika tidak terdapat peningkatan

kinerja, maka akan dicari dimana letak kekurangannya, sehingga perlu melihat kembali

Tahap Klasifikasi, Pemetaan Fonem dan Penyesuaian untuk dilakukan perbaikan.

3.4. Topik Penelitian Strata SatuBersumber pada metodologi penelitian yang akan dilakukan, dapat diturunkan

beberapa topik penelitian untuk memberikan peluang bagi mahasiswa Strata Satu

Jurusan Sistem Komputer yang dapat digunakan sebagai topik skripsi. Hasil penurunan

topik ini tercantum pada tabel berikut.

Tabel 1. Topik Penelitian S1

No Bagian

Metodologi

Topik Penelitian

1 Klasifikasi Karakterisasi Akustik Fonem Bahasa Indonesia Baku

2 Pemetaan Fonem Algoritma Penjajaran pada Pendekatan

Bootstrapping Termodifikasi

3 Pemetaan Fonem Pengukuran Beda-Jarak Akustik pada Pemetaan

Fonem Bahasa Indonesia Baku ke Fonem Bahasa

Inggris

4 Pengujian Pengukuran Kecepatan Pengolahan Fonem

Menggunakan Jaringan Syaraf Tiruan

Sebenarnya, penurunan metodologi penelitian dapat dilakukan secara menyeluruh,

tetapi akan muncul ketidak-sesuaian terhadap bidang ilmu Sistem Komputer, seperti

bagian Identifikasi yang berkonsentrasi pada bidang Ilmu Linguistik. Masalah ketidak-

sesuaian ini akan ditangani secara langsung oleh Tim Peneliti bersama tenaga ahli

bidang Ilmu Linguistik dan tidak disediakan untuk penelitian Mahasiswa S1 Jurusan

Sistem Komputer.

4. INDIKATOR KINERJA

Indikator keberhasilan dari penelitian ini dilihat dari dua hal sebagai berikut :

1. Seberapa dekatnya jarak akustik fonem yang dipetakan dari fonem Bahasa

Indonesia ke fonem Bahasa Inggris. Rumus jarak yang digunakan sama dengan

rumus yang dijelaskan pada Subbab 3.3.

2. Seberapa tingginya peningkatan kecepatan relatif proses pemetaan, baik

menggunakan tambahan proses hasil modifikasi yang diajukan (proses

Klasifikasi pada Gambar 6) maupun tidak.

5. KONSIDERAN PERCOBAAN

Konsideran percobaan yang akan digunakan untuk penelitian ini adalah sebagai

berikut.

1. Data ucapan diperoleh dari 20 orang dengan variasi umur antara 20 sampai 55

Tahun dan variasi jenis kelamin, pria dan wanita.

2. Ciri fonem diungkapkan dengan mengambil besaran MFCC 24-dimensi.

3. Pelatihan data menerapkan Jaringan Syaraf Tiruan.

4. Kemiripan dan Perbedaan antar fonem dilihat menggunakan Rumus Jarak pada

domain frekuensi.

5. Sistem Pengenalan Ucapan bahasa Inggris yang akan digunakan adalah CMU

Sphinx Versi 3.5 dari Carnegie Mellon University dengan tingkat akurasi diatas

90%.

6. Perancangan fonem Bahasa Indonesia dan pemetaannya ke Bahasa Inggris

melibatkan tenaga ahli bidang Linguistik yang memiliki kompetensi skala

nasional.

7. Pengembangan data klasifikasi berdasarkan domain sistem pengenal ucapan.

Domain yang akan digunakan adalah Teknologi Informasi.

Proses klasifikasi diterapkan menggunakan pendekatan statistik dengan melihat bobot

probabilitas kata yang diucapkan pada domain Teknologi Informasi.

6. JADUAL KEGIATAN

Waktu pelaksanaan penelitian disesuaikan dengan persyaratan yang ditetapkan oleh

TPSDP. Tahap pelaksanaan kegiatan penelitian dirinci pada diagram berikut.

Gambar 8. Diagram Jadual Kegiatan Penelitian

7. TIM PENGUSULKetua Peneliti

Nama : Lintang Yuniar Banowosari, Skom., MSc.

Tanggal Lahir : 3 Juni 1968

Jabatan Struktural : Staf Pengajar

Jabatan Fungsional : Lektor

Jurusan : Sistem Komputer

Fakultas : Ilmu Komputer

Alamat Kantor : Jl. Margonda Raya No.100 Depok 16424

Telp Kantor : 021-78881112 ext 309/477

Email : [email protected]

Alamat Rumah : Perumahan Taman Puspa Kav.72 Pasir Gunung Selatan

Cimanggis Depok 16951

Anggota Peneliti 1

Nama : Nurul Huda, Skom., MT.

Tanggal Lahir : 21 Februari 1969

Jabatan Struktural : Kepala Laboratorium Menengah

Jabatan Fungsional : Asisten Ahli

Jurusan : Sistem Komputer

Fakultas : Ilmu Komputer

Alamat Kantor : Jl. Margonda Raya No.100 Depok 16424

Telp Kantor : 021-78881112 ext 477

Email : [email protected]

Alamat Rumah : Jl. Pancoran Barat VII No.34 Rt 8 Rw 6 Durentiga Jakarta Selatan

Anggota Peneliti 2

Nama : Wahyu Kusuma Raharja, ST., MT.

Tanggal Lahir : 12 April 1973

Jabatan Struktural : Wakil Kepala Laboratorium Menengah

Jabatan Fungsional : Asisten Ahli

Jurusan : Sistem Informasi

Fakultas : Ilmu Komputer

Alamat Kantor : Jl. Akses UI Kelapa Dua Depok

Telp Kantor : 021-8727541 ext 505

Email : [email protected]

Alamat Rumah : Puri Bojong Lestari Blok CR 12 Bojong Gede Bogor 16921

8. RANCANGAN BIAYAPenelitian ini memerlukan dana sebesar Rp. 29.700.000,- dengan jumlah biaya setiap komponen

sebagai berikut :

1

.

Honor Peneliti Rp. 8.700.000,- 29.29 %

2

.

Peralatan dan

Bahan

Rp. 14.870.000,- 50.00 %

3

.

Survei dan Studi

Pustaka

Rp. 1.840.000,- 6.19 %

4

.

Laporan Rp. 2.030.000,- 6.84 %

5

.

Seminar Rp. 2.260.000,- 7.61 %

Rincian biaya secara lengkap dijelaskan pada tabel berikut.

Tabel 2. Rincian Biaya Penelitian

No Uraian Satuan

Jumlah

Satuan

Harga Satuan

(Rupiah)

Jumlah Harga

(Rupiah)

Sub-

Total

(Rupiah)

A Honor Peneliti

1 Ketua Peneliti Bulan 12 275.000 3.300.000

2 Anggota Peneliti 1 Bulan 12 225.000 2.700.000

3 Anggota Peneliti 2 Bulan 12 225.000 2.700.000

8.700.000

B Peralatan dan Bahan

4 Pengadaan Data Set 20 150.000 3.000.000

5 Komputer Personal Set 1 4.500.000 4.500.000

6 Sistem Pengenal Ucapan

Bahasa Inggris Acuan

Paket 1 2.500.000 2.500.000

7 Kartu Pengolah Sinyal

Digital

Set 1 2.500.000 2.500.000

8 Mikrofon Pengenal Ucapan Set 1 450.000 450.000

9 ATK Paket 1 250.000 250.000

10 CDRom Kosong Keping 50 4.000 200.000

11 Toner Printer Set 1 750.000 750.000

12 Kertas Rim 9 30.000 270.000

13 Transparansi Lembar 200 2.250 450.000

14.870.000

C Survei dan Studi Pustaka

14 Transportasi Trip 7 150.000 1.050.000

15 Komunikasi Paket 3 100.000 300.000

16 Konsumsi Trip 7 70.000 490.000

1.840.000

D Laporan

17 Pengolahan Data Set 20 20.000 400.000

18 Pencetakan Dokumen

Skripsi

Eks. 20 40.000 800.000

19 Pencetakan Slide Dokumen

Skripsi

Eks. 60 3.000 180.000

20 Laporan Kemajuan Eks. 10 25.000 250.000

21 Laporan Akhir Eks. 10 40.000 400.000

2.030.000

E Seminar

22 Sewa Komputer Unit 1 100.000 100.000

23 Sewa Proyektor Komputer Unit 1 300.000 300.000

24 Sewa Ruang Unit 1 400.000 400.000

25 Konsumsi Orang 100 5.000 500.000

26 Penggandaan Makalah Eks. 120 8.000 960.000

2.260.000

Jumlah Total 29.700.000

9. DAFTAR PUSTAKA[1] Blade Kotelly, The Art and Business of Speech Recognition: Creating the Noble Voice,

Addison Wesley, 2003.

[2] Asela Gunawardana, Alex Acero, Adapting Acoustic Models to New Domains and

Conditions Using Untranscribed Data, [Ref. 2002].

[3] Diego Giuliani, Marcello Federico, Unsupervised Language and Acoustic Model

Adaptation for Cross Domain Portability, [Ref. 2001].

[4] T. Schultz, A. Waibel, Experiments on Cross-Language Acoustic Modeling, [Ref. 2000].

[5] Tanja Schultz, Alex Waibel, Language Independent and Language Adaptive Acoustic

Modeling for Speech Recognition, [Ref. 2000].

[6] J. Kohler, Multi-Lingual Phoneme Recognition Exploiting Acoustic–Phonetic Similarities

of Sounds, Proceedings of the International Conference on Spoken Language Processing,

Atlanta, 1996, pp. 2195–2198.

[7] Klaus Ruggenmann and Iryna Gurevych, Assigning Domains to Speech Recognition

Hypotheses, 2004.

[8] S J Melnikoff, S F Quigley & M J Russell, Implementing a Simple Continuous Speech

Recognition System on an FPGA, Proceedings of the 10 th Annual IEEE Symposium on

Field-Programmable Custom Computing Machines (FCCM’02), 2002.

[9] M. Kumar, N. Rajput, A. Verma, A Large-Vocabulary Continuous Speech Recognition

System for Hindi, IBM Journal. Resource & Development. Volume. 48 No. 5/6

September/November 2004.

[10] M. C. Yuen and P. Fung, Adapting English Phoneme Models for Chinese Speech

Recognition, Proceedings of the International Conference on Spoken Language Processing,

Sydney, Australia, 1998, pp. 80 – 82.

[11] MIT Lecture Notes : Introduction to Automatic Speech Recognition, Lecture #1, Session

2003.

[12] Stephen Cook, Speech Recognition HOWTO, Rev 2.0, April 2002.

[13] Joe Tebelskis, Speech Recognition using Neural Networks, School of Computer Science

Carnegie Mellon University, May 1995.

[14] Doddington, G. Phonetically Sensitive Discriminants for Improved Speech Recognition. In

Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 1989.

[15] Itakura, F. Minimum Prediction Residual Principle Applied to Speech Recognition. IEEE

Trans. on Acoustics, Speech, and Signal Processing, 23(1):67-72, February 1975.

Reprinted in Waibel and Lee 1990.

[16] Miyatake, M., Sawai, H., and Shikano, K. Integrated Training for Spotting Japanese

Phonemes Using Large Phonemic Time-Delay Neural Networks. In Proc. IEEE

International Conference on Acoustics, Speech, and Signal Processing, 1990.

[17] Kimura, S. 100,000-Word Recognition Using Acoustic-Segment Networks. In Proc. IEEE

International Conference on Acoustics, Speech, and Signal Processing, 1990.

[18] Lee, K.F. Large Vocabulary Speaker-Independent Continuous Speech Recognition: The

SPHINX System. PhD Thesis, Carnegie Mellon University. 1988.

[19] Ben Shneiderman, the Limits of Speech Recognition, Communication Of The ACM

September 2000/Vol. 43, No. 9, 2000.