Upload
fadhilah-suroto
View
217
Download
1
Embed Size (px)
Citation preview
ADAPTASI SISTEM PENGENALAN UCAPAN BAHASA INGGRIS KE DALAM SISTEM PENGENALAN UCAPAN
BAHASA INDONESIA BAKU MENGGUNAKAN PENDEKATAN BOOTSTRAPPING TERMODIFIKASI
NAMA : Arif Wicaksono KELAS : S1 Sistem Informasi Transfer 2ANIM : 07.22.0788
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTERAMIKOM
YOGYAKARTA
2008
1. PENDAHULUANSistem pengenalan ucapan pada dasarnya merupakan sistem yang
mendengarkan ucapan seseorang dan membandingkan ucapan tersebut dengan data
kata-kata atau frase yang telah disiapkan sebelumnya agar diperoleh data kata yang
paling mendekati tepat dengan ucapan yang diterima. Kedengarannya memang mudah,
namun banyak hal yang perlu disesuaikan dengan budaya bahasa manusia, sehingga
muncul banyak tantangan yang dihadapi agar sistem pengenalan ucapan memberikan
kinerja yang baik, terutama pengolahan data yang cepat dan akurat. Kecepatan dan
keakuratan sistem pengenalan ucapan seharusnya mampu menyesuaikan diri dan
membentuk interaksi manusia dan komputer seperti layaknya percakapan alamiah
sesama manusia [1].
Didalam dunia bahasa, banyak terdapat kasus-kasus ambiguitas yang masih sulit
diproses oleh komputer. Ambiguitas tersebut muncul pada tingkat yang berbeda-beda,
mulai dari simbol (misalnya simbol titik), kata, frasa, bahkan kalimat. Beberapa
penelitian telah berusaha memecahkan masalah bahasa ini. Penelitian tersebut
mencoba dari berbagai sudut pandang atau gabungannya.
Para peneliti telah mencoba memecahkan masalah-masalah bahasa pada
penerapannya di sistem pengenalan ucapan. Pemecahan dilakukan dengan sudut
pandang global, seperti pengembangan sistem pengenalan multi-bahasa yang
diharapkan mampu memecahkan masalah semua bahasa. Hal ini telah dilakukan oleh
[2,3,4,5,6,7]. Telah diteliti pula penerapan sistem pengenalan ucapan pada FPGA [8],
yang sangat mungkin dibangun pada sistem tertanam (Embedded System). Bahkan
beberapa peneliti mencoba mengadopsi data fonem satu bahasa ke bahasa lain
dikarenakan belum tersedianya data fonem pada bahasa yang bersangkutan. Diantara
para peneliti ini adalah Kumar [9] yang mengembangkan pengenalan ucapan Bahasa
India dan Yuen [10] yang mengembangkan pengenalan ucapan Bahasa Cina. Kedua
peneliti menggunakan pendekatan bootstrapping dalam membuat data fonem baru
untuk bahasa yang belum memiliki atau belum lengkap data fonem dan data
pelatihannya. Keduanya mempunyai maksud yang sama yaitu mempercepat
pengembangan sistem pengenalan ucapan, tanpa direpotkan dengan pelatihan data
kosakata yang begitu besar jumlahnya.
Sementara itu, bahasa Indonesia sampai saat ini belum diimplementasikan ke dalam
sistem pengenalan ucapan, tidak seperti bahasa negara maju. Ketertinggalan ini dapat
dimengerti karena memang tingkat kesulitannya tinggi, baik dalam pengembangan
sistem pengenalan ucapan maupun ketersediaan data dan struktur bahasa itu sendiri.
Walaupun demikian, tidaklah perlu berpangku tangan, berbagai langkah untuk
pengembangan sekecil apapun dalam upaya meningkatkan kualitas bahasa akan
berdampak positif secara luas pada bidang lain.
Oleh karena itu, peneliti mulai menerapkan wacana penelitian di bidang sistem
pengenalan ucapan bahasa Indonesia dimulai dari titik awal dengan melihat aspek
pemetaan fonem seperti yang dilakukan oleh Kumar dengan memodifikasi pendekatan
bootstrapping. Disamping itu, hal ini sangat sesuai dengan kondisi bahasa Indonesia
yang belum menyiapkan data fonem dan data pelatihan khusus untuk sistem
pengenalan ucapan bahasa Indonesia.
1.1. Perumusan MasalahPenelitian ini termasuk pada Kelompok Penelitian Intelijensi Buatan dan Sistem
Pakar. Bidang ilmu yang erat terkait pada penelitian ini diantaranya adalah Pengolahan
Sinyal Digital, Sistem Kendali, Statistika dan Linguistik.
Penelitian ini akan mengkaji masalah-masalah yang berhubungan dengan
pengembangan sistem pengenalan ucapan dengan obyek Bahasa Indonesia
menggunakan pendekatan bootstrapping. Masalah-masalah tersebut adalah sebagai
berikut :
1. Bagaimana mengembangkan secara cepat prototipe suatu sistem pengenalan
ucapan Bahasa Indonesia dengan memanfaatkan sistem pengenalan ucapan
Bahasa Inggris yang sudah ada.
2. Bagaimana merancang pemetaan antara fonem Bahasa Indonesia dengan
fonem Bahasa Inggris.
3. Bagaimana merancang algoritma penyesuaian akibat perbedaan fonem Bahasa
Indonesia dan Bahasa Inggris untuk membangun notasi fonem Bahasa
Indonesia.
1.2. Tujuan PenelitianPenelitian ini mempunyai tujuan sebagai berikut :
1. Agar terbangunnya prototipe sistem pengenalan ucapan bahasa Indonesia
menggunakan pendekatan bootstrapping yang dimodifikasi untuk penyesuaian
pemetaan antara fonem Bahasa Indonesia dengan fonem Bahasa Inggris.
2. Tercapainya hasil pengujian yang memenuhi kriteria “baik” terhadap algoritma
penyesuaian untuk menyelaraskan notasi fonem hasil pemetaan menjadi notasi
fonem Bahasa Indonesia baku.
1.3. Batasan PenelitianPenelitian ini dibatasi pada beberapa spesifikasi yang dijekaskan berikut ini.
1. Sistem pengenalan ucapan Bahasa Inggris yang diadaptasikan berupa paket
program berbasiskan open source.
2. Pengembangan sistem pengenalan ucapan Bahasa Indonesia mengacu pada
kaidah Bahasa Indonesia baku.
3. Fonem Bahasa Indonesia mengacu pada kamus Bahasa Indonesia dan kamus
terjemahan Bahasa Indonesia – Inggris.
4. Fonem Bahasa Inggris mengacu pada International Phonetic Alphabet (IPA).
Prototipe sistem pengenalan ucapan yang dibangun hanya ditujukan sampai pada
notasi fonem Bahasa Indonesia.
2. TINJAUAN PUSTAKABagian ini menjelaskan tentang konsep sistem pengenalan ucapan, beberapa
masalah penting pada pengenalan ucapan dan penelitian pengembangan sistem
pengenalan ucapan yang dijadikan sebagai acuan untuk penelitian ini.
2.1. Konsep Sistem Pengenalan Ucapan Pengenalan Ucapan yang dimaksudkan disini dalam istilah bahasa Inggris
adalah Speech Recognition. Pengenalan Ucapan merupakan suatu proses dimana
suatu komputer atau suatu jenis mesin mampu mengidentifikasi kata yang diucapkan
seseorang. Gambaran mudahnya, seperti layaknya seseorang berbicara dengan
komputer dan komputer mampu mengenali apa yang sedang dikatakannya.
Pada umumnya, Sistem Pengenalan dan Sintesis Ucapan dibentuk dengan proses
seperti tampak pada Gambar 1 berikut ini [11].
Gambar 1. Model Sistem Pengenalan dan Sintesis Ucapan
Gambar disadur dari [11]
Gambar 1 menjelaskan adanya hubungan antara dua entitas yaitu manusia dan
komputer. Manusia mengucapkan suatu kata, kemudian dilakukan proses Recognition.
Proses Recognition mengubah ucapan manusia, dalam hal ini Speech, menjadi
bentuk yang dimengerti oleh komputer dan menghasilkan suatu data berupa Text. Text
ini belum memberikan pengertian sehingga diperlukan proses berikutnya yaitu
Understanding. Proses inilah yang menganalisis Text menjadi sesuatu yang memiliki
arti secara simantik.
Proses Synthesis membangkitkan suara sintetik hasil dari pengolahan komputer.
Proses ini memerlukan bahan Text yang biasanya hasil pengembangan dari
pengetahuan, dalam hal ini Meaning, yang telah disiapkan sebelumnya oleh manusia.
Proses Synthesis pada umumnya lebih mudah dibanding proses Recognition. Seperti
yang diungkapkan [1,12].
Lebih mendalam, proses Pengenalan Ucapan diselesaikan melalui beberapa tahap
seperti tampak pada Gambar 2 berikut ini [11].
Gambar 2. Proses Pengenalan Ucapan
Gambar disadur dari [11]
Pada Gambar 2, Speech Signal direkam oleh komputer. Hasil rekaman sinyal ini
dianalisis oleh proses Representation. Analisis representasi disesuaikan dengan data
referensi yang telah disiapkan sebelumnya pada Training Data. Penyesuaian ini
dilakukan dengan berbagai metode normalisasi dan filter agar dapat diperoleh hasil
yang mempunyai format yang sama dengan Training Data. Hasil Representasi
kemudian dibandingkan pada proses Search dengan data dari Training Data dengan
menerapkan beberapa model, baik hanya satu model atau gabungan beberapa model
dari Acustic, Lexical atau Language Model. Proses perbandingan ini ditujukan untuk
memilih “Kata” yang paling mendekati tepat (Recognized Words). Keseluruhan proses
pada Gambar 2 tersebut akan diulang untuk mengolah ucapan berikutnya.
Khusus pada bagian Training Data, data perlu disiapkan sebelum adanya implementasi
dari Sistem Pengenalan Ucapan. Proses yang digunakan untuk menyediakan data
dilakukan dengan pengumpulan data. Tidak sekedar dikumpulkan saja, namun juga
dilakukan proses pelatihan agar didapat pengolahan data yang cepat dalam
pencariannya. Pelatihan dilakukan dengan menerapkan Jaringan Syaraf Tiruan.
Secara teknis, Sistem Pengenalan Ucapan dapat dijabarkan menggunakan contoh
seperti pada Gambar 3 berikut [11].
Gambar 3. Contoh Penjabaran Teknis Sistem Pengenalan Ucapan
Gambar disadur dari [11]
Sumber sinyal yang berasal dari ucapan seseorang, dinyatakan sebagai Speech Waveform pada Gambar 3. Sumber sinyal ini kemudian dicari ciri pentingnya yang
dapat membedakan antara satu sinyal dengan sinyal lain. Pengungkapan ciri dilakukan
dengan pengolahan sinyal.
Terdapat banyak cara dalam melakukan pengolahan sinyal untuk pengungkapan ciri,
diantara yang terkenal adalah :
Mel Frequency Cepstral Coefficients (MFCC). Analisis Transformasi Fourier
menghasilkan frekuensi diskrit terhadap waktu dan dapat ditampilkan
gambarnya. Biasanya nilai frekuensi dinyatakan menggunakan skala Mel,
dimana skala skala ini linier untuk rentang dibagian yang rendah dan berbentuk
logaritmik pada rentang bagian tinggi. Hal ini sesuai dengan karakteristik
pendengaran manusia. Koefisien Sepstral frekuensi-Mel inilah yang dijadikan ciri.
Linear Predictive Coding (LPC). Cara ini menghasilkan koefisien dari persamaan
linier yang memperkirakan nilai data ucapan beberapa saat terakhir. Vektor
koefisien inilah yang dijadikan ciri.
Hasil dari pengolahan dan analisis sinyal adalah deretan vektor ciri ucapan, dinyatakan
sebagai spectral feature vector pada Gambar 3. Vektor-vektor ini dilatih
menggunakan Jaringan Syaraf Tiruan. Pelatihan dimaksudkan agar pemrosesan vektor
dapat dilakukan dengan cepat. Hasil dari pelatihan berupa deretan fonem-fonem yang
membentuk data ucapan. Pemodelan fonem ini menggunakan model akustik Hidden
Markov Model (HMM).
Proses pencarian kesamaan data fonem dilakukan dengan menggunakan Grammar N-Gram dan dikodekan kembali menggunakan algoritma Viterbi. Proses ini melihat nilai
total penjajaran terbaik. Dari penjajaran ini diperoleh deretan kata yang terpilih dan
diasumsikan yang paling benar, tampak hasil “I need a” pada Gambar 3.
2.2. Masalah-Masalah Penting Pada Sistem Pengenalan UcapanPada kenyataannya, Sistem Pengenalan Ucapan sampai saat ini masih perlu
meningkatkan beberapa hal guna memperbaiki kinerjanya, terutama masalah akurasi.
Dalam thesis [13] disebutkan beberapa masalah mengapa sulit menigkatkan akurasi.
Masalah tersebut dijelaskan sebagai berikut.
1. Semakin besar ukuran kosakata, semakin tinggi kesalahan dalam pengenalan
ucapan. Sebagai contoh, 10 digit dari “nol” sampai “sembilan” dapat dengan
mudah dikenali [14]. Tetapi dengan meningkatnya ukuran vocabulary menjadi
200, 5000, atau 100000 maka bisa terjadi rata-rata kesalahan 3%, 7%, atau 45%
[15,16,17]. Sementara itu, setiap bahasa mempunyai huruf ketika diucapkan sulit
untuk dibedakan. Sebagai contoh huruf C, D, J dalam kasus Bahasa Indonesia.
2. Tingkat ketergantungan kepada pembicara. Sistem pengenalan ucapan Speaker
Dependence hanya ditujukan untuk pembicara tunggal. Sedangkan Speaker
Independence ditujukan untuk siapapun. Jenis Speaker Independence sulit
untuk dilakukan karena parameter suatu sistem pengenalan ucapan biasanya
dilatih menggunakan Speaker tertentu, yang sangat spesifik ucapannya. Hasil
penelitian [18] menunjukkan bahwa Speaker Independence mempunyai
kesalahan rata-rata 3 sampai 5 kali lebih besar dibanding Speaker Dependence.
3. Penggalan ucapan. Isolated Speech berarti ucapan kata tunggal. Discontinuous
Speech berarti satu kalimat penuh tetapi kata dipilah berdasarkan keadaan diam
(silence). Continuous Speech berarti ucapan kalimat secara alamiah. Isolated
dan Discontinuous Speech relatif lebih mudah karena penggalan kata dapat
dikenali dan kata per kata dapat diucapkan lebih “bersih”. Sedangkan
Continuous Speech lebih sulit dilakukan karena tidak diketahui penggalan kata
dan juga dipengaruhi oleh artikulasi gabungan kata.
4. Persyaratan bahasa. Berbagai pekerjaan sulit untuk dilakukan bilamana tidak
memenuhi syarat-syarat penggunaan bahasa. Termasuk didalamnya adalah
Sintaks, Simantik dan Grammarnya. Sebagai contoh, query terhadap jasa
penerbangan dengan pernyataan ‘Pesawat itu berwarna merah’, diterima oleh
Sintaks, Simantik maupun Grammar. Sedangkan pernyataan ‘Pesawat itu
sedang marah’, diterima Sintaks dan Grammar tetapi ditolak oleh Simantik.
Sehingga, semua struktur bahasa perlu ditinjau dalam membangun sistem
pengenalan ucapan.
5. Ucapan Spontanitas. Sistem pengenalan ucapan dapat ditinjau dari pembicara
yang sedang membaca skrip atau berbicara secara spontan. Pembicaraan
spontan seperti emm, uh, e dan lain-lain, lebih sulit dikenali.
6. Kondisi lingkungan. Kinerja sistem pengenalan ucapan dapat juga diuji melalui
lingkungan alamiah yang terdapat banyak interferensi, derau dan lain-lain.
Sehingga usaha untuk dapat mengenali ucapan dari pembicara yang
dimaksudkan dengan suara bersih telah banyak diteliti dengan berbagai metode.
Diantaranya, penghilangan derau, penggandaan mikrofon, pembatasan lebar
pita frekuensi, dan perubahan gaya ucapan.
Bahkan [19] menyebutkan kelemahan Sistem Pengenalan Ucapan yang mendasar,
yaitu bahasa pembicaraan akan lebih efektif bila digunakan antar manusia dan akan
mempunyai banyak kekurangan bila diterapkan pada interaksi antara manusia dengan
komputer. Hal ini diakibatkan oleh lambatnya komputer merepresentasikan informasi
dan sulitnya melakukan review dan edit. Sehingga perancangan Sistem Pengenalan
Ucapan harus mengerti tentang acustic memory dan prosody.
2.3. Penelitian AcuanPenelitian yang akan dilakukan penulis mengacu pada metode pengembangan
sistem pengenalan ucapan standar yang secara umum banyak digunakan pada
berbagai penelitian sebelumnya, seperti telah dijelaskan pada Subbab 3.1. Tahap
pertama adalah penyediaan Data Terlatih yang dijadikan referensi untuk proses
perbandingan sesuai dengan Model Data yang digunakan. Tahap kedua adalah
penentuan Model Akustik, Model Bahasa dan Model Lainnya yang digunakan dalam
persyaratan bahasa. Tahap ketiga adalah proses perbandingan antara ucapan yang
diolah terhadap Data referensi menggunakan ciri-ciri Model yang diterapkan. Hasil yang
diharapkan adalah kata yang diucapkan seseorang dapat dikenali dengan benar
berdasarkan Data referensi yang ada.
Penelitian yang akan penulis lakukan menggunakan teknik-teknik yang dilakukan pada
penelitian Kumar. Kumar bersama dua rekannya meneliti tentang pengembangan Large
Vocabulary Continuous Speech Recognition System (LVCSR) untuk bahasa India [9].
Para peneliti ini mempunyai kerangka penelitian sebagai berikut :
Pemodelan Akustik dilakukan dengan mengadopsi data Phone Set bahasa
Inggris yang terdapat di International Phonetic Alphabet (IPA) untuk pemodelan
Phone Set bahasa India menggunakan pendekatan Bootstrapping.
o Bootstrapping dilakukan dengan penjajaran data ucapan bahasa tujuan.
Ide baru yang dimunculkan berbentuk modifikasi Bootstrapping, yaitu
dilakukan dengan menambahkan lexeme context comparator dengan
tujuan supaya data ucapan bahasa tujuan yang mempunyai fonem yang
mirip dan mempunyai arti berbeda dapat diketahui bedanya dengan jelas.
Konsep ini tampak pada Gambar 4.
Gambar 4. Penjajaran Data Bahasa Tujuan
Gambar disadur dari [9]
o Pemetaan fonem didefinisikan menggunakan pengetahuan linguistik dari
kedua bahasa. Pemetaan ini dibagi ke dalam 3 kategori. Kategori
pertama, Pemetaan Tepat (exact mapping) untuk kondisi kedua bahasa
mempunyai fonem yang benar-benar sama. Kategori kedua,
Penggabungan (Merging) untuk kondisi beberapa fonem bahasa tujuan
mempunyai suara berasal dari beberapa fonem bahasa sumber. Kategori
ketiga, Aproksimasi untuk kondisi beberapa fonem bahasa tujuan sama
sekali tidak terdapat didalam fonem bahasa sumber.
Peningkatan kinerja pemetaan dilakukan dengan metode pengukuran kesamaan
fonetik. Hal ini dilakukan dengan mengukur jarak diantara fonem-fonem yang
terdapat didalam domain MFCC dengan rumus sebagai berikut.
dimana vi menyatakan vektor MFCC 24-Dimensi yang dimiliki oleh dan m adalah
rata-rata vektor yang bersesuaian dengan Lihat Gambar 4 untuk mengetahui
arti simbol-simbol pada rumus ini.
Pemodelan Bahasa dilakukan dengan membuat Bentuk Dasar bahasa
(Baseform) dengan teknik pendekatan Hybrid yang menggabungkan pendekatan
Basis Aturan (Rule-Based) dan pendekatan Statistik.
o Pendekatan Berbasis-Aturan digunakan untuk membuat semua
kemungkinan Bentuk Dasar kata. Penelitian ini menerapkannya pada
kasus aturan yang sederhana dan mudah diturunkan tanpa pengetahuan
linguistik yang mendalam.
o Pendekatan Statistik digunakan untuk menyelesaikan kasus aturan yang
kompleks dan kasus yang terdapat keraguan didalamnya.
Percobaan dilakukan dengan beberapa parameter sebagai berikut.
o 24-Dimensi MFCC sebagai vektor ciri dari data ucapan. 4 vektor sebelum
dan sesudah vektor MFCC digabungkan dan vektor yang digabungkan ini
dianalisis menggunakan Linear Discriminant Analysis (LDA) agar dimensi
vektor ciri dapat diturunkan dari 24x9 menjadi 60 dimensi.
o Model akustik diterapkan menggunakan Hidden Markov Model (HMM).
o Model akustik telah dilatih selama lebih dari 200 jam dan menggunakan
data ucapan lebih dari 500 pembicara.
o Sistem pengenal ucapan yang digunakan adalah ViaVoice dari IBM.
o 12350 kata dibuat oleh ahli bahasa. Sebanyak 11510 kata digunakan
untuk pelatihan dan 840 kata untuk pengujian sistem.
Hasil yang diperoleh dari penelitian tersebut adalah sebagai berikut :
Pemetaan yang telah dimodifikasi menghasilkan peningkatan relatif 13% pada
kecepatan klasifikasi.
Penambahan Lexeme-Context Comparator mempercepat pembuatan data label
untuk bahasa tujuan. Dibuktikan hasilnya dengan peningkatan rata-rata
klasifikasi sebesar 23,82% dibanding tanpa Lexeme-Context Comparator.
Pada pembuatan Bentuk Dasar, pendekatan statistik (85,38%) memberikan
peningkatan lebih besar dibanding pendekatan Berbasis-Aturan (68,51%).
Salah satu kelebihan utama yang dihasilkannya sesuai dengan arah penelitian ini
adalah peningkatan kecepatan dalam penyediaan model fonem, yang dilakukan
dengan modifikasi pendekatan Bootstrapping. Hal ini sangat sesuai untuk bahasa-
bahasa baru yang belum mempunyai Training Data dan data Fonem khusus untuk
sistem pengenalan ucapan, termasuk bahasa Indonesia.
Melihat kenyataan bahwa hasil penelitian tersebut memberikan peningkatan kinerja
sistem pengenalan ucapan, maka penulis mengadopsi teknik-teknik yang digunakan
sesuai dengan Batasan Penelitian yang dijelaskan pada Subbab 2.3.
3. METODE PENELITIANPada bab ini akan dijelaskan tentang kerangka penelitian, modifikasi
bootstrapping yang diajukan, metodologi penelitian dan penurunan topik penelitian
strata satu yang akan digunakan.
3.1. Kerangka PenelitianKerangka penelitian yang akan penulis gunakan disesuaikan dengan metode
penelitian acuan. Perbedaan yang ada tampak pada Gambar 5 berikut.
Gambar 5. Perbedaan Kerangka Penelitian
Pada Gambar 5, kolom kiri merupakan rangkuman dari kerangka penelitian Kumar yang
dijadikan sebagai acuan untuk penelitian penulis. Kolom tengah merepresentasikan
kembali metodologi pengenalan ucapan yang umum banyak digunakan oleh para
peneliti. Kolom kanan merupakan kerangka rencana penelitian yang akan penulis
lakukan.
Gambar 5 menjelaskan bahwa perbedaan kerangka penelitian terjadi pada bagian
Ucapan, Data Pelatihan dan Bootstrapping. Ketiga bagian ini menerapkan obyek
bahasa yang berbeda. Penelitian acuan menerapkan bahasa India, sedangkan
penelitian yang diajukan penulis menggunakan obyek bahasa Indonesia. Disamping itu,
penulis menyederhanakan kerangka penelitian yang akan dilakukan, dengan
menghilangkan tahap Model Bahasa, dengan asumsi bahwa sistem pengenalan
ucapan berbahasa Indonesia relatif belum ada, sehingga berbagai data pendukung
pengenalan ucapan sangatlah terbatas. Hal ini dapat diperkirakan bahwa pengadaan
data pendukung menjadikan perjalanan penelitian ini sangat panjang waktunya jika
dilakukan semua tahapan yang ada.
3.2. Modifikasi BootstrappingKontribusi yang dijadikan ide baru untuk penelitian ini, yang akan penulis ajukan,
mengarah pada modifikasi pendekatan bootstrapping dengan penjajaran notasi fonem
Bahasa Indonesia. Bentuk modifikasi ini tampak pada Gambar 6 berikut.
Gambar 6. Modifikasi Pendekatan Bootstrapping
Gambar 6 menjelaskan bahwa kosakata Bahasa Indonesia yang perlu disiapkan
sebelumnya akan dilakukan pemetaan. Pemetaan didasarkan pada unit bunyi
pengucapan terkecil yaitu fonem. Pemetaan ini dilakukan dengan melihat hubungan
fonem satu-satu dan satu-banyak antara fonem Bahasa Indonesia ke Bahasa Inggris.
Hasil pemetaan digunakan sistem pengenalan ucapan untuk diolah menggunakan
produk pengenal ucapan Bahasa Inggris yang sudah ada di pasaran global berbasiskan
open source.
Selanjutnya, Ucapan Bahasa Indonesia yang dikeluarkan oleh mulut manusia akan
diolah bersama data pemetaan oleh Sistem Pengenal Ucapan Bahasa Inggris. Hasil
dari Sistem Pengenal Ucapan Bahasa Inggris berupa data notasi fonem terjajar Bahasa
Indonesia. Jika terdapat data terjajar yang mempunyai keraguan, baik pengucapan
sama tetapi label berbeda maupun pengucapan berbeda tetapi label sama, maka diolah
oleh bagian Klasifikasi. Bagian ini mengidentifikasi perlu tidaknya label dipilih sesuai
dengan konteks kata yang diucapkan. Proses klasifikasi dilakukan dengan pendekatan
statistik. Peluang terbesar kemunculan data terjajar yang terpilih, akan memperoleh
prioritas utama. Informasi peluang diambil dari Data Klasifikasi. Data klasifikasi
diperlukan untuk menampung secara historis data terjajar yang terpilih.
3.3. Metodologi PenelitianSecara khusus, metodologi penelitian yang diterapkan pada penelitian ini
ditampilkan pada Gambar 7 berikut ini.
Gambar 7. Metodologi Penelitian
Tahap Identifikasi digunakan untuk mengumpulkan data dan menentukan kriterianya.
Tahap ini dilakukan dengan melakukan eksplorasi beberapa hal sebagai berikut :
Standar Fonem Bahasa Inggris yang ada, termasuk International Phonetic
Alphabet (IPA) dan WordNet yang mengacu pada karakter ASCII.
Standar Fonem bahasa Indonesia berdasarkan beberapa jenis kamus bahasa
Indonesia dan sumber informasi dari Masyarakat Linguistik Indonesia (Linguistic
Indonesian Society).
Sistem Pengenalan Ucapan berbasis open-source. Saat ini, sistem yang akan
digunakan telah diprioritaskan pada produk Pengenal Ucapan, yaitu CMU Sphinx
Versi 3.5 dari Carnegie Mellon University.
Sumber data ucapan. Variasi data menggunakan kriteria umur dan jenis kelamin.
Disamping itu, data ucapan juga direncanakan akan diambil dari rekaman berita
radio dan televisi yang memenuhi pengucapan kata yang baik. Pemilihan berita
disesuaikan dengan topik domain sederhana yang akan ditentukan kemudian.
Tahap Klasifikasi digunakan untuk menentukan “kelas” fonem Bahasa Indonesia
dengan pendekatan statistik. Kelas fonem ini akan digunakan untuk mengelompokkan
jenis-jenis fonem berdasarkan artikulasinya, yaitu konsonan, vokal, harakat dan gaya
pengucapan (narasi). Pengelompokan ini juga dilakukan untuk fonem Bahasa Inggris
berdasarkan jenis kelompok dari pemetaan. Tahap ini juga digunakan untuk merancang
Data Klasifikasi awal yang digunakan pada modifikasi Bootstrapping proses penjajaran
bagian Klasifikasi dari Gambar 7.
Tahap Pemetaan Fonem melakukan pembuatan peta fonem bahasa Indonesia
ke fonem bahasa Inggris. Pada tahap ini, akan dicari keterhubungan setiap fonem yang
ada, baik hubungan satu-satu dan satu-banyak. Metode yang digunakan untuk
melakukan pemetaan mengacu pada metode pemetaan penelitian acuan, yaitu
Pemetaan Tepat, Penggabungan dan Aproksimasi. Pemetaan Tepat diterapkan bila
terdapat fonem yang sama persis dari kedua bahasa Inggris dan Indonesia.
Penggabungan diterapkan bila fonem Bahasa Indonesia berasal dari gabungan
beberapa fonem Bahasa Inggris. Aproksimasi diterapkan bila fonem Bahasa Indonesia
tidak terdapat pada fonem Bahasa Inggris.
Tahap Penyesuaian diperlukan untuk melihat kembali apakah hasil Pemetaan
Fonem sudah memenuhi kriteria yang diharapkan. Jika ditemukan kekurangan, maka
perlu diubah kembali dan disesuaikan dengan klasifikasi yang ditentukan pada tahap
sebelumnya dari proses Klasifikasi kemudian dipetakan kembali pada proses Pemetaan
Fonem.
Tahap Klasifikasi, Pemetaan Fonem dan Penyesuaian akan memerlukan
bantuan tenaga ahli bidang Ilmu Linguistik yang mempunyai kompetensi bidang Bahasa
Indonesia skala nasional. Keterlibatan tenaga ahli ini sangat diperlukan terutama pada
kegiatan perancangan fonem Bahasa Indonesia. Sampai saat ini belum ditemukan
tenaga ahli yang bersedia secara intensif membantu penelitian ini.
Tahap Pengujian melakukan beberapa hal sebagai berikut :
1. Ujicoba terhadap hasil pemetaan dengan melihat tingkat kemiripannya. Tingkat
kemiripan diukur dengan Teknik Pengukuran-Jarak antar fonem yang
dibandingkan pada domain MFCC. Teknik pengukuran ini mengadopsi cara yang
digunakan pada penelitian acuan menggunakan Rumus Jarak yang dijelaskan
pada Sub bab 3.3.
2. Penerapan pemetaan fonem yang dihasilkan pada penelitian ini akan
diujicobakan ke sistem pengenalan ucapan berbasis open-source untuk melihat
apakah hasil penelitian ini memberikan kontribusi yang memadai atau tidak,
terutama dalam hal peningkatan akurasi.
3. Melibatkan pihak sumber data kosakata, terutama pembicara. Direncanakan
pada penelitian ini akan menyewa tenaga pengucap kosakata sebanyak 20
orang dari berbagai tingkat usia dan jenis kelamin yang berbeda. Juga, akan
diujicobakan dengan menggunakan sumber data kosakata dari pembawa berita
hasil rekaman media elektronik.
4. Menerapkan pelatihan data dengan menggunakan jaringan syaraf tiruan.
5. Ujicoba terhadap metode yang diajukan pada modifikasi pendekatan
bootstrapping, baik menggunakan proses Klasifikasi maupun tidak dengan tujuan
agar diperoleh hasil apakah modifikasi yang diajukan memberikan penjajaran
yang lebih baik atau tidak.
Hasil pengujian menentukan apakah perlu atau tidak melakukan perbaikan
terhadap rancangan pemetaan yang telah dilakukan. Jika tidak terdapat peningkatan
kinerja, maka akan dicari dimana letak kekurangannya, sehingga perlu melihat kembali
Tahap Klasifikasi, Pemetaan Fonem dan Penyesuaian untuk dilakukan perbaikan.
3.4. Topik Penelitian Strata SatuBersumber pada metodologi penelitian yang akan dilakukan, dapat diturunkan
beberapa topik penelitian untuk memberikan peluang bagi mahasiswa Strata Satu
Jurusan Sistem Komputer yang dapat digunakan sebagai topik skripsi. Hasil penurunan
topik ini tercantum pada tabel berikut.
Tabel 1. Topik Penelitian S1
No Bagian
Metodologi
Topik Penelitian
1 Klasifikasi Karakterisasi Akustik Fonem Bahasa Indonesia Baku
2 Pemetaan Fonem Algoritma Penjajaran pada Pendekatan
Bootstrapping Termodifikasi
3 Pemetaan Fonem Pengukuran Beda-Jarak Akustik pada Pemetaan
Fonem Bahasa Indonesia Baku ke Fonem Bahasa
Inggris
4 Pengujian Pengukuran Kecepatan Pengolahan Fonem
Menggunakan Jaringan Syaraf Tiruan
Sebenarnya, penurunan metodologi penelitian dapat dilakukan secara menyeluruh,
tetapi akan muncul ketidak-sesuaian terhadap bidang ilmu Sistem Komputer, seperti
bagian Identifikasi yang berkonsentrasi pada bidang Ilmu Linguistik. Masalah ketidak-
sesuaian ini akan ditangani secara langsung oleh Tim Peneliti bersama tenaga ahli
bidang Ilmu Linguistik dan tidak disediakan untuk penelitian Mahasiswa S1 Jurusan
Sistem Komputer.
4. INDIKATOR KINERJA
Indikator keberhasilan dari penelitian ini dilihat dari dua hal sebagai berikut :
1. Seberapa dekatnya jarak akustik fonem yang dipetakan dari fonem Bahasa
Indonesia ke fonem Bahasa Inggris. Rumus jarak yang digunakan sama dengan
rumus yang dijelaskan pada Subbab 3.3.
2. Seberapa tingginya peningkatan kecepatan relatif proses pemetaan, baik
menggunakan tambahan proses hasil modifikasi yang diajukan (proses
Klasifikasi pada Gambar 6) maupun tidak.
5. KONSIDERAN PERCOBAAN
Konsideran percobaan yang akan digunakan untuk penelitian ini adalah sebagai
berikut.
1. Data ucapan diperoleh dari 20 orang dengan variasi umur antara 20 sampai 55
Tahun dan variasi jenis kelamin, pria dan wanita.
2. Ciri fonem diungkapkan dengan mengambil besaran MFCC 24-dimensi.
3. Pelatihan data menerapkan Jaringan Syaraf Tiruan.
4. Kemiripan dan Perbedaan antar fonem dilihat menggunakan Rumus Jarak pada
domain frekuensi.
5. Sistem Pengenalan Ucapan bahasa Inggris yang akan digunakan adalah CMU
Sphinx Versi 3.5 dari Carnegie Mellon University dengan tingkat akurasi diatas
90%.
6. Perancangan fonem Bahasa Indonesia dan pemetaannya ke Bahasa Inggris
melibatkan tenaga ahli bidang Linguistik yang memiliki kompetensi skala
nasional.
7. Pengembangan data klasifikasi berdasarkan domain sistem pengenal ucapan.
Domain yang akan digunakan adalah Teknologi Informasi.
Proses klasifikasi diterapkan menggunakan pendekatan statistik dengan melihat bobot
probabilitas kata yang diucapkan pada domain Teknologi Informasi.
6. JADUAL KEGIATAN
Waktu pelaksanaan penelitian disesuaikan dengan persyaratan yang ditetapkan oleh
TPSDP. Tahap pelaksanaan kegiatan penelitian dirinci pada diagram berikut.
Gambar 8. Diagram Jadual Kegiatan Penelitian
7. TIM PENGUSULKetua Peneliti
Nama : Lintang Yuniar Banowosari, Skom., MSc.
Tanggal Lahir : 3 Juni 1968
Jabatan Struktural : Staf Pengajar
Jabatan Fungsional : Lektor
Jurusan : Sistem Komputer
Fakultas : Ilmu Komputer
Alamat Kantor : Jl. Margonda Raya No.100 Depok 16424
Telp Kantor : 021-78881112 ext 309/477
Email : [email protected]
Alamat Rumah : Perumahan Taman Puspa Kav.72 Pasir Gunung Selatan
Cimanggis Depok 16951
Anggota Peneliti 1
Nama : Nurul Huda, Skom., MT.
Tanggal Lahir : 21 Februari 1969
Jabatan Struktural : Kepala Laboratorium Menengah
Jabatan Fungsional : Asisten Ahli
Jurusan : Sistem Komputer
Fakultas : Ilmu Komputer
Alamat Kantor : Jl. Margonda Raya No.100 Depok 16424
Telp Kantor : 021-78881112 ext 477
Email : [email protected]
Alamat Rumah : Jl. Pancoran Barat VII No.34 Rt 8 Rw 6 Durentiga Jakarta Selatan
Anggota Peneliti 2
Nama : Wahyu Kusuma Raharja, ST., MT.
Tanggal Lahir : 12 April 1973
Jabatan Struktural : Wakil Kepala Laboratorium Menengah
Jabatan Fungsional : Asisten Ahli
Jurusan : Sistem Informasi
Fakultas : Ilmu Komputer
Alamat Kantor : Jl. Akses UI Kelapa Dua Depok
Telp Kantor : 021-8727541 ext 505
Email : [email protected]
Alamat Rumah : Puri Bojong Lestari Blok CR 12 Bojong Gede Bogor 16921
8. RANCANGAN BIAYAPenelitian ini memerlukan dana sebesar Rp. 29.700.000,- dengan jumlah biaya setiap komponen
sebagai berikut :
1
.
Honor Peneliti Rp. 8.700.000,- 29.29 %
2
.
Peralatan dan
Bahan
Rp. 14.870.000,- 50.00 %
3
.
Survei dan Studi
Pustaka
Rp. 1.840.000,- 6.19 %
4
.
Laporan Rp. 2.030.000,- 6.84 %
5
.
Seminar Rp. 2.260.000,- 7.61 %
Rincian biaya secara lengkap dijelaskan pada tabel berikut.
Tabel 2. Rincian Biaya Penelitian
No Uraian Satuan
Jumlah
Satuan
Harga Satuan
(Rupiah)
Jumlah Harga
(Rupiah)
Sub-
Total
(Rupiah)
A Honor Peneliti
1 Ketua Peneliti Bulan 12 275.000 3.300.000
2 Anggota Peneliti 1 Bulan 12 225.000 2.700.000
3 Anggota Peneliti 2 Bulan 12 225.000 2.700.000
8.700.000
B Peralatan dan Bahan
4 Pengadaan Data Set 20 150.000 3.000.000
5 Komputer Personal Set 1 4.500.000 4.500.000
6 Sistem Pengenal Ucapan
Bahasa Inggris Acuan
Paket 1 2.500.000 2.500.000
7 Kartu Pengolah Sinyal
Digital
Set 1 2.500.000 2.500.000
8 Mikrofon Pengenal Ucapan Set 1 450.000 450.000
9 ATK Paket 1 250.000 250.000
10 CDRom Kosong Keping 50 4.000 200.000
11 Toner Printer Set 1 750.000 750.000
12 Kertas Rim 9 30.000 270.000
13 Transparansi Lembar 200 2.250 450.000
14.870.000
C Survei dan Studi Pustaka
14 Transportasi Trip 7 150.000 1.050.000
15 Komunikasi Paket 3 100.000 300.000
16 Konsumsi Trip 7 70.000 490.000
1.840.000
D Laporan
17 Pengolahan Data Set 20 20.000 400.000
18 Pencetakan Dokumen
Skripsi
Eks. 20 40.000 800.000
19 Pencetakan Slide Dokumen
Skripsi
Eks. 60 3.000 180.000
20 Laporan Kemajuan Eks. 10 25.000 250.000
21 Laporan Akhir Eks. 10 40.000 400.000
2.030.000
E Seminar
22 Sewa Komputer Unit 1 100.000 100.000
23 Sewa Proyektor Komputer Unit 1 300.000 300.000
24 Sewa Ruang Unit 1 400.000 400.000
25 Konsumsi Orang 100 5.000 500.000
26 Penggandaan Makalah Eks. 120 8.000 960.000
2.260.000
Jumlah Total 29.700.000
9. DAFTAR PUSTAKA[1] Blade Kotelly, The Art and Business of Speech Recognition: Creating the Noble Voice,
Addison Wesley, 2003.
[2] Asela Gunawardana, Alex Acero, Adapting Acoustic Models to New Domains and
Conditions Using Untranscribed Data, [Ref. 2002].
[3] Diego Giuliani, Marcello Federico, Unsupervised Language and Acoustic Model
Adaptation for Cross Domain Portability, [Ref. 2001].
[4] T. Schultz, A. Waibel, Experiments on Cross-Language Acoustic Modeling, [Ref. 2000].
[5] Tanja Schultz, Alex Waibel, Language Independent and Language Adaptive Acoustic
Modeling for Speech Recognition, [Ref. 2000].
[6] J. Kohler, Multi-Lingual Phoneme Recognition Exploiting Acoustic–Phonetic Similarities
of Sounds, Proceedings of the International Conference on Spoken Language Processing,
Atlanta, 1996, pp. 2195–2198.
[7] Klaus Ruggenmann and Iryna Gurevych, Assigning Domains to Speech Recognition
Hypotheses, 2004.
[8] S J Melnikoff, S F Quigley & M J Russell, Implementing a Simple Continuous Speech
Recognition System on an FPGA, Proceedings of the 10 th Annual IEEE Symposium on
Field-Programmable Custom Computing Machines (FCCM’02), 2002.
[9] M. Kumar, N. Rajput, A. Verma, A Large-Vocabulary Continuous Speech Recognition
System for Hindi, IBM Journal. Resource & Development. Volume. 48 No. 5/6
September/November 2004.
[10] M. C. Yuen and P. Fung, Adapting English Phoneme Models for Chinese Speech
Recognition, Proceedings of the International Conference on Spoken Language Processing,
Sydney, Australia, 1998, pp. 80 – 82.
[11] MIT Lecture Notes : Introduction to Automatic Speech Recognition, Lecture #1, Session
2003.
[12] Stephen Cook, Speech Recognition HOWTO, Rev 2.0, April 2002.
[13] Joe Tebelskis, Speech Recognition using Neural Networks, School of Computer Science
Carnegie Mellon University, May 1995.
[14] Doddington, G. Phonetically Sensitive Discriminants for Improved Speech Recognition. In
Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 1989.
[15] Itakura, F. Minimum Prediction Residual Principle Applied to Speech Recognition. IEEE
Trans. on Acoustics, Speech, and Signal Processing, 23(1):67-72, February 1975.
Reprinted in Waibel and Lee 1990.
[16] Miyatake, M., Sawai, H., and Shikano, K. Integrated Training for Spotting Japanese
Phonemes Using Large Phonemic Time-Delay Neural Networks. In Proc. IEEE
International Conference on Acoustics, Speech, and Signal Processing, 1990.
[17] Kimura, S. 100,000-Word Recognition Using Acoustic-Segment Networks. In Proc. IEEE
International Conference on Acoustics, Speech, and Signal Processing, 1990.
[18] Lee, K.F. Large Vocabulary Speaker-Independent Continuous Speech Recognition: The
SPHINX System. PhD Thesis, Carnegie Mellon University. 1988.
[19] Ben Shneiderman, the Limits of Speech Recognition, Communication Of The ACM
September 2000/Vol. 43, No. 9, 2000.