Upload
yuvarani-yuva
View
251
Download
0
Embed Size (px)
DESCRIPTION
korpus
Citation preview
KORPUS BAHASA :
Pangkalan Data, Pengumpulan
dan Pengelasan kata, Kata dan
Pengkomputeran
Ahli kumpulan :
Azhari Ahmad
Faizal Mokhtar
Mohd Sani Sojahan
Nik Samsuri Nik Shim
KORPUS BAHASA
Kamus Dewan Edisi Ketiga 1994 - korpus boleh ditakrifkan
sebagai “himpunan makalah” (tulisan dsb) mengenai
sesuatu
perkara tertentu atau kumpulan bahan untuk kajian.
Linguistik Moden - korpus ialah himpunan data-data mentah
yang bakal digunakan untuk kajian lingustik. Contohnya
adalah
seperti himpunan manuskrip dan teks bertulis yang lain.
KORPUS BAHASA
PANGKALAN DATA
Pangkalan Data Korpus (PDK) merupakan sebuah
pangkalan data yang dibangunkan hasil daripada
kerjasama antara Dewan Bahasa dan Pustaka
dengan Universiti Sains Malaysia (PDK DBP-USM)
pada tahun 1993.
PDK DBP-USM merupakan satu-satunya pangkalan
data korpus bahasa Melayu yang terdapat di
Malaysia yang menyimpan data korpus bahasa
Melayu dalam bentuk digital. PDK DBP-USM terdiri
daripada Sistem Korpus dan Data Korpus.
Data korpus bersumberkan bentuk tulisan atau lisan.
Bagaimanapun, usaha semasa program ini masih
tertumpu pada bahan tulisan daripada buku, majalah,
surat khabar, monograf, dokumen, kertas kerja, surat,
risalah dan sebagainya.
Setiap jenis wacana ini dikumpulkan dalam subkorpus
yang berasingan.
Saiz mutakhir (sehingga 25 November 2008) Pangkalan
Data Korpus adalah lebih kurang 135 juta perkataan
yang terkandung dalam sepuluh subkorpus seperti
yang berikut:
Bil Subkorpus Jumlah Semasa
Jenis Bahan
1. Buku 31,580,305
novel, buku ilmiah, buku umum, buku teks
2. Majalah 14,406,888 umum meliputi pelbagai bidang
3. Akhbar 80,029,34
7harian, tabloid,mingguan
4.Terjemahan (buku)
2,021,191 buku ilmiah, buku umum
5. Efemeral 290,207 risalah, brosur, iklan
6. Drama 404,176 drama yang dibukukan
7. Puisi 116,428 puisi yang dibukukan
8. Kad Bahan3,130,641
kad kutipan untuk penyusunan Kamus Dewan
9. Teks Tradisional
2,825,329Teks lama dalam bentuk hikayat,
cerita rakyat10.
Buku Teks 1,095,726Buku Teks Peringkat Rendah dan
Menengah
Pangkalan Data ini dibina dengan
tujuan untuk menyediakan data
penyelidikan yang dapat
dimanfaatkan untuk penyusunan kamus,
penyelidikan tatabahasa, dan bentuk-
bentuk kajian kebahasaan yang lain.
PENGUMPULAN DAN PENGELASAN KATA
Selepas selesai pengumpulan data, penyusun kamus
haruslah menjalankan kerja pengisihan dan
pengabjadan data.
Dalam prosedur ini, setiap kata yang telah dirakam
akan disusun mengikut abjad.
Ini boleh dilakukan secara manual atau dengan
penggunaan komputer. Data ini akan disimpan dalam
bank data untuk digunakan sebagai rujukan kelak.
Setelah selesai pengisihan entri, penyusun kamus akan
bergerak kepada prosedur seterusnya, iaitu pengolahan
data.
Pada peringkat ini penyusun kamus akan
mengklasifikasikan kepada yang ditemui ke dalam kata
baharu, kata yang lewah, kata yang jarang digunakan
(neologisme) dan kata yang mengalami perubahan makna.
Kata lewah akan dibuang dengan menggunakan
pendekatan semantik dan pragmatik, mendokumentasikan
kata neologisme, dan seterusnya mengambil kata-kata
baru dan kata-kata yang mengalami perubahan makna
pada peringkat “pemerian makna”.
Selepas itu penyusun akan membuang
kata-kata lewah,mendokumentasikan
neologisme dan mengambil kata-kata
baharu.
Pemberian makna ialah proses
menjelaskan makna sesuatu perkataan.
Penyusun kamus boleh menggunakan
pelbagai bahan rujukan yang sedia ada
seperti daftar istilah dan sebagainya untuk
mencari maksud sesuatu kata.
Pembutiran setiap medan maklumat secara
relatifnya berbeza antara satu kamus dengan yang
lain bergantung kepada tujuan kamus dihasilkan.
Medan maklumat bagi sebuah ekabahasa ialah
entri (kata masukan utama atau kata dasar),
subentri (kata terbitan), entri varian, subentri
varian,sebutan, etimologi, kelas kata, takrif,
contoh penggunaan, homonim,sinonim, antonim,
frasa dan ungkapan, simpulan bahasa dan
peribahasa,nama saintifik, label, angka penanda,
dan rujuk silang.
KATA DAN PENGKOMPUTERAN
Perancangan bahasa Melayu sebagai bahasa moden
diseiringkan juga dengan pemanfaatan teknologi
canggih, melalui program pengkomputeran.
Dua bentuk program yang dilaksanakan oleh Dewan
Bahasa dan Pustaka. Yang pertama ialah pembinaan
prasarana atau sistem untuk penyelidikan bahasa
Melayu, sementara yang kedua ialah penyelidikan
dalam bidang linguistik korpus dan linguistik
komputeran.
Setakat ini sebuah korpus bahasa Melayu dengan
saiz 70 juta patah kata daripada pelbagai teks
(akhbar, buku, novel, majalah) telah dibina untuk
kegunaan penyelidik bahasa di dalam dan di luar
negara.
Di peringkat kerjasama serantau, melalui
MABBIM, telah mula diusahakan pembinaan
Gerbang Bahasa Melayu/Indonesia pada WWW.
Gerbang atau portal tersebut akan menjadi wadah
bagi segala kemudahan untuk pengajaran,
pemelajaran, penyebaran dan penelitian bahasa
Melayu.
Di peringkat antarabangsa, Dewan Bahasa
dan Pustaka telah mula menyertai projek
Universal Networking Language Pertubuhan
Bangsa Bersatu.
Projek ini tertumpu pada usaha menakrifkan
suatu bahasa interlingua yang dapat
digunakan untuk mengekodkan teks dalam
sesuatu bahasa supaya teks tersebut dapat
dibaca dalam pelbagai bahasa di Internet.
Dijangka bahawa projek ini dapat meluaskan
penyebaran bahasa Melayu di mata dunia.
Pemanfaatan Teknologi Maklumat dan
Komunikasi telah dimulakan dengan Projek Karya
Net, penerbitan pelbagai karya ilmu, pedoman
bahasa dan karya kreatif dalam bentuk digital dan
pengajaran bahasa dan persuratan Melayu melalui
talian (Internet).
Dewan Bahasa dan Pustaka dengan kerjasama
pelbagai pihak sedang memperbanyak perisian
komputer dan karya dalam bentuk digital dan
elektronik dalam bahasa Melayu untuk membantu
pencapaian misi negara dalam mengejar kemajuan
pada era globalisasi.
SEKIAN,
TERIMA KASIH ATAS PERHATIAN ANDA
SEMUA