Upload
vuongngoc
View
221
Download
0
Embed Size (px)
Citation preview
11Bilgisayarlý Çeviri
Doðal dil iþlemenin en ilgi çekici alanlarýndan biri diller arasý çeviridir.
Diller arasý çeviri denildiðinde, insanýn aklýna, farklý dillerde konuþan
iki insanýn, arada çevirmen olmadan birbirini anlayabileceði çözümler
gelmektedir. Daha açýk bir anlatýmla, bir Türk Türkçe konuþacak,
karþýsýndaki Japon bu konuþmayý Japonca dinleyecektir. Japon'un
konuþmasýný da Türk Türkçe olarak dinleyecektir. Ýnsanlarýn ve
araþtýrmacýlarýn düþleri bu yönde olmakla beraber, günümüzdeki
biliþim olanaklarý, bu kadar yetenekli çeviri dizgelerini
saðlayamamaktadýr. Ancak, belli alanlarda çalýþan örnekler üretilmeye
baþlanmýþtýr. Örneðin, askeri emirleri, hava raporlarýný çevirebilen
dizgeler üretilmeye baþlanmýþtýr.
Günümüzde, bilgisayar desteðiyle yapýlan çeviriler, en basit olandan en
karmaþýk olana doðru sýralanabilir: Sözcük çevirisi, tümcecik çevirisi,
tümce çevirisi. Gerçekleþtirilen, metinden metine çeviri dizgelerinin
bazýlarý insan gözetimi gerektirirken bazýlarý yardýmý olmaksýzýn çeviri
yapabilmektedir.
Bir dilden diðer bir dile çeviri yapan kiþinin, iki dili iyi þekilde
bilmesinin yetmeyeceði, çeviri yaptýðý metnin konusu hakkýnda da bilgi
sahibi olmasý gerekir. Söz gelimi týp konusundaki bir kitabý çevirecek
kiþinin týp konusunda uzman olmasýnýn gerekeceði açýktýr. Bilgisayar
yardýmýyla yapýlan çevirilerde de benzer bir güçlüðün olacaðý kolayca
söylenebilir.
- 1
Dünyada konuþulan diller belli dil ailelerinin üyeleridir. Ayný dil ailesinin üyesi olan iki dil
arasýnda çeviri yapmak, doðal olarak farklý iki dil ailesinin üyesi olan iki dil arasýnda çeviri
yapmaya göre daha kolaydýr. Bilgisayarlý çeviri dizgeleri gerçekleþtirilirken kullanýlabilecek
yöntemler, dillerin ayný dil ailesinden olup olmadýðýna göre deðiþmektedir.
Bilgisayarlý çeviri amacýyla kullanýlan yöntemler, kural temelli ve istatistiksel temelli olmak
üzere genel iki kümeye ayrýlabilir. Bu iki kuralýn birlikte kullanýldýðý örnekler de
bulunmaktadýr. Kural temelli çeviri yöntemleri, yabancý dil eðitiminde izlenen yöntemlere
benzer. Öncelik her iki dilin dilbilgisi kurallarýný bilgisayara öðretmektir. Buna ek olarak çeviri
sözlüðü bilgisayara yüklenir. Ýstatistiksel temelli çeviri, çevirmenler tarafýndan yapýlmýþ olan
çeviri metinler içinde, çevirisi yapýlmak istenen tümce ya da tümceciðe en yakýn olan karþýlýðý
bulmaya dayanýr.
Bilgisayar kullanarak yapýlan çevirilerin baþarýmlarýný karþýlaþtýrabilmek için, çeviri
dizgesinden beklentilerin tanýmlanmýþ olmasý gerekir. Bir bilgisayarlý çeviri dizgesi aþaðýdaki
özellikleri saðlamalýdýr:
• Ýnsan desteksiz : Çeviri dizgesi insan katký ve desteði olmadan çalýþabilmelidir.
• Kaliteli : Çeviri dizgesinin ürettiði sonuçlar aslýna uygun ve anlaþýlýr olmalýdýr.
• Konu baðýmsýz : Çeviri dizgesi her türlü konuyu içeren metinleri çevirebilmelidir.
1.1 Dillerin Benzerlikleri ve Farklýlýklarý
Dünyada 4000 dolayýnda dilin konuþulduðu bilinmektedir. Ancak bu dillerden bazýlarý yaygýn
olarak ve çok kiþi tarafýndan konuþulurken bazýlarý çok dar alanda, binden az kiþi tarafýndan
konuþulmaktadýr. UNESCO kaynaklarýna göre, diller þöyle sýralanmaktadýr:
Konuþan sayýsýna göre
• Çince
• Hintçe
• Ýngilizce
• Ýspanyolca
• Rusça
• Arapça
• Turkçe
• Fransýzca
• Almanca
• English
Yaygýnlýða göre
• Çince
• Ýspanyolca
• Arapça
• Türkçe
• Hintçe
2 - Bilgisayarlý Çeviri
Yine ayný kaynak, diilerin Dünya üzerindeki yayýlýþýný Þekil-11.1'deki gibi vermektedir.
Yeni bir dili öðrenmeye çalýþanlarýn ilk yaptýklarý sözcüklerin karþýlýðýný ezberlemektir.
Ardýndan, öðrenmeye çalýþtýklarý dilde tümce kurabilmektir. Bazý dillerde sözcükler yalýn halde
bulunmasýna karþýn bazýlarýnda sözcükler ekler alarak anlamlarýný deðiþtirmektedir. Tümce
içinde, sözcüklerin niteliklerine göre diziliþi de dilden dile benzerlik ve farklýlýk
göstermektedir. Bu açýklamalara baðlý olarak diller arasýndaki benzerlikler ve farklýlýklarýn
aþaðýda sýralanan özellikler baðlamýnda incelenmesi gerektiði sonucuna varýlýr:
• Biçimbilimsel • Sözdizimsel
• Dilimleme
• Anlatým biçimi
• Sözlüksel
• Olay ve tartýþma
• Yapýsal
• Konusal
1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 3
Þekil-11.1: Dünyada dillerin yaygýnlýk haritasý (Kaynak UNESCO)
11.1.1 Biçimbilimsel Benzerlik ve Farklýlýklar
Dünyada yaygýn olarak kullanýlan diller ana hatlarý ile þöyle kümelenmektedir:
• Yalýnlayan diller
• Bitiþken diller
• Bükümlü diller
• Kaynaþtýran diller
Yalýnlayan dillerde sözcükler tek hecelidir ve sözcükler ek almazlar. Sözcükler tümce
içinde vurguya baðlý olarak anlam kazanýrlar. Çince, Vietnamca, Himalaya dili bu küme
içinde yer alýr.
Bitiþken dillerde sözcüðün temeli kök sözcüktür. Kök sözcüðe yapým ekleri, kurallý biçimde
eklenerek yeni sözcükler oluþturulur. Kök sözcüðe eklenebilecek eklerin sayýsýnda bir sýnýrlama
yoktur. Bu nedenle, bir kök sözcükten çok sayýda sözcük üretilebilir. Bitiþken dil kümesi içinde,
Türkçe Macarca, Fince, Moðolca, Japonca gibi diller yer almaktadýr.
Hint-Avrupa ve Sami dilleri, bükümlü dil kümesine girmektedir. Bükümlü dillerde gövde
sözcük ön ve son ek alarak yeni anlam kazanýr. Bir gövdeye eklenen ön ek ve son ek sayýsý
genelde biri aþmaz. Dolayýsýyla ekler, gövde sözcüðe kýsýtlý katký saðlarlar.
Kaynaþtýran dillerde, eylem tümcenin diðer öðeleri ile kaynaþmaktadýr. Dolayýsýyla eylem
tümcenin tamamý olabilmektedir. Amerika yerlilerinin dilleri bu küme içinde sayýlmaktadýr.
Yalýnlayan dillere en güzel örnek Vietnamcadýr. Bu dilde, sözcükler ek almazlar. Dolayýsýyla
her sözcük tekil olarak yorumlanabilir. Yalýnlanmýþ bir dilde yazýlmýþ tümcenin karþýlýðý,
bükümlü bir dilde kolayca gösterilebilir. Þekil-11.2'de Vietnemca dilinde yazýlmýþ bir tümcenin
Ýngilizce karþýlýðý verilmiþtir.
Vietnamca yazýlmýþ olan bu tümcenin Türkçe karþýlýðý þöyledir: Arkadaþýmýn evine geldiðimde
ders çalýþmaya baþladýk.
Bitiþken diller ek açýsýndan en zengin dillerdir. Ek açýsýndan zengin olan kaynak dildeki bir
sözcüðü, ek bakýmýndan fakir olan hedef dile çevirirken, tek bir sözcük karþýlýk getirilemez.
Örneðin; Bitiþken bir dil olan Türkçede "göz" sözcüðünün alacaðý ekler ile türetilmiþ
sözcüklerin Ýngilizcedeki karþýlýklarýndan bazýlarý Tablo-11.1'de verilmiþtir: Tablo-11.1'den de
4 - Bilgisayarlý Çeviri
Khi toi den nha ban toi chung toi bat dau lam bai
When I come house friend I “çoðul” I begin do lesson
Þekil-11.2: Vietnamca dilince yazýlmýþ bir tümcenin Ýngilizce karþýlýðý
görüldüðü gibi, Türkçe sadece sondan eklemeli bir dildir. Osmanlýca diyebileceðimiz eski
Türkçede ön eklerin de kullanýldýðý bilinmektedir. Örneðin "mevcut", "namevcut" gibi.
11.1.2 Sözdizimsel Benzerlikler ve Farklýlýklar
Toplumsal geliþmeye koþut olarak geliþtiði düþünülen dillerin tümce yapýlarý birbirinden
faklýdýr. Bu fark, doðal olarak farklý dil aileleri için daha açýktýr. Tümce yapýlarýndaki farklýlýk
ve benzerlikleri göstermek üzere ayný tümcenin, Türkçe, Japonca, Fince, Macarca, Ýngilizce ve
Fransýzca karþýlýklarý Þekil-11.3 ve Þekil-11.4'te kadar gösterilmiþtir.
Þekil-11.3'e baktýðýmýzda þu yorumu yapabiliriz. Türkçe tümce yapýsýna en yakýn olan dil
Japonca olarak görülmektedir. Ayný þekil bize, Fince ve Macarca'nýn tümce yapýlarýnýn birbirine
benzediðini söylemektedir. Þekil-11.4'e baktýðýmýzda Ýngilizce bir tümcenin yapýsý Fransýzca
tümcenin yapýsýyla bire bir aynýdýr.
Tümce kuruluþlarýndaki benzerlik olan diller arasýndaki çeviri, doðal olarak, benzerliði az olan
dillere oranla daha kolay olacaktýr.
Altay dil ailesi içinde yer alan Türkçenin, zaman içinde deðiþikliklere uðramasý doðal
karþýlanmalýdýr. Bugün Türkiye'de konuþulan Türkçe ile Asya'nýn orta kýsmýnda yaþayan
Uygurlarýn konuþtuðu Türkçe çok farklý görülebilir. Özellikle sözcüklerin zaman içinde
deðiþtikleri veya ayný sözcüklerin söyleniþ biçimlerinin epey farklý olduðu bilinmektedir.
1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 5
Türkçe (tekil) Türkçe (çoðul) Ýngilizce (tekil)
Göz Gözler Eye
Gözlük Gözlükler Eyeglasses
Gözlükçü Gözlükçüler Optician
Gözlükçülük Gözlükçülükler Opticians
Gözcü Gözcüler Watchman
Gözcülük Gözcülükler ophthalmology
Gözlem Gözlemler Observation
Gözleme Gözlemeler Observing
Gözlemci Gözlemciler observer
Gözlemcilik Gözlemcilikler Observation
Gözde Gözdeler favourite
Tablo-11.1: Bitiþken bir dil olan Türkçe ile Bükümlü bir dil olan Ýngilizcenin
biçimbilimsel açýdan karþýlaþtýrýlmasý
Ancak bu dillerin tümce yapýlarý birbirine çok yakýndýr. Yaklaþýk bin yýldýr birbirinden uzak
yaþayan topluluklarýn dillerinde bu kadar deðiþikliklerin olmasý olaðan karþýlanmalýdýr. Türk
dillerinin birbirine benzerlikleri coðrafi konumlarýna çok baðlýdýr. Öðneðin, Azerbaycan ve
Ýranda yaþayan Azari Türkler ve Irakta yaþayan Türkmenlerin konuþtuðu dil Türkiye'de
konuþulan Türkçeye çok yakýndýr. Bu yüzden farklý dil olarak nitelemek yerine farklý lehçe
olarak nitelemek daha doðru olur.
Türk dilleri ailesi içinde, Azeri, Uygur, Horasan, Tatar, Kazak, Özbek, Kýrgýz, Türkmen,
Gökoðuz (Gagavuz) ve Kýrgýz dilleri bulunmaktadýr.
Türkçeye yakýn olan diller içinde Moðolca, Korece ve Japonca sayýlabilir.
Tümce yapýlarý açýsýndan
benzerlik ve farklýlýklar
Þekil-11.5'teki gibi gösterilebilir:
Tümce yapýsý birbirine benzer olan
dillerde, bir tümcenin çevirisi
yapýlýrken, sözcüklerin tümce
içindeki sýrasý, büyük ölçüde ayný
tutulabilir; kaynak dildeki
sözcüðün yerine hedef dildeki
karþýlýðý yerleþtirilir. Örneðin; ben
kitap okuyorum tümcesini
sýrasýyla Ýngilizce, Fransýzca,
Almanca, Ýspanyolca ve Ýtalya
yazdýðýmýzda, sözünü ettiðimiz
6 - Bilgisayarlý Çeviri
He regards his pen as his only arm
O görür kalemini olarak tek silahý
Il considere son crayon comme sa seul arme
He regards his pen as his only arm
O görür kalemini olarak tek silahý
Ýngilizce
Fransýzca
Þekil-11.4: Ýngilizce ve Fransýzca tümce yapýsý
O kalemini tek silahý olarak görür
O olarak görür kalemini gibi kendi silah
O ugy tekinti a tollat mint sajat fegyver
Kereha pendakewo karenojuu tosite miru
O kalemini tek silahý olarak görür
O görür kalemini olarak tek silahý
Han pitaa kynaansa ainoana aseenaan
Macarca FÝnce
Japonca
Þekil-11.3: Türkçe, Japonca, Macarca ve Fince tümce yapýlarý
benzerliði kolayca görebiliriz.
Þekil-11.6
Bu örneklere dikkatli
bakýldýðýnda, bazý sözcüklerin
birebir ayný veya benzer olduðu
da söylenebilir. Örneðin,
book-buch, livre-libro gibi.
Ayný tümceyi Türkçe
yazdýðýmýzda, sözcüklerin
diziliþinin çok farklý olduðunu
görürüz.
11.1.3 Dilimleme
Bazý dillerde yazýlmýþ metinlere
baktýðýmýzda, her bir sözcüðü
ve tümceyi kesin biçimde ayýrt
edebiliriz. Buna karþýn bazý
dillerde sözcükleri birbirinden
ayýrt etmek çok zordur. Çin,
Japon, Tayland dillerinde
sözcüklerin nerede baþlayýp
nerede bittiðini anlamak,
dolayýsýyla sözcükleri ayýrt
etmek zordur.
Bazý dillerde, tümceler çok
uzun kurulmaktadýr. Bir
tümcenin beþ on satýr tuttuðu,
bir paragraf kadar uzun olduðu
görülmektedir. Arap metinleri bu özelliktedir. Benzer duruma, XIX. yüzyýl Osmanlý
metinlerinde de rastlanmaktadýr. O devirde uzun tümce kurmak bir hüner olarak görülmüþtür.
Uzun tümcelerin taþýdýðý anlamý ortaya çýkarmak için, önce tümceyi dilimlemek ve her bir
dilimi ayrý çevirmek gerekir. Benzer durum sözcükler için de geçerlidir. Bitiþik sözcükleri önce
sözcük dilimlerine ayýrmak ve dilimlenmiþ sözcüklerin hedef çeviri dilindeki karþýlýklarýný
bulmak gerekir.
Hint-Avrupa dillerinde ana ve yadýmcý tümce kesin hatlarla ayrýlabilmesine karþýn, Türkçede
böyle dilimlemenin yapýlacaðý yeri bulmak kolay deðildir. Aþaðýdaki tümceler bu durumu
açýklayacak niteliktedir.
"Kitabý okuyan adam babamdýr."
1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 7
Özne
Özne
Özne
Tümleç
Tümleç
Tümleç
Yüklem
Yüklem
Yüklem
Bitiþken diller
Bükümlü diller
Arapça
Þekil-11.5: Deðiþik dillerde tümce yapýsý
I am reading a book
Je lis un livre
Ich lese ein Buch
Estoy leyendo un libro
Sto leggendo un libro
Þekil-11.6: Ayný tümcenin, Ýngilizce, Fransýzca, Almanca,Ýspanyolca ve Ýtalyanca'daki karþýlýklarý
"The man who is reading the book is my father."
Ýngilizce tümce þöyle iki parçaya ayýrýlabilir:
"The man ..................................... is my father."
"The man is reading the book."
Ayný anlamdaki Türkçe tümceye baktýðýmýzda, dilimlemenin bu kadar kesin yapýlamayacaðý
görülmektedir.
"Kitabý okuyan adam babamdýr."
"....................... adam babamdýr."
"Kitabý okuyan adam.................."
11.1.4 Anlatým Biçimi
Ýnsanlar, istek niyet ve amaçlarýný karþýsýndakine anlatabilmek için konuþur veya yazar.
Karþýmýzdakine, isteðimizi tam, eksiksiz ve kesin biçimde aktarmak için seçtiðimiz sözcüklerin
anlaþýlýr ve kurduðumuz tümcelerin düzgün ve anlaþýlýr olmasý beklenir.
Bazý dillerde tümce yapýsý ve seçilen sözcükler, yukarýda açýkladýðýmýz düþünceye uygun
düþerken bazý dillerde dolaylý anlatým yeðlenir. Türkçe, Ýngilizce gibi dillerde, sözcükler ve
tümce kuruluþu, istek, niyet ve amacý doðrudan ve açýk biçimde karþý tarafa iletecek biçimde
gerçekleþtirilir. Buna karþýn Çince ve Japoncada üstü kapalý, yanýþtýrmaya dayalý anlatým
yöntemi yeðlenir.
Çeviri sýrasýnda, sözcüklerin ve tümcelerin gerçek anlamlarýný çýkarmak önemlidir. Dolayýsýyla,
çevirisi yapýlan dilin anlatým biçimini bilmek önemlidir.
11.1.5 Sözlüksel Benzerlikler ve Farklýlýklar
Kaynak dildeki bir sözcüðün karþýlýðýný diðer bir dilde her zaman bulamayabiliriz. Ayný duygu
ve istek farklý dillerde farklý biçimde anlatýlabilir. Sözlüksel benzerlik ve faklýlýklar aþaðýda
sýralanan bakýþ açýlarýndan ortaya konacaktýr:
• Eksiklik
• Birebir karþýlýk
• Tek karþýlýk olmamasý
• Nitelik deðiþmesi
• Cinsiyetli sözcükler
• Anlamsal zenginlikler
8 - Bilgisayarlý Çeviri
Eksiklik
Toplumlarýn ilgi alanlarý kültürel özellikleri dillerinin söz varlýðýnýn oluþmasýnda
etkindir. Çiftçi bir toplumda, çiftçilikle ilgili terimlerin zenginleþmesi doðaldýr.
Denizcilik ile ilgili olan bir toplumda, denizcilik terimlerinin sayýsý, denizi olmayan
bir toplumun dilindekine oranla çok olacaktýr. Bu tür özellikler, kaynak dildeki bir
sözcüðün, çeviri yapýlacak hedef dilde karþýlýðýnýn bulunamayabileceði sonucunu
doðurur.
Türkçede akrabalýk terimleri oldukça zengin sayýlabilir. Örneðin, amca, dayý, hala,
teyze, yeðen, eniþte, görümce, elti, yenge, bacanak, vb. Ýngilizce ve Fransýzcada,
örnek olarak verdiðimiz sözcüklerin karþýlýðýný bulamayýz. Bu dillerde hala ile teyze
ve dayý ile amca için kullanýlan sözcük aynýdýr. Eniþte ve bacanak sözcüklerinin
karþýlýðý ise yoktur.
Çevirinin yapýlacaðý hedef dilde, kaynak dildeki sözcüðün karþýlýðý yok ise, bu sözcük
birçok sözcük ya da bir tümce ile anlatýlmaya çalýþýlýr.
Birebir Karþýlýk
Kaynak ve hedef dilde, ayný anlamý veren sözcükler olabilir. Ancak, bir dilde tek
sözcükle anlatýlan bir taným diðer dilde iki hatta üç sözcük kümesiyle anlatýlýyor
olabilir.
Karpuz (Tr) - Water melon (Ýng)
Baþ parmak (Tr) - Thumb (Ýng)
Tek Karþýlýk Olmamasý
Bir dilde bir sözcüðün deðiþik anlamlarda kullanýlmasýna kaþýn, diðer bir dilde her
deðiþik anlam için bir sözcük olabilir.
Söz gelimi Türkçede ayak sözcüðü, insan ayaðý, hayvan ayaðý, masa ayaðý, yarýþ ayaðý
anlamlarýnda kullanýlmaktadýr. Kavram belirsizliðine neden olacaðý düþünülse bile,
kullanýldýðý yere göre anlamý belirlidir. Örneðin, "ayaðým aðrýyor" dediðimizde, insan
ayaðýný; "yedinci ayaðý Nilüfer kazandý" dediðimizde at yarýþýnýnýn sonucu hakkýnda
konuþtuðumuz kolayca anlaþýlýr.
Türkçede farklý anlamlarda kullanýlan ayak sözcüðü için Fransýzcada deðiþik
karþýlýklar bulunmaktadýr. Örneðin, jambe (insan ayaðý), patte (hayvan ayaðý) pied
(masa ayaðý), etape (yarýþ ayaðý).
1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 9
Nitelik Deðiþmesi
Sözcüklerin kullanýþ biçimleri dilden dile deðiþebilmektedir. Br dilde eylem ile
anlatýlan bir durum bir baþka dilde isim ya da sýfat ile anlatýlmaktadýr. Örneðin;
Açým (sýfat) (Tr) - I am hungry (sýfat) (Ýng) - Ho fame (ad) (Ýta) (I have hunger)
Aç olma hali Türkçe ve Ýngilizcede eylem ile anlatýlýrken Ýtalyancada isim ile
anlatýlmaktadýr.
Cinsiyetli Sözcükler
Almanca, Fransýzca, Arapça gibi dillerde adlar cinsiyet bilgisini de içermektedir.
Ýngilizcede sadece üçüncü tekil þahýs zamiri cinsiyet bilgisi içerir. Türkçe sözcüklerde
(Arapçadan alýnmýþ rahip, rahibe gibi sözcükler hariç) cinsiyet bilgisi yoktur. Çeviri
yapýlacak hedef dil Türkçe gibi cinsiyet bilgisi içermiyor ise, sözcüðün ya da zamirin
baþýna cinsiyet bilgisinin eklenmesi gerekir. Örneðin
Katibe (Arb) - Bayan yazman
She is going - O (bayan) gidiyor
Anlamsal Zenginlikler
Türkçede abla, abi, kardeþ sözcükleri, kiþinin kardeþinin cinsiyeti ve yaþý hakkýnda
bilgi içerirken bunlarýn karþýlýklarý Ýngilizcede bulunmaz.
Türkçede el baþ parmaðý ve ayak baþ parmaðý olarak tanýmladýðýmýz parmaklar için
Ýngilizcede iki ayrý sözcük bulunmaktadýr.
11.1.6 Eylem Ýþlevindeki Farklýlýklar
Anlatým biçimi, özellikle eylemlerin neden olduðu olaylar açýsýndan deðerlendirdiðimizde
dilleri iki sýnýfa ayýrabiliriz:
Yönü Belirli Eylemler
Bazý eylemler, eylemin yönünü açýkça belirler. Dolayýsýyla, ayrýca yön belirtmeye
gerek yoktur. Örneðin; Türkçede "ödemek" eylemi borç olarak alýnmýþ ya da kabul
edilmiþ bir görevin yerine getirilmesi; karþýlýðýnýn verilmesi anlamýný taþýr.
Dolayýsýyla, "insan aldýðý borcu öder". Bazýlarýný söylediði gibi "geri borç ödemesi"
gibi anlatýmlara gerek yoktur ayrýca yanlýþtýr.
Benzer biçimde "inmek", eylemi, bu eylemin aþaðýya doðru yapýldýðý, "týrmanmak"
eylemi, bu eylemin yukarý doðru yapýldý bilgisini içermektedir.
10 - Bilgisayarlý Çeviri
Yön Eki Gerektiren Eylemler
Bazý eylemler, eyleme yön belirleyen bir ek eklenir. Ýngilizcede bu tür eylemlerin
sayýsý çok sayýlacak kadar fazladýr. Bu tür eylemler bir yön belirtici ile birlikte
kullanýlmalarý gerekir. Örneðin "I will pay back" (borcumu ödeyeceðim), "I jump
down" (atladým) gibi.
11.3 Bilgisayarla Çeviri Yöntemleri
Bir dilde yazýlmýþ olan bir metni ya da konuþmayý, diðer dilde yazýlý bir metne ya da konuþmaya
çevirme iþleminde bilgisayar kullanýlýyor ise bu eyleme "Bilgisayarla Çeviri- BÇ" adý
verilmektedir. Bu tanýmdan da anlaþýlacaðý gibi, diller arasý çeviri eyleminde bilgisayar
desteðinden yaralanýlmasý, en genel baðlamda BÇ olarak deðerlendirilmektedir. Bilgisayarla
gerçekletirilecek çeviriler þu özelliklere sahip olmalýdýr:
• Çeviriler insan desteði ve katkýsý olmadan gerçekleþebilmelidir.
• Hedef dildeki çeviri doðru anlaþýlabilecek nitelikte olmalýdýr.
• Çeviri yazýlýmý, çeviri iþlemini konudan baðýmsýz yapabilmelidir.
Bilgisayarlý çeviri sürecinde kullanýlan;
• Kural tabanlý
• Ýstatistiksel ve
• Örnek tabanlý
yöntemler aþaðýda açýklanmýþtýr:
11.3.1Kural Tabanlý Çeviri Yöntemleri
Kural tabanlý çeviri yöntemlerinde, kaynak tümcesinin çeþitli bilgi seviyelerinde gösterimlerini
oluþturduktan sonra bu bilgi seviyesinde aktarým yapýlmasýný öngören bir dizi yöntem kullanýr.
Bu yöntemleri görselleþtirmek için Vauquois Üçgeni yaygýn olarak kullanýlýr, Þekil-11.7.
11.3.1.1 Doðrudan Aktarým
En temel çeviri türü, kaynak dildeki sözcüklerinin karþýlýklarýnýn bulunarak hedef dile
çevrilmesidir. Ancak bu basit yöntemde bile birçok sorunla karþýlaþýlmaktadýr. Bunlarýn en
önemlisi çevrilecek sözcüðün birebir karþýlýðýnýn bulunmadýðý durumlardýr. Bu sorunlara
sözlüksel belirsizlik denilmektedir. Önceki kýsýmda bu konu ayrýntýlý biçimde açýklanmýþtýr.
Her ne kadar doðrudan aktarým yönteminde tümce üzerinde çözümleme yapýlmasý gerekmese de
birçok uygulamada biçimbilimsel çözümleme de yapýlmaktadýr.
11.3 Bilgisayarla Çeviri Yöntemleri - 11
11.3.1.2 Sözdizimsel Gösterimin Aktarýmý
Bilgisayarlý çeviri yöntemleri arasýnda diðer bir yöntem de sözdizimsel temelde çeviri
yapmaktýr. Buna göre kaynak dildeki sözcük öncelikle sözdizimsel olarak ayrýþtýrýlýr ve elde
edilen aðaç yapýsý, hedef dilde ayný anlamý taþýyan aðaç yapýsýna çevrilmeye çalýþýlýr,
Þekil-11.8.
12 - Bilgisayarlý Çeviri
Kaynak dilde tümce Hedef dilde tümce
Kaynak dildesezgisel aðaç
Hedef dildesezgisel aðaç
Aktarým
Ayrýþtýrma Oluþturma
Þekil-11.8: Sözdizimsel gösterimin aktarýmý
Kaynak dilde metin
Sözcükler Sözcükler
Sözdizimsel YapýSözdizimsel Yapý
Anlamsal Yapý Anlamsal Yapý
Dilden baðýmsýzAnlamsal Yapý
BaðlamsalÇözümleme
BaðlamsalÜretim
Bilgi tabanlý aktarým
Anlamsal Aktarým
Sözdizimsel Aktarým
Doðrudan aktarým
Hedef dilde metin
AnlamsalÇözümleme
AnlamsalÜretim
Sözdizimsel Çözümleme
SözdizimselÜretim
BiçimbilimselÇözümleme
BiçimbilimselÜretim
Þekil-11.7:: Bilgi tabanlý yöntemlerin sýnýflandýrýlmasý-Vauqouis Üçgeni
Sözdizimsel yapýnýn aktarýlmasýndan sonraki süreç ise sözcüklerin aktarýlmasýdýr. Týpký
doðrudan aktarým yönteminde olduðu gibi bu aþamada da her iki dilde sözcükleri içeren bir
aktarým sözlüðü kullanýlýr. Bazý sistemlerde, bu aþamada ortaya çýkan sözcüksel belirsizliklerin
giderilmesi için kaynak tümce çözümlemeleri sýrasýnda anlamsal belirsizlik giderici yöntemler
uygulanmaktadýr.
11.3.1.3 Anlamsal Gösterimin Aktarýmý
Anlamsal çeviri, önce kaynak dildeki tümcenin sözdizimsel ayrýþtýrmasý yapýldýktan sonra
ayrýþtýrýlan yapýlara anlamsal görevlerin yüklenmesi ve aktarýmýn bu görevlere göre yapýlmasý
temeline dayanmaktadýr. Yöntem, sözdizimsel çeviride karþýlaþýlan yapý uyuþmazlýklarýnýn
bazýlarý çözebilmektedir.
11.3.1.4 Dilden Baðýmsýz Anlamsal Gösterimin Aktarýmý
Bilgisayarlý dil çevirisi yöntemlerinin sonuncusu ise “interlingua” adý verilen ve tümcenin
taþýdýðý anlamý, dilden baðýmsýz bir yapýda ifade eden yapýlarý kullanýlmasýdýr. Bu yöntemin
temel dayanak noktasý, farklý dillerde, anlamlarýn ifade edilme biçimlerinden baðýmsýz bir
anlam temsilidir.
Örnek olarak aþaðýdaki tümcenin gösterimi Þekil-11.9’da verilmiþtir:
Mehmet, bu güzel çöreði yemedi.
Bu yöntemin en yararlý yönü, ikiden fazla dil arasýnda çeviri yapýlacaðý zaman (1®N) ortaya
çýkmaktadýr. Diðer yöntemlerde bu tür bir iþlem, toplam N2 çeviri yapýlmasý anlamýna gelir.
Halbuki kaynak tümcenin dilden baðýmsýz anlamsal gösterimi elde edildikten sonra, bu
gösterime iliþkin tümcenin N adet dil için üretilmesi yeterlidir. Bu tür çeviri yöntemi, Avrupa
Birliði gibi birçok dilin kullanýldýðý ortamlar için kullanýþlý olmaktadýr.
Ancak “interlingua” adý verilen bu yapýnýn kullanýlmasý durumunda, doðal dil ile ifade edilen
anlamý, baþka bir biçimde sunacak olan “bilgi temsil diline” çevirmedeki güçlük gibi sorunlara
11.3 Bilgisayarla Çeviri Yöntemleri - 13
Olay yemek
Etmen Mehmet
Kip geçmiº
Olumluluk olumsuz
çörek
Tema Ýþaret bu
Özellikler tatlý
é ùê úê úê úê úê úê úé ùê úê úê úê úê úê úë ûë û
Þekil-11.9 :Dilden baðýmsýz anlamsal gösterim
neden olmaktadýr. Her dilin, belirttiði özellikler farklýlýk göstermektedir. Örneðin Türkçede 3.
tekil þahýslar için cinsiyet bilgisi yokken Ýngilizcede bulunmaktadýr. Benzer þekilde Türkçede
amca ve dayý ayrý sözcüklerle ifade edilirken Ýngilizcede her ikisi de uncle sözcüðü ile
belirtilir. Anlamsal gösterimin dilden baðýmsýz olabilmesi için her dilde farklý ifade edilen
kavramlarý içermek için de bir yol bulunmasý gerekmektedir. Bu farklýlýklardan dolayý dilden
baðýmsýz bir gösterimin tam olarak nasýl saðlanabileceði konusunda halen büyük eksiklikler
bulunmaktadýr.
11.3.2 Ýstatistiksel Yöntemler
Bilgi tabanlý bilgisayarlý çeviri yöntemlerinin ana konusu, kaynak dildeki tümcelerin hangi bilgi
seviyesinde (sözcük, sözdizimsel yapý, anlamsal yapý gibi) iþlem göreceðini belirlemek ve
seçilen gösterimin hedef dile nasýl aktarýlacaðýnýn yollarýný araþtýrmak üzerine yoðunlaþýr.
Ýstatistik tabanlý yöntemler ise tamamen sonuç odaklý çalýþýr ve aktarma iþleminin nasýl
yapýlmasý gerektiðinden çok nasýl sonuçlanmasý gerektiði üzerinde dururlar.
Ýstatistiksel çeviri yöntemi kavramý 1950’li yýllarda ortaya atýlmýþ olsa da gerçek anlamdaki
çalýþmalar 1990’lý yýllarda baþlamýþtýr Elektronik ortama aktarýlmýþ, koþut çevirilerden oluþan
metinlerin sayýsýnýn giderek artmasý ve bilgisayarlarýn yeteneklerinin hýzla artmasý, kural
tabanlý aktarým için kural karmaþasýnda zorlanan araþtýrmacýlarýn, istatistiksel çeviri
yöntemlerine doðru hýzlý bir kaymaya neden olmuþtur.
Ýstatistiksel yöntemlerin çalýþma mantýðý, çeviri iþlemini, Shannon’un Gürültü Kanal Modeli
(Noisy Channel Model) uyarýnca bozulmuþ bir iþareti düzeltme olarak deðerlendirmektedir. Bu
yaklaþýma göre hedef dildeki tümce H, iletim kanalýndan geçerken kanaldaki gürültü nedeniyle
deðiþmiþ ve çýkýþta kaynak dildeki tümce K oluþmuþtur. Yöntemin ilkesi, iletim kanalýnýn çýkýþ
ucunda gözlenen kaynak dildeki tümce K’dan yola çýkarak, gönderilen asýl metine yani “hedef
dildeki” tümceye ulaþmaktýr. Bunu saðlamak üzere aþaðýdaki denklemin çözümünün bulunmasý
yeterli olacaktýr:
H P H KH Hedef Dil
=Î
argmax ( | ) (11.1)
Denklem (11.1) ’deki olasýlýk deðerini Bayes kuralýna göre tekrar yazarsak:
HP K H P H
P KH Hedef Dil
=Î
argmax( | ) ( )
( )(11.2)
Bu denklemde P(K) olasýlýðý bütün H tümceleri için sabit olduðundan argmax iþleci için sonucu
deðiþtirmez. Bu durumda denklem (11.2)’yi aþaðýdaki gibi yazabiliriz:
H P K H P HH Hedef Dil
Çeviri modeli Dil mo
=Î
argmax ( | ) ( )124 34
deli
123(11.3)
14 - Bilgisayarlý Çeviri
Bu denklemde iki bileþen göze çarpmaktadýr. Bunlardan P(K|H), çeviri modeli olarak
adlandýrýlýr ve hedef dildeki H tümcesinin, kaynak dildeki K tümcesinin çevirisi olma olasýlýðýný
belirtir. Ýkinci bileþen ise H tümcesinin, hedef dildeki olasýlýðýný belirtir. Bu iki olasýlýk
deðerinin çarpýmýný en çoklayan H tümcesi sonuç olarak üretilir.
Denklem (11.3)’ün sezgisel açýdan yorumu ise, kaynak dildeki K tümcesinin en yakýn çevirisi
olma (çeviri modeli bileþeni) ve ayný zamanda da hedef dil için akýcý ve geçerli bir tümce olma
(dil modeli bileþeni) koþullarýný birlikte saðlayan en olasý H tümcesinin bulunmasýdýr.
Sonuç olarak istatistiksel yöntemlerle bilgisayarlý çeviri yapabilmek için aþaðýdaki üç bileþenin
elde edilmesi gereklidir:
• P(H)’nin hesaplanabilmesi için hedef dil için bir Ýstatistiksel Dil Modeli (ÝDM)
• P(K|H)’nin hesaplanabilmesi için bir çeviri modeli
• Bütün bu olasýlýk deðerlerini kullanarak verilen bir K tümcesi için en olasý H
tümcesini üretebilen bir çözücü
Gerekli dil modelleri sadece hedef dil için üretilmek zorunda olduðundan bu dil modellerinin
oluþturulmasý çeviri modelinin üretilmesine göre daha kolaydýr.
Çeviri modelinin oluþturulmasý için, kaynak tümcedeki sözcük yada sözcük öbeklerinin, hedef
dilde hangi sözcük ya da sözcük öbeklerinin karþýlýðý olduðu (ürettiði) bilgisi gereklidir. Bu
bilgileri içeren çok sayýda tümce üzerinde çeþitli tekniklerle gerçeklenen hesaplamalar
sonucunda çeviri modeli hesaplanmaktadýr. Bu amaçla, birbirlerinin çevirisi olan, hedef ve
kaynak dildeki büyük miktarda (genellikle milyonlarca tümceden oluþan) metinler önce tümce
11.3 Bilgisayarla Çeviri Yöntemleri - 15
P(H)
GiriþH
Dil modeli P(H) Aktarým modeliP(K|H)
ÇýkýþK
En olasý tümce H
KaynakTümce
P(K|H)
Ýletme (Üretme)
Gürültülü iletiþim kanalý
Argmax
Çözme
X
Þekil-11.10: Gürültü Kanal Modeli uyarýnca çeviri iþlemi
bazýnda daha sonra da sözcük/sözcük öbeði bazýnda paralelleþtirilir. Bu iþlemlere tümce
hizalama, sözcük hizalama, sözcük öbeði hizalama adý verilir.
Ýstatistiksel çevirinin son bileþeni ise çözücüdür. En olasý çeviri olan H tümcesinin nasýl
bulunacaðý matematiksel olarak bilinse de, hedef dildeki olasý bütün tümceleri üreterek
bunlardan denklem (11.3)’e göre en olasý H tümcesini belirlemek pratik olarak olanaksýzdýr. Bu
amaçla demetli arama gibi daha verimli arama yöntemleri kullanýlabilir.
11.3.3 Örnek Tabanlý Yöntemler
Örnek tabanlý yöntemler, her iki dilde karþýlýklý tümceler içeren tümcelerden oluþan bir derlemi
kullanarak “örnekseme” yoluyla çeviri ilkesini kullanýr. Çalýþma ilkesinden dolayý
“örneksemeyle çeviri” olarak da isimlendirilir. Yöntemin çeviri üzerindeki temel varsayýmlarý
þunlardýr:
• Ýnsanlar basit tümceleri derinlemesine dilbilgisi kurallarýyla çevirmezler.
• Aksine, insanlarýn çeviri yaparken ilk adýmlarý, kaynak tümceyi belirli alt öbeklere
parçalamaktýr. Daha sonra bu öbekleri hedef dile çevirir ve son adýmda da bu öbekleri
uygun biçimde birleþtirerek daha uzun sonuç tümcesini üretir.
• Öbeklerin çevrilmesinde ise daha önceden “akýlda kalan” örneklere örnekseme yapýlýr.
Örneðin aþaðýdaki iki çeviriyi ele alalým:
A man eats vegetables « Hito wa yasai o taberu
Acid eats metal « San wa kinzoku o okasu
Bu iki örnek tümceye benzetilerek aþaðýdaki girdi tümcesi çevrilmek istensin:
He eats potatoes
Kuþkusuz çeviri iþlemi için bir aktarým sözlüðü gereklidir. Ama buradaki asýl sorun Ýngilizce eat
eylemi için olasý iki Japonca karþýlýktan (taberu ve okasu) hangisinin kullanýlacaðýna karar
vermektir. Yöntem, doðru karar vererek taberu eylemini seçer çünkü tümcenin diðer öðeleri he
ve potatoes sözcükleri, örneklerden man ve vegetables sözcüklerine, acid ve metal
sözcüklerinden anlamsal olarak daha yakýndýr. Benzer mantýkla aþaðýdaki giriþ tümcesi için de
okasu eylemi seçilir:
Sulfric acid eats iron.
Sözcüklerin anlamsal olarak birbirlerine yakýnlýk ve uzaklýklarý, bir sözlük ve kavramlar dizini
kullanýlarak bulunur. Kavramlar dizini, sözcüklerin eþ/zýt anlamlýlarýný, alt/üst kavramlarýný,
parça/bütün iliþkinlerini de içeren geniþ kapsamlý bir sözlük olarak deðerlendirilebilir.
16 - Bilgisayarlý Çeviri
Eðitim derlemindeki tümceler çoklukla birbirinden sadece tek sözcük farklý olacak þekilde
seçilir. Bu sayede yöntemin tümcelerin alt parçalarýný daha kolay öðrenmesi saðlanýr.
How much is that red umbrella? « Ano akai kasa wa ikura desu ka?
How much is that small camera? « Ano chiisai kamera wa ikura desu ka?
Bu örneklerden aþaðýdaki bilgiler çýkartýlýr:
• How much is that X? « Ano X wa ikura desu ka?
• red umbrella « akai kasa
• small camera « chiisai kamera
Öðrenilen bu bilgiler daha sonraki çevirilerde kullanýlmak üzere saklanýr. Son geliþmelerle, bu
kurallarýn saklanmadan çalýþma anýnda çýkartýlarak kullanýlmasý yoluna gidilmiþtir. Bu yöntem
yayýnlandýktan sonra Türkçe dahil birçok dilde çalýþmalar yapýlmýþtýr.
11.4 Çeviri Kalitesinin Deðerlendirilmesi
Geliþtirilen bilgisayarlý çeviri yöntemlerinin ve yöntemler üzerinde yapýlan deðiþikliklerinin
sonuçlarýnýn incelenmesi için üretilen sonuçlarýn, yani çevirilerin doðruluðu ve baþarýsý
ölçülmelidir.
Çeviri kalitesinin ölçülmesi için en basit yol, sistem çýktýlarýnýn insanlar tarafýndan çeþitli
yönlerden (üretilen tümcenin akýcýlýðý, kaynak tümcedeki anlamýn aktarýlmasýndaki doðruluk
gibi) derecelendirmesidir. Üretilen çýktýlarý insanlar kullanacaðý için en uygun deðerlendirme
yöntemi aslýnda bu olmasýna karþýn, hem maliyet açýsýndan çok pahalý hem de hýz açýsýndan
oldukça yavaþtýr. Ayrýca aktarým sistemlerinin sürekli geliþtirildiði ve her yapýlan deðiþikliðin
etkilerini görmek için böyle bir deðerlendirmeye gereksinim duyulduðu göz önüne alýnýrsa bu
yöntemin yapýlabilirliði oldukça azalmaktadýr.
Bazý deðerlendirme sistemleri ise baþarým ölçütü olarak, sistem tarafýndan üretilen çevirinin bir
çevirmen tarafýndan düzeltilmesi sürecinin karmaþýklýðýný ölçme esasýna dayanmaktadýr. Bu tür
yöntemlerin çýkýþ fikri, bilgisayarlý çeviri sistemlerinin çýktýlarýnýn genel olarak insan emeði ile
düzeltilerek kullanýldýðýný dolayýsý ile sistemin baþarýsýnýn, çevirmenin harcadýðý çaba ile
ölçülebileceði görüþüdür. Bu tür ölçme yöntemleri, çevirmenin harcadýðý çabayý, aday çeviri
üzerinde tüm düzeltmeleri yapmak için, tuþ takýmýnda kaç defa tuþa basýldýðý ya da çevirmen
tarafýndan düzeltilen son sürümü ile aday arasýndaki en kýsa deðiþim uzaklýðý (minimum edit
distance) deðeri ile orantýlý olarak hesaplar.
Deðerlendirmede izlenebilecek bir baþka yol da otomatik yöntemlerle deðerlendirme
yapmaktýr.
11.4 Çeviri Kalitesinin Deðerlendirilmesi - 17
11.4.1 BLEU/NIST
BLEU yöntemi, IBM tarafýndan 2002 yýlýnda geliþtirilmiþtir . Deðerlendirme mantýðý, sistem
çýktýsý aday tümcelerin, çevirmenler tarafýndan elle çevrilmiþ k adet referans çeviri ile olan
benzerliðinin ölçülmesine dayanýr. Benzerliðin ölçülmesi ise, sistem çýktýsýndaki sözcüklerin
(1-gram) ve sözcük dizilerinin (2,3,4,…-gram), referans çevirilerdeki sözcük ve sözcük dizileri
ile eþleþtirilmesiyle yapýlýr. Uygulamada dörtten uzun sözcük dizilerinin eþleþtirilmesinin
gereksiz olduðu görülmüþtür.
Çevirinin doðasý gereði bir tümcenin, ayný anlamý taþýyan birden fazla çevirisi olabilir. Sözcük
ve ifade seçimlerindeki bu serbestlik derecesi, deðerlendirme aþamasýnda birden fazla referans
çeviri kullanýlarak çözülmeye çalýþýlmýþtýr.
Her n-gram mertebesi için, C derlemi içindeki her S aday tümcesi için hesaplanan deðiþtirilmiþ
keskinlik deðeri pn þu þekilde bulunur:
PA ngram
A ngramn
eþleþenngram SSeC
ngram
=Î
Î
åå det ( )
det( )SSeC åå
(11.4)
Bu denklemde, çeviri aday tümcesinde yer alan ngram (yani sözcük yada sözcük dizisi),
referans çevirilerde birden fazla defa geçse de bir eþleþme olarak sayýlýr.
BLEU yöntemi aðýrlýklý olarak keskinlik (precision) ölçütüne dayanmaktadýr. Birden fazla
referans çeviri kullanýlabildiði için anma deðerini hesaplamak zordur. Bu nedenle, referans
çevirilerden çok daha kýsa bir aday çevirinin, yüksek keskinlik deðeri sayesinde yüksek BLEU
puanlarý almasýný engellemek amacýyla bir kýsalýk cezasý tanýmlanmýþtýr:
BPe er c r
e e er c rr=
>
£
ìíî
-
11
ð
ð/ e(11.5)
Bu denklemde c derlemdeki aday çevirilerin tamamýnýn toplam uzunluðunu, r ise etkin
(effective) referans uzunluðunu göstermektedir. Etkin referans uzunluðu, referans tümceler
derlemi içerisinde, kendi aday tümcesinin uzunluðuna en yakýn olan referanslarýn uzunluklarý
toplamýdýr. Bu tanýmlamalardan sonra BLEU puaný aþaðýdaki gibi hesaplanýr:
BLUE BP w Pn nn
N
= ´=åexp( log )
1
(11.6)
BLEU deðeri temel olarak eþleþen n-gram oranlarýnýn geometrik ortalamasýnýn bulunmasýyla
hesaplanýr ve 0 ile 1 aralýðýndadýr. BLEU puanýn 1 olmasý, aday çevirilerin, referanslardan en az
1 tanesi ile birebir ayný olduðunu göstermektedir.
Yapýlan çalýþmada, bir deneme kümesindeki tümcelerin çevirilerinin BLEU puanlarý ile seçilen
hakemlerin çevirilere verdikleri puanlar karþýlaþtýrýlmýþ ve BLEU puanlarý ile bu kiþilerin
deðerlendirmeleri arasýnda ilinti olduðu gösterilmiþtir .
18 - Bilgisayarlý Çeviri
NIST yaklaþýmý da temel olarak BLEU ile ayný deðerlendirme adýmlarýný izlemesine karþýn
n-gram eþleþmelerinin geometrik ortalamasý yerine aritmetik ortalamasýný kullanýr ve
hesaplanan pn deðerlerini n-gramlarýn sýklýklarý ile iliþkilendirilir (daha az sýklýða sahip eþleþme
daha önemlidir) .
Son yýllarda yapýlan çalýþmalar sonucunda BLEU deðerlendirme sisteminin bazý olumsuz
yanlarý ortaya çýkartýlmýþtýr. Örneðin yüksek BLEU puanlarýnýn, her zaman çevirilerin daha
kaliteli olduðunun bir göstergesi olmadýðý, tersine BLEU puanlarýnda artýþ elde edilerek üretilen
çevirilerin kalitesinin yükseltilemeyebileceði ortaya çýkartýlmýþtýr. Ancak BLEU yönteminin
otomatik olmasý ve insan emeði gerektiren deðerlendirmelere oranla çok daha ucuz ve hýzlý
olmasý gibi nedenlerden dolayý günümüzde BLEU yöntemi yaygýn olarak kullanýlmaktadýr.
Anýlan nedenlerden ötürü BLEU yönteminin farklý (en azýndan istatistiksel - kural tabanlý gibi
farklý aktarým yaklaþýmlarý kullanan) sistemlerin baþarýlarýnýn karþýlaþtýrýlmasýnda
kullanýlmamasý gerektiði, BLEUnun daha çok tek bir sistem üzerinde yapýlan ardýþýk
deðiþikliklerin etkilerini deðerlendirmede kullanýlmasýnýn uygun olacaðý görüþü aðýrlýk
kazanmýþtýr .
11.4.2 F Deðeri
F-deðeri, bilgi getiriminde kullanýlan keskinlik ve anma deðerlerinin harmonik ortalamasý
olarak tanýmlanabilir. Bu yöntem, aday tümce ile referans tümce arasýnda, daha uzun sözcük
dizisi eþleþmelerini kayýracak biçimde “en uzun eþleþmeyi” bulmak üzerine yoðunlaþýr. Bu
eþleþmenin bulunmasýndan sonra keskinlik ve anma deðerleri, bulunan bu en uzun eþleþme EUE
sözcük sayýsý ile, sýrasýyla aday A ve referans R tümcelerindeki sözcük sayýlarýna bölünerek
bulunur:
Keskinlik A REUE A R
A( | )
| ( , )|
| |= (11.7)
Anma A REUE A R
R( | )
| ( , )
| |= (11.8)
11.4.3 Meteor
Meteor ölçütü, F-ölçütü’nü birkaç yönden deðiþtirerek kullanmaktadýr . Meteor deðerlendirme
sisteminde bazý dilbilimsel süreçler deðerlendirme aþamasýna dahil edilerek doðrudan sözcük
eþleþmeleri yerine sözcük köklerinin de eþleþmesine olanak tanýnmýþtýr. Ayrýca Meteor
yönteminde, anma deðeri üzerinde aðýrlaþtýrma yapan bir harmonik ortalama kullanýlýr :
FPR
R Port =
+
10
9(11.9)
11.4 Çeviri Kalitesinin Deðerlendirilmesi - 19
Keskinlik ve anma deðerlerinin sözcük eþleþmesine (1-gram) baðlý olmasýndan dolayý daha
uzun eþleþmeler deðerlendirmeye alýnmamaktadýr. Yöntem, bu açýðý kapatmak amacýyla bir
ceza katsayýsý içermektedir. Bu katsayý hesaplanmadan önce, aday ve referans tümcede
birbirlerinin karþýlýðý olan sözcük gruplarý (chunks) oluþturulur. Bu sözcük gruplarýný
oluþturulmasýnda tek kýsýt, hem aday hem de referans tümcede birbirlerinin karþýlýðý olan
sözcüklerin sýralarýnýn grup içinde de ayný kalmasýdýr. Örneðin “daha sonra beraber eve gittiler”
aday çevirisi ile “daha sonra hep beraber eve gittiler” referans çevirisinde iki grup oluþur : (1)
“daha sonra” (2) “beraber eve gittiler”. Bu gruplamadan sonra ceza katsayýsý ve sonuç puaný
aþaðýda formüllere göre hesaplanýr:
Cezagruplar
eþleþensözcükler= ´
é
ëê
ù
ûú0 5
3
,| |
| |(11.10)
METEOR F Cezaort= ´ -( )1 (11.11)
Meteor yönteminin en önemli olumsuz yönü, birden fazla referans çeviri olduðunda ortaya
çýkmaktadýr. Her referans çeviri için bir puan hesaplanarak en yüksek puan çýktý olarak
kullanýlýr. Oysa bazý durumlarda çevirinin bir bölümü (örneðin özneyi oluþturan ad öbeði)
referanslardan bir tanesinin bir bölümü ile eþleþirken, çevirinin baþka bir bölümü (örneðin
eylem öbeði) baþka bir referans ile eþleþebilir. Yöntemin bir baþka bir olumsuz tarafý ise
puanlamada kullanýlan katsayýlarýn deðerlerinin belirlenmesidir. Geçerli katsayýlar
deneme-yanýlma yöntemi ile bulunduðundan en uygun katsayýlar olup olmadýðý þüphelidir.
11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri
Akraba diller arasýndaki yapýsal benzerlikler yardýmý ile, bu diller arasýnda bilgisayarlý çevirinin
gerçekleþtirilmesi, farklý dil aileleri arasýnda çeviri yapmaktan, en azýndan sezgisel olarak, daha
kolay görünmektedir. Tamamen farklý dil ailelerinde sýnýflandýrýlan diller arasýnda çeviri
yapmanýn zorluðu.
A. C. Tantuð tarafýndan gerçekleþtirilen çalýþmada akraba diller arasýnda bilgisayarlý metin
çevirisi için istatistiksel ve bilgi tabanlý yöntemlerin beraber kullanýldýðý karma modeller
önerilmiþtir. Önerilen bu karma modeller sayesinde hem istastiksel yöntemlerin en maliyetli
yönü olan hizalanmýþ eðitim kümesi gereksinimi ortadan kaldýrýlmýþ olmakta hem de yüksek
baþarýlar elde eden istatiksel yöntemlerin sunduðu getirilerden faydanýlmýþ olunmaktadýr.
Geliþtirilen modeller, temelde bitiþken yapýdaki akraba diller için tasarlanmýþtýr. Çalýþma
kapsamýnda önerilen modeller Türk dil ailesindeki dillerin birbirine çevrilmesi amacýyla
incelenmiþ, seçilen bir dil çifti için uygulama gerçeklenerek modellerin baþarýmý ortaya
konulmuþtur. Ancak geliþtirilen modeller Türk dillerine özgü olmayýp, dilden baðýmsýz
düþünülmüþ, akraba ve bitiþken olan tüm dil çiftleri için kullanýlabilir niteliktedir.
Modellerin çýkýþ noktasý (11.12) baðýntýsýyla verilmiþtir. Bu denklem aþaðýdaki tekrar
verilmiþtir :
20 - Bilgisayarlý Çeviri
H P K H P HH Hedef Dil
çeviri modeli Dil mo
=Î
argmax ( | ) ( )1 24 34
deli
123(11.12)
Ýki bileþenden oluþan bu denklemin dil modeli bileþeni, sadece hedef dil için hazýrlandýðýndan,
çeviri modeline göre daha kolay oluþturulabilir. Çeviri modelinin oluþturulmasý için çok sayýda
hizalanmýþ tümce çiftlerine gereksinim duyulmaktadýr. Ancak günümüzde dahi her dil çifti için
birbirlerinin çevirisi olan hizalanmýþ tümcelerin yeterli miktarlarda bulunmasý mümkün
olmamaktadýr. Amacýmýz, bu olumsuz koþullarda da istatistiksel çevirinin kullanýlabilir hale
gelmesi için, istatistiksel çevirideki bu “çeviri modeli olasýlýk daðýlýmý” yerine kullanýlabilecek
bir modelin oluþturulmasýdýr.
Kuramsal açýdan denklem (11.12) hedef dildeki bütün tümceler içerisinden, çeviri ve dil
modellerine göre en yüksek olasýlýða sahip tümcenin bulunmasý anlamýna gelmektedir.
Ancak bir dildeki olasý tümcelerin sayýsýnýn sonsuz olmasý nedeni ile uygulamada çeviriyi
üreten çözücü, hedef dildeki H tümcesini adým adým (sözcük ya da sözcük öbeði adýmlarý ile)
üretmeye baþlar . Her adýmda, çeviri modeline ve dil modeline göre en yüksek olasýlýða sahip
seçenek ya da seçeneklerden devam ederek sonunda tüm çeviri tümcesini oluþturur. Bu çalýþma
düzeninde çeviri modeli, kaynak tümcenin sözcüklerinin ya da sözcük öbeklerinin karþýlýðý
olabilecek tümceleri (olasýlýklarýna göre) oluþtururken, dil modeli bileþeni de oluþan bu
tümceler içinden hedef dil için en uygununu bulmaya çalýþýr. Bir anlamda “çeviri modeli”, hedef
dildeki tüm tümcelerde arama yapmak yerine, kaynak tümcenin çevirisi olabilecek tümceleri
olasýlýklarýna göre seçerek aramayý yönlendirmektedir.
Bu çalýþmasýnda önerilen yaklaþým, akraba diller, örneðin Türk dilleri, arasýnda çeviri söz
konusu olduðunda, olasýlýk daðýlýmý esasýna göre çalýþan “çeviri bileþeninin”, kural tabanlý
çalýþan “aktarým fonksiyonu” ile deðiþtirilerek istatistiksel dil modeli ile beraber kullanýlmasý
yönündedir. Bu yaklaþým sezgisel olarak, dil modeline göre en uygun tümceyi, “çeviri
modelinin yönlendirmesi ile hedef dildeki bütün tümceler kümesinde aramak yerine, aktarým
fonksiyonu tarafýndan aktarýlan sözcük/sözcük öbekleri ile oluþturulabilecek tüm olasý tümceler
kümesinde aramak” olarak yorumlanabilir. Bu sayede, Türk dilleri gibi birbirleri ile benzer
akraba diller arasýnda kullanýlabilecek, bilgi tabanlý yöntemler ve istatistik tabanlý yöntemlerin
birleþimi olan karma bir çeviri modeli önerilmiþtir.
Önerilen bu modele göre denklem (11.12)’nin güncellenmiþ hali aþaðýdaki gibidir:
H P HH F K
dil modeliaktarýmfonksiyonu
^
( )arg max ( )=
Î 123123
(11.13)
Önerdiðimiz çeviri modeli de iki bileþenden oluþmaktadýr. Aktarým fonksiyonu, K tümcesinin
karþýlýðý olabilecek tüm tümceleri üreten bir fonksiyon olarak görev yaparken, dil modeli ise
klasik anlamda kullanýlarak üretilen karþýlýklar arasýndan hedef dile göre en yüksek olasýlýk
deðerine sahip tümcenin seçilmesini saðlar.
11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 21
Ancak önerilen bilgisayarlý çeviri yöntemi ile istatistiksel çeviri yöntemi arasýnda vurgulanmasý
gereken önemli bir farklýlýk bulunmaktadýr. Ýstatistiksel çeviri sisteminde yer alan çeviri modeli,
kaynak dildeki tümcenin karþýlýðý olabilecek aday tümceler kümesini üretirken ayný zamanda
bunlar için birer olasýlýk deðeri de atamaktadýr. Bu olasýlýk deðeri, dil modeli olasýlýðý ile
birleþtirilerek en yüksek olasýlýklý çevirinin belirlenmesinde rol oynar. Oysa A. C. Tantuð
tarafýndan önerilen aktarým modelindeki aktarým fonksiyonu, sadece kaynak tümcenin karþýlýðý
olabilecek tümceler üretmektedir; bunlara herhangi bir olasýlýk deðeri atanmamaktadýr. Bu
tümcelerden en uygun olaný ise dil modeli bileþeni tarafýndan en yüksek olasýlýklý tümcenin
seçilmesi ile belirlenir.
Seçilen dil çiftinin bitiþken olmasý durumunda aktarým fonksiyonu ve dil modeli bileþeni,
özelleþtirilerek kullanýlmalýdýr. Sonraki bölümlerde önerilen aktarým fonksiyonu ve dil modeli
türlerinin ayrýntýlarý ele alýnmýþtýr.
11.5.1Aktarým Fonksiyonu Modelleri
Akraba diller söz konusu olduðunda, diller arasýndaki benzerlikleri kullanarak çeviri sürecini
basitleþtirmenin en kolay yolu, sözcük bazýnda çalýþan doðrudan aktarým modelinin
kullanýlmasýdýr. Özellikle sözdizimi açýsýnda büyük farklýlýklar göstermeyen akraba diller
arasýnda daha uygun olan bu doðrudan aktarým modeli, bitiþken diller için, sözcük kökleri ile
birlikte biçimbilimsel yapýlarýn da aktarýlmasýný saðlayacak biçimde deðiþtirilmiþtir.
11.5.1.1 Aktarým Modeli 0 – Temel Model
Temel aktarým modelinin matematiksel açýklamasý aþaðýda verilmiþtir.
K, toplam N adet sözcükten oluþan (k1,k2,....kn) kaynak dilde bir tümce olsun.
K k k k knN= =1 2 1.... (11.14)
Bitiþken diller söz konusu olduðunda, her bir sözcüðün hedef dile aktarýlmasý için öncelikle
biçimbilimsel çözümlemesinin yapýlmasý, sözcük kökünün ve diðer biçimbilimsel yapýlarýn
bulunmasý gereklidir. Buna göre biçimbilimsel çözümleme aþamasý, giriþi kaynak dilde
yüzeysel biçimdeki sözcük ki, çýkýþý ise bu sözcüðün olasý tüm biçimbilimsel çözümlemelerini
içeren bir küme olan C(ki) çözümleme fonksiyonu ile modellenir.
{ }C k c c ci i i ini( ) , , ...,= 1 2 (11.15)
Burada ni , ki sözcüðü için üretilen biçimbilimsel çözümlemelerin toplam sayýsýdýr ve ni ³ 1
þeklinde alttan sýnýrlýdýr. Üretilen her bir biçimbilimsel çözümleme, kök ve bu köke eklenen
deðiþken sayýda biçimbilimsel özelliklerden oluþur:
c kök b b bij ij ij ijk ijmi= + + + +1 ... ... (11.16)
Biçimbilimsel özellikler bijk ve sözcük kökleri kokij aktarýlmasý A(cij) aktarým fonksiyonu ile
saðlanýr. Bu aktarým fonksiyonu giriþ deðeri olarak, biçimbilimsel bir çözümleme cij’yi almakta,
22 - Bilgisayarlý Çeviri
çýkýþ olarak ise sözcük kökünün ve biçimbilimsel özelliklerin hedef dile aktarýlmýþ halini
üretmektedir:
{ }A c a a aij ij ijk ijnij( ) , ..., , ...,= +1 (11.17)
Sözcük köklerinin çevrilmesinde birden-çoða iliþki olduðu için bir çözümlemeye karþýlýk
birden fazla çeviri oluþabilmektedir. Dolayýsý ile A fonksiyonu çokdeðerli bir fonksiyon olarak
iþlev görmektedir. Bu koþullarda üretilen sözcük sayýsý nij ³ 1 olacaktýr. Kaynak tümcedeki ki
sözcüðünün cj çözümlemesine karþýlýk olarak üretilen her bir aijk çýktýsý, çözümleme ile benzer
yapýya sahiptir:
a kökh bh bh bhijkmijk ijk ijk ijk ijk= + + + +1 2 ... (11.18)
Burada kokh hedef dildeki kökü, bh ise hedef dildeki biçimbilimsel özellikleri göstermektedir.
Bütün bu tanýmlamalardan sonra, transfer fonksiyonun tanýmý yapýlabilir. Aslýnda tanýmlanmasý
amaçlanan aktarým fonksiyonu F, bir fonksiyon deðildir. F, bir baðýntý olarak tanýmlanmalýdýr.
Hedef dildeki tüm tümceler üzerinde tanýmlý olan bu baðýntý, yalnýzca “kaynak dildeki
sözcüklerin hedef dildeki karþýlýklarýndan oluþan bir dizi sözcüðü içeren” bir alt kümedir:
F K F k A C A c A cNj
c C k
j Nj
cj Nj
( ) ( ) ( ) ( ) ... ( )( )
= = ´ ´ ´Î Î
1 1 2
1 1
UC kc C k Nj ( )( )UU
2 2Î
=Î=
Õ A c j
c C ki
N
ij i
( )( )
11
U (11.19)
Eðer fi(K), F(K), baðýntýsýnýn i. elemaný olarak tanýmlanýrsa, geliþtirilen aktarým modelimizin
amacý, olasý bütün çeviriler içerisinden en yüksek olasýlýklý H B
^
‘yi bulmak olarak ifade
edilebilir. Buradaki alt indis B, oluþan tümcenin sözcüklerinin yüzeysel biçim yerine yapýsal
biçimde olduðunu belirtmektedir. En yüksek olasýlýklý tümcenin bulunmasý ise, E eðitim
derlemi üzerinde eðitilen bir L(E) dil modeli ile saðlanýr:
H p f K L EB
f K F Ki
i
^
( ) ( )
arg max ( ( )| ( )=Î
(11.20)
Aktarým modelinin son aþamasý ise hedef dildeki biçimbilimsel üretici tarafýndan, dönüþtürülen
sözcük kökleri ve biçimbilimsel yapýlardan yüzeysel biçimlerin elde edilmesidir. Bu üretim
aþamasý ise bir U fonksiyonu ile temsil edilir:
H U H h h hB M
^ ^
( ) ...= = 1 2 (11.21)
Modelin son çýktýsý olan, kaynak dildeki sözcüklerin, hedef dildeki karþýlýklarýnýn sýralandýðý
tümceyi göstermektedir. Aktarým aþamasýnda birden çoða bir yöntem izlendiðinden, oluþan
çeviri tümcesinin sözcük sayýsý M ³ N’dir.
11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 23
11.5.1.2 Aktarým Modeli I
Temel modelin en önemli olumsuzluðu, sözcük bazýnda sadece bire bir ya da birden çoða
aktarým yapýlmasýna izin vermesidir. Temel modelin bu kýsýtlamasý sonucu, kaynak tümcede
birden çok sözcükle ifade edilen yapýlar hedef dile doðru aktarýlamayacaktýr. Bu sorunu
gidermek amacý ile temel modele çoktan çoða aktarým yapmak üzere bir takým eklemeler
yapýlarak "Aktarým Modeli I" elde edilmiþtir. Bu eklemelerle öncelikle Çoklu Sözcük Gruplarý
(ÇSG) belirlenmiþ, daha sonra bu gruplar uygun þekilde hedef dile aktarýlmýþtýr.
Bitiþken diller için çoklu sözcük gruplarýnýn bulunma süreci, Ýngilizce, Çince gibi yalýtýmlý ya
da yalýtýmlýya yakýn dillerdeki kadar basit deðildir. Bunlar ve benzeri dillerde basit bir liste
kullanýlarak çoklu sözcük gruplarý belirlenebilirken, Türkçe, Fince, Japonca, Macarca gibi
bitiþken dillerde çoklu sözcük kümelerininn bileþenleri çeþitli biçimbilimsel deðiþikliklere
uðrayabilirler. Bu deðiþiklikler, ÇSG’lerin, basitçe bir listeden bakýlarak belirlenmesini
engellemektedir. Sonuç olarak, bitiþken dillerde ÇSG’lerin bulunmasý için tümcedeki
sözcüklerin kökleri ve diðer biçimbilimsel özellikleri gibi daha ayrýntýlý bilgilerle, düzenli
ifadeler ya da sonlu durumlu dönüþtürücüler gibi daha karmaþýk araçlara gerek duyulur.
Temel model tanýtýlýrken verilen matematiksel altyapýya baðlý kalýnarak ÇSG’lerin iþlenmesi ile
ortaya konulan yeni modelin matematiksel ifadesi aþaðýdaki gibi kurulmuþtur.
ÇSG’leri, bir ya da birden fazla sözcüðe ait biçimbilimsel çözümleme kümeleri arasýndan belirli
bir yönteme ya da kural dizisine göre seçilen elemanlardan oluþan sýralý eþleþmeler (ordered
pairs) olarak adlandýrýlabiliriz. Örneðin aþaðýda bir K tümcesinin ardýþýl üç sözcüðü (ki ki+1 ki+2)
için biçimbilimsel çözümleme sonuçlarý bulunmaktadýr:
{ }C k c c c ci i i i x i ni( ) , ..., , ..., , ...,, , , ,= 1 2
{ }C k c c c ci i i i x i ni( ) , ..., , ..., , ...,, , , ,+ + + + +=
+1 1 1 1 2 1 1 1(11.22)
{ }C k c c c ci i i i x i ni( ) , ..., , ..., , ...,, , , ,+ + + + +=
+2 2 1 2 2 2 2 2
Varsayalým ki ÇSG bulucu kurallar, bu üç sözcüðün çözümlemeleri içerisindeki ci,x , ci+1,y ve
ci+2,z çözümlemelerinin bir ÇSG oluþturduðunu belirlesin. Bu durumda bu üç elemanlý sýralý
eþleþmeler (ci,x , ci+1,y , ci+2,z) , G(K) kümesinin bir elemaný olur. Bu durumda G(K) aþaðýdaki
kümeler üzerinde tanýmlý bir baðýntý olmaktadýr:
G K C k ii
N
( ) ( )Í=
Õ1
(11.23)
Tümceyi oluþturan bütün sözcüklerin tüm çözümlemelerinin kartezyen çarpýmý içerisinde
arama yapýlarak, kurallara uyan sýralý çiftler G(K) baðýntýsýnýn elemaný olarak belirlenir. Ancak
ifade bu þekli ile matematiksel olarak yanlýþtýr. Çünkü kartezyen çarpýmý ile oluþturulan
kümenin elemanlarýnýn hepsi, mutlak olarak N sözcükten oluþmalýdýr. Bu ise þu anlama
gelmektedir: sadece N sözcükten oluþmuþ ÇSG’leri iþlenebilir, yukarýda örnekteki (ci,x , ci+1,y ,
ci+2,z) gibi üç elemanlý bir sýralý eþleþme girdisi G(K) kümesinin elemaný olamaz.
24 - Bilgisayarlý Çeviri
Bunu düzeltmek için G(K) baðýntýsýnýn üzerinde tanýmlý olduðu kümelere etkisiz bir eleman
eklemek yeterli olacaktýr:
{ }G K C k ii
N
( ) ( ( ) )Í È=
Õ e1
(11.24)
ÇSG belirleyici kurallarýn, e girdisini boþ katar olarak yorumlayacaðý ve göz ardý edeceði
düþünüldüðünde, (ci,x , ci+1,y , ci+2,z) girdisi artýk (e, e,…, ci,x ,ci+1,y ,ci+2,z ,…,e,e) biçimine
dönüþerek G(K) kümesine eklenebilir.
Sözcük sözcük aktarma yapýlýrken, eðer sýradaki sözcüðün herhangi bir çözümlemesi cij, G(K)
içerisindeki ÇSG’lerin bir parçasý ise, bu sözcüðün hiçbir çözümlemesi aktarýlmaz. Ancak eðer
cij, bu ÇSG’nin son sözcüðü ise, cij yerine bu ÇSG birleþtirilerek aktarým fonksiyonuna
gönderilir. Buna göre yukarýda verilen (ci,x , ci+1,y , ci+2,z) örneðinin aktarýlma süreci aþaðýdaki
gibidir:
{ }C k c c c ci i i i x i ni( ) , ..., , ..., , , ,= +1 2
{ }E C k i( ( )) , , ... , ...= Æ Æ Æ Æ
{ }C k c c c ci i i i x i ni( ) , ..., , ..., , , ,+ + + + += +
+1 1 1 1 2 1 1 1
{ }E C k i( ( )) , , ... , ...+ = Æ Æ Æ Æ1 (11.25)
{ }C k c c c ci i i i x i ni( ) , ..., , ..., , , ,+ + + + += +
+2 2 1 2 2 2 2 2
{ }E C k B c c ci i x i y i z( ( )) , , ... ( , , ), ..., , ,+ + += Æ Æ Æ2 1 2
Bu çalýþma düzenini saðlayan E fonksiyonunun tanýmý aþaðýda verilmiþtir:
E C
C e er j j n p p N c x
e erij
ij i ij p
( )
ð ( : )( : ) ( )
ð (=
" £ £ " £ £ ¹
Æ
1 1 1
$ £ £ " £ £ = Ù ¹
$ £
+j j n p p N c x x
B X e er j
i ij p p: )( : ) ( )
( ) ð ( :
1 1 2
1
1 e
j n p p N c x xi ij p p£ " £ £ = Ù =
ì
íï
îï
+)( : ) ( )1 31 e
(11.26)
Denklem (11.26)’da yer alan xp, XÎG(K) sýralý eþleþmesinin p. elemanýdýr. B fonksiyonu ise X
sözcük dizisini, geçerli bir biçime getirmek için uygun þekilde birleþtirerek tek bir kök ve uygun
biçimbilimsel özellikleri içeren yapýya dönüþtüren bir birleþtirme fonksiyonudur.
E fonksiyonun üzerinde biraz açýklama yapmak uygun olacaktýr. Fonksiyonun (1). alt taným
aralýðýnda, K tümcesinin i. sözcüðü ki‘nin j. çözümlemesi cij’nin aktarýlýp aktarýlmayacaðýna
karar verilir. Eðer ki‘ye ait çözümlemelerden hiçbirisi, G(K)’da belirlenen ÇSG yapýlarýnýn
herhangi birisinin bileþeni olarak geçmiyorsa, cij olduðu gibi çýkýþ olarak üretilir. (2) ile
numaralandýrýlmýþ alt taným aralýðý ise, eðer ki sözcüðünün herhangi bir çözümlemesi,
G(K)’daki herhangi bir ÇSG’nin son bileþen (xp+1 ¹ e) dýþýndaki bir bileþeni ise , ki‘ye ait bütün
çözümlemelerin göz ardý edileceðini söylemektedir. Son taným aralýðý (3) bölgesinde ise, ki‘ye
ait bir çözümleme, G(K) baðýntýsýndaki herhangi bir ÇSG’nin son sözcüðü ise (xp+1 = e), cij
yerine ÇSG’nin tamamý (X) B fonksiyonu tarafýndan dönüþtürülerek üretilir.
11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 25
ÇSG’lerin aktarýlmasý için bu tanýmlamalar yapýldýktan sonra, kaynak tümcenin olasý bütün
karþýlýklarýný üreten transfer fonksiyonun denklemi , aþaðýdaki gibi deðiþtirilir:
F K F k A E c A E cNj
c C k
j
c C kj j
( ) ( ) ( ( )) ( ( ))( ) (
= = ´ ´Î Î
1 1 2
1 1 2 2
U) ( )
... ( ( ))U U´Î
A E c Nj
c C kNj N
1
=Î=
Õ A E c j
c C ki
N
ij i
( ( ))( )
11
U (11.27)
Dil modelini kullanarak en yüksek olasýlýklý tümcenin seçildiði bundan sonraki denklemlerde
herhangi bir deðiþme olmaz.
11.5.1.3 Aktarým Modeli II
Geliþtirilen modellerdeki bir diðer eksiklik de aktarým kurallarýnýn sözcük bazýnda iþlem
görmesidir. Akraba diller arasýnda çeviri yapýlsa bile, sözcükler arasý iliþkiler her zaman
bulunur. Çeviri modelinin baþarýsýnýn arttýrýlabilmesi için bu iliþkiler göz önüne alýnarak
aktarým yapýlmalýdýr. Örneðin bazý Türk dilleri arasýnda çeviri yaparken, ortaçlarýn, niteledikleri
isimden bazý biçimbilimsel özellikleri almasý gerekmektedir. Bu ve buna benzer durumlarý
baþarýlý çevirebilmek için tümce genelinde iþlem gören bir takým aktarým kurallarý
tanýmlanmalýdýr. Tümce genelinde çalýþan aktarým kurallarý, tümcedeki sözcüklerin
biçimbilimsel bilgilerini kullanabileceði gibi bazý kurallar da sözcüklerin yüzeysel biçimlerine
gerek duyabilir.
Ancak mevcut aktarým fonksiyonu A, sadece sözcük kökleri ve sözcüðe ait biçimbilimsel
yapýlarýn aktarýmý saðlamaktadýr. Bunu geliþtirmek üzere denklem (11.21) aþaðýdaki gibi
deðiþtirilmiþtir:
H S U S H h h hY B B M
^ ^
( ( ( ))) ...= = 1 2 (11.28)
Bu denklemde, hedef dilde oluþturulan tümceler üzerinde iþlem gören bir SB fonksiyonu
tanýmlanmýþtýr. Bu fonksiyona, giriþ olarak yapýsal gösterimde sözcüklerden oluþmuþ tümceler
kümesi gelir. Fonksiyon, her bir tümce üzerinde, sözcükler arasýnda tanýmlanan kurallara uygun
olarak aktarýmý gerçekleþtirilir. Tümcedeki sözcüklerin yüzeysel biçimlerine gerek duyarak
yapýlan deðiþiklikler ise SY fonksiyonu modellenmiþtir.
11.5.2 Bitiþken Diller Ýçin ÝDM Oluþturulmasý
Ýngilizce, Almanca gibi dillerden farklý olarak, Türkçe için dil modelleri oluþturulurken
sözcüklerin yüzeysel biçimlerinin kullanýlmasý, Türkçenin türetken ve çekimli yapýsýndan
dolayý seyrek veri sorununa yol açmaktadýr. Bu yüzden eðitim verisi olarak sözcüklerin
yüzeysel biçimleri yerine, sözcüklerin köklerinin ve diðer bazý biçimbilimsel özelliklerin
kullanýlmasý yoluna gidilmiþtir.
26 - Bilgisayarlý Çeviri
Yüzeysel biçim yerine, sözcüklere ait biçimbilimsel çözümleme sonuçlarýnýn tamamýnýn
kullanýlarak bir ÝDM oluþturulmasý durumunda, gene seyrek veri sorunu oluþmaktadýr. Seyrek
veri sorununu azaltmak için, biçimbilimsel çözümlemedeki tüm etiketler yerine bunlarýn
gruplanarak kullanýlmasý fikri ortaya çýkmýþtýr . Örneðin Türkçedeki her sözcük, kök ve bir veya
birden fazla çekim grubundan oluþmaktadýr. Çekim gruplarý birbirlerinden ^DB (derivation
boundary) ile ayrýlmaktadýr :
kök+ÇG1^DB+ÇG2^DB+…^DB+ÇGn
Burada ÇGi, sözcük türü ve çekim özelliklerini de içeren ilgili çekim grubunu ifade etmektedir.
Örnek olarak aþaðýda bir biçimbilimsel çözümleme sonucu verilmiþtir:
yararlanmanýn : yarar+Noun+A3sg+Pnon+Nom ÇG1
^DB+Verb+Acquire+Pos ÇG2
^DB+Noun+Inf2+A3sg+Pnon+Gen ÇG3
Bu örnekte, isim türlü yarar sözcüðünün sözcük türü, +lan yapým eki ile önce eyleme daha
sonra da +ma mastar eki ile de tekrar isme dönüþmüþtür. Bu dönüþme süreci içerisinde oluþan
her sözcük türünün de kendisine ait çekim özellikleri bulunabilir. Türetilmiþ bir sözcüðün etkin
sözcük türü, son ÇG’nin sözcük türü olarak kullanýlýr (örneðin etkin sözcük türü “isim”dir).
Tablo-11.2’de 1 M sözcükten oluþan bir derlem üzerinde gözlenen, kök hariç bütün etiketlerin
bulunduðu tam çözümlemelerin ve ÇG’lerin sayýlarý verilmiþtir. Bir köke eklenebilecek ek
sayýsýnýn sýnýrsýz olmasýna karþýn, derlem üzerinde yapýlan sayýma göre 10.531 farklý tam
çözümlemeye rastlanmýþtýr. Tam çözümlemeler ÇG’lere ayrýlarak ÇG’ler sayýldýðýnda 2.194
farklý ÇG’ye bulunmuþtur. Bu sonuçlar seyrek veri sorununun indirgendiði ortaya koymaktadýr.
Tablo-11.2: Derlemde Gözlenen Tam Çözümleme ve Çekim Grubu Sayýlarý
Kuramsal Üst Sýnýr Gözlenen Adet
Tam Çözümleme µ 10.531
Çekim Grubu 9.129 2.194
Sadeleþtirme açýsýndan yapýlan bir baþka genelleme de ÇG’lerden oluþan türetilmiþ bir
sözcüðün sözdizimsel açýdan baðlantýsýnýn, son ÇG’den çýkarak sonraki sözcüklerin
ÇG’lerinden herhangi bir tanesine baðlanmasý þeklinde ifade edilir.
11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 27
11.6 Türk Dilleri Arasýndaki Benzerlikler
Türk dilleri anlam ve biçim açýsýndan incelendiðinde birçok benzerlik ve aynýlýk olduðu
görülür. Benzerlikler, sözcük daðarcýklarýndaki ortak sözcükler açýsýndan incelendiðinde
baskýn olarak adýllar, sýfatlar, ilgeçler, belirteçler, zamanla ilgili sözcükler, organ isimleri, doða,
bitki ve hayvan isimlerinde ortak kullanýmlarýn olduðu görülmektedir. Ayrýca sözdizimsel
açýdan bütün Türk dilleri özne-nesne-yüklem (SOV) sýrasýný kullanmaktadýr. Ortak sözcüklerin
dýþýnda Türk dillerinin benzerlikleri, biçimbilimsel açýdan incelendiðinde ise ek türlerinin ve
ekleniþ biçimlerinin çoðu kez ayný olduðu görülmektedir. Örneðin ’de bazý Türk dilleri için isim
durum ekleri verilmiþtir . Hemen hemen bütün Türk dillerinde özellikle adlara eklenen çekim
eklerinin türleri ve sýralarý aynýdýr. Büyük ünlü uyumu, küçük ünlü uyumu, ünsüz benzeþmesi
gibi bazý yazým kurallarý da hepsinde görülmese de bazý Türk dillerinde ortak olarak bulunur.
Tüm bu benzerliklere örnek olarak aþaðýda farklý Türk dillerinde ortak olarak kullanýlan iki
deyim verilmiþtir.
Türkçe : Aðýr kazan geç kaynar.
Azerbaycan : Aðýr qazan geç qaynayar.
Turkmen : Agyr gazan giç gaýnar.
Özbek : Çuqur därya tinç aqar.
Kýrgýz : Oor kazan keç kaynayt.
Kazak : Awur qazan keþ qaynaydý.
Turkçe : Dað daða kavuþmaz, insan insana kavuþur.
Azerbaycan : Dað daða govuþmaz, insan insana govuþur.
Turkmen : Dag daga duþmaz adama adama duþar.
Özbek : Tåð tåð bilän qavuþmas, adam adam bilän qavuþar.
Kýrgýz : Too tooðo koþulbayt, adam menen adam koþulat.
Kazak : Taw tawða qosýlmas, adam adamða qosýldý.
Görüldüðü gibi sözcük sýralarý çoðunlukla aynýdýr. Yalnýzca bazý sözcükler bazý Türk dillerinde
iki ya da daha fazla sözcükle ifade edilmektedir.
28 - Bilgisayarlý Çeviri
irel
kE
mur
uD
misÝ
niçi ir
elliD
krü
T ýza
B : 3.
11-
olb
aT
dA
muruD
irelkE
eçkrüT
ecirezA
ecnemkrü
Teçkebz
Öaczýgrý
Kaçkaza
Kacrug
yu
emtrile
Bu
muruD
)ü
+,u
+,i+( ý
+
)üy
+,uy
+,iy+( ýy
+
)ü
+,u
+,i+( ý
+
)ü
n+,
un
+,in
+( ýn
+
)i+( y
+
)in
+( yn
+i
n+
)ü
n+,
un
+,in
+( ýn
+
)ü
d+,
ud
+,id
+( ýd
+
)üt
+,ut
+,it+( ýt
+
n
+
)in
+( ýn
+
)id
+( ýd
+
)it+( ýt
+
n
+
in
+
emlenö
Yu
muruD
)e
+( a
+
)ey
+( ay
+
+( a
+N
) y+(
ay+
N)
)ä
+ ,e
+( a
+
äg
+
äk
+
aq
+
)ö
g+,
og
+,e
g+(
ag
+
)ö
k+,
ok
+,ek
+( ak
+
)ö
n+,
on
+,en
+( an
+
)ö
+,o
+ ,e
+( a
+
)e
g+(
að
+
)ek
+( aq
+
)e
+( a
+
)e
g+(
ag
+
)e
k+(
ak
+
amla
Ku
muruD
)e
d+(
ad
+
)et
+( at
+d
+( a
d+
N)
)e
d+(
ad
+ä
d+
)ö
d+,
od
+,e
d+(
ad
+
)öt
+,ot
+,et
+( at
+
)e
d+(
ad
+
)et+( at
+
)e
dn
+( a
dn
+
)e
d+(
ad
+
)et+( at
+
)e
dn
+( a
dn
+
amký
Çu
muruD
)n
ed
+( n
ad
+
)n
et+(
nat
+d
+( n
ad
+N
)n
)n
ed
+( n
ad
+n
äd
+
)n
öd
+,n
od
+,n
ed
+(n
ad
+
)n
öt+,
not
+,net
+( nat
+
)n
ön
+,n
on
+,n
en
+(n
an
+
)n
ed
+( n
ad
+
)net
+( nat
+
)n
en
+( n
an
+
nid
+
nit+
nayalma
T
um
uru
D
)n
ü+,
nu
+,ni
+( ný
+
nýn
+
)n
ün
+,n
un
+,ni
n+(
)n
ü+,
nu
+,ni
+( ný
+
nýn
+
)n
ün
+,n
un
+,ni
n+(
)ñ
ü+,
ñu
+,ñi
+( ñy
+
)ñi
n+(
ñyn
+ñi
n+
)n
ün
+,n
un
+,ni
n+(
nýn
+
)n
üd
+,n
ud
+,ni
d+(
nýd
+
)n
üt+,
nut
+,nit
+( nýt
+
)ñi
n+(
ñýn
+
)ñi
d+(
ñýd
+
)ñit
+( ñýt
+
ñin
+
11.6 Türk Dilleri Arasýndaki Benzerlikler - 29
11.7 Türk Dilleri Arasýndaki Farklýlýklar
Tümceler arasýnda sözcük sýralarý açýsýndan çoðunlukla benzerlik söz konusu olsa da bazý
durumlarda tümce içindeki sözcüklerin yerleri de deðiþebilir. Örnek olarak çoðu Türk dilinde
bulunan Þekil-11.12'deki atasözü verilmiþtir:
Ancak Türk dillerinde, sözcük öbeklerinin tümce içerisinde yer deðiþtirebilmesi özelliði
bulunduðundan, Özbekçe tümce Türkçeye çevrilirken sözcük sýralarýnda bir deðiþikliðe
gidilmese bile anlamý koruyan Türkçe tümce üretilebilir:
Akýlsýz dosttan akýllý düþman yeðdir.
Türk dilleri arasýnda gözlenebilen diðer farklýlýklar özellikle eylem çekimlerinde ortaya çýkan
farklý zaman kullanýmlarý, dillere özel kipler ve özne yüklem uyumlarýndaki farklýlýklardýr.
Örneðin Türkçedeki geniþ zaman kalýbý Türkmencede gelecek zaman anlamýný taþýr. Ayrýca
Türkmencede, Türkçede bulunmayan +makçý/+mekçi ekleri ile kurulan ve “bir eylemi yapmayý
düþünmek/yapmaya niyetlenmek” anlamýnda bir eylem kipi bulunur.
11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri
Türk dilleri arasýnda çeviri yaparken ortaya çýkan en büyük sorun, Türkçe dýþýndaki diðer Türk
dilleri için doðal dil iþleme çalýþmalarýnýn yok denecek kadar az olmasýdýr. Birçok Türk dili için
biçimbilimsel çözümleme, sözdizim çözümleme gibi araçlar ya da elektronik ortama aktarýlmýþ
sözlükler veya iþlenmiþ metinler bulmak olasý deðildir. Türkçe için bile genel amaçlý
kullanýlabilecek yüksek baþarýmlý bir sözdizimsel çözümleme aracý bulunmamaktadýr.
Bütün bu olumsuzluklara karþýn, özellikle Türk dillerinin sözdiziminin benzer olmasý (Azerice,
Türkmence gibi bazý diller için neredeyse ayný olmasý), Daha önce anlatýlan aktarým yöntemleri
arasýnda en temel yöntem olan doðrudan aktarým yönteminin bile baþarýlý sonuçlar
üretebileceðini düþündürmektedir.
30 - Bilgisayarlý Çeviri
Akýlý
Aqlsiz
akýlsýz
epchil
düþman,
döstdan
dosttan
düþman
yeðdir. Türkçe
yagþýdýr. Özbekçe
Þekil-11.12 : Türkçe-Özbekçe tümcelerde sözcük sýralarý farklýlýðý örneði
Doðrudan aktarým yöntemi hariç diðer tüm kural tabanlý aktarým yöntemlerinde, sözdizim
çözümlemesi, anlamsal çözümleme gibi üst düzey bilgiler gerekmektedir. Ancak Türk dilleri
söz konusu olduðunda bu bilgileri üretecek araçlar dahi bulunmamaktadýr.
Ýstatistiksel ve örnek tabanlý çalýþan yöntemleri kullanabilmek için ise birbirlerinin karþýlýðý
olan hizalanmýþ eðitim verilerine büyük miktarlarda gerek duyulur. Bu þekilde hazýrlanmýþ
koþut eðitim verilerinin bulunmamasý, ayrýca bu tür bir eðitim kümesinin hazýrlanmasýnýn çok
emek gerektirmesinden dolayý bu yöntemlerin uygulanabilirliði düþüktür.
Sözcük sýralarýný deðiþtirmeden, sadece sözcükleri birebir çevirerek gerçeklenecek doðrudan
aktarým yöntemi, gerek sözdizim çözümlemesi gibi daha üst seviyede bilgilere, gerekse de
istatistiksel yöntemlerin kullandýðý gibi büyük miktarlarda paralel eðitim verilerine ihtiyaç
duymadýðý için en uygun yöntem olarak görülmektedir. Ayrýca doðrudan aktarým yöntemi,
sadece sonlu durum yöntemleri kullanýlarak gerçeklenebilmektedir. Bunun sonucu olarak
düzenli ve hýzlý çalýþan bir aktarým yöntemi gerçeklenebilir. Türk dilleri gibi bitiþken diller söz
konusu olduðunda doðrudan aktarým yöntemi aþaðýdaki sýrayla geliþtirilmiþtir:
1- Kaynak dil biçimbilimsel çözümlemesi
2- Biçimbilimsel yapýlarýn hedef dile aktarýlmasý
3- Sözcük kökünün hedef dile aktarýlmasý
4- Hedef dilde biçimbilimsel üretici ile sözcüðün yüzeysel biçiminin üretilmesi
Türk dillerinin bitiþken yapýsýndan dolayý, kaynak tümcedeki bir sözcüðün karþýlýðýný sözlükte
olduðu gibi arayýp bulmak mümkün deðildir. Bu noktada, bir ön iþlem olarak biçimbilimsel
çözümlemenin yapýlmasý gereklidir. Biçimbilimsel çözümleme sonucunda sözcük kökü ve
diðer biçimbilimsel yapýlar ortaya çýkar. Doðrudan aktarým, kaynak dildeki bu yapýlarýn (sözcük
kökü ve biçimbilimsel yapýlar) hedef dile iki aþamalý olarak aktarýmý biçiminde algýlanmalýdýr.
Her ne kadar Türk dillerinin sözdizimsel ve biçimbilimsel yapýlarý birbirlerine yakýn olsa da, bu
diller arasýnda biçimbilimsel farklýlýklar da azýmsanmayacak boyuttadýr. Biçimbilimsel
farklýlýklarý gidermek üzere bir takým biçimbilimsel dönüþüm kurallarý gerçeklenmeli ve bu
kurallarýn iþletilmesi sonucunda kaynak dildeki biçimbilimsel yapýlar, hedef dil için geçerli
biçimbilimsel yapýlar haline gelmelidir.
Ýkinci aþama olarak, kaynak dilde çözümlenen sözcük kökünün karþýlýðý aktarým sözlüðünden
bulunmalý ve hedef dildeki karþýlýðý veya karþýlýklarý ile deðiþtirilmelidir.
Son adýmda ise elde edilen biçimbilimsel yapý, hedef dilin biçimbilimsel üreticisi tarafýndan
yüzeysel biçime çevrilir.
Anlatýlan geliþtirilmiþ doðrudan aktarým yöntemine göre Türkmence bir sözcüðün Türkçe
karþýlýðýnýn oluþturulma süreci Þekil-11.13’de gösterilmiþtir.
Geliþtirilmiþ doðrudan aktarým yönteminde dahi biçimbilimsel çözümleme ve sözcük kökü
aktarýmýnda belirsizlikler ortaya çýkacaktýr. Bu belirsizliklerin çözülmesi, doðrudan aktarým
11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri - 31
yöntemini kullanan sistemlerde karmaþýk kurallarla saðlanýr. Bunun yerine, doðrudan aktarým
yaklaþýmýný istatistiksel yöntemlerle birleþtiren modeller kullanýlarak Türk dilleri arasýnda BÇ
sistemleri gerçeklenebilir. Bu amaçla, Model 0 (temel model) üzerine gerçeklenmiþ kuramsal
bir çeviri sisteminin bileþenleri ve veri akýþý ’de verilmiþtir. Bu þekilde kesikli çizgili
dikdörtgenler veri kaynaklarýný, düz çizgili dikdörtgenler ise süreçleri göstermektedir.
11.7.1 Kaynak Dilde Biçimbilimsel Çözümleme
Biçimbilimsel çözümleme, Türk dilleri gibi bitiþken diller için doðal dil iþleme alanýnda
yapýlacak her iþlemde gerek duyulan bir aþamadýr. Sözcüðün yüzeysel biçimlerinin sayýsýnýn
çok fazla olduðu diller için biçimbilimsel çözümleme olmadan aktarým sözlükleri hazýrlamak
ya da aktarým kurallarý geliþtirmek olanaksýzdýr. Dolayýsý ile kaynak dil olarak hangi Türk dili
seçilirse seçilsin, bu dil ile ilgili biçimbilimsel çözümleyicinin de hazýrlanmasý gerekmektedir.
Türkçe için geliþtirilmiþ geniþ kapsamlý ve yüksek baþarýmlý bir biçimbilimsel çözümleyici
halihazýrda bulunmaktadýr . Diðer Türk dilleri için bu tür bir çözümleyicinin varlýðý (Kýrým
Tatarcasý hariç) bilinmemektedir.
Kaynak dil olarak seçilen dil, Türkçenin dýþýnda bir Türk dili ise bu dil için bir biçimbilimsel
geliþtiricinin gerçeklenmesi ön koþuldur. Böyle bir gerçeklemede dikkat edilecek en önemli
nokta, geliþtirilecek çözümleyicinin var olan Türkçe biçimbilimsel çözümleyici ile benzer
32 - Bilgisayarlý Çeviri
Biçimbilimsel çözümleme
Biçimbilimsel aktarým
Kök aktarma
Biçimbilimsel üretme
eñrejekdirin
eñre+Verb+Pos+Fut+Cop+A1sg
eñre+Verb+Pos+Fut+A1sg+Cop
aðla+Verb+Pos+Fut+A1sg+Cop
aðlayacaðýmdýr
Þekil-11.13 : Örnek Türkmence sözcüðün Türkçe karþýlýðýnýn oluþturulmasý
mantýkla çalýþacak ve benzer biçimbilimsel etiketler üretecek þekilde tasarlanmasýdýr. Bu
sayede aktarým kurallarý (yani A fonksiyonu) daha basit hale getirilebilir.
11.7.1.1 Kaynak Dilde Biçimbilimsel Belirsizliðin Giderilmesi
Türkçe gibi karýþýk bir biçimbilimsel yapýya sahip dillerde biçimbilimsel çözümleme sonuçlarý
çoðu zaman birden fazladýr. Bu ise biçimbilimsel belirsizliðin ortaya çýkmasýna neden
olmaktadýr. Eðer kaynak Türk dili için biçimbilimsel belirsizliði gidermek üzere bir araç varsa,
bu araç kullanýlarak istatistiksel sürecin karmaþýklýðý azaltýlabilir.
Türkçe için biçimbilimsel belirsizliklerin giderilmesi ile ilgili birçok çalýþma olmasýna karþýn
bu çalýþmalarýn sonucunda yüksek baþarýmlý bir araç henüz genel kullanýma sunulamamýþtýr.
Diðer Türk dilleri için ise bu konuda bir çalýþmaya rastlanamamýþtýr. Biçimbilimsel belirsizlik
11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri - 33
Kaynak dilde biçimbilimsel çözümleyici
Biçimbilimsel yapýlarý aktarýcý
Kök sözcük aktarýcý
ÝDM
Hedef dilde biçimbilimsel üretici
Kaynak dilde tümce
Hedef dilde tümce
Aktarým sözlüðü
Eðitim derlemi
C(s )k
A(c )ij
Arg maxc(S)i
U(H )B
HB
H
Þekil-11.14 : Temel modeli gerçekleyen örnek bir çeviri sistemi
gidericilerin tasarlanmasý için kullanýlan bir çok yöntem gözetimli çalýþtýðý için elle iþlenmiþ
çok miktarda eðitim verisine gerek duyulmaktadýr. Türkçe dýþýndaki diðer Türk dilleri için
henüz böyle bir eðitim kümesi olmamasýndan dolayý bilinen yöntemler kullanýlarak bu diller
için bir biçimbilimsel belirsizlik giderici tasarlanmasý yoluna gidilememektedir.
11.7.2Sözcük Köklerinin Kaynak Dilden Hedef Dile Aktarýmý
Kural tabanlý bütün bilgisayarlý çeviri sistemlerinde olduðu gibi öngörülen temel model için de
bir aktarým sözlüðü gereklidir. Aktarým sözlüðünde kaynak dildeki sözcük bazýnda arama
yapýlabilmeli ve buna karþýlýk gelen hedef dildeki tüm sözcükler üretilebilmelidir. Bu noktada
altý çizilmesi gereken konu, sözcük kökü aktarýmý sýrasýnda birden fazla karþýlýk
üretilebileceðidir. Yani bu bileþenin ürettiði sonuçlar içerisinde bir belirsizlik vardýr. Söz
konusu bu belirsizlik sözcüksel belirsizlik olarak adlandýrýlmaktadýr.
bar è var, bütün
Belirsizliði bir kademe azaltmak amacý ile sadece sözcük köküne bakarak arama yapmak yerine
sözcük kökü ve sözcük türüne göre arama yapýlabilir. Böylelikle yazýmý ayný, ancak sözcük
türleri farklý olan sözcük kökleri, daha az bir belirsizlikle aktarýlabilir:
bar (sýfat) è bütün (sýfat)
bar (eylem) è var (eylem)
Aktarým sözlüðü tasarlanýrken sözcük türlerine göre sýnýflandýrma yapýlabilirse bu sayede
belirsizliðin derecesi düþürülebilir.
11.3.3 Biçimbilimsel Yapýlarýn Kaynak Dilden Hedef Dile Aktarýmý
Kaynak ve hedef dil arasýndaki biçimbilimsel farklýlýklarý gidermek üzere bir dizi dönüþümün
yürütüldüðü aktarým bileþenidir. Bu dönüþüm, kaynak dildeki biçimbilimsel çözümleme
sonucunda üretilen biçimbilimsel özelliklerin, hedef dil biçimbilimsel üreticinin beklediði
þekile dönüþtürme iþlemi olarak da nitelendirilebilir. Bu aþamada sözcük köküne
dokunulmadan sadece biçimbilimsel etiketler üzerinde dönüþtürme ve sýra deðiþtirme iþlemleri
yapýlýr. Bu kurallar, iki dil arasýndaki biçimbilimsel farklýlýklar incelenerek geliþtirilir. Diðer bir
yöntem ise birbirlerinin çevirisi olan, kaynak ve hedef dildeki biçimbilimsel yapýlarý içeren bir
eðitim kümesi üzerinde, bilgisayar öðrenmesi yöntemlerinden birisinin eðitilerek kurallarýn
otomatik olarak üretilmesidir.
11.7.4 ÝDM Bileþeni
Önerilen aktarým modellerinde yer alan bütün bileþenler içerisinde iki bileþenin çýktýlarý
belirsizlik içermektedir: kaynak dilde biçimbilimsel çözümleyici ve kök aktarýmý. Eðer bölüm
34 - Bilgisayarlý Çeviri
’de anlatýlan kaynak dilde biçimbilimsel belirsizlik giderici kullanýlabilir durumda ise
biçimbilimsel belirsizlik elenir ve sadece sözcüksel belirsizlik kalýr.
Gerek biçimbilimsel belirsizlik, gerekse de sözcüksel belirsizliðin giderilmesini amaçlayan
ÝDM bileþeni, istatistiksel yöntemlerle en olasý sözcük dizisini (yani tümceyi) belirler. Bu
amaçla Bölüm ’de anlatýlan ÝDM’ler kullanýlmaktadýr. Ancak gene Türk dillerinin türetme ve
çekim özelliklerinden dolayý, ÝDM’ler salt biçimde kullanýlamaz. Sözcüklerin sadece yüzeysel
biçimlerini içeren bir ÝDM’de seyrek veri sorunu ortaya çýkmaktadýr. Bunu önlemek için farklý
tiplerde ÝDM’lerin kullanýlmasý yoluna gidilebilir.
Örneðin, sözcüklerin yüzeysel biçimleri yerine sadece sözcük kökleri üzerine kurulmuþ bir
ÝDM kullanýlmasý durumunda, hedef dilde ortaya çýkan sözcüksel belirsizliðin giderilmesi
saðlanabilir.
Aktarým sistemindeki ÝDM bileþenine girdi olarak, kaynak dildeki tümcenin bütün
sözcüklerinin aday çevirileri gelir. Bileþenin çýktýsý olarak ise tüm kombinasyonlar içerisinden
seçilen ÝDM’ye göre en yüksek olasýlýða sahip tümce üretilir.
Olasý tüm kombinasyonlarýn tamamýnýn olasýlýklarýnýn hesaplamasý yerine, aday sözcüklerden
bir Hidden Markov Modeli (HMM) oluþturularak üzerinde Viterbi algoritmasýnýn
çalýþtýrýlmasýyla en yüksek olasýlýklý sözcük dizisi elde edilebilir.
Þekil-11.15'te Türkmence bir tümce Türkçeye çevrilirken oluþturulan bir HMM örneði
verilmiþtir. ’teki özel simgeler <s> ile </s> sýrasýyla tümce baþýný ve sonunu iþaret eden
simgelerdir. HMM’deki gözlem olasýlýklarý 1 seçilerek sadece durum geçiþ olasýlýklarýnýn
kullanýlmasý saðlanmýþtýr . Þekilde, durum geçiþlerini gösteren oklara iliþtirilmiþ olarak,
sözcüklerin seçilen ÝDM’ye göre olasýlýklarý bulunmaktadýr. Örneðin ”ne” ile ”için” durumlarý
arasýndaki ok, P(“için”|”ne”) olasýlýðýný, <s> ile ”ne” arasýndaki ok ise P(“ne”|<s>)
olasýlýðýný (tümcenin baþýnda ”ne” sözcük kökünün olma olasýlýðýný) göstermektedir. Viterbi
algoritmasý ile de bu HMM üzerinde en olasý yol bulunur. Bu yol üzerindeki sözcükler seçilerek
oluþturulan tümce hedef dilde olasýlýðý en yüksek çeviridir.
11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri - 35
<s>
Ne
kim
Için
insan
Adam
türlü dil </s>
konuþ
söyle
Türkmence näme üçin adamlar dürli dillerde gepleyärlerTümce näme üçin adam dürli dil geple
Þekil-11.15 : Örnek bir tümcenin HMM ile çözümlenme süreci
Tablo-11.4 ve Þekil-11.15’te kurulan HMM üzerinden hesaplanan en olasý 3 aday tümce
gösterilmiþtir. Farklý derecelerde kök dil modelleri kullanýlarak aday tümcelerin olasýlýklarý
hesaplanmýþtýr. Kalýn harflerle yazýlan tümce, doðru çeviriyi göstermektedir .
Türkçede dil ismi ile birlikte söylemek yerine daha çok konuþmak eylemi kullanýlmaktadýr.
Buna uygun olarak da tek baþýna sözcük sýklýklarýna bakýldýðýnda (n=1) söylemek eylemi
konuþmak eyleminden daha çok geçmesine karþýn ÝDM derecesi arttýkça konuþmak eylemini
içeren tümcelerin olasýlýðýnýn yükseldiði görülmektedir.
Tablo-11.4 : ÝDM ile en Olasý Tümcenin Bulunmasý
ÝDM Derecesi En Olasý 3 Tümce SýraLog.
Olasýlýk
n=1 ne için insanlar türlü dillerde söylüyorlar 1 -17.2978
ne için insanlar türlü dillerde konuþuyorlar 2 -17.5196
ne için adamlar türlü dillerde söylüyorlar 3 -17.7816
n=2 ne için insanlar türlü dillerde konuþuyorlar 1 -18.1625
ne için adamlar türlü dillerde konuþuyorlar 2 -18.3105
kim için insanlar türlü dillerde konuþuyorlar 3 -18.6553
n=3 ne için insanlar türlü dillerde konuþuyorlar 1 -18.2265
kim için insanlar türlü dillerde konuþuyorlar 2 -18.6196
ne için adamlar türlü dillerde konuþuyorlar 3 -18.6294
11.7.5 Hedef Dilde Biçimbilimsel Üretici
ÝDM bileþeninin çýktýsý, yüzeysel biçimdeki sözcükler yerine yapýsal biçimdeki sözcüklerden
oluþan bir tümcedir. Bu tümcede yer alan tüm sözcükler, hedef dile iliþkin bir biçimbilimsel
üreticiden geçirilerek yüzeysel biçimler oluþturulmalý ve sistemin son çýktýsý olan tümce
üretilmelidir. Bu amaçla hedef dile iliþkin bir biçimbilimsel üreticiye gerek duyulmaktadýr.
Türkçe için geliþtirilen biçimbilimsel çözümleyici, SDD olarak tasarlandýðý için ters yönde
çalýþtýrýldýðýnda biçimbilimsel üretici olarak iþ görmektedir. Üstelik Türkçe için bu ters
çalýþtýrma durumunda herhangi bir belirsizlik oluþmamaktadýr. Yani yapýsal biçimde bir
sözcüðe karþýlýk, o sözcüðe ait sadece bir yüzeysel sözcük üretilmektedir. Türkçe dýþýndaki
diðer Türk dilleri için bilinen bir biçimbilimsel üretici yoktur.
11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni
Bir önceki bölümde ayrýntýlarý açýklanan çeviri modellerinin bir uygulamasý olarak
Türkmenceden Türkçeye bir çeviri sistemi tasarlanmýþ ve gerçeklenmiþtir. Çeviri sistemi ilk
36 - Bilgisayarlý Çeviri
olarak Model 0’a (temel model) uygun olarak gerçeklenmiþ daha sonra ise bu temel model
üzerine Model 1 ve Model 2’nin getirdiði iyileþtirmeler eklenmiþtir.
Gerçeklenen uygulamada, aktarým fonksiyonunda yer alan bütün bileþenler SDD biçiminde
tasarlanmýþtýr.
11.8.1Aktarým Modeli 0 Gerçeklemesi
Aktarým Modeli 0’ý temel alarak tasarlanan Türkmenceden Türkçeye çeviri sisteminin bileþen
þemasý Þekil-11.16’da verilmiþtir:
11.8.1.1 Türkmence Biçimbilimsel Çözümleyicinin Geliþtirilmesi
Ýki-düzeyli biçimbilimsel çözümleme ilkeleri esas alýnarak Xerox sonlu durumlu araçlarýyla
Türkmence için bir biçimbilimsel çözümleyici tasarlanmýþtýr. Bu biçimbilimsel çözümleyicinin
tasarým aþamalarý aþaðýdaki bölümlerde verilmiþtir.
11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 37
Tümce / sözcük Ayýrýcý
Biçimbilimsel Çözümleyici
Biçimbilimsel Yapýlarýn Aktarýmý
ÝDM
Kök Sözcük aktarýmý
Hedef dilde biçimbilimsel üretici
Aktarým sözlüðü
Karakter Düzeltici
Karakter Düzeltici
Eðitim derlemi
Türkmencemetin
Türkçemetin
Þekil-11.16 : Aktarým Modeli 0 temelinde oluþturulan sistemin bileþenleri
11.8.1.1.1 Türkmen Dilinin Biçimbilimsel Özellikleri
Türkmence dilinin biçimbilimsel yapýsý Türkçe ile benzerlik göstermektedir. Özellikle isim
çekimlerinde eklerin türleri ve geliþ sýralarý Türkçeye çok benzerdir. Bu benzerliklerden dolayý
Türkçe için gerçeklenmiþ olan biçimbilimsel çözümleyici temel olarak alýnmýþtýr.
Her ne kadar Türkmence, Türkçeye en çok benzeyen dillerden birisi olsa da, iki dil arasýnda
harfler, ses olaylarý, sözcük çekimleri ve anlamsal açýdan pek çok farklýlýklar bulunmaktadýr .
Türkmencenin Türkçeye benzerliði ilk bakýþta yararlý görülse de, bazý açýlardan zararlý
olmaktadýr. Örneðin Türkçe ile birebir ayný olan bazý sözcükler ya da ekler, Türkmencede farklý
anlamlara gelmektedir. Türkçe bilen birisi, Türkmence öðrenirken bu tür yanýlgýlara kolayca
düþebilmektedir.
Ses Olaylarý
Türkçeye en yakýn dillerden biri olsa da Türkmencede yazý dili ile konuþma dili
arasýnda büyük farklýlýklar bulunmaktadýr. Aslýnda Türkçede de bütün sözcükler,
yazýldýðý gibi okunmaz ama Türkmencede bu durum istisna olmaktan çýkmýþ ve çok
sýk karþýlaþýlan bir durum olmuþtur. Maalesef kýsýtlý sayýdaki Türkmence dilbilgisi
kaynaklarýnýn çoðunda, yazý dili ile konuþma dili arasýndaki ayrým net olarak
verilmemiþtir. Bu nedenle bazý kurallarýn sadece konuþma dili için geçerli olduðunu
ortaya çýkarmak oldukça zahmetli olmuþtur.
Türkmencede sözcüklerin okunuþlarý ile yazýlýþlarý arasýnda Türkçenin tersine çok
büyük farklýlýklar bulunmaktadýr. Bütün seslilerin kýsa ve uzun okunuþlarý
bulunmaktadýr. Ancak yazý dilinde herhangi bir seslinin kýsa mý uzun mu okunacaðýna
iliþkin bir iþaret yoktur. Aþaðýda bu konu ile ilgili örnekler verilmiþtir (uzun okunan
sesliler, “:” iþaretiyle belirtilmiþtir):
Uzun Okunuþ Kýsa Okunuþ
at (a:t) ad, isim at (at) at
ot (o:t) ateþ ot (ot) ot
daþ (da:þ) taþ daþ (daþ) dýþ
Türkmencede büyük ünlü uyumu vardýr. Sözcüklerin bazýlarý küçük ünlü uyumuna
uyarken bazýlarý da uymaz. Türkçede geniþ yuvarlak seslilerden (o, ö) sonra dar
yuvarlak (u, ü) ya da geniþ düz (a, e) seslileri gelir. Türkmencede ise o, ö seslilerinden
sonra dar düz sesliler (y, i) gelir. Bu nedenle Türkmencede bazý sözcükler küçük ünlü
uyumuna uymaz.
Türkmencede de Türkçede olduðu gibi sessiz yumuþamasý vardýr. Sözcük sonundaki
p, ç, t, k sessizleri, sesli ile baþlayan bir ek aldýklarýnda b, c, d, g harflerine dönüþürler.
Sessiz benzeþmesi de kýsmen görülür.
38 - Bilgisayarlý Çeviri
Sesli düþmesi kuralý ise Türkmencede daha kurallýdýr. Bir seslinin düþmesi için:
1. iki heceli sözcük olmalý
2. ilk S kýsa, hece açýk olmalý (S, ZS)
3. ikinci hece kapalý olmalý (ZSZ)
Ancak ne yazýk ki 2. maddede söylenin S’nin yani ünlünün kýsa olmasý, yazý dilinde
belirtilmemektedir.
Okunuþlarla ilgili bir çok kurala, biçimbilimsel çözümleyicinin geliþtirilmesi ile ilgisi
olmadýðý için burada yer verilmeyecektir.
Tekillik / Çoðulluk
Çoðulluk ekleri +lar ve +ler Türkçedeki ile ayný þekilde kullanýlýr.
Belirtme Durumu
Belirtme durumu eki Türkçedekinden farklý olarak sadece +y ve +i eklerinden
oluþmaktadýr. Ancak Türkçede ekten önce ünlü harf bulunursa araya n harfi yerine y
harfi gelir:
kitaby (kitabý) goly (kolu) baþy(baþý)
gözi (gözü) güli (güli)
Yönelme Durumu
Türkçedeki gibi +a ve +e ekleri ile kurulur.
depdere (deftere) göze(göze) bilbile (bülbüle)
Ünlü ile biten isimlerde, yaklaþma durumu eki (+a, +e, +ä) farklýlýk göstermektedir.
i) –a, –o ile biten sözcüklere yaklaþma durumu eki eklenmez, yaklaþma durumu
sadece sözcüðün sonunda seslinin uzun okunuþu ile belirtilir.
ata (ata) baba
ata (ata:) babaya
ii) –i, –e, –ä ile biten sözcüklere yaklaþma durumu eki geldiðinde, sözcüðün son
seslisi –ä olarak deðiþir.
Berdi Þ Berdä Berdi Þ Berdi’ye
11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 39
iii) –y seslisi ile biten sözcüklere yaklaþma durumu eki geldiðinde, sözcüðün son
seslisi –a seslisi olarak deðiþir.
Mary Þ Mara Marý Þ Marý’ya
Kalma Durumu
Türkçedekine benzer olarak +da, +de ekleri ile kurulur. Türkçedeki kullanýmdan tek
farklý bu eklerin ünsüz benzeþmesine uymamasýdýr (+ta, +te halleri yoktur):
guþda (kuþta) altda (altta) kitapda (kitapta)
Kalma durumundan sonra –ki eki gelirse, kalma durumu ekindeki sesli uzar:
depderdäki (defterdeki) bizdäki (bizdeki) süýtdäki (sütteki)
kitapdaki (kitapdaki) adamdaki (adamdaki) ondaki (ondaki)
Çýkma Durumu
Çýkma durumu, +dan ve +den ekleri ile kurulur. Bu ekler de ünsüz benzeþmesine
uymazlar:
öýden (evden) altdan (alttan) kitapdan (kitaptan)
Tamlayan Durumu
Tamlayan durumu ekleri +yñ, +iñ, +uñ ve +üñ ekleridir:
goluñ (kolun) burnynyñ (burnunun) diliñ (dilin)
Ýsim çekimi ve eylem çekimi açýsýndan incelendiðinde, Türkmence, isim çekimi
yönünden Türkçeye çok benzerken, eylem çekiminde ciddi farklýlýklar vardýr.
Özellikle çatý kurulumu Türkmencede Türkçeye oranla çok daha karmaþýktýr.
Türkçede çatý kurulumu genelde aþaðýdaki gibidir:
görmek (Yalýn)
görüþmek (Ýþteþ)
görüþtürmek (Ýþteþ-Ettirgen)
görüþtürülmek (Ýþteþ-Ettirgen-Edilgen)
Sadece bazý durumlarda ettirgenlik birkaç defa tekrarlanabilir.
Türkmencede ise çatý eklerinin geliþ sýrasý çok daha karýþýktýr:
40 - Bilgisayarlý Çeviri
Tablo-11.12 : Türkmencede Çatý Eklerinin Sýralanýþý
Ýki Çatý Ekli Eylemler Üç Çatý Ekli Eylemler Dört Çatý Ekli Eylemler
Ettirgen + Dönüþlü
Dönüþlü + Edilgen
Ýþteþ + Edilgen
Ettirgen + Edilgen
Dönüþlü + Ýþteþ
Edilgen + Ýþteþ
Ettirgen + Ýþteþ
Ýþteþ + Ýþteþ
Dönüþlü + Ettirgen
Ýþteþ + Ettirgen
Ettirgen + Ettirgen
Dönüþlü + Ettirgen + Edilgen
Ýþteþ + Ettirgen + Edilgen
Ettirgen + Edilgen + Ýþteþ
Dönüþlü + Ettirgen + Ýþteþ
Dönüþlü + Ýþteþ + Ettirgen
Edilgen + Ýþteþ + Ettirgen
Ettirgen + Ýþteþ + Ettirgen
Dönüþlü + Ettirgen + Ettirgen
Dönüþlü + Ýþteþ + Ettirgen + Edilgen
Ettirgen + Dönüþlü + Ettirgen + Edilgen
Ayrýca Türkmencede bazý eylem kipleri çekilmezler. Örneðin gelecek zamaný belirten +jek /
+jak ekinden sonra kiþi çekim eki gelmez. Örnek kullanýmý aþaðýdaki gibidir:
Men geljek (geleceðim)
Sen geljek (geleceksin)
O geljek ([o] gelecek)
Ayrýca gereklilik kipi +malý / +meli de benzer þekilde kiþi eki almaz.
Ancak bu kiplere kesinlik anlamý katan +dyr eki geldiðinde, bu +dyr ekinden sonra kiþi çekim
ekleri gelebilir.
Men geljekdirin. (geleceðimdir)
Türkmencede, Türkçede bulunmayan bazý kipler de vardýr. Örnek olarak bir iþ için hazýrlýk
yapýldýðýný ya da o iþin yapýlmasýnýn düþünüldüðünü gösteren +mekçi / +makçy eki
bulunmaktadýr. Bu ek de istisna olarak çekim eki almayan kipler grubundandýr.
Belirsiz geçmiþ zaman eki olarak kullanýlan +mýþ / +miþ eki Türkmencede ilk zaman olamaz.
Bunun yerine +ypdy / +ipdi / +updu / +üpdü ekleri gelmektedir. Ancak ikinci zaman olarak
+mýþ / +miþ eki gelebilmektedir.
Türkçede geniþ zaman olarak kullanýlan +ar / +er eki, Türkmencede gelecek zaman anlamýný
taþýmaktadýr.
Gene Türkçedekine benzer þekilde geniþ zamanýn 3. tekil þahsýnýn olumsuzu farklýdýr. Ancak
daha büyük bir farklýlýk olarak bazý kiplerde olumsuzluk eki olarak +ma / +me gelmemekte
bunun yerine eylemden sonra däl (“deðil”) getirilmektedir. Örnek:
Men gelcek däl
11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 41
Kimi durumlarda däl eylemi de çekime uðramaktadýr.
Biçimbilimsel Çözümleyicinin Gerçeklenmesi
Türkmence için biçimbilimsel çözümleyici geliþtirirken iki düzeyli biçimbilimsel çözümleme
yöntemi benimsenmiþ ve XEROX’un sonlu durumlu araçlarýndan yararlanýlmýþtýr. Öncelikle
kökler ve eklerle ilgili durum geçiþleri yani morfotaktik kurallar tasarlanmýþ ve LEXC
aracýlýðýyla gerçeklenmiþ, daha sonra iki-düzeyli kurallar TWOLC ile oluþturulmuþtur. Ek
olarak, bazý geçersiz durumlarýn elenmesi için XFST ortamýnda kurallar yazýlmýþ ve elde edilen
bu üç SDD birleþtirilerek tek bir SDD elde edilmiþtir. Oluþan bu çözümleyici, ters yönde
çalýþtýrýldýðý zaman üretici olarak da çalýþabilmektedir.
11.8.1.1.2 Ýki Düzeyli Kurallar
Türkmencedeki çeþitli ses olaylarýný ve deðiþimlerini gerçeklemek için bir dizi iki-düzeyli kural
tanýmlanmýþ ve TWOLC derleyicisi yardýmý ile bu kurallarý gerçekleyen bir SDD
oluþturulmuþtur.
Ýki düzeyli kurallarý tanýmlamadan önce, bu kurallarýn üzerinde iþlem göreceði abecenin
tanýmlanmasý gerekmektedir. Bu abece güncel Türkmen harfleri ile sadece ara aþamalarda
kullanýlan ve yazýda görünmeyen bazý ek karakterler içermektedir. Her ne kadar TWOLC
derleyicisi UTF-8 karakter kümesini destekleyerek standart olmayan ASCII karakterlerinin
kullanýmýna izin verse de, bu tür bir kullanýmda hata ayýklama ve komut satýrýndan sýnamalarýn
yapýlmasý olanaksýz olmaktadýr. Bu nedenle standart ASCII tablosunda olmayan karakterler için
bir ASCII karakteri, ’deki gibi seçilmiþ ve kurallarda bu þekilde gösterilmiþtir.
Tablo-11.13 : ASCII olmayan karakterler yerine kullanýlan karþýlýklar
ASCII dýþý karakterler ü ö Ç ñ þ ý Ÿ ä
Seçilen ASCII karþýlýk U O C N S Y Z E
11.8.1.2 Kök Sözcük Aktarým Kurallarý
Biçimbilimsel çözümlemesi yapýlmýþ Türkmence sözcük köklerinin Türkçeye aktarýlmasýný
saðlayan kurallar, SDD’ler ile gerçeklenmiþtir. Örnek bir aktarým kuralý aþaðýda verilmiþtir:
“tatlý” ¬ “Yakymly”
Bölüm ’de belirtildiði gibi, bu aktarým kurallarýnda sözcük türlerinin kullanýlmasý, sözcüksel
belirsizliði azaltmaktadýr. Yazýlan kurallar bu ilke çerçevesinde oluþturulmuþ ve kurallarýn sað
baðlamlarý sözcük türleri ile kýsýtlandýrýlmýþtýr:
“gri” ¬“boz” \/ _ “+Adj” .o.
“sil” ¬ “boz” \/ _ “+Verb”
42 - Bilgisayarlý Çeviri
Bu sayede sistemin rastladýðý bütün “boz” köklerini, “gri” ve “sil” kökleri ile deðiþtirmesinin
önüne geçilerek, aktarýlacak sözcüðün sýfat ya da eylem olma durumuna göre sadece uygun
karþýlýklarýn dönüþtürülmesi saðlanmýþtýr. Kök aktarým bileþenin örnek girdisi ve çýktýsý
Þekil-11.7'de verilmiþtir:
11.8.1.2.1 Birden Fazla Sözcükten Oluþan Karþýlýklar
Dillerin doðasý gereði, Türkmencede bir tek sözcükle ifade edilen bazý kavramlar Türkçede bir
tek sözcük ile ifade edilememekte, ancak iki ya da daha fazla sözcükten oluþan ÇSG’ler ile ifade
edilebilmektedir. Bu durumda kök deðiþtirmek yerine daha akýllý bir yönteme baþvurulmasý
gereklidir. Bu tür durumlara örnek olarak aþaðýdaki sözlük girdileri gösterilebilir:
Türkmence Türkçe
boþatmak özgür býrakmak
dillenmek dile gelmek
entegem uzun süre
Hedef dil karþýlýðý ÇSG olan sözlük girdileri için standart kök aktarým kurallarý yerine geliþmiþ
kurallarýn oluþturulmasý gereklidir. Önemli olan bir diðer nokta da, bu deðiþtirme sürecinde,
ÇSG’nin son sözcüðü hariç bütün sözcüklerin yapýsal biçimde olmasý zorunluluðudur. Bu,
hedef dilde üretilecek tüm sözcüklerin biçimbilimsel özelliklerinin de bulunmasý zorunluluðu
anlamýna gelmektedir çünkü sistemin diðer bileþenleri yürütülürken, sözcüklerin yapýsal
biçimlerine gerek duymaktadýr.
Türkçede ÇSG’lerin türetme ve/veya çekim eklerinden etkilenen kýsmý sadece ÇSG’nin
sonunda yer alan sözcüktür. Bu gerçekten hareketle, kaynak dildeki sözcüðe ait biçimbilimsel
özelliklerin, hedef dildeki ÇSG’nin sonundaki sözcüðe ait olduðu, ÇSG’nin baþýnda yer alan
diðer sözcüklerin sabit bir yapýya sahip olduðu sonucuna varýlabilir. Bu koþullarla, yukarýdaki
sözlük girdilerini aktarmak üzere oluþturulmasý gereken kurallar aþaðýda verilmiþtir:
11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 43
(Bozypdy) Boz+Verb+Pos+Narr+Past+A3sg
(Silmiþti) Sil+Verb+Pos+Narr+Past+A3sg
Kök Aktarýcý
Þekil-11.17 : Kök aktarým bileþeni
“dil+Noun+A3sg+Pnon+Dat gel” <- “dillen”
“özgür+Adj býrak” <- “boSat”
“uzun+Adj süre+Noun+A3sg+Pnon+Nom”<-"entegem+Adverb"
Aþaðýdaki þekilde ise kök aktarýcýnýn örnek bir ÇSG’yi aktarmasý gösterilmiþtir. Altý çizili
olmayan Türkmence biçimbilimsel yapýlarýn, ÇSG’nin son sözcüðüne eklendiði görülmektedir.
11.8.1.2.2 Sözcüksel Aktarým Kurallarý
Uygulamada ortaya çýkan bazý durumlar göstermiþtir ki bir takým sözcükler için sadece sözcük
kökünü deðiþtiren basit bir kural yeterli olmamaktadýr. Örneðin Türkmencedeki ulumsy
sözcüðü Türkçedeki kibirli sözcüðünün karþýlýðýdýr. Standart kurallar uygulanarak sadece
sözcük kökü deðiþtirildiðinde aþaðýdaki dönüþtürme iþlemi gerçeklenir:
kibirli+Adj ç ulumsy+Adj
Ýlk bakýþta göze çarpan herhangi bir sorun olmamasýna karþýn, oluþan yapýsal biçimdeki sözcük,
Türkçe biçimbilimsel üretici tarafýndan yüzeysel biçime dönüþtürüleceði zaman herhangi bir
çýktý üretilememektedir. Bunun altýnda yatan neden ise, Türkçedeki kibirli sözcüðünün aslýnda
türemiþ bir sözcük olmasý ve bu sözcüðün doðru yapýsal biçiminin aþaðýdaki gibi olmasýdýr:
kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With
Ortaya çýkan bu sorunun düzeltilmesi için, Türkmencedeki ulumsy sözcüðü için aþaðýdaki gibi
özel bir kural oluþturulmalýdýr:
“kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With”<-"ulumsy+Adj"
Örnekte açýklandýðý gibi sözcüðe baðlý özel durumlarý kotaran kurallar, sözcüksel kurallar
olarak adlandýrýlmýþtýr.
Ancak her iki dilde de ortak olan türetme ekleri ile türetilebilecek sözcükler için ayrý kurallarýn
oluþturulmasýna gerek yoktur. Örneðin Türkmencedeki +lyk eki ile Türkçedeki +lýk eki, sýfattan
44 - Bilgisayarlý Çeviri
boþa+Verb+Pos+Narr+Past+A3sg
Özgür+Adj býrak+Verb+Pos+Narr+Past+A3sg
Kök Aktarýcý
Þekil-11.18 : ÇSG’lerin Aktarýlmasý
isim yapan ayný göreve sahip iki yapým ekidir. Dolayýsý ile Türkmencede bulunan ulumsylyk
sözcüðünün karþýlýðý da kibirlilik sözcüðüdür. Her iki sözcüðün biçimbilimsel çözümlemesi
aþaðýda belirtilmiþtir:
ulumsy+Adj^DB+Noun+Ness+A3sg+Pnon+Nom
kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With^DB+Noun+Ness+A3sg+Pnon+Nom
Örnekten de görüldüðü gibi, kalýn ve altý çizili olarak gösterilmeyen biçimbilimsel yapýlar
aynýdýr. Dolayýsý ile bu iki sözcük için ayrý bir sözcüksel aktarým kuralý hazýrlanmasýna gerek
yoktur, yukarýda anlatýlan ve ulumsy sözcüðünü aktaran sözcüksel aktarým kuralýnýn çalýþmasý
yeterli olmaktadýr.
11.8.1.2.3 Biçimbilimsel Aktarým Kurallarý
Türkmence ve Türkçe arasýndaki biçimbilimsel farklýlýklarýn giderilerek Türkmence
biçimbilimsel çözümleme sonucu üretilen yapýlarýn, kabul edilebilir Türkçe biçimbilimsel
yapýlara dönüþtürülmesini saðlayan kurallardýr.
Örneðin Türkmencede bulunan ve emir kipinin 1. tekil ve 1. çoðul kiþiler için çekimi, Türkçede
istek kipine karþýlýk gelmektedir:
Türkmence Türkçe Karþýlýðý
alaYyn (al+Verb+Pos+Imp+A1sg) alayým (al+Verb+Pos+Opt+A1sg)
algyn (al+Verb+Pos+Imp+A2sg) al (al+Verb+Pos+Imp+A2sg)
alsyn (al+Verb+Pos+Imp+A3sg) alsýn (al+Verb+Pos+Imp+A3sg)
Her iki dil arasýndaki biçimbilimsel farklýlýklardan bir tanesi de Türkmencede olup da Türkçede
olmayan eylem kipleridir. Örneðin Türkmencede "+makçy/+mekçi” eki ile kiþinin, ekin geldiði
eylemi yapmayý düþündüðü veya niyetlendiði anlamý kurulur. Bunun Türkçede doðrudan
karþýlýðý olmadýðý için ÇSG üreten bir kural geliþtirilmiþtir:
11.8.1.2.4 Ýstatistiksel Dil Modeli Bileþeni
Aktarým sýrasýnda ortaya çýkan biçimbilimsel ve sözcüksel belirsizliklerin giderilmesi için
ÝDM’leri kullanan bu bileþenin görevi ve iþleyiþ tarzý, Bölüm ’de açýklanmýþtýr. Bu amaçla,
bitiþken diller için Bölüm ’te önerilen farklý türlerde ÝDM’ler üretilmiþtir. ÝDM’lerin
oluþturulmasý için yaygýn olarak kullanýlan iki farklý yardýmcý araç bulunmaktadýr:
CMU-Cambridge Language Modeling Toolkit ve SRILM . Bu çalýþmada kullanýlan ÝDM’ler,
En Büyük Olabilirlik Kestirimi yöntemi ile SRILM kullanýlarak oluþturulmuþtur. Olasýlýklar
oluþturulurken yumuþatma için Good-Turing yöntemi ile derece düþürme modelleme yöntemi
beraber kullanýlmýþtýr.
Uygulamada önerilen farklý ÝDM tiplerinin baþarýmlarý ayrý ayrý incelenmiþ ve en baþarýlý sonuç
üreten ÝDM belirlenmeye çalýþýlmýþtýr.
11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 45
·
Musahhih
Muvakkýthane
558 9432
46 - Bilgisayarlý Çeviri