46
11 Bilgisayarlý Çeviri Doðal dil iþlemenin en ilgi çekici alanlarýndan biri diller arasý çeviridir. Diller arasý çeviri denildiðinde, insanýn aklýna, farklý dillerde konuþan iki insanýn, arada çevirmen olmadan birbirini anlayabileceði çözümler gelmektedir. Daha açýk bir anlatýmla, bir Türk Türkçe konuþacak, karþýsýndaki Japon bu konuþmayý Japonca dinleyecektir. Japon'un konuþmasýný da Türk Türkçe olarak dinleyecektir. Ýnsanlarýn ve araþtýrmacýlarýn düþleri bu yönde olmakla beraber, günümüzdeki biliþim olanaklarý, bu kadar yetenekli çeviri dizgelerini saðlayamamaktadýr. Ancak, belli alanlarda çalýþan örnekler üretilmeye baþlanmýþtýr. Örneðin, askeri emirleri, hava raporlarýný çevirebilen dizgeler üretilmeye baþlanmýþtýr. Günümüzde, bilgisayar desteðiyle yapýlan çeviriler, en basit olandan en karmaþýk olana doðru sýralanabilir: Sözcük çevirisi, tümcecik çevirisi, tümce çevirisi. Gerçekleþtirilen, metinden metine çeviri dizgelerinin bazýlarý insan gözetimi gerektirirken bazýlarý yardýmý olmaksýzýn çeviri yapabilmektedir. Bir dilden diðer bir dile çeviri yapan kiþinin, iki dili iyi þekilde bilmesinin yetmeyeceði, çeviri yaptýðý metnin konusu hakkýnda da bilgi sahibi olmasý gerekir. Söz gelimi týp konusundaki bir kitabý çevirecek kiþinin týp konusunda uzman olmasýnýn gerekeceði açýktýr. Bilgisayar yardýmýyla yapýlan çevirilerde de benzer bir güçlüðün olacaðý kolayca söylenebilir. - 1

DDI- Kitap (1 Ekim)

Embed Size (px)

Citation preview

Page 1: DDI- Kitap (1 Ekim)

11Bilgisayarlý Çeviri

Doðal dil iþlemenin en ilgi çekici alanlarýndan biri diller arasý çeviridir.

Diller arasý çeviri denildiðinde, insanýn aklýna, farklý dillerde konuþan

iki insanýn, arada çevirmen olmadan birbirini anlayabileceði çözümler

gelmektedir. Daha açýk bir anlatýmla, bir Türk Türkçe konuþacak,

karþýsýndaki Japon bu konuþmayý Japonca dinleyecektir. Japon'un

konuþmasýný da Türk Türkçe olarak dinleyecektir. Ýnsanlarýn ve

araþtýrmacýlarýn düþleri bu yönde olmakla beraber, günümüzdeki

biliþim olanaklarý, bu kadar yetenekli çeviri dizgelerini

saðlayamamaktadýr. Ancak, belli alanlarda çalýþan örnekler üretilmeye

baþlanmýþtýr. Örneðin, askeri emirleri, hava raporlarýný çevirebilen

dizgeler üretilmeye baþlanmýþtýr.

Günümüzde, bilgisayar desteðiyle yapýlan çeviriler, en basit olandan en

karmaþýk olana doðru sýralanabilir: Sözcük çevirisi, tümcecik çevirisi,

tümce çevirisi. Gerçekleþtirilen, metinden metine çeviri dizgelerinin

bazýlarý insan gözetimi gerektirirken bazýlarý yardýmý olmaksýzýn çeviri

yapabilmektedir.

Bir dilden diðer bir dile çeviri yapan kiþinin, iki dili iyi þekilde

bilmesinin yetmeyeceði, çeviri yaptýðý metnin konusu hakkýnda da bilgi

sahibi olmasý gerekir. Söz gelimi týp konusundaki bir kitabý çevirecek

kiþinin týp konusunda uzman olmasýnýn gerekeceði açýktýr. Bilgisayar

yardýmýyla yapýlan çevirilerde de benzer bir güçlüðün olacaðý kolayca

söylenebilir.

- 1

Page 2: DDI- Kitap (1 Ekim)

Dünyada konuþulan diller belli dil ailelerinin üyeleridir. Ayný dil ailesinin üyesi olan iki dil

arasýnda çeviri yapmak, doðal olarak farklý iki dil ailesinin üyesi olan iki dil arasýnda çeviri

yapmaya göre daha kolaydýr. Bilgisayarlý çeviri dizgeleri gerçekleþtirilirken kullanýlabilecek

yöntemler, dillerin ayný dil ailesinden olup olmadýðýna göre deðiþmektedir.

Bilgisayarlý çeviri amacýyla kullanýlan yöntemler, kural temelli ve istatistiksel temelli olmak

üzere genel iki kümeye ayrýlabilir. Bu iki kuralýn birlikte kullanýldýðý örnekler de

bulunmaktadýr. Kural temelli çeviri yöntemleri, yabancý dil eðitiminde izlenen yöntemlere

benzer. Öncelik her iki dilin dilbilgisi kurallarýný bilgisayara öðretmektir. Buna ek olarak çeviri

sözlüðü bilgisayara yüklenir. Ýstatistiksel temelli çeviri, çevirmenler tarafýndan yapýlmýþ olan

çeviri metinler içinde, çevirisi yapýlmak istenen tümce ya da tümceciðe en yakýn olan karþýlýðý

bulmaya dayanýr.

Bilgisayar kullanarak yapýlan çevirilerin baþarýmlarýný karþýlaþtýrabilmek için, çeviri

dizgesinden beklentilerin tanýmlanmýþ olmasý gerekir. Bir bilgisayarlý çeviri dizgesi aþaðýdaki

özellikleri saðlamalýdýr:

• Ýnsan desteksiz : Çeviri dizgesi insan katký ve desteði olmadan çalýþabilmelidir.

• Kaliteli : Çeviri dizgesinin ürettiði sonuçlar aslýna uygun ve anlaþýlýr olmalýdýr.

• Konu baðýmsýz : Çeviri dizgesi her türlü konuyu içeren metinleri çevirebilmelidir.

1.1 Dillerin Benzerlikleri ve Farklýlýklarý

Dünyada 4000 dolayýnda dilin konuþulduðu bilinmektedir. Ancak bu dillerden bazýlarý yaygýn

olarak ve çok kiþi tarafýndan konuþulurken bazýlarý çok dar alanda, binden az kiþi tarafýndan

konuþulmaktadýr. UNESCO kaynaklarýna göre, diller þöyle sýralanmaktadýr:

Konuþan sayýsýna göre

• Çince

• Hintçe

• Ýngilizce

• Ýspanyolca

• Rusça

• Arapça

• Turkçe

• Fransýzca

• Almanca

• English

Yaygýnlýða göre

• Çince

• Ýspanyolca

• Arapça

• Türkçe

• Hintçe

2 - Bilgisayarlý Çeviri

Page 3: DDI- Kitap (1 Ekim)

Yine ayný kaynak, diilerin Dünya üzerindeki yayýlýþýný Þekil-11.1'deki gibi vermektedir.

Yeni bir dili öðrenmeye çalýþanlarýn ilk yaptýklarý sözcüklerin karþýlýðýný ezberlemektir.

Ardýndan, öðrenmeye çalýþtýklarý dilde tümce kurabilmektir. Bazý dillerde sözcükler yalýn halde

bulunmasýna karþýn bazýlarýnda sözcükler ekler alarak anlamlarýný deðiþtirmektedir. Tümce

içinde, sözcüklerin niteliklerine göre diziliþi de dilden dile benzerlik ve farklýlýk

göstermektedir. Bu açýklamalara baðlý olarak diller arasýndaki benzerlikler ve farklýlýklarýn

aþaðýda sýralanan özellikler baðlamýnda incelenmesi gerektiði sonucuna varýlýr:

• Biçimbilimsel • Sözdizimsel

• Dilimleme

• Anlatým biçimi

• Sözlüksel

• Olay ve tartýþma

• Yapýsal

• Konusal

1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 3

Þekil-11.1: Dünyada dillerin yaygýnlýk haritasý (Kaynak UNESCO)

Page 4: DDI- Kitap (1 Ekim)

11.1.1 Biçimbilimsel Benzerlik ve Farklýlýklar

Dünyada yaygýn olarak kullanýlan diller ana hatlarý ile þöyle kümelenmektedir:

• Yalýnlayan diller

• Bitiþken diller

• Bükümlü diller

• Kaynaþtýran diller

Yalýnlayan dillerde sözcükler tek hecelidir ve sözcükler ek almazlar. Sözcükler tümce

içinde vurguya baðlý olarak anlam kazanýrlar. Çince, Vietnamca, Himalaya dili bu küme

içinde yer alýr.

Bitiþken dillerde sözcüðün temeli kök sözcüktür. Kök sözcüðe yapým ekleri, kurallý biçimde

eklenerek yeni sözcükler oluþturulur. Kök sözcüðe eklenebilecek eklerin sayýsýnda bir sýnýrlama

yoktur. Bu nedenle, bir kök sözcükten çok sayýda sözcük üretilebilir. Bitiþken dil kümesi içinde,

Türkçe Macarca, Fince, Moðolca, Japonca gibi diller yer almaktadýr.

Hint-Avrupa ve Sami dilleri, bükümlü dil kümesine girmektedir. Bükümlü dillerde gövde

sözcük ön ve son ek alarak yeni anlam kazanýr. Bir gövdeye eklenen ön ek ve son ek sayýsý

genelde biri aþmaz. Dolayýsýyla ekler, gövde sözcüðe kýsýtlý katký saðlarlar.

Kaynaþtýran dillerde, eylem tümcenin diðer öðeleri ile kaynaþmaktadýr. Dolayýsýyla eylem

tümcenin tamamý olabilmektedir. Amerika yerlilerinin dilleri bu küme içinde sayýlmaktadýr.

Yalýnlayan dillere en güzel örnek Vietnamcadýr. Bu dilde, sözcükler ek almazlar. Dolayýsýyla

her sözcük tekil olarak yorumlanabilir. Yalýnlanmýþ bir dilde yazýlmýþ tümcenin karþýlýðý,

bükümlü bir dilde kolayca gösterilebilir. Þekil-11.2'de Vietnemca dilinde yazýlmýþ bir tümcenin

Ýngilizce karþýlýðý verilmiþtir.

Vietnamca yazýlmýþ olan bu tümcenin Türkçe karþýlýðý þöyledir: Arkadaþýmýn evine geldiðimde

ders çalýþmaya baþladýk.

Bitiþken diller ek açýsýndan en zengin dillerdir. Ek açýsýndan zengin olan kaynak dildeki bir

sözcüðü, ek bakýmýndan fakir olan hedef dile çevirirken, tek bir sözcük karþýlýk getirilemez.

Örneðin; Bitiþken bir dil olan Türkçede "göz" sözcüðünün alacaðý ekler ile türetilmiþ

sözcüklerin Ýngilizcedeki karþýlýklarýndan bazýlarý Tablo-11.1'de verilmiþtir: Tablo-11.1'den de

4 - Bilgisayarlý Çeviri

Khi toi den nha ban toi chung toi bat dau lam bai

When I come house friend I “çoðul” I begin do lesson

Þekil-11.2: Vietnamca dilince yazýlmýþ bir tümcenin Ýngilizce karþýlýðý

Page 5: DDI- Kitap (1 Ekim)

görüldüðü gibi, Türkçe sadece sondan eklemeli bir dildir. Osmanlýca diyebileceðimiz eski

Türkçede ön eklerin de kullanýldýðý bilinmektedir. Örneðin "mevcut", "namevcut" gibi.

11.1.2 Sözdizimsel Benzerlikler ve Farklýlýklar

Toplumsal geliþmeye koþut olarak geliþtiði düþünülen dillerin tümce yapýlarý birbirinden

faklýdýr. Bu fark, doðal olarak farklý dil aileleri için daha açýktýr. Tümce yapýlarýndaki farklýlýk

ve benzerlikleri göstermek üzere ayný tümcenin, Türkçe, Japonca, Fince, Macarca, Ýngilizce ve

Fransýzca karþýlýklarý Þekil-11.3 ve Þekil-11.4'te kadar gösterilmiþtir.

Þekil-11.3'e baktýðýmýzda þu yorumu yapabiliriz. Türkçe tümce yapýsýna en yakýn olan dil

Japonca olarak görülmektedir. Ayný þekil bize, Fince ve Macarca'nýn tümce yapýlarýnýn birbirine

benzediðini söylemektedir. Þekil-11.4'e baktýðýmýzda Ýngilizce bir tümcenin yapýsý Fransýzca

tümcenin yapýsýyla bire bir aynýdýr.

Tümce kuruluþlarýndaki benzerlik olan diller arasýndaki çeviri, doðal olarak, benzerliði az olan

dillere oranla daha kolay olacaktýr.

Altay dil ailesi içinde yer alan Türkçenin, zaman içinde deðiþikliklere uðramasý doðal

karþýlanmalýdýr. Bugün Türkiye'de konuþulan Türkçe ile Asya'nýn orta kýsmýnda yaþayan

Uygurlarýn konuþtuðu Türkçe çok farklý görülebilir. Özellikle sözcüklerin zaman içinde

deðiþtikleri veya ayný sözcüklerin söyleniþ biçimlerinin epey farklý olduðu bilinmektedir.

1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 5

Türkçe (tekil) Türkçe (çoðul) Ýngilizce (tekil)

Göz Gözler Eye

Gözlük Gözlükler Eyeglasses

Gözlükçü Gözlükçüler Optician

Gözlükçülük Gözlükçülükler Opticians

Gözcü Gözcüler Watchman

Gözcülük Gözcülükler ophthalmology

Gözlem Gözlemler Observation

Gözleme Gözlemeler Observing

Gözlemci Gözlemciler observer

Gözlemcilik Gözlemcilikler Observation

Gözde Gözdeler favourite

Tablo-11.1: Bitiþken bir dil olan Türkçe ile Bükümlü bir dil olan Ýngilizcenin

biçimbilimsel açýdan karþýlaþtýrýlmasý

Page 6: DDI- Kitap (1 Ekim)

Ancak bu dillerin tümce yapýlarý birbirine çok yakýndýr. Yaklaþýk bin yýldýr birbirinden uzak

yaþayan topluluklarýn dillerinde bu kadar deðiþikliklerin olmasý olaðan karþýlanmalýdýr. Türk

dillerinin birbirine benzerlikleri coðrafi konumlarýna çok baðlýdýr. Öðneðin, Azerbaycan ve

Ýranda yaþayan Azari Türkler ve Irakta yaþayan Türkmenlerin konuþtuðu dil Türkiye'de

konuþulan Türkçeye çok yakýndýr. Bu yüzden farklý dil olarak nitelemek yerine farklý lehçe

olarak nitelemek daha doðru olur.

Türk dilleri ailesi içinde, Azeri, Uygur, Horasan, Tatar, Kazak, Özbek, Kýrgýz, Türkmen,

Gökoðuz (Gagavuz) ve Kýrgýz dilleri bulunmaktadýr.

Türkçeye yakýn olan diller içinde Moðolca, Korece ve Japonca sayýlabilir.

Tümce yapýlarý açýsýndan

benzerlik ve farklýlýklar

Þekil-11.5'teki gibi gösterilebilir:

Tümce yapýsý birbirine benzer olan

dillerde, bir tümcenin çevirisi

yapýlýrken, sözcüklerin tümce

içindeki sýrasý, büyük ölçüde ayný

tutulabilir; kaynak dildeki

sözcüðün yerine hedef dildeki

karþýlýðý yerleþtirilir. Örneðin; ben

kitap okuyorum tümcesini

sýrasýyla Ýngilizce, Fransýzca,

Almanca, Ýspanyolca ve Ýtalya

yazdýðýmýzda, sözünü ettiðimiz

6 - Bilgisayarlý Çeviri

He regards his pen as his only arm

O görür kalemini olarak tek silahý

Il considere son crayon comme sa seul arme

He regards his pen as his only arm

O görür kalemini olarak tek silahý

Ýngilizce

Fransýzca

Þekil-11.4: Ýngilizce ve Fransýzca tümce yapýsý

O kalemini tek silahý olarak görür

O olarak görür kalemini gibi kendi silah

O ugy tekinti a tollat mint sajat fegyver

Kereha pendakewo karenojuu tosite miru

O kalemini tek silahý olarak görür

O görür kalemini olarak tek silahý

Han pitaa kynaansa ainoana aseenaan

Macarca FÝnce

Japonca

Þekil-11.3: Türkçe, Japonca, Macarca ve Fince tümce yapýlarý

Page 7: DDI- Kitap (1 Ekim)

benzerliði kolayca görebiliriz.

Þekil-11.6

Bu örneklere dikkatli

bakýldýðýnda, bazý sözcüklerin

birebir ayný veya benzer olduðu

da söylenebilir. Örneðin,

book-buch, livre-libro gibi.

Ayný tümceyi Türkçe

yazdýðýmýzda, sözcüklerin

diziliþinin çok farklý olduðunu

görürüz.

11.1.3 Dilimleme

Bazý dillerde yazýlmýþ metinlere

baktýðýmýzda, her bir sözcüðü

ve tümceyi kesin biçimde ayýrt

edebiliriz. Buna karþýn bazý

dillerde sözcükleri birbirinden

ayýrt etmek çok zordur. Çin,

Japon, Tayland dillerinde

sözcüklerin nerede baþlayýp

nerede bittiðini anlamak,

dolayýsýyla sözcükleri ayýrt

etmek zordur.

Bazý dillerde, tümceler çok

uzun kurulmaktadýr. Bir

tümcenin beþ on satýr tuttuðu,

bir paragraf kadar uzun olduðu

görülmektedir. Arap metinleri bu özelliktedir. Benzer duruma, XIX. yüzyýl Osmanlý

metinlerinde de rastlanmaktadýr. O devirde uzun tümce kurmak bir hüner olarak görülmüþtür.

Uzun tümcelerin taþýdýðý anlamý ortaya çýkarmak için, önce tümceyi dilimlemek ve her bir

dilimi ayrý çevirmek gerekir. Benzer durum sözcükler için de geçerlidir. Bitiþik sözcükleri önce

sözcük dilimlerine ayýrmak ve dilimlenmiþ sözcüklerin hedef çeviri dilindeki karþýlýklarýný

bulmak gerekir.

Hint-Avrupa dillerinde ana ve yadýmcý tümce kesin hatlarla ayrýlabilmesine karþýn, Türkçede

böyle dilimlemenin yapýlacaðý yeri bulmak kolay deðildir. Aþaðýdaki tümceler bu durumu

açýklayacak niteliktedir.

"Kitabý okuyan adam babamdýr."

1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 7

Özne

Özne

Özne

Tümleç

Tümleç

Tümleç

Yüklem

Yüklem

Yüklem

Bitiþken diller

Bükümlü diller

Arapça

Þekil-11.5: Deðiþik dillerde tümce yapýsý

I am reading a book

Je lis un livre

Ich lese ein Buch

Estoy leyendo un libro

Sto leggendo un libro

Þekil-11.6: Ayný tümcenin, Ýngilizce, Fransýzca, Almanca,Ýspanyolca ve Ýtalyanca'daki karþýlýklarý

Page 8: DDI- Kitap (1 Ekim)

"The man who is reading the book is my father."

Ýngilizce tümce þöyle iki parçaya ayýrýlabilir:

"The man ..................................... is my father."

"The man is reading the book."

Ayný anlamdaki Türkçe tümceye baktýðýmýzda, dilimlemenin bu kadar kesin yapýlamayacaðý

görülmektedir.

"Kitabý okuyan adam babamdýr."

"....................... adam babamdýr."

"Kitabý okuyan adam.................."

11.1.4 Anlatým Biçimi

Ýnsanlar, istek niyet ve amaçlarýný karþýsýndakine anlatabilmek için konuþur veya yazar.

Karþýmýzdakine, isteðimizi tam, eksiksiz ve kesin biçimde aktarmak için seçtiðimiz sözcüklerin

anlaþýlýr ve kurduðumuz tümcelerin düzgün ve anlaþýlýr olmasý beklenir.

Bazý dillerde tümce yapýsý ve seçilen sözcükler, yukarýda açýkladýðýmýz düþünceye uygun

düþerken bazý dillerde dolaylý anlatým yeðlenir. Türkçe, Ýngilizce gibi dillerde, sözcükler ve

tümce kuruluþu, istek, niyet ve amacý doðrudan ve açýk biçimde karþý tarafa iletecek biçimde

gerçekleþtirilir. Buna karþýn Çince ve Japoncada üstü kapalý, yanýþtýrmaya dayalý anlatým

yöntemi yeðlenir.

Çeviri sýrasýnda, sözcüklerin ve tümcelerin gerçek anlamlarýný çýkarmak önemlidir. Dolayýsýyla,

çevirisi yapýlan dilin anlatým biçimini bilmek önemlidir.

11.1.5 Sözlüksel Benzerlikler ve Farklýlýklar

Kaynak dildeki bir sözcüðün karþýlýðýný diðer bir dilde her zaman bulamayabiliriz. Ayný duygu

ve istek farklý dillerde farklý biçimde anlatýlabilir. Sözlüksel benzerlik ve faklýlýklar aþaðýda

sýralanan bakýþ açýlarýndan ortaya konacaktýr:

• Eksiklik

• Birebir karþýlýk

• Tek karþýlýk olmamasý

• Nitelik deðiþmesi

• Cinsiyetli sözcükler

• Anlamsal zenginlikler

8 - Bilgisayarlý Çeviri

Page 9: DDI- Kitap (1 Ekim)

Eksiklik

Toplumlarýn ilgi alanlarý kültürel özellikleri dillerinin söz varlýðýnýn oluþmasýnda

etkindir. Çiftçi bir toplumda, çiftçilikle ilgili terimlerin zenginleþmesi doðaldýr.

Denizcilik ile ilgili olan bir toplumda, denizcilik terimlerinin sayýsý, denizi olmayan

bir toplumun dilindekine oranla çok olacaktýr. Bu tür özellikler, kaynak dildeki bir

sözcüðün, çeviri yapýlacak hedef dilde karþýlýðýnýn bulunamayabileceði sonucunu

doðurur.

Türkçede akrabalýk terimleri oldukça zengin sayýlabilir. Örneðin, amca, dayý, hala,

teyze, yeðen, eniþte, görümce, elti, yenge, bacanak, vb. Ýngilizce ve Fransýzcada,

örnek olarak verdiðimiz sözcüklerin karþýlýðýný bulamayýz. Bu dillerde hala ile teyze

ve dayý ile amca için kullanýlan sözcük aynýdýr. Eniþte ve bacanak sözcüklerinin

karþýlýðý ise yoktur.

Çevirinin yapýlacaðý hedef dilde, kaynak dildeki sözcüðün karþýlýðý yok ise, bu sözcük

birçok sözcük ya da bir tümce ile anlatýlmaya çalýþýlýr.

Birebir Karþýlýk

Kaynak ve hedef dilde, ayný anlamý veren sözcükler olabilir. Ancak, bir dilde tek

sözcükle anlatýlan bir taným diðer dilde iki hatta üç sözcük kümesiyle anlatýlýyor

olabilir.

Karpuz (Tr) - Water melon (Ýng)

Baþ parmak (Tr) - Thumb (Ýng)

Tek Karþýlýk Olmamasý

Bir dilde bir sözcüðün deðiþik anlamlarda kullanýlmasýna kaþýn, diðer bir dilde her

deðiþik anlam için bir sözcük olabilir.

Söz gelimi Türkçede ayak sözcüðü, insan ayaðý, hayvan ayaðý, masa ayaðý, yarýþ ayaðý

anlamlarýnda kullanýlmaktadýr. Kavram belirsizliðine neden olacaðý düþünülse bile,

kullanýldýðý yere göre anlamý belirlidir. Örneðin, "ayaðým aðrýyor" dediðimizde, insan

ayaðýný; "yedinci ayaðý Nilüfer kazandý" dediðimizde at yarýþýnýnýn sonucu hakkýnda

konuþtuðumuz kolayca anlaþýlýr.

Türkçede farklý anlamlarda kullanýlan ayak sözcüðü için Fransýzcada deðiþik

karþýlýklar bulunmaktadýr. Örneðin, jambe (insan ayaðý), patte (hayvan ayaðý) pied

(masa ayaðý), etape (yarýþ ayaðý).

1.1 Dillerin Benzerlikleri ve Farklýlýklarý - 9

Page 10: DDI- Kitap (1 Ekim)

Nitelik Deðiþmesi

Sözcüklerin kullanýþ biçimleri dilden dile deðiþebilmektedir. Br dilde eylem ile

anlatýlan bir durum bir baþka dilde isim ya da sýfat ile anlatýlmaktadýr. Örneðin;

Açým (sýfat) (Tr) - I am hungry (sýfat) (Ýng) - Ho fame (ad) (Ýta) (I have hunger)

Aç olma hali Türkçe ve Ýngilizcede eylem ile anlatýlýrken Ýtalyancada isim ile

anlatýlmaktadýr.

Cinsiyetli Sözcükler

Almanca, Fransýzca, Arapça gibi dillerde adlar cinsiyet bilgisini de içermektedir.

Ýngilizcede sadece üçüncü tekil þahýs zamiri cinsiyet bilgisi içerir. Türkçe sözcüklerde

(Arapçadan alýnmýþ rahip, rahibe gibi sözcükler hariç) cinsiyet bilgisi yoktur. Çeviri

yapýlacak hedef dil Türkçe gibi cinsiyet bilgisi içermiyor ise, sözcüðün ya da zamirin

baþýna cinsiyet bilgisinin eklenmesi gerekir. Örneðin

Katibe (Arb) - Bayan yazman

She is going - O (bayan) gidiyor

Anlamsal Zenginlikler

Türkçede abla, abi, kardeþ sözcükleri, kiþinin kardeþinin cinsiyeti ve yaþý hakkýnda

bilgi içerirken bunlarýn karþýlýklarý Ýngilizcede bulunmaz.

Türkçede el baþ parmaðý ve ayak baþ parmaðý olarak tanýmladýðýmýz parmaklar için

Ýngilizcede iki ayrý sözcük bulunmaktadýr.

11.1.6 Eylem Ýþlevindeki Farklýlýklar

Anlatým biçimi, özellikle eylemlerin neden olduðu olaylar açýsýndan deðerlendirdiðimizde

dilleri iki sýnýfa ayýrabiliriz:

Yönü Belirli Eylemler

Bazý eylemler, eylemin yönünü açýkça belirler. Dolayýsýyla, ayrýca yön belirtmeye

gerek yoktur. Örneðin; Türkçede "ödemek" eylemi borç olarak alýnmýþ ya da kabul

edilmiþ bir görevin yerine getirilmesi; karþýlýðýnýn verilmesi anlamýný taþýr.

Dolayýsýyla, "insan aldýðý borcu öder". Bazýlarýný söylediði gibi "geri borç ödemesi"

gibi anlatýmlara gerek yoktur ayrýca yanlýþtýr.

Benzer biçimde "inmek", eylemi, bu eylemin aþaðýya doðru yapýldýðý, "týrmanmak"

eylemi, bu eylemin yukarý doðru yapýldý bilgisini içermektedir.

10 - Bilgisayarlý Çeviri

Page 11: DDI- Kitap (1 Ekim)

Yön Eki Gerektiren Eylemler

Bazý eylemler, eyleme yön belirleyen bir ek eklenir. Ýngilizcede bu tür eylemlerin

sayýsý çok sayýlacak kadar fazladýr. Bu tür eylemler bir yön belirtici ile birlikte

kullanýlmalarý gerekir. Örneðin "I will pay back" (borcumu ödeyeceðim), "I jump

down" (atladým) gibi.

11.3 Bilgisayarla Çeviri Yöntemleri

Bir dilde yazýlmýþ olan bir metni ya da konuþmayý, diðer dilde yazýlý bir metne ya da konuþmaya

çevirme iþleminde bilgisayar kullanýlýyor ise bu eyleme "Bilgisayarla Çeviri- BÇ" adý

verilmektedir. Bu tanýmdan da anlaþýlacaðý gibi, diller arasý çeviri eyleminde bilgisayar

desteðinden yaralanýlmasý, en genel baðlamda BÇ olarak deðerlendirilmektedir. Bilgisayarla

gerçekletirilecek çeviriler þu özelliklere sahip olmalýdýr:

• Çeviriler insan desteði ve katkýsý olmadan gerçekleþebilmelidir.

• Hedef dildeki çeviri doðru anlaþýlabilecek nitelikte olmalýdýr.

• Çeviri yazýlýmý, çeviri iþlemini konudan baðýmsýz yapabilmelidir.

Bilgisayarlý çeviri sürecinde kullanýlan;

• Kural tabanlý

• Ýstatistiksel ve

• Örnek tabanlý

yöntemler aþaðýda açýklanmýþtýr:

11.3.1Kural Tabanlý Çeviri Yöntemleri

Kural tabanlý çeviri yöntemlerinde, kaynak tümcesinin çeþitli bilgi seviyelerinde gösterimlerini

oluþturduktan sonra bu bilgi seviyesinde aktarým yapýlmasýný öngören bir dizi yöntem kullanýr.

Bu yöntemleri görselleþtirmek için Vauquois Üçgeni yaygýn olarak kullanýlýr, Þekil-11.7.

11.3.1.1 Doðrudan Aktarým

En temel çeviri türü, kaynak dildeki sözcüklerinin karþýlýklarýnýn bulunarak hedef dile

çevrilmesidir. Ancak bu basit yöntemde bile birçok sorunla karþýlaþýlmaktadýr. Bunlarýn en

önemlisi çevrilecek sözcüðün birebir karþýlýðýnýn bulunmadýðý durumlardýr. Bu sorunlara

sözlüksel belirsizlik denilmektedir. Önceki kýsýmda bu konu ayrýntýlý biçimde açýklanmýþtýr.

Her ne kadar doðrudan aktarým yönteminde tümce üzerinde çözümleme yapýlmasý gerekmese de

birçok uygulamada biçimbilimsel çözümleme de yapýlmaktadýr.

11.3 Bilgisayarla Çeviri Yöntemleri - 11

Page 12: DDI- Kitap (1 Ekim)

11.3.1.2 Sözdizimsel Gösterimin Aktarýmý

Bilgisayarlý çeviri yöntemleri arasýnda diðer bir yöntem de sözdizimsel temelde çeviri

yapmaktýr. Buna göre kaynak dildeki sözcük öncelikle sözdizimsel olarak ayrýþtýrýlýr ve elde

edilen aðaç yapýsý, hedef dilde ayný anlamý taþýyan aðaç yapýsýna çevrilmeye çalýþýlýr,

Þekil-11.8.

12 - Bilgisayarlý Çeviri

Kaynak dilde tümce Hedef dilde tümce

Kaynak dildesezgisel aðaç

Hedef dildesezgisel aðaç

Aktarým

Ayrýþtýrma Oluþturma

Þekil-11.8: Sözdizimsel gösterimin aktarýmý

Kaynak dilde metin

Sözcükler Sözcükler

Sözdizimsel YapýSözdizimsel Yapý

Anlamsal Yapý Anlamsal Yapý

Dilden baðýmsýzAnlamsal Yapý

BaðlamsalÇözümleme

BaðlamsalÜretim

Bilgi tabanlý aktarým

Anlamsal Aktarým

Sözdizimsel Aktarým

Doðrudan aktarým

Hedef dilde metin

AnlamsalÇözümleme

AnlamsalÜretim

Sözdizimsel Çözümleme

SözdizimselÜretim

BiçimbilimselÇözümleme

BiçimbilimselÜretim

Þekil-11.7:: Bilgi tabanlý yöntemlerin sýnýflandýrýlmasý-Vauqouis Üçgeni

Page 13: DDI- Kitap (1 Ekim)

Sözdizimsel yapýnýn aktarýlmasýndan sonraki süreç ise sözcüklerin aktarýlmasýdýr. Týpký

doðrudan aktarým yönteminde olduðu gibi bu aþamada da her iki dilde sözcükleri içeren bir

aktarým sözlüðü kullanýlýr. Bazý sistemlerde, bu aþamada ortaya çýkan sözcüksel belirsizliklerin

giderilmesi için kaynak tümce çözümlemeleri sýrasýnda anlamsal belirsizlik giderici yöntemler

uygulanmaktadýr.

11.3.1.3 Anlamsal Gösterimin Aktarýmý

Anlamsal çeviri, önce kaynak dildeki tümcenin sözdizimsel ayrýþtýrmasý yapýldýktan sonra

ayrýþtýrýlan yapýlara anlamsal görevlerin yüklenmesi ve aktarýmýn bu görevlere göre yapýlmasý

temeline dayanmaktadýr. Yöntem, sözdizimsel çeviride karþýlaþýlan yapý uyuþmazlýklarýnýn

bazýlarý çözebilmektedir.

11.3.1.4 Dilden Baðýmsýz Anlamsal Gösterimin Aktarýmý

Bilgisayarlý dil çevirisi yöntemlerinin sonuncusu ise “interlingua” adý verilen ve tümcenin

taþýdýðý anlamý, dilden baðýmsýz bir yapýda ifade eden yapýlarý kullanýlmasýdýr. Bu yöntemin

temel dayanak noktasý, farklý dillerde, anlamlarýn ifade edilme biçimlerinden baðýmsýz bir

anlam temsilidir.

Örnek olarak aþaðýdaki tümcenin gösterimi Þekil-11.9’da verilmiþtir:

Mehmet, bu güzel çöreði yemedi.

Bu yöntemin en yararlý yönü, ikiden fazla dil arasýnda çeviri yapýlacaðý zaman (1®N) ortaya

çýkmaktadýr. Diðer yöntemlerde bu tür bir iþlem, toplam N2 çeviri yapýlmasý anlamýna gelir.

Halbuki kaynak tümcenin dilden baðýmsýz anlamsal gösterimi elde edildikten sonra, bu

gösterime iliþkin tümcenin N adet dil için üretilmesi yeterlidir. Bu tür çeviri yöntemi, Avrupa

Birliði gibi birçok dilin kullanýldýðý ortamlar için kullanýþlý olmaktadýr.

Ancak “interlingua” adý verilen bu yapýnýn kullanýlmasý durumunda, doðal dil ile ifade edilen

anlamý, baþka bir biçimde sunacak olan “bilgi temsil diline” çevirmedeki güçlük gibi sorunlara

11.3 Bilgisayarla Çeviri Yöntemleri - 13

Olay yemek

Etmen Mehmet

Kip geçmiº

Olumluluk olumsuz

çörek

Tema Ýþaret bu

Özellikler tatlý

é ùê úê úê úê úê úê úé ùê úê úê úê úê úê úë ûë û

Þekil-11.9 :Dilden baðýmsýz anlamsal gösterim

Page 14: DDI- Kitap (1 Ekim)

neden olmaktadýr. Her dilin, belirttiði özellikler farklýlýk göstermektedir. Örneðin Türkçede 3.

tekil þahýslar için cinsiyet bilgisi yokken Ýngilizcede bulunmaktadýr. Benzer þekilde Türkçede

amca ve dayý ayrý sözcüklerle ifade edilirken Ýngilizcede her ikisi de uncle sözcüðü ile

belirtilir. Anlamsal gösterimin dilden baðýmsýz olabilmesi için her dilde farklý ifade edilen

kavramlarý içermek için de bir yol bulunmasý gerekmektedir. Bu farklýlýklardan dolayý dilden

baðýmsýz bir gösterimin tam olarak nasýl saðlanabileceði konusunda halen büyük eksiklikler

bulunmaktadýr.

11.3.2 Ýstatistiksel Yöntemler

Bilgi tabanlý bilgisayarlý çeviri yöntemlerinin ana konusu, kaynak dildeki tümcelerin hangi bilgi

seviyesinde (sözcük, sözdizimsel yapý, anlamsal yapý gibi) iþlem göreceðini belirlemek ve

seçilen gösterimin hedef dile nasýl aktarýlacaðýnýn yollarýný araþtýrmak üzerine yoðunlaþýr.

Ýstatistik tabanlý yöntemler ise tamamen sonuç odaklý çalýþýr ve aktarma iþleminin nasýl

yapýlmasý gerektiðinden çok nasýl sonuçlanmasý gerektiði üzerinde dururlar.

Ýstatistiksel çeviri yöntemi kavramý 1950’li yýllarda ortaya atýlmýþ olsa da gerçek anlamdaki

çalýþmalar 1990’lý yýllarda baþlamýþtýr Elektronik ortama aktarýlmýþ, koþut çevirilerden oluþan

metinlerin sayýsýnýn giderek artmasý ve bilgisayarlarýn yeteneklerinin hýzla artmasý, kural

tabanlý aktarým için kural karmaþasýnda zorlanan araþtýrmacýlarýn, istatistiksel çeviri

yöntemlerine doðru hýzlý bir kaymaya neden olmuþtur.

Ýstatistiksel yöntemlerin çalýþma mantýðý, çeviri iþlemini, Shannon’un Gürültü Kanal Modeli

(Noisy Channel Model) uyarýnca bozulmuþ bir iþareti düzeltme olarak deðerlendirmektedir. Bu

yaklaþýma göre hedef dildeki tümce H, iletim kanalýndan geçerken kanaldaki gürültü nedeniyle

deðiþmiþ ve çýkýþta kaynak dildeki tümce K oluþmuþtur. Yöntemin ilkesi, iletim kanalýnýn çýkýþ

ucunda gözlenen kaynak dildeki tümce K’dan yola çýkarak, gönderilen asýl metine yani “hedef

dildeki” tümceye ulaþmaktýr. Bunu saðlamak üzere aþaðýdaki denklemin çözümünün bulunmasý

yeterli olacaktýr:

H P H KH Hedef Dil

argmax ( | ) (11.1)

Denklem (11.1) ’deki olasýlýk deðerini Bayes kuralýna göre tekrar yazarsak:

HP K H P H

P KH Hedef Dil

argmax( | ) ( )

( )(11.2)

Bu denklemde P(K) olasýlýðý bütün H tümceleri için sabit olduðundan argmax iþleci için sonucu

deðiþtirmez. Bu durumda denklem (11.2)’yi aþaðýdaki gibi yazabiliriz:

H P K H P HH Hedef Dil

Çeviri modeli Dil mo

argmax ( | ) ( )124 34

deli

123(11.3)

14 - Bilgisayarlý Çeviri

Page 15: DDI- Kitap (1 Ekim)

Bu denklemde iki bileþen göze çarpmaktadýr. Bunlardan P(K|H), çeviri modeli olarak

adlandýrýlýr ve hedef dildeki H tümcesinin, kaynak dildeki K tümcesinin çevirisi olma olasýlýðýný

belirtir. Ýkinci bileþen ise H tümcesinin, hedef dildeki olasýlýðýný belirtir. Bu iki olasýlýk

deðerinin çarpýmýný en çoklayan H tümcesi sonuç olarak üretilir.

Denklem (11.3)’ün sezgisel açýdan yorumu ise, kaynak dildeki K tümcesinin en yakýn çevirisi

olma (çeviri modeli bileþeni) ve ayný zamanda da hedef dil için akýcý ve geçerli bir tümce olma

(dil modeli bileþeni) koþullarýný birlikte saðlayan en olasý H tümcesinin bulunmasýdýr.

Sonuç olarak istatistiksel yöntemlerle bilgisayarlý çeviri yapabilmek için aþaðýdaki üç bileþenin

elde edilmesi gereklidir:

• P(H)’nin hesaplanabilmesi için hedef dil için bir Ýstatistiksel Dil Modeli (ÝDM)

• P(K|H)’nin hesaplanabilmesi için bir çeviri modeli

• Bütün bu olasýlýk deðerlerini kullanarak verilen bir K tümcesi için en olasý H

tümcesini üretebilen bir çözücü

Gerekli dil modelleri sadece hedef dil için üretilmek zorunda olduðundan bu dil modellerinin

oluþturulmasý çeviri modelinin üretilmesine göre daha kolaydýr.

Çeviri modelinin oluþturulmasý için, kaynak tümcedeki sözcük yada sözcük öbeklerinin, hedef

dilde hangi sözcük ya da sözcük öbeklerinin karþýlýðý olduðu (ürettiði) bilgisi gereklidir. Bu

bilgileri içeren çok sayýda tümce üzerinde çeþitli tekniklerle gerçeklenen hesaplamalar

sonucunda çeviri modeli hesaplanmaktadýr. Bu amaçla, birbirlerinin çevirisi olan, hedef ve

kaynak dildeki büyük miktarda (genellikle milyonlarca tümceden oluþan) metinler önce tümce

11.3 Bilgisayarla Çeviri Yöntemleri - 15

P(H)

GiriþH

Dil modeli P(H) Aktarým modeliP(K|H)

ÇýkýþK

En olasý tümce H

KaynakTümce

P(K|H)

Ýletme (Üretme)

Gürültülü iletiþim kanalý

Argmax

Çözme

X

Þekil-11.10: Gürültü Kanal Modeli uyarýnca çeviri iþlemi

Page 16: DDI- Kitap (1 Ekim)

bazýnda daha sonra da sözcük/sözcük öbeði bazýnda paralelleþtirilir. Bu iþlemlere tümce

hizalama, sözcük hizalama, sözcük öbeði hizalama adý verilir.

Ýstatistiksel çevirinin son bileþeni ise çözücüdür. En olasý çeviri olan H tümcesinin nasýl

bulunacaðý matematiksel olarak bilinse de, hedef dildeki olasý bütün tümceleri üreterek

bunlardan denklem (11.3)’e göre en olasý H tümcesini belirlemek pratik olarak olanaksýzdýr. Bu

amaçla demetli arama gibi daha verimli arama yöntemleri kullanýlabilir.

11.3.3 Örnek Tabanlý Yöntemler

Örnek tabanlý yöntemler, her iki dilde karþýlýklý tümceler içeren tümcelerden oluþan bir derlemi

kullanarak “örnekseme” yoluyla çeviri ilkesini kullanýr. Çalýþma ilkesinden dolayý

“örneksemeyle çeviri” olarak da isimlendirilir. Yöntemin çeviri üzerindeki temel varsayýmlarý

þunlardýr:

• Ýnsanlar basit tümceleri derinlemesine dilbilgisi kurallarýyla çevirmezler.

• Aksine, insanlarýn çeviri yaparken ilk adýmlarý, kaynak tümceyi belirli alt öbeklere

parçalamaktýr. Daha sonra bu öbekleri hedef dile çevirir ve son adýmda da bu öbekleri

uygun biçimde birleþtirerek daha uzun sonuç tümcesini üretir.

• Öbeklerin çevrilmesinde ise daha önceden “akýlda kalan” örneklere örnekseme yapýlýr.

Örneðin aþaðýdaki iki çeviriyi ele alalým:

A man eats vegetables « Hito wa yasai o taberu

Acid eats metal « San wa kinzoku o okasu

Bu iki örnek tümceye benzetilerek aþaðýdaki girdi tümcesi çevrilmek istensin:

He eats potatoes

Kuþkusuz çeviri iþlemi için bir aktarým sözlüðü gereklidir. Ama buradaki asýl sorun Ýngilizce eat

eylemi için olasý iki Japonca karþýlýktan (taberu ve okasu) hangisinin kullanýlacaðýna karar

vermektir. Yöntem, doðru karar vererek taberu eylemini seçer çünkü tümcenin diðer öðeleri he

ve potatoes sözcükleri, örneklerden man ve vegetables sözcüklerine, acid ve metal

sözcüklerinden anlamsal olarak daha yakýndýr. Benzer mantýkla aþaðýdaki giriþ tümcesi için de

okasu eylemi seçilir:

Sulfric acid eats iron.

Sözcüklerin anlamsal olarak birbirlerine yakýnlýk ve uzaklýklarý, bir sözlük ve kavramlar dizini

kullanýlarak bulunur. Kavramlar dizini, sözcüklerin eþ/zýt anlamlýlarýný, alt/üst kavramlarýný,

parça/bütün iliþkinlerini de içeren geniþ kapsamlý bir sözlük olarak deðerlendirilebilir.

16 - Bilgisayarlý Çeviri

Page 17: DDI- Kitap (1 Ekim)

Eðitim derlemindeki tümceler çoklukla birbirinden sadece tek sözcük farklý olacak þekilde

seçilir. Bu sayede yöntemin tümcelerin alt parçalarýný daha kolay öðrenmesi saðlanýr.

How much is that red umbrella? « Ano akai kasa wa ikura desu ka?

How much is that small camera? « Ano chiisai kamera wa ikura desu ka?

Bu örneklerden aþaðýdaki bilgiler çýkartýlýr:

• How much is that X? « Ano X wa ikura desu ka?

• red umbrella « akai kasa

• small camera « chiisai kamera

Öðrenilen bu bilgiler daha sonraki çevirilerde kullanýlmak üzere saklanýr. Son geliþmelerle, bu

kurallarýn saklanmadan çalýþma anýnda çýkartýlarak kullanýlmasý yoluna gidilmiþtir. Bu yöntem

yayýnlandýktan sonra Türkçe dahil birçok dilde çalýþmalar yapýlmýþtýr.

11.4 Çeviri Kalitesinin Deðerlendirilmesi

Geliþtirilen bilgisayarlý çeviri yöntemlerinin ve yöntemler üzerinde yapýlan deðiþikliklerinin

sonuçlarýnýn incelenmesi için üretilen sonuçlarýn, yani çevirilerin doðruluðu ve baþarýsý

ölçülmelidir.

Çeviri kalitesinin ölçülmesi için en basit yol, sistem çýktýlarýnýn insanlar tarafýndan çeþitli

yönlerden (üretilen tümcenin akýcýlýðý, kaynak tümcedeki anlamýn aktarýlmasýndaki doðruluk

gibi) derecelendirmesidir. Üretilen çýktýlarý insanlar kullanacaðý için en uygun deðerlendirme

yöntemi aslýnda bu olmasýna karþýn, hem maliyet açýsýndan çok pahalý hem de hýz açýsýndan

oldukça yavaþtýr. Ayrýca aktarým sistemlerinin sürekli geliþtirildiði ve her yapýlan deðiþikliðin

etkilerini görmek için böyle bir deðerlendirmeye gereksinim duyulduðu göz önüne alýnýrsa bu

yöntemin yapýlabilirliði oldukça azalmaktadýr.

Bazý deðerlendirme sistemleri ise baþarým ölçütü olarak, sistem tarafýndan üretilen çevirinin bir

çevirmen tarafýndan düzeltilmesi sürecinin karmaþýklýðýný ölçme esasýna dayanmaktadýr. Bu tür

yöntemlerin çýkýþ fikri, bilgisayarlý çeviri sistemlerinin çýktýlarýnýn genel olarak insan emeði ile

düzeltilerek kullanýldýðýný dolayýsý ile sistemin baþarýsýnýn, çevirmenin harcadýðý çaba ile

ölçülebileceði görüþüdür. Bu tür ölçme yöntemleri, çevirmenin harcadýðý çabayý, aday çeviri

üzerinde tüm düzeltmeleri yapmak için, tuþ takýmýnda kaç defa tuþa basýldýðý ya da çevirmen

tarafýndan düzeltilen son sürümü ile aday arasýndaki en kýsa deðiþim uzaklýðý (minimum edit

distance) deðeri ile orantýlý olarak hesaplar.

Deðerlendirmede izlenebilecek bir baþka yol da otomatik yöntemlerle deðerlendirme

yapmaktýr.

11.4 Çeviri Kalitesinin Deðerlendirilmesi - 17

Page 18: DDI- Kitap (1 Ekim)

11.4.1 BLEU/NIST

BLEU yöntemi, IBM tarafýndan 2002 yýlýnda geliþtirilmiþtir . Deðerlendirme mantýðý, sistem

çýktýsý aday tümcelerin, çevirmenler tarafýndan elle çevrilmiþ k adet referans çeviri ile olan

benzerliðinin ölçülmesine dayanýr. Benzerliðin ölçülmesi ise, sistem çýktýsýndaki sözcüklerin

(1-gram) ve sözcük dizilerinin (2,3,4,…-gram), referans çevirilerdeki sözcük ve sözcük dizileri

ile eþleþtirilmesiyle yapýlýr. Uygulamada dörtten uzun sözcük dizilerinin eþleþtirilmesinin

gereksiz olduðu görülmüþtür.

Çevirinin doðasý gereði bir tümcenin, ayný anlamý taþýyan birden fazla çevirisi olabilir. Sözcük

ve ifade seçimlerindeki bu serbestlik derecesi, deðerlendirme aþamasýnda birden fazla referans

çeviri kullanýlarak çözülmeye çalýþýlmýþtýr.

Her n-gram mertebesi için, C derlemi içindeki her S aday tümcesi için hesaplanan deðiþtirilmiþ

keskinlik deðeri pn þu þekilde bulunur:

PA ngram

A ngramn

eþleþenngram SSeC

ngram

Î

åå det ( )

det( )SSeC åå

(11.4)

Bu denklemde, çeviri aday tümcesinde yer alan ngram (yani sözcük yada sözcük dizisi),

referans çevirilerde birden fazla defa geçse de bir eþleþme olarak sayýlýr.

BLEU yöntemi aðýrlýklý olarak keskinlik (precision) ölçütüne dayanmaktadýr. Birden fazla

referans çeviri kullanýlabildiði için anma deðerini hesaplamak zordur. Bu nedenle, referans

çevirilerden çok daha kýsa bir aday çevirinin, yüksek keskinlik deðeri sayesinde yüksek BLEU

puanlarý almasýný engellemek amacýyla bir kýsalýk cezasý tanýmlanmýþtýr:

BPe er c r

e e er c rr=

>

£

ìíî

-

11

ð

ð/ e(11.5)

Bu denklemde c derlemdeki aday çevirilerin tamamýnýn toplam uzunluðunu, r ise etkin

(effective) referans uzunluðunu göstermektedir. Etkin referans uzunluðu, referans tümceler

derlemi içerisinde, kendi aday tümcesinin uzunluðuna en yakýn olan referanslarýn uzunluklarý

toplamýdýr. Bu tanýmlamalardan sonra BLEU puaný aþaðýdaki gibi hesaplanýr:

BLUE BP w Pn nn

N

= ´=åexp( log )

1

(11.6)

BLEU deðeri temel olarak eþleþen n-gram oranlarýnýn geometrik ortalamasýnýn bulunmasýyla

hesaplanýr ve 0 ile 1 aralýðýndadýr. BLEU puanýn 1 olmasý, aday çevirilerin, referanslardan en az

1 tanesi ile birebir ayný olduðunu göstermektedir.

Yapýlan çalýþmada, bir deneme kümesindeki tümcelerin çevirilerinin BLEU puanlarý ile seçilen

hakemlerin çevirilere verdikleri puanlar karþýlaþtýrýlmýþ ve BLEU puanlarý ile bu kiþilerin

deðerlendirmeleri arasýnda ilinti olduðu gösterilmiþtir .

18 - Bilgisayarlý Çeviri

Page 19: DDI- Kitap (1 Ekim)

NIST yaklaþýmý da temel olarak BLEU ile ayný deðerlendirme adýmlarýný izlemesine karþýn

n-gram eþleþmelerinin geometrik ortalamasý yerine aritmetik ortalamasýný kullanýr ve

hesaplanan pn deðerlerini n-gramlarýn sýklýklarý ile iliþkilendirilir (daha az sýklýða sahip eþleþme

daha önemlidir) .

Son yýllarda yapýlan çalýþmalar sonucunda BLEU deðerlendirme sisteminin bazý olumsuz

yanlarý ortaya çýkartýlmýþtýr. Örneðin yüksek BLEU puanlarýnýn, her zaman çevirilerin daha

kaliteli olduðunun bir göstergesi olmadýðý, tersine BLEU puanlarýnda artýþ elde edilerek üretilen

çevirilerin kalitesinin yükseltilemeyebileceði ortaya çýkartýlmýþtýr. Ancak BLEU yönteminin

otomatik olmasý ve insan emeði gerektiren deðerlendirmelere oranla çok daha ucuz ve hýzlý

olmasý gibi nedenlerden dolayý günümüzde BLEU yöntemi yaygýn olarak kullanýlmaktadýr.

Anýlan nedenlerden ötürü BLEU yönteminin farklý (en azýndan istatistiksel - kural tabanlý gibi

farklý aktarým yaklaþýmlarý kullanan) sistemlerin baþarýlarýnýn karþýlaþtýrýlmasýnda

kullanýlmamasý gerektiði, BLEUnun daha çok tek bir sistem üzerinde yapýlan ardýþýk

deðiþikliklerin etkilerini deðerlendirmede kullanýlmasýnýn uygun olacaðý görüþü aðýrlýk

kazanmýþtýr .

11.4.2 F Deðeri

F-deðeri, bilgi getiriminde kullanýlan keskinlik ve anma deðerlerinin harmonik ortalamasý

olarak tanýmlanabilir. Bu yöntem, aday tümce ile referans tümce arasýnda, daha uzun sözcük

dizisi eþleþmelerini kayýracak biçimde “en uzun eþleþmeyi” bulmak üzerine yoðunlaþýr. Bu

eþleþmenin bulunmasýndan sonra keskinlik ve anma deðerleri, bulunan bu en uzun eþleþme EUE

sözcük sayýsý ile, sýrasýyla aday A ve referans R tümcelerindeki sözcük sayýlarýna bölünerek

bulunur:

Keskinlik A REUE A R

A( | )

| ( , )|

| |= (11.7)

Anma A REUE A R

R( | )

| ( , )

| |= (11.8)

11.4.3 Meteor

Meteor ölçütü, F-ölçütü’nü birkaç yönden deðiþtirerek kullanmaktadýr . Meteor deðerlendirme

sisteminde bazý dilbilimsel süreçler deðerlendirme aþamasýna dahil edilerek doðrudan sözcük

eþleþmeleri yerine sözcük köklerinin de eþleþmesine olanak tanýnmýþtýr. Ayrýca Meteor

yönteminde, anma deðeri üzerinde aðýrlaþtýrma yapan bir harmonik ortalama kullanýlýr :

FPR

R Port =

+

10

9(11.9)

11.4 Çeviri Kalitesinin Deðerlendirilmesi - 19

Page 20: DDI- Kitap (1 Ekim)

Keskinlik ve anma deðerlerinin sözcük eþleþmesine (1-gram) baðlý olmasýndan dolayý daha

uzun eþleþmeler deðerlendirmeye alýnmamaktadýr. Yöntem, bu açýðý kapatmak amacýyla bir

ceza katsayýsý içermektedir. Bu katsayý hesaplanmadan önce, aday ve referans tümcede

birbirlerinin karþýlýðý olan sözcük gruplarý (chunks) oluþturulur. Bu sözcük gruplarýný

oluþturulmasýnda tek kýsýt, hem aday hem de referans tümcede birbirlerinin karþýlýðý olan

sözcüklerin sýralarýnýn grup içinde de ayný kalmasýdýr. Örneðin “daha sonra beraber eve gittiler”

aday çevirisi ile “daha sonra hep beraber eve gittiler” referans çevirisinde iki grup oluþur : (1)

“daha sonra” (2) “beraber eve gittiler”. Bu gruplamadan sonra ceza katsayýsý ve sonuç puaný

aþaðýda formüllere göre hesaplanýr:

Cezagruplar

eþleþensözcükler= ´

é

ëê

ù

ûú0 5

3

,| |

| |(11.10)

METEOR F Cezaort= ´ -( )1 (11.11)

Meteor yönteminin en önemli olumsuz yönü, birden fazla referans çeviri olduðunda ortaya

çýkmaktadýr. Her referans çeviri için bir puan hesaplanarak en yüksek puan çýktý olarak

kullanýlýr. Oysa bazý durumlarda çevirinin bir bölümü (örneðin özneyi oluþturan ad öbeði)

referanslardan bir tanesinin bir bölümü ile eþleþirken, çevirinin baþka bir bölümü (örneðin

eylem öbeði) baþka bir referans ile eþleþebilir. Yöntemin bir baþka bir olumsuz tarafý ise

puanlamada kullanýlan katsayýlarýn deðerlerinin belirlenmesidir. Geçerli katsayýlar

deneme-yanýlma yöntemi ile bulunduðundan en uygun katsayýlar olup olmadýðý þüphelidir.

11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri

Akraba diller arasýndaki yapýsal benzerlikler yardýmý ile, bu diller arasýnda bilgisayarlý çevirinin

gerçekleþtirilmesi, farklý dil aileleri arasýnda çeviri yapmaktan, en azýndan sezgisel olarak, daha

kolay görünmektedir. Tamamen farklý dil ailelerinde sýnýflandýrýlan diller arasýnda çeviri

yapmanýn zorluðu.

A. C. Tantuð tarafýndan gerçekleþtirilen çalýþmada akraba diller arasýnda bilgisayarlý metin

çevirisi için istatistiksel ve bilgi tabanlý yöntemlerin beraber kullanýldýðý karma modeller

önerilmiþtir. Önerilen bu karma modeller sayesinde hem istastiksel yöntemlerin en maliyetli

yönü olan hizalanmýþ eðitim kümesi gereksinimi ortadan kaldýrýlmýþ olmakta hem de yüksek

baþarýlar elde eden istatiksel yöntemlerin sunduðu getirilerden faydanýlmýþ olunmaktadýr.

Geliþtirilen modeller, temelde bitiþken yapýdaki akraba diller için tasarlanmýþtýr. Çalýþma

kapsamýnda önerilen modeller Türk dil ailesindeki dillerin birbirine çevrilmesi amacýyla

incelenmiþ, seçilen bir dil çifti için uygulama gerçeklenerek modellerin baþarýmý ortaya

konulmuþtur. Ancak geliþtirilen modeller Türk dillerine özgü olmayýp, dilden baðýmsýz

düþünülmüþ, akraba ve bitiþken olan tüm dil çiftleri için kullanýlabilir niteliktedir.

Modellerin çýkýþ noktasý (11.12) baðýntýsýyla verilmiþtir. Bu denklem aþaðýdaki tekrar

verilmiþtir :

20 - Bilgisayarlý Çeviri

Page 21: DDI- Kitap (1 Ekim)

H P K H P HH Hedef Dil

çeviri modeli Dil mo

argmax ( | ) ( )1 24 34

deli

123(11.12)

Ýki bileþenden oluþan bu denklemin dil modeli bileþeni, sadece hedef dil için hazýrlandýðýndan,

çeviri modeline göre daha kolay oluþturulabilir. Çeviri modelinin oluþturulmasý için çok sayýda

hizalanmýþ tümce çiftlerine gereksinim duyulmaktadýr. Ancak günümüzde dahi her dil çifti için

birbirlerinin çevirisi olan hizalanmýþ tümcelerin yeterli miktarlarda bulunmasý mümkün

olmamaktadýr. Amacýmýz, bu olumsuz koþullarda da istatistiksel çevirinin kullanýlabilir hale

gelmesi için, istatistiksel çevirideki bu “çeviri modeli olasýlýk daðýlýmý” yerine kullanýlabilecek

bir modelin oluþturulmasýdýr.

Kuramsal açýdan denklem (11.12) hedef dildeki bütün tümceler içerisinden, çeviri ve dil

modellerine göre en yüksek olasýlýða sahip tümcenin bulunmasý anlamýna gelmektedir.

Ancak bir dildeki olasý tümcelerin sayýsýnýn sonsuz olmasý nedeni ile uygulamada çeviriyi

üreten çözücü, hedef dildeki H tümcesini adým adým (sözcük ya da sözcük öbeði adýmlarý ile)

üretmeye baþlar . Her adýmda, çeviri modeline ve dil modeline göre en yüksek olasýlýða sahip

seçenek ya da seçeneklerden devam ederek sonunda tüm çeviri tümcesini oluþturur. Bu çalýþma

düzeninde çeviri modeli, kaynak tümcenin sözcüklerinin ya da sözcük öbeklerinin karþýlýðý

olabilecek tümceleri (olasýlýklarýna göre) oluþtururken, dil modeli bileþeni de oluþan bu

tümceler içinden hedef dil için en uygununu bulmaya çalýþýr. Bir anlamda “çeviri modeli”, hedef

dildeki tüm tümcelerde arama yapmak yerine, kaynak tümcenin çevirisi olabilecek tümceleri

olasýlýklarýna göre seçerek aramayý yönlendirmektedir.

Bu çalýþmasýnda önerilen yaklaþým, akraba diller, örneðin Türk dilleri, arasýnda çeviri söz

konusu olduðunda, olasýlýk daðýlýmý esasýna göre çalýþan “çeviri bileþeninin”, kural tabanlý

çalýþan “aktarým fonksiyonu” ile deðiþtirilerek istatistiksel dil modeli ile beraber kullanýlmasý

yönündedir. Bu yaklaþým sezgisel olarak, dil modeline göre en uygun tümceyi, “çeviri

modelinin yönlendirmesi ile hedef dildeki bütün tümceler kümesinde aramak yerine, aktarým

fonksiyonu tarafýndan aktarýlan sözcük/sözcük öbekleri ile oluþturulabilecek tüm olasý tümceler

kümesinde aramak” olarak yorumlanabilir. Bu sayede, Türk dilleri gibi birbirleri ile benzer

akraba diller arasýnda kullanýlabilecek, bilgi tabanlý yöntemler ve istatistik tabanlý yöntemlerin

birleþimi olan karma bir çeviri modeli önerilmiþtir.

Önerilen bu modele göre denklem (11.12)’nin güncellenmiþ hali aþaðýdaki gibidir:

H P HH F K

dil modeliaktarýmfonksiyonu

^

( )arg max ( )=

Î 123123

(11.13)

Önerdiðimiz çeviri modeli de iki bileþenden oluþmaktadýr. Aktarým fonksiyonu, K tümcesinin

karþýlýðý olabilecek tüm tümceleri üreten bir fonksiyon olarak görev yaparken, dil modeli ise

klasik anlamda kullanýlarak üretilen karþýlýklar arasýndan hedef dile göre en yüksek olasýlýk

deðerine sahip tümcenin seçilmesini saðlar.

11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 21

Page 22: DDI- Kitap (1 Ekim)

Ancak önerilen bilgisayarlý çeviri yöntemi ile istatistiksel çeviri yöntemi arasýnda vurgulanmasý

gereken önemli bir farklýlýk bulunmaktadýr. Ýstatistiksel çeviri sisteminde yer alan çeviri modeli,

kaynak dildeki tümcenin karþýlýðý olabilecek aday tümceler kümesini üretirken ayný zamanda

bunlar için birer olasýlýk deðeri de atamaktadýr. Bu olasýlýk deðeri, dil modeli olasýlýðý ile

birleþtirilerek en yüksek olasýlýklý çevirinin belirlenmesinde rol oynar. Oysa A. C. Tantuð

tarafýndan önerilen aktarým modelindeki aktarým fonksiyonu, sadece kaynak tümcenin karþýlýðý

olabilecek tümceler üretmektedir; bunlara herhangi bir olasýlýk deðeri atanmamaktadýr. Bu

tümcelerden en uygun olaný ise dil modeli bileþeni tarafýndan en yüksek olasýlýklý tümcenin

seçilmesi ile belirlenir.

Seçilen dil çiftinin bitiþken olmasý durumunda aktarým fonksiyonu ve dil modeli bileþeni,

özelleþtirilerek kullanýlmalýdýr. Sonraki bölümlerde önerilen aktarým fonksiyonu ve dil modeli

türlerinin ayrýntýlarý ele alýnmýþtýr.

11.5.1Aktarým Fonksiyonu Modelleri

Akraba diller söz konusu olduðunda, diller arasýndaki benzerlikleri kullanarak çeviri sürecini

basitleþtirmenin en kolay yolu, sözcük bazýnda çalýþan doðrudan aktarým modelinin

kullanýlmasýdýr. Özellikle sözdizimi açýsýnda büyük farklýlýklar göstermeyen akraba diller

arasýnda daha uygun olan bu doðrudan aktarým modeli, bitiþken diller için, sözcük kökleri ile

birlikte biçimbilimsel yapýlarýn da aktarýlmasýný saðlayacak biçimde deðiþtirilmiþtir.

11.5.1.1 Aktarým Modeli 0 – Temel Model

Temel aktarým modelinin matematiksel açýklamasý aþaðýda verilmiþtir.

K, toplam N adet sözcükten oluþan (k1,k2,....kn) kaynak dilde bir tümce olsun.

K k k k knN= =1 2 1.... (11.14)

Bitiþken diller söz konusu olduðunda, her bir sözcüðün hedef dile aktarýlmasý için öncelikle

biçimbilimsel çözümlemesinin yapýlmasý, sözcük kökünün ve diðer biçimbilimsel yapýlarýn

bulunmasý gereklidir. Buna göre biçimbilimsel çözümleme aþamasý, giriþi kaynak dilde

yüzeysel biçimdeki sözcük ki, çýkýþý ise bu sözcüðün olasý tüm biçimbilimsel çözümlemelerini

içeren bir küme olan C(ki) çözümleme fonksiyonu ile modellenir.

{ }C k c c ci i i ini( ) , , ...,= 1 2 (11.15)

Burada ni , ki sözcüðü için üretilen biçimbilimsel çözümlemelerin toplam sayýsýdýr ve ni ³ 1

þeklinde alttan sýnýrlýdýr. Üretilen her bir biçimbilimsel çözümleme, kök ve bu köke eklenen

deðiþken sayýda biçimbilimsel özelliklerden oluþur:

c kök b b bij ij ij ijk ijmi= + + + +1 ... ... (11.16)

Biçimbilimsel özellikler bijk ve sözcük kökleri kokij aktarýlmasý A(cij) aktarým fonksiyonu ile

saðlanýr. Bu aktarým fonksiyonu giriþ deðeri olarak, biçimbilimsel bir çözümleme cij’yi almakta,

22 - Bilgisayarlý Çeviri

Page 23: DDI- Kitap (1 Ekim)

çýkýþ olarak ise sözcük kökünün ve biçimbilimsel özelliklerin hedef dile aktarýlmýþ halini

üretmektedir:

{ }A c a a aij ij ijk ijnij( ) , ..., , ...,= +1 (11.17)

Sözcük köklerinin çevrilmesinde birden-çoða iliþki olduðu için bir çözümlemeye karþýlýk

birden fazla çeviri oluþabilmektedir. Dolayýsý ile A fonksiyonu çokdeðerli bir fonksiyon olarak

iþlev görmektedir. Bu koþullarda üretilen sözcük sayýsý nij ³ 1 olacaktýr. Kaynak tümcedeki ki

sözcüðünün cj çözümlemesine karþýlýk olarak üretilen her bir aijk çýktýsý, çözümleme ile benzer

yapýya sahiptir:

a kökh bh bh bhijkmijk ijk ijk ijk ijk= + + + +1 2 ... (11.18)

Burada kokh hedef dildeki kökü, bh ise hedef dildeki biçimbilimsel özellikleri göstermektedir.

Bütün bu tanýmlamalardan sonra, transfer fonksiyonun tanýmý yapýlabilir. Aslýnda tanýmlanmasý

amaçlanan aktarým fonksiyonu F, bir fonksiyon deðildir. F, bir baðýntý olarak tanýmlanmalýdýr.

Hedef dildeki tüm tümceler üzerinde tanýmlý olan bu baðýntý, yalnýzca “kaynak dildeki

sözcüklerin hedef dildeki karþýlýklarýndan oluþan bir dizi sözcüðü içeren” bir alt kümedir:

F K F k A C A c A cNj

c C k

j Nj

cj Nj

( ) ( ) ( ) ( ) ... ( )( )

= = ´ ´ ´Î Î

1 1 2

1 1

UC kc C k Nj ( )( )UU

2 2Î

=Î=

Õ A c j

c C ki

N

ij i

( )( )

11

U (11.19)

Eðer fi(K), F(K), baðýntýsýnýn i. elemaný olarak tanýmlanýrsa, geliþtirilen aktarým modelimizin

amacý, olasý bütün çeviriler içerisinden en yüksek olasýlýklý H B

^

‘yi bulmak olarak ifade

edilebilir. Buradaki alt indis B, oluþan tümcenin sözcüklerinin yüzeysel biçim yerine yapýsal

biçimde olduðunu belirtmektedir. En yüksek olasýlýklý tümcenin bulunmasý ise, E eðitim

derlemi üzerinde eðitilen bir L(E) dil modeli ile saðlanýr:

H p f K L EB

f K F Ki

i

^

( ) ( )

arg max ( ( )| ( )=Î

(11.20)

Aktarým modelinin son aþamasý ise hedef dildeki biçimbilimsel üretici tarafýndan, dönüþtürülen

sözcük kökleri ve biçimbilimsel yapýlardan yüzeysel biçimlerin elde edilmesidir. Bu üretim

aþamasý ise bir U fonksiyonu ile temsil edilir:

H U H h h hB M

^ ^

( ) ...= = 1 2 (11.21)

Modelin son çýktýsý olan, kaynak dildeki sözcüklerin, hedef dildeki karþýlýklarýnýn sýralandýðý

tümceyi göstermektedir. Aktarým aþamasýnda birden çoða bir yöntem izlendiðinden, oluþan

çeviri tümcesinin sözcük sayýsý M ³ N’dir.

11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 23

Page 24: DDI- Kitap (1 Ekim)

11.5.1.2 Aktarým Modeli I

Temel modelin en önemli olumsuzluðu, sözcük bazýnda sadece bire bir ya da birden çoða

aktarým yapýlmasýna izin vermesidir. Temel modelin bu kýsýtlamasý sonucu, kaynak tümcede

birden çok sözcükle ifade edilen yapýlar hedef dile doðru aktarýlamayacaktýr. Bu sorunu

gidermek amacý ile temel modele çoktan çoða aktarým yapmak üzere bir takým eklemeler

yapýlarak "Aktarým Modeli I" elde edilmiþtir. Bu eklemelerle öncelikle Çoklu Sözcük Gruplarý

(ÇSG) belirlenmiþ, daha sonra bu gruplar uygun þekilde hedef dile aktarýlmýþtýr.

Bitiþken diller için çoklu sözcük gruplarýnýn bulunma süreci, Ýngilizce, Çince gibi yalýtýmlý ya

da yalýtýmlýya yakýn dillerdeki kadar basit deðildir. Bunlar ve benzeri dillerde basit bir liste

kullanýlarak çoklu sözcük gruplarý belirlenebilirken, Türkçe, Fince, Japonca, Macarca gibi

bitiþken dillerde çoklu sözcük kümelerininn bileþenleri çeþitli biçimbilimsel deðiþikliklere

uðrayabilirler. Bu deðiþiklikler, ÇSG’lerin, basitçe bir listeden bakýlarak belirlenmesini

engellemektedir. Sonuç olarak, bitiþken dillerde ÇSG’lerin bulunmasý için tümcedeki

sözcüklerin kökleri ve diðer biçimbilimsel özellikleri gibi daha ayrýntýlý bilgilerle, düzenli

ifadeler ya da sonlu durumlu dönüþtürücüler gibi daha karmaþýk araçlara gerek duyulur.

Temel model tanýtýlýrken verilen matematiksel altyapýya baðlý kalýnarak ÇSG’lerin iþlenmesi ile

ortaya konulan yeni modelin matematiksel ifadesi aþaðýdaki gibi kurulmuþtur.

ÇSG’leri, bir ya da birden fazla sözcüðe ait biçimbilimsel çözümleme kümeleri arasýndan belirli

bir yönteme ya da kural dizisine göre seçilen elemanlardan oluþan sýralý eþleþmeler (ordered

pairs) olarak adlandýrýlabiliriz. Örneðin aþaðýda bir K tümcesinin ardýþýl üç sözcüðü (ki ki+1 ki+2)

için biçimbilimsel çözümleme sonuçlarý bulunmaktadýr:

{ }C k c c c ci i i i x i ni( ) , ..., , ..., , ...,, , , ,= 1 2

{ }C k c c c ci i i i x i ni( ) , ..., , ..., , ...,, , , ,+ + + + +=

+1 1 1 1 2 1 1 1(11.22)

{ }C k c c c ci i i i x i ni( ) , ..., , ..., , ...,, , , ,+ + + + +=

+2 2 1 2 2 2 2 2

Varsayalým ki ÇSG bulucu kurallar, bu üç sözcüðün çözümlemeleri içerisindeki ci,x , ci+1,y ve

ci+2,z çözümlemelerinin bir ÇSG oluþturduðunu belirlesin. Bu durumda bu üç elemanlý sýralý

eþleþmeler (ci,x , ci+1,y , ci+2,z) , G(K) kümesinin bir elemaný olur. Bu durumda G(K) aþaðýdaki

kümeler üzerinde tanýmlý bir baðýntý olmaktadýr:

G K C k ii

N

( ) ( )Í=

Õ1

(11.23)

Tümceyi oluþturan bütün sözcüklerin tüm çözümlemelerinin kartezyen çarpýmý içerisinde

arama yapýlarak, kurallara uyan sýralý çiftler G(K) baðýntýsýnýn elemaný olarak belirlenir. Ancak

ifade bu þekli ile matematiksel olarak yanlýþtýr. Çünkü kartezyen çarpýmý ile oluþturulan

kümenin elemanlarýnýn hepsi, mutlak olarak N sözcükten oluþmalýdýr. Bu ise þu anlama

gelmektedir: sadece N sözcükten oluþmuþ ÇSG’leri iþlenebilir, yukarýda örnekteki (ci,x , ci+1,y ,

ci+2,z) gibi üç elemanlý bir sýralý eþleþme girdisi G(K) kümesinin elemaný olamaz.

24 - Bilgisayarlý Çeviri

Page 25: DDI- Kitap (1 Ekim)

Bunu düzeltmek için G(K) baðýntýsýnýn üzerinde tanýmlý olduðu kümelere etkisiz bir eleman

eklemek yeterli olacaktýr:

{ }G K C k ii

N

( ) ( ( ) )Í È=

Õ e1

(11.24)

ÇSG belirleyici kurallarýn, e girdisini boþ katar olarak yorumlayacaðý ve göz ardý edeceði

düþünüldüðünde, (ci,x , ci+1,y , ci+2,z) girdisi artýk (e, e,…, ci,x ,ci+1,y ,ci+2,z ,…,e,e) biçimine

dönüþerek G(K) kümesine eklenebilir.

Sözcük sözcük aktarma yapýlýrken, eðer sýradaki sözcüðün herhangi bir çözümlemesi cij, G(K)

içerisindeki ÇSG’lerin bir parçasý ise, bu sözcüðün hiçbir çözümlemesi aktarýlmaz. Ancak eðer

cij, bu ÇSG’nin son sözcüðü ise, cij yerine bu ÇSG birleþtirilerek aktarým fonksiyonuna

gönderilir. Buna göre yukarýda verilen (ci,x , ci+1,y , ci+2,z) örneðinin aktarýlma süreci aþaðýdaki

gibidir:

{ }C k c c c ci i i i x i ni( ) , ..., , ..., , , ,= +1 2

{ }E C k i( ( )) , , ... , ...= Æ Æ Æ Æ

{ }C k c c c ci i i i x i ni( ) , ..., , ..., , , ,+ + + + += +

+1 1 1 1 2 1 1 1

{ }E C k i( ( )) , , ... , ...+ = Æ Æ Æ Æ1 (11.25)

{ }C k c c c ci i i i x i ni( ) , ..., , ..., , , ,+ + + + += +

+2 2 1 2 2 2 2 2

{ }E C k B c c ci i x i y i z( ( )) , , ... ( , , ), ..., , ,+ + += Æ Æ Æ2 1 2

Bu çalýþma düzenini saðlayan E fonksiyonunun tanýmý aþaðýda verilmiþtir:

E C

C e er j j n p p N c x

e erij

ij i ij p

( )

ð ( : )( : ) ( )

ð (=

" £ £ " £ £ ¹

Æ

1 1 1

$ £ £ " £ £ = Ù ¹

$ £

+j j n p p N c x x

B X e er j

i ij p p: )( : ) ( )

( ) ð ( :

1 1 2

1

1 e

j n p p N c x xi ij p p£ " £ £ = Ù =

ì

íï

îï

+)( : ) ( )1 31 e

(11.26)

Denklem (11.26)’da yer alan xp, XÎG(K) sýralý eþleþmesinin p. elemanýdýr. B fonksiyonu ise X

sözcük dizisini, geçerli bir biçime getirmek için uygun þekilde birleþtirerek tek bir kök ve uygun

biçimbilimsel özellikleri içeren yapýya dönüþtüren bir birleþtirme fonksiyonudur.

E fonksiyonun üzerinde biraz açýklama yapmak uygun olacaktýr. Fonksiyonun (1). alt taným

aralýðýnda, K tümcesinin i. sözcüðü ki‘nin j. çözümlemesi cij’nin aktarýlýp aktarýlmayacaðýna

karar verilir. Eðer ki‘ye ait çözümlemelerden hiçbirisi, G(K)’da belirlenen ÇSG yapýlarýnýn

herhangi birisinin bileþeni olarak geçmiyorsa, cij olduðu gibi çýkýþ olarak üretilir. (2) ile

numaralandýrýlmýþ alt taným aralýðý ise, eðer ki sözcüðünün herhangi bir çözümlemesi,

G(K)’daki herhangi bir ÇSG’nin son bileþen (xp+1 ¹ e) dýþýndaki bir bileþeni ise , ki‘ye ait bütün

çözümlemelerin göz ardý edileceðini söylemektedir. Son taným aralýðý (3) bölgesinde ise, ki‘ye

ait bir çözümleme, G(K) baðýntýsýndaki herhangi bir ÇSG’nin son sözcüðü ise (xp+1 = e), cij

yerine ÇSG’nin tamamý (X) B fonksiyonu tarafýndan dönüþtürülerek üretilir.

11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 25

Page 26: DDI- Kitap (1 Ekim)

ÇSG’lerin aktarýlmasý için bu tanýmlamalar yapýldýktan sonra, kaynak tümcenin olasý bütün

karþýlýklarýný üreten transfer fonksiyonun denklemi , aþaðýdaki gibi deðiþtirilir:

F K F k A E c A E cNj

c C k

j

c C kj j

( ) ( ) ( ( )) ( ( ))( ) (

= = ´ ´Î Î

1 1 2

1 1 2 2

U) ( )

... ( ( ))U U´Î

A E c Nj

c C kNj N

1

=Î=

Õ A E c j

c C ki

N

ij i

( ( ))( )

11

U (11.27)

Dil modelini kullanarak en yüksek olasýlýklý tümcenin seçildiði bundan sonraki denklemlerde

herhangi bir deðiþme olmaz.

11.5.1.3 Aktarým Modeli II

Geliþtirilen modellerdeki bir diðer eksiklik de aktarým kurallarýnýn sözcük bazýnda iþlem

görmesidir. Akraba diller arasýnda çeviri yapýlsa bile, sözcükler arasý iliþkiler her zaman

bulunur. Çeviri modelinin baþarýsýnýn arttýrýlabilmesi için bu iliþkiler göz önüne alýnarak

aktarým yapýlmalýdýr. Örneðin bazý Türk dilleri arasýnda çeviri yaparken, ortaçlarýn, niteledikleri

isimden bazý biçimbilimsel özellikleri almasý gerekmektedir. Bu ve buna benzer durumlarý

baþarýlý çevirebilmek için tümce genelinde iþlem gören bir takým aktarým kurallarý

tanýmlanmalýdýr. Tümce genelinde çalýþan aktarým kurallarý, tümcedeki sözcüklerin

biçimbilimsel bilgilerini kullanabileceði gibi bazý kurallar da sözcüklerin yüzeysel biçimlerine

gerek duyabilir.

Ancak mevcut aktarým fonksiyonu A, sadece sözcük kökleri ve sözcüðe ait biçimbilimsel

yapýlarýn aktarýmý saðlamaktadýr. Bunu geliþtirmek üzere denklem (11.21) aþaðýdaki gibi

deðiþtirilmiþtir:

H S U S H h h hY B B M

^ ^

( ( ( ))) ...= = 1 2 (11.28)

Bu denklemde, hedef dilde oluþturulan tümceler üzerinde iþlem gören bir SB fonksiyonu

tanýmlanmýþtýr. Bu fonksiyona, giriþ olarak yapýsal gösterimde sözcüklerden oluþmuþ tümceler

kümesi gelir. Fonksiyon, her bir tümce üzerinde, sözcükler arasýnda tanýmlanan kurallara uygun

olarak aktarýmý gerçekleþtirilir. Tümcedeki sözcüklerin yüzeysel biçimlerine gerek duyarak

yapýlan deðiþiklikler ise SY fonksiyonu modellenmiþtir.

11.5.2 Bitiþken Diller Ýçin ÝDM Oluþturulmasý

Ýngilizce, Almanca gibi dillerden farklý olarak, Türkçe için dil modelleri oluþturulurken

sözcüklerin yüzeysel biçimlerinin kullanýlmasý, Türkçenin türetken ve çekimli yapýsýndan

dolayý seyrek veri sorununa yol açmaktadýr. Bu yüzden eðitim verisi olarak sözcüklerin

yüzeysel biçimleri yerine, sözcüklerin köklerinin ve diðer bazý biçimbilimsel özelliklerin

kullanýlmasý yoluna gidilmiþtir.

26 - Bilgisayarlý Çeviri

Page 27: DDI- Kitap (1 Ekim)

Yüzeysel biçim yerine, sözcüklere ait biçimbilimsel çözümleme sonuçlarýnýn tamamýnýn

kullanýlarak bir ÝDM oluþturulmasý durumunda, gene seyrek veri sorunu oluþmaktadýr. Seyrek

veri sorununu azaltmak için, biçimbilimsel çözümlemedeki tüm etiketler yerine bunlarýn

gruplanarak kullanýlmasý fikri ortaya çýkmýþtýr . Örneðin Türkçedeki her sözcük, kök ve bir veya

birden fazla çekim grubundan oluþmaktadýr. Çekim gruplarý birbirlerinden ^DB (derivation

boundary) ile ayrýlmaktadýr :

kök+ÇG1^DB+ÇG2^DB+…^DB+ÇGn

Burada ÇGi, sözcük türü ve çekim özelliklerini de içeren ilgili çekim grubunu ifade etmektedir.

Örnek olarak aþaðýda bir biçimbilimsel çözümleme sonucu verilmiþtir:

yararlanmanýn : yarar+Noun+A3sg+Pnon+Nom ÇG1

^DB+Verb+Acquire+Pos ÇG2

^DB+Noun+Inf2+A3sg+Pnon+Gen ÇG3

Bu örnekte, isim türlü yarar sözcüðünün sözcük türü, +lan yapým eki ile önce eyleme daha

sonra da +ma mastar eki ile de tekrar isme dönüþmüþtür. Bu dönüþme süreci içerisinde oluþan

her sözcük türünün de kendisine ait çekim özellikleri bulunabilir. Türetilmiþ bir sözcüðün etkin

sözcük türü, son ÇG’nin sözcük türü olarak kullanýlýr (örneðin etkin sözcük türü “isim”dir).

Tablo-11.2’de 1 M sözcükten oluþan bir derlem üzerinde gözlenen, kök hariç bütün etiketlerin

bulunduðu tam çözümlemelerin ve ÇG’lerin sayýlarý verilmiþtir. Bir köke eklenebilecek ek

sayýsýnýn sýnýrsýz olmasýna karþýn, derlem üzerinde yapýlan sayýma göre 10.531 farklý tam

çözümlemeye rastlanmýþtýr. Tam çözümlemeler ÇG’lere ayrýlarak ÇG’ler sayýldýðýnda 2.194

farklý ÇG’ye bulunmuþtur. Bu sonuçlar seyrek veri sorununun indirgendiði ortaya koymaktadýr.

Tablo-11.2: Derlemde Gözlenen Tam Çözümleme ve Çekim Grubu Sayýlarý

Kuramsal Üst Sýnýr Gözlenen Adet

Tam Çözümleme µ 10.531

Çekim Grubu 9.129 2.194

Sadeleþtirme açýsýndan yapýlan bir baþka genelleme de ÇG’lerden oluþan türetilmiþ bir

sözcüðün sözdizimsel açýdan baðlantýsýnýn, son ÇG’den çýkarak sonraki sözcüklerin

ÇG’lerinden herhangi bir tanesine baðlanmasý þeklinde ifade edilir.

11.5 Akraba ve Bitiþken Diller Arasýnda Çeviri - 27

Page 28: DDI- Kitap (1 Ekim)

11.6 Türk Dilleri Arasýndaki Benzerlikler

Türk dilleri anlam ve biçim açýsýndan incelendiðinde birçok benzerlik ve aynýlýk olduðu

görülür. Benzerlikler, sözcük daðarcýklarýndaki ortak sözcükler açýsýndan incelendiðinde

baskýn olarak adýllar, sýfatlar, ilgeçler, belirteçler, zamanla ilgili sözcükler, organ isimleri, doða,

bitki ve hayvan isimlerinde ortak kullanýmlarýn olduðu görülmektedir. Ayrýca sözdizimsel

açýdan bütün Türk dilleri özne-nesne-yüklem (SOV) sýrasýný kullanmaktadýr. Ortak sözcüklerin

dýþýnda Türk dillerinin benzerlikleri, biçimbilimsel açýdan incelendiðinde ise ek türlerinin ve

ekleniþ biçimlerinin çoðu kez ayný olduðu görülmektedir. Örneðin ’de bazý Türk dilleri için isim

durum ekleri verilmiþtir . Hemen hemen bütün Türk dillerinde özellikle adlara eklenen çekim

eklerinin türleri ve sýralarý aynýdýr. Büyük ünlü uyumu, küçük ünlü uyumu, ünsüz benzeþmesi

gibi bazý yazým kurallarý da hepsinde görülmese de bazý Türk dillerinde ortak olarak bulunur.

Tüm bu benzerliklere örnek olarak aþaðýda farklý Türk dillerinde ortak olarak kullanýlan iki

deyim verilmiþtir.

Türkçe : Aðýr kazan geç kaynar.

Azerbaycan : Aðýr qazan geç qaynayar.

Turkmen : Agyr gazan giç gaýnar.

Özbek : Çuqur därya tinç aqar.

Kýrgýz : Oor kazan keç kaynayt.

Kazak : Awur qazan keþ qaynaydý.

Turkçe : Dað daða kavuþmaz, insan insana kavuþur.

Azerbaycan : Dað daða govuþmaz, insan insana govuþur.

Turkmen : Dag daga duþmaz adama adama duþar.

Özbek : Tåð tåð bilän qavuþmas, adam adam bilän qavuþar.

Kýrgýz : Too tooðo koþulbayt, adam menen adam koþulat.

Kazak : Taw tawða qosýlmas, adam adamða qosýldý.

Görüldüðü gibi sözcük sýralarý çoðunlukla aynýdýr. Yalnýzca bazý sözcükler bazý Türk dillerinde

iki ya da daha fazla sözcükle ifade edilmektedir.

28 - Bilgisayarlý Çeviri

Page 29: DDI- Kitap (1 Ekim)

irel

kE

mur

uD

misÝ

niçi ir

elliD

krü

T ýza

B : 3.

11-

olb

aT

dA

muruD

irelkE

eçkrüT

ecirezA

ecnemkrü

Teçkebz

Öaczýgrý

Kaçkaza

Kacrug

yu

emtrile

Bu

muruD

+,u

+,i+( ý

+

)üy

+,uy

+,iy+( ýy

+

+,u

+,i+( ý

+

n+,

un

+,in

+( ýn

+

)i+( y

+

)in

+( yn

+i

n+

n+,

un

+,in

+( ýn

+

d+,

ud

+,id

+( ýd

+

)üt

+,ut

+,it+( ýt

+

n

+

)in

+( ýn

+

)id

+( ýd

+

)it+( ýt

+

n

+

in

+

emlenö

Yu

muruD

)e

+( a

+

)ey

+( ay

+

+( a

+N

) y+(

ay+

N)

+ ,e

+( a

+

äg

+

äk

+

aq

+

g+,

og

+,e

g+(

ag

+

k+,

ok

+,ek

+( ak

+

n+,

on

+,en

+( an

+

+,o

+ ,e

+( a

+

)e

g+(

+

)ek

+( aq

+

)e

+( a

+

)e

g+(

ag

+

)e

k+(

ak

+

amla

Ku

muruD

)e

d+(

ad

+

)et

+( at

+d

+( a

d+

N)

)e

d+(

ad

d+

d+,

od

+,e

d+(

ad

+

)öt

+,ot

+,et

+( at

+

)e

d+(

ad

+

)et+( at

+

)e

dn

+( a

dn

+

)e

d+(

ad

+

)et+( at

+

)e

dn

+( a

dn

+

amký

Çu

muruD

)n

ed

+( n

ad

+

)n

et+(

nat

+d

+( n

ad

+N

)n

)n

ed

+( n

ad

+n

äd

+

)n

öd

+,n

od

+,n

ed

+(n

ad

+

)n

öt+,

not

+,net

+( nat

+

)n

ön

+,n

on

+,n

en

+(n

an

+

)n

ed

+( n

ad

+

)net

+( nat

+

)n

en

+( n

an

+

nid

+

nit+

nayalma

T

um

uru

D

)n

ü+,

nu

+,ni

+( ný

+

nýn

+

)n

ün

+,n

un

+,ni

n+(

)n

ü+,

nu

+,ni

+( ný

+

nýn

+

)n

ün

+,n

un

+,ni

n+(

ü+,

ñu

+,ñi

+( ñy

+

)ñi

n+(

ñyn

+ñi

n+

)n

ün

+,n

un

+,ni

n+(

nýn

+

)n

üd

+,n

ud

+,ni

d+(

nýd

+

)n

üt+,

nut

+,nit

+( nýt

+

)ñi

n+(

ñýn

+

)ñi

d+(

ñýd

+

)ñit

+( ñýt

+

ñin

+

11.6 Türk Dilleri Arasýndaki Benzerlikler - 29

Page 30: DDI- Kitap (1 Ekim)

11.7 Türk Dilleri Arasýndaki Farklýlýklar

Tümceler arasýnda sözcük sýralarý açýsýndan çoðunlukla benzerlik söz konusu olsa da bazý

durumlarda tümce içindeki sözcüklerin yerleri de deðiþebilir. Örnek olarak çoðu Türk dilinde

bulunan Þekil-11.12'deki atasözü verilmiþtir:

Ancak Türk dillerinde, sözcük öbeklerinin tümce içerisinde yer deðiþtirebilmesi özelliði

bulunduðundan, Özbekçe tümce Türkçeye çevrilirken sözcük sýralarýnda bir deðiþikliðe

gidilmese bile anlamý koruyan Türkçe tümce üretilebilir:

Akýlsýz dosttan akýllý düþman yeðdir.

Türk dilleri arasýnda gözlenebilen diðer farklýlýklar özellikle eylem çekimlerinde ortaya çýkan

farklý zaman kullanýmlarý, dillere özel kipler ve özne yüklem uyumlarýndaki farklýlýklardýr.

Örneðin Türkçedeki geniþ zaman kalýbý Türkmencede gelecek zaman anlamýný taþýr. Ayrýca

Türkmencede, Türkçede bulunmayan +makçý/+mekçi ekleri ile kurulan ve “bir eylemi yapmayý

düþünmek/yapmaya niyetlenmek” anlamýnda bir eylem kipi bulunur.

11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri

Türk dilleri arasýnda çeviri yaparken ortaya çýkan en büyük sorun, Türkçe dýþýndaki diðer Türk

dilleri için doðal dil iþleme çalýþmalarýnýn yok denecek kadar az olmasýdýr. Birçok Türk dili için

biçimbilimsel çözümleme, sözdizim çözümleme gibi araçlar ya da elektronik ortama aktarýlmýþ

sözlükler veya iþlenmiþ metinler bulmak olasý deðildir. Türkçe için bile genel amaçlý

kullanýlabilecek yüksek baþarýmlý bir sözdizimsel çözümleme aracý bulunmamaktadýr.

Bütün bu olumsuzluklara karþýn, özellikle Türk dillerinin sözdiziminin benzer olmasý (Azerice,

Türkmence gibi bazý diller için neredeyse ayný olmasý), Daha önce anlatýlan aktarým yöntemleri

arasýnda en temel yöntem olan doðrudan aktarým yönteminin bile baþarýlý sonuçlar

üretebileceðini düþündürmektedir.

30 - Bilgisayarlý Çeviri

Akýlý

Aqlsiz

akýlsýz

epchil

düþman,

döstdan

dosttan

düþman

yeðdir. Türkçe

yagþýdýr. Özbekçe

Þekil-11.12 : Türkçe-Özbekçe tümcelerde sözcük sýralarý farklýlýðý örneði

Page 31: DDI- Kitap (1 Ekim)

Doðrudan aktarým yöntemi hariç diðer tüm kural tabanlý aktarým yöntemlerinde, sözdizim

çözümlemesi, anlamsal çözümleme gibi üst düzey bilgiler gerekmektedir. Ancak Türk dilleri

söz konusu olduðunda bu bilgileri üretecek araçlar dahi bulunmamaktadýr.

Ýstatistiksel ve örnek tabanlý çalýþan yöntemleri kullanabilmek için ise birbirlerinin karþýlýðý

olan hizalanmýþ eðitim verilerine büyük miktarlarda gerek duyulur. Bu þekilde hazýrlanmýþ

koþut eðitim verilerinin bulunmamasý, ayrýca bu tür bir eðitim kümesinin hazýrlanmasýnýn çok

emek gerektirmesinden dolayý bu yöntemlerin uygulanabilirliði düþüktür.

Sözcük sýralarýný deðiþtirmeden, sadece sözcükleri birebir çevirerek gerçeklenecek doðrudan

aktarým yöntemi, gerek sözdizim çözümlemesi gibi daha üst seviyede bilgilere, gerekse de

istatistiksel yöntemlerin kullandýðý gibi büyük miktarlarda paralel eðitim verilerine ihtiyaç

duymadýðý için en uygun yöntem olarak görülmektedir. Ayrýca doðrudan aktarým yöntemi,

sadece sonlu durum yöntemleri kullanýlarak gerçeklenebilmektedir. Bunun sonucu olarak

düzenli ve hýzlý çalýþan bir aktarým yöntemi gerçeklenebilir. Türk dilleri gibi bitiþken diller söz

konusu olduðunda doðrudan aktarým yöntemi aþaðýdaki sýrayla geliþtirilmiþtir:

1- Kaynak dil biçimbilimsel çözümlemesi

2- Biçimbilimsel yapýlarýn hedef dile aktarýlmasý

3- Sözcük kökünün hedef dile aktarýlmasý

4- Hedef dilde biçimbilimsel üretici ile sözcüðün yüzeysel biçiminin üretilmesi

Türk dillerinin bitiþken yapýsýndan dolayý, kaynak tümcedeki bir sözcüðün karþýlýðýný sözlükte

olduðu gibi arayýp bulmak mümkün deðildir. Bu noktada, bir ön iþlem olarak biçimbilimsel

çözümlemenin yapýlmasý gereklidir. Biçimbilimsel çözümleme sonucunda sözcük kökü ve

diðer biçimbilimsel yapýlar ortaya çýkar. Doðrudan aktarým, kaynak dildeki bu yapýlarýn (sözcük

kökü ve biçimbilimsel yapýlar) hedef dile iki aþamalý olarak aktarýmý biçiminde algýlanmalýdýr.

Her ne kadar Türk dillerinin sözdizimsel ve biçimbilimsel yapýlarý birbirlerine yakýn olsa da, bu

diller arasýnda biçimbilimsel farklýlýklar da azýmsanmayacak boyuttadýr. Biçimbilimsel

farklýlýklarý gidermek üzere bir takým biçimbilimsel dönüþüm kurallarý gerçeklenmeli ve bu

kurallarýn iþletilmesi sonucunda kaynak dildeki biçimbilimsel yapýlar, hedef dil için geçerli

biçimbilimsel yapýlar haline gelmelidir.

Ýkinci aþama olarak, kaynak dilde çözümlenen sözcük kökünün karþýlýðý aktarým sözlüðünden

bulunmalý ve hedef dildeki karþýlýðý veya karþýlýklarý ile deðiþtirilmelidir.

Son adýmda ise elde edilen biçimbilimsel yapý, hedef dilin biçimbilimsel üreticisi tarafýndan

yüzeysel biçime çevrilir.

Anlatýlan geliþtirilmiþ doðrudan aktarým yöntemine göre Türkmence bir sözcüðün Türkçe

karþýlýðýnýn oluþturulma süreci Þekil-11.13’de gösterilmiþtir.

Geliþtirilmiþ doðrudan aktarým yönteminde dahi biçimbilimsel çözümleme ve sözcük kökü

aktarýmýnda belirsizlikler ortaya çýkacaktýr. Bu belirsizliklerin çözülmesi, doðrudan aktarým

11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri - 31

Page 32: DDI- Kitap (1 Ekim)

yöntemini kullanan sistemlerde karmaþýk kurallarla saðlanýr. Bunun yerine, doðrudan aktarým

yaklaþýmýný istatistiksel yöntemlerle birleþtiren modeller kullanýlarak Türk dilleri arasýnda BÇ

sistemleri gerçeklenebilir. Bu amaçla, Model 0 (temel model) üzerine gerçeklenmiþ kuramsal

bir çeviri sisteminin bileþenleri ve veri akýþý ’de verilmiþtir. Bu þekilde kesikli çizgili

dikdörtgenler veri kaynaklarýný, düz çizgili dikdörtgenler ise süreçleri göstermektedir.

11.7.1 Kaynak Dilde Biçimbilimsel Çözümleme

Biçimbilimsel çözümleme, Türk dilleri gibi bitiþken diller için doðal dil iþleme alanýnda

yapýlacak her iþlemde gerek duyulan bir aþamadýr. Sözcüðün yüzeysel biçimlerinin sayýsýnýn

çok fazla olduðu diller için biçimbilimsel çözümleme olmadan aktarým sözlükleri hazýrlamak

ya da aktarým kurallarý geliþtirmek olanaksýzdýr. Dolayýsý ile kaynak dil olarak hangi Türk dili

seçilirse seçilsin, bu dil ile ilgili biçimbilimsel çözümleyicinin de hazýrlanmasý gerekmektedir.

Türkçe için geliþtirilmiþ geniþ kapsamlý ve yüksek baþarýmlý bir biçimbilimsel çözümleyici

halihazýrda bulunmaktadýr . Diðer Türk dilleri için bu tür bir çözümleyicinin varlýðý (Kýrým

Tatarcasý hariç) bilinmemektedir.

Kaynak dil olarak seçilen dil, Türkçenin dýþýnda bir Türk dili ise bu dil için bir biçimbilimsel

geliþtiricinin gerçeklenmesi ön koþuldur. Böyle bir gerçeklemede dikkat edilecek en önemli

nokta, geliþtirilecek çözümleyicinin var olan Türkçe biçimbilimsel çözümleyici ile benzer

32 - Bilgisayarlý Çeviri

Biçimbilimsel çözümleme

Biçimbilimsel aktarým

Kök aktarma

Biçimbilimsel üretme

eñrejekdirin

eñre+Verb+Pos+Fut+Cop+A1sg

eñre+Verb+Pos+Fut+A1sg+Cop

aðla+Verb+Pos+Fut+A1sg+Cop

aðlayacaðýmdýr

Þekil-11.13 : Örnek Türkmence sözcüðün Türkçe karþýlýðýnýn oluþturulmasý

Page 33: DDI- Kitap (1 Ekim)

mantýkla çalýþacak ve benzer biçimbilimsel etiketler üretecek þekilde tasarlanmasýdýr. Bu

sayede aktarým kurallarý (yani A fonksiyonu) daha basit hale getirilebilir.

11.7.1.1 Kaynak Dilde Biçimbilimsel Belirsizliðin Giderilmesi

Türkçe gibi karýþýk bir biçimbilimsel yapýya sahip dillerde biçimbilimsel çözümleme sonuçlarý

çoðu zaman birden fazladýr. Bu ise biçimbilimsel belirsizliðin ortaya çýkmasýna neden

olmaktadýr. Eðer kaynak Türk dili için biçimbilimsel belirsizliði gidermek üzere bir araç varsa,

bu araç kullanýlarak istatistiksel sürecin karmaþýklýðý azaltýlabilir.

Türkçe için biçimbilimsel belirsizliklerin giderilmesi ile ilgili birçok çalýþma olmasýna karþýn

bu çalýþmalarýn sonucunda yüksek baþarýmlý bir araç henüz genel kullanýma sunulamamýþtýr.

Diðer Türk dilleri için ise bu konuda bir çalýþmaya rastlanamamýþtýr. Biçimbilimsel belirsizlik

11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri - 33

Kaynak dilde biçimbilimsel çözümleyici

Biçimbilimsel yapýlarý aktarýcý

Kök sözcük aktarýcý

ÝDM

Hedef dilde biçimbilimsel üretici

Kaynak dilde tümce

Hedef dilde tümce

Aktarým sözlüðü

Eðitim derlemi

C(s )k

A(c )ij

Arg maxc(S)i

U(H )B

HB

H

Þekil-11.14 : Temel modeli gerçekleyen örnek bir çeviri sistemi

Page 34: DDI- Kitap (1 Ekim)

gidericilerin tasarlanmasý için kullanýlan bir çok yöntem gözetimli çalýþtýðý için elle iþlenmiþ

çok miktarda eðitim verisine gerek duyulmaktadýr. Türkçe dýþýndaki diðer Türk dilleri için

henüz böyle bir eðitim kümesi olmamasýndan dolayý bilinen yöntemler kullanýlarak bu diller

için bir biçimbilimsel belirsizlik giderici tasarlanmasý yoluna gidilememektedir.

11.7.2Sözcük Köklerinin Kaynak Dilden Hedef Dile Aktarýmý

Kural tabanlý bütün bilgisayarlý çeviri sistemlerinde olduðu gibi öngörülen temel model için de

bir aktarým sözlüðü gereklidir. Aktarým sözlüðünde kaynak dildeki sözcük bazýnda arama

yapýlabilmeli ve buna karþýlýk gelen hedef dildeki tüm sözcükler üretilebilmelidir. Bu noktada

altý çizilmesi gereken konu, sözcük kökü aktarýmý sýrasýnda birden fazla karþýlýk

üretilebileceðidir. Yani bu bileþenin ürettiði sonuçlar içerisinde bir belirsizlik vardýr. Söz

konusu bu belirsizlik sözcüksel belirsizlik olarak adlandýrýlmaktadýr.

bar è var, bütün

Belirsizliði bir kademe azaltmak amacý ile sadece sözcük köküne bakarak arama yapmak yerine

sözcük kökü ve sözcük türüne göre arama yapýlabilir. Böylelikle yazýmý ayný, ancak sözcük

türleri farklý olan sözcük kökleri, daha az bir belirsizlikle aktarýlabilir:

bar (sýfat) è bütün (sýfat)

bar (eylem) è var (eylem)

Aktarým sözlüðü tasarlanýrken sözcük türlerine göre sýnýflandýrma yapýlabilirse bu sayede

belirsizliðin derecesi düþürülebilir.

11.3.3 Biçimbilimsel Yapýlarýn Kaynak Dilden Hedef Dile Aktarýmý

Kaynak ve hedef dil arasýndaki biçimbilimsel farklýlýklarý gidermek üzere bir dizi dönüþümün

yürütüldüðü aktarým bileþenidir. Bu dönüþüm, kaynak dildeki biçimbilimsel çözümleme

sonucunda üretilen biçimbilimsel özelliklerin, hedef dil biçimbilimsel üreticinin beklediði

þekile dönüþtürme iþlemi olarak da nitelendirilebilir. Bu aþamada sözcük köküne

dokunulmadan sadece biçimbilimsel etiketler üzerinde dönüþtürme ve sýra deðiþtirme iþlemleri

yapýlýr. Bu kurallar, iki dil arasýndaki biçimbilimsel farklýlýklar incelenerek geliþtirilir. Diðer bir

yöntem ise birbirlerinin çevirisi olan, kaynak ve hedef dildeki biçimbilimsel yapýlarý içeren bir

eðitim kümesi üzerinde, bilgisayar öðrenmesi yöntemlerinden birisinin eðitilerek kurallarýn

otomatik olarak üretilmesidir.

11.7.4 ÝDM Bileþeni

Önerilen aktarým modellerinde yer alan bütün bileþenler içerisinde iki bileþenin çýktýlarý

belirsizlik içermektedir: kaynak dilde biçimbilimsel çözümleyici ve kök aktarýmý. Eðer bölüm

34 - Bilgisayarlý Çeviri

Page 35: DDI- Kitap (1 Ekim)

’de anlatýlan kaynak dilde biçimbilimsel belirsizlik giderici kullanýlabilir durumda ise

biçimbilimsel belirsizlik elenir ve sadece sözcüksel belirsizlik kalýr.

Gerek biçimbilimsel belirsizlik, gerekse de sözcüksel belirsizliðin giderilmesini amaçlayan

ÝDM bileþeni, istatistiksel yöntemlerle en olasý sözcük dizisini (yani tümceyi) belirler. Bu

amaçla Bölüm ’de anlatýlan ÝDM’ler kullanýlmaktadýr. Ancak gene Türk dillerinin türetme ve

çekim özelliklerinden dolayý, ÝDM’ler salt biçimde kullanýlamaz. Sözcüklerin sadece yüzeysel

biçimlerini içeren bir ÝDM’de seyrek veri sorunu ortaya çýkmaktadýr. Bunu önlemek için farklý

tiplerde ÝDM’lerin kullanýlmasý yoluna gidilebilir.

Örneðin, sözcüklerin yüzeysel biçimleri yerine sadece sözcük kökleri üzerine kurulmuþ bir

ÝDM kullanýlmasý durumunda, hedef dilde ortaya çýkan sözcüksel belirsizliðin giderilmesi

saðlanabilir.

Aktarým sistemindeki ÝDM bileþenine girdi olarak, kaynak dildeki tümcenin bütün

sözcüklerinin aday çevirileri gelir. Bileþenin çýktýsý olarak ise tüm kombinasyonlar içerisinden

seçilen ÝDM’ye göre en yüksek olasýlýða sahip tümce üretilir.

Olasý tüm kombinasyonlarýn tamamýnýn olasýlýklarýnýn hesaplamasý yerine, aday sözcüklerden

bir Hidden Markov Modeli (HMM) oluþturularak üzerinde Viterbi algoritmasýnýn

çalýþtýrýlmasýyla en yüksek olasýlýklý sözcük dizisi elde edilebilir.

Þekil-11.15'te Türkmence bir tümce Türkçeye çevrilirken oluþturulan bir HMM örneði

verilmiþtir. ’teki özel simgeler <s> ile </s> sýrasýyla tümce baþýný ve sonunu iþaret eden

simgelerdir. HMM’deki gözlem olasýlýklarý 1 seçilerek sadece durum geçiþ olasýlýklarýnýn

kullanýlmasý saðlanmýþtýr . Þekilde, durum geçiþlerini gösteren oklara iliþtirilmiþ olarak,

sözcüklerin seçilen ÝDM’ye göre olasýlýklarý bulunmaktadýr. Örneðin ”ne” ile ”için” durumlarý

arasýndaki ok, P(“için”|”ne”) olasýlýðýný, <s> ile ”ne” arasýndaki ok ise P(“ne”|<s>)

olasýlýðýný (tümcenin baþýnda ”ne” sözcük kökünün olma olasýlýðýný) göstermektedir. Viterbi

algoritmasý ile de bu HMM üzerinde en olasý yol bulunur. Bu yol üzerindeki sözcükler seçilerek

oluþturulan tümce hedef dilde olasýlýðý en yüksek çeviridir.

11.7 Türk Dilleri Arasýnda Bilgisayarlý Çeviri - 35

<s>

Ne

kim

Için

insan

Adam

türlü dil </s>

konuþ

söyle

Türkmence näme üçin adamlar dürli dillerde gepleyärlerTümce näme üçin adam dürli dil geple

Þekil-11.15 : Örnek bir tümcenin HMM ile çözümlenme süreci

Page 36: DDI- Kitap (1 Ekim)

Tablo-11.4 ve Þekil-11.15’te kurulan HMM üzerinden hesaplanan en olasý 3 aday tümce

gösterilmiþtir. Farklý derecelerde kök dil modelleri kullanýlarak aday tümcelerin olasýlýklarý

hesaplanmýþtýr. Kalýn harflerle yazýlan tümce, doðru çeviriyi göstermektedir .

Türkçede dil ismi ile birlikte söylemek yerine daha çok konuþmak eylemi kullanýlmaktadýr.

Buna uygun olarak da tek baþýna sözcük sýklýklarýna bakýldýðýnda (n=1) söylemek eylemi

konuþmak eyleminden daha çok geçmesine karþýn ÝDM derecesi arttýkça konuþmak eylemini

içeren tümcelerin olasýlýðýnýn yükseldiði görülmektedir.

Tablo-11.4 : ÝDM ile en Olasý Tümcenin Bulunmasý

ÝDM Derecesi En Olasý 3 Tümce SýraLog.

Olasýlýk

n=1 ne için insanlar türlü dillerde söylüyorlar 1 -17.2978

ne için insanlar türlü dillerde konuþuyorlar 2 -17.5196

ne için adamlar türlü dillerde söylüyorlar 3 -17.7816

n=2 ne için insanlar türlü dillerde konuþuyorlar 1 -18.1625

ne için adamlar türlü dillerde konuþuyorlar 2 -18.3105

kim için insanlar türlü dillerde konuþuyorlar 3 -18.6553

n=3 ne için insanlar türlü dillerde konuþuyorlar 1 -18.2265

kim için insanlar türlü dillerde konuþuyorlar 2 -18.6196

ne için adamlar türlü dillerde konuþuyorlar 3 -18.6294

11.7.5 Hedef Dilde Biçimbilimsel Üretici

ÝDM bileþeninin çýktýsý, yüzeysel biçimdeki sözcükler yerine yapýsal biçimdeki sözcüklerden

oluþan bir tümcedir. Bu tümcede yer alan tüm sözcükler, hedef dile iliþkin bir biçimbilimsel

üreticiden geçirilerek yüzeysel biçimler oluþturulmalý ve sistemin son çýktýsý olan tümce

üretilmelidir. Bu amaçla hedef dile iliþkin bir biçimbilimsel üreticiye gerek duyulmaktadýr.

Türkçe için geliþtirilen biçimbilimsel çözümleyici, SDD olarak tasarlandýðý için ters yönde

çalýþtýrýldýðýnda biçimbilimsel üretici olarak iþ görmektedir. Üstelik Türkçe için bu ters

çalýþtýrma durumunda herhangi bir belirsizlik oluþmamaktadýr. Yani yapýsal biçimde bir

sözcüðe karþýlýk, o sözcüðe ait sadece bir yüzeysel sözcük üretilmektedir. Türkçe dýþýndaki

diðer Türk dilleri için bilinen bir biçimbilimsel üretici yoktur.

11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni

Bir önceki bölümde ayrýntýlarý açýklanan çeviri modellerinin bir uygulamasý olarak

Türkmenceden Türkçeye bir çeviri sistemi tasarlanmýþ ve gerçeklenmiþtir. Çeviri sistemi ilk

36 - Bilgisayarlý Çeviri

Page 37: DDI- Kitap (1 Ekim)

olarak Model 0’a (temel model) uygun olarak gerçeklenmiþ daha sonra ise bu temel model

üzerine Model 1 ve Model 2’nin getirdiði iyileþtirmeler eklenmiþtir.

Gerçeklenen uygulamada, aktarým fonksiyonunda yer alan bütün bileþenler SDD biçiminde

tasarlanmýþtýr.

11.8.1Aktarým Modeli 0 Gerçeklemesi

Aktarým Modeli 0’ý temel alarak tasarlanan Türkmenceden Türkçeye çeviri sisteminin bileþen

þemasý Þekil-11.16’da verilmiþtir:

11.8.1.1 Türkmence Biçimbilimsel Çözümleyicinin Geliþtirilmesi

Ýki-düzeyli biçimbilimsel çözümleme ilkeleri esas alýnarak Xerox sonlu durumlu araçlarýyla

Türkmence için bir biçimbilimsel çözümleyici tasarlanmýþtýr. Bu biçimbilimsel çözümleyicinin

tasarým aþamalarý aþaðýdaki bölümlerde verilmiþtir.

11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 37

Tümce / sözcük Ayýrýcý

Biçimbilimsel Çözümleyici

Biçimbilimsel Yapýlarýn Aktarýmý

ÝDM

Kök Sözcük aktarýmý

Hedef dilde biçimbilimsel üretici

Aktarým sözlüðü

Karakter Düzeltici

Karakter Düzeltici

Eðitim derlemi

Türkmencemetin

Türkçemetin

Þekil-11.16 : Aktarým Modeli 0 temelinde oluþturulan sistemin bileþenleri

Page 38: DDI- Kitap (1 Ekim)

11.8.1.1.1 Türkmen Dilinin Biçimbilimsel Özellikleri

Türkmence dilinin biçimbilimsel yapýsý Türkçe ile benzerlik göstermektedir. Özellikle isim

çekimlerinde eklerin türleri ve geliþ sýralarý Türkçeye çok benzerdir. Bu benzerliklerden dolayý

Türkçe için gerçeklenmiþ olan biçimbilimsel çözümleyici temel olarak alýnmýþtýr.

Her ne kadar Türkmence, Türkçeye en çok benzeyen dillerden birisi olsa da, iki dil arasýnda

harfler, ses olaylarý, sözcük çekimleri ve anlamsal açýdan pek çok farklýlýklar bulunmaktadýr .

Türkmencenin Türkçeye benzerliði ilk bakýþta yararlý görülse de, bazý açýlardan zararlý

olmaktadýr. Örneðin Türkçe ile birebir ayný olan bazý sözcükler ya da ekler, Türkmencede farklý

anlamlara gelmektedir. Türkçe bilen birisi, Türkmence öðrenirken bu tür yanýlgýlara kolayca

düþebilmektedir.

Ses Olaylarý

Türkçeye en yakýn dillerden biri olsa da Türkmencede yazý dili ile konuþma dili

arasýnda büyük farklýlýklar bulunmaktadýr. Aslýnda Türkçede de bütün sözcükler,

yazýldýðý gibi okunmaz ama Türkmencede bu durum istisna olmaktan çýkmýþ ve çok

sýk karþýlaþýlan bir durum olmuþtur. Maalesef kýsýtlý sayýdaki Türkmence dilbilgisi

kaynaklarýnýn çoðunda, yazý dili ile konuþma dili arasýndaki ayrým net olarak

verilmemiþtir. Bu nedenle bazý kurallarýn sadece konuþma dili için geçerli olduðunu

ortaya çýkarmak oldukça zahmetli olmuþtur.

Türkmencede sözcüklerin okunuþlarý ile yazýlýþlarý arasýnda Türkçenin tersine çok

büyük farklýlýklar bulunmaktadýr. Bütün seslilerin kýsa ve uzun okunuþlarý

bulunmaktadýr. Ancak yazý dilinde herhangi bir seslinin kýsa mý uzun mu okunacaðýna

iliþkin bir iþaret yoktur. Aþaðýda bu konu ile ilgili örnekler verilmiþtir (uzun okunan

sesliler, “:” iþaretiyle belirtilmiþtir):

Uzun Okunuþ Kýsa Okunuþ

at (a:t) ad, isim at (at) at

ot (o:t) ateþ ot (ot) ot

daþ (da:þ) taþ daþ (daþ) dýþ

Türkmencede büyük ünlü uyumu vardýr. Sözcüklerin bazýlarý küçük ünlü uyumuna

uyarken bazýlarý da uymaz. Türkçede geniþ yuvarlak seslilerden (o, ö) sonra dar

yuvarlak (u, ü) ya da geniþ düz (a, e) seslileri gelir. Türkmencede ise o, ö seslilerinden

sonra dar düz sesliler (y, i) gelir. Bu nedenle Türkmencede bazý sözcükler küçük ünlü

uyumuna uymaz.

Türkmencede de Türkçede olduðu gibi sessiz yumuþamasý vardýr. Sözcük sonundaki

p, ç, t, k sessizleri, sesli ile baþlayan bir ek aldýklarýnda b, c, d, g harflerine dönüþürler.

Sessiz benzeþmesi de kýsmen görülür.

38 - Bilgisayarlý Çeviri

Page 39: DDI- Kitap (1 Ekim)

Sesli düþmesi kuralý ise Türkmencede daha kurallýdýr. Bir seslinin düþmesi için:

1. iki heceli sözcük olmalý

2. ilk S kýsa, hece açýk olmalý (S, ZS)

3. ikinci hece kapalý olmalý (ZSZ)

Ancak ne yazýk ki 2. maddede söylenin S’nin yani ünlünün kýsa olmasý, yazý dilinde

belirtilmemektedir.

Okunuþlarla ilgili bir çok kurala, biçimbilimsel çözümleyicinin geliþtirilmesi ile ilgisi

olmadýðý için burada yer verilmeyecektir.

Tekillik / Çoðulluk

Çoðulluk ekleri +lar ve +ler Türkçedeki ile ayný þekilde kullanýlýr.

Belirtme Durumu

Belirtme durumu eki Türkçedekinden farklý olarak sadece +y ve +i eklerinden

oluþmaktadýr. Ancak Türkçede ekten önce ünlü harf bulunursa araya n harfi yerine y

harfi gelir:

kitaby (kitabý) goly (kolu) baþy(baþý)

gözi (gözü) güli (güli)

Yönelme Durumu

Türkçedeki gibi +a ve +e ekleri ile kurulur.

depdere (deftere) göze(göze) bilbile (bülbüle)

Ünlü ile biten isimlerde, yaklaþma durumu eki (+a, +e, +ä) farklýlýk göstermektedir.

i) –a, –o ile biten sözcüklere yaklaþma durumu eki eklenmez, yaklaþma durumu

sadece sözcüðün sonunda seslinin uzun okunuþu ile belirtilir.

ata (ata) baba

ata (ata:) babaya

ii) –i, –e, –ä ile biten sözcüklere yaklaþma durumu eki geldiðinde, sözcüðün son

seslisi –ä olarak deðiþir.

Berdi Þ Berdä Berdi Þ Berdi’ye

11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 39

Page 40: DDI- Kitap (1 Ekim)

iii) –y seslisi ile biten sözcüklere yaklaþma durumu eki geldiðinde, sözcüðün son

seslisi –a seslisi olarak deðiþir.

Mary Þ Mara Marý Þ Marý’ya

Kalma Durumu

Türkçedekine benzer olarak +da, +de ekleri ile kurulur. Türkçedeki kullanýmdan tek

farklý bu eklerin ünsüz benzeþmesine uymamasýdýr (+ta, +te halleri yoktur):

guþda (kuþta) altda (altta) kitapda (kitapta)

Kalma durumundan sonra –ki eki gelirse, kalma durumu ekindeki sesli uzar:

depderdäki (defterdeki) bizdäki (bizdeki) süýtdäki (sütteki)

kitapdaki (kitapdaki) adamdaki (adamdaki) ondaki (ondaki)

Çýkma Durumu

Çýkma durumu, +dan ve +den ekleri ile kurulur. Bu ekler de ünsüz benzeþmesine

uymazlar:

öýden (evden) altdan (alttan) kitapdan (kitaptan)

Tamlayan Durumu

Tamlayan durumu ekleri +yñ, +iñ, +uñ ve +üñ ekleridir:

goluñ (kolun) burnynyñ (burnunun) diliñ (dilin)

Ýsim çekimi ve eylem çekimi açýsýndan incelendiðinde, Türkmence, isim çekimi

yönünden Türkçeye çok benzerken, eylem çekiminde ciddi farklýlýklar vardýr.

Özellikle çatý kurulumu Türkmencede Türkçeye oranla çok daha karmaþýktýr.

Türkçede çatý kurulumu genelde aþaðýdaki gibidir:

görmek (Yalýn)

görüþmek (Ýþteþ)

görüþtürmek (Ýþteþ-Ettirgen)

görüþtürülmek (Ýþteþ-Ettirgen-Edilgen)

Sadece bazý durumlarda ettirgenlik birkaç defa tekrarlanabilir.

Türkmencede ise çatý eklerinin geliþ sýrasý çok daha karýþýktýr:

40 - Bilgisayarlý Çeviri

Page 41: DDI- Kitap (1 Ekim)

Tablo-11.12 : Türkmencede Çatý Eklerinin Sýralanýþý

Ýki Çatý Ekli Eylemler Üç Çatý Ekli Eylemler Dört Çatý Ekli Eylemler

Ettirgen + Dönüþlü

Dönüþlü + Edilgen

Ýþteþ + Edilgen

Ettirgen + Edilgen

Dönüþlü + Ýþteþ

Edilgen + Ýþteþ

Ettirgen + Ýþteþ

Ýþteþ + Ýþteþ

Dönüþlü + Ettirgen

Ýþteþ + Ettirgen

Ettirgen + Ettirgen

Dönüþlü + Ettirgen + Edilgen

Ýþteþ + Ettirgen + Edilgen

Ettirgen + Edilgen + Ýþteþ

Dönüþlü + Ettirgen + Ýþteþ

Dönüþlü + Ýþteþ + Ettirgen

Edilgen + Ýþteþ + Ettirgen

Ettirgen + Ýþteþ + Ettirgen

Dönüþlü + Ettirgen + Ettirgen

Dönüþlü + Ýþteþ + Ettirgen + Edilgen

Ettirgen + Dönüþlü + Ettirgen + Edilgen

Ayrýca Türkmencede bazý eylem kipleri çekilmezler. Örneðin gelecek zamaný belirten +jek /

+jak ekinden sonra kiþi çekim eki gelmez. Örnek kullanýmý aþaðýdaki gibidir:

Men geljek (geleceðim)

Sen geljek (geleceksin)

O geljek ([o] gelecek)

Ayrýca gereklilik kipi +malý / +meli de benzer þekilde kiþi eki almaz.

Ancak bu kiplere kesinlik anlamý katan +dyr eki geldiðinde, bu +dyr ekinden sonra kiþi çekim

ekleri gelebilir.

Men geljekdirin. (geleceðimdir)

Türkmencede, Türkçede bulunmayan bazý kipler de vardýr. Örnek olarak bir iþ için hazýrlýk

yapýldýðýný ya da o iþin yapýlmasýnýn düþünüldüðünü gösteren +mekçi / +makçy eki

bulunmaktadýr. Bu ek de istisna olarak çekim eki almayan kipler grubundandýr.

Belirsiz geçmiþ zaman eki olarak kullanýlan +mýþ / +miþ eki Türkmencede ilk zaman olamaz.

Bunun yerine +ypdy / +ipdi / +updu / +üpdü ekleri gelmektedir. Ancak ikinci zaman olarak

+mýþ / +miþ eki gelebilmektedir.

Türkçede geniþ zaman olarak kullanýlan +ar / +er eki, Türkmencede gelecek zaman anlamýný

taþýmaktadýr.

Gene Türkçedekine benzer þekilde geniþ zamanýn 3. tekil þahsýnýn olumsuzu farklýdýr. Ancak

daha büyük bir farklýlýk olarak bazý kiplerde olumsuzluk eki olarak +ma / +me gelmemekte

bunun yerine eylemden sonra däl (“deðil”) getirilmektedir. Örnek:

Men gelcek däl

11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 41

Page 42: DDI- Kitap (1 Ekim)

Kimi durumlarda däl eylemi de çekime uðramaktadýr.

Biçimbilimsel Çözümleyicinin Gerçeklenmesi

Türkmence için biçimbilimsel çözümleyici geliþtirirken iki düzeyli biçimbilimsel çözümleme

yöntemi benimsenmiþ ve XEROX’un sonlu durumlu araçlarýndan yararlanýlmýþtýr. Öncelikle

kökler ve eklerle ilgili durum geçiþleri yani morfotaktik kurallar tasarlanmýþ ve LEXC

aracýlýðýyla gerçeklenmiþ, daha sonra iki-düzeyli kurallar TWOLC ile oluþturulmuþtur. Ek

olarak, bazý geçersiz durumlarýn elenmesi için XFST ortamýnda kurallar yazýlmýþ ve elde edilen

bu üç SDD birleþtirilerek tek bir SDD elde edilmiþtir. Oluþan bu çözümleyici, ters yönde

çalýþtýrýldýðý zaman üretici olarak da çalýþabilmektedir.

11.8.1.1.2 Ýki Düzeyli Kurallar

Türkmencedeki çeþitli ses olaylarýný ve deðiþimlerini gerçeklemek için bir dizi iki-düzeyli kural

tanýmlanmýþ ve TWOLC derleyicisi yardýmý ile bu kurallarý gerçekleyen bir SDD

oluþturulmuþtur.

Ýki düzeyli kurallarý tanýmlamadan önce, bu kurallarýn üzerinde iþlem göreceði abecenin

tanýmlanmasý gerekmektedir. Bu abece güncel Türkmen harfleri ile sadece ara aþamalarda

kullanýlan ve yazýda görünmeyen bazý ek karakterler içermektedir. Her ne kadar TWOLC

derleyicisi UTF-8 karakter kümesini destekleyerek standart olmayan ASCII karakterlerinin

kullanýmýna izin verse de, bu tür bir kullanýmda hata ayýklama ve komut satýrýndan sýnamalarýn

yapýlmasý olanaksýz olmaktadýr. Bu nedenle standart ASCII tablosunda olmayan karakterler için

bir ASCII karakteri, ’deki gibi seçilmiþ ve kurallarda bu þekilde gösterilmiþtir.

Tablo-11.13 : ASCII olmayan karakterler yerine kullanýlan karþýlýklar

ASCII dýþý karakterler ü ö Ç ñ þ ý Ÿ ä

Seçilen ASCII karþýlýk U O C N S Y Z E

11.8.1.2 Kök Sözcük Aktarým Kurallarý

Biçimbilimsel çözümlemesi yapýlmýþ Türkmence sözcük köklerinin Türkçeye aktarýlmasýný

saðlayan kurallar, SDD’ler ile gerçeklenmiþtir. Örnek bir aktarým kuralý aþaðýda verilmiþtir:

“tatlý” ¬ “Yakymly”

Bölüm ’de belirtildiði gibi, bu aktarým kurallarýnda sözcük türlerinin kullanýlmasý, sözcüksel

belirsizliði azaltmaktadýr. Yazýlan kurallar bu ilke çerçevesinde oluþturulmuþ ve kurallarýn sað

baðlamlarý sözcük türleri ile kýsýtlandýrýlmýþtýr:

“gri” ¬“boz” \/ _ “+Adj” .o.

“sil” ¬ “boz” \/ _ “+Verb”

42 - Bilgisayarlý Çeviri

Page 43: DDI- Kitap (1 Ekim)

Bu sayede sistemin rastladýðý bütün “boz” köklerini, “gri” ve “sil” kökleri ile deðiþtirmesinin

önüne geçilerek, aktarýlacak sözcüðün sýfat ya da eylem olma durumuna göre sadece uygun

karþýlýklarýn dönüþtürülmesi saðlanmýþtýr. Kök aktarým bileþenin örnek girdisi ve çýktýsý

Þekil-11.7'de verilmiþtir:

11.8.1.2.1 Birden Fazla Sözcükten Oluþan Karþýlýklar

Dillerin doðasý gereði, Türkmencede bir tek sözcükle ifade edilen bazý kavramlar Türkçede bir

tek sözcük ile ifade edilememekte, ancak iki ya da daha fazla sözcükten oluþan ÇSG’ler ile ifade

edilebilmektedir. Bu durumda kök deðiþtirmek yerine daha akýllý bir yönteme baþvurulmasý

gereklidir. Bu tür durumlara örnek olarak aþaðýdaki sözlük girdileri gösterilebilir:

Türkmence Türkçe

boþatmak özgür býrakmak

dillenmek dile gelmek

entegem uzun süre

Hedef dil karþýlýðý ÇSG olan sözlük girdileri için standart kök aktarým kurallarý yerine geliþmiþ

kurallarýn oluþturulmasý gereklidir. Önemli olan bir diðer nokta da, bu deðiþtirme sürecinde,

ÇSG’nin son sözcüðü hariç bütün sözcüklerin yapýsal biçimde olmasý zorunluluðudur. Bu,

hedef dilde üretilecek tüm sözcüklerin biçimbilimsel özelliklerinin de bulunmasý zorunluluðu

anlamýna gelmektedir çünkü sistemin diðer bileþenleri yürütülürken, sözcüklerin yapýsal

biçimlerine gerek duymaktadýr.

Türkçede ÇSG’lerin türetme ve/veya çekim eklerinden etkilenen kýsmý sadece ÇSG’nin

sonunda yer alan sözcüktür. Bu gerçekten hareketle, kaynak dildeki sözcüðe ait biçimbilimsel

özelliklerin, hedef dildeki ÇSG’nin sonundaki sözcüðe ait olduðu, ÇSG’nin baþýnda yer alan

diðer sözcüklerin sabit bir yapýya sahip olduðu sonucuna varýlabilir. Bu koþullarla, yukarýdaki

sözlük girdilerini aktarmak üzere oluþturulmasý gereken kurallar aþaðýda verilmiþtir:

11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 43

(Bozypdy) Boz+Verb+Pos+Narr+Past+A3sg

(Silmiþti) Sil+Verb+Pos+Narr+Past+A3sg

Kök Aktarýcý

Þekil-11.17 : Kök aktarým bileþeni

Page 44: DDI- Kitap (1 Ekim)

“dil+Noun+A3sg+Pnon+Dat gel” <- “dillen”

“özgür+Adj býrak” <- “boSat”

“uzun+Adj süre+Noun+A3sg+Pnon+Nom”<-"entegem+Adverb"

Aþaðýdaki þekilde ise kök aktarýcýnýn örnek bir ÇSG’yi aktarmasý gösterilmiþtir. Altý çizili

olmayan Türkmence biçimbilimsel yapýlarýn, ÇSG’nin son sözcüðüne eklendiði görülmektedir.

11.8.1.2.2 Sözcüksel Aktarým Kurallarý

Uygulamada ortaya çýkan bazý durumlar göstermiþtir ki bir takým sözcükler için sadece sözcük

kökünü deðiþtiren basit bir kural yeterli olmamaktadýr. Örneðin Türkmencedeki ulumsy

sözcüðü Türkçedeki kibirli sözcüðünün karþýlýðýdýr. Standart kurallar uygulanarak sadece

sözcük kökü deðiþtirildiðinde aþaðýdaki dönüþtürme iþlemi gerçeklenir:

kibirli+Adj ç ulumsy+Adj

Ýlk bakýþta göze çarpan herhangi bir sorun olmamasýna karþýn, oluþan yapýsal biçimdeki sözcük,

Türkçe biçimbilimsel üretici tarafýndan yüzeysel biçime dönüþtürüleceði zaman herhangi bir

çýktý üretilememektedir. Bunun altýnda yatan neden ise, Türkçedeki kibirli sözcüðünün aslýnda

türemiþ bir sözcük olmasý ve bu sözcüðün doðru yapýsal biçiminin aþaðýdaki gibi olmasýdýr:

kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With

Ortaya çýkan bu sorunun düzeltilmesi için, Türkmencedeki ulumsy sözcüðü için aþaðýdaki gibi

özel bir kural oluþturulmalýdýr:

“kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With”<-"ulumsy+Adj"

Örnekte açýklandýðý gibi sözcüðe baðlý özel durumlarý kotaran kurallar, sözcüksel kurallar

olarak adlandýrýlmýþtýr.

Ancak her iki dilde de ortak olan türetme ekleri ile türetilebilecek sözcükler için ayrý kurallarýn

oluþturulmasýna gerek yoktur. Örneðin Türkmencedeki +lyk eki ile Türkçedeki +lýk eki, sýfattan

44 - Bilgisayarlý Çeviri

boþa+Verb+Pos+Narr+Past+A3sg

Özgür+Adj býrak+Verb+Pos+Narr+Past+A3sg

Kök Aktarýcý

Þekil-11.18 : ÇSG’lerin Aktarýlmasý

Page 45: DDI- Kitap (1 Ekim)

isim yapan ayný göreve sahip iki yapým ekidir. Dolayýsý ile Türkmencede bulunan ulumsylyk

sözcüðünün karþýlýðý da kibirlilik sözcüðüdür. Her iki sözcüðün biçimbilimsel çözümlemesi

aþaðýda belirtilmiþtir:

ulumsy+Adj^DB+Noun+Ness+A3sg+Pnon+Nom

kibir+Noun+A3sg+Pnon+Nom^DB+Adj+With^DB+Noun+Ness+A3sg+Pnon+Nom

Örnekten de görüldüðü gibi, kalýn ve altý çizili olarak gösterilmeyen biçimbilimsel yapýlar

aynýdýr. Dolayýsý ile bu iki sözcük için ayrý bir sözcüksel aktarým kuralý hazýrlanmasýna gerek

yoktur, yukarýda anlatýlan ve ulumsy sözcüðünü aktaran sözcüksel aktarým kuralýnýn çalýþmasý

yeterli olmaktadýr.

11.8.1.2.3 Biçimbilimsel Aktarým Kurallarý

Türkmence ve Türkçe arasýndaki biçimbilimsel farklýlýklarýn giderilerek Türkmence

biçimbilimsel çözümleme sonucu üretilen yapýlarýn, kabul edilebilir Türkçe biçimbilimsel

yapýlara dönüþtürülmesini saðlayan kurallardýr.

Örneðin Türkmencede bulunan ve emir kipinin 1. tekil ve 1. çoðul kiþiler için çekimi, Türkçede

istek kipine karþýlýk gelmektedir:

Türkmence Türkçe Karþýlýðý

alaYyn (al+Verb+Pos+Imp+A1sg) alayým (al+Verb+Pos+Opt+A1sg)

algyn (al+Verb+Pos+Imp+A2sg) al (al+Verb+Pos+Imp+A2sg)

alsyn (al+Verb+Pos+Imp+A3sg) alsýn (al+Verb+Pos+Imp+A3sg)

Her iki dil arasýndaki biçimbilimsel farklýlýklardan bir tanesi de Türkmencede olup da Türkçede

olmayan eylem kipleridir. Örneðin Türkmencede "+makçy/+mekçi” eki ile kiþinin, ekin geldiði

eylemi yapmayý düþündüðü veya niyetlendiði anlamý kurulur. Bunun Türkçede doðrudan

karþýlýðý olmadýðý için ÇSG üreten bir kural geliþtirilmiþtir:

11.8.1.2.4 Ýstatistiksel Dil Modeli Bileþeni

Aktarým sýrasýnda ortaya çýkan biçimbilimsel ve sözcüksel belirsizliklerin giderilmesi için

ÝDM’leri kullanan bu bileþenin görevi ve iþleyiþ tarzý, Bölüm ’de açýklanmýþtýr. Bu amaçla,

bitiþken diller için Bölüm ’te önerilen farklý türlerde ÝDM’ler üretilmiþtir. ÝDM’lerin

oluþturulmasý için yaygýn olarak kullanýlan iki farklý yardýmcý araç bulunmaktadýr:

CMU-Cambridge Language Modeling Toolkit ve SRILM . Bu çalýþmada kullanýlan ÝDM’ler,

En Büyük Olabilirlik Kestirimi yöntemi ile SRILM kullanýlarak oluþturulmuþtur. Olasýlýklar

oluþturulurken yumuþatma için Good-Turing yöntemi ile derece düþürme modelleme yöntemi

beraber kullanýlmýþtýr.

Uygulamada önerilen farklý ÝDM tiplerinin baþarýmlarý ayrý ayrý incelenmiþ ve en baþarýlý sonuç

üreten ÝDM belirlenmeye çalýþýlmýþtýr.

11.8 Türkmenceden Türkçeye Bilgisayarlý Çeviri Düzeni - 45

Page 46: DDI- Kitap (1 Ekim)

·

Musahhih

Muvakkýthane

558 9432

46 - Bilgisayarlý Çeviri