20
Tölvur og tungumál - 13 © Eiríkur Rögnvaldsson, nóvember 2006

Tölvur og tungumál - 13 © Eiríkur Rögnvaldsson, nóvember 2006

  • View
    227

  • Download
    2

Embed Size (px)

Citation preview

Tölvur og tungumál - 13

© Eiríkur Rögnvaldsson,

nóvember 2006

Eru vélrænar þýðingar raunhæfar?

• Fullkomin vélræn þýðing er óraunhæf:– „The problem of automatically producing a high-

quality translation of an arbitrary text from one language to another is thus far too hard to automate completely.“

• Vélræn þýðing getur hins vegar verið raunhæf– þar sem gróf þýðing er nægjanleg– þar sem eftirvinnsla fer fram– á mjög afmörkuðum sviðum málsins

Vélrænar þýðingar geta dugað

• Hrá þýðing getur verið fullnægjandi– t.d. í upplýsingaleit á vefnum

• Hrá þýðing er oft fyrsta skref– í átt til fullkominnar þýðingar

• tölvustudd þýðing, computer-aided human translation

• Vélræn þýðing getur verið fullkomin– þar sem orðaforði og setningagerð eru takmörkuð

• s.s. í veðurfregnum, vörumerkjaskrám o.þ.h.

Yfirfærslulíkanið

• Yfirfærslulíkan– transfer model– inntaki breytt til að falla að reglum markmáls

• Þrír fasar líkansins:– greining setninga í máli sem þýtt er af– yfirfærsla; breyting setningagerðar– myndun setninga á máli sem þýtt er á

Yfirfærslulíkanið myndrænt

• Hér er sýnt hvernig yfirfærslulíkanið verkar

Enska > japanska

• Stig í þýðingu úr ensku á japönsku

Ummyndanir

• Nauðsynlegar setningafræðilegar ummyndanir– í þýðingu úr japönsku á ensku

• ef inntakið samsvarar vinstri hluta ummyndunarinnar er það umskrifað í samræmi við hægri hlutann

Merkingarlíkanið

• Merkingarlíkan– interlingua

• Byggist á merkingargreiningu– merking setninga í frummáli greind– og setningar í markmáli myndaðar út frá því

• Krefst fullkominnar greiningar– og er því erfitt í framkvæmd

Merkingarlýsing

• Merkingarlýsing fyrir merkingarlíkanið– There was an old man gardening

Tengsl líkana

• Tengsl yfir-færslulíkans og merkingar-líkans

Bein þýðing

• Bein þýðing– direct translation

• Miðast við að gera eins lítið og hægt er– yfirleitt sérsniðið fyrir hvert par tungumála– takmarkast við það sem nauðsynlegt er til að

þýða af frummáli á markmál

• Yfirleitt brotið upp í nokkur stig– þar sem ákveðnu atriði er sinnt á hverju stigi

Stig í þýðingu úr japönsku á ensku

• Þýðingarferlið brotið upp í stig

Aðgerðum beitt á streng

• Hér er ekki framkvæmd nákvæm greining– hvorki á setningagerð né merkingu

• Inntakið er strengur af orðum (morfemum)– sem ýmsum aðgerðum er beitt á

• skipti á orðum, umröðun orða o.s.frv.

• Fæst þýðingarkerfi eru einsleit– flest nýta þætti úr mismunandi líkönum

• bein þýðing nýtir oft merkingargreiningu og yfirfærslu

Hliðskipaðir textar

• Hliðskipaðir textar – tvímálatextar– parallel texts – bilingual texts/corpora– sami textinn á tveimur tungumálum

• Samskipun (alignment)– samskipun setninga– samskipun orða

• Sýnir tengsl orða í málunum tveimur

Tölfræðilíkan

• Tölfræðilíkan– statistical model of translation– leggur áherslu á útkomuna en ekki ferlið

• Tvennt sem mælikvarði er lagður á– eðlileiki í markmálinu (fluency)

• sæmilegar aðferðir við mælingu til

– trúnaður við frumtexta (faithfulness)• getur verið erfitt að mæla það

Vélrænar og mannlegar þýðingar

• Samspil vélrænna og mannlegra þýðinga– eftirvinnsla mikið notuð

• Forvinnsla (pre-editing) er einnig notuð– heppileg ef þýða skal á mörg tungumál

• Takmörkun á setningum frummálsins– forðast að nota flóknar setningagerðir

• Meginatriði að hafa orðin rétt– notendur sjá oftast gegnum ranga setningagerð

Orðasöfn og þýðingarminni

• Góð orðasöfn eru grundvallaratriði– innihalda helst líka málshætti, föst orðasambönd,

algeng setningabrot og heilar setningar

• Slík gögn eru oft sótt beint í málheildir– frekar en í orðasöfn– Example-based Machine Translation

• Þýðingarminni (translation memory)– nýting setninga sem áður hafa verið þýddar

Þýðingarminni ESTeam

• Sentence: – Chemical and pharmaceutical products, all

intended for industrial purposes.

• Subsentence (subsentence units highlighted in red): – Chemical   and   pharmaceutical products  ,

  all intended for industrial purposes  .

Þýðingarferli hjá ESTeam

• TM = translation memory

• TL = target language

Vélrænar þýðingar Stefáns Briem

• Vefsíða um vélrænar þýðingar– http://www.simnet.is/stbr/vel.html

• Vélrænar grófþýðingar úr ensku á íslensku– http://www.simnet.is/stbr/stada.html

• Vélrænar grófþýðingar úr íslensku á ensku– http://www.simnet.is/stbr/i-e-stada.html