View
227
Download
2
Embed Size (px)
Citation preview
Eru vélrænar þýðingar raunhæfar?
• Fullkomin vélræn þýðing er óraunhæf:– „The problem of automatically producing a high-
quality translation of an arbitrary text from one language to another is thus far too hard to automate completely.“
• Vélræn þýðing getur hins vegar verið raunhæf– þar sem gróf þýðing er nægjanleg– þar sem eftirvinnsla fer fram– á mjög afmörkuðum sviðum málsins
Vélrænar þýðingar geta dugað
• Hrá þýðing getur verið fullnægjandi– t.d. í upplýsingaleit á vefnum
• Hrá þýðing er oft fyrsta skref– í átt til fullkominnar þýðingar
• tölvustudd þýðing, computer-aided human translation
• Vélræn þýðing getur verið fullkomin– þar sem orðaforði og setningagerð eru takmörkuð
• s.s. í veðurfregnum, vörumerkjaskrám o.þ.h.
Yfirfærslulíkanið
• Yfirfærslulíkan– transfer model– inntaki breytt til að falla að reglum markmáls
• Þrír fasar líkansins:– greining setninga í máli sem þýtt er af– yfirfærsla; breyting setningagerðar– myndun setninga á máli sem þýtt er á
Ummyndanir
• Nauðsynlegar setningafræðilegar ummyndanir– í þýðingu úr japönsku á ensku
• ef inntakið samsvarar vinstri hluta ummyndunarinnar er það umskrifað í samræmi við hægri hlutann
Merkingarlíkanið
• Merkingarlíkan– interlingua
• Byggist á merkingargreiningu– merking setninga í frummáli greind– og setningar í markmáli myndaðar út frá því
• Krefst fullkominnar greiningar– og er því erfitt í framkvæmd
Bein þýðing
• Bein þýðing– direct translation
• Miðast við að gera eins lítið og hægt er– yfirleitt sérsniðið fyrir hvert par tungumála– takmarkast við það sem nauðsynlegt er til að
þýða af frummáli á markmál
• Yfirleitt brotið upp í nokkur stig– þar sem ákveðnu atriði er sinnt á hverju stigi
Aðgerðum beitt á streng
• Hér er ekki framkvæmd nákvæm greining– hvorki á setningagerð né merkingu
• Inntakið er strengur af orðum (morfemum)– sem ýmsum aðgerðum er beitt á
• skipti á orðum, umröðun orða o.s.frv.
• Fæst þýðingarkerfi eru einsleit– flest nýta þætti úr mismunandi líkönum
• bein þýðing nýtir oft merkingargreiningu og yfirfærslu
Hliðskipaðir textar
• Hliðskipaðir textar – tvímálatextar– parallel texts – bilingual texts/corpora– sami textinn á tveimur tungumálum
• Samskipun (alignment)– samskipun setninga– samskipun orða
• Sýnir tengsl orða í málunum tveimur
Tölfræðilíkan
• Tölfræðilíkan– statistical model of translation– leggur áherslu á útkomuna en ekki ferlið
• Tvennt sem mælikvarði er lagður á– eðlileiki í markmálinu (fluency)
• sæmilegar aðferðir við mælingu til
– trúnaður við frumtexta (faithfulness)• getur verið erfitt að mæla það
Vélrænar og mannlegar þýðingar
• Samspil vélrænna og mannlegra þýðinga– eftirvinnsla mikið notuð
• Forvinnsla (pre-editing) er einnig notuð– heppileg ef þýða skal á mörg tungumál
• Takmörkun á setningum frummálsins– forðast að nota flóknar setningagerðir
• Meginatriði að hafa orðin rétt– notendur sjá oftast gegnum ranga setningagerð
Orðasöfn og þýðingarminni
• Góð orðasöfn eru grundvallaratriði– innihalda helst líka málshætti, föst orðasambönd,
algeng setningabrot og heilar setningar
• Slík gögn eru oft sótt beint í málheildir– frekar en í orðasöfn– Example-based Machine Translation
• Þýðingarminni (translation memory)– nýting setninga sem áður hafa verið þýddar
Þýðingarminni ESTeam
• Sentence: – Chemical and pharmaceutical products, all
intended for industrial purposes.
• Subsentence (subsentence units highlighted in red): – Chemical and pharmaceutical products ,
all intended for industrial purposes .