Fordítás, többnyelvűség, szótárak

Preview:

DESCRIPTION

Fordítás, többnyelvűség, szótárak. Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu. Folyamatos hivatalos igény a különféle nyelvű anyagok fordítására. - PowerPoint PPT Presentation

Citation preview

Fordítás, többnyelvűség, szótárak

Prószéky Gábor

MorphoLogic http://www.morphologic.hu

Pázmány Péter Katolikus Egyetem Információs Technológiai Kar

http://www.itk.ppke.hu

Folyamatos hivatalos igény a különféle Folyamatos hivatalos igény a különféle

nyelvű anyagok fordításáranyelvű anyagok fordítására

„Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani.”

(Az Európa Parlament ügyrendje, 79. cikkely)

Az EU-országok idegennyelv-tudása (Eurobarometer)Luxemburg 99%

Lettország 93%

Málta 93%

Hollandia 91%

Litvánia 90%

Szlovénia 89%

Dánia 88%

Svédország 88%

Észtország 87%

Ciprus 72%

Belgium 71%

Szlovákia 69%

Finnország 66%

Németország 62%

Csehország 60%

Ausztria 58%

Görögország 49%

Lengyelország 49%

Franciaország 45%

Bulgária 45%

Írország 41%

Románia 41%

Spanyolország 36%

Olaszország 36%

Portugália 36%

Egyesült Királyság 30%

Magyarország 29%

Az idegen nyelvek megoszlása az EU-országokban

az idegen nyelveket beszélők %-ában (Eurobarometer) Angol Francia Német Spanyol Orosz Olasz Svéd Angol Francia Német Spanyol Orosz Olasz Svéd

A szótár mint az idegennyelv-tudás egyik kulcsa

a használat módja a sebesség az adott helyzetben kapott találatok pontossága az egyszerre több helyen való fellapozhatóság

lehetősége

Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza:

Szótárprogramok és -Szótárprogramok és -szolgáltatásokszolgáltatások

a világban a világban A szótárprogramok nagy része nem nyelvtechnológiai

produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis

Eleinte csak offline termékek, ma már (javarészt ingyenes) online szolgáltatások

Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998)

A korszerű internetes A korszerű internetes szótárszolgáltatás kritériumai a Web2 szótárszolgáltatás kritériumai a Web2

segítségévelsegítségével

Folyamatosan bővülő szótárkínálat Sajátszótár-készítési lehetőség Tetszőleges webes tartalom integrált

megjelenítése A kifejezések intelligens kezelése Közösségi jelenlét Egymás segítésének és a (jogos) kritikának a

fóruma A rendszer szemantikus ismereteinek erősítése a

felhasználó keresési szokásainak elemzésével Könnyű keresés-indítási lehetőség Saját menthető beállítások a környezet személyre

szabásához Megvalósítás: www.webforditas.hu

A webforditas.hu szótárfelületeA webforditas.hu szótárfelülete

QuickTime™ and a decompressor

are needed to see this picture.

Az EuroTermBank szótárfelületeAz EuroTermBank szótárfelülete(www.eurotermbank.com)(www.eurotermbank.com)

A géppel támogatott fordítás eszközei

A professzionális fordítók igénye: gépi szótárak, és más támogatás is, de továbbra sem a gép fordít!

Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni

Kialakulnak a fordítómemóriák Új kutatási terület: hasonló mondatok keresése Párhuzamos szövegkorpuszok: szövegek fordításaikkal,

mondatpáronként kereshetően A legjelentősebb hazai kísérlet: a Hunglish angol-magyar

párhuzamos korpusz (BME MOKK) Szoftvereszközök: Trados, Transit, SDL, … A MemoQ magyar fejlesztésű fordítómemória (Kilgray

Kft) több szakmai szempontból meghaladja a versenytársait

Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé

A gépi fordítás minősítéséneklegfontosabb kritériumai

(fordítási minőség + sebesség + használhatóság + formátummegőrzés + elérhető nyelvek)

Forrás: Stadler-Spröndli, MT Summit 2007

Fordítási Fordítási minminőőségség

34%34% HasználhatósHasználhatóságág

34%34%

Formátum-Formátum-megmegőrzésőrzés

13%13%SebességSebesség

20%20%

Forrásnyelv-Forrásnyelv-célnyelv célnyelv

párokpárok13%13%

A gépi fordítás legalapvetőbb módszerei

közvetítközvetítőőnyelvnyelv

célnyelvcélnyelvforrásnyelvforrásnyelv

elemzéselemzés generálásgenerálástranszfertranszfer

közvetlen fordítás közvetlen fordítás

A gépi fordítás fő irányzataiA gépi fordítás fő irányzatai

A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!)

A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is)

A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra)

A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses)

A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt

A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)

Az elérhető webes Az elérhető webes fordítószolgáltatások minőségi kérdéseifordítószolgáltatások minőségi kérdései

QuickTime™ and a decompressor

are needed to see this picture.

Egy hazai gépi fordítási esettanulmány(www.webforditas.hu)

Az internetes szolgáltatást működtető gépifordító-motor a MorphoLogic MetaMorpho rendszere

Formája: ingyenes gépi fordítási szolgáltatás

Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette konzorcium (MTA Nyelvtudományi Intézet, SZTE Informatikai Tanszékcsoport) munkája (NKFP)

2007 és 2008 októbere között:91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt)81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés13,3 GB adatforgalom (ami 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg)

2008 szeptemberében már 50 000 látogató/nap!

Weblapfordítás(www.webforditas.hu)

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

Weblapfordítás(www.webforditas.hu)

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

A webforditas.hu gépifordító-szolgáltatás látogatószám-növekedése 2007/2008-ban

QuickTime™ and a decompressor

are needed to see this picture.

A webforditas.hu, a Systran és a ProMT internetes fordítószolgáltatásainak

összehasonlítása

QuickTime™ and a decompressor

are needed to see this picture.

Következmények

A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását)

Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők „megértéstámogatása”

Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-X és X-angol gépfordító-szolgáltatásainak összekapcsolására

Hogyan?

A közvetítőnyelv gondolataA közvetítőnyelv gondolata

„A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. […] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség.”

(Az Európai Unió soknyelvűsége - Ajánlás)

Közvetett fordítás a magyar és az EU-nyelvek között

(meg még más nyelvekre is…)

A nyelvpárok száma= n*(n-1)

A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt

X-Y közvetett fordítás: angolon át 2008 nyarától a Google is ezt csinálja: statisztikai

fordítóit kötötte össze az angolon keresztül

A nyelvek száma

Hagyományos/Statisztikai Interlingvával

6 nyelv 30 12

23 nyelv 506 46

50 nyelv 2450 100

A webforditas.hu magyarra és A webforditas.hu magyarra és magyarról magyarról

„forduló” nyelvei„forduló” nyelvei A legfontosabb európai világnyelvek:

angol, német, francia, spanyol, olasz, orosz További nyugat-európai nyelvek:

portugál, holland, dán, svéd, norvég, finn, katalán A „visegrádi” nyelvek: lengyel, cseh, szlovák További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén További kelet-európai nyelvek: görög, bolgár, lett, litván A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai,

koreai További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT

(orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég)

Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net

A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen („nem ember áll a túloldalon!”)

A soknyelvű webforditas.hu A soknyelvű webforditas.hu szövegfordító moduljaszövegfordító modulja

QuickTime™ and a decompressor

are needed to see this picture.

1. webfordítás-példa: orosz-magyar1. webfordítás-példa: orosz-magyar

QuickTime™ and a decompressor

are needed to see this picture.

2. webfordítás-példa: hindi-magyar2. webfordítás-példa: hindi-magyar

QuickTime™ and a decompressor

are needed to see this picture.

3. webfordítás-példa: japán-magyar3. webfordítás-példa: japán-magyar

QuickTime™ and a decompressor

are needed to see this picture.

4. webfordítás-példa: magyar-román4. webfordítás-példa: magyar-román

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

5. webfordítás-példa: magyar-portugál5. webfordítás-példa: magyar-portugál

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

6. webfordítás-példa: magyar-görög 6. webfordítás-példa: magyar-görög

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

Merre megy a gépi fordítás tovább?

Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal)

Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások)

Újabb „platformok” bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)

QuickTime™ and a decompressor

are needed to see this picture.

Recommended