32
Fordítás, többnyelvűség, szótárak Prószéky Gábor MorphoLogic http ://www. morphologic .hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http ://www. itk . ppke .hu

Fordítás, többnyelvűség, szótárak

  • Upload
    aideen

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

Fordítás, többnyelvűség, szótárak. Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu. Folyamatos hivatalos igény a különféle nyelvű anyagok fordítására. - PowerPoint PPT Presentation

Citation preview

Page 1: Fordítás,  többnyelvűség,  szótárak

Fordítás, többnyelvűség, szótárak

Prószéky Gábor

MorphoLogic http://www.morphologic.hu

Pázmány Péter Katolikus Egyetem Információs Technológiai Kar

http://www.itk.ppke.hu

Page 2: Fordítás,  többnyelvűség,  szótárak

Folyamatos hivatalos igény a különféle Folyamatos hivatalos igény a különféle

nyelvű anyagok fordításáranyelvű anyagok fordítására

„Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani.”

(Az Európa Parlament ügyrendje, 79. cikkely)

Page 3: Fordítás,  többnyelvűség,  szótárak

Az EU-országok idegennyelv-tudása (Eurobarometer)Luxemburg 99%

Lettország 93%

Málta 93%

Hollandia 91%

Litvánia 90%

Szlovénia 89%

Dánia 88%

Svédország 88%

Észtország 87%

Ciprus 72%

Belgium 71%

Szlovákia 69%

Finnország 66%

Németország 62%

Csehország 60%

Ausztria 58%

Görögország 49%

Lengyelország 49%

Franciaország 45%

Bulgária 45%

Írország 41%

Románia 41%

Spanyolország 36%

Olaszország 36%

Portugália 36%

Egyesült Királyság 30%

Magyarország 29%

Page 4: Fordítás,  többnyelvűség,  szótárak

Az idegen nyelvek megoszlása az EU-országokban

az idegen nyelveket beszélők %-ában (Eurobarometer) Angol Francia Német Spanyol Orosz Olasz Svéd Angol Francia Német Spanyol Orosz Olasz Svéd

Page 5: Fordítás,  többnyelvűség,  szótárak

A szótár mint az idegennyelv-tudás egyik kulcsa

a használat módja a sebesség az adott helyzetben kapott találatok pontossága az egyszerre több helyen való fellapozhatóság

lehetősége

Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza:

Page 6: Fordítás,  többnyelvűség,  szótárak

Szótárprogramok és -Szótárprogramok és -szolgáltatásokszolgáltatások

a világban a világban A szótárprogramok nagy része nem nyelvtechnológiai

produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis

Eleinte csak offline termékek, ma már (javarészt ingyenes) online szolgáltatások

Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998)

Page 7: Fordítás,  többnyelvűség,  szótárak

A korszerű internetes A korszerű internetes szótárszolgáltatás kritériumai a Web2 szótárszolgáltatás kritériumai a Web2

segítségévelsegítségével

Folyamatosan bővülő szótárkínálat Sajátszótár-készítési lehetőség Tetszőleges webes tartalom integrált

megjelenítése A kifejezések intelligens kezelése Közösségi jelenlét Egymás segítésének és a (jogos) kritikának a

fóruma A rendszer szemantikus ismereteinek erősítése a

felhasználó keresési szokásainak elemzésével Könnyű keresés-indítási lehetőség Saját menthető beállítások a környezet személyre

szabásához Megvalósítás: www.webforditas.hu

Page 8: Fordítás,  többnyelvűség,  szótárak

A webforditas.hu szótárfelületeA webforditas.hu szótárfelülete

QuickTime™ and a decompressor

are needed to see this picture.

Page 9: Fordítás,  többnyelvűség,  szótárak

Az EuroTermBank szótárfelületeAz EuroTermBank szótárfelülete(www.eurotermbank.com)(www.eurotermbank.com)

Page 10: Fordítás,  többnyelvűség,  szótárak

A géppel támogatott fordítás eszközei

A professzionális fordítók igénye: gépi szótárak, és más támogatás is, de továbbra sem a gép fordít!

Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni

Kialakulnak a fordítómemóriák Új kutatási terület: hasonló mondatok keresése Párhuzamos szövegkorpuszok: szövegek fordításaikkal,

mondatpáronként kereshetően A legjelentősebb hazai kísérlet: a Hunglish angol-magyar

párhuzamos korpusz (BME MOKK) Szoftvereszközök: Trados, Transit, SDL, … A MemoQ magyar fejlesztésű fordítómemória (Kilgray

Kft) több szakmai szempontból meghaladja a versenytársait

Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé

Page 11: Fordítás,  többnyelvűség,  szótárak

A gépi fordítás minősítéséneklegfontosabb kritériumai

(fordítási minőség + sebesség + használhatóság + formátummegőrzés + elérhető nyelvek)

Forrás: Stadler-Spröndli, MT Summit 2007

Fordítási Fordítási minminőőségség

34%34% HasználhatósHasználhatóságág

34%34%

Formátum-Formátum-megmegőrzésőrzés

13%13%SebességSebesség

20%20%

Forrásnyelv-Forrásnyelv-célnyelv célnyelv

párokpárok13%13%

Page 12: Fordítás,  többnyelvűség,  szótárak

A gépi fordítás legalapvetőbb módszerei

közvetítközvetítőőnyelvnyelv

célnyelvcélnyelvforrásnyelvforrásnyelv

elemzéselemzés generálásgenerálástranszfertranszfer

közvetlen fordítás közvetlen fordítás

Page 13: Fordítás,  többnyelvűség,  szótárak

A gépi fordítás fő irányzataiA gépi fordítás fő irányzatai

A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!)

A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is)

A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra)

A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses)

A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt

A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)

Page 14: Fordítás,  többnyelvűség,  szótárak

Az elérhető webes Az elérhető webes fordítószolgáltatások minőségi kérdéseifordítószolgáltatások minőségi kérdései

QuickTime™ and a decompressor

are needed to see this picture.

Page 15: Fordítás,  többnyelvűség,  szótárak

Egy hazai gépi fordítási esettanulmány(www.webforditas.hu)

Az internetes szolgáltatást működtető gépifordító-motor a MorphoLogic MetaMorpho rendszere

Formája: ingyenes gépi fordítási szolgáltatás

Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette konzorcium (MTA Nyelvtudományi Intézet, SZTE Informatikai Tanszékcsoport) munkája (NKFP)

2007 és 2008 októbere között:91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt)81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés13,3 GB adatforgalom (ami 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg)

2008 szeptemberében már 50 000 látogató/nap!

Page 16: Fordítás,  többnyelvűség,  szótárak

Weblapfordítás(www.webforditas.hu)

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

Page 17: Fordítás,  többnyelvűség,  szótárak

Weblapfordítás(www.webforditas.hu)

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

Page 18: Fordítás,  többnyelvűség,  szótárak

A webforditas.hu gépifordító-szolgáltatás látogatószám-növekedése 2007/2008-ban

QuickTime™ and a decompressor

are needed to see this picture.

Page 19: Fordítás,  többnyelvűség,  szótárak

A webforditas.hu, a Systran és a ProMT internetes fordítószolgáltatásainak

összehasonlítása

QuickTime™ and a decompressor

are needed to see this picture.

Page 20: Fordítás,  többnyelvűség,  szótárak

Következmények

A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását)

Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők „megértéstámogatása”

Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-X és X-angol gépfordító-szolgáltatásainak összekapcsolására

Hogyan?

Page 21: Fordítás,  többnyelvűség,  szótárak

A közvetítőnyelv gondolataA közvetítőnyelv gondolata

„A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. […] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség.”

(Az Európai Unió soknyelvűsége - Ajánlás)

Page 22: Fordítás,  többnyelvűség,  szótárak

Közvetett fordítás a magyar és az EU-nyelvek között

(meg még más nyelvekre is…)

A nyelvpárok száma= n*(n-1)

A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt

X-Y közvetett fordítás: angolon át 2008 nyarától a Google is ezt csinálja: statisztikai

fordítóit kötötte össze az angolon keresztül

A nyelvek száma

Hagyományos/Statisztikai Interlingvával

6 nyelv 30 12

23 nyelv 506 46

50 nyelv 2450 100

Page 23: Fordítás,  többnyelvűség,  szótárak

A webforditas.hu magyarra és A webforditas.hu magyarra és magyarról magyarról

„forduló” nyelvei„forduló” nyelvei A legfontosabb európai világnyelvek:

angol, német, francia, spanyol, olasz, orosz További nyugat-európai nyelvek:

portugál, holland, dán, svéd, norvég, finn, katalán A „visegrádi” nyelvek: lengyel, cseh, szlovák További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén További kelet-európai nyelvek: görög, bolgár, lett, litván A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai,

koreai További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT

(orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég)

Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net

A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen („nem ember áll a túloldalon!”)

Page 24: Fordítás,  többnyelvűség,  szótárak

A soknyelvű webforditas.hu A soknyelvű webforditas.hu szövegfordító moduljaszövegfordító modulja

QuickTime™ and a decompressor

are needed to see this picture.

Page 25: Fordítás,  többnyelvűség,  szótárak

1. webfordítás-példa: orosz-magyar1. webfordítás-példa: orosz-magyar

QuickTime™ and a decompressor

are needed to see this picture.

Page 26: Fordítás,  többnyelvűség,  szótárak

2. webfordítás-példa: hindi-magyar2. webfordítás-példa: hindi-magyar

QuickTime™ and a decompressor

are needed to see this picture.

Page 27: Fordítás,  többnyelvűség,  szótárak

3. webfordítás-példa: japán-magyar3. webfordítás-példa: japán-magyar

QuickTime™ and a decompressor

are needed to see this picture.

Page 28: Fordítás,  többnyelvűség,  szótárak

4. webfordítás-példa: magyar-román4. webfordítás-példa: magyar-román

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

Page 29: Fordítás,  többnyelvűség,  szótárak

5. webfordítás-példa: magyar-portugál5. webfordítás-példa: magyar-portugál

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

Page 30: Fordítás,  többnyelvűség,  szótárak

6. webfordítás-példa: magyar-görög 6. webfordítás-példa: magyar-görög

QuickTime™ and a decompressor

are needed to see this picture.

QuickTime™ and a decompressor

are needed to see this picture.

Page 31: Fordítás,  többnyelvűség,  szótárak

Merre megy a gépi fordítás tovább?

Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal)

Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások)

Újabb „platformok” bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)

Page 32: Fordítás,  többnyelvűség,  szótárak

QuickTime™ and a decompressor

are needed to see this picture.