Upload
aideen
View
56
Download
0
Embed Size (px)
DESCRIPTION
Fordítás, többnyelvűség, szótárak. Prószéky Gábor MorphoLogic http://www.morphologic.hu Pázmány Péter Katolikus Egyetem Információs Technológiai Kar http://www.itk.ppke.hu. Folyamatos hivatalos igény a különféle nyelvű anyagok fordítására. - PowerPoint PPT Presentation
Citation preview
Fordítás, többnyelvűség, szótárak
Prószéky Gábor
MorphoLogic http://www.morphologic.hu
Pázmány Péter Katolikus Egyetem Információs Technológiai Kar
http://www.itk.ppke.hu
Folyamatos hivatalos igény a különféle Folyamatos hivatalos igény a különféle
nyelvű anyagok fordításáranyelvű anyagok fordítására
„Minden hivatalos anyagot minden hivatalos nyelven meg kell szövegezni, továbbá bármely hivatalos nyelven fogalmazódik egy nyilatkozat, azt minden más hivatalos nyelvre és minden, az elnökség által szükségesnek tartott egyéb nyelvre is le kell fordítani.”
(Az Európa Parlament ügyrendje, 79. cikkely)
Az EU-országok idegennyelv-tudása (Eurobarometer)Luxemburg 99%
Lettország 93%
Málta 93%
Hollandia 91%
Litvánia 90%
Szlovénia 89%
Dánia 88%
Svédország 88%
Észtország 87%
Ciprus 72%
Belgium 71%
Szlovákia 69%
Finnország 66%
Németország 62%
Csehország 60%
Ausztria 58%
Görögország 49%
Lengyelország 49%
Franciaország 45%
Bulgária 45%
Írország 41%
Románia 41%
Spanyolország 36%
Olaszország 36%
Portugália 36%
Egyesült Királyság 30%
Magyarország 29%
Az idegen nyelvek megoszlása az EU-országokban
az idegen nyelveket beszélők %-ában (Eurobarometer) Angol Francia Német Spanyol Orosz Olasz Svéd Angol Francia Német Spanyol Orosz Olasz Svéd
A szótár mint az idegennyelv-tudás egyik kulcsa
a használat módja a sebesség az adott helyzetben kapott találatok pontossága az egyszerre több helyen való fellapozhatóság
lehetősége
Az elektronikus és a hagyományos szótárak viszonyát alapvetően meghatározza:
Szótárprogramok és -Szótárprogramok és -szolgáltatásokszolgáltatások
a világban a világban A szótárprogramok nagy része nem nyelvtechnológiai
produktum, mindössze egy nyelvi egységeket (szavakat, kifejezéseket) tartalmazó adatbázis
Eleinte csak offline termékek, ma már (javarészt ingyenes) online szolgáltatások
Az intelligens szótári rendszer egyik első megvalósítása magyar fejlesztés: a MorphoLogic MoBiMouse programja (IST Prize = EU Információtechnológiai Díj, 1998)
A korszerű internetes A korszerű internetes szótárszolgáltatás kritériumai a Web2 szótárszolgáltatás kritériumai a Web2
segítségévelsegítségével
Folyamatosan bővülő szótárkínálat Sajátszótár-készítési lehetőség Tetszőleges webes tartalom integrált
megjelenítése A kifejezések intelligens kezelése Közösségi jelenlét Egymás segítésének és a (jogos) kritikának a
fóruma A rendszer szemantikus ismereteinek erősítése a
felhasználó keresési szokásainak elemzésével Könnyű keresés-indítási lehetőség Saját menthető beállítások a környezet személyre
szabásához Megvalósítás: www.webforditas.hu
A webforditas.hu szótárfelületeA webforditas.hu szótárfelülete
QuickTime™ and a decompressor
are needed to see this picture.
Az EuroTermBank szótárfelületeAz EuroTermBank szótárfelülete(www.eurotermbank.com)(www.eurotermbank.com)
A géppel támogatott fordítás eszközei
A professzionális fordítók igénye: gépi szótárak, és más támogatás is, de továbbra sem a gép fordít!
Például tovább lehet gyorsítani a munkán, ha az eddig lefordított anyagokat el lehet érni
Kialakulnak a fordítómemóriák Új kutatási terület: hasonló mondatok keresése Párhuzamos szövegkorpuszok: szövegek fordításaikkal,
mondatpáronként kereshetően A legjelentősebb hazai kísérlet: a Hunglish angol-magyar
párhuzamos korpusz (BME MOKK) Szoftvereszközök: Trados, Transit, SDL, … A MemoQ magyar fejlesztésű fordítómemória (Kilgray
Kft) több szakmai szempontból meghaladja a versenytársait
Nyelvtechnológia + fordítómemória: út az intelligens fordítómemóriák felé
A gépi fordítás minősítéséneklegfontosabb kritériumai
(fordítási minőség + sebesség + használhatóság + formátummegőrzés + elérhető nyelvek)
Forrás: Stadler-Spröndli, MT Summit 2007
Fordítási Fordítási minminőőségség
34%34% HasználhatósHasználhatóságág
34%34%
Formátum-Formátum-megmegőrzésőrzés
13%13%SebességSebesség
20%20%
Forrásnyelv-Forrásnyelv-célnyelv célnyelv
párokpárok13%13%
A gépi fordítás legalapvetőbb módszerei
közvetítközvetítőőnyelvnyelv
célnyelvcélnyelvforrásnyelvforrásnyelv
elemzéselemzés generálásgenerálástranszfertranszfer
közvetlen fordítás közvetlen fordítás
A gépi fordítás fő irányzataiA gépi fordítás fő irányzatai
A közvetlen fordítás csak az 60-as évek elejéig működött (magyar kísérlet is volt!)
A minden nyelv fölött álló közvetítőnyelves megoldás mindig csak kísérlet maradt (pl. DLT, amiben kísérlet volt a magyar bevonására is)
A transzfer-fordítás ma a szabály-alapú rendszerek alapgondolata (pl. Systran, ProMT, Eurotra)
A statisztikai fordítók az utóbbi évtized egyeduralkodóivá váltak, de képességeiket csak szűk területen mutatják meg jól (nyílt forráskódú rendszerek: Pharaoh, Giza++, Moses)
A soknyelvűség ismét előtérbe kerül: hibrid rendszerek előállítása - magyar közreműködéssel (MorphoLogic): az EuroMatrix projekt
A példa-alapú rendszer nem feltétlenül kapcsolódik statisztikai megoldáshoz (pl. MetaMorpho)
Az elérhető webes Az elérhető webes fordítószolgáltatások minőségi kérdéseifordítószolgáltatások minőségi kérdései
QuickTime™ and a decompressor
are needed to see this picture.
Egy hazai gépi fordítási esettanulmány(www.webforditas.hu)
Az internetes szolgáltatást működtető gépifordító-motor a MorphoLogic MetaMorpho rendszere
Formája: ingyenes gépi fordítási szolgáltatás
Az angol-magyar a MorphoLogic saját fejlesztése (2000-2004), a magyar-angol a MorphoLogic vezette konzorcium (MTA Nyelvtudományi Intézet, SZTE Informatikai Tanszékcsoport) munkája (NKFP)
2007 és 2008 októbere között:91 millió fordítási kérés kiszolgálása (az előző 12 hónapban ugyanez 43 millió oldal volt)81 millió szövegfordítás + 2 millió weboldal-fordítás + 7,2 millió szótári lekérdezés13,3 GB adatforgalom (ami 1800 karakter/gépelt oldallal számolva mintegy 7,2 millió A4-oldalnak felel meg)
2008 szeptemberében már 50 000 látogató/nap!
Weblapfordítás(www.webforditas.hu)
QuickTime™ and a decompressor
are needed to see this picture.
QuickTime™ and a decompressor
are needed to see this picture.
Weblapfordítás(www.webforditas.hu)
QuickTime™ and a decompressor
are needed to see this picture.
QuickTime™ and a decompressor
are needed to see this picture.
A webforditas.hu gépifordító-szolgáltatás látogatószám-növekedése 2007/2008-ban
QuickTime™ and a decompressor
are needed to see this picture.
A webforditas.hu, a Systran és a ProMT internetes fordítószolgáltatásainak
összehasonlítása
QuickTime™ and a decompressor
are needed to see this picture.
Következmények
A fordítói társadalom természetesen nem érzett meg ebből semmit (=egy fordító sem vesztette el az állását)
Miért? Mert ez nem fordítás az eredeti értelemben, hanem a többnyelvűség egy újabb területe: az internet előtt ülők „megértéstámogatása”
Ezek a számok adták az ötletet további nyelvek bevonásához, a MorphoLogic angol-magyar és magyar-angol szolgáltatásának és a világ angol-X és X-angol gépfordító-szolgáltatásainak összekapcsolására
Hogyan?
A közvetítőnyelv gondolataA közvetítőnyelv gondolata
„A működés megkerülhetetlen előfeltétele a megnyilatkozások fordítása, tolmácsolása az éppen megnyilatkozó nyelvéről az összes többi nyelvre. Matematikailag a legegyszerűbb és minden szempontból a leghatékonyabb, nem mellesleg a legolcsóbb megoldás az, ha minden megnyilatkozást először lefordítanak egy közös nyelvre, egy második lépésben pedig ezen közös nyelvről lefordítják a megnyilatkozást az összes többi nyelvre. Mivel egy fordítóról általánosan is elvárható az oda-vissza fordítás két nyelv között, 23 hivatalos nyelv (azaz egy közös és 22 más nyelv) esetében ilyen munkamódszer mellett pontosan 22 fordítóra lenne szükség. […] Megoldásként kínálkozik a másik munkamódszer, amikor ilyen áthidaló közös nyelv közbeiktatása nélkül a fordítás minden nyelvről minden nyelvre történik. Ebben az esetben viszont pontosan 506 fordítóra lenne szükség.”
(Az Európai Unió soknyelvűsége - Ajánlás)
Közvetett fordítás a magyar és az EU-nyelvek között
(meg még más nyelvekre is…)
A nyelvpárok száma= n*(n-1)
A létező X-angol/angol-X gépifordító-rendszerek adják az interlingvát: az angolt
X-Y közvetett fordítás: angolon át 2008 nyarától a Google is ezt csinálja: statisztikai
fordítóit kötötte össze az angolon keresztül
A nyelvek száma
Hagyományos/Statisztikai Interlingvával
6 nyelv 30 12
23 nyelv 506 46
50 nyelv 2450 100
A webforditas.hu magyarra és A webforditas.hu magyarra és magyarról magyarról
„forduló” nyelvei„forduló” nyelvei A legfontosabb európai világnyelvek:
angol, német, francia, spanyol, olasz, orosz További nyugat-európai nyelvek:
portugál, holland, dán, svéd, norvég, finn, katalán A „visegrádi” nyelvek: lengyel, cseh, szlovák További szomszédos nyelvek: ukrán, román, szerb, horvát, szlovén További kelet-európai nyelvek: görög, bolgár, lett, litván A legfontosabb nem európai világnyelvek: arab, héber, japán, kínai,
koreai További nagy, nem-európai nyelvek: hindi, indonéz, vietnámi A MorphoLogic nemzetközi partnerei ebben a gigaprojektben: ProMT
(orosz, német, francia, spanyol, portugál), Trident (ukrán, lett), pwn.pl (lengyel), SkyCode (bolgár), GrammarSoft (dán, norvég)
Ez a 12 fordítómodul saját gépen futó változatban is, Word-fájlok és weblapok fordítására elérhetőek: MorphoWord Net
A szükséges fejlesztések fő iránya: úgy javítani az angol-magyar/magyar-angol rendszert, hogy az a géppel való továbbfordítás kritériumainak minél jobban megfeleljen („nem ember áll a túloldalon!”)
A soknyelvű webforditas.hu A soknyelvű webforditas.hu szövegfordító moduljaszövegfordító modulja
QuickTime™ and a decompressor
are needed to see this picture.
1. webfordítás-példa: orosz-magyar1. webfordítás-példa: orosz-magyar
QuickTime™ and a decompressor
are needed to see this picture.
2. webfordítás-példa: hindi-magyar2. webfordítás-példa: hindi-magyar
QuickTime™ and a decompressor
are needed to see this picture.
3. webfordítás-példa: japán-magyar3. webfordítás-példa: japán-magyar
QuickTime™ and a decompressor
are needed to see this picture.
4. webfordítás-példa: magyar-román4. webfordítás-példa: magyar-román
QuickTime™ and a decompressor
are needed to see this picture.
QuickTime™ and a decompressor
are needed to see this picture.
5. webfordítás-példa: magyar-portugál5. webfordítás-példa: magyar-portugál
QuickTime™ and a decompressor
are needed to see this picture.
QuickTime™ and a decompressor
are needed to see this picture.
6. webfordítás-példa: magyar-görög 6. webfordítás-példa: magyar-görög
QuickTime™ and a decompressor
are needed to see this picture.
QuickTime™ and a decompressor
are needed to see this picture.
Merre megy a gépi fordítás tovább?
Hosszú távra tervezett kutatás (csak megfelelő támogatással): a fordítási minőség folyamatos javítása (korpusznyelvészeti és hibrid megoldásokkal)
Kutatási projektek a fordításhoz tartozó szolgáltatások bővítésére (pl. szókészlet-bővítő eszközök, intelligens keresési megoldások)
Újabb „platformok” bevonási lehetőségeinek kutatása (pl. összekapcsolás beszédfeldolgozással, mobil alkalmazások)
QuickTime™ and a decompressor
are needed to see this picture.