Upload
yered
View
47
Download
0
Embed Size (px)
DESCRIPTION
Strojový překlad s využitím závislostní syntaxe. Zden ěk Žabokrtský Ústav formální a aplikované lingvistiky, MFF UK. Osnova. Část 1: Treex – víceúčelový systém pro NLP Část 2: tektogramatický překlad v Treexu. Motivace 1 – spole čná platforma. předchozí zkušenost (léto 2005): - PowerPoint PPT Presentation
Citation preview
FI MUNI, 18. května 2011
1/29
Strojový překlad s využitím závislostní
syntaxe
Zdeněk ŽabokrtskýÚstav formální a aplikované lingvistiky, MFF UK
FI MUNI, 18. května 2011
2/29
Osnova
Část 1: Treex – víceúčelový systém pro NLP
Část 2: tektogramatický překlad v Treexu
FI MUNI, 18. května 2011
3/29
Motivace 1 – společná platforma
předchozí zkušenost (léto 2005):sice existuje řada softwarových nástrojů pro zpracování jazyka,ale propojit je do komplexnější aplikace je nesmírně pracné
důvodynejrůznější způsoby komunikace (co nástroj, to nový souborový formát nebo protokol… nekonečné konverze)problémy s instalací a platformovou přenositelnostíproblémy s daty/modelynejasné, neexistující, nebo příliš restriktivní licencenekompatibilní nebo těžko převoditelné podkladové lingvistické teorie…
důsledky:komplexnější aplikace se podaří sestavit jen zřídkařada nástrojů zůstává ve stavu laboratorních prototypů, použitých pouze pro dílčí experiment
FI MUNI, 18. května 2011
4/29
Motivace 2 – strojový překlad
hypotéza:
tektogramatická rovina jazykového popisu abstrahuje od řady jazykově specifických „strategií“
jazyky jsou si z pohledu tektogramatiky podobnější
tektogramatika by mohla usnadnit strojový překlad
nedokážeme dokázat/vyvrátit formálně, nezbývá než zkusit to naimplementovat
velice komplexní úloha, zvládnutelná pouze v kvalitním softwarovém rámci
strojový překlad jako pilotní aplikace
FI MUNI, 18. května 2011
5/29
Výchozí rozhodnutí (1)
žádná omezení na ose pravidla vs. statistika
nepředstíráme „theory neutrality” - lingvistická reprezentace ve stylu Pražského závislostního treebanku (PDT)
morfologická, povrchově syntaktické a hloubkově syntaktická rovina
plus složková rovina (phrase structure, constituency)
využití technologií vzniklých okolo PDTeditor stromů TrEd
XML schémata pro lingvistická data
již existující taggery, parsery…
FI MUNI, 18. května 2011
6/29
Výchozí rozhodnutí (2)
Linux
Perl jako hlavní jazyk
„wrappery“ v Perlu pro nástroje implementované v jiných jazycích
extrémní důraz na modularituznovupoužitelnost
zaměnitelnost
podpora distribuovaného zpracování
podpora zpracování vícejazyčných dat
FI MUNI, 18. května 2011
7/29
Roviny v PDT
výchozí teorie: Funkční generativní popis
[Sgall, 1964] [Sgall et al., 1986]
tři roviny lingvistické analýzy rovina hloubkové syntaxe (tektogramatika)rovina povrchové syntaxemorfologická rovina
FI MUNI, 18. května 2011
8/29
Adaptace rovin PDT
úpravy vyplývající z praktických zkušeností s využíváním datvětšinou monotónní rozšíření
na t-rovině přidaný atribut formeme zkrácený zápis morfosyntaktické formy, např. n:2, n:k+3, v:že+vfin, v:rc, adj:attr
nové atributy pro práci s klauzemi, pojmenovanými entitami, slovesným rodem…
drobná změna v koordinacích na a-rovině přesun is_member na předložku
radikálnější změny:sloučení všech rovin do jednoho souborusloučení m-roviny a a-roviny do jediného stromu
FI MUNI, 18. května 2011
9/29
Struktura Treexuvrstvy zdrojového kódu („cibule“):
souborová reprezentace (Treex::PML)serializace do / čtení z Prague Markup Language (XML)
jádro (Treex::Core) moduly pro přístup k datům v paměti (API) hlavní spouštěcí kód, paralelizace XML schémata …
bloky (Treex::Block) základní výkonné jednotky
další perlové nástroje nebo wrappery k neperlovým nástrojům (Treex::Tools)
datanatrénované pravděpodobnostní modely…
FI MUNI, 18. května 2011
10/29
Datové struktury v Treexudocument
the smallest independently storable unit (~ xml file)
represents a text as a sequence of bundles, each representing one sentence (or sentence tuples in the case of parallel documents)
bundleset of tree representations of a given sentence
zonesubset of trees for the same language and the same purpose
treerepresentation
of a sentence on a given layer
of linguistic description
• node• attribute
– document's, node's, or
bundle's attrname-value pair
FI MUNI, 18. května 2011
11/29
Výkonné jednotky v Treexu
každé zpracování dat se snažíme rozebrat na posloupnost kroků
bloknejmenší samostatně spustitelná jednotkapředdefinované rozhraní
scénářposloupnost bloků
aplikacescénář s konverzí formátů
na vstupu a výstupu
sourcelanguage
targetlanguage
MT triangle:interlingua
tectogram.
surf.synt.
morpho.
raw text.
FI MUNI, 18. května 2011
12/29
Integrace nástrojů do TectoMT
využití existujících i nově vyvinutých nástrojů, např.editor stromových struktur [Pajas, Štěpánek, 2005]morfologické taggery, např. [Hajič, 2004]závislostní syntaktické analyzátory, např. [McDonald et al., 2005],
[Holan, Žabokrtský, 2006] [Nivre et al.,2007]složkové syntaktické analyzátory, např. [Collins, 1999]
[Charniak, Johnson, 2005] [Klein, Manning,2003]převodník složkových a závislostních stromů, [Žabokrtský, Kučerová, 2002] rozpoznávač koreferenčních vztahů, [Kučová, Žabokrtský, 2005]generátor vět z tektogramatické roviny, [Ptáček, Žabokrtský, 2006]analyzátor gramatémů, [Razímová, Žabokrtský, 2005]zarovnávač paralelních stromů, [Mareček et al., 2008]lematizátory, např. [Popel, 2009]
FI MUNI, 18. května 2011
13/29
Treex goes to CPAN
The Comprehensive Perl Archive Network široce uznávaný standard pro distribuci modulů v Perlu
unikátní archív (i mimo svět Perlu)
jaro 2011 – zahájen převod modulů Treexu do cpaních balíčků
zatím balíček Treex-Core
využití dzil s pluginem TestingManiavýrazné zlepšení kvality kódu díky automatizovaným testům
FI MUNI, 18. května 2011
14/29
Část 2:Překlad s využitím tektogramatické roviny
FI MUNI, 18. května 2011
15/29
Proč je překlad těžký? velikost slovní zásoby složitost gramatiky
tvarosloví, větná skladba…
repertoár výrazových prostředků (funkce vs. forma) typologická variabilita jazyků
It will be delivered to Mr. Green's assistants at the nearest meeting.
nesymetrie repertoárů forem i funkcí
porozumění obsahu synonymie, homonymie
referenční výrazy, pojmenované entity …
metafory, konotace …
konvence pro užívání interpunkce, číslic … žánr, styl, dialekty, jazykový humor …
FI MUNI, 18. května 2011
16/29
Proč je strojový překlad těžký?
člověk při překladu intenzivně využívá znalost světa (sausage of lovers, selective driving, welded wine…)
počítač může sice napodobovat překladatele-člověka využitím slovníků a již přeložených textů, …
… ale nenajde v nich všechno
centrální problém strojového překladu:
obrovský stavový prostor řídká data
FI MUNI, 18. května 2011
17/29
Moderní metody ve strojovém překladu
hledám argmax P(T|S) T – věta v cílovém jazyce
S – věta ve zdrojovém jazyce
po užití Bayesova pravidlaargmax P(T|S) = argmax P(S|T) . P(T)
P(S|T) - překladový model lze získat z pozorování v paralelního korpusu
P(T) - jazykový model lze získat z pozorování v jednojazyčném korpusu
T T
T
FI MUNI, 18. května 2011
18/29
Překladová pyramida
klíčová otázka:
co je optimální úroveň abstrakce?
s rostoucí abstrakcí … roste podobnost jazyků klesá složitost fáze transferu, ale… roste cena za analýzu a syntézu (složitost modelu, kumulace chyb)
hlavní proud v současném strojovém překladu:nízká abstrakce – rozklad věty na krátké posloupnosti slov
zdrojový jazyk cílový jazyk
interlingua
hloub.synt..
povrch.synt..
morfologie.
text
úroveň abstrakce
rozdílnost
?
FI MUNI, 18. května 2011
19/29
Strojový překlad a tektogramatika
motivace pro použití tektogramatiky z hlediska pravděpodobnostních modelů
nabízí lingvisticky adekvátní předpoklady nezávislosti
1. faktorizuje transfer do relativně samostatných kanálů (lexikalizace, syntaktická realizace, morfologický význam)
2. abstrahuje od morfologických strategií použitých v jednotlivých jazycích
3. používá syntaktický stromový kontext (místo lineárního)
hypotéza: tektogramatika by mohla vést ke konstrukci efektivnějšího překladového pravděpodobnostního modelu
FI MUNI, 18. května 2011
20/29
Využití lingvistických dat v TectoMT
zapojení existujících i nově vytvářených
lingvisticky značkovaných dat, mj.
syntakticky značkované korpusy
např. Pražský závislostní korpus, Penn Treebank
morfologicky značkované korpusy
např. Český národní korpus, British National Corpus
slovníky, např. VALLEX [Lopatková, Žabokrtský, 2002]
pravděpodobnostní překladové slovníky,
např. [Cuřín et al.,2004]
paralelní korpusy, např. CzEng [Bojar, Žabokrtský,
2006]
FI MUNI, 18. května 2011
21/29
Paralelní korpus CzEng
vyvíjen na ÚFAL od 2005
cca 8 milionů párů vět
evropská legislativa, filmové titulky, technická dokumentace, elektronické knihy, novinové články…
automatická lingvistická analýza podle schématu PZK (rovněž pomocí TectoMT)
slouží pro trénovaní překladových modelů, příklad:
FI MUNI, 18. května 2011
22/29
Překladový scénář v TectoMTpostupná aplikace cca 140 modulů pro analýzu, transfer a syntézu
She has never laughed in her new boss's office.Nikdy se nesmála v úřadu svého nového šéfa.
FI MUNI, 18. května 2011
23/29
Měření kvality strojového překladu
N
nnpNc
rBLEU
1ln
1exp1exp,1min
lidské hodnocení zachování významu, gramatická správnost …
překvapivě těžké i pro člověka
automatické metriky umožňují plně automatizovat iterace experimentu
měří podobnost referenčnímu překladu
jak velkou část věty přeložil počítač stejně jako člověk
jedna z rozšířených metrik: BLEU (Bilingual Evaluation Understudy)
problematická interpretace napříč systémy a jazyky
FI MUNI, 18. května 2011
24/29
Srovnání TectoMT s konkurencí
s kůží na trh: účast ve
čtyřech ročnících
mezinárodní soutěže
ve strojovém překladu jako soutěžící
jako poskytovatelé dat
jako hodnotitelé
prominentní pozice češtiny mezi několika světovými jazyky
konkurence je opravdu tvrdá, přesto jí nahráváme (CzEng)
2008 2009 20106
7
8
9
10
11
12
13
14
15
16
17moses-bojar
tectomt
pctranslator
moses-uedin
eurotran
FI MUNI, 18. května 2011
25/29
Stromový HMMskryté Markovovy modely (HMM)
hledané řešení jako skrytý stav, který emituje viditelné pozorování
stromová modifikace HMM [Diligenti et al., 2003]
umožňuje zkombinovat překladový model i stromový model cílového jazyka
cut
expense
krájet sekat řezat snížit
výdaj výloha
překladový model
strom
ový m
odel
FI MUNI, 18. května 2011
26/29
Exponenciální překladový model
při odhadu pravděpodobností chceme zapojit i vstupní kontext
samostatný model pro každé slovníkové heslo
využití velkého množství rysů získaných analýzou vstupní věty
efektivní trénování s využitím předpokladu maximální entropie
p y x1
Z xex p
i i f i x , y
cut
snížit 0.3545sekat 0.3345krájet 0.1135… …
expense
FI MUNI, 18. května 2011
27/29
Další využití Treexu (vedle MT) zpracování i jiných jazyků než češtiny a angličtiny, např.
tamilština [Ramasamy, Žabokrtský, 2011]
ruština [Mareček, Kljueva, 2009]
latina (Milano), němčina (Mainz)…
využití v dalších výzkumných projektech na ÚFAL
automatizovaná lingvistická analýza dat pro jiná pracoviště
využití syntaktické analýzy pro predikci prozodie [Romportl, 2010]
využití ve výuce na MFF
diplomové a disertační práce
úkoly v předmětu Zdroje lingvistických dat
FI MUNI, 18. května 2011
28/29
Závěr: Poučení z treexového vývoje
zcela zásadní: společný vývoj v SVN
Perl Best Practices! Moose! Testy! I v Perlu lze realizovat velký projekt.
příklon k dobře definovaným API namísto souborových formátů
paralelizace výpočtu už je samozřejmostí
hlavní motor vývoje: soutěže v překladu
stále otevřená otázka: vyplatí se vůbec v MT používat lingvistiku?
FI MUNI, 18. května 2011
29/29
Děkuji za pozornost!
Ukázky překladu
The EU and India are willing to reach a free trade agreement in 2008.
EU a Indie jsou ochotné dosáhnout dohodu o volném obchodě v roce 2008.
Currently, the bilateral trade Indo-European reaches already nearly 60 milliards euros per year.
Nyní již skoro 60 miliard bilaterálního obchodního indoevropského dosahu eur ročně.
The EU is the major trading partner of India and represents the 18% of its foreign trade.
EU je hlavní obchodní partner Indie a představuje 18 % jeho zahraničního obchodu.