22
Računalna lingvistika (uvod) Računalna lingvistika znanstvena je disciplina koja se bavi računaln jezika. Ovaj se termin najčešće koristi u akademskom kontekstu, a u prirodnog jezika i jezičnim inženjerstvom. računalni „tretman“ jezika – lingvistika na prvom mjestu računalo: a) prikupljanje primarnih podataka (empirija) b) prikupljanje sekundarnih podataka i teorija (modeliranje) Strojna obradba jezika (uvod) razlika između lingvista i informatičara: o lingvisti računalna lingvistika (computational linguistics) -računala u jezičnom opisu -cilj: što kvalitetniji opis jezičnih činjenica informatičari – obrada prirodnog jezika (natural language processing, NLP) -računala u obradi prirodnojezičnih podataka -cilj: što učinkovitije, što brže i sa što manjim utroškom računalnih resursa obraditi (jezične) po Metodologija (uvod) računalna lingvistika grana lingvistike – da i ne NE: grana poput fonologije, morfologije - organiziraju se oko definicije predmeta istraživanja (jezične je jezičnim razinama) DA: posebna metodologija - primjenjiva na jezične jedinice na svim jezičnim razinama - dopušta razliku između računalne i neračunalne: leksikografije, Jezične tehnologije (JT) 1 = skup metoda i postupaka (računalne) obrade prirodno jezika u svrhu stvaranja sustava koji korisnicima omogućuje olakšanu uporabu (prirodnog) jezika u računalnom okružju lingvistika jedinstvena među humanističkim znanostima - istraživački postupci nalik prirodnim znanostima (empirija)

prevoditelj i računalo-1.kolokvij

Embed Size (px)

Citation preview

Raunalna lingvistika (uvod) Raunalna lingvistika znanstvena je disciplina koja se bavi raunalnom obradom prirodnog jezika. Ovaj se termin najee koristi u akademskom kontekstu, a usko je povezan s obradom prirodnog jezika i jezinim inenjerstvom.

raunalni tretman jezika lingvistika na prvom mjestu raunalo: prikupljanje primarnih podataka (empirija) prikupljanje sekundarnih podataka i teorija (modeliranje)

a) b)

Strojna obradba jezika (uvod)

razlika izmeu lingvista i informatiara: o lingvisti raunalna lingvistika (computational linguistics) - raunala u jezinom opisu - cilj: to kvalitetniji opis jezinih injenica

informatiari obrada prirodnog jezika (natural language processing, NLP) - raunala u obradi prirodnojezinih podataka

utrokom Metodologija (uvod)

- cilj: to uinkovitije, to bre i sa to manjim raunalnih resursa obraditi (jezine) podatke

raunalna lingvistika grana lingvistike da i ne NE: grana poput fonologije, morfologije

organiziraju se oko definicije predmeta istraivanja (jezine jedinice na odreenim jezinim razinama)

DA: posebna metodologija primjenjiva na jezine jedinice na svim jezinim razinama doputa razliku izmeu raunalne i neraunalne: leksikografije, sintakse

-

Jezine tehnologije (JT) 1 = skup metoda i postupaka (raunalne) obrade prirodnog jezika u svrhu stvaranja sustava koji korisnicima omoguuje olakanu uporabu (prirodnog) jezika u raunalnom okruju

lingvistika jedinstvena meu humanistikim znanostima istraivaki postupci nalik prirodnim znanostima (empirija)

-

uporaba znanstvenih spoznaja u stvaranju proizvoda tehnologija skup metoda i postupaka za preradbu sirovina u proizvode (Hrvatski opi leksikon, LZMK) to je sirovina, a to proizvod u sluaju JT? sirovina: jezik tj. podaci o jeziku

-

proizvodi: sustavi koji korisniku omoguuju jednostavn(ij)u uporabu prirodnog jezika u raunalnome okruju Industrijalizacija jezika

industrijalizacija zamjena ljudskoga rada strojnim industrijalizacija ljudske komunikacije: o s obzirom na proizvodnju teksta pismo tisak pisai stroj raunalo

s obzirom na udaljenost komunikacije signali pota brzojav telefon raunalne mree (internet i njegovi servisi)

-

Razvitak pismenosti - prijelomne toke

klinopis/hijeroglifi glina, papirus // umnoavanje 1 kom. tisak pominim slovima papir // umnoavanje X kom, neindividualno stroj za pisanje papir // umnoavanje X kom, individualno, ogranieno raunalo elektroni // X kom, individualno, neogranieno

- budunost nakladnitva digitalna knjiga

digitalna distribucija proizvodnja just-in-time

distribucija on-demand

Jezine tehnologije 2

definirane u EU Framework Programme 5 prethodnici (u FP3 i FP4): Language industry i Language engineering

najvee pojedinano istraivako podruje u FP5 IST Information Society Technologies

key action IST-a MC&T Multimedia Content and Tools

najvei dio MC&T

HLT Human Language Technologies prirodnojezine tehnologije; ukljuuju i obradu govora (Speech processing) Projekt CLARIN - razliita znaenja pod istraivake infrastrukture

mrea financijera u istraivanjima (ministarstva) mrea istraivakih ustanova mrea arhiva s rezultatima istraivanja inicijative Open Access i Permanent Access

- iza zadnjeg znaenja epistemoloka hipoteza

tekst je vaan za humanistike i drutvene znanosti objekt istraivanja je sam tekst (i jezik tog teksta) objekt istraivanja je posredovan tekstom

-

Poloaj Hrvatske prema IST-u (Information Society Technologies)

Information Society Index (ISI) indeks postignua u smjeru informacijskog drutva (IDC) IT parametri: uporaba PC-a (oko 40% kuanstava ima raunalo) uporaba Interneta (oko 12% populacije koristi Internet)

-

Podjela JT 1

1. jezini resursi = raunalno pribavljene, pohranjene i podrane zbirke jezinih podataka korpusi - Skup jezinih odsjeaka koji su odabrani i skupljeni prema eksplicitnim lingvistikim kriterijama s ciljem da ine jezini uzorak rjenici 1. 2. jezini alati = primjenjuju se na jezine resurse u svrhu dobivanja novih resursa ili drugih alata

morfologija generatori/analizatori

-

oznaivai (POS taggers; svakoj pojavnici u tekstu pridjeljuju podatak o vrsti rijei) POS oznaivai smatraju se najpouzdanijim i najkorisnijim raunalnolingvistikim alatom, a prema nainu rada dijele se na: 1. vjerojatnosne (probabilisic) oznaivae: zasnivaju se na vjerojatnosnom raunu i statistici, 2. oznaivae zasnovane na pravilima (rule-based): zasnivaju se na lingvistikim, runo pisanim pravilima. lematizatori (svakoj pojavnici u tekstu pridjeljuju njezinu lemu tj. njezin polazni, kanonski, natukniki oblik) lematizacija - Svoenje pojavnica iz korpusa na njihove natuknike oblike, tj. svoenje razliitih pojavnica (lanova iste paradigme) na zajedniku lemu.

Morfosint. Oznaivai sintaksa

parseri - Sustav za analizu reenica, za razliku od razdjelnika (chunkers) ulaze dublje u analizu reenicne strukture.

Postoje plitki, duboki i robusni parseri:

1. Plitki: odreuju odnose ovisnosti izmeu dijelova u reenici 2. Duboki: obavljalu punu sintaktiku analizu do razine leksikih unosaka 3. Robusni:ne zastaju kad naiu na neovjerenu kombinaciju reeninih dijelova, pogodni za automatsku analizu prepoznavanje dijelova reenice (imenine fraze) prepoznavanje naziva (named entity recognition)

NERC - Name entity recognition and categorization postupak koji ukljuuje prepoznavanje i kategorizaciju naziva

semantika detektiranje leksikog znaenja (sinonimija/antonimija) detektiranje reeninog znaenja (agens, pacijens)

strojno potpomognuto prevoenje: MAT (machine assisted translation) strojno potpomognuto uenje jezika: CALL computer assisted language learning o provjernici (checkers) 1. komercijalni proizvodi = konani rezultat svake tehnologije

pravopisa gramatike stila rjenici (on-/off-line) o tezaurusi / pojmovnici o leksike baze (opi i specijalzirani rjenici) automatsko indeksiranje i saimanje dokumenata text-to-speech i speech-to-text sustavi strojevi za diktiranje sustavi za strojno (potpomognuto) prevoenje o prijevodne memorije (paralelni korpusi) o ogranieno strojno prevoenje (kontrolirani jezici = normaliziran oblik SL teksta) o grubo strojno prevoenje (tekst zaosnovne informacije) sustavi za strojno (potpomognuto) uenje jezika

Razvitak JT za pojedini jezik

resursi priskrbljuju temeljne jezine podatke za: razvitak drugih jezinih resursa (npr. rjenika na temelju korpusa) razvitak jezinih alata (npr. provjernika pravopisa na temelju rjenika)

razvitak JT planiran potpomognut

-

Primjer uporabe JT - danas: ubrzano stvaranje e-teksta

- klasini tekst vs. e-tekst:

medij: papir vs. elektroni itanje/pohrana teksta: linearno vs. nelinearno (prema potrebi)

- to se nije promijenilo uporaba prirodnog jezika kojim se tekst stvara tj. kojim se kodiraju podaci Primjer uporabe JT morfologija

intuitivno: nominativ jednine predstavlja nam imenice (u hrv. genitiv i akuzativ ei od nominativa) upit osjetljiv na oblike rijei morfoloki osjetljiv upit

semantika

semantiki osjetljiv upit upit osjetljiv na znaenje rijei uporaba semantikih mrea WordNet (1990.), EuroWordNet 1 i 2 (1996., 1999.). BalkaNet (2000.-2003.)

viejezinost

viejezino pretraivanje grubo strojno prevoenje (machine translation MT) jednostavnije fraze, bez preciznog prijevoda cijelog teksta

nazivi

identifikacija i kategorizacija naziva u tekstu (named entity recognition) - NERC uvela DARPA (Defense Advanced Research Projects Agency) kao dio procesa prepoznavanja poruka 7 vrsta naziva (vrste imenovanih entiteta) osoba, organizacija, lokacija, nadnevak, vrijeme, valuta, postotak Izvedba: ljudi (98-99%) najbolji sistemi (94%)

Situacija s e-hrvatskim

na cijelom Webu ne postoji profesionalna, sustavna, institucionalno podrana polazna stranica (homepage) za hrvatski jezik danas: prisutnost nacionalnog jezika na Internetu simbol (kao grb, zastava i himna) prisutnost: ne samo brojem stranica objavljenih na tom jeziku

-

nego i postojanjem on-line dostupnih osnovnih jezinih resursa i alata za taj jezik: reprezentativni (nacionalni) i specijalizirani korpusi opi i specijalizirani rjenici usluge strojnog prevoenja (Google, AltaVista sa Systranom)

Situacija s JT za hrvatski - jezini resursi

korpusi (Zavod za lingvistiku, FFZG) Hrvatski nacionalni korpus (hnk.ffzg.hr) 103 Mw Hrvatsko-engleski paralelni korpus Hrvatsko-slovenski paralelni korpus

rjenici/leksikoni/tezaurusi Hrvatski morfoloki leksikon (hml.ffzg.hr)

EUROVOC Ani Goldstein: Hrvatski enciklopedijski rjenik (hjp.srce.hr)

- jezini alati

obrada morfologije generator (Tadi, 1994.), nema analizatora, oznaivaa/lematizatora obrada sintakse prepoznavanje naziva (Bekavac, 2005.), nema prepoznavanja dijelova reenice, nema parsera semantika obrada nema tezaurusa opeg jezika, nema semantikih mrea (WordNet), nema prepoznavanja leksikog ili reeninog znaenja

- komercijalni proizvodi za hrvatski jezik

pravopisni provjernici Ani (4. izdanje) na CD-u objavljen 2003-10 nema: provjernika gramatike i/ili stila sustava za prirodnojezino pretraivanje teksta (full-text search) hml.ffzg.hr sustava za diktiranje sustava za strojno prevoenje

-

-

sustava za uenje hrvatskog

Portal JTHJ (jthj.ffzg.hr)

trajanje od 2000-11 do 2001-12 obveza odravanja podataka: 3 daljnje godine javni katalog institucija projekata jezinih resursa i alata aktivnosti

-

Jezine tehnologije u prevoenju

raunalo u prevoenju uporaba u dva krajnja oblika potpuno automatizirano strojno prevoenje (MT) raunalna pomagala za ljudsko prevoenje (MAT)

pomagala jezini resursi: korpusi i rjenici jezini alati za:

stvaranje i odravanje glosarija/terminolokih baza pristup udaljenim terminolokim bazama konkordancije prijevodne memorije (Translation memories TM) korpusi jednojezini viejezini

rjenici leksike / terminoloke baze prevoditeljska radna stanica - TWS Translator's Workstation/Workbench kombinira sve mogue resurse i alate u jedinstveno okruje

-

Korpusna lingvistika

bavi se prouavanjem, sastavljanjem i uporabom korpusa korpus metodoloki konstrukt kojim istraiva jezika postulira da istraivanjem pravilnosti i zakonitosti u korpusu, zapravo istrauje pravilnosti i zakonitosti u jeziku kojim je korpus ostvaren korpusi osiguravaju sustavno prikupljanje primarnih jezinih podataka i omoguuju interpretaciju tih podataka

Zbirke tekstova / korpus - pojedinani tekstovi

osnovna graa za mnoga knjievnoteorijska i lingvistika istraivanja

- zbirka tekstova svaki skup tekstova skupljen prema nekim kriterijima - korpus - Skup jezinih odsjeaka koji su odabrani i skupljeni prema eksplicitnim lingvistikim kriterijama s ciljem da ine jezini uzorak

odsjeak dio teksta dovoljno velik da ini korpusni uzorak najee jedna reenica nije korpusni uzorak

- raunalni korpus - Korpus koji je kodiran na dosljedan i standardni nain s ciljem da bude raunalno pretraiv Korpusni parametri

opseg korpusa mjeri se u pojavnicama (rijei: pojavnice =lan iste paradigme (tokens), razlinice (types) i leksiki unosci (lexical entries) ili leme = natukniki oblik (lemmas) ) (enom, ene, enu, enom) 4 pojavnice, 3 razlinice, leme) mali korpusi do milijun rijei, srednji korpusi vie od milijun rijei, veliki korpusi preko 100 milijuna 1 Mw = 1 000 000 pojavinica, 1 Kw = 5 000 pojavnica vrijeme nastanka teksta vrijeme pisanja, prevoenja, objavljivanja teksta

Vrste korpusa

pokrivenost jezinih varijeteta opejezini korpus specijalizirani korpus oportunistiki korpus

medij korpus pisanog jezika

-

korpus govorenog jezika korpus e-jezika (priaonice, mrene novine, email, sms-ovi) broj jezika jednojezini vs. viejezini korpusi

-

sastav korpusa

usporedni korpusi (parallel corpora) tekstovi na 2 ili vie jezika (izvornik + prijevod(i)) usporedivi korpusi (comparable corpora) korpusi sastavljeni prema istim parametrima i principima

izvornost tekstova korpus izvornih tekstova vs. korpusi prijevoda konanost zatvoreni korpus otvoreni korpus odluka o veliini pripada sastavljau monitor korpus (Sinclair) puni se i prazni, uvijek iste veliine

-

Rezultati pretrage korpusa

tri vrste podataka iz korpusa

1. evidencija (popis) 2. frekvencija (popis s brojanjem) 3. relacija (odnos prema drugim jezinim jedinicama)

popis fonema/grafema jednoslovi, dvoslovi, troslovi... popisi rijei abecedni rjenici (unaprijedni ili odostrani) frekvencijski rjenici (estotnici)

konkordancije popisi rijei iz nekog korpusa s ko-tekstnom okolinom u kojoj su se pojavile

-

opseg djelomine (prema nekom ulaznom uvjetu, npr. bab), potpune (puni popis svih rijei nekog korpusa) stoernica (headword) - u kontekstu konkordancija pojavnica koja se pretrauje. Najee se nalazi u sredini konkordancijskoga retka

oblici: KWIC (Keyword in context) - oblik konkordancije gdje se stoernice nalaze unutar unaprijed definirane lijeve i desne okoline KWAL (Keyword and line) - je oblik konkordancije koja doputa nekoliko redaka konteksta s lijeve i desne strane okoline

Korpusi u terminologiji

prikupljanje termina / izgradnja terminolokih baza jednorjene jedinice (Single-word units, SWU) vierjene jedinice (Multi-word units, MWU) kolokacije

metode leksikonski temeljene provjera termina; problem morfologija statistike pronalaenje kandidata za termine

uporaba taznih statistikih mjera supojavljivanja rijei u korpusu

Kad je korpus potreban prevoditelju?

kad vas iznevjeri rjenik ponueni prijevodi ne odgovaraju najpreciznije na eljeno znaenje idiomu, frazi, kolokaciji u izvorniku odreenom ko-tekstu/kontekstu uporabe

prireivanje izvornog teksta za prevoditelje korpusnom metodologijom obiljeavanje termina s unaprijed dogovorenim prijevodnim ekvivalentima

usporedni korpusi sastavljeni od izvornika i prijevodnika prijevodni ekvivalenti eksplicitno obiljeeni sravnjivanje (alignment) postupak obiljeavanja prijevodnih ekvivalenata uspostavljanje prijevodnih jedinica (Translation unit, TU)

-

Korpusi za prevoditelje

paralelni korpusi prijevodne memorije baze ve prevedenih reenica okviri primjene TM-a prevoenje novih inaica postojeih tekstova prevoenje mnogo tekstova s istoga specijaliziranoga podruja

prijevodi tehnikih i znanstvenih tekstova visoka repetitivnost, ogranien leksik, jednostavna sintaksa analiza prijevodnog jezika prouavanje vlastitih/tuih prevoditeljskih rjeenja/strategija uoavanje pogreaka

-

Rjenici i enciklopedije

rjenici i leksikoni opi/specijalizirani, jedno-/viejezini on-/off-line meta-pretraivanje (on-line) istodobno pretraivanje vie rjenika slikovni rjenici, leksikoni

enciklopedije off-line (CD): Britannica, Encarta on-line: Wikipedia, Webopedia

-

-

mogui oblici online upita:

termin + TLekv/DEF/ko-tekst (napomena o uporabi)/stilska odrednica/sinonim/izvor/podruna odrednica

Terminoloke baze

definicija (Sager, 1990.) digitalna zbirka rijei iz zasebnog podruja znanja s ciljem da slui ogranienoj skupini korisnika potrebna kad se istom terminologijom istodobno mora sluiti vie prevoditelja osnovne jedinice terminolokih baza termini (rijei ili nizovi rijei) pojmovi (predstavljeni jednom ili vie rijei)

-

Leksike baze

Trados MultiTerm (muwi.trados.com) www.trados.com komercijalna tvrtka za usluge u MAT MultiTerm standardni zapis leksikih baza u tijelima EU 4 ogledne baze: Kodix, Euterpe, Beumer, UPU

EUROVOC

pojmovnik ili tezaurus rjenik ustrojen prema hijerarhijskim vezama i asocijativnim odnosima unutar nekog tematskog podruja

EURODICAUTOM (europa.eu.int/eurodicautom) terminoloka baza EU pokrenuta 1973. sastavljen kao glosarij za EU prevoditelje oko 5,5 milijuna unosaka

-

MT i HT (Machine translation i Human translation)

cilj istraivanja s podruja MT

proizvesti pomagala i alate za profesionalne i neprofesionalne prevoditelje koja uporabom raunalnih resursa podupiru ljudske vjetine i inteligenciju MT nije suparnik HT pomagala za porast uinkovitosti u tehnici prevoenja

* Prijevodi prema namjeni: 1. diseminacija podataka (tradicionalni prijevod, kakvoa prijevoda za objavljivanje) jedino potencijalno podruje sukoba HT i MT, MT prijevodi se moraju revidirati od strane ljudi

2. asimilacija (nia razina kakvoe u stilu, za upoznavanje s osnovnim sadrajem izvornog dokumenta, to bre je mogue) grub prijevod 3. razmjena podataka (prijevod izmeu sudionika u komunikaciji, trenutna/odloena) kakvoa nije bitna, real-time, on-line 4. pristup podatcima (MT moduli: viejezini pristup pretraivanju inf.: baze podataka, elektronski arhivi, data-mining, sustavi za saimanje tekstova) sastavnica sustava za pristup podatcima

Vrste MT sustava 1. 1. a)

temeljeni na pravilima (rule-based)

izravni (transformacijski): postupak: ralaniti SL reenicu, zamijeniti SL rijei s TL rijeima prema dvojezinom rjeniku, preurediti red rijei da odgovara TL pravila potrebna za to:odabira parova rijei, oblika TL rijei, promjene redoslijeda rijei zahtjevi: detaljna kontrastivna gramatika dva jezika, bitan smjer: SL-TL ogranienja:

-

nema gramatike TL stoga ni jamstva ovjerenosti TL reenica teko proirljivi sustavi (nova pravila, novi jezini parovi) pr. Claudia sat on a stool - Klaudija sjela je na stolac = Klaudija je sjela na stolac

b)

neizravni (s jezinim znanjem) transfer, meujezik (interlingua) postupak (transfer) o analizirati i ralaniti SL reenicu (sintaktika struktura 1) o predstaviti je u nekom apstraktnom obliku (semantika reprezentacija o pronai adekvatan apstraktni oblik (semantiku reprezentaciju 2) TL reenice o na temelju toga proizvesti TL reenicu (sintaktika struktura 2) o prednosti: sustav je dvosmjeran, lako dopunjiv novim pravilima, novim jezicima i kvalitetniji pravila:

-

iscrpne gramatike i SL i TL - do duboke sintaktike i/ili semantike razine (dubinski padei) kontrastivna gramatika ne konkretnih reenica ve njihovih apstraktnih reprezentacija

1. temeljeni na podacima (emprijiski) - Za njih su kljuni empirijski podatci osnovni jezini resurs paralelni korpusi (dvojezini, viejezini) koji moraju biti sravnjeni (aligned) najee na razini reenice, danas ve na razini rijei prijevodni ekvivalenti eksplicitno obiljeeni i povezani a) statistiki - na temelju njih radi npr. Google Translate. primjenjuju statistike metode u pronalaenju TE frekvencije, uzajamna obavijesnost MI), Dice koeficijent, logaritamska oekivanost itd. te se metode primjenjuju na kontingencijske tablice pokazuju koliko se puta u paralelnom korpusu pojavila rije izvornog jezika i koliko se puta od toga pojavila s parom Google Translate b) oprimjerivanje (example-based) - opsene baze u kojima se uvaju prevedene reenice i originali (TM), neka vrsta prijevodnih memorija- podudarnost ne mora nuno biti leksika, moe se izraunati i strukturalno postupak: pronalaenje TL reenice u bazi to slinije SL reenici (strukturalno, ne nuno i leksiki); filtriranje nepoeljnih leksikih jedinica prazna mjesta u TL reenici za kasnije nadopunjavanje

- Koji je sustav za MT u irokoj upotrebi u EU-Institucijama? EC-SYSTRAN - Sintaktiki oznaen korpus - banka stabala (bank tree) - Strojno prevoenje - postupak automatskog prevoenja iz jednog jezika u drugi s pomou raunala.

Povijest MT-a (izravni neizravni empirijski) Prije raunala

racionalisti (Descartes) izlau ideju mehanikog ovjeka/prevoditelja Georges Artsrouni i Petr Troyanski - patent za "prijevodne strojeve" o automatski dvojezini rjenik

o o

shema za kodiranje meujezinih gramatikih uloga (interlingua-esperanto) nacrt analize SL teksta i sinteze TL teksta

Zaetnici (1947-1954)

ideja uporabe "elektronikog raunala" kao pomagala pri prevoenju - jedno od prvih podruja primjene raunala 1949 Weawerov memorandum 1954. - prvi javni demo, IBM + Georgetown University proto-MT - naivan pristup (rije za rije)

Desetljee optimizma (1954-1966)

prvi sustavi - izravni (mainframe raunala) o veliki dvojezini rjenici (ru-en, en-ru) o pravila za ispravljanje poretka rijei u TL reenici razvitak formalnih gramatika jo uvijek nedovoljan (Chomsky TGG, 1957 - gramatika ovisnosti, stratifikacijska gramatika) semantike prepreke nerjeive ALPAC izvjee (1966) - MT je sporo, netonije i 2X skuplje od ljudskog prevoenja

Nakon ALPAC izvjea (1966-1980)

gotovo potpuni prekid istraivanja s podruja MT-a u SAD-u i SSSR-u 1970. SYSTRAN u USAF i EC (1976.), 1976 - METEO iskazuje se potreba za jeftinijim M(A)T sustavima za prevoenje tehnike dokumentacije

Rane 1980e

razvitak mnogih sustava u vie zemalja komercijalizacija (mainframe raunala SYSTRAN, LOGOS) strategija istraivanja MT o neizravni sustavi o ponekad interlingua o ukljuivanje morfoloke/sintaktike/semantike analize o ukljuivanje izvanjezinih baza znanja - rjenik i enciklopedija

Rane 1990e

daljnja komercijalizacija MT sustava s omasovljenjem PC-a pojava empirijskih MT sustava o IBM: Candide - statistiki MT o Japan - example-based MT

poeci istraivanja speech-to-speech MT

Prijelom stoljea pojava TWS

lokalizacija softwarea - jedno od najveih podruja uporabe MT (LISA) uloga Interneta o SL i TL postaju e-tekstovi - transport o pristup terminolokim bazama o online MT sustavi (e-mail, web-stranice) MT sustavi postaju masovni proizvodi

Problemi MT-a

vieznaje o rijei - kosa, luk o reenice (ili vie reenica) - The driver of the bus with the yellow hat. leksiki i strukturno pogreni odabiri o neodabir najboljeg TE o neslaganje rijei prema gramatikim kategorijama (rod, broj, pade) vierjene jedinice (Multiword Units) - idiomi, kolokacije

Primjena MT-a

usko, strogo definirane domene ogranien vokabular i sintaktike konstrukcije Canada - sustav METEO farmaceutika - upute za lijekove EU o 9 institucija EU ima svoje prevoditeljske slube o prijevodi - pravni (46%), operacionalni (26%), politiki (28%) o centralizacija MAT resursa u EU terminoloka baza EURODICAUTOM centralna prijevodna memorija EURAMIS SYSTRAN proces prevoenja mijenja oblik - prvo SYSTRAN zatim revizija prijevoda o 48 sati - apsolutni deadline za svaki prijevod

Prevoditeljska radna stanica (TWS) TWS kombinira na jednom radnom mjestu razne jezine resurse i alate od pomoi pri prevoenju

terminoloke baze (pristup i sastavljanje) analiza SL i TL teksta konkordancije TM

MT moduli, kontrola radnog toka (workflow control)

modularni princip rada - uporaba odgovarajueg modula za pojedini zadatak

korisnici - profesionalni prevoditelji (individualno/grupno)

prevoditelji imaju alat pod punom kontrolu, odluuju o uporabi pojedinog modula i o prihvaanju rezultata odabiru resurse, dopunjuju ih

Translator's Workbench (1989-94)

10 EU sveuilita i tvrtki razvijalo pojedine sastavnice viejezini editor, konvertori dokumenata, pristup TB, MT moduli, etc.

TransLearn

projekt korpunso-temeljenog sustava za grube prijevode

EURAMIS (European Advanced Multilingual Information System) centralna prijevodna memorija

pristup EURODICAUTOM-u terminoloka baza mogunost sastavljanja osobnih/grupnih TB (Trados MultiTerm format) usporedba dokumenata provjera pravopisa, gramatike, stila

4 vodea proizvoaa TWS - TRADOS, STAR AG, IBM, LANT

Jezine tehnologije -to je korpus? zbirka tekstovnih odsjeaka odabranih prema eksplicitnimlingvistikim kriterijima s ciljem da budu jezini uzorak

-to je raunalni korpus? korpus organiziran na sustavan i dosljedan nain s ciljem da buderaunalno pretraiv

-Vrste homografije i po emu se razlikuju? unutarnja i vanjska homografija: unutarnja - unutar iste rijei - pojavnica moe predstavljati razliite oblike (tj. MSD interpretacije) iste lemevanjska: izmeu razliitih vrstar rijei pojavnica moe predstavljati razliite oblike (MSD interpretacije) dvije ili vie lema

-Vrste normalizacije

-Kako se zove korpus s umetnutim sintaktikim interpretacijama? banke stabala - treebanks

-to su lokalne gramatike? gramatike koje opisuju zaokruene sintaktike cjeline koje su esto i zaokruene semantike cjeline; poput prepoznavanja i razvrstavanja naziva; vremenskih izraza (odreivanje toke u vremenu ili vremenskog raspona); prepoznavanje prostornih izraza (toke u prostoru ili prostorne udaljenosti), prepoznavanje mjera...

-to je NERC? Named Entity Recognition and Classification - identifikacija i kategorizacija naziva u tekstu (uvela DARPA kao dio procesa prepoznavanja poruka)

-to je oznaavanje morfosintaktikih kategorija? MSD tagging - pridodavanje specifinih oznaka svakom pojedinom obliku leme u korpusu, tj. svakoj pojavnici, pomou kojih se jasno gramatiki definira odreena pojavnica(uz oznaenu vrstu rijei, dodaje se informacija o broju, rodu, padeu)

-to je oznaavanje vrsta rijei? POS tagging - odreivanje vrste rijei u korpusu ili pojedinanom tekstu - dodjeljivanje specifinih oznaka svakoj pojedinoj pojavnici u korpusu

-Koje su vrste imenovanih entiteta tradicionalno definirane na MUC konferencijama? 7 vrsta naziva: osobe, organizacije, lokacije, nadnevci, vrijeme, valute, postoci

-Kako se iz jednog jezinog resursa moe dobiti drugi? prikupljanjem podataka o tim resursima, poput evidencije. statistike i relacije te obradom tih resursa na nekoj jezinoj razini

-to je Wordnet? baza leksikih podataka koja prua razliite semantike informacije o sinonimima i sinonimskim grozdovima - synskupovima

-Kako se zove vrsta mree kojom se modeliraju odnosi izmeu imenica u Wordnetu? semantika mrea s hijerarhijskom topologijom

-Koji su najraireniji proizvodi jezinih tehnologija? najraireniji su provjernici pravopisa, gramatika i stilova, te pretraivi rjenici-tezaurusi

-Koje su 2 osnovne vrste sustava za strojno prevoenje? 1rule based - prevoenje temeljeno na pravilima i 2empirijski sustavi - sustavi temeljeni na podacima

-Koji sustavi za strojno prevoenje koriste meujezik? neizravni rule based sustavi - neizravni sustavi za prevoenje temeljeni na pravilima

-Koju vrstu strojnog prevoenja koristi Google Translate? statistiko strojno prevoenje

-Koji je strojnoprevoditeljski sustav u intenzivnoj svakodenvnoj uporabi u Europskoj komisiji i ostalim tijelima EU? sustav EC-SYSTRAN

-to je dvorazinska morfologija i tko je njezin tvorac? Kimmo Koskenniemi 1983 - upostavlja opi formalizam za modeliranje morfolokih sustava

-Nabroji jezine alate na morfolokoj razini1oznaivai vrsta rijei. POS taggers; 2morfosintaktiki oznaivai - MSD taggers; 3lematizatori

-Na to se dijele jezine tehnologije? jezini reusrsi, jezini alati, komercijalni proizvodi

to je parser? program koji analizira reeninu strukturu