Raunalna lingvistika (uvod) Raunalna lingvistika znanstvena je disciplina koja se bavi raunalnom obradom prirodnog jezika. Ovaj se termin najee koristi u akademskom kontekstu, a usko je povezan s obradom prirodnog jezika i jezinim inenjerstvom.
raunalni tretman jezika lingvistika na prvom mjestu raunalo: prikupljanje primarnih podataka (empirija) prikupljanje sekundarnih podataka i teorija (modeliranje)
a) b)
Strojna obradba jezika (uvod)
razlika izmeu lingvista i informatiara: o lingvisti raunalna lingvistika (computational linguistics) - raunala u jezinom opisu - cilj: to kvalitetniji opis jezinih injenica
informatiari obrada prirodnog jezika (natural language processing, NLP) - raunala u obradi prirodnojezinih podataka
utrokom Metodologija (uvod)
- cilj: to uinkovitije, to bre i sa to manjim raunalnih resursa obraditi (jezine) podatke
raunalna lingvistika grana lingvistike da i ne NE: grana poput fonologije, morfologije
organiziraju se oko definicije predmeta istraivanja (jezine jedinice na odreenim jezinim razinama)
DA: posebna metodologija primjenjiva na jezine jedinice na svim jezinim razinama doputa razliku izmeu raunalne i neraunalne: leksikografije, sintakse
-
Jezine tehnologije (JT) 1 = skup metoda i postupaka (raunalne) obrade prirodnog jezika u svrhu stvaranja sustava koji korisnicima omoguuje olakanu uporabu (prirodnog) jezika u raunalnom okruju
lingvistika jedinstvena meu humanistikim znanostima istraivaki postupci nalik prirodnim znanostima (empirija)
-
uporaba znanstvenih spoznaja u stvaranju proizvoda tehnologija skup metoda i postupaka za preradbu sirovina u proizvode (Hrvatski opi leksikon, LZMK) to je sirovina, a to proizvod u sluaju JT? sirovina: jezik tj. podaci o jeziku
-
proizvodi: sustavi koji korisniku omoguuju jednostavn(ij)u uporabu prirodnog jezika u raunalnome okruju Industrijalizacija jezika
industrijalizacija zamjena ljudskoga rada strojnim industrijalizacija ljudske komunikacije: o s obzirom na proizvodnju teksta pismo tisak pisai stroj raunalo
s obzirom na udaljenost komunikacije signali pota brzojav telefon raunalne mree (internet i njegovi servisi)
-
Razvitak pismenosti - prijelomne toke
klinopis/hijeroglifi glina, papirus // umnoavanje 1 kom. tisak pominim slovima papir // umnoavanje X kom, neindividualno stroj za pisanje papir // umnoavanje X kom, individualno, ogranieno raunalo elektroni // X kom, individualno, neogranieno
- budunost nakladnitva digitalna knjiga
digitalna distribucija proizvodnja just-in-time
distribucija on-demand
Jezine tehnologije 2
definirane u EU Framework Programme 5 prethodnici (u FP3 i FP4): Language industry i Language engineering
najvee pojedinano istraivako podruje u FP5 IST Information Society Technologies
key action IST-a MC&T Multimedia Content and Tools
najvei dio MC&T
HLT Human Language Technologies prirodnojezine tehnologije; ukljuuju i obradu govora (Speech processing) Projekt CLARIN - razliita znaenja pod istraivake infrastrukture
mrea financijera u istraivanjima (ministarstva) mrea istraivakih ustanova mrea arhiva s rezultatima istraivanja inicijative Open Access i Permanent Access
- iza zadnjeg znaenja epistemoloka hipoteza
tekst je vaan za humanistike i drutvene znanosti objekt istraivanja je sam tekst (i jezik tog teksta) objekt istraivanja je posredovan tekstom
-
Poloaj Hrvatske prema IST-u (Information Society Technologies)
Information Society Index (ISI) indeks postignua u smjeru informacijskog drutva (IDC) IT parametri: uporaba PC-a (oko 40% kuanstava ima raunalo) uporaba Interneta (oko 12% populacije koristi Internet)
-
Podjela JT 1
1. jezini resursi = raunalno pribavljene, pohranjene i podrane zbirke jezinih podataka korpusi - Skup jezinih odsjeaka koji su odabrani i skupljeni prema eksplicitnim lingvistikim kriterijama s ciljem da ine jezini uzorak rjenici 1. 2. jezini alati = primjenjuju se na jezine resurse u svrhu dobivanja novih resursa ili drugih alata
morfologija generatori/analizatori
-
oznaivai (POS taggers; svakoj pojavnici u tekstu pridjeljuju podatak o vrsti rijei) POS oznaivai smatraju se najpouzdanijim i najkorisnijim raunalnolingvistikim alatom, a prema nainu rada dijele se na: 1. vjerojatnosne (probabilisic) oznaivae: zasnivaju se na vjerojatnosnom raunu i statistici, 2. oznaivae zasnovane na pravilima (rule-based): zasnivaju se na lingvistikim, runo pisanim pravilima. lematizatori (svakoj pojavnici u tekstu pridjeljuju njezinu lemu tj. njezin polazni, kanonski, natukniki oblik) lematizacija - Svoenje pojavnica iz korpusa na njihove natuknike oblike, tj. svoenje razliitih pojavnica (lanova iste paradigme) na zajedniku lemu.
Morfosint. Oznaivai sintaksa
parseri - Sustav za analizu reenica, za razliku od razdjelnika (chunkers) ulaze dublje u analizu reenicne strukture.
Postoje plitki, duboki i robusni parseri:
1. Plitki: odreuju odnose ovisnosti izmeu dijelova u reenici 2. Duboki: obavljalu punu sintaktiku analizu do razine leksikih unosaka 3. Robusni:ne zastaju kad naiu na neovjerenu kombinaciju reeninih dijelova, pogodni za automatsku analizu prepoznavanje dijelova reenice (imenine fraze) prepoznavanje naziva (named entity recognition)
NERC - Name entity recognition and categorization postupak koji ukljuuje prepoznavanje i kategorizaciju naziva
semantika detektiranje leksikog znaenja (sinonimija/antonimija) detektiranje reeninog znaenja (agens, pacijens)
strojno potpomognuto prevoenje: MAT (machine assisted translation) strojno potpomognuto uenje jezika: CALL computer assisted language learning o provjernici (checkers) 1. komercijalni proizvodi = konani rezultat svake tehnologije
pravopisa gramatike stila rjenici (on-/off-line) o tezaurusi / pojmovnici o leksike baze (opi i specijalzirani rjenici) automatsko indeksiranje i saimanje dokumenata text-to-speech i speech-to-text sustavi strojevi za diktiranje sustavi za strojno (potpomognuto) prevoenje o prijevodne memorije (paralelni korpusi) o ogranieno strojno prevoenje (kontrolirani jezici = normaliziran oblik SL teksta) o grubo strojno prevoenje (tekst zaosnovne informacije) sustavi za strojno (potpomognuto) uenje jezika
Razvitak JT za pojedini jezik
resursi priskrbljuju temeljne jezine podatke za: razvitak drugih jezinih resursa (npr. rjenika na temelju korpusa) razvitak jezinih alata (npr. provjernika pravopisa na temelju rjenika)
razvitak JT planiran potpomognut
-
Primjer uporabe JT - danas: ubrzano stvaranje e-teksta
- klasini tekst vs. e-tekst:
medij: papir vs. elektroni itanje/pohrana teksta: linearno vs. nelinearno (prema potrebi)
- to se nije promijenilo uporaba prirodnog jezika kojim se tekst stvara tj. kojim se kodiraju podaci Primjer uporabe JT morfologija
intuitivno: nominativ jednine predstavlja nam imenice (u hrv. genitiv i akuzativ ei od nominativa) upit osjetljiv na oblike rijei morfoloki osjetljiv upit
semantika
semantiki osjetljiv upit upit osjetljiv na znaenje rijei uporaba semantikih mrea WordNet (1990.), EuroWordNet 1 i 2 (1996., 1999.). BalkaNet (2000.-2003.)
viejezinost
viejezino pretraivanje grubo strojno prevoenje (machine translation MT) jednostavnije fraze, bez preciznog prijevoda cijelog teksta
nazivi
identifikacija i kategorizacija naziva u tekstu (named entity recognition) - NERC uvela DARPA (Defense Advanced Research Projects Agency) kao dio procesa prepoznavanja poruka 7 vrsta naziva (vrste imenovanih entiteta) osoba, organizacija, lokacija, nadnevak, vrijeme, valuta, postotak Izvedba: ljudi (98-99%) najbolji sistemi (94%)
Situacija s e-hrvatskim
na cijelom Webu ne postoji profesionalna, sustavna, institucionalno podrana polazna stranica (homepage) za hrvatski jezik danas: prisutnost nacionalnog jezika na Internetu simbol (kao grb, zastava i himna) prisutnost: ne samo brojem stranica objavljenih na tom jeziku
-
nego i postojanjem on-line dostupnih osnovnih jezinih resursa i alata za taj jezik: reprezentativni (nacionalni) i specijalizirani korpusi opi i specijalizirani rjenici usluge strojnog prevoenja (Google, AltaVista sa Systranom)
Situacija s JT za hrvatski - jezini resursi
korpusi (Zavod za lingvistiku, FFZG) Hrvatski nacionalni korpus (hnk.ffzg.hr) 103 Mw Hrvatsko-engleski paralelni korpus Hrvatsko-slovenski paralelni korpus
rjenici/leksikoni/tezaurusi Hrvatski morfoloki leksikon (hml.ffzg.hr)
EUROVOC Ani Goldstein: Hrvatski enciklopedijski rjenik (hjp.srce.hr)
- jezini alati
obrada morfologije generator (Tadi, 1994.), nema analizatora, oznaivaa/lematizatora obrada sintakse prepoznavanje naziva (Bekavac, 2005.), nema prepoznavanja dijelova reenice, nema parsera semantika obrada nema tezaurusa opeg jezika, nema semantikih mrea (WordNet), nema prepoznavanja leksikog ili reeninog znaenja
- komercijalni proizvodi za hrvatski jezik
pravopisni provjernici Ani (4. izdanje) na CD-u objavljen 2003-10 nema: provjernika gramatike i/ili stila sustava za prirodnojezino pretraivanje teksta (full-text search) hml.ffzg.hr sustava za diktiranje sustava za strojno prevoenje
-
-
sustava za uenje hrvatskog
Portal JTHJ (jthj.ffzg.hr)
trajanje od 2000-11 do 2001-12 obveza odravanja podataka: 3 daljnje godine javni katalog institucija projekata jezinih resursa i alata aktivnosti
-
Jezine tehnologije u prevoenju
raunalo u prevoenju uporaba u dva krajnja oblika potpuno automatizirano strojno prevoenje (MT) raunalna pomagala za ljudsko prevoenje (MAT)
pomagala jezini resursi: korpusi i rjenici jezini alati za:
stvaranje i odravanje glosarija/terminolokih baza pristup udaljenim terminolokim bazama konkordancije prijevodne memorije (Translation memories TM) korpusi jednojezini viejezini
rjenici leksike / terminoloke baze prevoditeljska radna stanica - TWS Translator's Workstation/Workbench kombinira sve mogue resurse i alate u jedinstveno okruje
-
Korpusna lingvistika
bavi se prouavanjem, sastavljanjem i uporabom korpusa korpus metodoloki konstrukt kojim istraiva jezika postulira da istraivanjem pravilnosti i zakonitosti u korpusu, zapravo istrauje pravilnosti i zakonitosti u jeziku kojim je korpus ostvaren korpusi osiguravaju sustavno prikupljanje primarnih jezinih podataka i omoguuju interpretaciju tih podataka
Zbirke tekstova / korpus - pojedinani tekstovi
osnovna graa za mnoga knjievnoteorijska i lingvistika istraivanja
- zbirka tekstova svaki skup tekstova skupljen prema nekim kriterijima - korpus - Skup jezinih odsjeaka koji su odabrani i skupljeni prema eksplicitnim lingvistikim kriterijama s ciljem da ine jezini uzorak
odsjeak dio teksta dovoljno velik da ini korpusni uzorak najee jedna reenica nije korpusni uzorak
- raunalni korpus - Korpus koji je kodiran na dosljedan i standardni nain s ciljem da bude raunalno pretraiv Korpusni parametri
opseg korpusa mjeri se u pojavnicama (rijei: pojavnice =lan iste paradigme (tokens), razlinice (types) i leksiki unosci (lexical entries) ili leme = natukniki oblik (lemmas) ) (enom, ene, enu, enom) 4 pojavnice, 3 razlinice, leme) mali korpusi do milijun rijei, srednji korpusi vie od milijun rijei, veliki korpusi preko 100 milijuna 1 Mw = 1 000 000 pojavinica, 1 Kw = 5 000 pojavnica vrijeme nastanka teksta vrijeme pisanja, prevoenja, objavljivanja teksta
Vrste korpusa
pokrivenost jezinih varijeteta opejezini korpus specijalizirani korpus oportunistiki korpus
medij korpus pisanog jezika
-
korpus govorenog jezika korpus e-jezika (priaonice, mrene novine, email, sms-ovi) broj jezika jednojezini vs. viejezini korpusi
-
sastav korpusa
usporedni korpusi (parallel corpora) tekstovi na 2 ili vie jezika (izvornik + prijevod(i)) usporedivi korpusi (comparable corpora) korpusi sastavljeni prema istim parametrima i principima
izvornost tekstova korpus izvornih tekstova vs. korpusi prijevoda konanost zatvoreni korpus otvoreni korpus odluka o veliini pripada sastavljau monitor korpus (Sinclair) puni se i prazni, uvijek iste veliine
-
Rezultati pretrage korpusa
tri vrste podataka iz korpusa
1. evidencija (popis) 2. frekvencija (popis s brojanjem) 3. relacija (odnos prema drugim jezinim jedinicama)
popis fonema/grafema jednoslovi, dvoslovi, troslovi... popisi rijei abecedni rjenici (unaprijedni ili odostrani) frekvencijski rjenici (estotnici)
konkordancije popisi rijei iz nekog korpusa s ko-tekstnom okolinom u kojoj su se pojavile
-
opseg djelomine (prema nekom ulaznom uvjetu, npr. bab), potpune (puni popis svih rijei nekog korpusa) stoernica (headword) - u kontekstu konkordancija pojavnica koja se pretrauje. Najee se nalazi u sredini konkordancijskoga retka
oblici: KWIC (Keyword in context) - oblik konkordancije gdje se stoernice nalaze unutar unaprijed definirane lijeve i desne okoline KWAL (Keyword and line) - je oblik konkordancije koja doputa nekoliko redaka konteksta s lijeve i desne strane okoline
Korpusi u terminologiji
prikupljanje termina / izgradnja terminolokih baza jednorjene jedinice (Single-word units, SWU) vierjene jedinice (Multi-word units, MWU) kolokacije
metode leksikonski temeljene provjera termina; problem morfologija statistike pronalaenje kandidata za termine
uporaba taznih statistikih mjera supojavljivanja rijei u korpusu
Kad je korpus potreban prevoditelju?
kad vas iznevjeri rjenik ponueni prijevodi ne odgovaraju najpreciznije na eljeno znaenje idiomu, frazi, kolokaciji u izvorniku odreenom ko-tekstu/kontekstu uporabe
prireivanje izvornog teksta za prevoditelje korpusnom metodologijom obiljeavanje termina s unaprijed dogovorenim prijevodnim ekvivalentima
usporedni korpusi sastavljeni od izvornika i prijevodnika prijevodni ekvivalenti eksplicitno obiljeeni sravnjivanje (alignment) postupak obiljeavanja prijevodnih ekvivalenata uspostavljanje prijevodnih jedinica (Translation unit, TU)
-
Korpusi za prevoditelje
paralelni korpusi prijevodne memorije baze ve prevedenih reenica okviri primjene TM-a prevoenje novih inaica postojeih tekstova prevoenje mnogo tekstova s istoga specijaliziranoga podruja
prijevodi tehnikih i znanstvenih tekstova visoka repetitivnost, ogranien leksik, jednostavna sintaksa analiza prijevodnog jezika prouavanje vlastitih/tuih prevoditeljskih rjeenja/strategija uoavanje pogreaka
-
Rjenici i enciklopedije
rjenici i leksikoni opi/specijalizirani, jedno-/viejezini on-/off-line meta-pretraivanje (on-line) istodobno pretraivanje vie rjenika slikovni rjenici, leksikoni
enciklopedije off-line (CD): Britannica, Encarta on-line: Wikipedia, Webopedia
-
-
mogui oblici online upita:
termin + TLekv/DEF/ko-tekst (napomena o uporabi)/stilska odrednica/sinonim/izvor/podruna odrednica
Terminoloke baze
definicija (Sager, 1990.) digitalna zbirka rijei iz zasebnog podruja znanja s ciljem da slui ogranienoj skupini korisnika potrebna kad se istom terminologijom istodobno mora sluiti vie prevoditelja osnovne jedinice terminolokih baza termini (rijei ili nizovi rijei) pojmovi (predstavljeni jednom ili vie rijei)
-
Leksike baze
Trados MultiTerm (muwi.trados.com) www.trados.com komercijalna tvrtka za usluge u MAT MultiTerm standardni zapis leksikih baza u tijelima EU 4 ogledne baze: Kodix, Euterpe, Beumer, UPU
EUROVOC
pojmovnik ili tezaurus rjenik ustrojen prema hijerarhijskim vezama i asocijativnim odnosima unutar nekog tematskog podruja
EURODICAUTOM (europa.eu.int/eurodicautom) terminoloka baza EU pokrenuta 1973. sastavljen kao glosarij za EU prevoditelje oko 5,5 milijuna unosaka
-
MT i HT (Machine translation i Human translation)
cilj istraivanja s podruja MT
proizvesti pomagala i alate za profesionalne i neprofesionalne prevoditelje koja uporabom raunalnih resursa podupiru ljudske vjetine i inteligenciju MT nije suparnik HT pomagala za porast uinkovitosti u tehnici prevoenja
* Prijevodi prema namjeni: 1. diseminacija podataka (tradicionalni prijevod, kakvoa prijevoda za objavljivanje) jedino potencijalno podruje sukoba HT i MT, MT prijevodi se moraju revidirati od strane ljudi
2. asimilacija (nia razina kakvoe u stilu, za upoznavanje s osnovnim sadrajem izvornog dokumenta, to bre je mogue) grub prijevod 3. razmjena podataka (prijevod izmeu sudionika u komunikaciji, trenutna/odloena) kakvoa nije bitna, real-time, on-line 4. pristup podatcima (MT moduli: viejezini pristup pretraivanju inf.: baze podataka, elektronski arhivi, data-mining, sustavi za saimanje tekstova) sastavnica sustava za pristup podatcima
Vrste MT sustava 1. 1. a)
temeljeni na pravilima (rule-based)
izravni (transformacijski): postupak: ralaniti SL reenicu, zamijeniti SL rijei s TL rijeima prema dvojezinom rjeniku, preurediti red rijei da odgovara TL pravila potrebna za to:odabira parova rijei, oblika TL rijei, promjene redoslijeda rijei zahtjevi: detaljna kontrastivna gramatika dva jezika, bitan smjer: SL-TL ogranienja:
-
nema gramatike TL stoga ni jamstva ovjerenosti TL reenica teko proirljivi sustavi (nova pravila, novi jezini parovi) pr. Claudia sat on a stool - Klaudija sjela je na stolac = Klaudija je sjela na stolac
b)
neizravni (s jezinim znanjem) transfer, meujezik (interlingua) postupak (transfer) o analizirati i ralaniti SL reenicu (sintaktika struktura 1) o predstaviti je u nekom apstraktnom obliku (semantika reprezentacija o pronai adekvatan apstraktni oblik (semantiku reprezentaciju 2) TL reenice o na temelju toga proizvesti TL reenicu (sintaktika struktura 2) o prednosti: sustav je dvosmjeran, lako dopunjiv novim pravilima, novim jezicima i kvalitetniji pravila:
-
iscrpne gramatike i SL i TL - do duboke sintaktike i/ili semantike razine (dubinski padei) kontrastivna gramatika ne konkretnih reenica ve njihovih apstraktnih reprezentacija
1. temeljeni na podacima (emprijiski) - Za njih su kljuni empirijski podatci osnovni jezini resurs paralelni korpusi (dvojezini, viejezini) koji moraju biti sravnjeni (aligned) najee na razini reenice, danas ve na razini rijei prijevodni ekvivalenti eksplicitno obiljeeni i povezani a) statistiki - na temelju njih radi npr. Google Translate. primjenjuju statistike metode u pronalaenju TE frekvencije, uzajamna obavijesnost MI), Dice koeficijent, logaritamska oekivanost itd. te se metode primjenjuju na kontingencijske tablice pokazuju koliko se puta u paralelnom korpusu pojavila rije izvornog jezika i koliko se puta od toga pojavila s parom Google Translate b) oprimjerivanje (example-based) - opsene baze u kojima se uvaju prevedene reenice i originali (TM), neka vrsta prijevodnih memorija- podudarnost ne mora nuno biti leksika, moe se izraunati i strukturalno postupak: pronalaenje TL reenice u bazi to slinije SL reenici (strukturalno, ne nuno i leksiki); filtriranje nepoeljnih leksikih jedinica prazna mjesta u TL reenici za kasnije nadopunjavanje
- Koji je sustav za MT u irokoj upotrebi u EU-Institucijama? EC-SYSTRAN - Sintaktiki oznaen korpus - banka stabala (bank tree) - Strojno prevoenje - postupak automatskog prevoenja iz jednog jezika u drugi s pomou raunala.
Povijest MT-a (izravni neizravni empirijski) Prije raunala
racionalisti (Descartes) izlau ideju mehanikog ovjeka/prevoditelja Georges Artsrouni i Petr Troyanski - patent za "prijevodne strojeve" o automatski dvojezini rjenik
o o
shema za kodiranje meujezinih gramatikih uloga (interlingua-esperanto) nacrt analize SL teksta i sinteze TL teksta
Zaetnici (1947-1954)
ideja uporabe "elektronikog raunala" kao pomagala pri prevoenju - jedno od prvih podruja primjene raunala 1949 Weawerov memorandum 1954. - prvi javni demo, IBM + Georgetown University proto-MT - naivan pristup (rije za rije)
Desetljee optimizma (1954-1966)
prvi sustavi - izravni (mainframe raunala) o veliki dvojezini rjenici (ru-en, en-ru) o pravila za ispravljanje poretka rijei u TL reenici razvitak formalnih gramatika jo uvijek nedovoljan (Chomsky TGG, 1957 - gramatika ovisnosti, stratifikacijska gramatika) semantike prepreke nerjeive ALPAC izvjee (1966) - MT je sporo, netonije i 2X skuplje od ljudskog prevoenja
Nakon ALPAC izvjea (1966-1980)
gotovo potpuni prekid istraivanja s podruja MT-a u SAD-u i SSSR-u 1970. SYSTRAN u USAF i EC (1976.), 1976 - METEO iskazuje se potreba za jeftinijim M(A)T sustavima za prevoenje tehnike dokumentacije
Rane 1980e
razvitak mnogih sustava u vie zemalja komercijalizacija (mainframe raunala SYSTRAN, LOGOS) strategija istraivanja MT o neizravni sustavi o ponekad interlingua o ukljuivanje morfoloke/sintaktike/semantike analize o ukljuivanje izvanjezinih baza znanja - rjenik i enciklopedija
Rane 1990e
daljnja komercijalizacija MT sustava s omasovljenjem PC-a pojava empirijskih MT sustava o IBM: Candide - statistiki MT o Japan - example-based MT
poeci istraivanja speech-to-speech MT
Prijelom stoljea pojava TWS
lokalizacija softwarea - jedno od najveih podruja uporabe MT (LISA) uloga Interneta o SL i TL postaju e-tekstovi - transport o pristup terminolokim bazama o online MT sustavi (e-mail, web-stranice) MT sustavi postaju masovni proizvodi
Problemi MT-a
vieznaje o rijei - kosa, luk o reenice (ili vie reenica) - The driver of the bus with the yellow hat. leksiki i strukturno pogreni odabiri o neodabir najboljeg TE o neslaganje rijei prema gramatikim kategorijama (rod, broj, pade) vierjene jedinice (Multiword Units) - idiomi, kolokacije
Primjena MT-a
usko, strogo definirane domene ogranien vokabular i sintaktike konstrukcije Canada - sustav METEO farmaceutika - upute za lijekove EU o 9 institucija EU ima svoje prevoditeljske slube o prijevodi - pravni (46%), operacionalni (26%), politiki (28%) o centralizacija MAT resursa u EU terminoloka baza EURODICAUTOM centralna prijevodna memorija EURAMIS SYSTRAN proces prevoenja mijenja oblik - prvo SYSTRAN zatim revizija prijevoda o 48 sati - apsolutni deadline za svaki prijevod
Prevoditeljska radna stanica (TWS) TWS kombinira na jednom radnom mjestu razne jezine resurse i alate od pomoi pri prevoenju
terminoloke baze (pristup i sastavljanje) analiza SL i TL teksta konkordancije TM
MT moduli, kontrola radnog toka (workflow control)
modularni princip rada - uporaba odgovarajueg modula za pojedini zadatak
korisnici - profesionalni prevoditelji (individualno/grupno)
prevoditelji imaju alat pod punom kontrolu, odluuju o uporabi pojedinog modula i o prihvaanju rezultata odabiru resurse, dopunjuju ih
Translator's Workbench (1989-94)
10 EU sveuilita i tvrtki razvijalo pojedine sastavnice viejezini editor, konvertori dokumenata, pristup TB, MT moduli, etc.
TransLearn
projekt korpunso-temeljenog sustava za grube prijevode
EURAMIS (European Advanced Multilingual Information System) centralna prijevodna memorija
pristup EURODICAUTOM-u terminoloka baza mogunost sastavljanja osobnih/grupnih TB (Trados MultiTerm format) usporedba dokumenata provjera pravopisa, gramatike, stila
4 vodea proizvoaa TWS - TRADOS, STAR AG, IBM, LANT
Jezine tehnologije -to je korpus? zbirka tekstovnih odsjeaka odabranih prema eksplicitnimlingvistikim kriterijima s ciljem da budu jezini uzorak
-to je raunalni korpus? korpus organiziran na sustavan i dosljedan nain s ciljem da buderaunalno pretraiv
-Vrste homografije i po emu se razlikuju? unutarnja i vanjska homografija: unutarnja - unutar iste rijei - pojavnica moe predstavljati razliite oblike (tj. MSD interpretacije) iste lemevanjska: izmeu razliitih vrstar rijei pojavnica moe predstavljati razliite oblike (MSD interpretacije) dvije ili vie lema
-Vrste normalizacije
-Kako se zove korpus s umetnutim sintaktikim interpretacijama? banke stabala - treebanks
-to su lokalne gramatike? gramatike koje opisuju zaokruene sintaktike cjeline koje su esto i zaokruene semantike cjeline; poput prepoznavanja i razvrstavanja naziva; vremenskih izraza (odreivanje toke u vremenu ili vremenskog raspona); prepoznavanje prostornih izraza (toke u prostoru ili prostorne udaljenosti), prepoznavanje mjera...
-to je NERC? Named Entity Recognition and Classification - identifikacija i kategorizacija naziva u tekstu (uvela DARPA kao dio procesa prepoznavanja poruka)
-to je oznaavanje morfosintaktikih kategorija? MSD tagging - pridodavanje specifinih oznaka svakom pojedinom obliku leme u korpusu, tj. svakoj pojavnici, pomou kojih se jasno gramatiki definira odreena pojavnica(uz oznaenu vrstu rijei, dodaje se informacija o broju, rodu, padeu)
-to je oznaavanje vrsta rijei? POS tagging - odreivanje vrste rijei u korpusu ili pojedinanom tekstu - dodjeljivanje specifinih oznaka svakoj pojedinoj pojavnici u korpusu
-Koje su vrste imenovanih entiteta tradicionalno definirane na MUC konferencijama? 7 vrsta naziva: osobe, organizacije, lokacije, nadnevci, vrijeme, valute, postoci
-Kako se iz jednog jezinog resursa moe dobiti drugi? prikupljanjem podataka o tim resursima, poput evidencije. statistike i relacije te obradom tih resursa na nekoj jezinoj razini
-to je Wordnet? baza leksikih podataka koja prua razliite semantike informacije o sinonimima i sinonimskim grozdovima - synskupovima
-Kako se zove vrsta mree kojom se modeliraju odnosi izmeu imenica u Wordnetu? semantika mrea s hijerarhijskom topologijom
-Koji su najraireniji proizvodi jezinih tehnologija? najraireniji su provjernici pravopisa, gramatika i stilova, te pretraivi rjenici-tezaurusi
-Koje su 2 osnovne vrste sustava za strojno prevoenje? 1rule based - prevoenje temeljeno na pravilima i 2empirijski sustavi - sustavi temeljeni na podacima
-Koji sustavi za strojno prevoenje koriste meujezik? neizravni rule based sustavi - neizravni sustavi za prevoenje temeljeni na pravilima
-Koju vrstu strojnog prevoenja koristi Google Translate? statistiko strojno prevoenje
-Koji je strojnoprevoditeljski sustav u intenzivnoj svakodenvnoj uporabi u Europskoj komisiji i ostalim tijelima EU? sustav EC-SYSTRAN
-to je dvorazinska morfologija i tko je njezin tvorac? Kimmo Koskenniemi 1983 - upostavlja opi formalizam za modeliranje morfolokih sustava
-Nabroji jezine alate na morfolokoj razini1oznaivai vrsta rijei. POS taggers; 2morfosintaktiki oznaivai - MSD taggers; 3lematizatori
-Na to se dijele jezine tehnologije? jezini reusrsi, jezini alati, komercijalni proizvodi
to je parser? program koji analizira reeninu strukturu