Upload
ivi
View
84
Download
6
Embed Size (px)
DESCRIPTION
FORMALNE GRAMATIKE. Regularne gramatike ( Regular Grammars ) Božo Bekavac. Konačni automat (KA). Pokušajmo objasniti princip rada konačnog automata na primjeru automata za kavu. Karakteristike automata za kavu su: cijena kave je 2,5 kuna - PowerPoint PPT Presentation
Citation preview
Računalna metodologija za jezično istraživanje
Razine formalnog opisa i obrada
jezika
Obrada jezika – termini Označavanje (tagging, mark-up) je
pridodavanje eksplicitnih informacija tekstu za računalnu obradu tamo gdje su one implicitno prisutne osobi koja čita tekst
Oznake (tags) – umeću se u tekst Pri obilježavanju korpusa oznake se
umeću iz određenoga skupa oznaka Skup oznaka (tagset) je popis svih
mogućih oznaka kojima se može obilježavati tekst
Razine obrade prirodnoga jezika (bez semantike)
Razine obrade prirodnoga jezika (bez semantike)1. tokenizacija (opojavničenje)2. segmentacija na rečenice3. lematizacija4. POS i MSD označavanje5. plitko (shallow) parsanje6. dubinsko (deep) parsanje POGRŠKE SE ČESTO ZBRAJAJU!
Opojavničenje Postupak identifikacije i ekspliciranja
pojavnica, tj. lingvističkih jedinica kao što su “riječi”, interpunkcija, znamenke i sl.
Iako izgleda trivijalan problem, promotrimo slučajeve: 11. travnja 2008., Austro-Ugarska, daljinski upravljač, npr., SAD-a, we’ll, isn’t, Lebensversicherungsgesellschaftsangestellter, itd.
O koliko je pojavnica riječ?
Segmentacija na rečenice Ekspliciranje granica između rečenica Znakovi interpunkcije (., ?, !) uvijek kraj
rečenice? Heuristički gledano, oko 90% točaka
jesu krajevi rečenica! PROBLEMI: titule, kratice, inicijali i sl.
Prof. Ivić, npr. Austrija, Antun B. Šimić, J. K. itd.
Moguće riješiti ekskluzivnim pravilima (regularnim), preciznost > 99 %
Lematizacija Lematizacija (lemmatisation) je
svođenje pojavnica iz korpusa na njihove natukničke oblike, tj. svođenje različitih pojavnica (članova iste paradigme) na zajedničku lemu
Lema je onaj oblik pod kojim bismo tražili neku riječ u rječniku
Lema predstavlja sve oblike određene riječi
Lematizacija Na primjer, pojavnice walked, walks ili
walking bile bi svedene na lemu (to) walk Na primjer, pojavnice stol, stolova ili
stolu bile bi svedene na lemu stol Lematizacija se na isti način primjenjuje
na morfološki supletivne oblike, npr. jesam, bijah ili bila svode se na leksem biti
Nije isto što i stemming: pojavnicu stemmer→stemm, ali better→tek lematizator ispravno svodi na good
Označavanje vrsta riječi (Part-of-speech (POS) tagging) Označavanje vrsta riječi (POS
tagging) je postupak pridruživanja gramatičkih kategorija svakoj pojavnici u tekstu
Spada u osnovne vrsta lingvističkog označavanja i služi kao osnova za više razine analize teksta kao što je npr. sintaktički parsing, chunking
POS označivač (tagger) Alat s pomoću kojega se obavlja
automatsko POS označavanje naziva se POS označivač (tagger)
Osnovna podjela prema načinu rada na: One koji se zasnivaju na pravilima
(Rule based) Vjerojatnosne (Probabilistic)
Označavanje vrsta riječi Točnost automatskog označavanja
danas: do 96-97 % POS oznake prvi su korak u
razrješavanju istopisnica (homografa), tj. pojavnica koje imaju isti lik, a različite gramatičke kategorije i/ili značenje
Alembic tagger vs. QTAG
Prepoznavanje imena (Name recognition) Imena su često nepoznata sustavu za
obradu jezika (nema ih u leksikonu) Osobe, lokacije, tvrtke itd. čine otvoren
popis jezičnog inventara U nekim žanrovima teksta pokrivaju čak
jednu desetinu cjelokupnoga teksta Često se obavlja prije POS označavanja
ili parsinga
Name recognition - eng<ENAMEX TYPE="LOCATION">Washington</ENAMEX>, <TIMEX TYPE="DATE">March 7</TIMEX> (<ENAMEX TYPE="ORGANIZATION">Bloomberg</ENAMEX>) -- <ENAMEX TYPE="ORGANIZATION">MCI Communications Corp.</ENAMEX> and <ENAMEX TYPE="ORGANIZATION">News Corp.</ENAMEX> said they will pay <ENAMEX TYPE="ORGANIZATION">Loral Corp.</ENAMEX> more than <NUMEX TYPE="MONEY">$400 million</NUMEX> to build two satellites for a direct television broadcasting venture. <ENAMEX TYPE="ORGANIZATION">Loral</ENAMEX> said it will launch the first satellite <TIMEX TYPE="DATE">late next year</TIMEX> and the second in <TIMEX TYPE="DATE">1998</TIMEX>. <ENAMEX TYPE="ORGANIZATION">MCI</ENAMEX> said it expects to offer satellite television in the <ENAMEX TYPE="LOCATION">U.S.</ENAMEX> by the <TIMEX TYPE="DATE">end of 1997</TIMEX>.
Parsanje (parsing) Parsanje (ili sintaktička raščlamba,
sintaktička analiza) je postupak analize nizova pojavnica u rečenici kako bi se utvrdila njena gramatička struktura s obzirom na zadanu formalnu gramatiku
Plitko parsanje Plitko parsanje (eng. shallow
parsing, light parsing) – je postupak analize rečenice kod kojeg se prepoznaju sastavnice (konstituenti), ali se ne prepoznaje interna struktura sastavnica, niti njihova uloga u rečenici
Sastavnice – NP, VP, PP, ADVP
Što je sastavnica? U nekim slučajevima ne postoji
suglasnost svih lingvista što je točno sastavnica, ali osnovne prihvaćene značajke su: Distribucija: sastavnica se ponaša kao
jedinica koja se može pojaviti na različitim mjestima u rečenici (scrambling)
Zamjena i proširenje: I sat [on the box/right on the top of the box/
there]
Premetanje sastavnica (scrambling) - engleski On September seventeenth, I'd like to fly from
Atlanta to Denver I'd like to fly on September seventeenth from
Atlanta to Denver I'd like to fly from Atlanta to Denver on
September seventeenth *On September, I'd like to fly seventeenth
from Atlanta to Denver *On I'd like to fly September seventeenth
from Atlanta to Denver *I'd like to fly on September from Atlanta to
Denver seventeenth
Dubinsko parsanje Dubinsko (deep, full parsing) parsanje je
postupak kojim se utvrđuje cjelovita hijerarhijska struktura rečenice
Drugim riječima, od linearnog ulaza (rečenice) izgrađuje se hijerarhijska struktura (stablo)
Struktura rečenice najčešće se definira nizom beskontekstnih pravila
Dubinsko parsanje Rezultat obrade je stablo parsanja:
Banke stabala - The Penn Treebank ( (S (NP-SBJ (DT The) (NN move)) (VP (VBD followed) (NP (NP (DT a) (NN round)) (PP (IN of) (NP (NP (JJ similar) (NNS increases)) (PP (IN by) (NP (JJ other) (NNS lenders))) (PP (IN against) (NP (NNP Arizona) (JJ real) (NN estate) (NNS loans)))))) (, ,) (S-ADV (NP-SBJ (-NONE- *)) (VP (VBG reflecting) (NP (NP (DT a) (VBG continuing) (NN decline)) (PP-LOC (IN in) (NP (DT that) (NN market))))))) (. .)))
Zašto je prepoznavanje prirodnoga jezika toliko složeno? Znanje određenog jezika (tj. njegov
leksikon i gramatika) pruža moguće interpretacije određenog iskaza
Željena/namjeravana interpretacija ovisi o kontekstu, diskursu, konvencijama komunikacije i izvanjezičnom znanju
Na primjer, potrebno je izabrati između više smislova riječi, više alternativnih parsinga rečenice itd. koji zahtijevaju izvanjezično znanje
Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! Fed raises interest rates 0.5% in effort to
control inflation. (NYT naslov 17. svibnja. 2000) Stablo parsanja:
Zašto je prepoznavanje prirodnoga jezika toliko složeno? Primjer! Višeznačnost vrsta riječi (POS)
in effort
to control infl. Višeznačnost sintaktičkog pridruživanja Skrivene strukture u jeziku često su
iznimno višeznačne!
Oznake NN - noun, common singular (action) NNS - noun, common plural (actions) NNP - noun, proper singular (Thailand) VBZ - verb, -s (believes) VB - verb, base (believe) VBP - verb, non-3rd person singular
present CD - number, cardinal (four)
Stabla parsanja
Stabla parsanja Ako izradimo pravila formalne gramatike:
S NP VP NN interest NP (DT) NN NNS rates NP NN NNS NNS raises NP NNP VBP interest VP V NP VBZ rates …
Najmanja (minimalna) gramatika promatrane rečenice daje 10 stabala parsanja
Jednostavna gramatika koja se sastoji od 10 pravila daje 592 stabala parsanja
Cjelovita gramatika eng. → više od milijun stabala
Tipičan problem obrade prirodnoga jezika Gramatike s velikim ograničenjima
nastoje limitirati manje vjerojatne/željene parsinge To ih čini manje robusnima i mnoge
rečenice nemaju stabla Gramatike s manjim ograničenjima
mogu parsati više rečenica Čak jednostavne rečenice imaju više stabala
Statističkim metodama pronalaze se najvjerojatnija rješenja (stabla)!
Drugi pogled na jezičnu strukturu Postoje i formalni gramatički opisi koji se
ne zasnivaju na sastavnicama Npr. ovisnosna gramatika (dependency
grammar) (Tesnière, Mel´čuk) – pokazuje koje riječi ovise (modificiraju ih ili su argumenti od) neke druge riječi Proizvodi stabla ovisnosti, ne konstituentska
stabla Nema sastavničkih čvorova
Prikladnija za opis jezika sa “slobodnijim redom riječi”
Ovisnosna (dependency) i konstituentska struktura