Upload
dinhkhanh
View
234
Download
0
Embed Size (px)
Citation preview
Knowledge Technologies Laboratoy
KTLab
Laboratorij za tehnologije znanja
Prof. dr. sc. Bojana Dalbelo Bašić
Mr. sc. Jan Šnajder
Jure Mijić, dipl. ing.
Fakultet elektrotehnike i računarstva
Zavod za elektroniku, mikroelektroniku,
računalne i inteligentne sustave
Tehnički fakultet, Rijeka, 16. veljače 2010.
Sadržaj
Predstavljanje Grupe za tehnologiju znanja –članovi i vanjski suradnici
Predstavljanje aktivnosti Znanstvena aktivnost
Međunarodni i domaći projekti
Objavljeni znanstveni radovi radovi
Stručna aktivnost (suradnja s privredom)
Suradne institucije
Proizvodi
Grupa za tehnologije
znanja – ZEMRIS – FER
Voditelj laboratorija:
Prof. dr. sc. Bojana Dalbelo Bašić, redoviti profesor
Članovi:
Mr. sc. Jan Šnajder
Jure Mijić, dipl. ing.
Artur Šilić, dipl. ing.
Frane Šarić, dipl. ing.
Vanjski suradnici:
Prof. dr. sc. Marko Tadić, Filozofski fakultet
Davor Delač, apsolvent Računarstva, FER
Saša Petrović, dipl. ing. – University of Edinburgh
Prof. dr. sc. Marie-Francine Moens, Katoličko sveučilište, Leuven, Belgija
Prof. dr. sc. Annie Morin, IRISA/INRIA Francuska
Grupa za tehnologije
znanja – ZEMRIS – FER
Zajednička slika članova KTLab-a i vanjskih suradnika na CADIAL projektu:
Jure Mijić
Jan Šnajder
Marko Tadić, Filozofski fakultet
Marie-Francine Moens, KU Leuven, Belgija
Bojana Dalbelo Bašić
Artur Šilić
Frane Šarić
Davor Delač
Područje istraživanja i
stručnog rada
Umjetna inteligencija, strojno učenje
Obrada i razumijevanje prirodnog jezika (natural language processing & understanding)
Dubinska analiza podataka i teksta (data & text mining)
http://textmining.zemris.fer.hr
Projekti - znanstveni
MZOŠ projekt “Otkrivanje znanja u tekstnimpodacima” rmjt.ffzg.hr
CADIAL (hrvatsko-belgijski projekt) www.cadial.org
Knowledge discovery in textual data and visualisation (francusko-hrvatski projekt)
AIDE (FER, FF, JRC Ispra, Italija)
TEMPUS – COGNOSCENTE – (Njemačka, Mađarska, Nizozemska, Austrija)
bib.irb.hr“Otkrivanje znanja u tekstnim podacima” (036-1300646-1986)
Radovi od 1.1.2007. god. do danas ukupno:
Uredničke knjige (1)
Poglavlja u knjizi (7)
Udžbenici i skripta (1)
Izvorni znanstveni i pregledni radovi u CC časopisima (4)
Znanstveni radovi u drugim časopisima (9)
Kongresno priopćenje (sažeci) u ostalim časopisima (1)
Plenarna izlaganja (1)
Objavljena pozvana predavanja na skupovima (1)
Znanstveni radovi u zbornicima skupova s međunar.rec. (18)
Drugi radovi u zbornicima skupova s recenzijom (1)
Neobjavljena sudjelovanja na skupovima (1)
Magistarski radovi (1)
Diplomski radovi (35)
Druge vrste radova (4)
Puni popis radova na linku: http://bib.irb.hr/lista-radova?projekt=036-1300646-1986
AIDE projekt
(textmining.zemris.fer.hr, -> AIDE projekt)
(www.hidra.hr , -> projekti->AIDE)
Fakultet elektrotehnike i računarstva
Filozofski fakultet, Zagreb
HIDRA
Joint Research Centre Europen Comission, ItalijaOstvaren cilj: Sustav eCADIS za automatsko indeksiranje dokumenata deskriptorima
EUROVOC-a (www.hidra.hr/eurovoc/eurovoc.htm), (europa.eu/eurovoc/)
Sustav eCADIS
NAGRADA
VIDI
e-novation
2007
“Zlatno
Teslino jaje”
PARTNERI:
1. Department of Computer Science, Katholieke Universiteit Leuven, Belgium Prof. Marie-Francine Moens, associate professor
2. Faculty of Electrical Engineering and Computing (FER), University of Zagreb, Croatia Prof. Bojana Dalbelo Bašid
3. Faculty of Humanities and Social Sciences (FFZG), University of Zagreb, Croatia Prof. Marko Tadid
4. Croatian Information Documentation Referral Agency (HIDRA), Croatia Neda Erceg Maja Cvitaš, M.Sc.
PROJEKT Computer Aided Document Indexingfor Accessing Legislation - CADIAL
Computer Aided Document Indexing for Accessing Legislation - CADIAL
www.cadial.org
VIDI
e-novation
2009
“Zlatno Teslino
jaje”
Premijerkina
nagrada za
doprinos
informatizaciji
državne
uprave
www.cadial.org
KTLab fokus
Automatska kategorizacija/klasifikacija teksta (document classification)
Automatsko dodjeljivanje ključnih riječi(keyword assignment, document indexing)
Crpljenje ključnih riječi iz teksta (keyword extraction)
Crpljenje fraza iz teksta (collocation extraction)
Sustavi za vizualizaciju zbirke dokumenata (snižavanje dimenzionalnsti)(korištenjem CA, Orange data mining tool)
Inteligentno pretraživanje dokumenata (CADIAL)
Automatsko generiranje morfološkog rječnika (za hrvatski jezik) iz korpusa
Sustav za upravljanje i nadziranje automatske klasifikacije dokumenata
http://www.ailab.si/orange/extensions.html
KTLab fokus
Detekcija trenda, analiza raspoloženja i mišljenja, analiza blogova (Trend detection, sentiment analysis, blog mining)
Međujezično pretraživanje (Cross-language information retrieval)
Ekstrakcija informacija (Information extraction)
Sustavi odgovora na pitanje (Question answering systems)
Automatsko sažimanje teksta (Text summarization)
Dijaloški sustavi (Dialog systems)
Projekti - stručni
Hidra
Konzum
IRB (bib.irb.hr)
NOVENA
Hina
Ostali primjeri sustava
1. KTN indexing sustav za učenje automatskog klasificiranja dokumenata u predefinirani skup kategorija (mogu biti hijerarhijski organizirane)
2. CatViz - Sustav za vizualizaciju velikog skupa dokumenata i pradenje tema kroz vrijeme
3. TermeX – Sustav za gradnju terminološkog leksikona (ekstrakciju kolokacija)(http://textmining.zemris.fer.hr/termex/index.html)
4. CORAL – (CORpus ALigner)- sustav za poravnavanje korpusa tekstova(http://textmining.zemris.fer.hr/coral/)
Sustav za upravljanje1.1.
Strojno učenje klasificiranja dokumenata
2.
3.
TermeXTerminnologyextraction
Project
meeting
Zagreb
2007-11-12
Computer Aided Document Indexing
for Accessing Legislation
Joint Flemish-Croatian project
Project
meeting
Zagreb
2007-11-12
Morfološka normalizacija
Jan Šnajder
KTLab
Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave
Fakultet elektrotehnike i računarstva
Sveučilište u Zagrebu
Morfološka složenost
belgija belgija N=fpg
belgijama belgija N=fpd
belgijama belgija N=fpl
belgijama belgija N=fpi
belgije belgija N=fsg
belgije belgija N=fpn
belgije belgija N=fpa
belgije belgija N=fpv
belgiji belgija N=fsd
belgiji belgija N=fsl
belgijo belgija N=fsv
belgijom belgija N=fsi
belgiju belgija N=fsa
belgijska belgijski Aspnpn
belgijska belgijski Aspnpa
belgijska belgijski Aspnpv
belgijska belgijski Aspfsn
belgijska belgijski Aspfsv
belgijske belgijski Aspmpa
belgijske belgijski Aspfsg
belgijske belgijski Aspfpn
belgijske belgijski Aspfpa
belgijske belgijski Aspfpv
belgijski belgijski Aspmsn
belgijski belgijski Aspmsa
belgijski belgijski Aspmsv
belgijski belgijski Aspmpn
belgijski belgijski Aspmpv
belgijskih belgijski Aspmpg
belgijskih belgijski Aspnpg
belgijskih belgijski Aspfpg
Belgijanac belgijanac N=msn
Belgijanac belgijanac N=msa
Belgijanaca belgijanac N=mpg
Belgijanca belgijanac N=msg
Belgijance belgijanac N=mpa
Belgijancem belgijanac N=msi
Belgijanci belgijanac N=mpn
Belgijanci belgijanac N=mpv
Belgijancima belgijanac N=mpd
Belgijancima belgijanac N=mpl
Belgijancima belgijanac N=mpi
Belgijancu belgijanac N=msd
Belgijancu belgijanac N=msl
Belgijanče belgijanac N=msv
belgijanaka belgijanka N==pg
Belgijanci belgijanka N==sd
Belgijanci belgijanka N==sl
Belgijanci belgijanka N=fsd
Belgijanci belgijanka N=fsl
Belgijanka belgijanka N==sn
Belgijanka belgijanka N==pg
Belgijanka belgijanka N=fsn
Belgijanka belgijanka N=fpg
Belgijankama belgijanka N==pd
Belgijankama belgijanka N==pl
Belgijankama belgijanka N==pi
Belgijankama belgijanka N=fpd
Belgijankama belgijanka N=fpl
Belgijankama belgijanka N=fpi
Belgijanke belgijanka N==sg
Belgijanke belgijanka N==pn
Belgijanke belgijanka N==pa
Belgijanke belgijanka N==pv
Belgijanke belgijanka N=fsg
Belgijanke belgijanka N=fpn
Belgijanke belgijanka N=fpa
Belgijanke belgijanka N=fpv
Belgijanki belgijanka N==sd
Belgijanki belgijanka N==sl
Belgijanki belgijanka N==sl
Belgijanki belgijanka N=fsd
Belgijanki belgijanka N=fsl
Belgijanko belgijanka N==sv
Belgijanko belgijanka N=fsv
Belgijankom belgijanka N==si
Belgijankom belgijanka N=fsi
Belgijanku belgijanka N==sa
Belgijanku belgijanka N=fsa
Belgijac belgijac N=msa
Belgijaca belgijac N=mpg
Belgijca belgijac N=msg
Belgijce belgijac N=msv
Belgijce belgijac N=mpa
Belgijcem belgijac N=msi
Belgijci belgijac N=mpn
Belgijci belgijac N=mpv
Belgijcima belgijac N=mpd
Belgijcima belgijac N=mpl
Belgijcima belgijac N=mpi
Belgijcom belgijac N=msi
Belgijcu belgijac N=msd
Belgijcu belgijac N=msl
Belgijče belgijac N=msv
Morfološka normalizacija
Prije indeksiranja: morfološka normalizacija
Hrvatski jezik je morfološki izuzetno složen
Flektivna + derivacijska normalizacija
Koristi se pri
Klasifikaciji dokumenata
Automatskom indeksiranju
Pretraživanju informacija
Normalizacija temeljena na lekiskonu
Prednost: dobra kakvoća normalizacije
Nedostatak: ograničen opseg leksikona
Dva pristupa
A: Hrvatski morfološki leksikon (HML)
B: Automatski pribavljen leksikona (Molex)
Hrvatska morfologija
1. Visok stupanj afiksacije
Oblici se dobivaju sufiksacijom, prefiksacijom,
glasvnim smjenama i proširenjima/kraćenjima osnove
Fleksija
imenice: deklinacije (7 padeža, broj)
glagoli: konjugacija (vrijeme, lice, broj, rod)
pridjevi: deklinacija (7 padeža, broj, rod),
stupnjevanje (3 stupnja), (ne)odreĎenost
Tvorba
Veliki broj tvorbenih uzoraka za izvoĎenje imenica iz
glagola, imenica iz imenica, glagola iz imenica,
pridjeva iz imenica, ...
Hrvatska morfologija 2
Primjer fleksije
pridjev: brz, brza, brzi, brzima, brzih, brzoj, brze,
brzim, brzog, brzoga, brz, brza, brzo, brzom,
brzomu, brži, bržeg, brža, brži, bržima, bržih, bržoj,
brže, bržim, bržem, bržima, najbrži, bržeg, najbrža,
najbržima, najbržih, najbrže, najbržim, najbrži,
najbržoj, ...
imenica: brzina, brzinom, brzine, brzinama, brzinu,
brzina, brzini
pridjev: brzinski, brzinskom, brzinske, brzinskih,
brzinska, brzinskoj, brzinsko, brzinskog,
brzinskoga,…
prilog: brzo, brže, najbrže, brzinski
Primjer tvorbe
brz > brzina > brzinski > …
Hrvatska morfologija 3
2. Visok stupanj istopisnosti (homografije)
vode = voda | voditi | vod
Iziskuje razrješavanje (POS/MSD označavanje)
3. Višeznačnost (plodnost) sufikasa
Mnogo višeznačnih pravila sufiksacije
npr. bolnic-a / bolnic-i vs. ruk-a / ruc-i
npr. bolnic-a / bolnic-om vs. brodolom / brodolom-a
Pogreške na flektivnoj razini
narančast / narančast-om vs. ruž / ruž-om (umjesto ruža)
Pogreške na razini tvorbe
npr. kralj / kralj-ica vs. stan / stan-ica
Normalizacija temeljena na lekiskonu
Morfološki leksikon
Svaki flektivni/tvorbeni oblik povezuje s morfološkom
normom (lemom, osnovom, korijenom) i eventualno s
morfosintaktičkim opisom
UgraĎuje lingvističko znanje i na taj način izbjegava
opisane probleme
Nedostatci
Sastavljaju ih lingvisti (skupo i vremenski zahtjevno)
Ograničeni opseg (neologizmi, žargonizmi,
dijalektizmi)
Naš pristup
Akvizicija leksikona velikog opsega iz neoznačenog
korpusa tekstova temeljem morfoloških pravila
(morfološkog modela)
Naš pristup
1. Akvizicija flektivnog leksikona
ulaz: neoznačeni korpus i skup flektivnih i
derivacijskih pravila u prikladnom formalizmu (nalik
tradicionalnim gramatikama)
2. Normalizacija oblika
flektivna (lematizacija)
Flektivna + derivacijska
Usporedivo s korjenovanjem (ali preciznije)
Prednosti
Može se koristiti kao lematizator (s MSD opisima) i
kao stemmer (s promjenjivom jakosti)
Veliki i zbirci prilagoĎen opseg leksikona
Iziskuje ograničeno lingvističko znanje
Prikaz morfologije
Npr. Imenička paradigma
vojnik
Padež Jednina Množina
N vojnik-Ø vojnic-i
G vojnik-a vojnik-a
D vojnik-u vojnic-ima
A vojnik-a vojnik-e
V vojnič-e vojnic-i
L vojnik-u vojnic-ima
I vojnik-om vojnic-ima
Prikaz morfologije 2
Definiramo flektivna i derivacijska pravila
Koristimo funkcije kao gradivne blokove:
A) funkcije uvjeta
B) funkcije preoblike
Definiramo ih posredno putem funkcija višeg reda
Npr.
sfx
sfx('a')
sfx('a')('vojnik') = 'vojnika'
sfx(‘e’) alt(pal)
(sfx('e') alt(pal))('vojnik') = 'vojniče'
Prikaz morfologije 3
Padež Jednina Množina
N vojnik-Ø vojnic-i
G vojnik-a vojnik-a
D vojnik-u vojnic-ima
A vojnik-a vojnik-e
V vojnič-e vojnic-i
L vojnik-u vojnic-ima
I vojnik-om vojnic-ima
(s.ends('k','g','h')(s) consGroup(s),
{null, sfx(‘a’), sfx(‘u’), sfx(‘om’), sfx(‘e’) alt(pal),
sfx(‘i’) alt(sib), sfx(‘ima’) alt(sib), sfx(‘e’)})
Prikaz morfologije 4
Prikladno i za složenije paradigme(c, {null, sfx(‘a’), sfx(‘u’), ..., sfx(‘ima’)}
{sfx(‘og’), sfx(‘om’), ..., sfx(‘ima’)}
{sfx(‘i’) alt(jot), sfx(‘eg’) alt(jot), ..., sfx(‘ima’) alt(jot)}
{sfx(‘i’) alt(jot) pfx(‘naj’), ..., sfx(‘ima’) alt(jot) pfx(‘naj’)})
Prikaz morfologije 5
prednosti
Odgovara morfološkim opisima tradicionalnih
gramatika
Iziskuje minimalno lingvističko znanje
Visoko ekspresivan formalizam
Prilagodiv morfološki sličnim jezicima
Implementirano u Haskellu
Čisto funkcijski programski jezik
Implementacija modela ne iziskuje znanje
programiranja
Akvizicija leksikona
Koristimo flektivna pravila + neoznačeni korpus
kako bismo izlučili leme i pripadne paradigme
Frekvencije oblika iz korpusa + heuristika
Lingvistička točnost nije od primarne važnosti
Radimo normlalizaciju, a ne generiranje oblika
Ljudska intervencija nije potrebna
Rezultati
Primjer manjeg leksikona
Novinski korpus, 20 Mw
90 flektivnih i >300 derivacijskih pravila
Sadržava cca 42,000 lema odnosno 500,000 oblika
Kakvoća
Lingvistička točnost F1 = 88% per type
opseg 96% per type i 98% per token
podkorjenovanje = 7%
prekorjenovanje < 4%
Može se poboljšati ručnim intervencijama
Derivacijska normalizacija
Flektivni leksikon grupira se u klase ekvivalencije
prema relaciji tvorbene veze
Stupanj normalizacije ovisi o broju korištenih
derivaicjskih pravila
Problem sa semantikom:
Kontekst, stupanj
Reference
Šnajder, Jan; Dalbelo Bašić, Bojana; Tadić, Marko.
Automatic Acquisition of Inflectional Lexica for
Morphological Normalisation // Information Processing and
Management, 2008. (in press)
Applied in document indexing
projects AIDE & CADIAL www.cadial.org
Dalbelo Bašić, Bojana; Tadić, Marko; Moens, Marie-Francine.
Computer Aided Document Indexing for Accessing
Legislation // Toegang tot de wet / J. Van Nieuwenhove & P.
Popelier (eds). Brugge : Die Keure, 2008. pp. 107-117.
Applied in text classification
Malenica, Mislav; Šmuc, Tomislav; Jan, Šnajder; Dalbelo
Bašić, Bojana. Language Morphology Offset: Text
Classification on a Croatian-English Parallel Corpus. //
Information Processing and Management, 44 (2008), 1;
325-339.
Project
meeting
Zagreb
2007-11-12
Inteligentna tražilica s web sučeljem
Jure Mijić
KTLab
Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave
Fakultet elektrotehnike i računarstva
Sveučilište u Zagrebu
Što želimo postići?
Karakteristike dobre tražilice:
Efektivna
Relevantni rezultati unutar prvih desetak rezultata
Brza
Brza obrada upita nad velikom količinom dokumenata
Efikasna
Efikasno skladištenje velike količine dokumenata
(preduvjet za brzinu tražilice)
Jednostavna za korištenje
Jednostavno i intuitivno postavljanje upita
Nadogradiva
Jednostavno proširenje tražilice novim procedurama
Tražilica CADIAL
Objektno orijentirani model sustava tražilice (C++)
Korištena biblioteka Text Mining Tools (KTLab)
Karakteristike tražilice:
Morfološka normalizacija
Podrška za pretraživanje strukturiranih dokumenata
Dvije procedure za pretraživanje:
Pretraživanje fraza
Jezično modeliranje (eng. language modelling)
Pretraživanje po naslovu i tekstu dokumenta
Pretraživanje po dodijeljenim deskriptorima Eurovoca i
njihovim nedeskriptorima (na hrvatskom i engleskom)
Jednostavna nadogradnja sustava tražilice novim
procedurama za pretraživanje
Shema sustava tražilice CADIAL
Jezični model tražilice CADIAL
Evaluacija tražilice CADIAL
Evaluacija performansi tražilice CADIAL
INEX workshop, Prosinac 2008, Dagstuhl, Njemačka
Ad Hoc Track
Korištena kolekcija Wikipedia na engleskom jeziku
660.000 strukturiranih dokumenata u XML formatu
4,6 GB ukupne veličine
Fokusirano pretraživanje
29. mjesto od 76 kandidata
Pretraživanje dokumenata
9. mjesto od 76 kandidata
Web sučelje tražilice CADIAL
Hvala na pozornosti!