44
Fakultet elektrotehnike i računarstva Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Laboratorij za tehnologije znanja Brojke i slova Od morfologije i pretraživanja do vizualizacije tekstnih podataka FER, Zagreb, 28. travnja 2010. Bojana Dalbelo Bašid Jan Šnajder Jure Mijid Artur Šilid

Brojke i slova - · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

  • Upload
    vokhanh

  • View
    227

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Fakultet elektrotehnike i računarstva

Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave

Laboratorij za tehnologije znanja

Brojke i slovaOd morfologije i pretraživanja do

vizualizacije tekstnih podataka

FER, Zagreb, 28. travnja 2010.

Bojana Dalbelo Bašid

Jan Šnajder

Jure Mijid

Artur Šilid

Page 2: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Sadržaj

Uvod

Morfološka normalizacija

Pretraživanje strukturiranih dokumenata

Vizualizacija zbirki dokumenata

Zaključak

Page 3: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Grupa za tehnologije znanja –ZEMRIS – FER

Voditelj laboratorija:

Prof. dr. sc. Bojana Dalbelo Bašid, redoviti profesor

Članovi:

Mr. sc. Jan Šnajder

Jure Mijid, dipl. ing.

Artur Šilid, dipl. ing.

Frane Šarid, dipl. ing.

Vanjski suradnici:

Prof. dr. sc. Marko Tadid, Filozofski fakultet

Prof. dr. sc. Marie-Francine Moens, Katoličko sveučilište, Leuven, Belgija

Prof. dr. sc. Annie Morin, IRISA/INRIA Francuska

Saša Petrovid, dipl. ing. – University of Edinburgh

Neda Erceg, Mr. sc. Maja Cvitaš – HIDRA

Page 4: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Područje istraživanja i stručnog rada

Umjetna inteligencija, strojno učenje

Obrada i razumijevanje prirodnog jezika(natural language processing & understanding)

Pretraživanje informacija(information retrieval)

Dubinska analiza podataka i teksta(data & text mining)

Page 5: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Projekti – znanstveni

MZOŠ projekt “Otkrivanje znanja u tekstnim podacima” rmjt.ffzg.hr

CADIAL (hrvatsko-belgijski projekt) www.cadial.org

Knowledge discovery in textual data and visualisation(francusko-hrvatski projekt)

AIDE ( HIDRA, FER, FF, JRC Ispra, Italija)

TEMPUS – COGNOSCENTE – (Njemačka, Mađarska, Nizozemska, Austrija)

Page 6: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Computer Aided Document Indexing for Accessing Legislation – CADIAL

www.cadial.org

Page 7: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

http://ktlab.fer.hr

Page 8: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Automatska kategorizacija/klasifikacija teksta (document classification)

Automatsko dodjeljivanje ključnih riječi (keyword assignment, document indexing)

Crpljenje ključnih riječi iz teksta (keyword extraction)

Crpljenje fraza iz teksta (collocation extraction)

Sinižavanje dimenzionalnosti

Sustavi za vizualizaciju zbirke dokumenata (korištenjem CA, Orange data mining tool)

Inteligentno pretraživanje dokumenata (CADIAL)

Automatsko generiranje morfološkog rječnika (za hrvatski jezik) iz korpusa

Sustav za upravljanje i nadziranje automatske klasifikacije dokumenata

Fokus KTLab-a

Page 9: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Sustav eCADIS

NAGRADA

VIDI

e-novation

2007

“Zlatno

Teslino jaje”

Page 10: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

cadial.hidra.hr

Page 11: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

1.1.

Strojno učenje klasificiranja dokumenata

Page 12: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

2.

Page 13: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

3.

TermeXTerminologyextraction

Page 14: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

CORAL© – CORpus ALigner

Page 15: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

http://www.ailab.si/orange/extensions.html

Page 16: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Sadržaj

Uvod

Morfološka normalizacija – Jan Šnajder

Pretraživanje strukturiranih dokumenata

Vizualizacija zbirki dokumenata

Zaključak

Page 17: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Morfološka normalizacija

Prije indeksiranja: morfološka normalizacija

{brzinom, brzine, brzinama,...} -> brzina

{brz, brzina, brzinski,...} -> brz

Hrvatski jezik je morfološki izuzetno složen

Normalizacija se koristi pri

Klasifikaciji dokumenata

Automatskom indeksiranju

Pretraživanju informacija

Page 18: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Morfološka složenostbelgija belgija N=fpgbelgijama belgija N=fpdbelgijama belgija N=fplbelgijama belgija N=fpibelgije belgija N=fsgbelgije belgija N=fpnbelgije belgija N=fpabelgije belgija N=fpvbelgiji belgija N=fsdbelgiji belgija N=fslbelgijo belgija N=fsvbelgijom belgija N=fsibelgiju belgija N=fsabelgijska belgijski Aspnpnbelgijska belgijski Aspnpabelgijska belgijski Aspnpvbelgijska belgijski Aspfsnbelgijska belgijski Aspfsvbelgijske belgijski Aspmpabelgijske belgijski Aspfsgbelgijske belgijski Aspfpnbelgijske belgijski Aspfpabelgijske belgijski Aspfpvbelgijski belgijski Aspmsnbelgijski belgijski Aspmsabelgijski belgijski Aspmsvbelgijski belgijski Aspmpnbelgijski belgijski Aspmpvbelgijskih belgijski Aspmpgbelgijskih belgijski Aspnpgbelgijskih belgijski AspfpgBelgijanac belgijanac N=msnBelgijanac belgijanac N=msaBelgijanaca belgijanac N=mpgBelgijanca belgijanac N=msg

Belgijance belgijanac N=mpaBelgijancem belgijanac N=msiBelgijanci belgijanac N=mpnBelgijanci belgijanac N=mpvBelgijancima belgijanac N=mpdBelgijancima belgijanac N=mplBelgijancima belgijanac N=mpiBelgijancu belgijanac N=msdBelgijancu belgijanac N=mslBelgijanče belgijanac N=msvbelgijanaka belgijanka N==pgBelgijanci belgijanka N==sdBelgijanci belgijanka N==slBelgijanci belgijanka N=fsdBelgijanci belgijanka N=fslBelgijanka belgijanka N==snBelgijanka belgijanka N==pgBelgijanka belgijanka N=fsnBelgijanka belgijanka N=fpgBelgijankama belgijanka N==pdBelgijankama belgijanka N==plBelgijankama belgijanka N==piBelgijankama belgijanka N=fpdBelgijankama belgijanka N=fplBelgijankama belgijanka N=fpiBelgijanke belgijanka N==sgBelgijanke belgijanka N==pnBelgijanke belgijanka N==paBelgijanke belgijanka N==pvBelgijanke belgijanka N=fsgBelgijanke belgijanka N=fpnBelgijanke belgijanka N=fpaBelgijanke belgijanka N=fpvBelgijanki belgijanka N==sdBelgijanki belgijanka N==sl

Belgijanki belgijanka N==slBelgijanki belgijanka N=fsdBelgijanki belgijanka N=fslBelgijanko belgijanka N==svBelgijanko belgijanka N=fsvBelgijankom belgijanka N==siBelgijankom belgijanka N=fsiBelgijanku belgijanka N==saBelgijanku belgijanka N=fsaBelgijac belgijac N=msaBelgijaca belgijac N=mpgBelgijca belgijac N=msgBelgijce belgijac N=msvBelgijce belgijac N=mpaBelgijcem belgijac N=msiBelgijci belgijac N=mpnBelgijci belgijac N=mpvBelgijcima belgijac N=mpdBelgijcima belgijac N=mplBelgijcima belgijac N=mpiBelgijcom belgijac N=msiBelgijcu belgijac N=msdBelgijcu belgijac N=mslBelgijče belgijac N=msv

Page 19: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Hrvatska morfologija

Visok stupanj afiksacije i mnogo fonoloških alternacija Fleksija

imenice: deklinacije (7 padeža, broj)

glagoli: konjugacija (vrijeme, lice, broj, rod)

pridjevi: deklinacija (7 padeža, broj, rod), stupnjevanje(3 stupnja), (ne)određenost

Tvorba (derivacija) Veliki broj tvorbenih uzoraka za izvođenje imenica iz

glagola, imenica iz imenica, glagola iz imenica, pridjeva iz imenica, ...

Page 20: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Hrvatska morfologija (2)

Primjer fleksije pridjev: brz, brza, brzi, brzima, brzih, brzoj, brze, brzim,

brzog, brzoga, brz, brza, brzo, brzom, brzomu, brži, bržeg, brža, brži, bržima, bržih, bržoj, brže, bržim, bržem, bržima, najbrži, bržeg, najbrža, najbržima, najbržih, najbrže, najbržim, najbrži, najbržoj, ...

imenica: brzina, brzinom, brzine, brzinama, brzinu, brzina, brzini

pridjev: brzinski, brzinskom, brzinske, brzinskih, brzinska, brzinskoj, brzinsko, brzinskog, brzinskoga,…

prilog: brzo, brže, najbrže, brzinski

Primjer tvorbe brz -> brzina -> brzinski -> …

Page 21: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Naš pristup

1. Akvizicija flektivnog leksikona ulaz: morfološki model i neoznačeni korpus izlaz: flektivni ili flektivno-derivacijski morfološki leksikon

2. Normalizacija oblika flektivna (lematizacija) flektivno-derivacijska

Usporedivo s korjenovanjem (ali preciznije)

Prednosti Može se koristiti kao lematizator (s MSD-opisima) i kao

stemmer (s promjenjivom jakosti) Velik i zbirci prilagođen opseg leksikona Prihvatljiva cijena izgradnje

Page 22: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Morfološki model

Npr. Imenička paradigma

vojnik

Padež Jednina Množina

N vojnik-Ø vojnic-i

G vojnik-a vojnik-a

D vojnik-u vojnic-ima

A vojnik-a vojnik-e

V vojnič-e vojnic-i

L vojnik-u vojnic-ima

I vojnik-om vojnic-ima

Page 23: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Morfološki model (2)

Definiramo flektivne i derivacijske uzorke

Model temeljen na konceptima funkcijskog programiranja

Koristimo funkcije kao gradivne blokove: A) funkcije uvjeta

B) funkcije preoblike

Definiramo ih posredno putem funkcija višeg reda

Npr. sfx

sfx('a')

sfx('a')('vojnik') = 'vojnika'

sfx(‘e’) alt(pal)

(sfx('e') alt(pal))('vojnik') = 'vojniče'

Page 24: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Morfološki model (3)

Padež Jednina Množina

N vojnik-Ø vojnic-i

G vojnik-a vojnik-a

D vojnik-u vojnic-ima

A vojnik-a vojnik-e

V vojnič-e vojnic-i

L vojnik-u vojnic-ima

I vojnik-om vojnic-ima

( s.ends('k','g','h')(s) cgr(s),{null, sfx(‘a’), sfx(‘u’), sfx(‘om’), sfx(‘e’) alt(pal),sfx(‘i’) alt(sib), sfx(‘ima’) alt(sib), sfx(‘e’)})

Page 25: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Morfološki model (4)

Prednosti Odgovara morfološkim opisima tradicionalnih

gramatika

Visoko ekspresivan formalizam

Prilagodiv morfološki sličnim jezicima

Generativno-redukcijski model

Implementirano u Haskellu Čisto funkcijski programski jezik

Implementacija modela ne iziskuje znanje programiranja

Page 26: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Akvizicija leksikona

Koristimo morfološki model + neoznačeni korpus kako bismo pribavili leme i pripadne uzorke

Frekvencije oblika iz korpusa + heuristika

Lingvistička točnost nije od primarne važnosti

Radimo normalizaciju, a ne generiranje oblika

Ljudska intervencija nije potrebna

Page 27: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Rezultati

Primjer manjeg leksikona

Novinski korpus, 20 Mw

100 flektivnih i 300 derivacijskih uzoraka

Sadržava 42,000 lema odnosno 500,000 oblika

Kakvoda

Opseg: 96% po različnicama i 98% po pojavnicama

Potkorjenovanje < 5%

Prekorjenovanje < 4%

Može se poboljšati ručnim intervencijama

Page 28: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Derivacijska normalizacija

Flektivni leksikon grupira se u razrede ekvivalencije prema relaciji tvorbene veze

Stupanj normalizacije ovisi o korištenim derivacijskim uzorcima

Problem sa semantikom:

Kontekstna uvjetovanost i stupanj značenjske veze

Page 29: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Reference

Šnajder, Jan; Dalbelo Bašid, Bojana; Tadid, Marko. Automatic Acquisition of Inflectional Lexica for Morphological Normalisation // InformationProcessing and Management, 2008. (in press)

Applied in document indexing projects AIDE & CADIAL www.cadial.org

Dalbelo Bašid, Bojana; Tadid, Marko; Moens, Marie-Francine. Computer Aided Document Indexing for Accessing Legislation // Toegang tot de wet / J. Van Nieuwenhove & P. Popelier (eds). Brugge : Die Keure, 2008. pp. 107-117.

Applied in text classification Malenica, Mislav; Šmuc, Tomislav; Jan, Šnajder; Dalbelo Bašid, Bojana.

Language Morphology Offset: Text Classification on a Croatian-English Parallel Corpus. // Information Processing and Management, 44 (2008), 1; 325-339.

Page 30: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Sadržaj

Uvod

Morfološka normalizacija

Pretraživanje strukturiranih dokumenata – Jure Mijid

Vizualizacija zbirki dokumenata

Zaključak

Page 31: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Što želimo postidi?

Karakteristike dobre tražilice:

Visoka preciznost i odaziv

Brza

Učinkovita

Jednostavna za korištenje

Nadogradiva

Page 32: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Tražilica CADIAL

Objektno orijentirani model sustava tražilice (C++)

Karakteristike tražilice:

Morfološka normalizacija

Podrška za pretraživanje strukturiranih dokumenata

Dvije procedure za pretraživanje:

Pretraživanje fraza

Jezično modeliranje (eng. language modelling)

Pretraživanje po naslovu i tekstu dokumenta

Pretraživanje po dodijeljenim deskriptorima Eurovoca (na hrvatskom i engleskom)

Korištena biblioteka Text Mining Tools (KTLab)

Page 33: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Shema sustava tražilice CADIAL

Page 34: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Jezični model tražilice CADIAL

Page 35: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Evaluacija tražilice CADIAL

Evaluacija performansi tražilice CADIAL INEX workshop, Prosinac 2008, Dagstuhl, Njemačka

Ad Hoc Track

Korištena kolekcija Wikipedia na engleskom jeziku 660.000 strukturiranih dokumenata u XML formatu

4,6 GB ukupne veličine

Pretraživanje dokumenata

9. mjesto od 76 kandidata

Mijid, Jure; Moens, Marie-Francine; Dalbelo Bašid, Bojana. CADIAL SearchEngine at INEX // Lecture Notes in Computer Science, Advances in FocusedRetrieval (INEX 2008) / Geva, S., Kamps, J., Trotman, A. (Eds.). SpringerVerlag, Berlin, Heidelberg, vol. 5631, pp. 71-78, 2009.

Page 36: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Web sučelje tražilice CADIAL

Page 37: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Sadržaj

Uvod

Morfološka normalizacija

Pretraživanje strukturiranih dokumenata

Vizualizacija zbirki dokumenata – Artur Šilid

Zaključak

Page 38: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Vizualizacija tekstova

Cilj dubinske analize tekstova:

Pronalazak znanja u tekstovima

Jedan od načina obrade na višoj razini:

Vizualizacija tekstova

Vizualizacija informacija

Vizualizacija

Vizualizacija tekstova

Page 39: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Vizualizacija tekstova (2)

Page 40: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Vizualizacija tekstova (3)

S. Petrović, B. Dalbelo Bašić, A. Morin, B. Zupan, J.-H. ChauchatTextual features for corpus visualization using correspondence analysisIntelligent Data Analysis, 13(5), 2009, IOS Press.

Croatia Weekly korpus895 novinskih objava

Page 41: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Vizualizacija tekstova (4)Računalna lingvistikaEkstrakcija informacija

Statističke metodeLinearna algebraRačunalno inženjerstvo

Interakcija čovjek-računaloPerceptivna psihologijaKognitivna znanostDizajn i estetika

Page 42: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Sadržaj

Uvod

Morfološka normalizacija

Pretraživanje strukturiranih dokumenata

Vizualizacija zbirki dokumenata

Zaključak

Page 43: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Zaključak

Korištenje matematičkih, statističkih i računarskih metoda omogudava učinkovitu analizu i vizualizaciju tekstova

Značajan napredak u primjeni tih metoda na hrvatski jezik

Page 44: Brojke i slova -  · PDF fileTEMPUS –COGNOSCENTE –(Njemačka, Mađarska, Nizozemska, Austrija) Computer Aided Document Indexing for Accessing Legislation ... gramatika Visoko

Hvala na pažnji!