12
1 BAZE PODATAKA Pretraživanje informacija Mladen Varga 1 Slabo strukturirani / strukturirani podaci Više od 80% podataka u organizacijama su slabo strukturirani Takvi su tekstovi, bilješke, e-poruke, slike …. 2 1996. 2006. Pretraživanje informacija Pretraživanje informacija (engl. Information Retrieval - IR) je pronalaženje materijala (dokumenata) nestrukturiranog oblika (obično tekst) u velikoj kolekciji (na računalu u bazi dokumenata) koji odgovara informacijskoj potrebi E-knjiga: http://www- csli.stanford.edu/~hinrich/information-retrieval-book.html Information retrieval (IR) http://en.wikipedia.org/wiki/Information_retrieval Information retrieval wiki http://ir.dcs.gla.ac.uk/wiki/ 3 4 Ciljevi pretraživanja informacija pronadi sve važne (relevantne) informacije (dokumente) za traženu temu potpun obuhvat pronadi samo relevantne informacije za zadani upit potpuna preciznost rangirati pronađene informacije po važnosti (relevantnosti) rang Rezultati pretraživanja različito su važni Oni leže na kontinuiranoj skali i teško je odrediti točnu granicu važno/nevažno 5 Mjere pretraživanja a+b - relevantni objekti b+c - pronađeni objekti obuhvat = b/(a+b) preciznost = b/(b+c) Raspon njihovih vrijednosti je 0,0-1,0 ili 0-100% Obuhvat i preciznost Kriva je pretpostavka da se pretraživanjem dobiva potpun obuhvat (sve relevantno je pronađeno, a=) potpuna preciznost (sve pronađeno je relevantno, c= ) Nažalost, praksa pokazuje da su mjere kontradiktorne ako se jedna povedava, druga se smanjuje Zahtjevi kvalitetnog pretraživanja (u praksi): Visok obuhvat Što veda preciznost, bez žrtvovanja obuhvata Praksa na webu: dobar obuhvat ali loša preciznost 6

informacijaweb.efzg.hr/mvarga/bp/pretraživanje informacija.pdf · 2011-10-24 · 0,0 imaju ortogonalni (potpuno različiti) vektori 33 Primjer Pojmovi: p 1 =baza, p 2 =podataka,

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

1

BAZE PODATAKA Pretraživanje informacija

Mladen Varga

1

Slabo strukturirani / strukturirani podaci

Više od 80% podataka u organizacijama su slabo strukturirani

Takvi su tekstovi, bilješke, e-poruke, slike ….

2

1996. 2006.

Pretraživanje informacija

Pretraživanje informacija (engl. Information Retrieval -IR) je pronalaženje materijala (dokumenata) nestrukturiranog oblika (obično tekst) u velikoj kolekciji (na računalu u bazi dokumenata) koji odgovara informacijskoj potrebi

E-knjiga: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

Information retrieval (IR)

http://en.wikipedia.org/wiki/Information_retrieval

Information retrieval wiki

http://ir.dcs.gla.ac.uk/wiki/

3 4

Ciljevi pretraživanja informacija

pronadi sve važne (relevantne) informacije (dokumente) za traženu temu potpun obuhvat

pronadi samo relevantne informacije za zadani upit potpuna preciznost

rangirati pronađene informacije po važnosti (relevantnosti) rang

Rezultati pretraživanja različito su važni

Oni leže na kontinuiranoj skali i teško je odrediti točnu granicu važno/nevažno

5

Mjere pretraživanja

a+b - relevantni objekti b+c - pronađeni objekti

obuhvat = b/(a+b)

preciznost = b/(b+c)

Raspon njihovih vrijednosti je 0,0-1,0 ili 0-100%

a b c

Obuhvat i preciznost

Kriva je pretpostavka da se pretraživanjem dobiva

potpun obuhvat (sve relevantno je pronađeno, a=)

potpuna preciznost (sve pronađeno je relevantno, c= )

Nažalost, praksa pokazuje da su mjere kontradiktorne

ako se jedna povedava, druga se smanjuje

Zahtjevi kvalitetnog pretraživanja (u praksi):

Visok obuhvat

Što veda preciznost, bez žrtvovanja obuhvata

Praksa na webu: dobar obuhvat ali loša preciznost

6

2

Tipičan odnos preciznosti i obuhvata

7

pre

ciz

nost

obuhvat

Preciznost na n dokumenata

Ako se pronađeni dokumenti rangiraju po relevantnosti, preciznost varira o broju ispisanih dokumenata

Ako je prvih 10 dokumenata relevantno, a sljededih 10 nerelevantno:

Preciznost je 100% u prvih 10 dokumenata, i 50 % u prvih 20 dokumenata

Preciznost na n dokumenata je stvarni broj relevantnih u odnosu na broj ispisanih dokumenata (hitlist)

Prosječna preciznost je suma preciznosti za svaki relevantni ispisani dokument (“hitlist”) podijeljena s ukupnim brojem relevantnih dokumenata u kolekciji

8

9

Problem pretraživanja informacija

1. primjer iz hrpe časopisa pronadi sve članke (dokumente) o Hrvatskoj čovjek zna koncept Hrvatska, pa ne čita svaki članak od riječi

do riječi, nego gleda naslov, podnaslov, ili dijelove članaka, da ustanovi ima članak veze s temom

konceptualno pretraživanje (temelji se na poznavanju koncepta Hrvatska i kontekstualnom znanju kako je uređen časopis)

2. primjer iz hrpe matematičkih časopisa pronadi sve članke o De

Morganovom pravilu čovjek ne zna koncept De Morganovo pravilo, pa čita svaki

članak od riječi do riječi i traži riječi De Morgan mehaničko pretraživanje (ne temelji se na poznavanju

koncepta)

Problem pretraživanja informacija - zaključak

konceptualno pretraživanje kvalitetnije i brže tako radi čovjek, jer ima znanje o konceptu (konceptualno

znanje)

mehaničko pretraživanje manje kvalitetno i sporo tako radi računalo, jer nema znanje o konceptu

Ostaje neriješen problem kako opisati konceptualno znanje, tj. kako riječima opisati koncept – pojam pretraživanja

10

Kako poboljšati računalno pretraživanje

Umjesto mehaničkog pretraživanja uvoditi “konceptualno” pretraživanje

Kako riječima opisati koncept ostaje neriješen problem pa preostaju polovična rješenja:

Strukturiranje dokumenata – definiranje atributa koji pobliže opisuju dokument

Uvođenje atributa kojim se dokumenti klasificiraju prema konceptima – klasifikacija sadržaja

Uvođenje metoda “konceptualnog” pretraživanja potpomognuta statističkim tehnikama

11 12

Problem klasifikacije

Klasificiranje sadržaja je prvi i najjednostavniji način poboljšanja pretraživanja sadržaja

Primjer u knjižnici (ili bazi podataka) pronadi dokumente (knjige ili članke) o WTO

(World Trade Organization)

traženje po ključnim riječima ili klasifikaciji (npr. UDK) – uz pomod kataloga (indeksa) pronalazimo

postoji sustav klasificiranja dokumenata

Zaključak pretraživanje je toliko kvalitetno koliko je kvalitetan sustav klasificiranja

dokumenata Ali !!!, univerzalne klasifikacije (npr. UDK – univerzalna decimalna

klasifikacija, koristi se u knjižnicama) su preopdenite gledajudi sa stanovišta pojedine struke

pojedine struke klasificiraju dokumente prema svojim potrebama

baze dokumenata obavezno se koriste klasifikacijskim sustavom

3

13

CIP - Katalogizacija u publikaciji

Nacionalna i sveučilišna knjižnica,

Zagreb

UDK 681.3

POSLOVNO računarstvo / urednici

VLATKO Čerić… [et al.]; - Zagreb:

Znak, 1998. - xx, 588 str.:ilustr.; 24 cm.

Kazalo.

ISBN 953-189-096-X

1. Varga, Mladen

2. Birolla, Hugo

Načini klasificiranja dokumenata

klasifikacijski sustavi (UDK, BSO, …)

hijerarhijska višerazinska podjela

ključne riječi (ili deskriptori)

riječi iz teksta dokumenta, koji konceptualno opisuju sadržaj dokumenta

tezaurus – sređeni skup pojmova (ključnih riječi)

Rudarenje podataka

Autor(i)

Sažetak (Abstract): xxxxxxxx

Ključne riječi (keywords):

rudarenje podataka, otkrivanje

znanja, …

Tekst xxxxxxxxxxxxxxxxxxxx

Pretraživanje knjižničnih kataloga

Knjižnica Ekonomskog fakulteta http://www.efzg.hr/default.aspx?id=267

Nacionalna i sveučilišna knjižnica http://www.nsk.hr/DigitalLib.aspx?id=8

Europske nacionalne knjižnice http://search.theeuropeanlibrary.org

14

15

Primjer pretraživanja po klasifikacijskim podacima

16

Primjer pretraživanja po klasifikacijskim podacima (2)

17

Metode pretraživanja informacija

Pretraživanje po riječima

Riječ opisuje koncept ili pojam (engl. term)

Pretraživanje se temelji na tehnikama uparivanja i brojanja pojmova u dokumentu

nedostaju modeli za stvarno opisivanje sadržaja teksta (za konceptualno pretraživanje)

Metode pretraživanja informacija

Metode Booleovog pretraživanja

Modeli vektorskog prostora

Probabilistički modeli

Dokumente rangiraju prema vjerojatnosti relevantnosti u odnosu na postavljeni upit

Modeli (ima ih više) različito procjenjuju tu vjerojatnost

Metode modifikacije upita

Ostale metode

Klasteriranje – pretpostavka da su dokumenti u klasteru slični (slične relevantnosti za korisnika)

Obrada prirodnog jezika

18

4

Booleovo pretraživanje

Informacijska potreba se opisuje upitom, koji se sastoji od riječi povezanih Booleovim (logičkim) operatorima I (AND), OR (ILI), NE (NOT)

Informacijski AND (sustav OR sistem)

Ako dokument odgovara upitu, dokument je pronađen selekcija: NE (0) ili DA (1)

Pronađeni dokumenti nisu rangirani, jer ne postoji mjera sličnosti upita i dokumenta

Potrebno je umijede dobrog formuliranja upita

Mnogi profesionalni korisnici ga koriste iako je slabije od metoda s rangiranjem dokumenata

19

Booleovo pretraživanje

Riječi se kombiniraju log. operacijama I, ILI, NE (AND, OR, NOT)

find (traži) nafta – pronalaženje članaka s rječju nafta

find nafta I ugljen – pronalaženje članaka u kojima se istodobno pojavljuju riječi nafta i ugljen

find nafta ILI ugljen – pronalaženje članaka u kojima se spominju ili samo nafta ili samo ugljen ili istovremeno obje

find naft* – pronalaženje članaka u kojima se pojavljuju riječi koje počinju s naft, npr. nafta, nafte, nafti, naftom, naftni, naftaši

find “naftna industrija” – pronalaženje članaka u kojima su riječi naftna i industrija tvore frazu (izričaj) “naftna industrija”

find predsjednik NEAR republike – pronalaženje članaka u kojima su riječi predsjednik i republike bliske, ali ne moraju biti i susjedne

20

Primjer Booleovog pretraživanja

Baza dokumenata (podataka) EconLit

Dostup preko

On-line sustav koji nudi pristup velikom broju full-text i bibliografskih baza. Može se pretraživati gotovo 3000 full-text časopisa i više od 5000 publikacija koje nude sažetke, novinske preglede, enciklopedijske podatke. Sadrži baze: Business source premier, Academic source premier, Econlit, Business source complete, Regional business news, ERIC, LISTA, SOCindex, Newspaper source, Clinical pharmacology, Health source, PsycINFO.

21 22

23 24

5

25 26

27

Modeli vektorskog prostora

Koristi se matematički pojam vektora

U vektor ulaze pojmovi: riječi ili fraze (izričaji)

Svaki pojam (riječ) postaje dimenzijom u vektorskom prostoru, vektori se smatraju neovisnim (ortogonalnim)

Bilo koji tekst se reprezentira vektorom

Ako tekst sadrži pojam (riječ), dobiva ne-nula vrijednost u dimenziji kojoj pojam pripada

Kako svaki tekst ima ograničen skup pojmova (riječi), a vokabular može imati i milijun pojmova, vedina vektora je slabo popunjena

28

Primjer vektorskog modela

Vokabular ima 10 riječi: ekonomska, društvena, tehnička, prirodna, znanost, jest, nije, nikako, pripada, uvijek

Dokument ima sljededi tekst: “Ekonomska znanost jest društvena znanost”

Vektor dokumenta: {1,1,0,0,1,1,0,0,0,0}

29 30

Pretraživanje u modelu vektorskog prostora

Popis pojmova (riječi) po kojima se pretražuje tvori vektor upita Q

Izračunava se udaljenost između vektora upita Q i vektora svakog dokumenta u bazi dokumenata

Ispisuju se dokumenti čija je udaljenost od upita manja od zadanog praga P

Dokumenti se rangiraju po relevantnosti (najprije se ispisuju relevantni dokumenti, bliži upitu)

6

31

Pretraživanje u modelu vektorskog prostora

Neka je skup pojmova za pretraživanje pj, 1≤j≤P (tezaurus)

Za svaki dokument Di, 1≤i≤N definira se vektor pojmova Di=(di1, di2, …, dip), gdje je dij pojava j-tog pojma u i-tom dokumentu, a ima težinsku vrijednost: broj pojavljivanja j-tog pojma u i-tom dokumentu,

tzv. FP-frekvencija pojmova (TF-term frequency); mjera ima slabu snagu ako se pojam učestalo pojavljuje u puno dokumenata

logaritam inverza dijela kojeg pojam j ima u cjelini: log (N/nj); tzv. IFD-inverzna frekvencija dokumenata (IDF-inverse document frequency)

FP-IFD shema (TF-IDF) je umnožak vrijednosti FP i IFD

32

Pretraživanje u modelu vektorskog prostora

Izračunava se udaljenost između vektora upita Q=(q1, q2, …, qp) i vektora pojedinih dokumenata Di=(di1, di2, …, dip) Kosinus (kosinusna udaljenost, korelacija) dvaju vektora

Kosinus ima svojstvo da vrijednost 1,0 imaju identični vektori, a 0,0 imaju ortogonalni (potpuno različiti) vektori

33

Primjer

Pojmovi: p1=baza, p2=podataka, p3=SQL, p4=regresija, p5=vjerojatnost, p6=linearna

Dokumenti: d1-d10

Vektor pojmova p1 p2 p3 p4 p5 p6

d1 24 21 9 0 0 3

d2 32 10 5 0 3 0

d3 12 16 5 0 0 0

d4 6 7 2 0 0 0

d5 43 31 20 0 3 0

d6 2 0 0 18 7 16

d7 0 0 1 32 12 0

d8 3 0 0 22 4 2

d9 1 0 0 34 27 25

d10 6 0 0 17 4 23 34

Primjer (2)

Vektor upita: Q=(1,0,1,0,0,0) pokazuje pretraživanje po pojmovima “baza” i “SQL”

Po FP (TF) shemi najbolji je dokument d7

Po FP-IFD (TF-IDF) shemi najbolji je d2

Dokument FP (TF)

udaljenost

FP-IFD

(TF-IDF)

udaljenost

d1 0,70 0,32

d2 0,77 0,51

d3 0,58 0,24

d4 0,60 0,23

d5 0,79 0,43

d6 0,14 0,02

d7 0,06 0,01

d8 0,02 0,02

d9 0,09 0,01

d10 0,01 0,00

35

Metode modifikacije upita

Latentno semantičko indeksiranje (Latent Semantic Indexing - LSI) obično pretraživanje po riječima:

dokument sadrži traženu riječ ili ne (nema sredine)

LSI ispituje dokument kao cjelinu: gleda koji drugi dokumenti imaju iste riječi

(dokumenti koji imaju puno istih riječi su semantički slični)

u semantički sličnim dokumentima pronalazi i druge riječi po kojima pretražuje

ovaj jednostavan pristup korelira s načinom ljudskog pristupa – Iako LSI algoritam ne razumije sadržaj, daje dojam inteligentnog pronalaženja sličnih dokumenata.

Primjer: traženje po riječima De Morganovo pravilo daje dokumente koji sadrže tu

frazu (kao obično pretraživanje)

pronalazi i druge slične dokumente, jer se uz De Morganovo pravilo našlo da su i riječi logička varijabla semantički bliske, pa su pronađeni i dokumenti s tim riječima

Implementacija

Vedina sustava pretraživanja koristi invertirane liste Pi<da,…>,<db,…>, …<dn,…> i-ti pojam se nalazi u dokumentima da,db, …dn i može sadržavati dodatne informacije (broj pojavljivanja pojma u dokumentu)

Postupak izrade invertiranih lista je indeksiranje kojim se formira invertirani indeks

36

7

Implementacija

Vedina sustava uzima pojedine riječi kao pojmove

Neinformativne riječi (npr. a, ali, … the, of, a …) se ne indeksiraju – nazivaju se stop-riječima

Korjenovanje (engl. stemming) je uzimanje korijena riječi u indeks

Isti korijen se koristi u srodnim riječima – korijen naft se koristi u riječima nafta, naftaši, naftna …

Pretraživanje po korijenu riječi je efikasnije (naročito u flektivnim jezicima kakav je hrvatski jezik)

Indeksirati se mogu fraze (izričaji) npr. “informacijski sustav” ili “information retrieval”

37 38

SMART - sustav za pretraživanje dokumenata

Jedan od prvih i najboljih sustava za pretraživanje dokumenata, razvijen na Cornell University (Gerard Salton)

Koristi model vektorskog prostora

Obavlja automatsko indeksiranje:

najprije izbacuje stop-riječi (uz pomod pripremljene liste stop-riječi),

pronalazi i uzima korijen riječi,

dodjeljuje težinsku vrijednost

Zadani upit prevodi u vektor, a zatim ispituje njegovu sličnost (udaljenost) prema dokumentima u vektorskom prostoru

Rangira dokumente te ispisuje prvih n dokumenata (n određuje korisnik)

Može koristiti povratnu vezu, kojom korigira prvotno zadani upit

39

O'Neill Criticizes Europe on Grants PITTSBURGH (AP)

Treasury Secretary Paul O'Neill expressed irritation Wednesday that European countries have refused to go along with a U.S. proposal to boost the amount of direct grants rich nations offer poor countries. The Bush administration is pushing a plan to increase the amount of direct grants the World Bank provides the poorest nations to 50 percent of assistance, reducing use of loans to these nations.

o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a us proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nations to 50 percent of assistance reducing use of loans to these nations

original

deformatiranje

o'neill criticizes europe on grants treasury secretary paul o'neill expressed irritation wednesday that european countries have refused to go along with a US proposal to boost the amount of direct grants rich nations offer poor countries the bush administration is pushing a plan to increase the amount of direct grants the world bank provides the poorest nations to 50 percent of assistance reducing use of loans to these nations

stop riječi

40

o'neill criticizes europe grants treasury secretary paul o'neill expressed irritation european countries refused US proposal boost direct grants rich nations poor countries bush administration pushing plan increase amount direct grants world bank poorest nations assistance loans nations o'neill criticizes europe grants treasury secretary

paul o'neill expressed irritation european countries refused US proposal boost direct grants rich nations poor countries bush administration pushing plan increase amount direct grants world bank poorest nations assistance loans nations

bez stop riječi

uzimanje korijena

administrat amount assist bank boost bush countr (2) direct europ express grant (2)

increas irritat loan nation (3) o'neill paul plan poor (2) propos push

refus rich secretar treasur US world

konačan popis riječi

Druge primjene pretraživanja informacija

Filtriranje poruka e-pošte: eliminacija nepoželjnih poruka ili pronalaženje specifičnih poruka

Media clipping usluge: pronalaženje značajnih dokumenata po nekom kriteriju i njihovo predstavljanje krajnjem korisniku

41

Web kao kolekcija (baza) dokumenata

Struktura dokumenata nije propisana Distribuirano stvaranje i povezivanje

sadržaja demokratizira publiciranje informacija

Sadržaj varira od znanstvene istine do namjerne laži, informacije mogu biti kontradiktorne, zastarjele, …

Sadržaj je nestrukturiran (slike, tekst, html …), polustrukturiran (XML, označene slike), strukturiran (baze dokumenata)…

Dokumenti mogu biti dinamički generirani (ne postoje kao samostalne jedinice, stvaraju se iz drugih podataka) Web

8

Web – indeksiranje i pretraživanje

Web

Dodatni indeksi

“Web-pauk”

indeksiranje

Indeksi

Search

Korisnik

44

Načini pronalaženja dokumenata na Webu

Navigacija (“surfanje”)

Pretraživanje po riječima (tražilice)

Korištenje kataloga

Korištenje specijalnih jezika za pretraživanje

45

Navigacija (browsing)

Hipertekstno pretraživanje dokumenata

Nakon odabira polaznog dokumenta (adresa?) slijedi napredovanje kroz niz dokumenata putem hipertekstnih poveznica

Rezultati pretraživanja: slabi

Opasnost: izgubljenost u hiperprostoru !

A C

B D

46

Tražilice na Webu (search engines, index servers)

Pretraživanjem indeksa (kazala) pronalaze se dokumenti

metode pretraživanja:

ključne riječi kombinirane logičkim operacijama

rangiranje dokumenata

indeks se konstantno obnavlja

tražilice:

Google, AltaVista

47 48

AND

fraza (izričaj)

OR

NOT

9

49 50

51

Rangiranje u Googleu – algoritam PageRank

PageRank je algoritam analize povezanosti hipertekstnih dokumenata (nazvan po Larry Pageu)

Dodjeljuje numeričku vrijednost svakom dokumentu u skupu hipertekstnih dokumenata (npr. webu) kojom opisuje relativnu važnost dokumenta u skupu

Može se primijeniti u bilo kojem skupu dokumenata koji se međusobno referenciraju (povezuju)

Numerička vrijednost dokumenta E je PageRank of E ili PR(E)

52

PageRank

Umjesto brojanja izravnih veza, PageRank tumači vezu sa stranice A na stranicu B kao glas stranice A za stranicu B

PageRank uzima u obzir i važnost svake stranice koja daje glas (glasovi nekih stranica su vredniji) na taj način dajudi povezanoj stranici vedu vrijednost

Važne stranice dobivaju viši PageRank i pojavljuju se na vrhu rezultata pretraživanja

53

PageRank

54

http://en.wikipedia.org/wiki/PageRank

10

55 56

57

Katalozi na Webu (subject trees, directories)

hijerarhijski uređeni katalozi Web dokumenata

katalozi:

Yahoo!

58

Yahoo

59

Pretraživanje nestrukturiranih slikovnih i zvučnih podataka

Pretraživanje po primjerima (query-by-example) korisnik postavlja upit definiranjem vrijednosti atributa traženih objekata

baza dokumenata (multimedijskih objekata) vrada listu rangiranih pronađenih objekata

korisnik pregledava (ocjenjuje) listu, po potrebi korigira i ponovno postavlja upit

Primjer: QBIC (Query By Image Content) tvrtke IBM pretražuje baze slika po svojstvima: postotak boje, raspored boje,

tekstura slike

informacije: wwwqbic.almaden.ibm.com

primjer upotrebe: www.hermitagemuseum.org (St Petersburg) http://www.hermitagemuseum.org/fcgi-bin/db2www/qbicSearch.mac/qbic?selLang=English

Razvoj weba

60

11

Web 1.0 web 3.0 (semantički web)

U postojedem webu dokumenti su opisani HTML-om koji označava grafičke i neke sadržajne elemente

Ne postoji sadržajna označenost jedino čitatelj razumije sadržaj, ali ne i stroj

Semantički web unosi u dokument značenjske (semantičke) oznake sadržaj razumije i stroj

XML kao pogodan jezik

61

Semantički web: XML

<?xml version="1.0" encoding="UTF-8"?>

<poruka>

<primatelj>[email protected]</primatelj >

<pošiljatelj>[email protected]</pošiljatelj>

<predmet>Pozdrav</predmet>

<sadržaj>Dobro jutro!</sadržaj>

</poruka>

62

Semantički web: elementi

XML

RDF (Resource Description Framework)

OWL (Web Ontology Language)

63

Semantički web: RDF

RDF-om se opisuju resursi na webu, primjerice dokument na webu

Resurs je sve što može imati URI (Uniform Resource Identifier)

RDF identificira resurs navodedi web-identifikator, svojstvo resursa i vrijednost svojstva

Resurs-svojstvo-vrijednost čini tvrdnju oblika subjekt-predikat-objekt

64

Semantički web: RDF

Primjer: resurs je „http://www.efzg.hr/mvarga“, svojstvo „autor“, vrijednost „Mladen Varga“

<?xml version="1.0"?>

<RDF>

<Description about="http://www.efzg.hr/mvarga">

<autor>Mladen Varga</autor>

<pocetnastr>http://www.efzg.hr</pocetnastr>

</Description>

</RDF>

65

Semantički web: ontologija

Da bi ljudi (strojevi) mogli komunicirati trebaju se služiti zajedničkim vokabularom

Formalni vokabular koji definira klase pojmova, njihova svojstva i odnose naziva se ontologijom

Primjeri ontologija

Friend of a Friend (ontologija za opis osoba i odnosa prema drugim ljudima i objektima)

WordNet (leksički referentni sustav)

Gene Ontology (genska ontologija)

DublinCore (ontologija dokumenata)

66

12

Semantički web: ontologija DublinCore

vokabular od 15 svojstava resursa: contributor, coverage, creator, format, date, description, identifier, language, publisher, relation, rights, source, subject, title, type

ISO Standard 15836:2009

Koristi se u imenskom prostoru dc: http://purl.org/dc/elements/1.1/ ili dcterms: http://purl.org/dc/terms/

67

Semantički web: ontologija DublinCore

<?xml version="1.0"?>

<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:dc= "http://purl.org/dc/elements/1.1/">

<rdf:Description rdf:about="http://www.efzg.hr">

<dc:description>Portal Ekonomskog fakulteta</dc:description>

<dc:publisher>Ekonomski fakultet - Zagreb</dc:publisher>

<dc:type>web-portal</dc:type>

</rdf:Description>

</rdf:RDF>

68

SPARQL: upitni jezik za RDF

PREFIX dc: <http://purl.org/dc/elements/1.1/>

SELECT ?title

WHERE { <http://example.org/book/book1> dc:title ?title }

69 70

Sustav za upravljanje sadržajem - Content Management System (CMS)

kombinacija baza podataka, baza dokumenata (datoteka) i softvera za pohranjivanje i pronalaženje velikih količina podataka

razlikuje se od transakcijskih baza podataka, jer sadrži i indeksira tekst, audio, video – pronalaženje podataka uz pomod ključnih riječi ( information retrieval)

koristi se za kreiranje portala, za obradu elektroničkih i web-dokumenata

71

Sudionici upravljanja sadržajem

Urednik sadržaja određuje koji de se sadržaj i gdje publicirati

Publicist sadržaja publicira sadržaj

Autor(i) sadržaja stvara sadržaj