17
Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 1 * Idas - sin mesenskog kralja Afareja i njegove žene Arene, čovjek goleme snage. Od boga mora Posejdona dobio je krilata kola na kojima se vozio u boj. Sa svojim bratom Linkejem, koji se isticao izuzetno oštrim vidom, sudjelovao je u pohodu Argonauta u Kolhidu, u potrazi za zlatnim runom. mr Dragutin Vuković, dipl.inž. Microlab d.o.o. Savska cesta 41, pp.17 41000 Zagreb HRVATSKA Primjena tehnika distribuirane umjetne inteligencije u traženju i dohvatu dokumenata: projekt IDDAS * Sažetak: Identificiraju se problemi pri pronalaženju u dohvatu dokumenata u distribuiranim informacijskim sustavima, u kojima su velike količine dokumenata pohranjene na geografski raspršenim, ali umreženim računalima. Raspoznaju se tehnike distribuirane umjetne inteli- gencije koje daju mogućnosti za rješavanje navedenih problema. Opisana je primjena znanja i metaznanja o dokumentu, te pravila za osvježavanje metaznanja asimiliranjem svjedočanstava o značaju dokumenta. Predložena je arhitektura sustava s dinamičkim razmještanjem dokumenata, zasnovana na ovim tehnikama. Abstract: Problems regarding the search and retrieval of documents in distributed information systems, in which there are wast amounts of documents stored on geografically dispersed, networked computers, are identified. Techniques of distributed artificial intelligence are recognized, giving possibilities for solution to problems mentioned. Use of document knowledge and metaknowledge is described, as well as heuristics for updating metaknowledge by assimilation of evidence about document's relevance. An architecture of system with dynamic allocation of documents, based on described techniques, is proposed. Uvod Računala se često koriste za pohranu informacija kao što su podaci, elektronička pošta, pisma, izvještaji, tabele, grafike, slike itd. Uobičajeni izraz za jedinicu takve informacije je dokument. Međutim, informacija pohranjena u dokumentima u višekorisničkim okolinama teško se iskorištava iz slijedećih razloga: 1. ime koje se dodjeljuje dokumentu je kratko i nedovoljno opisuje sadržaj dokumenta; 2. ime dano dokumentu nije uvijek jedinstveno; 3. ime dokumenta može imati različito značenje za različite korisnike;

Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 1

* Idas - sin mesenskog kralja Afareja i njegove žene Arene, čovjek goleme snage. Od boga mora Posejdona dobio je krilata kola na kojima se vozio u boj. Sa svojim bratom Linkejem, koji se isticao izuzetno oštrim vidom, sudjelovao je u pohodu Argonauta u Kolhidu, u potrazi za zlatnim runom.

mr Dragutin Vuković, dipl.inž.

Microlab d.o.o.

Savska cesta 41, pp.17

41000 Zagreb

HRVATSKA

Primjena tehnika distribuirane umjetne inteligencije

u traženju i dohvatu dokumenata: projekt IDDAS*

Sažetak: Identificiraju se problemi pri pronalaženju u dohvatu dokumenata u distribuiranim

informacijskim sustavima, u kojima su velike količine dokumenata pohranjene na geografski

raspršenim, ali umreženim računalima. Raspoznaju se tehnike distribuirane umjetne inteli-

gencije koje daju mogućnosti za rješavanje navedenih problema. Opisana je primjena znanja i

metaznanja o dokumentu, te pravila za osvježavanje metaznanja asimiliranjem svjedočanstava

o značaju dokumenta. Predložena je arhitektura sustava s dinamičkim razmještanjem

dokumenata, zasnovana na ovim tehnikama.

Abstract: Problems regarding the search and retrieval of documents in distributed

information systems, in which there are wast amounts of documents stored on geografically

dispersed, networked computers, are identified. Techniques of distributed artificial

intelligence are recognized, giving possibilities for solution to problems mentioned. Use of

document knowledge and metaknowledge is described, as well as heuristics for updating

metaknowledge by assimilation of evidence about document's relevance. An architecture of

system with dynamic allocation of documents, based on described techniques, is proposed.

Uvod

Računala se često koriste za pohranu informacija kao što su podaci, elektronička pošta, pisma,

izvještaji, tabele, grafike, slike itd. Uobičajeni izraz za jedinicu takve informacije je

dokument. Međutim, informacija pohranjena u dokumentima u višekorisničkim okolinama

teško se iskorištava iz slijedećih razloga:

1. ime koje se dodjeljuje dokumentu je kratko i nedovoljno opisuje sadržaj dokumenta;

2. ime dano dokumentu nije uvijek jedinstveno;

3. ime dokumenta može imati različito značenje za različite korisnike;

Page 2: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 2

4. korisnici nisu svjesni dokumenata pohranjenih od strane drugih korisnika, niti gdje

su ti dokumenti pohranjeni, u kojem obliku su pohranjeni i kako su organizirani;

5. uzorci razdiobe dokumenata se mijenjaju s vremenom.

Problem se još pogoršava u okolinama gdje su korisnici razmješteni na fizički razdvojenim

računalima, kao što je slučaj u svim vrstama računarskih mreža.

Potrebna je neka metoda koja će pomoći korisnicima da upravljaju, koriste i dijele

informacije. Cilj projekta IDDAS je da se razvije distribuirani sustav dokumentacijskih

servera koji koriste znanje i metaznanje za upravljanje dokumentima i obradu upita.

Naš pristup projektu IDDAS je da se iskoriste koncepti iz automatizacije ureda, distribuirane

umjetne inteligencije, i strojnog učenja. Koncepti iz automatizacije ureda mogu se primijeniti

na izradu strukture za organiziranje dokumenata u distribuiranoj višekorisničkoj uredskoj

okolini: to zahtijeva analizu informacijskih potreba ureda i razvijanje podatkovnih modela

koji će omogućiti pristup kako strukturiranim tako i nestrukturiranim podacima. Prinicpi

distribuirane umjetne inteligencije mogu se upotrijebiti za razvoj distribuiranih, inteligentnih,

sustava za obradu upita koji učinkovito dohvaćaju informaciju smještenu negdje u prostranoj

mreži i prilagođuju algoritam dohvaćanja pojedinačnim korisnicima uz pomoć metaznanja

pribavljenog tijekom upotrebe sustava.

Strojno učenje se može koristiti za određivanje najboljeg skupa heurističkih pravila za

automatizirano prikupljanje i osvježavanje tog metaznanja.

Podloga

Pregled literature o automatizaciji ureda razotkriva nepodesnost sadašnjih sustava baza

podataka za rukovanje raznovrsnim tipovima podataka i primjena koje nalazimo u uredima.

Također su neprikladni za okolinu distribuiranih računala koje postaju sve raširenije i u

strukturiranim i u nestrukturiranim uredima. (Strukturirani ured obično se bavi velikim

količinama standardiziranih transakcija, dok je nestrukturirani ured zaokupljen profesionalnim

funkcijama u kojima je fokus na odabiru i postizanju cilja. Tipične aktivnosti u strukturiranom

uredu uključuju tipkanje i rad sa zapisima. Nestrukturirani uredi koriste podršku odlučivanju i

rješavanju problema kao što su tabelarni kalkulatori i poslovna grafika.)

Tradicionalno, uredi su održavali informacijske sustave koristeći arhivske ormare u koje su

spremali papirne primjerke važnih informacija. Informacije su organizirane po abecednoj,

geografskoj, numeričkoj, predmetnoj ili kronološkoj metodi. Dijeljenje tih informacija unutar

velikog poduzeća često je otežano jer različiti odjeli koriste različite metode organizacije.

Računarski arhivski sustavi moraju se prilagoditi i strukturiranim i nestrukturiranim tipovima

dokumenata. Strukturirani dokumenti uključuju obrasce, tablice, računarski stvorene

Page 3: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 3

izvještaje, i ostale produkte tradicionalne obrade podataka; nestrukturirani dokumenti

uključuje tekstovne datoteke, programe, elektroničku poštu, grafike, slike, zvučno/glasovne

zapise, itd. Dodatno, postoje vanjski dokumenti čiji se opisi, a ne njihov sadržaj, unose u

računalo. Izraz multimedijski dokument koristiti će se s namjerom da obuhvati sve navedene

vrste dokumenata.

Brojni sustavi su oblikovani za obradu multimedijskih dokumenata. Oni su razvijani oko

paradigme baze podataka, i/ili paradigme arhivskog ormara. Među njima su IBM-ov "Office-

by-example", DISSOS, INGRES, Xerox Star Office System i Visi On operativna okolina.

Ključni problem s kojim se treba suočiti pri dohvaćanju multimedijskih dokumenata je odabir

podatkovnog modela koji može pružiti ujednačeni prilaz za pristup strukturiranim i

nestrukturiranim podacima. Tekuća istraživanja su usredsređena na tri modela: nadomještanje,

hipertekst, i posuvrnuta datoteka. Model posuvrnute datoteke nudi najveće mogućnosti, ali

nameće i velike zahtjeve za spremišnim prostorom i održavanjem. Hipertekst omogućuje veze

ka unutarnjoj strukturi dokumenta kao i veze s drugim dokumentima. Dohvat dokumenta u

hipertekstu je rezultat kretanja po tim vezama. Problem je kako održavati i obnavljati te veze

u distribuiranoj okolini.

Nadomjestak je šifrirana predstava dokumenta koja služi kao indeks za original. Pošto se

pretraživanje provodi nad nadomjescima a ne nad samim dokumentima, pretraživanje troši

manje vremena. Pošto se nadomjesci mogu kopirati i distribuirati kroz čitavu mrežu, to je

model koji je odabran za IDDAS projekt.

Kao dodatak izučavanju podatkovnih modela, veliki dio posla bio je posvećen konstruiranju

složenih mehanizama za dohvat. Ti mehanizmi su zasnovani na prepoznavanju uzoraka kao i

na razmatranjima iz teorije odlučivanja. Međutim, oni se ne mogu jednostavno protegnuti na

distribuirane okoline, i osjećamo da je tu mjesto gdje se uspješno može primijeniti

distribuirana umjetna inteligencija.

Svojstva sustava distribuirane umjetne inteligencije određena su metodama upravljanja i

suradnje korištenim za organiziranje njihovog rada. Te metode mogu se opisati prema

njihovim pristupima u dijeljenju zadataka i rezultata. Davis i Smith [SMIT81] razvili su

osnovnu metodologiju za svaku od njih, koristeći pregovaranje i formalizam ugovorne mreže

za dijeljenje zadataka.

Koncept distribuiranog rješavanja problema suradnjom ekspertnih sustava prvi su razmatrali

Lesser i Erman tijekom razvijanja sustava za raspoznavanje govora, Hearsay-II [ERMA75],

[LESS77]. Taj sustav je uveo ideju višestrukih izvora znanja, koji međusobno dijele rezultate

i hipoteze. U toj interakciji korištena je struktura podataka nazvana školska ploča,

višerazinska struktura koja sadrži probne rezultate raspoložive svim izvorima i koje svaki

izvor znanja može mijenjati, stvarati i brisati. Svaka razina školske ploče predstavlja

Page 4: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 4

drugačiju predstavu prostora problema. Elementi svake razine su hipoteze sa stalnim

pridjevima o gledištima na toj razini. Pridjevi su mehanizmi za ugradnju svrhovitog

raspoređivanja izvora znanja i njihovih, podacima vođenih, izvršavanja. Kasnije, razvijena je

formalna karakterizacija školskih ploča za upravljanje inteligentnim sustavima.

Rad Foxa [FOX81] pokazao je sličnost između organizacijskih teorija i oblikovanja složenih

sustava umjetne inteligencija, zasnovanih na znanju. Također, očekuje se da, kako se uvode u

urede i inženjerske okoline [CULL80], računala budu integrirana u postojeću strukturu, koja

je često hijerarhijska. Tenney i Sandell [TENN81], [___81] pružili su sredstva za izgradnju i

analizu tih struktura u okolini za donošenje odluka. Taj rad se protegnuo na opis složenih

procesa za njihovo instanciranje u distribuiranim računarskim sustavima [PATT85].

Performanse mnogih, na znanju zasnovanih, sustava mogu se pripisati masovnosti

primjenjenih heurističkih pravila specifičnih za razna područja. Heuristika pravila su

neformalna, prosudbena pravila koja nastaju empirijski kroz specijalizaciju, generalizaciju i

analogiju i koja su naučena iz prethodnih razmatranja [LENA82]. U kontekstu pretraživanja,

one sugeriraju obećavajuće alternative u čvoru i ukazuju na one neproduktivne.

Automatizirano prikupljanje tog znanja odavno je bilo cilj istraživača umjetne inteligencije

[REND87], [DIET79].

Spektar strojnog učenja proteže se od učenja napamet kao najniže razine, do induktivnog

učenja kao najviše razine [MICH83]. Lenatovi programi AM i EURISKO bili su ogledi u

učenju otkrivanjem, paradigmi induktivnog učenja, koja utjelovljuje principe formiranja

empirijske teorije [LENA83], [LENA83a]. Otkrivanje teorija vođeno je skupom heurističkih

pravila.

Vrijednost pojedinačnih heurističkih pravila za pretraživanje opsežno je proučavana u

[GASC77]. Međutim, problem kombiniranja znanja iz nekoliko pravila još nije detaljno

proučen. Ukupni skup heuristika, primijenjen na zadatak rješavanja problema kao što je

dohvat dokumenata, trebao bi se idealno ponašati bolje od bilo kojeg svog podskupa.

Znanje i metaznanje o dokumentu

Organizacija dokumenata

Pretpostavljeni okoliš za projekt IDDAS sastoji se od mreže jednokorisničkih računala, od

kojih se svako identificira imenom (adresom, naslovom). Dokumenti, osnovne jedinke

informacija u mreži, distribuirani su među računalima. Dokument nije trajno lociran, već

može migrirati na druga računala. Različite verzije jednog dokumenta na istom računalu su

dozvoljene, ali ne i dvije kopije s istim imenom. Pošto dokument i njegove kopije na drugim

Page 5: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 5

računalima imaju ista imena, potrebno je ime dokumenta udružiti s imenom računala da bi se

dobilo ime dokumenta jedinstveno na razini mreže. Skup dokumenata u sustavu se dinamički

mijenja jer se novi dokumenti stvaraju i kopiraju od drugih korisnika, a ponekad se postojeći

dokumenti brišu ili sele na druge lokacije.

Imenik dokumenata

Imenik dokumenata, smješten na svakom računalu, sadrži znanje, na razini objekta, o logičkoj

i fizičkoj strukturi dokumenata te metaznanje o sadržaju i smještaju dokumenata. Imenik je

organiziran u tri jedinice: nadomjesci dokumenata, spisak ključnih riječi, i metaznanje o

dokumentu.

Nadomjesci dokumenta

Svaki dokument predstavljen je u imeniku dokumenata nadomjestkom koji sadrži njegove

pridjeve. Nadomjestak se konstruira iz informacija pribavljenih od operacijskog sustava,

korisnikovih informacija i pretpostavljenih vrijednosti. Dokument i njegov nadomjestak se

nadalje dopunjuju i brišu u skladu s upotrebom sustava. Nadomjesci zauzimaju samo mali dio

spremišnog prostora potrebnog za pohranu dokumenata ali uglavnom sadrže dovoljno

informacija da bi korisnik mogao zaključiti da li mu je dokument koristan ili ne. Te

informacije sastoje se od slijedećih pridjeva: ime, verzija, smještaj, autori, datum stvaranja,

tip, pristupna prava i riječnik ključnih riječi.

Ključne riječi predstavljaju sadržaj dokumenta; svaki dokument može biti povezan s nekoliko

ključnih riječi i svaka ključna riječ može biti povezana s mnogo dokumenata. Korisnik može

postaviti upit na bazi sadržaja o vlastitim, lokalno pohranjenim, dokumentima ili o

dokumentima pohranjenim na drugim računalima. Automatizirani sustavi za razumijevanje

teksta mogli bi obraditi takav upit, čitajući redom dokumente, ali to rješenje bi bilo sporo i

skupo. Imena dokumenata mogu dati ideju o njihovom sadržaju ali nisu dovoljno opisna za

pouzdanu obradu upita na bazi sadržaja. Međutim, ako se imenu doda skup ključnih riječi

postiže se precizniji opis sadržaja dokumenta. Dohvat dokumenta može se upravljati tim

ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim

pridjevima također su moguće.

Riječnik ključnih riječi

Nakon što je dokument stvoren ili izmijenjen, od autora se zahtijeva da stvori (dopuni)

ključne riječi koje predstavljaju sadržaj. Dohvat na bazi sadržaja pouzdava se u preciznost

ključnih riječi, tako da je suštinski važno pronaći ujednačenu predstavu ključnih riječi za sve

Page 6: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 6

korisnike. Taj problem se pojednostavnjuje pridruživanjem skupa svih ključnih riječi jednom

od njegovih pravih podskupova, primarnim ključnim riječima. Pridruživanje se postiže na dva

načina:

1. sinonimi i ključne riječi u bliskom odnosu pridružuju se jednoj od sinonimnih

ključnih riječi, i

2. ključne riječi koje su instance više kategorije pridružuju se nazivu kategorije.

Na primjer, ključne riječi "auto", "automobil" i "kola" bit će pridružene primarnoj ključnoj

riječi "automobil". Kao primjer druge vrste pridruživanja, ključne riječi "jabuka", "kruška",

"banana" su instance općenitije kategorije "voće" pa će stoga sve četiri ključne riječi biti

pridružene primarnoj ključnoj riječi "voće".

Ovo pridruživanje je ovisno o primjeni. Riječnik ključnih riječi se prilagođuje primjeni na tri

načina:

1. razdvajanjem nekih kategorija u specifičnije podkategorije,

2. stapanjem više kategorija u jednu općenitiju katagoriju, i

3. dodavanjem novih ključnih riječi i kategorija koje do tada nisu bile na raspolaganju.

Metaznanje

U tipičnom sustavu za upravljanje dokumentima, dohvat dokumenata sastoji se od uparivanja

predikata za pretragu sa pridjevima dokumenata na popisu. Dokumenti za koje je uparivanje

uspješno dohvaćaju se iz spremišta. U distribuiranom sustavu za upravljanje dokumentima

imenici dokumenata mogu biti centralizirani ili distribuirani, sa ili bez zalihosti. Međutim,

informacije u imenicima su koherentne na razini čitavog sustava; zalihosne kopije imenika

služe samo da bi se smanjilo vrijeme pristupa imenicima. Zbog te koherentnosti, odaziv na

upit za dohvat dokumenta neovisan je o identitetu autora upita.

Međutim, dokumenti značajni jednom korisniku mogu biti sasvim različiti od dokumenata

koji su važni nekom drugom. To je problem koji na prvi pogled izgleda da proizlazi iz

nedostatka specifičnosti pri formuliranju upita: detaljniji izbor predikata trebao bi rezultirati

odbacivanjem iz selekcije dokumenata koji su nevažni korisniku. Za to bi, međutim, trebalo

raspolagati vrlo sofisticiranim jezikom za postavljanje upita, dovoljno bogatim da omogući

izražavanje korisnikovih ciljeva, planova i interesa. Također bi bilo potrebno i složenije

predstavljanje dokumenata, s više detalja. Poboljšano ponašanje sustava bilo bi zasjenjeno

povećanjem napora kod formuliranja upita.

Page 7: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 7

Pretpostavimo da je odgovor na neki upit skup dohvaćenih dokumenata D (slika 1). Općenito, D

će biti aproksimacija skupa značajnih dokumenata Z. Idealan dohvat dokumenata je onaj za koji

vrijedi D=Z za sve upite.

A

Slika 1.: Skup dohvaćenih dokumenata D i skup značajnih dokumenata Z kao podskupovi skupa

svih dokumenata A

Realistični cilj je da se maksimiziraju:

- udio dohvaćenih dokumenata u skupu značajnih, određen sa:

| |

| |

- udio značajnih dokumenata u skupu dohvaćenih, određen sa:

| |

| |

Idealni odziv na upit ovisi o modelu korisnika koji postavlja upit. Pretpostavimo da je Zi idalan

odziv za korisnika ki. Idealan odziv sustava bez ikakovog modela za njegove korisnike, bit će:

Ako pretpostavimo selekciju od 100% i SJEĆANJE od 100%, za korisnika kj PRECIZNOST će

biti:

| |

|⋃ |

Dakle, u odsustvu bilo kakve informacije o korisniku, bilo eksplicitno navedene u upitu ili

ugrađene u bazu znanja sustava, najbolji mogući odziv bit će unija svih skupova značajnih

dokumenata opisanih upitom, iz perspektive svakog korisnika. U velikim višekorisničkim

sustavima odziv će tada sadržavati veliki broj beznačajnih dokumenata. Bolji odziv može se

postići samo ako u sustavu postoje modeli njegovih korisnika.

Page 8: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 8

IDDAS treba pstvariti preciznije odzive tako što pohranjuje metaznanje o dokumentima na

svakoj stanici. Metaznanje omogućuje stvaranje modela trenutnog stanja sustava i modela

osobnih sklonosti lokalnog korisnika. Ti modeli su dinamični, tj., oni su samoinicijalizirajući i

razvijaju se kako se sustav koristi, tako da sustav poboljšava svoje performanse korištenjem.

Svaki element metaznanja je četvorka koja se sastoji od dviju oznaka korisnika, ključne riječi i

faktora izvjesnosti. Faktor izvjesnosti, FI, je broj iz intervala 0,1 . Na primjer, element znanja:

(Ivan, Josip, izvoz, 0.8)

predstavlja slijedeće:

Ivanovo dosadašnje iskustvo ukazuje na to da je vjerojatnost pronalaženja

značajnih dokumenata koji sadrže informacije o izvozu među dokumentima čiji

vlasnik je Josip, dosta visoka i iznosi 80%.

Formalno, za zadani skup svih korisnika, K, i skup svih primarnih ključnih riječi, R, definira se

funkcija metaznanja, M, kao pridruživanje:

[ ]

Metaznanje je particionirano među računalima u mreži tako da ako je Ki, podskup skupa K, skup

korisnika na računalu i, tada je samo metaznanje za Ki K R pohranjeno na računalu i.

Faktor izvjesnosti predstavlja osnovu za uređenje potrage za dokumentima. On odražava:

1. prostranost informacija u računalu koje se tiču specifične ključne riječi,

2. koliko su se upotrebljivim pokazali u prošlosti dokumenti povezani s tom ključnom

riječi, i

3. koliko su svježe informacija kojima raspolaže računalo.

Metaznanje se najprije inicijalizira s nekim početnim vrijednostima faktora izvjesnosti. Tehnike

za mijenjanje tih vrijednosti za vrijeme upotrebe sustava, određene su heurističkim pravilima.

Kad bi korisnik raspolagao metaznanjem o svakom dokumentu a ne samo o korisnicima sustava,

znanje bi bilo precizno. Međutim, ovaj pristup bi imao dva nedostatka:

1. za prosječni broj dokumenata po korisniku, n, potrebno metaznanje bilo bi n puta

uvećano, i

2. ne bi se moglo načiniti predviđanje značaja dokumenta kod nastajanja novih

dokumenata.

S druge strane, pamćenjem metaznanja kao relacije između dva korisnika, novim dokumentima

se može odrediti značaj na osnovi te relacije. Postoje pozitivne korelacije među pridjevima

korisnikovih dokumenata i razumno je je novim dokumentima tog korisnika dodijeliti slične

pridjeve.

Page 9: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 9

Arhitektura sustava

Obrada upita

IDDAS sustav radi u mreži računala. Računala dijele zadatke, znanje i metaznanje surađujući u

obradi upita koji uključuju dohvaćanje dokumenata. Prvenstveni problem u dohvatu dokumenata

je pretraživanje, tj. pronalaženje dokumenata. Strategija u traženju dokumenta je da se zadovolji

postavljeni upit a pri tome minimizira

1. potrošena procesna moć računala,

2. komunikacija među računalima, i

3. vrijeme potrebno za dovršavanje pretrage.

Poteškoće u provođenju ove strategije su u tome da

1. upit predstavlja zadatak koji nije potpuno uobličen, pa ga se možda neće moći egzaktno

zadovoljiti, i

2. pretraga treba prestati na svim računalima čim prije nakon što upit bude zadovoljen ili

se pokaže nezadovoljivim.

U IDDAS sustavu upotrebljava se metaznanje za vođenje pretraživanja. Pretraživanje se provodi

paralelno na više računala i učinkovitost mu se poboljšava upotrebom sustava.

Složeni upit se obrađuje tako da se najprije razloži u jednostavnije podupite, upotrebom lokalnog

metaznanja, tako da se prostor pretraživanja svakog podupita svede na dokumente u vlasništvu

jednog korisnika. Podupiti se zatim šalju odgovarajućim računalima na obradu. Rezultati se

prenose u računalo koje je poslalo podupite, gdje se oni kombiniraju i rangiraju prema

padajućem redu značaja.

Na primjer pretpostavimo da je postavljen slijedeći upit:

(oznaka_upita, izvorište, odredište, opis) =

(upit_1, korisnik_1, svi, "nađi sve dokumente o kreditima")

i pretpostavimo da je metaznanje korisnika korisnik_1 slijedeće:

(korisnik_1, korisnik_1, kredit, 0.6)

(korisnik_1, korisnik_3, kredit, 0.3)

(korisnik_1, korisnik_7, kredit, 0.8)

Osnovni upit bit će na osnovi tog metaznanja razložen na slijedeće podupite:

(upit_1_a, korisnik_1, korisnik_1, "nađi sve dokumente o kreditima")

(upit_1_b, korisnik_1, korisnik_3, "nađi sve dokumente o kreditima")

(upit_1_c, korisnik_1, korisnik_7, "nađi sve dokumente o kreditima")

Page 10: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 10

Rezultati ovih podupita vratiti će se korisniku korisnik_1 gdje će se poredati prema faktorima

izvjesnosti kao

[rezultat_1_c, rezultat_1_a, rezultat_1_b]

Ako je podupit zasnovan na sadržaju, značajno metaznanje se također šalje u izvorište upita

zajedno s dokumentima i nadomjescima koji čine rezultat podupita. Preneseno metaznanje se

koristi za dopunjavanje metaznanja primaoca u skladu sa strategijom učenja koja će biti opisana.

Kad lokalni dokument-server otkrije novog korisnika u mreži, on mu dodjeljuje pretpostavljeni

faktor izvjesnosti i pridružuje ga sa svim ključnim riječima koje ima pohranjene. Jedine ključne

riječi s kojima započinje novi korisnik su one pridružene njegovim vlastitim dokumentima.

Dodatne ključne riječi mogu se pojaviti u bazi znanja kao sporedni učinak obrade upita. Druge

aktivnosti kao što su stvaranje, brisanje i kopiranje dokumenata zahtijevaju suradnju među

računalima, što također dovodi do promjena u metaznanju.

Dinamičko razmještanje dokumenata

Značajna prosudba potrebna je kod razmatranja smještaja dokumenta u distribuiranom sustavu.

Parametri za ovu prosudbu su zauzeće memorije, vrijeme pristupa, vrijeme i teškoća mijenjanja

dokumenta, koherentnost dokumenta, sigurnost dokumenta i pouzdanost dokumenta. Ako se ne

dozvoli postojanje više od jednog primjerka dokumenta u sustavu time je uključeno: garantirana

koherentnost podataka, spor pristup dokumentu i minimalno zauzeće memorije. Postojanje većeg

broja kopija istog dokumenta u sustavu podrazumijeva: veće zauzeće memorije, brži pristup

dokumentu, povećana pouzdanost, sporije mijenjanje dokumenta, manju sigurnost dokumenta i

mogući gubitak koherentnosti dokumenta.

U IDDAS sustavu dinamički se razmještaju dokumenti što uključuje smještanje, kopiranje i

migraciju dokumenata u mreži računala. Problem razmještaja definiramo kako slijedi:

Zadano: broj dohvata i izmjena svakog dokumenta sa svake stanice, i topologija mreže,

kapaciteti komunikacijskih kanala, troškovi komunikacije, spremišni kapaciteti računala i

troškovi pohrane dokumenta na računalima.

Traži se: razdioba dokumenata po računalima u mreži koja minimizira ukupne troškove i ne

prelazi ograničenja kapaciteta, i razdioba metaznanja po računalima u mreži koja minimizira zbir

troškova obrade upita i troškova osvježavanja metaznanja.

Pretpostavlja se da se svi upiti mogu razložiti u podupite o pojedinačnim dokumentima, tako da

se smještaj svakog dokumenta može razmatrati neovisno. Iako to smanjuje složenost problema,

pokazuje se da je problem NP kompletan. Heuristička pravila se koriste za svladavanje te

složenosti. Ovdje predložena pravila zasnovana su na značaju dokumenata korisnicima.

Page 11: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 11

Osvježavanje metaznanja

Dinamika sustava

IDDAS se razvija za upotrebu u širokom opsegu uredskih okolina. Stanje te okoline u bilo kojem

trenutku dano je sadržajem i konfiguracijom metaznanja i baza dokumenata u sustavu. Naredbe

koje ispostavljaju korisnici čine ulazne informacje sustava, a dohvaćeni dokumenti i nadomjesci

predstavljaju izlaz iz sustava. Stanje sustava se mijenja kao rezultat izvođenja naredbe.

Blokovska šema dinamike sustava prikazana je slikom 2.

h(k)

x(k)y(k)

Izlaz:

dohva}eni

dokumenti i

nadomjesci

Ulaz:

naredbe

Stroj za obradu

upita

Podsustav

za u~enje

Baza dokumenatai

metaznanje

y(k) = q(x(k),h(k)) h(k+1) = a(x(k),h(k))

Slika 2.: Blokovska šema dinamike sustava

Heuristička pravila za osvježavanje metaznanja

Heuristička pravila za osvježavanje i nadopunjavanje metaznanja zasnovana su na paradigmi

inteligentnog uredskog djelatnika koji provodi uređenu potragu za dokumentima na osnovi

prethodnih iskustava u uredskoj okolini.

Na primjer, ako Ivan zatraži od Josipa dokumente o kreditima i Josip mu pruži jedan ili više

dokumenata koji su značajni za Ivana, tada će Ivan upamtiti da Josipova baza dokumenata može

sadržavati i druge značajne dokumente o kreditima. S druge strane, ako Josip ne raspolaže niti

jednim dokumentom o kreditima, i ta vrsta dokumenata nije niti značajna za njega, Ivan će

naučiti da nema potrebe ubuduće postavljati Josipu upite u vezi te vrste dokumenata. U oba

slučaja, Josip može pretpostavljati da će Ivan nastaviti s potragom za dokumentima o kreditima i

na drugim mjestima, stoga će Josip povećati svoje vjerovanje u mogućnost da Ivan bude ubuduće

Page 12: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 12

dobar izvor dokumenata te vrste. To povećanje Josipovog vjerovanja bit će umjereno jer Ivanovo

novopribavljeno znanje o kreditima ne mora biti značajno za Josipa.

Skup heurističkih pravila koja se koriste u početnim pokusima ne uključuju diobu metaznanja.

Metaznanje korisnika dopunjuje se samo svjedočanstvima koja se direktno pribavljaju za vrijeme

obrade upita, a iskustvo drugih korisnika se ne prenosi. Također, neka od pravila sadrže

parametre koji se mogu podešavati. Za potrebe početnih pokusa razvijen je slijedeći skup

pravila:

Pravilo 1.

AKO dokument je brisan

TADA metaznanje se ne mijenja

Pravilo 2.

AKO korisnik_1 načini dokument

TADA metaznanje korisnika_1 o korisniku_1 koje se odnosi na svaku

ključnu riječ dokumenta povećava se na 1.0 (maksimalni značaj)

Pravilo 3.

AKO korisnik_1 ispostavi naredbu za dohvat po ključnoj_riječi_1

I barem jedan od nadomjestaka korisnika_2 sadrži ključnu_riječ_1

TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na

ključnu_riječ_1 se uvećava

(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na

ključnu_riječ_1 se uvećava

Pravilo 4.

AKO korisnik_1 ispostavi naredbu za dohvat po ključnoj_riječi_1

I niti jedan od nadomjestaka korisnika_2 ne sadrži ključnu_riječ_1

TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na

ključnu_riječ_1 se smanjuje na 0.0

(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na

ključnu_riječ_1 se uvećava

Pravilo 5.

AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1

I barem jedan od dokumenata korisnika_2 sadrži ključnu_riječ_1

TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na

ključnu_riječ_1 se mijenja, na osnovi najvećeg značaja

svih dokumenata korisnika_2 u vezi s ključnom_riječi_1

Page 13: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 13

(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na

ključnu_riječ_1 se uvećava

Pravilo 6.

AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1

I niti jedan od dokumenata korisnika_2 ne sadrži ključnu_riječ_1

TADA (a) metaznanje korisnika_1 o korisniku_2 koje se odnosi na

ključnu_riječ_1 se smanjuje na 0.0

(b) metaznanje korisnika_2 o korisniku_1 koje se odnosi na

ključnu_riječ_1 se uvećava

Pravilo 7.

AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1

I dokument_1 čiji je vlasnik korisnik_2 sadrži ključnu_riječ_1

I značaj dokumenta_1 za korisnika_1, po ključnoj_riječi_1,

prelazi migracijski prag

I korisnik_1 nema kopiju dokumenta_1

TADA (a) korisnik_1 kopira dokument_1 od korisnika_2

(b) metaznanje korisnika_1 o korisniku_1 koje se odnosi na

ključnu_riječ_1 dokumenta se povećava na 1.0

Pravilo 8.

AKO korisnik_1 ispostavi naredbu za čitanje po ključnoj_riječi_1

I korisnik_1 je kopirao dokument_1 od korisnika_2

I maksimalni značaj dokumenta_1 za korisnika_2 po bilo kojoj

ključnoj riječi je manji od praga brisanja

TADA dokument_1 se briše iz baze dokumenata korisnika_2

Asimilacija svjedočanstva

Prikazana heuristička pravila za učenje omogućuju mijenjanje metaznanja na osnovi novih

svjedočanstva, koja se tipično sastoje od procjene značaja dokumenta, promatranja dokumenta

koji se kopira i slično.

Plan osvježavanja metaznanja treba uzimati u obzir

1. vremensko prvenstvo: sustav je dinamičan i stoga nedavno pribavljena svjedočanstva

bolje pokazuju tekuće stanje sustava od onih pribavljenih ranije.

2. pouzdanost svjedočanstva: neke vrste svjedočanstva su pouzdanije od drugih. Na

primjer, ako Ivan pronađe kod Josipa nadomjestak s odgovarajućom ključnom riječi, ta

akcija sama po sebi ne mora značiti da će Josipovi dokumenti biti značajni za Ivana u

Page 14: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 14

budućunosti. Međutim, ako je Ivan pročitao dokument, vrijednost značaja koju mu je

pridružio predstavlja pouzdano svjedočanstvo. Pouzdanost izvora također je važna za

procjenu metaznanja poslanog od nekog korisnika. Kad Josip nudi Ivanu metaznanje o

dokumentima o kreditima, Ivan će ovo metaznanje prihvatiti samo ako se Josip u

prošlosti jest pokazao pouzdanim izvorom dokumenata o kreditima.

3. svojstvo zasićenja: kad je početni faktor izvjesnosti nekog elementa metaznanja visok,

dodatna potvrdna svjedočanstva neće ga značajno povećavati. Međutim, ako je

svjedočanstvo niječno, smanjenje faktora izvjesnosti bit će veliko. Situacija je potpuno

obrnuta ako je početna vrijednost faktora izvjesnosti mala.

Metoda mijenjanja metaznanja koja je razvijena za potrebe projekta uzima u obzir sve ove

uvjete. Osnovu metode čine dvije linearne funkcije f1 i f2, (slika 3).

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0 1

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0 1

NoviFI

StariFI

NoviFI

StariFI

f1(x) f2(x)Potvrdno svjedo~anstvo Nije~no svjedo~anstvo

Slika 3.: Linearne funkcije za promjenu metaznanja

Prva funkcija f1 upotrebljava se uz potvrdna svjedočanstva i povećava faktor izvjesnosti, dok

druga funkcija f2 smanjuje vrijednost faktor izvjesnosti kao posljedica niječnih svjedočanstava.

Kad se uspješno pronađe nadomjestak s traženom ključnom riječi, nova vrijednost faktora

izvjesnosti, FI, određena je sa:

FI = pf1(FI) + )1-p)f2(FI)

gdje p, iz intervala 0,1 , predstavlja mjeru pouzdanosti te vrste informacija.

Na primjer, ako određenom svjedočanstvu pripisujemo pouzdanost p = 0.7, rezultirajuća funkcija

za određivanje nove vrijednosti faktora izvjesnosti bit će težinska suma dviju originalnih

funkcija i izgledat će kako je to prikazano na slici 4.

FI = pf1(FI) + )1-p)f2(FI)

Page 15: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 15

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

0 1

NoviFI

StariFI

Slika 4.: Funkcija za promjenu metaznanja uz pouzdanost p=0.7

ZAKLJUČAK

Pokretanje projekta IDDAS rezultat je suradnje MicroLAB-a s njemačkom firmom COI GmbH,

proizvođačem DOSSIER sustava za arhiviranje dokumenata na optičkim diskovima. DOSSIER

je distribuirani sustav baziran na klijent-server principu, podržava višestruke servere dokumenata

u mreži, pretraživanje baza dokumenata po ključnim riječima i radi na različitim operacijskim

platformama - od DOS osobnih računala do UNIX radnih stanica.

Izvođenje projekta IDDAS planirano je u nekoliko faza:

Faza 1: simulacija koja se izvodi kao jedinstven proces na jednom računalu. Ova simulacija služi

za ispitivanje heurističkih pravila za mijenjanje metaznanja, i određivanje parametara kod

parametriziranih pravila.

Faza 2: Simulacija koja se izvodi kao skup procesa na jednom računalu. Ova simulacija služi za

ispitivanje međudjelovanja više korisnika u stvarnom vremenu i provjeru da sustav nije podložan

zastojima.

Faza 3: Prototipni sustav na mreži računala. U prototipu će se koristiti rezultati i iskustva

prethodnih dviju faza.

Faza 4: Integriranje sustava IDDAS i DOSSIER da se dobije komercijalni proizvod inteligentne

distribuirane arhive.

Trenutno je u izvedbi prva faza projekta.

Page 16: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 16

LITERATURA

[SMIT81] R. G. Smith i R. Davis, " Frameworks for Cooperation in Distributed Problem

Solving", IEEE Transactions on Systems, Man and Cybernetics, Vol. SMC-11,

No. 1, January 1981, pp. 61-69.

[ERMA75] L. D. Erman i V. R. Lesser, "S Multi-Level Organization for Problem Solving

Using Many, Diverse, Cooperating Sources of Knowledge", Proceedings of the

4th International Joint Conference on Artificial Intelligence, USSR, September

1975, pp.483-490.

[LESS77] V. R. Lesser i L. D. Erman, "A Retrospective View of the Hearsay-II

Architecture", Proceedings of the 5th International Joint Conference on Artificial

Intelligence, Cambridge, MA, August 1977, pp. 790-800.

[FOX81] M. S. Fox, "An Organizational View of Distributed Systems", IEEE Transactions

on Systems, Man and Cybernetics, Vol. SMC-11, No. 1, January 1981, pp 70-80.

[CULL80] R. E. Cullingford, i M. W. Krueger, "Automated Explanations as a Component of

a CAD system", Proceedings International Conference on Cybernetics and

Society, Cambridge, MA, 1980.

[TENN81] R. R. Tenny i N. R. Sandell, Jr., "Structures for Distributed Decisionmaking",

IEEE Transactions on Systems, Man and Cybernetics, Vol. SMC-11, No. 8,

August 1981, pp. 517-527.

[____81] _____, "Strategies for Distributed Decisionmaking", IEEE Transactions on

Systems, Man and Cybernetics, Vol. SMC-11, No. 8, August 1981, pp. 527-538.

[PATT85] H. E. Pattison, D. D. Corkill i V. R. Lesser, "Instantiating Descriptions of

Organizational Structures", COINS Technical Report 85-45, Department of

Computer and Information Sciences, University of Massachusetts, Amherst, MA,

November 1985.

[LENA82] D. B. Lenat, "The Nature of Heuristics", Artificial Inteligence, Vol. 19, No. 2,

October 1982, pp.189-249.

[REND87] L. A. Rendell, "Conceptual Knowledge Acquisition in Search", neformalni spis.

Page 17: Primjena tehnika distribuirane umjetne inteligencije · 2012-05-04 · ključnim riječima kao i drugim pridjevima dokumenta. Skupovne operacije nad tim pridjevima također su moguće

Komunikacijske tehnologije i norme u informatic KOM'92, 1992., pp. 1-1 do 1-15, Opatija, Hrvatska, 9-11.12.1992. -/ stranica 17

[DIET79] T. G. Dietterich i R. S. Michalski, "Learning and Generalization of Characteristic

Descriptions: Evaluation Criteria and Comparative Review of Selected Methods",

Proceedings Sixth International Joint Conference on Artificial Intelligence, 1979,

pp. 223-231.

[MICH83] R. S. Michalski, J. G. Carbonell, i T. M. Mitchell, urednici, Machine Learning, An

Artificial Intelligence Approach, Vol. I, Tioga Press, Palo Alto, CA, 1983.

[LENA83] D. B. Lenat, "Theory Formation by Heuristic Search", Artificial Intelligence, Vol.

21, Nos. 1,2, March, 1983, pp. 189-249.

[LENA83a] D. B. Lenat, "EURISKO: A Program That Learns New Heuristics and Domain

Concepts", Artificial Intelligence, Vol. 21, Nos. 1,2, March, 1983, pp. 61-98.

[GASC77] J. Gaschnig, "Exactly How Good Are Heuristics?: Toward a Realistic Predictive

Theory of Best-First Search", Proceedings Fifth International Joint Conference

on Artificial Inteligence, Cambridge, MA 1977, pp. 434-441.