25
Keres Keres é é si technik si technik á á k az k az internet internet - - en en dr. Ny dr. Ny á á ri Tibor ri Tibor

Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

KeresKereséési techniksi technikáák az k az internetinternet--enen

dr. Nydr. Nyáári Tiborri Tibor

Page 2: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

Ma már közhely, hogy az Interneten tárolt információmennyisége robbanásszerűen növekszik.

A legismertebb információ tárolására, közvetítésére és megjelenítésére alkalmas rendszer a WebWeb (World Wide Web), amelyben a dokumentumokat szolgáltató szerverek száma milliós, a tárolt dokumentumoké pedig százmilliós nagyságrendű, és a számok nagyjából hathavonta duplázódnak. A web csak egy a meglevő sok információs rendszer közül.

Ismertebbek még az ftpftp szerverekszerverek, a hhíírcsoportokrcsoportok(Usenet News), és a gophergopher.

Page 3: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

Mit kereshetünk a Weben?

A Web rendszerekben tárolt dokumentumok többsége szöveges formátumú, melyek egy része "sima" szöveg (plain text), a többsége viszont megjelenítési és Web kapcsolati utasításokkal teletűzdelt speciális formátumú szöveg, ún. hipertext (HTML dokumentum). Ezeket a dokumentumokat egészíti ki kép, videó, hang és ezernyi más formátumúanyag (pl.: Postscript, PDF, VRML, programkód: Java, JavaScript, VBScript, Flash, stb,), melyek letöltésére és megjelenítésére a Web böngészők (Netscape, Internet Explorer, Lynx, stb.) használhatóak.

A keresés alapvetően a szöveges állományokra korlátozódik, kevés kísérleti rendszer létezik csak a kép és hang típusú anyagok fejlett keresésére. A szöveges állományok közül azonban szinte az összes elterjedten használt formátum kereshető, nem csak a standard HTML és a text. Az egyéb anyagok általában ezek mentén érhetőek el, tehát például egy kép a hozzá tartozó szöveges leírás, vagy file azonosító alapján található meg.

Vannak olyan speciális adatok is, melyek nem Web dokumentumok, de Web kereső rendszerekben szerezhetjük be őket. Ilyenek pl. a telefonszámok, email címek, stb.

Page 4: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

Hogyan kereshetHogyan kereshetüünk a nk a WebenWeben??

A Web keresés jelenlegi alapvető eszközei az ún. kereskeresőőmotorokmotorok (searching engine) és katalkatalóógus rendszerekgus rendszerek (index), melyek speciális tartalmú Web szerverek - a megszokott Web böngészőnk -használatával érhetjük el őket. A két elnevezés mögött két alapvetően eltérő filozófiájú rendszer húzódik meg.

A katalkatalóógus rendszerekgus rendszerek (avagy webliográfiák - tematikus tematikus kereskeresééss) hasonlóak a könyvtári katalógusokhoz, kísérletet tesznek a Weben tárolt anyagok katalogizálására. A legismertebb ilyen rendszer a Yahoo (http://www.yahoo.com), a Miningco (http://www.miningco.com), illetve az Infoseek (http://www.infoseek.com), a Google(http://www.google.com) és a Startlap (http://startlap.hu), stb. Ezekben a rendszerekben a keresés alapvetően böngészést (browsing) jelent, amikor a keresett dokumentumot a katalógus kategóriáival írjuk le, és ezek mentén végighaladva találjuk meg (pl. sport - futball -világbajnokság - France'98 - http://www.worldcup98.com). Természetesen a katalógus rendszerekben is kereshetünk, de ez csak a katalógus tartalmára korlátozódik.

Page 5: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A katalkatalóógus rendszerekgus rendszerek legnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedő Web tartalom mellett egyre nagyobb feladat.

Ezek a rendszerek a gyakorlatban nem vállalkoznak a teljes Web katalogizálására. A manuális katalogizálás ugyanakkor lehetőséget teremt a tartalom szerinti sztartalom szerinti szűűrréésresre, azaz a katalógus rendszerektől elvárható a relevánsabb tartalom egy adott témához.

Másik hátrányuk, hogy az általános rendszerek angol nyelvűek, kevés nemzeti nyelvű rendszer létezik még.

Magyarországon leginkább a Magyar Elektronikus KMagyar Elektronikus Köönyvtnyvtáárr(http://www.mek.iif.hu/) áll közel a katalógus rendszerekhez, mely azonban (igazi könyvtárként) nemcsak a katalógust, hanem magukat a válogatott dokumentumokat is tartalmazza.

Page 6: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A kereskeresőő rendszerekrendszerek (search engine - kereskeresőő motorokmotorok) ezzel szemben a teljes Web módszeres és rendszeres „végigjárására”vállalkoznak, így egy sokkal teljesebb képpel rendelkeznek a Web-en tárolt dokumentumokról. A keresőkben egy tartalom szerinti, ún. index adatbázis készül el automatikusan, mely a végiglátogatott helyek dokumentumait tartalmazza valamilyen kivonatos formában - ez az ún indexelés(indexing). A keresés azután ezen index-adatbázisban történik a felhasználó által megadott kulcsszavak alapján. A rendszer egy találati listát ad vissza, amely a megadott szavakra illeszkedő dokumentumok címeit és rövid kivonatát (a dokumentum elejét, vagy a leginkább illeszkedő részét) tartalmazza.

A legismertebb kereső rendszerek Magyarországon (elsősorban magyarországi lapokra) az Altavizsla (http://altavizsla.matav.hu) és a Heuréka (http://heureka.net.hu), külföldön az Altavista(http://altavista.digital.com), a Northern Light (http://www.nlsearch.com), vagy az Excite (http://www.excite.com), GoogleGoogle (http://www.google.com).

Minden keresőnek megvan a maga erőssége és gyengéje, az Altavista és a Google indexeli közel a legtöbb lapot és a leggyakrabban, az Excite néhány közkedvelt kategóriába rendezi (automatikusan katalogizálja) az indexelt lapokat, a Northern Light saját dokumentum gyűjteményeket is kínál.

Page 7: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A metameta--kereskeresőőkk (meta-search engine) egyszerre több kereső rendszert felhasználva, azok eredményeit kombinálva állítják elő a találati listájukat. Legismertebb a MetaCrawler (http://www.metacrawler.com), a Dogpile(http://www.dogpile.com), vagy a MetaFind(http://www.metafind.com).

Az általános indexek és kereső rendszerek mellett vannak adott területre koncentráló szerverek is. Legismertebbek az ftpftp szerverek tartalomjegyzékeiben kereső FtpSearch (http://ftpsearch.ntnu.no/), vagy az email címek és telefonszámok keresésére való rendszerek.

Page 8: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A Web keresA Web kereséés ls lééppéései:sei:

A Web keresés is

"olyan, mint a matematika: mindent szabad, ami "olyan, mint a matematika: mindent szabad, ami öörröömet met okoz." okoz." (dr. R(dr. Róózsa Pzsa Páál l -- matematikus).matematikus).

Nincs bevált, és mindenki által követendőmódszertan. Mindenki saját magának alakítja ki kedvenc stratégiáját.

Minden keresés egyedi: még ugyanaz az ember sem biztos, hogy valamit kétszer ugyanúgy talál meg, sőt az sem biztos, hogy másodjára megtalálja, amit első alkalommal igen. Az itt megfogalmazott lépések inkább jó tanácsok, mintsem egy mindenkinél beváló menetrend elemei.

Page 9: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

1., Fogalmazzuk meg, hogy mit keres1., Fogalmazzuk meg, hogy mit keresüünk!nk!

A keresés első lépése az analízis. Az elképzelt dokumentum alapján a keresési minta (kulcsszavak, kategóriák) előállítása, melyen a keresés sikere alapvetően múlik. Rosszul megválasztott kulcsszavak könnyen vezetnek a "nem tal"nem taláálok semmit"lok semmit" és a "25"25 532 983 tal532 983 taláálat"lat" két szélsőséges végeredmény valamelyikére.

Tematikus keresés esetén a kategória leírása, azaz megpróbáljuk a keresett dokumentumot témája alapján a katalógus rendszerek kategóriáinak valamelyikébe besorolni.

Direkt keresés esetén a kulcsszavak kiválasztása. Azokat a szavakat és kifejezéseket kell kigyűjteni, melyek a lehető legpontosabban körülhatárolják a keresett dokumentumot, egyrészt pozitív (megerősítés), másrészt negatív (kizárás) alapon (pl. szerepeljen benne a cikk szó, de ne szerepeljen benne a törvénycikk szó).

Page 10: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

2., Pr2., Próóbbááljunk ki egy ljunk ki egy ááltalltaláános keresnos keresőő rendszert!rendszert!

Ha sikerült jól eltalálni a kulcsszavakat, akkor egy keresőrendszer egyből visszaadhatja a keresett dokumentumot (pl. a (pl. a GoogleGooglejjóó taltaláálatot ad a "recept" kereslatot ad a "recept" kereséési mintsi mintáára).ra). Itt érdemes inkább pontosabb kifejezésekkel próbálkozni, csökkentve a találatok számát. Előnyös azokat a kereső rendszereket alkalmazni, melyek képesek az eltalált kulcsszavak és kifejezések alapján egy százalékos illeszkedési mutatót is visszaadni (pl. a meta-keresők, vagy a Northern Light, de megfelelő a Google is).

Ez a lépés az esetek csak kis részében vezet eredményre, de gyorsasága miatt mindenképpen érdemes kipróbálni. Ezen kívül segíthet további kulcsszavak megfogalmazásában is, elsősorban a nem releváns anyagokat kizáró szavakat sorolhatunk fel az elsőeredményeket látva.

Page 11: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

3., J3., Jööjjenek a kataljjenek a katalóógusok!gusok!

Ha a keresett dokumentum jól katalogizálható, akkor egy általános célú katalógus rendszerben a nyomára lehet bukkanni. A siker itt kevésbé a kulcsszavakon, sokkal inkább a katalógus kategória pontos megállapításán áll vagy bukik, illetve azon, hogy a dokumentum mennyire tartozik az "általános érdeklődésre számot tartó anyagok" közé.

Sokan feleslegesnek értékelik ezt a lépést, mivel a nehezen katalogizálható, vagy az új, és széles körben nem ismert dokumentumok esetén nem sok esély van a találatra. Ilyen esetekben a speciális, az adott szűk területre koncentráló (ún. dedikált) katalógusok, Web-gyűjtemények jöhetnek szóba. Ilyen állandógyűjtemények felkutatására azonban már jól használhatóak a katalógus rendszerek. Ezek a gyűjtemények általában egyszerű web-lapok, ahol a terület legfontosabb Web-helyei, a legfrissebb hírek, stb. vannak felsorolva.

Figyelem!!! Mindig érdemes ellenőrizni a lap utolsómódosítási dátumát).

Page 12: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

4., Ism4., Isméét tt téérjrjüünk vissza a keresnk vissza a keresőő rendszerekhezrendszerekhez!!

Ha az első "hirtelen" keresés és a katalógusok sem vezettek eredményre, akkor a kereső rendszerek módszeresebb használata következik. Itt már a felsorolt kulcsszavak mindegyikére szükség van: a lehető legpontosabban kell körülírni a keresett dokumentumot. Ehhez általában az összetett keresést (advanced search) kell igénybe venni. Ennek alapvető módszere az ún. Boolean keresés, amikor a kulcsszavakat és kifejezéseket egy Boolean kifejezésbe foglaljuk az AND, OR, NOT, esetenként a NEAR és ADJ kulcsszavakkal. A Boolean keresésre nem minden rendszer képes. A százalékos találati arány szerint rendező keresők esetében a keresési ablakba minél több kulcsszót, kifejezést kell írni.

A keresés esetenként többször is megismételendő a találatok számától függően. A két szélsőséges eset (minden vagy semmi) között kell eltalálni azt, amikor a visszaadott dokumentumok száma ésszerűen kicsi; vagy azt az esetet, amikor a találati lista elején van, amit kerestünk.

Page 13: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

PPéélda:lda:

Keresési feladat:

Olyan kókuszgolyó recepte(ke)t keresünk, amely az ismert összetevőkön túl tartalmaz sok rumot, de semmiképpen nincsen benne meggy.

1.1. AnalizAnalizáálláás s –– a megfelela megfelelőő kulcsszavak kivkulcsszavak kiváálasztlasztáása:sa:

recept, kókuszgolyó, rum, meggy

- csak szótövek (nem toldalékos szavak)

- a keresett nyelv helyesírási szabályainak betartása

Page 14: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

2. A kulcsszavak megfelel2. A kulcsszavak megfelelőő mezmezőőbe illesztbe illesztéése:se:

Page 15: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

Azok a kulcsszavak, amelyek a keresett oldalon rajta vannakrajta vannak, de sorrendjsorrendjüükk, elhelyezkedelhelyezkedééssüükk nem lnem léényegesnyeges. A szavak AND (ÉS) kapcsolatban vannak.

Azok a kulcsszavak, amelyek a keresett oldalon pontosan pontosan íígygy vannak rajtavannak rajta, sorrendjsorrendjüükk, elhelyezkedelhelyezkedééssüükk lléényegesnyeges. Például idézetek esetén.

Azok a kulcsszavak valamelyike, amelyek a keresett oldalon rajta vannakrajta vannak, sorrendjsorrendjüükk, elhelyezkedelhelyezkedééssüükk nem lnem léényegesnyeges. A szavak OR (VAGY)

kapcsolatban vannak.

Azok a kulcsszavak, amelyek a keresett oldalon semmiksemmikééppen sincsenek ppen sincsenek rajtarajta. A szavak NOT (NEM) operátorral rendelkeznek.

Page 16: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

3. A keres3. A keresőőmotor parammotor paraméétereinek betereinek beáállllííttáása:sa:

Page 17: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

4. A tal4. A taláálati lista elemzlati lista elemzéése:se:

Page 18: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

5. A konkr5. A konkréét talt taláálat megjelenlat megjelenííttéése:se: ÚÚJ ABLAK J ABLAK –– SHIFT + BAL CLICKSHIFT + BAL CLICK

Page 19: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A tradicionA tradicionáális kereslis keresőők k éértrtéékelkeléése:se:

Milyen szempontok alapján válogathatunk a keresők között? A szempontok közül a legfontosabbak a sebesssebesséégg, az index adatbindex adatbáázis zis mmééreterete és frissessfrissesséégege, kereskereséési msi móódszerekdszerek, és az eredmaz eredméények tnyek táálallaláási si mmóódjadja.

A sebesssebesséégg egyrészt a rendszer működési sebességét jelenti, de ennél sokkal lényegesebb a rendszer és a saját gépünk közötti hháállóózati zati sebesssebesséégg. Ez egy szélsőségesen változó paraméter, nyilvánvalóan befolyásolja saját Internet kapcsolatunk sebessége, terheltségének eloszlása, de legalább ugyanennyire a kereső rendszer népszerűsége és ahhoz mért kapcsolati sebessége is. Akár napszaktól függően is változhat, hogy mely kereső rendszert érdemes használnunk, vagy egyáltalán melyiket érjük el.

Az index adatbindex adatbáázis mzis méérete rete éés frissesss frissesséégege határozza meg azt, hogy milyen eséllyel találhatunk meg egy adott web-lapot a keresővel. A komolyabb keresők adatbázisai százmilliós nagyságrendben tartalmazzák az indexelt lapokat, és körülbelül hetentehetente látogatják meg a web szervereket. Ilyen látogatások alkalmával a keresők indexelő szoftverei (crawler) általában a nyitó lapok mindegyikét letöltik, a mélyebben levő lapoknak azonban csak egy részét. A keresők üzemeltetőitől független mérések szerint jelenleg a GoogleGoogle a legátfogóbb, és a leggyakoribb látogató.

Page 20: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A kereskereséési msi móódszerekdszerek között az egyszerű keresés, összetett keresés, koncepció alapú keresés szerepelhet. Egyszerű keresést minden rendszer kínál, többségüknél használható az összetett keresés is, és csak kevesen használják a harmadik módszert.

Az egyszerű keresés esetén a visszaadott eredmény vagy az összes kulcsszót tartalmazó dokumentumok listája, vagy a kulcsszavak előfordulása alapján sorrendbe rendezett lista (százalékos illeszkedéssel). A keresők többségénél használhatóak a + és - szimbólumok, melyekkel a mindenképpen megkívánt és a semmiképpen sem szereplő kulcsszavak jelölhetőek meg (pl. +cikk -törvénycikk).

Az összetett keresés a már említett Boolean kereséssel valósítható meg, amikor a kereső kimenete a Boolean mintának megfelelődokumentumok listája (pl. "cikk AND NOT törvénycikk"). A keresők közötti különbség itt a felhasználható kulcsszavakban mutatkozik. Az AND, OR és NOT minden Boolean keresésben használható, a NEAR (közeli), FAR (távoli), az ADJ (rákövetkező), FOLLOWED BY (rákövetkező), és a BEFORE (megelőző) már csak néhány helyen, ezeknél finomabb Booleankeresés csak nagyon kevés helyen (pl. a Lycos-nál) állítható be.

Page 21: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A koncepcikoncepcióó alapalapúú kereskeresééss esetén a rendszer kísérletet tesz arra, hogy az egyes kulcsszavak jelentései közül azt válassza, amely a legközelebb áll a többi kulcsszóhoz, kifejezéshez. Erre elég kevés példát találni, a legismertebb az Excite. Bizonyos keresőknél speciális behatárolókulcsszavakat is használhatunk (pl. Google-n: "applet:clock" olyan appletetkeres, aminek valami köze van a clock szóhoz).

Az eredmények megjelenítésénél a forma általában nagyon hasonló, fontosabb szempontok egyrészt a sorrend megállapítása, másrészt az automatikus kategóriákba szervezés megléte. A találati listán levődokumentumok sorrendjét esetenként magunk is meghatározhatjuk erre szolgáló szavakkal (pl. Altavista összetett keresés, "result ranking criteria"), más esetekben a kereső használ valamiféle módszert erre. A legjellemzőbb az, hogy nem teljes illeszkedést vizsgáló keresők a megtalált kulcsszavak száma, előfordulási aránya alapján állítanak fel egy sorrendet. Esetenként a találati lista tovább kereshető (pl. Infoseek). Néhány kereső képes arra, hogy a találati listát automatikusan kategóriákba szervezze az eredmények értékelését megkönnyítendő (pl. a Northern Light).

A további értékelési szempontok között szerepel, hogy milyen nyelvű web lapokat kereshetünk (pl. a a GoogleGoogle 36 nyelven k36 nyelven kéépes keresnipes keresni), mi a helyzet a kis és nagybetűk megkülönböztetésével, képes-e a kereső a szótövek megtalálására, ragok levágására és illesztésére, valamint használ-e szinoníma szótárt?

Page 22: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

Fejlett keresFejlett keresőő rendszerek:rendszerek:

Bármennyire is segítőkészek, a tradicionális kereső rendszerek nem oldják meg a keresés problémáját, mert a keresésnek még mindig nagyon sok olyan manuális eleme van, melyek kiváltására a mai rendszerek nem képesek. A kereső rendszerek fejlesztésére dollármilliókat költenek, de a tradicionális módszerek nem vezetnek teljes eredményre.

A nem tradicionális módszerek között szinte mindent megtalálni a neurális hálózatóktól kezdve a gépi tanuláson át az automatikus szöveg-elemzésig (tartalom elemzésig).

Ezen "fejlett" kereső rendszerek legtöbbje a kliens gépen futószoftver, mely alapvetően három (nem technikai) kategória valamelyikébe sorolható: hirdetésekkel szponzorált ingyenes web-kereső kliens, "fejlett" módszerekkel felfegyverzett pénzért vásárolható "találmány", vagy egy nagy szoftver cég ingyenes programkódja.

Általános tulajdonságuk, hogy testre szabottak, azaz megpróbálják kiismerni a használójuk érdeklődési területeit, szokásait, és ezekkel az adatokkal segíteni a keresést, melyet egyébként a hagyományos rendszerekre támaszkodva végeznek el.

Page 23: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

A területtel átfogóan az információ beszerzés (informationretrieval - IR, avagy information gathering) kutatási terület foglalkozik. A terület nem új, és nem az Internet hívta életre; gyakorlatilag a hagyományos könyvtári rendszerek megléte óta létezik, és a 40-es évek környékén vált önálló kutatási területté. Az alapkönyveket az 50-60-as években írták.

Az Internet megjelenése csak tovább színesítette az amúgy is igen nehéz feladatot. Az információ beszerzés kutatásának alapvetőterületei az automatikus információ (szöveg-) elemzés, szótár konstrukció, statisztikai módszerek, automatikus kategorizálás, a információ beszerzés modelljei, keresési stratégiák, felhasználó modellezés, keresés értékelési módszerek, stb.

Page 24: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett

Az IR mellett legtöbbet emlegetett fogalom fejlett keresőrendszerek kapcsán az intelligens intelligens áágensgens (intelligent agent), amely egy olyan szoftver, amely a felhasználó nevében és érdekében önállóan cselekszik. Az ágensek egy alkalmazási területe az információbeszerzés, ahol az infomációs ágens egy olyan szoftver, amely helyettem önállóan képes megkeresni valamit az Interneten. Az ágensem ismer engem (rendelkezik a felhasználói modellemmel), segít megfogalmazni a kérésemet, önállóan lép kapcsolatba a nagy kereső rendszerekkel, beszerzi a találati listát, majd arról a legjobbnak tűnő dokumentumokat beszerezve és értékelve a kérésemnek legjobban megfelelőt „rakja a lábaim elé". Mindeközben az általam kedvelt dokumentumok alapján tovább finomítja a rólam alkotott képét, megtanulja a viselkedési szokásaimat, stb.

A legtöbbjük egy-két ötlet köré épített szoftver, amely - ha másra nem is jó, de - a hagyományos kereső rendszerekhez nyújt egy szebb, jobban használható, és - kliens oldali szoftver lévén -gyorsabban reagáló interfészt.

Page 25: Keresési technikák az internet-enA katalógus rendszereklegnagyobb problémája a katalogizálás, mely javarészt manuális munka, és a rohamosan növekedőWeb tartalom mellett