12
Što su tražilice Kako funkcioniraju tražilice Optimizacija pretraživanja

Alat za pretraživanje informacija na

  • Upload
    mae

  • View
    44

  • Download
    1

Embed Size (px)

DESCRIPTION

Alat za pretraživanje informacija na www-u. Što su tražilice Kako funkcioniraju tražilice Optimizacija pretraživanja. Pretražni alati. - PowerPoint PPT Presentation

Citation preview

Page 1: Alat za pretraživanje informacija na

Što su tražiliceKako funkcioniraju tražiliceOptimizacija pretraživanja

Page 2: Alat za pretraživanje informacija na

www se ne može pretraživati direktno veće se pretražuje pomoću specijaliziranih alata koji skupljaju podatke o web stranicama i formiraju ih u posebne baze podataka, omogućavajući korisnicima da putem hipertekstnih poveznica (linkova) pristupaju pronađenim stranicama.

Kategorije Pretraživači i metapretraživači, Tematski katalozi (imenici) Tematski vodiči Specijalizirane baze podataka

Page 3: Alat za pretraživanje informacija na

Web pretraživači (roboti, indeksi) koriste specijalne automatizirane programe za "uljanje", "gmizanje" po Webu ("to crawl the web") koji se nazivaju Web crawlers (gmizavac, unjalo) ili spiders (pauci) [4]. Oni skaèu s Web mjesta na Web mjesto preko poveznika, prikupljajući naslove svih mjesta, URL, i najmanje neke od njihovih tekstovnih sadržaja. Kada naðu mjesto, oni pretražuju (snimaju) (scan) Web stranice toga mjesta i zapisuju (record) sve informacije u indeks.

Program kojemu je funkcija indeksiranje ekstrahira informacije iz dokumenata i sprema ih u svoju katalošku bazu podataka. Cilj je spidera posjetiti milijune Web mjesta i ostati s njima u vezi koliko god je moguće. U svojemu hodu po mreži spideri raznih pretraživača međusobno dijele više baza podataka koje dotiču.

Web search engine – skup programskih alata koji pretražuju informacije na WWW-u. Rezultati se prikazuju u popisu i nazivaju se “pogotci”. Informacija može sadržavati web stranicu, sliku, tekst i/ili ostale tipove datoteka. Neke tražilice imaju alate za rudarenje (u newsbook-u, bazi ili otvorenim direktorijima (katalog kategoriziranih linkova)

Page 4: Alat za pretraživanje informacija na

Što imaju i kako rade alati (strojevi) za pretraživanje: Web crawling (pretraživanje – plaženje po web i

skidanje podataka o posjećenom URL-u) Indeksiranje – označavanje skinutog materijala

prema definiranim kriterijima (naslovima, poglavljima, zaglavljima, posebnim poljima – metatagovima) i formiranje baze podataka

Traženje – upotrebom jezika upita (SQL-a) postavlja se zahtjev za traženje indeksne baze prema kriterijima za pretraživanje (ključnim riječima najčešće ili uz kombinaciju raspoloživih operatora – logičkih ili posebnih koje podržava SQL)

Problem: kako rangirati dobivene rezultate pretraživanja ovisno o značaju kojeg imaju za korisnika

Page 5: Alat za pretraživanje informacija na

Web crawler – računalni program koji pretražuje WWW na metodolški automatiziran način (mrav, automatski indekser, web spider, web robot, web skuter)

Kreiraju kopije posjećenih stranica za kasnije indeksiranje pomoću search engine-a koji će indeksirati skinute stranice za kasnija pretraživanja. Koriste se također za prikupljanje specifičnih tipova informacija kao što su e-mail adrese (na koje mogu poslati različiti spam)

To je jedna vrsta softverskog agenta; načelno započinje s listom URL-a (sjemenje). Kada je crawler posjetio URL, identificirao je hiperveze na stranici dodao ih u listu URL-a (crawl frontier) koje se rekurzivno posjećuju prema skupu postavljenih politika.

Politike Crawling je zahtjevan zadatak zbog: Broja URLa i velikog obujma – crawleri mogu skidati samo dio (frakciju) web stranice u

danom vremenu i moraju definirati prioritete Brzine kojom se sadržaji mijenjaju – crawler uzima stranicu u momentu kad je ona

raspoloživa i vrlo je vjerojatno da će se u njoj nešto ubzo mijenjati Dinamičke prirode promjena na web stranicama – server side scripting utiče na dinamičke

promjene sadržaja stranice što predstavlja dodatnu poteškoću u definiranju broja parametara koji će se koristiti za pretraživanje (način sortiranja, vrsta prikaza, format datoteke, korisnički parametri....)

Dodatni problem: širina pristupnog pojasa (određuje brzinu veze) određuje također stopu osvježenja i efikasan način pretraživanja u ograničenom vremenskom periodu

Yahoo Crawler (Slurp) Google Crawler WebCrawler

Page 6: Alat za pretraživanje informacija na

Politika izbora – koju stranicu skinuti; ◦ važnot stranice je funkcija njoj svojstvene kvalitete – popularnosti i broja posjeta

ili domene; problem ne može se znati unaprijed. Pretraživanje prvo u širinu pa u dubinu (Ako je pretraživaje prvo u dubinu – vertikalne tražilice)

◦ Restrikcije na linkove koji će se slijediti (pr. Samo na .html, .asp, .php...)◦ Put k traženom pojmu◦ Fokusirani crawling◦ Duboki crawling – pretraživanje pojmova ne samo u naslovu i zaglavljima već bilo

gdjeu tekstu ( Politika ponovnog pregleda – kada provjeriti promjene na skinutim

stanicama – starost i stopa osvježenja – definira se algoritam Politika uljudnosti – kojom se utvrđuje kako izbjeći pretrpavanje web

stranica; djelomično rješenje za problem pretrpavanja servera različitim – robot exclusion protocol – administratori određuju koji dio servera se neće dozvoliti za pregledavanje od strane crawlera.

Politika paralelizacije – kako koordinirati distribuirane web crawlere – bilježenjem URL-a kojeg je jedan crawler pronašao

Optimizacija search engina – cilj pozicionirati se na prva mjesta u upotrebi pretraživača

Page 7: Alat za pretraživanje informacija na

Opći (Major Search Engines) - najpopularniji su i najvažniji i pokrivaju cijeli svijet; (Google <http://www.google.com, - Yahoo <http://www.yahoo.com>, specijalizirani (Specialty Search Engines) - vode pretraživanje kroz baze podataka, grupe za novosti

(Newsgroups), nalaze online programe itd. Po vrstama sadržaja (npr. Multimedijalni) Po temama Opći pretraživači sa specijalnim namjenama (<http://websearch.about.com) metapretraživači (Metacrawlers) - za razliku od pretraživača, ne pretražuju Web sami da bi izgradili

indekse. Metapretraživači pretražuju nekoliko pretraživača istodobno i rezultate prikazuju na zajedničkoj stranici;◦ (BYTESEARCH (http://www.bytesearch.com) ◦ DOGPILE (http://www.dogpile.com) - brojni pretraživači, Usenet, ima jednostavno i složeno pretraživanje, Boole ◦ INFERENCE FIND (http://www.inference.com/ifind) ◦ INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraživanja, omogućava određivanje

kategorije unutar koje se pretražuje (poduzetništvo, računala, obrazovanje, sport…) ◦ MAMMA (http://www.mamma.com) ◦ METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora ◦ PROFUSION (http://www.profusion.com) ◦ SAVVYSEARCH (http://www.savvysearch.com)

regionalni (Regional Search Engines) - pretraživači za razne države i regije. Glavne su kategorije pretraživaèa svrstane po kontinentima pa zatim po državama;

- pretraživači novosti (News Search Engines) - službe tih pretraživača daju iznimno dobre rezultate pretraživanja kurentnih dogođaja, jer pretražuju relevantna Web mjesta dnevno;

- dječji (Kids Search Engines) - službe dječjih pretraživača dizajnirane su prvenstveno za potrebe djece bilo u fokusiranju bilo u filtriranju mjesta koja bi bila nepodobna za djecu;

Page 8: Alat za pretraživanje informacija na

paralelni ili višestruki pretraživači simultano pretražuju više pretraživača na kraju se korisniku daju integrirani rezultati liste različitih

pretraživača s prozorom za svaki od njih ne spadaju u prave metapretraživače postoje i višestruki pretraživači koji provode simultano

pretraživanje, ali ne kombiniraju rezultate Primjeri:

◦ BYTESEARCH (http://www.bytesearch.com) ◦ DOGPILE (http://www.dogpile.com) - brojni pretraživači, Usenet, ima

jednostavno i složeno pretraživanje, Boole ◦ INFERENCE FIND (http://www.inference.com/ifind) ◦ INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana

pretraživanja, omogućava određivanje kategorije unutar koje se pretražuje (poduzetništvo, računala, obrazovanje, sport…)

◦ MAMMA (http://www.mamma.com) ◦ METACRAWLER (http://www.go2net.com/search.html) - izvrstan za

dobivanje brzog odgovora ◦ PROFUSION (http://www.profusion.com) ◦ SAVVYSEARCH (http://www.savvysearch.com)

Page 9: Alat za pretraživanje informacija na

identificirati vlastiti koncept: tražimo li informacijski izvor ili konkretan podatak

odabrati ključne riječi (samo jedna ključna riječ možda će nam dati previše pogodaka)

odrediti sinonime odabrati Booleove operatore ili simbole postaviti ograničenja, filtre (jezik, domena,

tip dokumenta, datum, naslovi, URL, poveznici, i drugo).

http://www.googleguide.com/web_address.html

Page 10: Alat za pretraživanje informacija na

Web direktorij – održava ga urednički tim – daje popis web mjesta po kategorijama i subkategorijama

Unos sadržaja određen je politikom uredništva: sadrži RSS feeds (sadržaje koji su vezani uz neko područje mogućih interesa)

Primjer: http://directory.google.com/

Page 11: Alat za pretraživanje informacija na

Imenički servisi omogućuju objavljivanje i pretraživanje elektroničkih adresa i ostalih podataka o korisnicima mreže (White pages) kao i o uslugama i resursima te davateljima usluga na mreži (Yellow pages).

U Hrvatskoj pr. http://ds.carnet.hr

Page 12: Alat za pretraživanje informacija na

http://www.googleguide.com/web_address.html

http://prelog.chem.pmf.hr/~tezak/preinin/preinin/vje21I.html