Pronalaženje informacija na WEB-u

Pronalaženje Pronalaženje informacija na WEB-uinformacija na WEB-u

Mina Milić - Pronalaženje informacija na WEB-u 1/23

UvodUvod Pojava i razvoj WEB-a doveli su do značajnih izmena u

načinu pristupa informacijama U osnovi, WEB je sačinjen od miliona WEB stranica

pohranjenih na računarima širom sveta, a povezanih intrenetom

Razvoj WEB-a započeo je 1989 u CERN-u gde je Tim Berners-Lee sa kolegama kreirao protokol koji je standardizovao komunikaciju između servera i klijenata (HTTP)

WEB dobija veliku popularnost pojavom grafičkog pretraživača Mosaic koji je uveo novi način pristupa WEB informacijama po principu “uperi i klikni”

Ubrzo zatim pojavljuju se i čuveni Netscape Navigator, a nedugo za njim i Internet Explorer

Od tada pa do danas WEB je nastavio da raste eksponencijalnom progresijom

Tradicionalne tehnike pronalaženja informacija morale su biti testirane i modifikovane kako bi se mogle primenjivati za indeksiranje i pronalaženje WEB dokumenata


Tradicionalno nasuprot WEB Tradicionalno nasuprot WEB pronalaženju informacijapronalaženju informacija WEB pretraživanje se značajno razlikuje od tradicionalnih sistema

za pretraživanje teksta, a to je precizno oslikano kroz deset ključnih razlika:

1. Distribuirana priroda WEB-a • WEB sadržaji su rašireni širom sveta i smešteni na

raznovrsnim platformama koje se međusobno razlikuju, kako hardverski tako i softverski, što značajno otežava indeksiranje i pronalaženje istih

• Sa druge strane, sistemi za pretraživanje teksta uglavnom pretražuju komplete informacija znatno manjeg obima, a dokumenta su uglavnom kreirana prema određenom skupu standardizovanih pravila (npr. OPAC)

2. Veličina i rast WEB-a• Od svog postanka, WEB je rastao eksponencijalno i bilo je

potrebno prilagoditi tradicionlalne tekst pretraživače za rad sa velikim količinama podataka na WEB-u

3. Duboki nasuprot površinskom WEB-u• Postoji razlika između lako dostupnih površinskih inofmacija i

dublje uskladištenih informacija kojih ima znatno više, ali kojima se pristupa isključivo putem posebno ovlašćenih kanala (često zaštićenih šiframa) ili specijalnih programa


Tradicionalno nasuprot WEB Tradicionalno nasuprot WEB pronalaženju informacijapronalaženju informacija4. Vrste i formati dokumenata

• Sistemi za pronalaženje teksta rade isključivo sa tekstualnim podacima dok se na WEB-u mogu pronaći raznovrsni podaci (od tekstualnih do multimedijalnih) što je znatno teže za indeksiranje i pronalaženje

5. Kvalitet informacija• WEB sadržaji dolaze iz raznih proverenih i neproverenih

izvora što značajno otežava pronalaženje kvalitetnih informacija za razliku od sistema za pretraživanje teksta koji rade sa kontrolisanim izvorima informacija

6. Frekventnost promena• Indeksiranje i pretraživanje WEB-a je značajno otežano

konstantnim promenama i pomeranjima sadržaja za razliku od sistema za pretraživanje teksta gde se jednom unet tekst gotovo nikad ne menja, a u najgorem slučaju jedino u potpunosti ukloni iz sistema

7. Vlasništvo• Jedan od ključnih problema u pronalaženju informacija na

WEB-u su prava pristupa istim, dok su neke potpuno besplatne, za druge se mora platiti naknada


Tradicionalno nasuprot WEB Tradicionalno nasuprot WEB pronalaženju informacijapronalaženju informacija8. Distribuirani korisnici

• Korisnici WEB informacija su locirani širom sveta što značajno otežava dizajniranje sistema za pronalaženje informacija na WEB-u usled nedostatka informacija o tipu korisnika, navikama pri pretraživanju, lokaciji itd.

• Nasuprot WEB-u, većina sistema za pronalažanje tekstualnih informacija su dizajnirani prema potrebama određene ciljne grupe korisnika čije su potrebe, navike i lokacije unapred poznate

9. Jezička raznolikost• Uprkos jezičkoj raznolikosti prisutnoj na WEB-u, sistemi za

WEB pretraživanje bi trebalo da daju unificirane rezultate bez obzira na jezik na kom je upit postavljen, što značajno otežava dizajniranje istih

10. Problemi finansiranja• Za kreiranje i održavanje efektnog i efikasnog sistema za WEB

pretraživanje neophodni su ogromni materijalni resursi i problem predstavlja činjenica da ne postoji jedinstven izvor finansiranja za poduhvate te vrste, a sa druge strane svima je neophodan što bolji i efikasniji sistem


WEB informacije: veličina i WEB informacije: veličina i rastrast Merenje veličine i rasta WEB-a je težak zadatak i postoje dva

pristupa: prema broju WEB sajtova na odgovarajućim IP adresama i prema broju pojedinačnih WEB stranica na svim sajtovima

Prema procenama, 2002. godine je postojalo preko devet miliona WEB sajtova

Znatno teže je prebrojati WEB stranice, a procenjuje se da je Google, kao najveći zvanični pretraživač, imao preko 3,8 milijardi indeksiranih stranica još 2003. godine

Postoje dve kategorije informacija na WEB-u:1. Informacije koje su dostupne korišćenjem alata za

pretraživanje WEB-a i koje spadaju u takozvani površinski WEB lako dostupan svim korisnicima

2. Informacije kojima se može pristupiti isključivo pomoću posebnih programa koji se aktiviraju na WEB stranicama i koje spadajau u takozvani duboki WEB. Informacije ovog tipa smeštene su u odgovarajućim bazama podataka dostupnim za pretraživanje isključivo na direktan zahtev


WEB informacije: veličina i WEB informacije: veličina i rastrast Istraživanja iz 2000. godine pokazuju da je još tada odnos između

količine podataka površinskog i dubinskog WEB-a bio 1:500 Potrebno je naglasiti da ukupan broj indeksiranih stranica veoma

varira među pretraživačima, ali je činjenica da nijedan od pretraživača ne indeksira više od 16% površinskog WEB-a

Ako se uzme u obzir da se uopšte ne vrši indeksiranje dubinskog WEB-a usled tehnologije pretrage WEB pretraživača, dolazi se do zaključka da današnji pretraživači indeksiraju svega 0.03% dostupnih WEB stranica

Bez obzira na ovako male cifre, indeksirati 4 milijarde WEB stranica (Google) podrazumeva skladištenje ogromne količine dokumenata, znatno veće nego što je bilo koja preko interneta dostupna baza podataka

Dodatni problem čine i konstantne promene sadržaja WEB stranica pa čak i brisanja kompletnih stranica, te stoga, prema Rasmusenu, dinamička priroda WEB-a čini ključnu razliku između tradicionalnih i WEB tehnika pronalaženja informacija

Postoji još jedna ključna razlika, a to je broj izvršenih dnevnih pretraga. Dizajn konvencionalnih sistema za pronalaženje informacija jednostavno ne dozvoljava toliko ogroman broj dnevnih pretraga koliko se izvrši na bilo kom od svetski poznatih WEB pretraživača


Alati za pristup informacijama na Alati za pristup informacijama na WEB-uWEB-u Korisnik pristupa internetu unošenjem URL-a u odgovarajući

kompjuterski program, takozvani WEB pretraživač (Mozilla, Netscape...) koji u osnovi ima dva glavna zadatka:1. Pristupa WEB serveru i iz mreže “dovlači” odgovarajuću

stranicu na ekran vašeg računara2. Interpretira HTML kod na odgovarajući način tako da stranica

izgleda onako kako je njen autor zamislio Iako korisnici mogu na jednostavan način pretraživati WEB

ukucavanjem URL-a i praćenjem linkova, problem nastaje kada se traži specifična informacija u moru WEB sajtova i WEB stranica

Da bi se prevazišao ovaj problem, dizajnirano je nekoliko alata za pretraživanje što je omogućilo da pretraživanje konkretnih informacija na WEB-u bude krajnje jednostavno

U osnovi, postoje dva načina traženja informacija1. Praćenjem linkova u specijalnoj listi zvanoj direktorijum2. Korišćenjem pretraživača koji pretražuju redovno ažuriranu, ali

fiksnu bazu podataka (koju kreira alat zvani Pauk) na odgovarajuću reč ili frazu koju korisnik unosi i prezentuju odgovarajuće WEB stranice iz te baze


Kako rade pretraživačiKako rade pretraživači Iako svi pretraživači, u osnovi, imaju isti cilj, u mnogome

se međusobno razlikuju – prema brzini pretrage, načinu prikazivanja podataka, veličini baze podataka, frkvenciji njenog osvežavanja kao i kriterijumima indeksiranja stranica

Bez obzira na razlike među pretraživačima, svi oni, u osnovi, imaju sledeće tri osnovne funkcije:1. Pretraživanje interneta prema određenom kompletu kriterijuma

2. Čuvanje indeksa pronađenih reči i fraza, njihovih adresa, broja pristupa itd.

3. Omogućavaju korisnicima pretragu na reči, fraze ili kombinacije istih prema već formiranom indeksu

Tri osnovne komponente svakog pretraživača su:1. Pauk

2. Softver sa interfejsom za pretraživanje

3. Indeks


PaukPauk Pauk je program koji automatski donosi WEB

stranice pretraživačima Pauk tretira WEB kao graf i na osnovu unesenog

URL-a on redom iščitava stranice prateći sve linkove bilo po dubini (prateći jedan link do kraja) ili po širini (posećujući redom sve linkove sa jedne strane) čime odaje utisak puzanja po WEB-u

Osnovni problem pauka je odluka o indeksiranju stranice - kvalitet WEB stranice koja će biti indeksirana može da se odredi na osnovu broja poseta toj stranici što baš i nije jednostavno izračunati ili na osnovu broja linkova ka toj stranici što je, generalno, mnogo češći kriterijum indeksiranja programa ovog tipa

Drugi značajan problem je određivanje frekvencije ponovnog posećivanja stranica koje su već indeksirane i proveravanje da li je došlo do izmena njihovih sadržaja


Softver za pretraživanjeSoftver za pretraživanje Softver za pretraživanje je program za pronalaženje

informacija koji ima dva osnovna zadatka:1. Poređenje unosa sa milionima zapisa sačuvanih u

indeksu2. Rangiranje pronađenih zapisa (WEB stranica) prema

određenom redosledu Svaki pretraživač ima sopstveni kriterijum čuvanja ili

odbacivanja ključnih reči pretrage prema tome gde se ta reč pojavljuje (naslov stranice, link, meta-tag...) ili koliko često se ta reč pojavljuje itd.

Prema tome, različiti pretraživači daju različite rezultate na istu reč pretrage ili različit redosled istih rezultata (pronađenih WEB stranica) itd.

Google koristi princip rangiranja stranica za određivanje važnosti stranice tako što vrši analizu citiranja te stranice tj. najvažnije i time prvorangirane na listi rezultata su one stranice na koje ukazuje najveći broj linkova

Mina Milić - Pronalaženje informacija na WEB-u 11 /23

IndeksiranjeIndeksiranje Stariji pretraživači su indeksirali samo pojedine

komponente svake WEB stranice, ali se sve češće indeksiraju kompletni tekstovi sa WEB stranica

WEB pretraživači uglavnom čuvaju u tajnosti algoritme koje koriste za pretraživanje (uglavnom su to varijacije Bulovog i modela vektosrkog prostora)

Jedno od glavnih pravila kojim se algoritmi vode pri rangiranju je lokacija i frekventnost ključnih reči na WEB stranici• Bitna je lokacija termina pretrage na samoj stranici,

pa ako se on nalazi u naslovu HTML koda tretiraće se važnijim nego ostali ili ako se pojavljuje u paragrafima bližim naslovu itd.

• Stranice na kojima se termini pretrage često pojavljuju tretiraju se važnijim od drugih WEB stranica


ProcesProces Pretraživači uglavnom drže u tajnosti svoje

procese “puzanja” i indeksiranja, ali Google javno objavljuje svoju metodologiju koja se sastoji od sledećih koraka:• Puzanje po WEB-u (skidanje WEB stranica) radi

se pomoću nekoliko distribuiranih paukova• URL server šalje paucima listu URL-ova• Dohvaćene WEB stranice se šalju serveru za

skladištenje podataka gde se kompresuju i odlažu u skladište

• Svakoj od tih WEB stranica se dodeljuje identifikacija (docID) čim se njen URL isparsira

• Funkciju indeksiranja vrše indekser i sorter• Indekser čita materijal iz skladišta,

dekompresuje dokumenta i parsira ih


ProcesProces• Svaki dokument se konvertuje u komplet takozvanih pogodaka

(pojavljivanja specifičnih reči), a pogotci dokumentuju reč, njenu poziciju u dokumentu, aproksimaciju veličine fonta, prisustvo velikih slova

• Indekser distribuira pogotke u takozvane komplete barela i kreira delimično sortirani indeks

• Indekser takođe parsira linkove sa svake WEB stranice i važne informacije o njima smešta u tzv. sidarni fajl koji sadrži dovoljno informacija da odredi izvor i odredište svakog linka kao i njegov tekst

• Razrešivač URL-ova čita sidarne fajlove i konvertuje relativne URL-ove u apsolutne URL-ove, a zatim u docID. On vezuje tekst iz sidarnog falja i odgovarajući docID i smešta ih u indeks. Razrešivač takođe kreira bazu linkova uparenih sa docID za kasnije izračunavanje ranga stranice za sve dokumente

• Sorter uzima barele (sortirane prema docID) i kreira invertovan indeks sortiran prema wordID, a pored toga kreira i listu wordID

• Program DumpLexicon sastvalja ovu listu sa leksikonom koji je kreirao indekser i kreira novi leksikon koji će koristiti tragač

• Tragača pokreće WEB server i on koristi gore kreirani leksikon zajedno sa invertovanim indeksom i rangom stranica da da konačan odgovor na upit


Tipovi pretraživačaTipovi pretraživača Rezultati WEB pretrage zavise od izbora samog pretraživača

usled razlike u indeksiranju, osvežavanju indeksiranih stranica, a i po različitim mogućnostima pretraživača

Najgrublja podela pretraživača je na klasične i meta pretraživače – alati koji omogućavaju korisnicima da vrše paralelnu pretragu preko više pretraživača

Neki ih dele prema karakteristikama indeksiranja, a Saliven sa Searchenginewatch.com je podelio pretraživače na sedam kategorija:1. Generalni pretraživači (http://www.google.com)2. Pretraživači novina (http://news.altavista.com)3. Specijalizovani pretraživači (http://www.askjeeves.com)4. Pretraživači za decu (http://www.yahooligans.com)5. Meta-puzači poput Dogpile (http://www.dogpile.com/info.dogpl/)6. Multimedijalni pretraživači (http://images.google.com)7. Regionalni i državni pretraživači poput Evropskih ili Japanskih

pretraživača (http://www.webmasterworld.com/forum18/544.htm)


Zajedničke karakteristike Zajedničke karakteristike pretraživanja WEB pretraživačapretraživanja WEB pretraživača Skoro svi pretraživači poseduju osnovne karakteristike

tekstualne pretrage:• Bulova pretraga kroz tri glavna pristupa:

1. Korišćenjem AND, OR i NOT2. Korišćenjem ‘+’ i ‘-’ ispred termina pretrage3. Korišćenjem opcija poput ‘sve reči’, ‘neka od reči’ ili ‘nijedno od reči’

• Približna pretraga uz primenu odgovarajućeg operatora tipa ‘NEAR’• Pretraga po polju tj pretraga naslova korišćenjem termina ‘u naslovu’

ispred termina pretrage• Pretraga fraza unošenjem odgovarajuće fraze u duple navode• Ograničavajuća pretraga (po vremenu, datumu, tipu fajla, jeziku

pretrage itd.) Ovo su neke od tradicionalnih metoda pretraživanja koje su

prisutne u modernim WEB pretraživačima, a možemo im vrlo jednostavno pristupiti preko naprednih funkcija pretraživanja koje dodatno omogućavaju korisnicima vrlo naprednu i kompleksnu pretragu na krajnje pojednostavljen način


Intefejs za naprednu pretragu Goolge pretraživača


Zajedničke karakteristike Zajedničke karakteristike pretraživanja WEB pretraživačapretraživanja WEB pretraživača Pored tradicionalnih tehnika pretraživanja, napredne opcije

pretrage kod popularnih pretraživača nude i neke metode pretrage optimizovane isključivo za pretragu WEB sadržaja koje generalno nazivamo specijalnim funkcijama pretraživača:• Pretraživanje domaćina/domena – korisnici Googla mogu uneti ime domena

(URL), a zatim izabrati da li da dobiju sadržaj tog domena ili ne• Pretraživanje URL-a – korisnici mogu u polje za pretragu direktno uneti URL• Pretraživanje linka – u naprednim opcijama korisnici mogu uneti URL da otkriju

koje stranice imaju link ka njemu• Ograničena pretraga – limitirana izabranim faktorima poput jezika pretrage,

formata fajla, datuma, pojavljivanja i domena• Pronađi slično – opcija koja pronalazi stranice slične unetoj• Pretraga prema jeziku• Filtriranje – opcija koja ne dozvoljava da pretraživač prikazuje neželjeni sadržaj• Prevođenje stranice – mogućnost prevoda unetog teksta na željeni jezik• Prikaz rezultata – korisnici mogu da izaberu broj prikazanih stranica na ekranu

prilikom pretrage


Zajedničke karakteristikeZajedničke karakteristike pretraživanja WEB pretraživačapretraživanja WEB pretraživačaUzevši u obzir da je Google trenutno

najpopularniji pretraživač na internetu, evo još nekoliko specijalnih opcija koje on nudi korisnicima:• “I’m Feeling Lucky” – učitava prvu

stranicu iz rezultata pretrage• Google Toolbar – omogućava

korisnicima da instaliraju polje za pretragu pomoću Googla direktno na svoj internet pretraživač• TouchGraf GoogleBrowser – prikazuje

korisniku kako WEB izgleda kroz linkove među korisnikovim omiljenim sajtovima


Specijalizovani pretraživačiSpecijalizovani pretraživači Pored pretrage teksta, pretraživači omogućavaju

i pronalaženje multimedijalnih informacija, međutim, postoje i specijalizovani pretraživači koji pružaju mogućnost da sam upit bude nekonvencionalan• Upit prirodnim jezikom

Pretraživači poput Askjeeves.com omogućavaju korisnicima da upit unose kao što bi to činili sa nekom osobom u svakodnevnom govoru – prirodnim jezikom. To znači da korisnik ne mora da razmišlja o Bulovim operatorima već jednostavno može uneti kompletnu rečenicu kao upit i dobiti odgovor u formi upita odnosno direktne smernice ka sajtovima koji sadrže odgovor

• Vizuelizacija Pretraživači poput Kartoo.com ili TouchGrapf

GoogleBrowser-a prezentuju rezultate pretrage na drugačiji način. Oni grafički odnosno vizuelno prikazuju rezultate pretrage na ekranu za razliku od standardne tekstualne liste


Rezultati pretrage sajta Kartoo


Rezultati pretrage sajta TouchGraph GoogleBrowser


ZaključakZaključak

Mnogobrojnim statističkim analizama, stručnjaci su došli do veoma važnih zaključaka kada je u pitanju korišćenje WEB pretraživača i kvalitet pronalaženja odgovarajućih informacija:• Većina upita su kratki, nemodifikovani i veoma

proste strukture• Veoma su retke pretrage koje uključuju napredne

metode, a i polovina takvih pretraga su pogrešne• Iako svaka pretraga pruži ogroman broj sajtova kao

odgovor na upit, ljudi najčešće ne pogledaju dalje od prve eventualno druge stranice izlistanih sajtova

• Korisnike ne zanima previše značaj povratnih informacija

• Korisnici imaju poteškoća oko formulisanja svojih upita

• Generalno, korisnici provode malo vremena pretražujući baze podataka WEB pretraživača


Documents

Pronalaženje informacija na WEB-u