Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo

Univerzitet u Istočnom SarajevuFilozofski fakultetodsjek : Matematika i računarstvo

Web brovseri i pretraživački sistemi

Mentor:Prof. dr Milorad K. Banjanin

„Mreža“ se prvi put pojavila krajem 1960-tih

JEDNA OD PRVIH MREŽA

ARPANET su dizajnirali teoretičari kao vojno i istraživačko sredstvo, bez ikakve namjere da dostigne komercijalnu upotrebu.

Nakon ekspanzije 1980-tih, kada su ARPANET i ostale postojeće mreže počele funkcionisati zajedno preko TCP/IP protokola, nagovještavajući internet, mreža i dalje nije bila prilagođena širokoj javnosti.

TCP/IP protokol stek je skup protokola razvijen da omogući umreženim računarima da dijele resurse putem mreže.

Prelomna ideja bilo je kreiranje Web-a, sa najvažnijom funkcijom dodjeljivanja URL-a

(Uniform Resource Locator) svakoj Web stranici, npr:

http://en.wikipedia.org/wiki/URL - stranica na Wikipediji o URL adresama.

http://en.wikipedia.org/wiki/URL

NETSCAPE NAVIGATORPRVI

POPULARAN PRETRAŽIVAČ

Ovaj pretraživač bio je distribuiran besplatno nekomercijalnim korisnicima krajem 1994. god.

Mogućnost trenutnog otvaranja web stranica

pogodnost koja je u to vrijeme imala veliki značaj s obzirom na relativno sporu brzinu konekcije tadašnjeg

interneta

Korisnik je mogao početi otvaranje stranice u trenutku kada je samo dio podataka stigao, bez

čekanja potpunog dodavanja stranice.

Bilo je moguće podesiti da se grafika dodaje na kraju.

Netscape pretraživači su bili kompatibilni sa većinom tadašnjih operativnih sistema i ostali vodeći kroz cijelu deceniju. Zatim su se mnogi drugi pretraživači pojavili, među kojima su Internet Explorer i Safari bili veoma popularni. Netscape više ne postoji, ali su neke od njegovih osnova i dalje u upotrebi kroz njegovog naslednika, Firefox, jednog od najboljih pretraživača danas.

Operativni sistem je program koji objedinjuje različite delove računara i skriva od korisnika detalje funkcionisanja koji se javljaju u korišćenju računara.

Bili su zasnovani na principima vraćanja pojedinih informacija koje, iako dobro ustanovljene i čvrste, nisu

bile dovoljne da bi se napravila zadovoljavajuća selekcija mogućih rješenje i odgovora ukoliko nije

korišten i neki drugi kriterijum.

Ono što je Google predstavio bila je prelomna inovacija, algoritam Page Rank (niz stranica) baziran na matematičkom konceptu Markoovog lanca (Markov chain)

Pretraživanje interneta je bio posao za programere i eksperte, dok su obični ljudi bili izgubljeni u moru nebitnih informacija.

Od browsera do pretraživačkih sistema

Browseri (pretraživači) predstavljaju veliku prednost u korištenju Inreneta. Međutim, najveću inovaciju koja je omogućila korisnicima bez velikih računarskih sposobnosti da se lako koriste internetom predstavlja pojava pretraživačkih sistema (search engine). Najpopularniji danas su: Google, Yahoo!, Microsoft-ov Bing i posebno Baidu za kineski jezik. Svi smo toliko naviknuti na njih, da skoro Potpuno zaboravljamo

PRVI PRETRAŽIVAČI

često su stvarali više problema nego što su mogli da riješe, vraćajući ogromne

liste informacija bez ikakve racionalne

osnove.

Pojavljuje se oko 2000-te godine

Postiže spektakularan uspjeh za veoma kratko vrijeme.

Ogroman broj programera, računarskih eksperata i studenata radili su na kreiranju pretraživača interneta pogodnih za obične korisnike (ussr-friendly).

Web stranicama dodjeljuje vrijednost njihove „popularnosti“ na osnovu broja dolazećih veza na web grafikonu

Dva mlada i veoma pametna studenta, Sergey Brin i Larry Page, razvili su ovaj sistem kao dio njihovog studijskog zadatka

na Stanford Univerzitetu. Ime je odabrano prepravljanjem riječi googol.

Ovu riječ je smislio dječak od koga je deda tražio da kaže ime broja koji se sastoji od jedinice i sto nula.

Ime takođe ima sličnosti i sa goggles, vodena sočiva potrebna da bi se pregledao ogroman okean – web.

Kompanija je počela sa radom 1998. godine u garaži u Menlo parku u Kaliforniji.

Početak :

1Obrađivanje osnovne strukture podataka i algoritama koji su korišteni

2

ANATOMIJA PRETRAŽIVAČKOG SISTEMA

Opisivanje konstrukcije i funkcionisanja pretraživačkih sistema

Kako je moguće sakupiti hiljade odgovora u sekundi sa različitih izvora i sortirati ih prema relevantnosti?

(engl. Relevance) Prikladnost ciljeva projekta u odnosu na stvarne probleme, potrebe i prioritete ciljnih skupina i korisnika kojima se projekt treba baviti, te u odnosu na fizičko i političko okruženje u okviru kojeg djeluje.Kako su podaci sakupljeni sa mreže i smješteni u memorije

pretraživačkih sistema

3 Na osnovu kojih kriterijuma se utvrđuje relevantnost sakupljenih stranica

4 Kako se odgovara na zahtjeve korisnika

5 Kako upotreba distributivnih tehnika i paralelnog procesuiranja omogućavaju finalni rezultat.

Osnovne strukture podataka•Podatak je atributivni iskaz nekog entiteta.

•Entitet je predstavljanje realnog svijeta

diskretnim vrijednostima.

Pretraživački sistemi sakupljaju ogromne količine podataka sa interneta koje se moraju sortirati u memoriji i biti spremne da se pošalju korisnicima kao odgovori na njihova pitanja.

Osnovne strukture

podataka koje se koriste u glavnom

se sastoje od : KOLONA MATRICA RAZGRANATIH STRUKTURA

Podaci su organizovani u obrnutom sistemu koji se u glavnom sastoji iz tri tabele

Tabela dokumenata

D

Tabela termina

T

Tabela postavljanja

P

Sakupljene stranice dobijaju cijeli broj kao identifikaciju docID i smješteni su u D gradacijski po veličini. Primjer se odnosi na sajt na kome se nalaze originalne digitalno remasterizovane kompilacije Bitlsa –Original Compilations Remastered – The Beatles (docID = 5); zatim na sajt o animaciji – Submarinechannel (docID = 20); i na sajt sa pričom o pjesmi Yellow Submarine (docID=90). I URL i kompletan tekst stranica su uskladišteni .

Termini prisutni u svim dokumentima su smješetni u tabeli T po abecednom redu. Termini su riječi na svim prirodnim jezicima, uključujući i njihove pogrešne konstrukcije ako ih ima; akronimi, e-mail adrese, i td., tj. sve konstrukcije znakova i karaktera prisutne na internetu ograničene praznim razmacima. Prazno mjesto u tabeli T za termin t ukazuje na poziciju i u tabeli P od koje počinje lista pojmova koji se odnose na dokumente koji sadrže pomenuto t. U primjeru termin „beatles“ koji ukazuje na i = 10 nalazi se u dokumentu 5 gdje se pojavljuje 8 puta; u dokumentu 90 gdje se pojavljuje 6 puta i td. Lista se završava posebnim simbolom $ na poziciji i = 32, što znači da je (32-10) / 2 = 11, odnosno 11 dokumenata sadrži termin „beatles“, dva unosa u tabeli P po dokumentu.

PRETRAŽIVAČ SAKUPLJAČ

Nalazi u računaru korisnika i dizajniran je da pronađe web stranice čija je URL adresa poznata.

Nalazi se u pretraživačkom sistemu i dizajniran je da sakupi sve dostupne stranice, sa ograničenjem koje određuje struktura sistema – minimalna količina otpada i nebitnih podataka.Rad potreban za sakupljanje podataka sa

interneta i za funkcionisanje pretrazivačkih sistema zavisi od količine podataka dostupnih

korisniku i brzine operacije cijelog sistema.

Sakupljanje podataka sa internetaCrawling the Web

Razlika između Web pretraživača i sakupljčaSakupljanjem podataka sa interneta bave se sakupljači (crawlers).

Sakupljači (crawlers) – kompjuterski programi dizajnirani da sakupe što više web stranica.

OSNOVNA ALGORITAMSKA STRUKTURA SAKUPLJČA

Program koristi dvije strukture podataka: splet poznat kao QUEUE i dvije tabele A i B.

Svoje elemente drži jedne ispod drugih, otpuštajući gornji element na zahtjev

(QUEUE x, gdje promjenjiva x uzima vrijednost

otpuštajućeg elementa) i prihvata nove elemente na

dnu (x QUEUE).

Tabele A i B mogu biti primijenjenje slobodnim izborom, pod uslovom da su brzi uvid i bzo umetanje mogući.

Grupa URL adresa potencijalno važnih sajtova dodata je u splet na samom početku. Sakupljač trži stranice sa adresama u spletu i, ukoliko već nisu prisutne u tabelama, sakuplja i URL i tekst i smješta ih u tabele A i B. Zatim skenira stranicu tražeći potencijalne linkove na njoj i ukoliko traženi URL nije pronađen, stranice se dodaju u splet. Algoritam je veoma jednostavan i nastavlja se sve dok u spletu više nema URL-a koje treba ispitivati (završna komanda while QUEUE provjerava prazan splet).

Pretraživač se sastoji iz tri dijela :

crawler

indexerquery handler

Zadužen za automatsko prikupljanje stranica sa

Web-a i njihovo smeštanje u indeks

pretraživača

Obezbeđuje kreiranjeodgovarajuće strukture (inverted index ), koja omogućava efikasnure

prezentacijui pretraživanje arhiviranih

stranica.

Prihvata korisničke upite i odgovara na njih

korišćenjem indeksa pretraživača

Problemi sa kojima se suočavaju Web pretraživači

Brzina rasta Web-a je znatno veća nego što je postojeća tehnologija u stanju da indeksira.

Veliki broj Web stranica ažuriraju svoj sadržaj veoma često, što zahteva da ih pretraživači češće posećuju, da bi imali ažurne kopije

u indeksu.Dinamičke stranice se ili sporo i teško indeksiraju ili mogu

rezultovati u prekomerenom broju rezultata . Veliki broj dinamički generisanih websajtova nije uopšte moguće indeksirati korišćenjem standardnih web pretraživača ( ovi sajtovi

čine tzv. “nevidljivi web” ).Relevantnost stranica, pored toga što se teško određuje, može biti i

dvosmislena, odnosno korisnik i pretraživač mogu imati različita “shvatanja” relevantnosti.

CRAWLING

Web crawling predstavlja proces prikupljanja stranica saWeb-a, radi njihovog indeksiranja u okviru Web pretraživača.

CILJPrikupljanje što većeg broja Web stranica, zajedno sa informacijama o njihovoj međusobnoj povezanosti, u što kraćem vremenskom periodu i na najefikasniji mogući način.

Web crawler Web robot Web bot

Program koji automatizovano krstari web-om

prikupljajući informacije o

stranamaSASTOJI SE : •Crawling sistem

( eng. Crawling System )•Crawling aplikacija ( eng. Crawling Application )

Crawling aplikacija ima zadatak da donese odluku koju sledeću adresu ( URL ) treba Crawling sistem da posjeti.

Crawler se sastoji od više modula :

URL frontier

Modul koji određuje da li se ekstrahovani link već u URL frontier redu ili je nedavno fetch-ovan

Parsing modul

Fetch modul

DNS resolution modul

sadrži URL-ove koji će biti fetch-ovani u tekućem crawl-u

određuje adresu web servera na kome se nalazi URL koji fetch-ujemo

retrieve-uje stranicu na datom URL-u

ekstrahuje skup linkova sazadate web strane

struktura crawler-a sa navedenim modulima

Karakteristike Web-a koje diktiraju ponašanje Web crawler-a

Veliki broj

stranicaBrzina

promjene

Ovo ima za posledicuda crawler-i mogu samoda posete delić web-a, što znači da taj delić

treba da bude posebno odabran.

Dok crawrel posjeti poslednju stranicu na sajtu, veoma je verovatno da su u međuvremenu neke strane dodate, neke obrisane, a neke izmenjene. Ovo je pogotovo karakteristično

za velike sajtove.

INDEKSIRANJE Obavlja se paralelno sa crawl operacijom, korišćenjem strukture

invertovanog indeksa

Invertovani indeks, predstavlja osnovnu strukturu podataka koja se korisiti u okviru

Web pretraživača i IR softvera uopšte

IR (information retrieval )oblast koja se bavi izučavanje metoda

za pronalazak informacija u okviru dokumenata i van njih

Indeks struktra koja sadrži presikavanja izmeđuključnih reči i njihovih lokacija u

skupu dokumenata, i korišćenjem koje se omogućava efikasno pretraživanje

posmatranog skupa.

REALIZACIJANa nivou zapisa

( record level inverted index )

Na nivou riječi (word level inverted

index)

Sadrži listu referenci na dokument za svaku riječ

koja se u okviru njega javlja makar jedanput i

na nivou reči

Sadrži i informacije o

pozicijisvakog javljanja

date reči u okviru odgovarajućeg

dokumenta.

PROCES INDEKSIRANJA

Za zadati korpus dokumenata, prolazi se kroz svaki dokument i za svaki token, vrši se njegovo ažuriranje u okviru indeksa:

•Tokeni - su jedinice koje imaju za jezik smisleno značenje.•Token - je određena kategorija jezika i više stringova se može izraziti jednim tokenom.

.

.

Ukoliko već postoji, dodaje se tekući dokument kao lokacija u kojoj se nalazi

Ukoliko ne postoji, kreira se novi ulaz u indeksu, za zadati token i tekući dokument se postavlja za prvu lokaciju u kojoj se navedeni token nalazi.

Nakon završetka ovog procesa, sve operacije pretraživanja ( koje su oblika : “naći sve stranice na web-u u kojima se nalaze navedeni tokeni” ), obavljaju se preko dobijenog invertovanog indeksa.

PAGERANK

Web se najčešće pradstavlja, u vidu Web grafa :

W (P,L)skup

stranica na Web-u skup svih

hiperlinkova između stranica

G=(V,E)SKUP

ČVOROVA SKUPGRANA

Grane predstavaju relaciju između čvorova.Npr., graf može da predstavlja skup ljudi, a da grana

povezuje dva čovjeka ako se oni poznaju.

PageRank algoritam (koji se koristi u okviru Google pretraživača), ima za cilj dodeljivanje numeričke vrednosti u rasponu 0 do 1 (koja se naziva pagerank), svakom čvoru u Web Grafu, koja ukazuje na njegovu relevantost, pri čemu data vrednost prvenstveno zavisi od same link strukture Web Grafa.

Spam na internetu (Spamming)

zloupotreba elektronskih sistema u svrhu slanja neželjenih masovnih poruka bez ikakvog kriterijuma.

Spam

Web spamming- tehnike koje nastoje povećati očiglednu vrijednost „tražene stranice“

Bezbrojne poruke koje neki korisnici primaju i-mejlom, a koje reklamiraju proizvode za koje nikada nisu izrazili interesovanje, obaviještavaju o temama na koje se nisu pretplatili, lažne privatne poruke koje vode na stranice pornografskog sadržaja, i sl., samo su neki od oblika spama.

Concocted ili spoof stranice - lažni web sajtovi

http://sr.wikipedia.org/w/index.php?title=%D0%98-%D0%BC%D0%B5%D1%98%D0%BB&action=edit&redlink=1

Concocted sajtovi Nude usluge ili proizvode koji nikad neće biti

pruženi ili poslati.

Sakupljaju novac i brzo nestaju

Obavljaju svojevrstan nesofisticiran napad oslanjajući se na naivnost korisnika .

Na žalost, na ovaj način mnogi dobri sajtovi

mogu izgledati sumnjivo i biti

odbačeni.

Spoof sajtovi

Mnogo sofisticiraniji i opasniji jer su njihove stranice

dosledne i uvjerljive imitacije pravih sajtova,

najčešće banaka

Namjera je da privuku korisnike pravog sajta na lažni kako bi ukrali lične

podatke ili naplatili određene usluge

Najčešći način privlačenja korisnika je poznat kao

phishing (pecanje) koje se obavlja slanjem spoof

linkova e-mailom

Savjeti kako se zaštiti od Web napada na internetu:

! Čuvajte se e-mailova od udovice stranog generala koja želi da podijeli nekoliko miliona dolara koje je njen muž sakrio prije njegove smrti.

!

!

Čuvajte se bilo kakvih poruka napisanih neuobičajenim jezikom koji je očiglednorezultat nekog automatskog prevodioca, posebno ako traži vaše lične podatke.

Obratite pažnju na sve e.mailove od „vaše“ banke jer ime banaka može lako da se otkrije kroz vašu istoriju pretraživanja interneta, i generalno banke ne komuniciraju često preko e-maila.

I, malo ozbiljnije, čuvajte se podmuklih „društveno orijentisanih“ e-mail poruka kojemogu zadobiti vaše povjerenje jer vam se može učiniti da su ih napisali vaši prijatelji,

jer su pune ličnih informacija koje lako mogu biti sakupljene sa društvenih mreža.

Documents

Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo