Upload
gaenor
View
89
Download
0
Embed Size (px)
DESCRIPTION
Univerzitet u Istočnom Sarajevu Filozofski fakultet odsjek : Matematika i računarstvo. Web brovseri i pretra živački sistemi. Student: Dijana Čović Br. indeksa: 3453/06. Mentor: Prof. dr Milorad K. Banjanin. „Mreža “ se prvi put pojavila krajem 1960-tih. JEDNA OD PRVIH MREŽA. - PowerPoint PPT Presentation
Citation preview
Univerzitet u Istočnom SarajevuFilozofski fakultetodsjek : Matematika i računarstvo
Web brovseri i pretraživački sistemi
Mentor:Prof. dr Milorad K. Banjanin
„Mreža“ se prvi put pojavila krajem 1960-tih
JEDNA OD PRVIH MREŽA
ARPANET su dizajnirali teoretičari kao vojno i istraživačko sredstvo, bez ikakve namjere da dostigne komercijalnu upotrebu.
Nakon ekspanzije 1980-tih, kada su ARPANET i ostale postojeće mreže počele funkcionisati zajedno preko TCP/IP protokola, nagovještavajući internet, mreža i dalje nije bila prilagođena širokoj javnosti.
TCP/IP protokol stek je skup protokola razvijen da omogući umreženim računarima da dijele resurse putem mreže.
Prelomna ideja bilo je kreiranje Web-a, sa najvažnijom funkcijom dodjeljivanja URL-a
(Uniform Resource Locator) svakoj Web stranici, npr:
http://en.wikipedia.org/wiki/URL - stranica na Wikipediji o URL adresama.
NETSCAPE NAVIGATORPRVI
POPULARAN PRETRAŽIVAČ
Ovaj pretraživač bio je distribuiran besplatno nekomercijalnim korisnicima krajem 1994. god.
Mogućnost trenutnog otvaranja web stranica
pogodnost koja je u to vrijeme imala veliki značaj s obzirom na relativno sporu brzinu konekcije tadašnjeg
interneta
Korisnik je mogao početi otvaranje stranice u trenutku kada je samo dio podataka stigao, bez
čekanja potpunog dodavanja stranice.
Bilo je moguće podesiti da se grafika dodaje na kraju.
Netscape pretraživači su bili kompatibilni sa većinom tadašnjih operativnih sistema i ostali vodeći kroz cijelu deceniju. Zatim su se mnogi drugi pretraživači pojavili, među kojima su Internet Explorer i Safari bili veoma popularni. Netscape više ne postoji, ali su neke od njegovih osnova i dalje u upotrebi kroz njegovog naslednika, Firefox, jednog od najboljih pretraživača danas.
Operativni sistem je program koji objedinjuje različite delove računara i skriva od korisnika detalje funkcionisanja koji se javljaju u korišćenju računara.
Bili su zasnovani na principima vraćanja pojedinih informacija koje, iako dobro ustanovljene i čvrste, nisu
bile dovoljne da bi se napravila zadovoljavajuća selekcija mogućih rješenje i odgovora ukoliko nije
korišten i neki drugi kriterijum.
Ono što je Google predstavio bila je prelomna inovacija, algoritam Page Rank (niz stranica) baziran na matematičkom konceptu Markoovog lanca (Markov chain)
Pretraživanje interneta je bio posao za programere i eksperte, dok su obični ljudi bili izgubljeni u moru nebitnih informacija.
Od browsera do pretraživačkih sistema
Browseri (pretraživači) predstavljaju veliku prednost u korištenju Inreneta. Međutim, najveću inovaciju koja je omogućila korisnicima bez velikih računarskih sposobnosti da se lako koriste internetom predstavlja pojava pretraživačkih sistema (search engine). Najpopularniji danas su: Google, Yahoo!, Microsoft-ov Bing i posebno Baidu za kineski jezik. Svi smo toliko naviknuti na njih, da skoro Potpuno zaboravljamo
PRVI PRETRAŽIVAČI
često su stvarali više problema nego što su mogli da riješe, vraćajući ogromne
liste informacija bez ikakve racionalne
osnove.
Pojavljuje se oko 2000-te godine
Postiže spektakularan uspjeh za veoma kratko vrijeme.
Ogroman broj programera, računarskih eksperata i studenata radili su na kreiranju pretraživača interneta pogodnih za obične korisnike (ussr-friendly).
Web stranicama dodjeljuje vrijednost njihove „popularnosti“ na osnovu broja dolazećih veza na web grafikonu
Dva mlada i veoma pametna studenta, Sergey Brin i Larry Page, razvili su ovaj sistem kao dio njihovog studijskog zadatka
na Stanford Univerzitetu. Ime je odabrano prepravljanjem riječi googol.
Ovu riječ je smislio dječak od koga je deda tražio da kaže ime broja koji se sastoji od jedinice i sto nula.
Ime takođe ima sličnosti i sa goggles, vodena sočiva potrebna da bi se pregledao ogroman okean – web.
Kompanija je počela sa radom 1998. godine u garaži u Menlo parku u Kaliforniji.
Početak :
1Obrađivanje osnovne strukture podataka i algoritama koji su korišteni
2
ANATOMIJA PRETRAŽIVAČKOG SISTEMA
Opisivanje konstrukcije i funkcionisanja pretraživačkih sistema
Kako je moguće sakupiti hiljade odgovora u sekundi sa različitih izvora i sortirati ih prema relevantnosti?
(engl. Relevance) Prikladnost ciljeva projekta u odnosu na stvarne probleme, potrebe i prioritete ciljnih skupina i korisnika kojima se projekt treba baviti, te u odnosu na fizičko i političko okruženje u okviru kojeg djeluje.Kako su podaci sakupljeni sa mreže i smješteni u memorije
pretraživačkih sistema
3 Na osnovu kojih kriterijuma se utvrđuje relevantnost sakupljenih stranica
4 Kako se odgovara na zahtjeve korisnika
5 Kako upotreba distributivnih tehnika i paralelnog procesuiranja omogućavaju finalni rezultat.
Osnovne strukture podataka•Podatak je atributivni iskaz nekog entiteta.
•Entitet je predstavljanje realnog svijeta
diskretnim vrijednostima.
Pretraživački sistemi sakupljaju ogromne količine podataka sa interneta koje se moraju sortirati u memoriji i biti spremne da se pošalju korisnicima kao odgovori na njihova pitanja.
Osnovne strukture
podataka koje se koriste u glavnom
se sastoje od : KOLONA MATRICA RAZGRANATIH STRUKTURA
Podaci su organizovani u obrnutom sistemu koji se u glavnom sastoji iz tri tabele
Tabela dokumenata
D
Tabela termina
T
Tabela postavljanja
P
Sakupljene stranice dobijaju cijeli broj kao identifikaciju docID i smješteni su u D gradacijski po veličini. Primjer se odnosi na sajt na kome se nalaze originalne digitalno remasterizovane kompilacije Bitlsa –Original Compilations Remastered – The Beatles (docID = 5); zatim na sajt o animaciji – Submarinechannel (docID = 20); i na sajt sa pričom o pjesmi Yellow Submarine (docID=90). I URL i kompletan tekst stranica su uskladišteni .
Termini prisutni u svim dokumentima su smješetni u tabeli T po abecednom redu. Termini su riječi na svim prirodnim jezicima, uključujući i njihove pogrešne konstrukcije ako ih ima; akronimi, e-mail adrese, i td., tj. sve konstrukcije znakova i karaktera prisutne na internetu ograničene praznim razmacima. Prazno mjesto u tabeli T za termin t ukazuje na poziciju i u tabeli P od koje počinje lista pojmova koji se odnose na dokumente koji sadrže pomenuto t. U primjeru termin „beatles“ koji ukazuje na i = 10 nalazi se u dokumentu 5 gdje se pojavljuje 8 puta; u dokumentu 90 gdje se pojavljuje 6 puta i td. Lista se završava posebnim simbolom $ na poziciji i = 32, što znači da je (32-10) / 2 = 11, odnosno 11 dokumenata sadrži termin „beatles“, dva unosa u tabeli P po dokumentu.
PRETRAŽIVAČ SAKUPLJAČ
Nalazi u računaru korisnika i dizajniran je da pronađe web stranice čija je URL adresa poznata.
Nalazi se u pretraživačkom sistemu i dizajniran je da sakupi sve dostupne stranice, sa ograničenjem koje određuje struktura sistema – minimalna količina otpada i nebitnih podataka.Rad potreban za sakupljanje podataka sa
interneta i za funkcionisanje pretrazivačkih sistema zavisi od količine podataka dostupnih
korisniku i brzine operacije cijelog sistema.
Sakupljanje podataka sa internetaCrawling the Web
Razlika između Web pretraživača i sakupljčaSakupljanjem podataka sa interneta bave se sakupljači (crawlers).
Sakupljači (crawlers) – kompjuterski programi dizajnirani da sakupe što više web stranica.
OSNOVNA ALGORITAMSKA STRUKTURA SAKUPLJČA
Program koristi dvije strukture podataka: splet poznat kao QUEUE i dvije tabele A i B.
Svoje elemente drži jedne ispod drugih, otpuštajući gornji element na zahtjev
(QUEUE x, gdje promjenjiva x uzima vrijednost
otpuštajućeg elementa) i prihvata nove elemente na
dnu (x QUEUE).
Tabele A i B mogu biti primijenjenje slobodnim izborom, pod uslovom da su brzi uvid i bzo umetanje mogući.
Grupa URL adresa potencijalno važnih sajtova dodata je u splet na samom početku. Sakupljač trži stranice sa adresama u spletu i, ukoliko već nisu prisutne u tabelama, sakuplja i URL i tekst i smješta ih u tabele A i B. Zatim skenira stranicu tražeći potencijalne linkove na njoj i ukoliko traženi URL nije pronađen, stranice se dodaju u splet. Algoritam je veoma jednostavan i nastavlja se sve dok u spletu više nema URL-a koje treba ispitivati (završna komanda while QUEUE provjerava prazan splet).
Pretraživač se sastoji iz tri dijela :
crawler
indexerquery handler
Zadužen za automatsko prikupljanje stranica sa
Web-a i njihovo smeštanje u indeks
pretraživača
Obezbeđuje kreiranjeodgovarajuće strukture (inverted index ), koja omogućava efikasnure
prezentacijui pretraživanje arhiviranih
stranica.
Prihvata korisničke upite i odgovara na njih
korišćenjem indeksa pretraživača
Problemi sa kojima se suočavaju Web pretraživači
Brzina rasta Web-a je znatno veća nego što je postojeća tehnologija u stanju da indeksira.
Veliki broj Web stranica ažuriraju svoj sadržaj veoma često, što zahteva da ih pretraživači češće posećuju, da bi imali ažurne kopije
u indeksu.Dinamičke stranice se ili sporo i teško indeksiraju ili mogu
rezultovati u prekomerenom broju rezultata . Veliki broj dinamički generisanih websajtova nije uopšte moguće indeksirati korišćenjem standardnih web pretraživača ( ovi sajtovi
čine tzv. “nevidljivi web” ).Relevantnost stranica, pored toga što se teško određuje, može biti i
dvosmislena, odnosno korisnik i pretraživač mogu imati različita “shvatanja” relevantnosti.
CRAWLING
Web crawling predstavlja proces prikupljanja stranica saWeb-a, radi njihovog indeksiranja u okviru Web pretraživača.
CILJPrikupljanje što većeg broja Web stranica, zajedno sa informacijama o njihovoj međusobnoj povezanosti, u što kraćem vremenskom periodu i na najefikasniji mogući način.
Web crawler Web robot Web bot
Program koji automatizovano krstari web-om
prikupljajući informacije o
stranamaSASTOJI SE : •Crawling sistem
( eng. Crawling System )•Crawling aplikacija ( eng. Crawling Application )
Crawling aplikacija ima zadatak da donese odluku koju sledeću adresu ( URL ) treba Crawling sistem da posjeti.
Crawler se sastoji od više modula :
URL frontier
Modul koji određuje da li se ekstrahovani link već u URL frontier redu ili je nedavno fetch-ovan
Parsing modul
Fetch modul
DNS resolution modul
sadrži URL-ove koji će biti fetch-ovani u tekućem crawl-u
određuje adresu web servera na kome se nalazi URL koji fetch-ujemo
retrieve-uje stranicu na datom URL-u
ekstrahuje skup linkova sazadate web strane
struktura crawler-a sa navedenim modulima
Karakteristike Web-a koje diktiraju ponašanje Web crawler-a
Veliki broj
stranicaBrzina
promjene
Ovo ima za posledicuda crawler-i mogu samoda posete delić web-a, što znači da taj delić
treba da bude posebno odabran.
Dok crawrel posjeti poslednju stranicu na sajtu, veoma je verovatno da su u međuvremenu neke strane dodate, neke obrisane, a neke izmenjene. Ovo je pogotovo karakteristično
za velike sajtove.
INDEKSIRANJE Obavlja se paralelno sa crawl operacijom, korišćenjem strukture
invertovanog indeksa
Invertovani indeks, predstavlja osnovnu strukturu podataka koja se korisiti u okviru
Web pretraživača i IR softvera uopšte
IR (information retrieval )oblast koja se bavi izučavanje metoda
za pronalazak informacija u okviru dokumenata i van njih
Indeks struktra koja sadrži presikavanja izmeđuključnih reči i njihovih lokacija u
skupu dokumenata, i korišćenjem koje se omogućava efikasno pretraživanje
posmatranog skupa.
REALIZACIJANa nivou zapisa
( record level inverted index )
Na nivou riječi (word level inverted
index)
Sadrži listu referenci na dokument za svaku riječ
koja se u okviru njega javlja makar jedanput i
na nivou reči
Sadrži i informacije o
pozicijisvakog javljanja
date reči u okviru odgovarajućeg
dokumenta.
PROCES INDEKSIRANJA
Za zadati korpus dokumenata, prolazi se kroz svaki dokument i za svaki token, vrši se njegovo ažuriranje u okviru indeksa:
•Tokeni - su jedinice koje imaju za jezik smisleno značenje.•Token - je određena kategorija jezika i više stringova se može izraziti jednim tokenom.
.
.
Ukoliko već postoji, dodaje se tekući dokument kao lokacija u kojoj se nalazi
Ukoliko ne postoji, kreira se novi ulaz u indeksu, za zadati token i tekući dokument se postavlja za prvu lokaciju u kojoj se navedeni token nalazi.
Nakon završetka ovog procesa, sve operacije pretraživanja ( koje su oblika : “naći sve stranice na web-u u kojima se nalaze navedeni tokeni” ), obavljaju se preko dobijenog invertovanog indeksa.
PAGERANK
Web se najčešće pradstavlja, u vidu Web grafa :
W (P,L)skup
stranica na Web-u skup svih
hiperlinkova između stranica
G=(V,E)SKUP
ČVOROVA SKUPGRANA
Grane predstavaju relaciju između čvorova.Npr., graf može da predstavlja skup ljudi, a da grana
povezuje dva čovjeka ako se oni poznaju.
PageRank algoritam (koji se koristi u okviru Google pretraživača), ima za cilj dodeljivanje numeričke vrednosti u rasponu 0 do 1 (koja se naziva pagerank), svakom čvoru u Web Grafu, koja ukazuje na njegovu relevantost, pri čemu data vrednost prvenstveno zavisi od same link strukture Web Grafa.
Spam na internetu (Spamming)
zloupotreba elektronskih sistema u svrhu slanja neželjenih masovnih poruka bez ikakvog kriterijuma.
Spam
Web spamming- tehnike koje nastoje povećati očiglednu vrijednost „tražene stranice“
Bezbrojne poruke koje neki korisnici primaju i-mejlom, a koje reklamiraju proizvode za koje nikada nisu izrazili interesovanje, obaviještavaju o temama na koje se nisu pretplatili, lažne privatne poruke koje vode na stranice pornografskog sadržaja, i sl., samo su neki od oblika spama.
Concocted ili spoof stranice - lažni web sajtovi
Concocted sajtovi Nude usluge ili proizvode koji nikad neće biti
pruženi ili poslati.
Sakupljaju novac i brzo nestaju
Obavljaju svojevrstan nesofisticiran napad oslanjajući se na naivnost korisnika .
Na žalost, na ovaj način mnogi dobri sajtovi
mogu izgledati sumnjivo i biti
odbačeni.
Spoof sajtovi
Mnogo sofisticiraniji i opasniji jer su njihove stranice
dosledne i uvjerljive imitacije pravih sajtova,
najčešće banaka
Namjera je da privuku korisnike pravog sajta na lažni kako bi ukrali lične
podatke ili naplatili određene usluge
Najčešći način privlačenja korisnika je poznat kao
phishing (pecanje) koje se obavlja slanjem spoof
linkova e-mailom
Savjeti kako se zaštiti od Web napada na internetu:
! Čuvajte se e-mailova od udovice stranog generala koja želi da podijeli nekoliko miliona dolara koje je njen muž sakrio prije njegove smrti.
!
!
Čuvajte se bilo kakvih poruka napisanih neuobičajenim jezikom koji je očiglednorezultat nekog automatskog prevodioca, posebno ako traži vaše lične podatke.
Obratite pažnju na sve e.mailove od „vaše“ banke jer ime banaka može lako da se otkrije kroz vašu istoriju pretraživanja interneta, i generalno banke ne komuniciraju često preko e-maila.
I, malo ozbiljnije, čuvajte se podmuklih „društveno orijentisanih“ e-mail poruka kojemogu zadobiti vaše povjerenje jer vam se može učiniti da su ih napisali vaši prijatelji,
jer su pune ličnih informacija koje lako mogu biti sakupljene sa društvenih mreža.