09 - Ricercare nel Web I

Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e ComunicazioneCorso di Strumenti e applicazioni del Web

9. Ricercare nel Web (Parte I)

Giuseppe Vizzari

Edizione 2015-16

Queste slideQueste slide fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in strumentiapplicazioniweb.wordpress.com. Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):

La licenza non si estende alle immagini provenienti da altre fonti e alle screen shot, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle.

https://strumentiapplicazioniweb.wordpress.com/

http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it

Una visualizzazione [di una parte] del web

R.Polillo - Marzo 2015 3La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/

http://www.caida.org/tools/visualization/walrus/

The Internet Map (http://internet-map.net/)

http://internet-map.net/



Come trovare l'informazione in rete•Sistemi di directoryIndici strutturati di argomenti (gestiti da una redazione)•WikipediaEnciclopedia collaborativa•Motori di ricercaQuery Risultati •Motori semanticiwww.wolframalpha.com, …•Sistemi di Q&A socialeYahoo! Answer, …•EsplorazioneBrowsing, serendipity

5

http://www.wolframalpha.com/

Web directory•Storicamente, il primo strumento di ausilio alle ricerche nel Web• Una nota: nel 1995 molte persone avevano una sorta di sistema di bookmark “server side” nella loro pagina personale (pagina dei “link utili”)

•Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"•Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo•http://en.wikipedia.org/wiki/Web_directory

6

http://en.wikipedia.org/wiki/Web_directory

TassonomiaEmporio celeste dei riconoscimenti benevoli(Enciclopedia cinese, J.L.Borges, 1973)

Gli animali si dividono in:a) Appartenenti all’imperatoreb) Imbalsamatic)Ammaestratid) Lattonzolie) Sirenef) Favolosig)Cani randagih) Inclusi in questa classificazionei) Che si agitano come pazzij) Innumerevolik)Disegnati con un pennello finissimo di peli di

cammellol) Ecceteram) Che hanno ritto il vason) Che da lontano sembrano mosche.

7

Raggruppamento di oggetti in classi, secondo qualche criterio

taxis=ordine nomos=regola

Ogni tassonomia è arbitraria, e dipende dagli obiettivi

Yahoo! (http://dir.yahoo.com)

8

- Nasce come “La guida al WWW di Jerry e David”, nel 1994

- Qui la home del 1996, da www.archive.org

http://en.wikipedia.org/wiki/Internet_Archive

http://dir.yahoo.com/

http://www.archive.org/



The Open Directory Project (ODP)• Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/• Directory gratuita, aperta e multilingua• Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari• http://en.wikipedia.org/wiki/Open_Directory_Project

9

http://www.dmoz.org/

http://en.wikipedia.org/wiki/Open_Directory_Project

Domoz vs Yahoo!

10

Dmoz Yahoo!

NB La directory di Yahoo non viene più aggiornatahttp://en.wikipedia.org/wiki/Yahoo!_Directory

http://en.wikipedia.org/wiki/Yahoo!_Directory

http://en.wikipedia.org/wiki/Yahoo!_Directory

Wikipedia come strumento di ricerca•Wikipedia è un formidabile strumento di ricerca e accesso al web•Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato• Inoltre Wikipedia contiene numerosi indici e directory, fra cui anche veri e propri portali tematici(http://en.wikipedia.org/wiki/Portal:Contents/Portals) 11

http://en.wikipedia.org/wiki/Portal:Contents/Portals

http://en.wikipedia.org/wiki/Portal:Contents/Portals

Serendipità• Cerco una cosa e ne trovo un'altra• Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di Serendip” (Serendip è l'antico nome di Sri Lanka) • Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative

• http://en.wikipedia.org/wiki/Serendipity• http://serendip.brynmawr.edu/serendip/about.html

12

http://en.wikipedia.org/wiki/Serendipity

http://serendip.brynmawr.edu/serendip/about.html

13

www.stumbleupon.com • to stumble: inciampare, scoprire per caso• È una discovery engine di pagine web, fondato in Canada nel 2001• Premendo il bottone STUMBLE! installato sul browser, viene proposto

un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili• Il processo di selezione si affina sulla base del gradimento espresso

(opzionalmente) dall’utente:

14

http://www.stumbleupon.com/

Motori di ricerca per il Web

• Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web• Le informazioni (di solito nella forma di link) sono

presentate in una serie di Search Engine Results Page (SERP)• La qualità di un motore si valuta sulla base della

pertinenza e rilevanza dei risultati

15

Motori di ricerca

Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google- Dal 1998Baidu- dal 2000, cineseYahoo!- Con motori esterni (dal 2009 "Powered by Bing")Bing- Dal 2009 (prima: MSN Search, Windows Live Search, Live Search)

16

Search engine market share

17Fonte: http://www.netmarketshare.com

Feb 2015, desktop

http://www.netmarketshare.com/

Search engine market share

18Fonte: http://www.netmarketshare.com

Feb 2015, mobile + tablet

http://www.netmarketshare.com/

Motori di ricerca: struttura

19

Interfaccia Query processing

Rankingdei

risultati

Query

Risultati(SERP)

Front-end process

Indici + cached pages

CrawlerCrawler IndicizzatoreCrawler

RichiestePagine

web

Pagine webWW

W

Back-end process

Motori di ricerca: struttura

Ogni motore di ricerca è composto da cinque componenti fondamentali: crawler, indice, interfaccia, query processor e il sistema di ranking• Il crawler è un software specializzato che naviga la rete e porta le

pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link ...

• L'indice è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse

• L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al query processor che agisce sull'indice

• Il sistema di ranking ordina i risultati della query in funzione della loro "rilevanza" (eventualmente filtrando risultati non pertinenti)

20

Web crawling• I crawler (robot, spider, bot) sono programmi che navigano

il Web, esaminando le diverse pagine e seguendo i link in esse presenti• Seguono opportune politiche di navigazione (per es. per

decidere quando riesaminare una pagina già vista)• L'interazione con i Web server segue specifici protocolli

(per es. robot exclusion protocol, o robot.txt)• Non tutto il Web è accessibile ai crawler

21

robots.txt: esempio

www.domain.com

22

/

robots.txt

utenti

foto

aboutUser-agent: GoogleDisallow /utenti/fotoAllow: *Crawl-delay: 20 sec

http://www.domain.com/robots.txt

Deep vs surface Web

• Non tutto il Web è accessibile ai motori di ricerca• Il Web invisibile ("deep Web") è parecchi ordini di

grandezza più vasto del Web visibile ("surface Web")• Deep Web, esempi:• Pagine "vietate" dai Web server (robots.txt)• Pagine generate dinamicamente a fronte di query o di input forniti attraverso form• Pagine senza link entranti• Pagine accessibili tramite registrazione e login• Ecc.

23

Struttura del web: uno studio (vecchio ma interessante)

24Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html

17 million nodes

Strongly Connected Component: per ogni coppia di nodi c’è un cammino da uno all’altro

One can pass from any node of IN through SCC to any node of OUT. Hanging off IN and OUT are TENDRILS containing nodes that are reachable from portions of IN, or that can reach portions of OUT, without passage through SCC. It is possible for a TENDRIL hanging off from IN to be hooked into a TENDRIL leading into OUT, forming a TUBE -- a passage from a portion of IN to a portion of OUT without touching SCC.

http://www9.org/w9cdrom/160/160.html

Tipi di query

• InformativaObiettivo: trovare un'informazione• Navigazionale

Obiettivo: trovare una pagina web, che conosco già• Risorsa

Obiettivo: trovare una risorsa (non informativa) disponibile sul web

(schema non del tutto esaustivo, ad es. query “esplorative”)

• Il risultato è di solito (ma non sempre!) una lista di link a pagine web • Evoluzione: dal contenitore (anche) al contenuto

25

Search forms (Google)

26

Semplice: Avanzata:

Posso usare una sintassi complessa

Esempi:query AND queryquery OR query-queryterm site:urllink: x…. Cfr.

http://www.google.com/insidesearch/ http://bit.ly/13dakJx

http://www.google.com/insidesearch/

http://bit.ly/13dakJx

Google: evoluzione della home page Video sulla evoluzione di www.google.com dal 1998 al 2007http://www.youtube.com/watch?v=1vgprty39og

27

http://www.google.com/

http://www.youtube.com/watch?v=1vgprty39og

SERP: struttura tipica

28

Search box

Risultati sponsorizzati

Opzioni per la ricerca

Risultati "organici"

(non influenzati dalle

sponsorizzazioni)

Google:AdWords

Education

09 - Ricercare nel Web I