Motori di Ricerca presente e futuro prossimo

Paolo Ferragina, Università di Pisa

Motori di Ricercapresente e futuro prossimo

Cosa è un motore di ricerca ?

Un lavoro storico: Brin & Page [1998]

Motore di Ricerca: struttura W

Crawler

Archivio Pagine

Analizzatorepagine

Controllo

Risolutore

AnalizzatoreRilevanza

TestoStruttura

Utilità

Indicizzatore

Il Web

“Surface Web”: 25 ÷ 75 Terabytes (1Tb = 1000 Gb) 6 miliardi di pagine (cambiano circa 10 milioni al giorno) Pagina in media 5 ÷ 40Kb, #links ~ 10 Circa il 23% delle pagine è duplicato

“Hidden Web”: circa 500 volte più grande Siti intranet, database, pagine dinamiche,… Circa 4,200 Tb di dati testuali interessanti

Una immagine pittorica del Web

Alcuni dati

Velocità di cambiamento [snapshot settimanale nel 2004: 154 web sites, 35 mil pg, 65Gb]

Normalizzatarispetto prima

settimana

Motori di Ricercapresente e futuro prossimo

Cosa è un crawler ?

Fase di Crawling Numerosi problemi di progettazione:

Copertura: Quali pagine occorre visitare ?

Aggiornamento: Quanto spesso occorre visitarle ?

Invadenza: Come minimizzare il carico dei siti visitati ?

Efficienza: Come parallelizzare il processo di “crawling” ?

Scalabilità: Come gestire il “flusso” di pagine ?

Link Extractorwhile(<ci sono pagine da esaminare nel repository>){ <prendi una pagina p> <estrai i link contenuti in essa> <inserisci i link estratti in una coda, ciascuno con una priorità dipendente dalla politica scelta> <marca p come pagina da cui abbiamo estratto i link>}

Downloaderwhile(<ci sono link assegnati dal Manager>){ <estrai i link> <scarica le pagine pi dalla rete>

<invia le pi al page repository>}

Crawler Manager<estrai un gruppo di link dalla coda in ordine di priorità>while(<ci sono link nel gruppo>){ foreach link u { if ( (u “pagine già viste” )

|| ( u “pagine già viste” && <sul Web server la pagina è più recente> ) && ( <u è un link accettato dal robot.txt del sito>) ) {

“Ciclo di vita” di un Crawler

Politica di selezione delle pagine Data una pagina P, definire quanto sia “buona”.

Esistono molte metriche: Guidate dal topic coperto dal motore Guidate dalla popolarità BFS, DFS, Random Strategie combinate

BFSDFS

Raggiungimento di pagine interessanti

Alcuni risultati

Focused Crawling Si scelgono selettivamente le pagine sulle quali continuare la visita,

in accordo a un insieme di topic rilevanti definiti apriori.

I topic sono specificati mediante documenti campione I topic sono specificati mediante indirizzi

Risparmio di risorse di rete e di hardware.

Esempi di crawler open-source Nutch, also used by Yahoo Hentrix, used by Archive.org

Motori di Ricerca presente e futuro prossimo

Documents

Copywriting Per I Motori Di Ricerca

Scrivere per i motori di ricerca

Ale Agostini:come Funzionano I Motori Di Ricerca

Presentazione libro Posizionamento motori di ricerca giornale Cronaca

Vendere Online con Motori di Ricerca & Social Networks

Ottimizzazione per i motori di ricerca

Posizionamento nei Motori di Ricerca - eBook Gratismotori di ricerca (la prima è gestita direttamente dai motori di ricerca che fanno comparire i link al tuo sito fra i collegamenti

La ricerca dell’informazione nel Web: indici e motori

Motori di ricerca internazionali - netmar.biz di ricerca internazionali.… · Motori di ricerca Motori di ricerca internazionali Algeria Algeria INFO Algeria SITES Algerian Sites

I Motori di ricerca

SEOGuardian - Report posizionamento nei motori di ricerca - Valigia

La visibilità dei siti sui motori di ricerca

Informatica Ricerca di informazioni nel web. I motori di ricerca

Ricerca avanzata con i motori di ricerca · Ricerca avanzata con i motori di ricerca La home page del motore di ricerca Google () presenta una casella da riempire con le parole della

Motori di ricerca e turismo

Anatomia motori ricerca

Esercito nuova pace - motori di ricerca

Come stanno cambiando i Motori di Ricerca

GoBack - UniFIsigno/did/inet/2005-2006/2-2_ricerca.pdf · Motori di ricerca Lista di motori di ricerca Motori di ricerca “intelligenti” Rilevanza Importanza intrinseca Il PageRank

Webinar: SEO & Posizionamento nei Motori di Ricerca