Upload
alba-ferrante
View
222
Download
0
Embed Size (px)
Citation preview
IL PROBLEMA DELLA RICERCA DI INFORMAZIONI
su Internet e sul web
Internet come “rete informativa”:uno schema
Le fonti di informazione
Le risorse informative
La “rete”
Gli utenti
La rete Internet: alcuni caratteri distintivi
– facilità d’accesso (per fonti e utenti)– varie modalità di accesso (rete dati, telefonica, satellite,…)– costi (relativamente) modesti– protocolli standard largamente diffusi
– dimensione in continua espansionee potenzialmente “illimitata”
– struttura non gerarchica– “link”ipertestuali– struttura “peer-to-peer”
– ambiente dinamico e “ricco”– configurazione e struttura facilmente modificabile– supporto multimediale (informazioni “ricche”; elaborazioni)
– varietà dei canali di comunicazione– possibile bidirezionalità– one to one, one to many, many to many, ecc.
Fonti e risorse di informazione su Internet
• estrema eterogeneità delle fonti (istituzioni, aziende, singoli individui, ….)
• estrema varietà delle informazioni (come contenuti, formati, ….)
• collegamenti multidimensionali, multilivello, ridondanti (il “deep Web”)
• assenza di censura/controllo• facilità di “aggiornamento”• varie modalità di fornitura (es: informazioni protette, a
pagamento, libere, etc.)
Il “deep Web”
• Il livello più “interno” dell’informazione reperibile in Internet e/o tramite il World Wide Web:– i database e le banche dati accessibili da Internet– i file interni dei server– ecc.
Fonte: Brightplanet
Utenti delle informazioni su Internet
• estrema eterogeneità dei fabbisogni informativi– tra utenti diversi– per lo stesso utente
• diverse modalità di accesso – tempi, costi, disponibilità
• numero crescente di “non specialisti”
Come reperire informazione?
I motori di ricerca e i relativi problemi
Information Retrieval “classico”
I MOTORI DI RICERCA
I problemi dei motori di ricerca• difficoltà di reperimento
• mancanza di catalogazione– struttura non gerarchica– elevato dinamismo– mancanza di controllo d’accesso
• varietà di formati• varietà di livelli (il “deep Web”)
QUINDI
il problema della COPERTURA INSUFFICIENTENESSUNO > 40% di pagine Web coperte (fonte: The Industry Standard)
Altri problemi dei motori di ricerca• modalità di ricerca troppo semplici
• analisi delle ricorrenze non sufficiente• insufficiente gestione dei “link”• insufficiente gestione della varietà di formati• insufficiente gestione della lingua
• difficoltà di ricerca da parte dell’utente• nell’esplicitare/formalizzare il bisogno informativo• nella messa a punto della “strategia di ricerca”• per l’assenza di procedure “ottimali” o standard
• i motori di ricerca sono cambiati• come funzionano “veramente”• il problema dei siti sponsorizzati
Un ulteriore problema
• problemi di qualità/affidabilità– grado di “aggiornamento” della pagina– mancanza di controllo– reputazione dei siti ….– …. o certificazione dei siti?
Altri problemi dei motori di ricerca• modalità di ricerca troppo semplici
• analisi delle ricorrenze• insufficiente gestione dei “link”• insufficiente gestione della varietà di formati• insufficiente gestione della lingua
• problemi di qualità/affidabilità• grado di “aggiornamento” della pagina• reputazione/certificazione dei siti, delle pagine
• difficoltà di ricerca da parte dell’utente• nell’esplicitare/formalizzare il bisogno informativo• nella messa a punto della “strategia di ricerca”• per l’assenza di procedure “ottimali” o standard
Se i motori di ricerca non risolvono il problema, cosa si può fare?
• La risposta tecnologica?– analisi del linguaggio naturale– agenti “intelligenti” di ricerca– il “semantic Web”– ...
• Al momento non sembra la soluzione
QUINDI?
Strategie (diverse) dei motori di ricerca• Specializzazione (es. “www.scirus.com”)• integrazione (es. google)• o ancora sponsorizzazione• ….
MOTORI DI RICERCA COME “OPERATORI BUSINESS”
(INTERMEDIARI INFORMATIVI)
Le fonti di informazione
Le risorse informative
La “rete”
Gli utenti
Strumenti di ricerca, ossia:
Intermediari informativi
Gli intermediari informativi
• Funzione chiave: facilitare l’interazione domanda-offerta di informazione
– rendere visibile delle risorse/fonti di informazione– facilitare il reperimento da parte degli utenti
• Intermediari come operatori business• Varietà di situazioni varietà di operatori
– in relazione alla classe di utenti (specializzazione, competenze, lingua, ….– in relazione alla copertura– in relazione alle prestazioni richieste( velocità, precisione, affidabilità …)– in relazione al “costo” di intermediazione
• Catene di intermediari
Varietà di intermediari informativi: esempi• motori di ricerca (www.google.com) --> Ricerca libera “generalista” nel Web • metamotori (www.mamma.com) ---> Ricerca “superficiale” ma tramite diversi motori di
ricerca• directory (www.yahoo.com) --> Ricerca all’interno di elenchi preclassificati• Portali istituzionali (www.istat.it) --> Fornitura specifica di informazioni “ufficiali”• Portali specializzati (www.2night.it) --> informazione su argomenti specifici• Portali di settore (“vortal” - www.paginetessili.it) --> informazione economica settoriale • Cybermall (es. www.mrprice.it) --> informazioni commerciali su prodotti, ecc.• “Yellow page” e altri elenchi (www.paginegialle.it, www.whowhere.com)
--> elenchi di nominativi, email, ecc. (USA)• Siti di comparazione (o “shopbot” - www.kelkoo.com): informazione comparativa di
prodotti• Banche dati bibliografiche (v. ad es. www.cab.unipd.it): documentazione e pubblicazioni• editori online (es. www.ilsole24ore.com): informazione di fonte giornalistica• servizi con operatore (es. www.profinder.it ): ricerca “assistita”
Intermediari informativi: comparazione
motori
portali
editori online
servizi con operatore
interazione automazione affidabilità
La capacità dell’utente
• Information literacy: imparare a cercare su Internet
• Oggi:– utenti sempre più vari– non competenti del mezzo Internet– approccio di ricerca “intuitivo”
Impostare una ricerca: elementi
1. Il quesito, l’oggetto, l’obiettivo della ricerca (“cosa” e “perché”)2. Il tempo e la capacità di chi cerca3. La qualità delle risposte
• Adeguatezza agli obiettivi/domande di ricerca• Completezza – esaustività• oppure: focalizzazione
• Affidabilità/autorevolezza della fonte; possibili modalità di verifica• Grado di aggiornamento
Quali strumenti per quali ricerche?• La navigazione diretta
– necessario conoscere in anticipo l’indirizzo• pre-selezione da altre fonti (non in rete)• metodo “snowball”• come reperire all’interno del sito?
» NAVIGAZIONE LIBERA» MOTORI DI RICERCA INTERNI
– Siti “autorevoli”? Ufficiali?• Motori di ricerca
– google, ecc.– ricerca “banale” (analisi delle ricorrenze); come scegliere le parole chiave?– Servizi aggiuntivi (es. traduzioni, cache)– fonti integrate (mappe, foto, news, libri, …)– siti sponsor?
• Directory (yahoo)• Esaustive?• siti sponsor
• Metamotori• motori di motori (es.: mamma; metacrawler)• stesse problematiche dei motori, con un’estensione della copertura
• Portali• ricerca specifica e delimitata. Adeguatezza alla ricerca?• problema affidabilità del servizio
• Servizi specifici (es. yellow page, shopbot, ecc.• Quale copertura? Adeguatezza alla ricerca?• Come sono classificate le informazioni?• Sono sponsorizzati?• Come si effettua la ricerca?
• Editori online• stessi limiti dei quotidiani su carta (fonte secondaria, problema affidabilità,..)
Quali strumenti per quali ricerche? (2)
Approcci alla ricerca: il “browsing”QUESITO/OBIETTIVO DI RICERCA
VALUTAZIONE (RAPIDA)DEI RISULTATI
RICERCA SU UN MOTORE
NAVIGAZIONE OUTPUT
OUTPUT
Approcci alla ricerca: il “berry picking”QUESITO/OBIETTIVO DI RICERCA
VALUTAZIONE (RAPIDA)DEI RISULTATI
OUTPUT
RICERCA (su vari strumenti); NAVIGAZIONE
Approcci alla ricerca: il “searching”QUESITO/OBIETTIVO DI RICERCA
IMPOSTAZIONE:- identificazione del problema e del contesto cognitivo- identificazione e scelta di concetti, nozioni, parole chiave- scelta degli strumenti di ricerca più opportuni
RICERCA (su vari strumenti)
COMPARAZIONE EVALUTAZIONE DEI RISULTATI
OUTPUT
COME RENDERE VISIBILI LE PROPRIE PAGINE?
• Conoscendo il funzionamento dei motori di ricerca– Ad es.: includere le parole che si vuole siano indicizzate;
ripetere più volte le parole (si deve ragionare sul modo di cercare degli utenti nel motore di ricerca)
– Evitando di mettere le informazioni chiave nelle sotto-sotto-sotto pagine
• “Pagando” per una migliore collocazione• Ricorrendo ad altri servizi (es. banner o link in “siti di
traffico”)