Sistemi per il recupero delle informazioni SISTEMI PER IL RECUPERO DELLINFORMAZIONE

  • View
    216

  • Download
    2

Embed Size (px)

Transcript

  • Slide 1
  • Sistemi per il recupero delle informazioni SISTEMI PER IL RECUPERO DELLINFORMAZIONE
  • Slide 2
  • Information Retrieval LInformation Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dellinformazione, al fine di rendere agevole allutente il soddisfacimento dei propri bisogni informativi. le informazioni devono essere rappresentate ed organizzate in modo da fornire all'utente un facile accesso all'informazione cui interessato. le richieste di informazione dell'utente vengono tradotte in queries che vengono elaborate da un motore di ricerca o sistema di IR. Nella forma pi comune le queries sono espresse come insiemi di parole chiave (keywords o termini indice) che riassumono l'informazione desiderata. Data una collezione di documenti e un bisogno informativo dellutente, obiettivo dellIR di recuperare, allinterno di una collezione, tutti e solo i documenti rilevanti. rispetto alla teoria classica delle basi di dati, lenfasi non sulla ricerca di dati ma sulla ricerca di informazioni.
  • Slide 3
  • Rilevanza Per essere efficace nel suo intento di soddisfare il bisogno di informazione dell'utente, un sistema di IR deve in qualche modo interpretare il contenuto dei documenti ed ordinarli a seconda del grado di rilevanza rispetto a ciascuna query. Per ottenere l'interpretazione del contenuto del documento necessario estrarre l'informazione sintattica e semantica dal testo. La difficolt non sta solo nella scelta del modo in cui estrarre tali informazioni, ma anche in come utilizzarle per stabilirne la rilevanza. Pertanto la nozione di rilevanza fondamentale per l'IR. Lo scopo principale di un sistema di IR di recuperare tutti i documenti rilevanti per la query dell'utente cercando di recuperare il minor numero possibile di documenti non rilevanti.
  • Slide 4
  • IRS: descrizione funzionale
  • Slide 5
  • I vari passi
  • Slide 6
  • IL PROBLEMA INFORMATIVO Il problema informativo corrisponde ad un particolare bisogno di informazione dellutente. Tramite un processo di rappresentazione, il problema informativo viene tradotto in una richiesta espressa nel linguaggio di interrogazione dellIRS. Analogamente, dai documenti, tramite un altro processo di rappresentazione, spesso chiamato di classificazione o indicizzazione, si passa al surrogato dei documenti, cio alla loro rappresentazione nellIRS. Sia nella classificazione di un documento da parte di un esperto che nella formulazione della richiesta da parte di un utente pu essere usato un vocabolario controllato organizzato in un thesaurus.
  • Slide 7
  • IL PROBLEMA INFORMATIVO I metodi di rappresentazione dei documenti si possono separare in due categorie: quelli che danno una rappresentazione diretta del contenuto dei documenti e quelli che ne danno una rappresentazione indiretta. Nel primo caso il documento rappresentato dalle parole in esso contenute mentre nel secondo il documento rappresentato da termini di indicizzazione derivati manualmente o automaticamente e che ne descrivono in modo sintetico e completo il contenuto Rappresentazione dei documenti in forma sintetica: indicizzazione: lidea quella di associare a ciascun documento un insieme di termini significativi che saranno utilizzati per selezionare il documento.
  • Slide 8
  • IL PROBLEMA INFORMATIVO Possiamo pensare ad un IRS come ad un sistema in cui da un lato entrano documenti che vengono sottoposti ad un processo di indicizzazione, per ottenerne una rappresentazione sintetica, dallaltro entrano le richieste dellutente che devono essere codificate in modo analogo, cio come un insieme di termini. In fase di recupero: formalizzazione delle richieste confronto tra richieste e rappresentazione di documenti
  • Slide 9
  • IL PROBLEMA INFORMATIVO Si definisce tecnica di recupero (retrieval technique) di un IRS la tecnica adottata dal sistema per confrontare linterrogazione utente con il surrogato dei documenti. La tecnica di recupero adottata da un IRS, il meccanismo interno del sistema che lo guida nel giudicare come rilevanti o non rilevanti i documenti di una raccolta, in rapporto ad una specifica interrogazione. Le tecniche di recupero sono di due tipi: per corrispondenza esatta (exact match) per similitudine o corrispondenza parziale (partial match) Risultato Binario (si/no) il risultato soddisfa o non soddisfa la richiesta (corrispondenza esatta) Probabilistico il risultato soddisfa la richiesta in una qualche misura (corrispondenza parziale)
  • Slide 10
  • Polisemia Il fatto che l'informazione all'interno dei documenti e le queries siano rappresentate da espressioni del linguaggio umano costituisce un'ulteriore complicazione del task dell Information Retrieval. Un primo problema quello della polisemia: a differenza dei linguaggi formali, dove alle parole del linguaggio corrisponde un unico significato, nel caso dei linguaggi naturali le parole possono avere pi di un significato (in questo caso si dice che la parola polisemica), col risultato che l'ambiguit di una singola parola pu venire propagata al resto della frase. per esempio l'aggettivo vecchio pu avere sia il significato di vecchio utilizzato per descrivere qualcosa come appartenente ad un periodo od un'epoca precedente, sia quello di vecchio nel senso di usato, logoro; mentre pellicola pu essere sia un film che il supporto su cui vengono registrate le immagini in una macchina fotografica. Quindi dicendo una vecchia pellicola ci si pu riferire sia ad un film d'annata, sia ad un rullino rovinato.
  • Slide 11
  • Sinonimia La sinonimia, ovvero l'esistenza di parole con significato equivalente od identico (ad esempio convegno e riunione), ha per certi versi un effetto contrario: infatti in questo caso, in risposta ad una query che contenga una parola con sinonimi, la probabilit che l'insieme dei documenti ritornati sia incompleto rispetto all'insieme dei documenti rilevanti per la query sicuramente superiore al caso in cui la query non contenga parole con sinonimi.
  • Slide 12
  • Polisemia e Sinonimia Il problema della sinonimia pu essere risolto facendo ricorso a risorse lessicali come i thesauri, i quali, data una certa parola, permettono di trovarne i sinonimi. Invece la risoluzione della polisemia avviene attraverso il processo di disambiguazione semantica (in inglese Word Sense Disambiguation WSD). La realizzazione di un algoritmo efficiente per la disambiguazione semantica tuttora un problema aperto nel campo dell'elaborazione del linguaggio naturale.
  • Slide 13
  • Descriviamo ora il processo di indicizzazione
  • Slide 14
  • Processo di indicizzazione Manuale: una persona che sceglie quali termini meglio caratterizzano il contenuto di un documento Pi semantico e quindi migliore Soggettivo, costoso Linguaggio controllato Automatico: fatto da un programma Pi sintattico, su base statistica e quindi peggiore Economico, scalabile Linguaggio libero
  • Slide 15
  • Indicizzazione: controllata versus non controllata Controllata: controllabilit del dizionario, quindi possibilit di decidere a priori quali descrittori utilizzare per indicizzare una collezione di documenti; linsieme di descrittori che forma il dizionario prefissato ma, interrogazioni e documenti sono indicizzati con descrittori che devono appartenere al dizionario indicizzazione manuale di solito controllata per ridurre lincoerenza tra gli indicizzatori precisa, ma pu essere incompleta e le interrogazioni potrebbero non essere soddisfatte
  • Slide 16
  • Indicizzazione: controllata versus non controllata Incontrollata o non controllata: forma il dizionario man mano che i documenti sono elaborati il dizionario costituito da tutti i descrittori che appaiono almeno una volta in almeno un documento pu essere imprecisa, ma le interrogazioni sono soddisfatte con maggiore successo
  • Slide 17
  • Qualit dellindicizzazione Finalit: rappresentare il contenuto semantico di un documento con due obbiettivi: Esaustivit: assegnare un grande numero di termini indice Specificit: il grado di specificit del linguaggio utilizzato termini generici: non sono adatti a distinguere i documenti rilevanti da quelli irrilevanti termini specifici: permettono di reperire pochi documenti, ma la maggior parte di questi rilevante Modalit: estrazione diretta dal documento intero (full text) o mediante lutilizzo di fonti esterne (es: dizionari controllati) tecniche associative (tesauri, pseudo-tesauri, clustering)
  • Slide 18
  • Esaustivit E la capacit dellindice di rappresentare il contenuto informativo della collezione Lesaustivit dipende dal numero di descrittori assegnati a ciascun documento e dal numero di documenti a cui stato assegnato un descrittore Se si rappresentasse un indice con una matrice in cui le righe sono i documenti, le colonne sono i descrittori e un elemento la frequenza del descrittore nel documento, unindicizzazione ad elevata esaustivit sarebbe rappresentata da una matrice densa, ovvero un indice in cui un descrittore assegnato a molti documenti e un documento descritto da molti descrittori
  • Slide 19
  • Specificit Capacit dellindice di discriminare i documenti tra loro sulla base del contenuto informativo Se lindice in grado di discriminare i documenti, allora la collezione viene indirettamente organizzata in sottocollezioni in cui i documenti condividono aspetti comuni del proprio contenuto informativo Nellindicizzazione ad elevata specificit, un descrittore assegnato a pochi documenti e, se il de