Upload
chance
View
44
Download
0
Embed Size (px)
DESCRIPTION
Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir. Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006. Abbiamo visto:. Informazione Gerarchia dell’informazione Teoria dell’informazione (C. Shannon) - PowerPoint PPT Presentation
Citation preview
Teoria e tecniche della catalogazione e classificazione
Utenti, documenti, linguaggi di indicizzazionericerca5ir
Prof.ssa Elisa GrignaniUniversità degli studi di Parma
aa. 2005/2006
T&T 2004/05 2
Abbiamo visto:
• Informazione• Gerarchia dell’informazione• Teoria dell’informazione (C. Shannon)
• Ciclo di trasferimento dell’informazione• Sistemi di recupero dell’informazione
T&T 2004/05 3
Gerarchia dell’informazione
Wisdom
Knowledge
Information
Data
T&T 2004/05 4
Teoria dell’informazione
Noise
Source DecodingEncoding Destination
Message Message
Channel
StorageSourceDecoding
(Retrieval/Reading)Encoding
(writing/indexing)Destination
Message Message
T&T 2004/05 5
Ciclo di trasferimento dell’informazione
Creation
Utilization Searching
Active
Inactive
Semi-Active
Retention/Mining
Disposition
Discard
Using Creating
AuthoringModifying
OrganizingIndexing
StoringRetrieval
DistributionNetworking
AccessingFiltering
T&T 2004/05 6
Struttura di un sistema IRSearchLine Interest profiles
& QueriesDocuments
& data
Rules of the game =Rules for subject indexing +
Thesaurus (which consists of
Lead-InVocabulary
andIndexing
Language
StorageLine
Potentially Relevant
Documents
Comparison/Matching
Store1: Profiles/Search requests
Store2: Documentrepresentations
Indexing (Descriptive and
Subject)
Formulating query in terms of
descriptors
Storage of profiles
Storage of Documents
Information Storage and Retrieval System
Adapted from Soergel, p. 19
T&T 2004/05 7
Sistemi IR: struttura (Cooper - Maron, 1985)
1. l’insieme delle possibili chiavi di accesso assegnate ai documenti;
2. l’insieme delle domande formulabili dagli utenti;
3. l’insieme degli indicatori di valore informativo da assegnare ai documenti;
4. una regola di recupero.
T&T 2004/05 8
Oggi (e domani)
• IR: alcuni concetti di base
T&T 2004/05 9
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05 10
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05 11
Utenti: bisogni informativi
• Perchè costruire sitemi IR?• Le diverse persone hanno bisogni
informativi diversi e del tutto svariati• Le persone spesso non sanno cosa cercano,
o possono non essere in grado di esprimere il loro bisogno informativo in modo utile
T&T 2004/05 12
Domande
• Una domanda (query) è una forma di espressione dei bisogni informativi dell’utente
• Può essere espressa in vari modi– in linguaggio naturale
– nei termini di un linguaggio di indicizzazione
• Le domande talvolta non rappresentano in modo accurato il bisogno informativo– Differenze tra una conversazione tra persone e una
espressione formale di ricerca
13 T&T 2004/05
Utenti: domande: cataloghi
Indagine sponsorizzata dal Council on Library Resources sull’utilizzo dei cataloghi online nelle biblioteche USA: Using online catalogs: a nationwide survey, New York, Neal-Schuman, 1983.
T&T 2004/05 14
T&T 2004/05 15
Utenti: domande: Web
Indagini sull’uso del Web:
• La gente che cosa cerca?
• Come utilizza i motori di ricerca?
– In quale percentuale trova ciò che sta cercando?
– Qual è il livello di difficoltà nel trovare ciò che cerca?
• Come si possono migliorare i motori di ricerca?
T&T 2004/05 16
La gente che cosa cerca nel Web?
• Studio di Amanda Spink et al., Ott. 1998
Indagine su Excite; dati tratti da un campione di 316 utenti intervistati tramite questionario
<www.shef.ac.uk/~is/publications/infres/paper53.html>
T&T 2004/05 17
What Do People Search for on the Web?Self-reported topics
• Genealogy/Public Figure: 12%• Computer related: 12%• Business: 12%• Entertainment: 8%• Medical: 8%• Politics & Government 7%• News 7%• Hobbies 6%• General info/surfing 6%• Science 6%• Travel 5%• Arts/education/shopping/images 14%
• Something is missing…
T&T 2004/05 18
What Do People Search for on the Web?
• 4660 sex
• 3129 yahoo
• 2191 internal site administr.
• 1520 chat
• 1498 porn
• 1315 horoscopes
• 1284 pokemon
• 1283 SiteScope test
• 1223 hotmail
• 1163 games
• 1151 mp3
• 1140 weather
• 1127 www.yahoo.com
• 1110 maps
• 1036 yahoo.com
• 983 ebay
• 980 recipes
50,000 queries from Excite 1997
Most frequent terms:
T&T 2004/05 19
Google come spirito del tempo Zeitgeist
• Andiamo a vedere la pagina:
<http://www.google.com/press/zeitgeist.html>
T&T 2004/05 20
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05 21
Documenti• Un documento è una rappresentazione di una
aggregazione di informazioni, considerata come una unità
• Cosa intendiamo con documento?– l’intero documento?– un suo surrogato?– parti?
M. Buckland, What is a Document, “JASIS”, Sept. 1997, pp. 804-809J. LeGoff, Documento/Monumento, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 5, pp. 38-48
T&T 2004/05 22
Raccolte di documenti / Collezioni
• Una collezione è una aggregazione fisica o logica di documenti– museo, pinacoteca– biblioteca – base di dati– biblioteca digitale– ...
Krzysztof POMIAN, Memoria, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 15, pp. 388-399
T&T 2004/05 23
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti• Linguaggi di indicizzazione, vocabolari
controllati (da approfondire nel modulo B del corso)
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05 24
Linguaggi di indicizzazione
• Indicizzazione a parole chiave non controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC
• Linguaggi di indicizzazione controllati ma non strutturati
• Thesauri: controllati e strutturati
• Schemi di classificazione: controllati, strutturati e codificati
T&T 2004/05 25
Vocabolari controllati
• Il controllo terminologico è un tentativo di fornire un insieme standardizzato e coerente di termini (quali voci di soggetto, nomi di persone o enti, notazioni di uno schema di classificazione) con lo scopo di portare un aiuto nella ricerca di informazioni
• Un esempio linguistico: Word Net <www.cogsci.princeton.edu/~wn>
T&T 2004/05 26
Vocabolari controllati• Soggettari: p.e., Soggettario di Firenze, Library of
Congress Subject Headings: <http://authorities.loc.gov/>
• Thesauri: p.e., ERIC Thesaurus of Descriptors <www.ericfacility.net/extra/pub/thessearch.cfm>,
The Art and Architecture Thesaurus <www.getty.edu/research/conducting_research/vocabularies/>,
Medical Subject Headings (MESH)• Name Authority File: <http://authorities.loc.gov/>
• Schemi di classificazione: p.e., CDD, CDU, CC• ...
T&T 2004/05 27
Sistemi pre- e post-coordinati
• Sistemi pre-coordinati: è l’indicizzatore (bibliotecario, etc.) che costruisce adeguate rappresentazioni del contenuto dei documenti.
• Sistemi post-coordinati: è l’utente o chi conduce la ricerca che combina i singoli concetti per descrivere documenti che potrebbero essere considerati rilevanti.
T&T 2004/05 28
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
T&T 2004/05 29
La prossima volta:
• Concetti di base IR – Processo di ricerca– Valutazione - Rilevanza